网络环境下数字图书馆的信息组织

资源类型:pdf 资源大小:43.00KB 文档分类:文化、科学、教育、体育 上传者:陈念东

文档信息

【作者】 陈茂华 

【关键词】数字图书馆 信息组织 网络环境 

【出版日期】2005-04-18

【摘要】阐述了网络环境下信息组织的方式,探讨了数字图书馆信息组织方式的发展趋势。

【刊名】情报杂志

全文阅读

1 网络环境下信息组织的转变信息组织就是根据信息本身的特点 ,运用各种工具和方法 ,依照一定的标准 ,对信息进行加工、整理、排列与组合 ,使之有序化、系统化、规律化、高级化 ,从而有利于信息的存储、传播、使用等 ,以满足人们信息需求的过程和活动。传统意义上的文献组织 ,事实上是将文献由一次到三次的转化过程。一次文献是指各种分散的科技图书、科技报告、会议文献、技术标准、报纸、新闻稿、各类型期刊等 ;二次文献则是指将各种分散的、无组织的一次文献经过替代、重组、综合、整理和简化 ,从而形成的形形色色的检索工具 ,如文摘、名录、索引、指南等 ;二次文献经过二次替代 ,又形成书目之书目、综述、述评等三次文献。在文献由一次信息向三次信息的流动与演变过程中 ,不断加入了文献著者、编辑者、信息加工者的创造性劳动 ,逐步使得文献所含知识得到鉴别、提纯和综合 ,从而使文献流不断增值 ,同时 ,也使得信息由分散到集中、由无组织到系统化。随着网络化进程的不断加快 ,网络信息逐渐取代文献信息成为信息主流 ,前者较之后者有着不同的特点 :a.数量多而庞杂。Internet是一个基于TCP/IP协议的连接各国、各机构数以万计的计算机网络的网络 ,是一个集各种信息资源为一体的信息资源网。网上的信息资源不计其数 ,而且每天都在不断地迅猛增长。由于政府机构、企业乃至个人都可以在网上发布信息 ,因此 ,网络就成为无所不有的庞杂信息源 ,并且有跨地区、分布广、多语种、高度共享的特点。b .内容丰富且分布不均。网络信息涵盖了各学科领域 ,如人文科学、社会科学、自然科学、工程技术信息等 ,且跨地区、多语种。c.类型繁多 ,组织无序。网络信息资源包括网上出版物 (电子报刊、电子工具书等 )、动态信息 (新闻、会议、广告、交通、天气、股市行情等等 )、书目数据库、软件资源及其他信息(个人主页、BBS、E -mail等) ,这些信息既有文本的 ,也有以声音、图形、图像存储的。信息来源分散 ,没有统一的管理机构和发布标准。d.随机变化时效性强。网络信息具有高度的动态性 ,不只是各种信息处在不断更新、淘汰的状态 ,其所连接的网络、网站、网页也都处在变化之中。e.超文本链接。网上信息的组织是以超文本链接技术构成立体网状的联系 ,他使信息关联性加强 ,相关信息通过节点链接起来。由于存在这些差异 ,图书馆的传统文献组织工作也由单纯的文本组织形式向网络信息处理方式转变 ,特别是现在正在进行的数字图书馆工程就是以网络传输为基础的。2 数字图书馆的信息组织  2 .1 数字图书馆信息资源的特点 a.关联关系数字化资料之间常以部分 /整体、序列等关系相关联。例如 ,一份由页、章、索引、插图等构成的数字化文本 ,一个包含多页文本、若干嵌入图片和许多链接的WWW对象。b.同样的项目有许多种数字存储格式。有些是可以相互转换的 ,如一幅未压缩的原始图像和它的无损压缩版本 ,有些则含有不同的信息 ,如一页文本的SGML格式和PostScipt格式。c.不同版本如扫描图片的高质量存档版本和它的缩微版。d.不同权限和许可所构成的一个信息项的每个元素可有不同的权限和许可。例如 ,页的文字和图片可以分属不同的作者。e.不同工作模式的用户获取资料的方式受限于其所处的计算机系统、网络环境和资料的大小。例如 ,拨号上网的用户和通过专线上网的用户的工作模式可能完全不同 ,尽管他们所进行的工作一样。  2 .2 数字图书馆的信息组织方式2 .2 .1 自由文本组织方式。这种信息组织方式主要用于全文数据库建造 ,是对非结构化的文本信息进行组织和处理的一种方式 ,是数字化图书馆提供信息服务的一种主要方式 ,也是 2 0世纪就开始构想的“无纸化图书馆”的技术基础。所谓全文数据库 ,是将一部图书、一篇文章或一种杂志、一份报纸的全部文本都输入计算机 ,使之成为计算机可以阅读和处理的文本。这种信息组织方式使图书馆藏面积大大节约 ,从而实现图书馆信息的海量存储 ,且较纸质文献更易保存。自由文本方式不是对文献特征的格式化描述 ,而是用自然语言深入揭示文献中的知识单元 ,并按文献全文的自然状况直接设置检索点。它所组织的是人们所创造或采集到的网外全文信息 ,属于粗加工的一次文献组织方式。2 .2 .2 数据库方式。数据库是对大量规范化数据进行管理的技术 ,是近年来比较流行的网络信息组织方式。数据库技术可以有效地处理大量结构化的数据 ,这样可极大地提高信息的有序性、完整性、可理解性和安全性 ,效率有了明显的提高 ,大大降低了网络的负载 ,而且大量的信息系统的建立为网络信息系统的构建提供了现成的数据和经验模式。2 .2 .3 主题树方式。主题树方式要将所有获得的信息资源 ,经过甄别 ,分门别类地按照事先不确定的概念体系结构加以组织 ,建立主题类目和子类目。主题树方式由于采用人工编制 ,具有科学性、专题性特征 ,能较好地满足人们按类浏览专题信息的需求。它是信息组织中常见的方法 ,优点在于简单易用 ,屏蔽了网络信息资源系统对于用户的复杂性 ,提供了一种基于树型浏览方式网络信息浏览界面 (信息检索按照一定的体系结构 ,逐次查看 ) ,因而对于用户而言 ,目的性强 ,查准率高。2 .2 .4 超媒体方式。这是一种基于知识单元的新型信息组织方式 ,它借助超文本技术来实现。超文本技术将文本信息存储在无数节点 (node)上 ,一个节点就是一个相对独立的“信息块” ,节点之间用“链”(link)联接 ,由此形成信息网络 ;它也可以链接声音、图像 (形 )、影视等多媒体信息 ,这就是超媒体技术。超媒体方式以符合人们跳跃性思维习惯的非线性的方式组织信息 ,具有良好的包容性和可扩充性 ,超越了媒体类型对信息组织与检索的限制 ,实现了链接浏览的搜寻方式 ,避免了检索语言的复杂性。超媒体方式是网络信息组织未来的发展方向 ,其存在的不足在今后随着技术的发展会得到逐一解决。2 .2 .5 搜索引擎方式。这种方式是依据计算机软件程序的动作 ,非人工构建的 ,是目前网上二次信息组织的主要方式之一。它根据数据网络协议在网上漫游 ,发现新的网址、网页信息 ,抽取、排序、归并建立网络索引数据库 ;数据库按一定方式、结构存储 ,提供特定处理系统需要的相关信息 (包括网址及相关描述性信息、计算机可识别的字段标识符 )。这种方式的自动化程度高 ,更新速度快 ,并可提供位置检索、概念检索、截词检索、嵌套检索等。2 .2 .6 指引库方式。指引库常用于组织网上专题性强的二次信息。它是一个由语义信息、文献信息、链接信息组成的语义———文献双层数据结构。其中语义信息与语义链集合构成双层结构的第一层 ;文献信息与结构链构成另一层 ;链接信息由不同语义节点的语义链、不同文献节点的结构链以及链接于语义节点和文献节点之间的链组成 ,穿行于第一、二层之间。以上几种信息组织方式大体可分为两类 :自动方式与人工方式。前者省时省力 ,但检准率低 ;后者耗资耗时 ,但检索效果好。如何将两者有效地结合 ,扬长避短 ,从而达到最佳的检索效果 ,是数字图书馆环境下图书馆员迫切需要解决的问题。2 .2 .7 Google的信息组织方式。目前 ,国外有学者提出了图书馆麦当劳化的观点 ,即具有高效性、可预见性、可测量性和可控制性四个特征。而读者在利用图书馆的过程中也可能出现麦当劳现象 ,即考虑成本的高低、质量的好坏、方便与否 ,并希望其成本的投入能得到最优质的“产品”。对于以服务为宗旨的图书馆来说 ,其信息组织方式也要对这一快餐文化现象有一定的适应性。搜索引擎网方式是二次信息组织的主要方式 ,较有名的有Google、搜狐、Yahoo!等。下面 ,就以Google为例来探讨一下数字图书馆的信息组织方式。Google作为元老级的搜索引擎 ,基本上发挥了自动方式快而全、人工方式准而优的特点 ,是网络信息组织的典型代表。虽然它也存在着采集信息速度慢、分类体系缺乏统一标准、成本高等不足 ,不过它的组织方式对数字图书馆的信息资源建设有一定的借鉴作用。a.Google有一套自己完备的分类体系 ,归纳网上信息。它将传统图书馆学中分类的思想移植于网上信息的组织 ,以此为基础构筑类目体系 ,从而形成了一个由类目、子类目构成的可供浏览的详尽的目录等级结构。其总类目为 16个大类 :ArtsRecreationBusinessReferenceComputersRegionalGamesScienceHealthShoppingHomeSportsKidsandTeensSocialNewsWorld  根据其拥有的信息量及信息组织的需要 ,每一个基本类目下会细分为不同层次的次一级类目 ,级别越低的类目中的网站其主题越明确。以Home大类为例 ,它的部分子类目的结构如下 :一级类目 :Home二级类目 :ConsumerInformation三级类目 :Appliances  […… ]AirConditioners ( 13)    BarbecuesandGrills ( 6 )    Blenders( 4)    BreadMachines ( 7)    ……相关类目 :……     Shopping >HomeandGarden >KitchenandDining>Appliances     ……说明 :黑体字表示这个主题在Google等级式索引中是较为重要的主题 ,且出现次数很多 ,括号中的数字代表该主题词下收录的站点数量。有的主题还有四级、五级类目 ,自二级类目以下 ,Google设有相关类目 (RelatedCategories)。从以上可以看到 ,Google已经成为Internet信息资源的一个主题索引体系 ,其类目设计合理 ,结构完整、全面 ,类目等级层次鲜明 ,各级类目的详略、宽泛程度不一 ,从而为网上丰富的信息资源的归类 ,尤其是确切归类提供了基础和保障。实际上 ,划分类目是图书馆专业的老本行 ,著名的InternetScoutProject的分类专家AimeeGlassel认为 ,“印度著名分类学专家和图书馆学家阮冈纳赞的冒号分类法理论体系与Google网络信息资源的主题目录之间存在着密切的联系”。因此 ,数字化图书馆的信息资源建设可根据自身的特点 ,选择适用的分类法来划分类目 ,使信息的查找与使用更方便快捷。b .Google采用可浏览式等级主题索引 ,降低检索难度。对于一般的信息用户而言 ,掌握精确的检索主题词是比较困难的 ,Google这种详尽分类体系及浏览的主题索引特别有利于新用户掌握。而且 ,在用户所在的类目下 ,显示该级别类目所包含的条目数 ,若太多 ,用户可继续在此范围内进行关键词检索 ,经多次查找最终确定所需信息。这一功能为实施快速检索提供了基础和保证 ,使用户通过浏览检索来确定其不清晰的情报需求 ,以便根据需要随时调整检索范围。另外 ,“虚拟的信息集合”是Google的又一大优点 ,这主要体现在其拥有的概念模式和引用次序 (即分面排列次序 )的灵活性上。在传统的图书馆中 ,一本书只能放在书架的某一固定位置。但在数字化图书馆中 ,数字化信息资源却不再限制在惟一的物理位置上。可以将某一信息源分到类目结构的不同位置上。通过将分面分析方法应用到网络信息资源的组织中 ,Google能够为某一信息源在其巨大的分类等级结构中提供不同的路径分支入口 ,这样就使其能够从不同的路径 ,为检索相同的内容的不同用户提供服务 ,使其检索成功。c.Google通过用户推荐 ,补充信息资源。由于网络信息资源数量庞大 ,单靠一个机构很难遍历全部内容 ,不可避免地会遗漏一些非常重要的信息 ,即使有搜索软件的支持也往往不尽如人意。Google的数据来源之一就是先由用户主动提交 ,填写有关表格后 ,再由工作人员筛选并进行确切归类 ,这一做法充分利用了网络用户这一巨大群体。不过图书馆的信息资源还是以自身为主 ,是否由用户补充还应慎重。3 数字图书馆信息组织方式的发展趋势随着数据量的增长和人们对信息需求的变化 ,信息组织正

1 2

问答

我要提问