数据挖掘图书馆员应掌握的基本工具微引流

王绿园康梅英武汉解放军体育学院摘要:本文揭示了在未来数字图书馆中图书馆员进行信息服务的一种方式;论述了数据挖掘和WEB挖掘的基本原理和方法;强调图书馆员应掌握数据挖掘这项新技术的必要性

网站推广的工具

关键词:数据挖掘、WEB、INTERNET、信息服务、图书馆员一、引言随着信息时代的到来、INTERNET技术的发展,图书馆未来的功能变得越来越多样化

网站推广

由于WEB技术的巨大成功,人们越来越多地依靠INTERNET来获取知识、信息

显然,人们到图书馆的次数和时间已越来越少,总有一天,人们再也不会亲自跑到图书馆去借一本书或某个问题

面临着如此巨大的挑战,从事图书馆工作的人们提出了数字图书馆的设想

经过艰苦的研究已成功地建立了数字图书馆

数字图书馆是一个标准的电子信息基础设施,它采用分布数据存储,用户可以通过各种链接和操作在一个较大的地域范围内搜索和检索出自己所需的信息,而且整个操作对用户是开放的

也就是说,数字图书馆能够把数据存储在多个站点中,用户只须一个简单的操作就可从这些站点中搜索信息

数字图书馆是传统图书馆在信息时代的发展,它不但包含了传统图书馆的功能,还提供综合的信息访问服务

人们希望,数字图书馆将成为未来图书馆的信息中心和枢纽

但是,从网络技术角度来看,数字图书馆与其它WEB信息源没有两样,它们都是建立在INTERNET上的信息站点

从用户的角度来看,他们关心的是从INTERNET上获得信息和知识,他们不能体会到你是数字图书馆还是INTERNET上的一般站点

但是要从成千上万的WEB信息站点中检索到有用的信息是不容易的,有时甚至是不可能的,更何况信息的索要者往往没有多少时间在茫茫的数据海洋中漫游

我们知道在数字图书馆中,图书馆员是信息专家,他们是信息组织者、信息生产者、信息服务者和信息管理者

正是通过图书馆员的信息服务活动使数字图书馆有别于其它信息站点

那么,图书馆员特别是院校图书馆中的图书馆员在二十一世纪的数字图书馆中应如何进行信息服务

图书馆员须掌握什么先进技术工具为用户服务

这是当前图书馆界应该研究的重要问题

二、技术的选择WEB是一个非常成功的信息系统

这个系统为信息在全球范围发布和传播提供了机会,它允许任何人在任何地点任何时间传播和获取信息

WEB的非结构化信息传播和获取方式引发了信息爆炸

大量的非结构化的信息分散在整个INTERNET中

大量信息在给人们带来方便的同时也带来了许多问题:信息过量,难以消化;信息真假难以辨识;信息安全难以保证;信息形式不一致,难以统一处理

在信息的海洋中,即使是最先进的搜索引擎也只能从可以索引的WEB站点中获取信息

人们开始提出一个新的口号:“要学会抛弃信息”

人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率

”事实上,作为一个非专业的信息管理人员,要从茫茫的信息海洋中获取本专业最新、最权威知识和较为全面的信息,并从中得到有用的知识几乎变得不可能

要知道,各高等院校或研究所里的专家教授们由于研究课题计划的紧迫,他们急需本专业领域的最新最权威的知识和信息,他们没有时间在成千上万的站点中的数不清的页面中查找所需的信息

所以在信息的提供者与信息的消费者之间应有一个中间环节,通过这个环节,信息消费者能够快捷方便地得到想要的信息,正是这种迫切需要为图书馆员提供了展现才华的机会

图书馆员们运用信息管理技能,直接为用户提供有用信息

图书馆员们应抓住机会,认真考虑在INTERNET环境中,如何使其服务领域得以扩宽,从桌面服务扩展到基于WEB信息空间电子服务

WWW是众多情报类型中的一种,并且具有极大的特殊性

它的信息是分布在全球范围内,并且随时可变

这些分布在各地的信息允许任何人在任何地点任何时间传播和获取信息

为此,图书馆员必须选取某个工具来有效地组织和获取WWW中的信息

传统的搜索引擎根本不评估站点的内容,而只是机械地识别WEB设计者提供的关键字,即使是最优秀的搜索引擎也需要用户亲自访问到不同的站点并对信息加以验证

而WEB挖掘技术是克服这些缺点的最理想的工具

三、数据挖掘和WEB挖掘数据挖掘(DM)是信息技术(IT)领域中最热门话题之一

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程

何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识

人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样

原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据

发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的

发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护

因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持

在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点

当数据挖掘技术应用于网络环境下的WEB中就成为WEB挖掘(WM),WEB挖掘可以广义地定义为从WWW中发现和分析有用的信息

这个定义有两方面的意义:一方面它描述了自动地从数以百万计的WEB站点和在线数据库中搜索和获取信息和资料,这叫做WEB内容挖掘(WCM);另一方面,发现和分析用户访问一个或多个站点和在线服务的模型叫做WEB使用挖掘(WUM)

WEB中的异构型和非结构化的数据,使得发现、组织和管理信息变得非常困难

传统的搜索、索引工具,诸如L,AV,WC,ALIWEB等,虽然它们都能为用户提供一些方便,但它们都不提供结构化数据,也不提供分类、过滤和文档翻译等基本功能

近年来,研究人员正努力研究WEB内容挖掘,开发智能化的信息检索工具

基于代理的检索方法正是这种智能化的信息检索工具,它是一个人工智能系统

它可以代表某一特定用户,自动地或半自动地发现和组织基于WEB的信息,它可以根据用户的基本情况,自动检索出用户感兴趣的信息,并组织和翻译好这些信息

有些代理甚至可以自动学习用户的爱好,并根据用户的爱好为用户检索出相关信息

WEB内容挖掘的另一种方法是基于数据库的方法

这种方法是把WEB中异构的非结构化的数据集成和组织成结构化的数据,就像关系数据库那样,然后用标准的数据库查询机理和数据挖掘技术来访问和分析这些信息

Top