基于数据挖掘的数字图书馆检索技术研究论文
摘 要:现如今,数字图书馆在国内外引起了广泛的关注,成为图书馆领域的研究热点。本文先对数字图书馆的概念、组成和作用进行概述,然后从数字图书馆的检索技术方面对数据挖掘的概念、主要方式和常用的技术方法进行详细论述,并具体分析了数据挖掘在数字图书馆的检索技术领域中发挥的作用,得出数据挖掘在未来的图书馆发展中具有非常可观的应用前景的结论。
关键词:数据挖掘 数字图书馆 应用前景 检索技术
1 数字图书馆
1.1 概念解析
作为高新技术下的产物,数字图书馆的研究不仅在科学技术领域突飞猛进,而且也为人类的社会事业做出了突出贡献。不同于现实中的图书馆,数字图书馆是虚拟的,它将分散的各种信息资源以数字化的形式存储,以网络化的方式实现互联,以此提供及时的信息,实现资源共享。它是以网络环境为基础的可共享的可扩展的网络知识系统,是一种能方便快捷地为用户提供数字化信息资源的高水平服务机制,也是面向未来互联网发展的信息管理模式。只有深入理解数据挖掘技术,才能不断促进数字图书馆检索技术的发展,从而充分发挥出数字图书馆在图书馆领域的重要作用。
1.2 组成及作用
数字图书馆包括能够服务于广域网的网络设备和通信条件,还有一整套用于信息的管理维护和用户服务的软件系统,这个软件系统可以划分为5个模块:权限管理模块、获取与创建模块、存储与管理模块、访问与查询模块以及动态发布模块。
数字图书馆是在传统图书馆的基础上发展而来,既包含了传统图书馆中的功能,还融合了档案馆、博物馆等中的功能,可以为公众提供综合信息的访问服务,在社会文化、电子政务、大众媒介等公众信息传播中广泛应用。
2 数据挖掘在数字图书馆检索技术中的概念
数据挖掘在具体的数字图书馆检索中的概念指的是,在没有给出明确假设的前提下对图书信息资源进行挖掘,也可以理解为在大量的图书统计数据中对内在规律和特点进行分析,这里的挖掘对象可能是不同类型,不同物理服务器上的数据库。现在市场上已经出现了很多“数据挖掘系统”,但大多数只能称的上是机器学习系统或是实验系统原型,因为这些系统更多地是进行数据检索,并不能真正地处理大量数据,实现数据挖掘。真正的数据挖掘既涉及多种学科技术的集成,又包涵数据库技术、统计学、高性能计算、数据可视化、信息检索、模式识别等领域。借助数据挖掘,数字图书馆用户可以从数据库中及时准确地检索到自己所需的信息资料。所以,数据挖掘技术处在数据库系统的前沿,在信息技术领域里拥有非常光明的发展前途。
随着数据库系统在图书馆领域的广泛应用,系统中的数据,特别是全球存储的数据快速增长。然而,调查结果显示如此海量的数据无法都被有效利用。如果能在数据海洋中抽取出有效的信息,将会大大提高信息的利用率,创造更大的实用价值,而这恰恰是产生数据挖掘技术的原因。
总而言之,数据挖掘就是从大量的、模糊的、不全面的、随机的数据中提取出隐含在其中的、潜在的、有用的信息资源,把数据应用从一般的简单查询提升到挖掘数据知识的高度,提高信息的利用率。
3 数据挖掘在数字图书馆检索技术中的方式和技术
3.1 数据挖掘的主要实现方式
数字图书馆检索技术中的数据挖掘的主要实现方式可以简单地分为两种,即直接数据挖掘和间接数据挖掘。直接数据挖掘是在可用的数据资源的基础上创建一个模型,根据此模型对剩余的数据和数据库中表的属性进行描述。间接数据挖掘是利用所有的变量建立某种关系,而不再是选出具体的变量对其建立模型描述。
3.2 数据挖掘的常用技术
目前,数字图书馆检索技术中的数据挖掘的常用技术可以分为以下几类。
3.2.1 传统统计分析
传统统计分析技术使用了很多分析方法,如相关分析、回归分析等,大多数情况下,这种技术是由系统对数字图书馆用户提出的假设进行验证。
3.2.2 传统主观导向系统
传统主观导向系统技术要有经验模型,在专业领域中的应用较为广泛。它主要是运用从简单的走向分析到以高等数理知识为基础的分析方法。
3.2.3 决策树
决策树相对来说是一种简单的表示方法,这种技术的思路在于根据分类规则将事例层层归类成不同的类别。由于其分类规则易于理解,在数字图书方面较能被用户所接受。
3.2.4 神经元网络技术
神经元网络技术作为计算机领域中的重要方法之一,已经在各个工业部门广泛应用。它是模拟人的脑神经学习的技术,在数字图书馆领域,利用这种技术可以有效解决从模糊数据导出概念和确定走向中出现的复杂问题。
3.2.5 基于事例的推理方法
基于事例的推理方法关键在于系统会根据当前的情形,从已有的相似事例中筛选出一个最佳的解决方案。在数字图书馆中,这种技术可以用于很多问题的求解,特别是那些在一般情况下难以处理的疑难问题,采用此技术往往会得到比较不错的解决效果。
本文标签:
[!--temp.ykpl--]