基于知识网格的分布式数据挖掘论文
摘要:本文在讨论知识网格体系结构的基础上,还讨论了知识网格是如何用于支持分布式数据挖掘。
关键词:分布式数据挖掘;网格计算;网格服务;Web服务资源框架
一、前言
随着科学、工业、商业等领域的发展,出现了大量的TB级甚至PB级的大规模数据集,在这些数据集中包含了大量的对生活、生产、科学研究等具有决策性作用的有用信息,那么如何从这些海量数据中提取信息是人们面临的一个重大的问题。显然,原先的集中式数据挖掘模式已无法满足人们的需求,这就需要探索出面向分布式数据挖掘的体系结构和工具。
二、知识网格
知识网格代表了数据网格的发展,为网格中分布式数据挖掘和抽取提供了高级工具和技术。知识网格是设计和实现分布式高性能知识发现应用环境的体系架构,用于执行网格中的数据挖掘,进行科学发现,发现有用的商业信息。
三、知识网格体系结构
知识网格体系结构是在Globus toolkits网格工具集和服务的基础上定义的。在Globus中,知识网格集成局部服务以提供全局服务。知识网格体系结构保证了数据挖掘工具和底层的网格机制和数据网格服务兼容。
知识网格服务由两层构成:核心知识网格层和高级知识网格层。
1.核心知识网格层
1.1知识目录服务(KDS)。该服务扩展了基本的Globus元数据目录服务(MDS),负责维护知识网格中数据和工具的描述。
要维护从一个特定数据仓库中挖掘出来的数据是不切实际的,但是维护一个已发现知识的数据库是非常有用的。这些信息被存放在知识仓库(KBR)中,但是描述它们的元数据仍由KDS管理。KDS不仅可用于搜索和访问原始数据,也可以发现原先已发现的知识,以便在数据改变时比较给定挖掘计算的输出,或者以递增的方式应用数据挖掘工具。
1.2资源分配和执行管理服务(RAEMS)。该服务用于在执行方案和可用资源间查找最佳映射,以满足应用需求(如计算能力、存储能力、主存、数据库、网络带宽和延迟)和网格约束。在执行方案激活之前,该层管理和协调应用的执行。该层并不是使用KDS和Globus MDS服务,而是直接基于Globus GRAM服务的。
2.高级知识网格层
2.1数据访问服务(DAS)。数据访问服务负责搜索、选择、抽取、转换和交付被挖掘的数据。搜索和选择服务是基于核心知识目录服务的。在用户需求和约束的基础上,数据访问服务自动进行查询和查找由数据挖掘工具分析的数据源。
2.2工具和算法访问服务(TAAS)。该服务负责数据挖掘工具和算法的搜索、选择和下载。描述其可用性、位置和配置的元数据存放在KMR中,并由KDS管理,而算法和工具则存放在每个知识网格结点的本地存储系统中。需要向其他用户导出数据挖掘工具的结点,首先必须使用KDS服务来发布该工具。还有其他的相关元数据,如参数、数据输入输出格式、实现的数据挖掘算法、资源请求和约束等。
3.3执行方案管理服务(EPMS)。执行方案是描述数据源、抽取工具、数据挖掘工具、可视化工具和KBR中的知识结果之间的数据流和交互的图形化表示。最简单的情况是,用户可使用可视化构造工具直接描述一个执行方案。然而,由于DAS和TAAS产生结果的多样性、数据和工具的位置、中间结果表示方法等的差异能产生多种不同的执行方案。因此,EPMS是由用户自行选择数据和程序的半自动化的工具,产生一系列满足用户、数据和算法需求及约束的多种可执行方案。
2.4知识表示服务(RPS)。知识可视化是数据挖掘过程中的重要步骤,它可以帮助用户解释发现的模式。该服务指出了如何产生、表示和可视化抽取的知识模型(关联规则、聚类模型、分类等)。结果元数据存放在由KDS管理的KMR中。KDS不仅用于搜索和访问原始数据,还可查找已经发现的知识。
四、执行管理
1.概念模型表示在知识网格内,UML活动图标形式化方法用于表示应用的概念模型,同时BPEL用于表示执行方案。活动图标表示构成应用逻辑的服务调用的高层次流通,而BPEL表示各种各样的服务实质上是如何调节和调用的。
2.执行计划表示
BPEL通常即可以表示抽象执行计划,也可以表示实例执行计划。在这个两个计划中,服务通过BPEL提供的partnerLinkType元件进行访问。这种元件能够将BPEL工作流与它包括的每项服务的ESDL描述联系起来。这两个执行计划的主要区别是:在抽象执行计划的BPEL文档中,服务的WSDL并不包括服务地点,而它们都包含在实例执行计划。
五、Weka4ws
Weka4ws是一个框架,它扩展了广泛应用的开发式资源Weka工具包,用于支持在WSRF-enabled网格上的分布式数据挖掘。为运行远程的数据挖掘算法和管理分布式计算,Weka4WS采纳了WSRF技术。Weka4ws用户界面支持当地和远程的数据挖掘任务的执行。在每一个计算节点上,一个与WSRF兼容的WS被用来曝光由Weka程序库提供的所有数据挖掘算法。
网格架构发展迅速,所支持的程序的种类日益多样化,可使用的工具也日趋完善和复杂。网格服务的发展方向已从原先的基本的面向计算的服务转到高级信息管理和知识发现服务上来。知识网格系统为分布式数据挖掘和基于网格服务的知识发现定义了一个集成的体系结构。该体系结构推动了地理位置分布的大规模数据集的数据挖掘。
参考文献:
胡蓉,肖基毅.基于知识网格的分布式数据挖掘计算机技术与发展.VOL.17 No.10Oct.2007
本文标签:
[!--temp.ykpl--]