一种灵活的网络学习行为数据采集与分析系统论文
摘要:网络学习正在日益兴起,在多样化的教与学过程中充分利用网络上日益丰富的学习资源,满足不同层次求学者的需要。对网络学习中学习者的各项学习行为进行分析,从中找出学习者群体的特征和个体的特点,从而帮助教育者促进网络教与学的建设是目前迫切学要解决的问题。本文结合当前主流的学习行为数据采集和分析的方法的优点和不足,提出了一种基于数据流获取的网络学习行为数据采集与分析的方案,详细介绍了数据采集和数据分析的方法,并探讨了实现这套方案的软件系统设计。该软件系统具有较强的灵活性和实用性,能够帮助学习者和教育者进行更加有效网络教与学。
关键词:网络学习;学习行为数据采集;学习行为分析;数据流获取;文本挖掘
1.引言
现代教育教学除了传统的课堂教学和实践培训外,越来越多地采用了网络学习的方式。网络学习可以分为两种类型,一种是集中式网络学习,比如远程网络教育以及企事业内部网络的业务培训;一种是发散式网络学习,比如在学生在互联网上广泛、分散地查阅资料等自主学习。不论哪一种方式的网络学习都能在多样化的教与学过程中,充分利用网络上日益丰富的学习资源,满足不同层次求学者的需要。
对网络学习中学习者的各项学习行为进行分析,从中找出学习者的学习规律,可以帮助教育者不断修正目前还不成熟的网络学与教,促进网络教育的建设。
对网络学习者的学习行为进行分析,首先需要采集学生在网络学习过程中的学习行为信息数据,然后对这些数据进行集成、分类和分析。目前,基于计算机和网络平台的网络学习行为数据采集与分析的常用方法主要有两类,一是基于Web服务(Web Services)的方法[1][2],一是基于Web日志挖掘(Web Usage Mining)的方法[3][4]。目前,基于Web Services的方法应用较多,但这种方法也存在比较明显的不足,主要是:只能得到在该网站进行学习的注册学习者的学习行为数据,并对他们的学习行为进行分析,具有局限性;这样的系统开发要与网站程序的设计以及数据库设计同步进行,才能做到无缝集成,专用性强,灵活性较差。Web Usage Mining的不足在于Web日志和客户端数据不容易得到,即使得到了,也和Web安全的相关原则有冲突,而且这些数据都是学习者通过该Web服务器时留下的,同样存在局限性。
通过实际对比分析和研究发现,如果能结合上述两者,就将是一种比实用的解决方案。本方案的基本思路是:在服务器或网关上使用netmate进行数据流捕获,然后处理并输出为文本,然后使用文本挖掘的成熟算法进行处理,得到网络学习者学习的特点、偏好等学习规律,帮助教育者进行教育学分析,从而有效地指导网络学习和教学的建设。
2.学习行为数据采集
学习行为数据的采集是进行学习行为分析的前提,是整个方案的基础。学生网络学习行为数据的采集是一种基于开源软件netmate的数据流自动获取,这种方式很容易对流经节点服务器或网关的数据流进行实时获取,然后回根据netmate提供的接口,生成文本已备后续的文本处理。
2.1数据流获取
数据流获取是网络学习行为数据采集的第一步。这种获取是实时的、基于随机样本的,由于样本容量可以取很大,即使出现丢包的情况,也能够接近实际情况。由于经过节点服务器或者网关的数据流既有流入的也有流出的,因此既能够获取到学习者在站或者内部网络上的集中式学习的行为数据,又能够获取到学习者通过服务器或网关进入互联网络的发散式学习的行为数据。由此可见,这样的基于数据流的网络学习行为数据采集能够满足前述两种主要的网络学习方式。
首先要在节点服务器或者网关计算机上安装好netmate及配套的库(libpcap、readline),然后根据数据获取的需求在配置文件(netmate.conf.xml)中进行配置,主要是根据需求制定自己的规则(rule)。在netmate工作过程中,根据制订好的规则,会将获取到的数据流以指定的形式进行输出。
由于netmate部署的位置可以根据需要而改变,获得的文本可以通过传送工具传到指定的目的主机,因此具有很强的灵活。在集中式网络学习中,如果获取点在远程教育网站上,则可以获取在该网站学习的所有学习者的学习信息,如果获取点在校园网的Web服务器上,就可以获取该校校园网络学习资源的利用情况;在发散式网络学习中,如果获取点在校园网的网络服务器上,就可以获取全校学生在互联网上的学习情况,如果获取点在某个院系的网关服务器上,就可以获取该院系的学生在实验室在各个时段的网络学习情况。
3.学习行为的文本挖掘
文本挖掘也被称作文本数据挖掘,是指从文本中得到高质量的、事先未知的、可理解的信息的过程。在得到通过节点服务器的数据文本后,就可以进行文本分类,从中找出网络学习行为的特点以及一些规律。
3.1文本预处理
在进行文本分类之前,须先对文本文档进行预处理,并将信息存放在比文本数据更适合处理的数据结构中。对英文单词而言,动词的不同时态一般在动词后加后缀表示(ing或ed),而单词的基本意义还是在原形式上,这时就需要进行词根还原,将一个词加后缀后的形式还原为它们基本形式。对中文文本的理解在于正确地断句,由于中文词与词之间没有空格,因此在进行中文文本挖掘之前,需要对文本进行分词处理,把中文的汉字序列切分成有意义的词。
在预处理的末期,将得到非常巨大的向量空间,这时需要进行特征降维处理。由于不同的标准对同一学习行为的界定原本就不是很明确,因此采用了卡方统计(CHI)算法进行特征选择,接下来采用聚类方法进行特征提取。
3.2文本分类
在特征降维之后,应用分类器对文本分类。目前的分类器大致可分为两类:基于统计的分类器和基于语义的分类器。基于统计的方法中,成熟的有中心法,朴素贝叶斯,支持向量机。基于语义的有决策树等。通过比较算法实现的难度和算法能达到的精度,本案采用了基于统计的分类器,通过支持向量机算法来实现。
4.采集和分析系统的设计
通过前面的描述,对本案采集和分析系统进行了详细地分析。
系统的软件设计结合前述采用的算法和工具,自行开发的一些软件模块,从而构成一个比较完整的采集和分析系统。软件的结构如图1所示。系统采用客户机/服务器模式,数据流获取与传输模块作为客户机端模块,部署在获取点计算机上,其余模块作为服务器端模块,部署在文本处理和分析的主机上。
4.1数据流获取与传输模块
数据流获取与传输负责对网络学习行为数据进行广泛的采集,然后将数据传输到指定的主机上。如前所述,数据流获取通过netmate进行,当配置为text输出时,就会取得需要的数据流文本。考虑到当前网络基本都是高速的,在获取数据流的过程中对服务器的需求已经很高,因此,将这些文本数据传输到远程主机的学习行为样本库中,然后再进行离线处理和分析工作。远程传输部分采用多线程的TCP套接字实现。recConfig也采用多线程的TCP套接字实现,用来接收来自于远程主机上Configer的参数,对采集端的配置参数进行修正,然后重启netmate和remTrans。
4.2学习行为样本库
学习行为样本库存放从各个获取点得到学习行为数据样本,并以文本文件形式存放。样本库中的文本根据其采集时间或者指定来源进行简单检索4.3文本分析模块文本分析模块负责对学习行为样本库中的文本进行分析,包括文本预处理(Preproceed)、文本分类(Classify)、输出(Export)和模式调整(RecModify)四个部分。PreProceed和Classify如前面叙述所设计。Export负责把经过分类的文本数据输出为Weka的数据格式,或者直接把各分类的数据统计结果输出到屏幕。RecModify接收来自Modifer的模式调整参数,并重启PreProceed和Classify,以便对文本挖掘的调整马上生效。
4.4可视化显示模块
可视化显示模块主要是利用Weka工具提供的可视化功能,对文本分析的结果进行显示,或者做进一步的关联规则分析并可视化输出。
4.5运行控制模块
运行控制模块主要负责系统运行期间对数据获取和文本分析两个模块的运行参数作调整,以便系统能够灵活处理需求变化。其中,Configer针对netmate配置文件和远程传输地址进行调整,为多线程TCP服务器套接字设计;Modier对文本预处理和文本分类的模式进行调整。
结束语
本文提出了一个比较灵活的网络学习行为数据采集和分析系统,采用了开源软件工具和成熟的算法,在此基础上进行软件设计,从而实现网络学习行为数据采集和学习行为的分析。远程传输模块的设计大大方便了对学习行为分析的本地化,在每个阶段都设计了相应的反馈和调整模块使得系统在运行过程中能适应具体环境。系统还处在试验的阶段,下一步将继续完善与改进,除了分类算法改进外,结果可视化也需要改进。
参考文献:
[1]Karin Anna Hummel,Helmut Hlavacs Anytime.AnywhereLearning Behavior Using a Web-Based Platform for a University Lecture.[EB/OLD.www.ani.univie.ac.at/hlavacs/publications/ssgrr_winter03.pdf,2006-3-1]
[2]吕莉,张屹.基于Web服务的网络学习行为采集研究现状[J].开放教育研究,2009(15)
[3]Chien-Sing Lee and YashwanL Prasud Singly.Student modelingusing Principle component analysis of SOM clusters.Proceedings of theIEEE International Conference on Advanced Learning Technologies,2004
[4]黎孟雄.基于Web挖掘的远程教学质量跟踪系统设计[J].河南科技大学学报,2007(28)
[5]黄克斌,王锋,王会霞.智能化网络学习行为分析系统的设计与实现[J].中国教育信息化,2008(3)
本文标签:
[!--temp.ykpl--]