网页信息表格化提取程序的论文
摘 要:
本文介绍了基于MSHTML设计开发的网页信息表格化提取程序的原理、程序结构和工作流程,使用网页信息提取、网页元素解析、采集配置管理三大功能模块,实现对网页及其内部关联信息的提取、解析、整理和表格化显示,创新使用了对网页属性值和树路径值进行确认的二元检查机制,能够实现对指定信息的准确提取。本文还举例说明了程序的操作步骤和实际效果。
引言
当今是网络高速发展、信息量急剧膨胀的信息时代,人们通过信息来互相交流,认识世界。在信息中存在着大量有价值的信息要素,这些有价值的信息要素大都以网页的形式存在,其内容和格式千差万别。如果通过浏览器进行浏览和阅读不存在问题,但若需要将感兴趣的某类信息及其内部关联信息保存下来并进行整理,目前常用的工具普遍存在着某些缺点,比如网络蜘蛛等爬虫工具无法实现对内部关联信息的提取。因此,本人作者使用MSHTML语言设计了网页内部表格化提取的自动程序,可以完成对网页及内部关联信息的保存、整理和表格化显示,能够明显提高对信息的利用效率。
1、信息提取原理分析
人们通过浏览器所看到的页面,是由很多的页面元素组装在一起的,其中既有常见的图片和文字,也有专门的结构元素,所有这些页面元素经过一定的组合形成了我们看到的页面。对网页进行进行提取,实质上就是使用一定技术方法将指定的网页元素进行解析、特征匹配和显示的过程。
网页信息的元素可以分为以下三种级别:
顶级元素(Top-level element):共有html、body和frameset三种,属于高级块级元素,表现类似块级元素。
块级元素(Block-level element):能够独立存在且元素之间可以换行分割,常用的块级元素有p、div、ul、table等。
内联元素(inline element):依附其他块级元素存在,紧接于被联元素之间显示并且不换行,常用的内联元素包括img、span、li、br等。
2程序的设计思想
2.1 采集原理
2.2 二元检查机制
2.3 程序功能设计
3 程序结构及工作流程
3.1主要功能
3.2 运行流程
4程序的主要功能实现方法
4.1采集配置管理
4.2网页元素解析
5 运行测试
5.1 读取页面
5.2 配置采集
5.3 采集网页信息
5.4查看采集结果
6、结语
随着网络化的快速发展,人们对网页元素的需求越来越转向个性化分类和精确提取,以往面向全部内容的野蛮采集方式已经无法满足目前的需求,对其进行针对性的研究有着积极意义。
网页信息表格化提取程序通过网页信息提取、网页元素解析、采集配置管理三大功能模块的分工协作,实现对网页及其内部关联信息的提取、解析、整理和表格化显示,不仅克服了以往网页信息抓取工具不能提取内部关联网页信息的不足,使得程序的适用性、扩展性明显提高,而且程序中创新使用的对网页属性值和树路径值进行确认的二元检查机制,能够实现对指定信息的准确提取,极大提升了程序结果的精确性。
虽然网页信息表格化提取程序在精确性、适用性和扩展性上取得了进步,但也存在一些不足,希望以后能找到更好的解决方法....
本文标签:
[!--temp.ykpl--]