网络信息挖掘是数据挖掘技术在网络信息处理中的应用。网络信息挖掘是从大量训练样本的基础上得到数据对象间的内在特征,并以此为依据进行有目的的信息提取。网络信息挖掘技术沿用了Robot、全文检索等网络信息检索中的优秀成果,同时以知识库技术为基础,综合运用人工智能、模式识别、神经网络领域的各种技术。应用网络信息挖掘技术的
智能搜索引擎系统能够获取用户个性化的信息需求,根据目标特征信息在网络上或者信息库中进行有目的的信息搜寻。
信息挖掘
Web信息挖掘可以广义地定义为从WWW中发现和分析有用的信息。网络信息挖掘(Web Mining)技术是在已知数据样本的基础上,通过归纳学习、机器学习、统计分析等方法得到数据对象间的内在特性,据此采用信息过滤技术在网络中提取用户感兴趣的信息,获得更高层次的知识和规律。
网络信息挖掘大致分为4个步骤,资源发现,即检索所需的网络文档;信息选择和预处理,即从检索到的网络资源中自动挑选和预先处理得到专门的信息;概括化,即从单个的Web站点以及多个站点之间发现普遍的模式,分析,即对挖掘出的模式进行确认或解释。根据挖掘的对象不同,网络信息挖掘可以分为网络内容挖掘、网络结构挖掘和网络用法挖掘。
关键技术
特征提取
网络信息挖掘系统采用向量空间模型,用特征词条及其权值代表目标信息。在进行信息匹配时,使用这些特征项评价未知文本与目标样本的相关程度。特征词条及其权值的选取称为目标样本的特征提取,特征提取算法的优劣将直接影响到系统的运行效果。词条在不同内容的文档中所呈现出的频率分布是不同的,因此可以根据词条的频率特性进行特征提取和权重评价。
一个有效的特征项集应该既能体现目标内容,也能将目标同其它文档相区分,因此词条权重正比于词条的文档内频数,反比于训练文本内出现该词条的文档频数。
与普通的文本文件相比,HTML文档中有明显的标识符,结构信息更加明显,对象的属性更为丰富。系统在计算特征词条权值时,充分考虑HTML文档的特点,对于标题和特征信息较多的文本赋予较高权重。为了提高运行效率,系统对特征向量进行降维处理,仅保留权值较高的词条作为文档的特征项,从而形成维数较低的目标特征向量。
中文分词处理
我们要处理的信息主要是文本信息。为使准确提取文档的主题信息,更好地建立特征模型,就要建立主词库、同义词库、蕴含词库等词典库,并以此作为提取主题。一个好的专业词典将会极大的提高主题提取的准确性。中文词的切分问题是网络信息挖掘中的一项关键技术之一。《
中国分类主题词表》由于其学科体系的完整性和规范性,无疑是非常适合作词库。对于专业要求较高的数据挖掘以及在实际使用中出现的不符合要求的地方,可在该词表的基础上进行扩充和修改,这里引入了图书馆学中后控的思想,即通过对词表的规范来控制URL标引的准确性。
获取动态信息
Robot是传统搜索引擎的重要组成部分,它依照
HTTP协议读取Web页面并根据HTML文档中的超链在WWW上进行自动漫游,Robot也被称为Spider、Worm或Crawler。但Robot只能获取Web上的静态页面,而有价值的信息往往存放在网络数据库中,人们无法通过搜索引擎获取这些数据,只能登录专业信息网站,利用网站提供的查询接口提交查询请求,获取并浏览系统生成的动态页面。网络信息挖掘系统则通过网站提供的查询接口对网络数据库中的信息进行遍历,并根据专业知识库对遍历的结果进行自动的分析整理,最后导入本地的信息库。
技术流程实现
上图给出了网络信息挖掘技术实现的总体流程图,其具体步骤如下
第一步,确立目标样本,即由用户选择目标文本提取用户的特征信息。
第二步:提取特征信息,即根据目标样本的词频分布,从统计词典中提取出挖掘目标的特征向量并计算出相应的权值。
第三步网络信息获取,即先利用搜索引擎站点选择待采集站点,再利用Robot程序采集静态Web页面,最后获取被访问站点网络数据库中的动态信息,生成WWW资源索引库。
第四步信息特征匹配,即提取索引库中的源信息的特征向量,并与目标样本的特征向量进行匹配,将符合阈值条件的信息返回给用户。
网络信息挖掘技术在搜索引擎中的应用
信息检索研究涉及到建立模型、文档分类与归类、用户交互、数据可视化、数据过滤等等。功能网络信息挖掘作为信息检索过程的一部分,最明显的一个功能就是Web文档的分类与归类。
下面以Google为例,剖析网络信息挖掘技术在搜索引擎中的应用。
Google的搜索机制是:几个分布的Crawler(自动搜索软件)同时工作——在网上“爬行”,URL服务器则负责向这些Crawler提供URL的列表。Crawler所找到的网页被送到存储服务器中。存储服务器于是就把这些网页压缩后存入一个知识库中。每个网页都有一个关联ID
URL分解器阅读Anchors文档,并把相对的URL转换成绝对的URLs,并生成doc ID,它进一步为Anchor文本编制索引,并与Anchor所指向的doc ID建立关联。同时,它还产生由doc ID对所形成的数据库。这个链接数据库用于计算所有文档的页面等级。
排序器会读取barrels,并根据词的ID号列表来生成倒排挡。一个名为DumpLexicon的程序则把上面的列表和由索引库产生的一个新的词表结合起来产生另一个新的词表供搜索器使用。这个搜索器就是利用一个Web服务器、由DumpLexicon所生成的词表和上述倒排挡以及页面等级来回答用户的提问。
从Google的体系结构、搜索原理中可以看到,其关键而具有特色的一步是 利用URL分解器获得Links信息,并且运用一定的算法得出了页面等级的信息,这采用的技术正是网络结构挖掘技术。作为一个新兴的搜索引擎,Google正是利用这种对WWW的连接进行分析和大规模的数据挖掘技术,使其搜索技术略胜一筹。
Google搜索的最大特色就体现 在它所采用的对网页Links信息的挖掘技术上。而实际上,网络信息挖掘是网络信息检索发展的一个关键。如通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;同时,通过用户所使用的提问式的历史记录的分析,可以有效地进行提问扩展,提高用户的检索效果(查全率,查准率);另外,运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。
信息定义
信息现代定义。[2006年,医学信息(杂志),邓宇等].
信息是物质、能量、信息及其属性的标示。逆维纳信息定义
信息是确定性的增加。逆香农信息定义
信息是事物现象及其属性标识的集合。2002年