站内检索主要针对基于Internet的局部站点和基于Intranet的局域网内部的网页资源进行快速有效的全文检索。
应用范围
据统计一般的大型企业、政府、高等院校的网站内部的页面总量在1万页左右。例如:根据我们的网页搜集系统对清华大学站内全部页面进行搜集所获取的信息,静态页面数量在12000页左右,动态页面数量在6000页左右;我们的页面收集系统也对南京大学站内的全部静态页面进行了搜集,结果统计页面总量在5000页左右。
这种网页数量的站点信息一方面要求检索系统更新周期短(每周更新一次),一方面还需要做到检索速度快。如果利用Google这样的搜索引擎进行检索站内信息的话,难以保证数据的更新要求;而如果自己开发基于数据库技术的检索系统的话,又难以保证检索的高效率。正是在这种需求背景之下,本产品应运而生。
据统计,发达国家一般的大中型网站均配有站内全文检索系统,这样可以保证客户能够在最短的时间内获取所需要的信息。反观国内,几乎90%的大中型网站都没有相应的站内全文检索系统。所以,站内全文检索,是大势所趋,越早上站内全文检索系统,网站越有吸引力。
系统的功能
本部分将为用户介绍该系统所具备的功能,其中黑体字部分是本系统独具特色的功能。
(1)信息搜集能力超强
本系统突破了传统搜索引擎的禁区,能够处理所有的动态页面信息。传统的搜索引擎为了防止掉入CGI陷阱中,一般都不敢处理动态页面。所谓的CGI陷阱指的是由于网络服务器动态计算产生的页面具有很大的不确定性,造成页面搜集程序循环访问同一个URL。通过我们的分析发现,目前绝大部分网站都采用各种脚本制作动态页面,因此如果不能对动态页面进行处理,那么这种检索系统是不完备的。本系统采用了独有的技术完全克服了这方面的困难,从而具有更强的信息搜集能力。
(2)检索速度快
一般的非专业的检索系统都是采用数据库系统完成的,这种系统的响应时间一般都在10秒左右(对于大数据量)。而本系统的响应时间一般都在0.02秒左右,网络传输时间一般在1秒左右,因此总体响应时间在1-2秒内。这种速度显然是非常快的。
(3)支持复合检索
(4)支持分类检索
目前上规模的网站一般都会将网站的信息划分为若干个频道,例如:中国教育信息网主要分为教育产品、招考中心、教育图书、科普长廊、教育动态、科研天地、学生社区、家长时段、职业培训、海外视窗、信息化成就展等几个主要的频道。这样就给站内全文检索系统提出了新的要求,应该不仅能够在整个网站内部进行检索,而且还能够将检索的范围限制在某个频道内部。基于这种需求,Xunao(V2.0)提供了分频道检索的功能。
(5)支持按照更新时间范围检索
对于报社类网站、新闻类站点,时间显得尤为重要,针对这种需求,Xunao Search (V2.0)提供了按照时间范围进行检索的功能,用户可以选择搜索的起止时间进行全文检索,这样更加体现了新闻的时效性。
(6)支持多种排序方式
传统的搜索引擎一般都是按照相关度进行排序的,Xunao Search (V2.0)不仅在结果相关度排序上进行性能上的改进,而且提供了对检索结果按照更新时间升序、按照更新时间降序等多种排序方式。这样一来,用户可以在最重要的检索结果中轻松地挑选出自己感兴趣的时间段的结果。
(7)支持模糊检索
(8)结果相关度高
(9)动态生成文摘
一般的搜索引擎产品的文摘部分仅仅是抽取了页面的前200-300个字节,很多情况下这部分内容同检索结果没有任何关系,用户根本无法从中获取什么有用的信息,从而不得不先访问这些页面才能知道真正的内容是什么。
本系统可以根据检索词的位置,从该检索词附近动态抽取文本作为文摘,从而极大地提高了用户的检索效率。
(10)支持网页快照功能
系统会将网页保存到本地硬盘中,这样用户在检索的时候可以直接察看系统硬盘中保存的页面,这样做的好处是:
第一:如果该页面已经不存在了,用户依然可以查阅该页面的信息;
第二:该页面将动态标记关键字,便于用户查找最感兴趣的信息。
(11)信息搜集、索引建立时间短
一般来说,对于一个包含一万个页面的站点的信息搜集和索引建立总体需要的时间约一个小时左右,不需要人工的干预。
(12)方便有效的管理功能
系统管理人员可以从任何一台联网的计算上,通过浏览器对系统进行全方位的管理工作。