阿拉丁计划
新一代搜索引擎
阿拉丁计划是新一代搜索引擎。阿拉丁是搜索引擎公司百度推出的一个通用开放平台,它将接口开放给独特信息数据的拥有者,从而解决现有搜索引擎无法抓取和检索的暗网信息。
定义
用阿拉丁计划命名,寓含着百度的这个平台可以像神灯那样帮助用户实现最便捷地获取信息的愿望。
意义
能被搜索引擎检索到的信息只占所有信息中非常小的一部分,大部分信息存没有被任何搜索引擎编列索引,以至于无法通过搜索引擎找到他们。这些未被收录的信息即在“暗网”之中。
要明白为什么推出百度百度阿拉丁计划?先来简单了解下“暗网”的分类。
1、由于技术的原因,很多网站本身不规范、或者说互联网本身缺少统一规则,导致了搜索引擎的爬虫无法识别这些网站内容并抓取,这不是搜索引擎自身就能解决的问题,而是有赖整个网络结构的规范化。
2、很多网站因多种原因根本就不愿意被搜索引擎抓取,robots屏蔽了搜索引擎的抓取。第二种暂且不做研究,因如果搜索引擎去抓取那些信息就属于违法了。
“暗网”包含100亿个不重复的表单,其包含的信息量是“非暗网”的40倍,有效高质内容总量至少是后者的1000倍到2000倍。
如何能将这些允许被搜索却因网站不规范原因而未被搜索的网站的有用信息呈现给大家呢?百度“阿拉丁计划”就是要从根本解决这一问题的。
正是认识到“暗网”信息的存在和巨大价值,百度开始着手启动“阿拉丁平台”研发计划,期望能挖掘出更多存在于“暗网”之中的有价值信息,将更多的已知和未知信息分门别类融合,有序纳入搜索体系。
含义
阿拉丁计划旨在超越现有Web内容的限制,对包括众多未纳入搜索引擎检索体系的“暗网”在内的所有信息进行更深一步的分析、融合、处理,以使这些信息能最富有效率地被用户通过搜索引擎进行检索,从而逐步实现“只在一个最为简单的搜索框里面,蕴藏了全人类最为丰富多彩的信息世界!
大大增加对用户有用信息的可读性。即所谓照亮“暗海”。
参考资料
暗网抓取技术.移动互联网.2012-02-06
最新修订时间:2023-12-23 17:58
目录
概述
定义
意义
参考资料