同时,基于快闪索引技术的莫大搜索引擎保证了海量数据能够以天为单位更新,而不像其它产品按月或者季度。其实一旦使用,你就会发现,相比其它产品(例如
alexa的搜索分析),莫大提供的搜索数据信息更为全面和准确。
莫大对数据进行严格的匿名化和规范化处理,通常我们只显示数据的相对值,比如我们显示关键词 A 和关键词 B 的流量百分比,而不会显示其
绝对值。
莫大的数据来源和统计方法和流量统计是不一样的,网站流量统计工具通常使用嵌入在网站上的 JavaScript 跟踪代码进行数据采集,由于用户浏览网页的不确定性,跟踪代码并不会百分之百发挥作用,所以即使是相同跟踪代码技术,当使用不同的流量统计工具,数据也会不一样。在莫大提供的数据中除了可以为网站产生流量的数据之外,还包括“可能会产生流量”的数据,比如,网站在某个关键词的搜索排名在百度上是第 17 名,虽然用户并没有点击该链接产生流量,但这样的“潜在流量”数据将会出现在莫大的
数据报告之中。
基于快闪索引技术的莫大搜索引擎每天以极高的速度遍历中文互联网上的主流网站,每月更新超过 12 TB 的数据。结合先进的中文分词技术和语意分析技术,莫大搜索引擎积累了拥有 150 万分行业的中文
网站关键词及链接数据库。
莫大搜索工具是面向多个
中文搜索引擎(百度、谷歌、雅虎、搜搜、
搜狗、有道、必应)的搜索聚合平台,当用户使用搜索工具进行关键词搜索和网页搜索时,搜索工具会将搜索请求分别转发给多个中文搜索引擎,并将分析和整理后的数据返回给用户。莫大将这些用户驱动产生的数据进行存储,并对其进行历史变化趋势的分析。结合我们的数据合作伙伴(搜索引擎、工具条、流量统计工具)及莫大的机器人农场网络,我们每月的搜索
数据更新量超过 20 TB。
莫大将这几种数据源综合起来,首先对数据进行严格的匿名化和规范化处理,其后对数据进行深入挖掘,最终将其转化为呈现给用户的可视化商业信息。到现在,莫大管理的线上数据总量已经超过 200 TB,其中包括开放给用户使用的 2000 万商业关键词数据库和 150 万个中文网站链接数据库。
搜索数据是指用户在使用搜索引擎中产生的数据,主要由关键词、搜索量、网页结果、排名趋势等信息组成。
中国互联网用户每月的搜索查询量高达几百亿次,通过搜索引擎,流量被源源不断的从用户输送到网站,在这些查询、浏览和点击中,蕴含着不可估量的商业价值。