搜索引擎收录
程序通过辨别把网站内容进行收录,同时会对这些内容进行价值以及其他方面的辨别
搜索引擎收录是指程序通过辨别把网站内容进行收录,同时会对这些内容进行价值以及其他方面的辨别。
基本概述
搜索引擎收录是搜索引擎收录一个网站页面具体的数量值,收录的数量越多,收录的时间越快,证明此网站对搜索引擎比较友好。
比较常用的搜索引擎收录有baidu(百度)google(谷歌)yahoo(雅虎)sogou(搜狗)youdao(有道)soso(搜搜)bing(必应)、360(360)。
收录原理
收集待索引网页的url
Internet上存在的网页数量绝对是个天文数字,每天新增的网页也不计其数,搜索引擎需要首先找到要索引收录的对象。
具体到Google而言,虽然对GoogleBot是否存在DeepBot与FreshBot的区别存在争议——至于是否叫这么两个名字更是众说纷纭,当然,名字本身并不重要——至少到目前为止。
主流的看法是,在Google的robots中,的确存在着相当部分专门为真正的索引收录页准备“素材”的robots——在这里我们姑且仍称之为FreshBot吧。
——它们的任务便是每天不停地扫描Internet,以发现并维护一个庞大的url列表供DeepBot使用,换言之,当其访问、读取其一个网页时,目的并不在于索引这个网页,而是找出这个网页中的所有链接。
——当然,这样似乎在效率上存在矛盾,有点不太可信。不过,我们可以简单地通过以下方式判断:FreshBot在扫描网页时不具备“排它性”。
也即是说,位于Google不同的数据中心的多个robots可能在某个很短的时间周期,比如说一天甚至一小时,访问同一个页面,而DeepBot在索引、缓存页面时则不会出现类似的情况。
即Google会限制由某个数据中心的robots来完成这项工作的,而不会出现两个数据中心同时索引网页同一个版本的情况,如果这种说法没有破绽的话,则似乎可以从服务器访问日志中时常可以看到源自不同IP的GoogleBot在很短的时间内多次访问同一个网页证明FreshBot的存在。
因此,有时候发现GoogleBot频繁访问网站也不要高兴得太早,也许其根本不是在索引网页而只是在扫描url
FreshBot记录的信息包括网页的url、TimeStamp(网页创建或更新的时间戳),以及网页的Head信息(注:这一点存在争议,也有不少人相信FreshBot不会去读取目标网页信息的,而是将这部分工作交由DeepBot完成。不过,笔者倾向于前一种说法,因为在FreshBot向DeepBot提交的url列表中,会将网站设置禁止索引、收录的页面排除在外,以提高效率,而网站进行此类设置时除使用robots.txt外还有相当部分是通过mata标签中的“noindex”实现的,不读取目标网页的head似乎是无法实现这一点的),如果网页不可访问,比如说网络中断或服务器故障,FreshBot则会记下该url并择机重试,但在该url可访问之前,不会将其加入向DeepBot提交的url列表。
总的来说,FreshBot对服务器带宽、资源的占用还是比较小的。最后,FreshBot对记录信息按不同的优先级进行分类,向DeepBot提交,根据优先级不同,主要有以下几种:
A:新建网页;
B:旧网页/新的TimeStamp,即存在更新的网页;
C:使用301/302重定向的网页;
D:复杂的动态url:如使用多个参数的动态url,Google可能需要附加的工作才能正确分析其内容。——随着Google对动态网页支持能力的提高,这一分类可能已经取消;
E:其他类型的文件,如指向PDF、DOC文件的链接,对这些文件的索引,也可能需要附加的工作;
F:旧网页/旧的TimeStamp,即未更新的网页,注意,这里的时间戳不是以Google搜索结果中显示的日期为准,而是与Google索引数据库中的日期比对;
G:错误的url,即访问时返回404回应的页面。
优先级按由A至G的顺序排列,依次降低。需要强调的是,这里所言之优先级是相对的,比如说同样是新建网页,根据指向其的链接质量、数量的不同,优先级也有着很大的区别,具有源自相关的权威网站链接的网页具有较高的优先级。
此外,这里所指的优先级仅针对同一网站内部的页面,事实上,不同网站也有有着不同的优先级,换言之,对权威网站中的网页而言,即使其最低优先级的404url,也可能比许多其他网站优先级最高的新建网页更具优势。
网页的索引与收录
接下来才进入真正的索引与收录网页过程。从上面的介绍可以看出,FreshBot提交的url列表是相当庞大的,根据语言、网站位置等不同,对特定网站的索引工作将分配至不同的数据中心完成。
整个索引过程,由于庞大的数据量,可能需要几周甚至更长时间才能完成。
正如上文所言,DeepBot会首先索引优先级较高的网站/网页,优先级越高,出现在Google索引数据库及至最终出现在Google搜索结果页面中的速度便越快。
对新建网页而言,只要进入到这个阶段,即使整个索引过程没有完成,相应的网页便已具备出现在Google索引库中的可能,相信许多朋友在Google中使用“site”搜索时常常看到标注为补充结果只显示网页url或只显示网页标题与url但没有描述的页面,此即是处于这一阶段网页的正常结果。
当Google真正读取、分析、缓存了这个页面后,其便会从补充结果中挑出而显示正常的信息。
——当然,前提是该网页具有足够的链接,特别是来自权威网站的链接,并且,索引库中没有与该网页内容相同或近似的记录(DuplicateContent过滤)。
对动态url而言,虽然如今Google宣称在对其处理方面已不存在障碍,不过,可以观察到的事实仍然显示动态url出现在补充结果中的几率远大于使用静态url的网页,往往需要更多、更有价值的链接才能从补充结果中逸出。
而对于上文中之“F”类,即未更新的网页,DeepBot会将其时间戳与Google索引数据库中的日期比对,确认尽管可能搜索结果中相应页面信息未来得及更新但只要索引了最新版本即可——考虑网页多次更新、修改的情况——;至于“G”类即404url,则会查找索引库中是否存在相应的记录,如果有,将其删除。
数据中心间的同步
前文我们提到过,DeepBot索引某个网页时会由特定的数据中心完成,而不会出现多个数据中心同时读取该网页,分别获得网页最近版本的情况,这样,在索引过程完成后,便需要一个数据同步过程,将网页的最新版本在多个数据中心得到更新。
这就是之前著名的GoogleDance。不过,在BigDaddy更新后,数据中心间的同步不再象那样集中在特定的时间段,而是以一种连续的、时效性更强的方式进行。
影响收录
网站标题
网站标题、描述、关键词的写法在站长们的心目中一直是很慎重的一件事情,直接关系到网站的排名与流量,而且这三大标签在网站上线之后不能轻易修改,这就需要站长们事先做好准备,如果说事先没有考虑好,上线之后又去修改的话百度会认为你的网站不稳定,刚上线就修改关键标签,有作弊嫌疑,然后就把你的网站丢进沙盒,慢慢考察,此时想要百度收录网站至少要等到一个月之后,而且保证这段时间每天给网站添加高质量的文章。
外部链接
增加外部链接,能让搜索引擎有效地抓取和收录网页。
网站内容
原创的网站内容更容易被收录,采集、复制他人信息等做法一般很难收录。
原创文章的最大好处,就是可以一举多得,可以增加网站被搜索引擎收录的概率,也可提升网站优化排名。
百度特点
1.基于字词结合的信息处理方式 巧妙解决了中文信息的理解问题,极大地提高了搜索的准确性和查全率。
2.支持主流的中文编码 包括gbk(汉字内码扩展规范)、gb2312(简体)、big5(繁体),并且能够在不同的编码之间转换。”
3.智能相关度算法 采用了基于内容和基于超链分析相结合的方法进行相关度评价,能够客观分析网页所包含的信息,从而最大限度保证了检索结果相关性。
4.检索结果更直观 能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文。
5.百度搜索支持二次检索 可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。利于用户更加方便地在海量信息中找到自己真正感兴趣的内容。
6.相关检索词智能推荐技术 在用户第一次检索后,会提示相关的检索词,帮助用户查找更相关的结果,统计表明可以促进检索量提升10-20%.
7.高性能服务器和本地化服务器 运用多线程技术、高效的搜索算法、稳定的unix平台、和本地化的服务器,保证了最快的响应速度。百度搜索引擎在中国境内提供搜索服务,可大大缩短检索的响应时间(一个检索的平均响应时间小于0.5秒)
8.可以提供多种服务方式 可以在7天之内完成网页的更新,是目前更新时间最快、数据量最大的中文搜索引擎
9.检索结果输出类别聚合 支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。支持用户选择时间范围,提高用户检索效率。
10.智能性、可扩展的搜索技术 拥有目前世界上最大的中文信息库,为用户提供最准确、最广泛、最具时效性的信息提供了坚实基础。
11.结构、算法等的优化 分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。
12.高可配置性使得搜索服务能够满足不同用户的需求。
13.先进的网页动态摘要显示技术。
14.独有百度快照
15.支持多种高级检索语法,使用户查询效率更高、结果更准。已支持“+”(and)、“-”(not)、“|”(or)、“site:”、“domain:”、“intitle:”、“inurl”,还将继续增加其它高效的搜索语法。
提高收录
基本当搜索引擎收录了站点之后,并且也已经能够看到搜索引擎收录的数量,所希望的一定是让搜索引擎收录更多的页面。如果要提高搜索引擎的收录量,大量增加网站内容是其一。更多要做的是为搜索引擎的蜘蛛程序打造一个良好的网站结构。 想要提高站点的收录率,可以采取以下几个方法:
提高外链
外链是SEO的良药,无论是提高搜索引擎排名还是提高网站的收录量,特别是高质量的外部链接。链接建设的工作,要伴随搜索引擎优化方案的开始至结束。
增加原创
原创性的内容,一旦被搜索引擎收录之后,此类的内容页面就不是那么容易被搜索引擎删除。如果是重复率太高的网站内容,即使是让搜索引擎收录之后,也很容易被搜索引擎定期清理掉。让网站保持一定比例的原创内容,能够培养网站的权重以及确保搜索引擎不会收录了又删除这些页面。
优化结构
优化网站内部链接,良好的网站结构会让蜘蛛顺着链接,一层层的读取网站的内容。网站结构差的网站,会让蜘蛛感觉走进了迷宫。如果你的网站很庞大,最好是建立清晰的网站导航、全面的网站地图等用户体验应用,这样做能够引导收录也方便网站的用户。
研究收录
搜索引擎的收录程序是一只有思维、有辨别能力的收录。我们别把它当成单纯的网站内容搬运工,它在读取你内容的时候,它会对这些内容进行价值以及其他方面的辨别。作为网站的管理员,要研究收录的规则、爬取规律等,与搜索引擎的收录打交道也是重要的一门学问。 对于提高网站的页面收录数量,我们要让自己变得更加主动。换句话说,就是自己掌握主动权。与其坐等收录上门,不如引导收录。
网站地图
网站地图又称站点地图,它就是一个页面,上面放置了网站上所有页面的链接。大多数人在网站上找不到自己所需要的信息时,可能会将网站地图作为一种补救措施。搜索引擎收录非常喜欢网站地图。
为什么要建立网站地图呢?大多数人都知道网站地图对于提高用户体验有好处:它们为网站访问者指明方向,并帮助迷失的访问者找到他们想看的页面。对于搜索引擎优化,网站地图的好处就更多了:
1.为搜索引擎收录提供可以浏览整个网站的链接。
2.为搜索引擎收录提供一些链接,指向动态页面或者采用其他方法比较难以到达的页面。
3.作为一种潜在的着陆页面,可以为搜索流量进行优化
4.如果访问者试图访问网站所在域内并不存在的URL,那么这个访问者就会被转到“无法找到文件”的错误页面,而网站地图可以作为该页面的“准”内容。
新站收录
百度不收录新站的解决方法:
(1)最好等网站的所有内容都完工后再上传到网站空间
(2)网站上传后,到百度提交下网站:几大搜索引擎的网站登录入口
(3)到百度搜藏注册3-5个账号,然后收藏网址
(4)到乐收,好望角等网络收藏夹收藏网址
(5)到百度贴吧,A5等权重高的网站发布链接诱饵(带上自己的网址),引诱百度收录过来爬去
(6)第一个月每天有规律的更新2-5篇原创文章
(7)不要采取SEO作弊方式优化
基本上按照上面的操作步骤,1-30天内都能收录首页。如果过了1个月,网址还没有收录,您可以尝试把首页的布局做个改版。
参考资料
最新修订时间:2023-12-19 13:48
目录
概述
基本概述
收录原理
参考资料