类似网页指的是Google并没有解释类似网页是怎么得到的。有很多人做了一定的研究发现,类似网页通常和链接及网站主题有关。
技术简介
当你在Google中做任何一个关键词搜索后,在Google给出的搜索结果当中,你还会看到“网页快照”(Cached)和“类似网页”(Similar pages)两个选择。
网页快照就是存在Google数据库中的所列网页的文字内容,也就是上一次Google蜘蛛所抓取的网页内容。
类似网页指的是什么呢?到目前为止,Google并没有解释类似网页是怎么得到的。有很多人做了一定的研究发现,类似网页通常和链接及网站主题有关。
如果你点击类似网页的话,你会发现列出的所谓类似网页,有的时候没有很明显的规律。比如说大部分认为,类似网页是会列出你链接出去的其他网页,或者链接到你的其他网页。
但是有的时候,在类似网页当中所列出的网页或者网站,既没有链接到你的网站,你也没有链接到那个网站。两者之间没有直接的关系,也不属于同一个企业,有的时候甚至不是同一个行业。在一些极端的情况下,两个网站可能一点都不类似。
那么,类似网页是根据什么条件或算法所得出的呢?进一步的观察会发现,类似网页当中所列出的这些网址,往往是和你自己的网站被第三者所共同引用的其他网站。
算法得出
举例来说,你自己的网站是A,有一个第三方网站B,在他的网站B上提到了你的网站A,在同一个网页B上也提到了另一个网站C,那么对Google来说,你的网站A和网站C也构成了相关性。虽然A和C之间没有直接的联系。
那么这对你的搜索引擎优化有什么影响呢?最重要的是,当你寻求链接或者买链接的时候,要注意你所要得到的链接网站B,除了连向你以外,还连向哪些其他网站。这些网站构成了在你的网站周围的一个社区,这些社区会形成一个共同的主题,你的网站也就属于这个共同主题。
比如说,如果你的网站是关于计算机,那么你从某一个大型网站上买链接,而这个大型网站还卖链接给某食品批发网站。那么对Google来说,你的网站主题就会 偏离你实际上的主题,也就是计算机。如果这种链接很多的话,就有可能影响你的以计算机为关键词的搜索引擎结果。这是你所能控制的部分,也就是在寻找或者购 买链接的时候。
那么有一部分是你不能控制的,比如说其他网站因为喜欢你的网站而链接向你。这是你没办法控制的,实际上是你应该高兴的。但是如果这位站长也连向和你的网站完全不相关的网站,怎么办呢?
从逻辑上来说,如果这种链接太多的话,也会影响你的排名。但从另外一个角度看,很难想象这种链接大量存在。因为一般的站长也不会毫无逻辑的在他的网页上放一大堆无用的链接。
这种杂乱无章的没有主题的链接,通常只会在买链接的时候才会出现。
补充材料
在Google搜索结果中除了列出网页的网页快照,类似网页以外,有时候Google还会把网页标志为补充材料。
到目前为止,Google并没有太多信息告诉大家补充材料是怎么定义的。在Google自己的网站管理员指南中所给的官方信息是这样写的:
补充网站是Google辅助索引的一部分。对辅助索引进行抓取的限制少于主要索引。例如,一个网址的参量可能使该网站无法被抓取到主要索引中,但仍可能被抓取到我们的补充索引里。
将网站包括其中的索引是完全自动的,没有任何方式可以选择或更改您网站的索引。请放心,包含网站的索引不会影响该网站的PageRank。
实际的情况是,被标为补充材料的网页在Google搜索结果中一般都会被排在普通网页的后面,所以通常是找不到的。除非关键词是比较长,并且比较具体的时候,补充材料才会出现。
被标为补充材料的网页是在单独的数据库(补充索引)里,不是主索引数据库,在补充索引里的网页被爬行的次数会减少,网页快照的日期也通常都是很旧的。
如果你的网站有很多网页被标为补充材料,在绝大部分情况下都不是什么好事。因为只有在普通结果不够的时候,被标为补充材料的网页才会出现在搜索结果中,自然对网页的排名有很大影响。
被标为补充材料的网页,通常有下面几种情况:
第一:有网址规范化问题。也就是带有www和没有www的两个网址版本都在数据库中,那么其中一个就有可能被标为补充材料。
第二:有时候已经被删除的网页,也就是实际上应该返回404错误的URL,会被列为补充材料。或者域名已经过期了,也有时会被标成补充材料。
第三:有时候站长在改动网页之后,新旧内容的两个版本的网页都会出现在Google索引中。而糟糕的是,其中一个会被标为补充材料。
第四:复制内容网页。很多转载或抄袭的内容会被标为补充材料。因为Google也没办法判断哪一个是原创的,所以有时候原创者也会遭殃。
第五:网页上相同或相似的内容太多。比如导航系统占网页内容比例比较大,而正文部分比较小。