网页抓取
网页搜集方法
网页抓取主要有三个方面:
优先策略
通常是尽可能的首先抓取重要性的网页,这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。
什么是重要性高的网页呢,主要由这三个方面决定的:
链接欢迎度
链接欢迎度主要是由反向链接的
数目
和
质量
决定的。
链接重要度
链接重要度它是关于一个
URL
字符串的函数,仅仅考察字符串本身,它主要通过一些
模式
,如认为包含|“。com”,“HOME”的URL重要度高,以及包含较少
斜杠
的URL重要度高等。
平均链接的深度
平均链接的深度表示在一个种子站点集合中,每个种子站点如果存在一条链路到达该
网页
,那么平均链接深度又是该网页的一个链接
指标
,因为距离种子站点越近说明被访问的
机会
越多。
参考资料
最新修订时间:2023-12-23 16:08
条目作者
小编
资深百科编辑
目录
概述
参考资料
Copyright©2024
闽ICP备2024072939号-1