相关反馈
相关反馈
相关反馈,起源于信息检索系统领域,其思路是将给定查询最先返回的结果,和这些结果是否与新查询是否相关的信息利用起来。区别三种类型的反馈将很有意义:显式反馈、隐式反馈和盲式或伪反馈。
显式反馈
显式反馈是从相关性评估者那里获取的,这里的相关性表示检索文档与查询的相关程度。只有当评估者(或系统的其他用户)清楚所提供的反馈是被解释为相关性判断依据时,这种类型的反馈才能称为是显式的。
用户可能将相关性用二元或分级的相关机制来显式表示。二元相关反馈表示文档相对于给定的查询要么相关,要么不相关。而分级的相关反馈则使用数字、字母或其它描述(如“不相关”,“一点相关”,“相关”,或“很相关”)来表示文档与查询的相关程度。当评估者将结果中的文档按照相关性排序(通常时降序)时,分级的相关反馈也需要使用这种由评估者创建的文档序号形式,Google在搜索网站中实现的SearchWiki就是这样一个例子,
相关反馈信息需要结合原始查询才能提高检索性能,如著名的Rocchio算法
性能度量在2005年左右变得流行起来,其用来衡量排名算法的有用性,其中基于显式相关反馈的性能度量是NDCG,其它的度量包括k上查准率与平均查准率。
隐式反馈
隐式反馈是从用户行为中推断出来的,这些行为比如观察用户选择查看或不查看哪些文档,查看文档所持续的时间,或者浏览页面、卷动滚动条操作。
隐式反馈与显式反馈最主要的区别包括:
其中的一个例子是Surf Canyon浏览器扩展,基于用户交互(点击图标)和搜索结果链接页面上的时间花费,来提前从结果集中的后续页面中搜索结果。
盲式反馈
一些实验,如发表在(Buckley et al.1995)的Cornell SMART系统,在TREC 4实验环境中使用伪相关反馈提升了其检索系统的性能。
这种自动化技术在大多数情况下都工作正常,有证据表明甚至好于全局分析。通过查询扩展,一些在初始查询中错过的文档能被重新获得,从而提高了整体性能。很显然,这种方法的效果非常依赖于所选择的扩展词语的质量,已经发现它在TREC即席任务中提高了性能。但是它又避免了自动处理过程的危险,例如,如果需要查询的是铜矿,而且位于前面的一些文档都是关于智利的铜矿,那么在查询方向上会逐渐偏向于那些与智利有关的文档。然而,如果加入原始查询的词语与查询主题并不相关,检索质量有可能会下降,尤其是在Web搜索中,Web文档经常会覆盖多个不同的主题。
使用相关性信息
利用相关性信息,可使用相关文档的内容来调整原始查询中词语的权重,也可使用这些内容将词语加入到查询中,相关性反馈经常使用Rocchio算法实现。
参考资料
最新修订时间:2022-08-25 16:21
目录
概述
显式反馈
参考资料