相关反馈,起源于
信息检索系统领域,其思路是将给定查询最先返回的结果,和这些结果是否与新查询是否相关的信息利用起来。区别三种类型的反馈将很有意义:显式反馈、隐式反馈和盲式或伪反馈。
显式反馈是从相关性评估者那里获取的,这里的相关性表示检索文档与查询的相关程度。只有当评估者(或系统的其他用户)清楚所提供的反馈是被解释为
相关性判断依据时,这种类型的反馈才能称为是显式的。
用户可能将相关性用二元或分级的相关机制来显式表示。二元相关反馈表示文档相对于给定的查询要么相关,要么不相关。而分级的相关反馈则使用数字、字母或其它描述(如“不相关”,“一点相关”,“相关”,或“很相关”)来表示文档与查询的相关程度。当评估者将结果中的文档按照相关性排序(通常时降序)时,分级的相关反馈也需要使用这种由评估者创建的文档序号形式,
Google在搜索网站中实现的SearchWiki就是这样一个例子,
相关反馈信息需要结合原始查询才能提高检索性能,如著名的
Rocchio算法。
性能
度量在2005年左右变得流行起来,其用来衡量排名算法的有用性,其中基于显式相关反馈的性能度量是NDCG,其它的度量包括k上
查准率与平均查准率。
这种自动化技术在大多数情况下都工作正常,有证据表明甚至好于全局分析。通过查询扩展,一些在初始查询中错过的文档能被重新获得,从而提高了整体性能。很显然,这种方法的效果非常依赖于所选择的扩展词语的质量,已经发现它在TREC即席任务中提高了性能。但是它又避免了自动处理过程的危险,例如,如果需要查询的是铜矿,而且位于前面的一些文档都是关于智利的铜矿,那么在查询方向上会逐渐偏向于那些与智利有关的文档。然而,如果加入原始查询的词语与查询主题并不相关,检索质量有可能会下降,尤其是在Web搜索中,Web文档经常会覆盖多个不同的主题。
利用相关性信息,可使用相关文档的内容来调整原始查询中词语的权重,也可使用这些内容将词语加入到查询中,相关性反馈经常使用
Rocchio算法实现。