信息检索模型
通信信息科学类术语
信息检索模型是表示文档、查询及其相关度的模型。
主要分类
主要有四种:布尔模型、向量空间模型、语言模型和概率模型。前三种使用同一框架,认为文档和查询是由一组单词构成的,忽略词的顺序和在句子或文档中的位置。
布尔模型是最常用的检索模型之一,其优点为:一是查询简单,因此容易理解;二是通过使用复杂的布尔表达式,可以很方便地控制查询结果。布尔模型被认为是功能最弱的方式,原则上讲,所有被匹配的文档都将被返回,很难对输出进行排序,不考虑索引词的权重,所有文档都以相同的方式和查询相匹配,不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回,刚性强。“与”意味着全部;“或”意味着任何一个,很难控制被检索的文档数量。例如上例中,查询表达式为“飞碟”and“小说”时,只能检索出D,,无法显现D1、D2、Da的差异;查询表达式为“飞碟”or“小说”时可以检出D1、D2、D,但无法显现它们的差异。
向量空间模型(Vector Space Model,VSM)是由美国康奈尔大学的Salton教授领导的研究小组在20世纪60年代末到70年代初提出并发展起来的一种信息检索模型。在该模型中,查询和文档都被看成是由若干特征词组成的向量,所有的文档集构成了一个向量空间,每一个文档都被看成向量空间中的一个点,也就是由若干特征词描述的向量。文档与查询的相似性问题被描述成向量空间中的两个向量之间的相似度。该模型将所有的文档用向量来表示,也就是将搜索到的文档材料进行特征项抽取,形成特征向量,而当用户查询时,则针对特定的查询向量,比较它与所有文档的相似度,并按相似度大小将文档排序后提交给用户。向量空间模型算法中,相似度值的大小反映了文档与用户查询要求的相关程度,值越高则代表文档与用户的查询要求越相关。
信息检索的概率模型是信息检索的经典模型,这种检索模型是基于一个文件与提问式的相关度是高于还是低于非相关度的概率来进行文档检索的检索方法。
特征
文档集合的所有词汇是整个空间,每个文档表示为该空间上的一个词向量,每个词对应一个权值,不同的模型对权值的计算方法不同。查询亦表示为类似的一个向量。通过对文档和查询的表示,计算它们之间的相关度,可找到符合查询的相关文档。
参考资料
最新修订时间:2022-08-25 17:23
目录
概述
主要分类
参考资料