布尔模型
基于集合论和布尔代数的简单检索模型
布尔(Boolean)模型是基于集合论和布尔代数的一种简单检索模型。它的特点是查找那些与某个查询词返回为“真”的文档。
缺陷
第一,它的检索策略是基于二元判定标准(binary decision criterion)(例如,对于检索来说一篇文档只有相关和不相关两中状态),缺乏文档分级(rank)的概念,限制了检索功能。
第二,虽然布尔表达式具有精确的语义,但常常很难将用户的信息需求转换为布尔表达式,实际上大多数检索用户发现在把他们所需的查询信息转换为布尔时并不是那么容易。
除掉上述缺陷,Boolean模型仍然是文档数据库系统中的主要模型。
Boolean模型定义索引术语只有两种状态,出现或者不出现在某一篇文档中,这样就导致了索引术语的权重都表现为二元性(例如, )。查询串q是一个传统的布尔表达式,假设 是q的分离形式,假设 是 的任何一种分离形式,文档与查询串的相关都定义为:
如果 ,Boolean模型表示文档 与查询串相关(但可能不属于查询结果集),否则就表示与文档 不相关。
Boolean模型的主要优点在于具有清楚和简单的形式,而主要缺陷在于完全匹配会导致太多或者太少的结果文档被返回。众所周知,索引术语的权重从根本上提高了检索系统的功能,从而导致了向量(Vector)模型的产生。
参考资料
最新修订时间:2024-05-21 14:58
目录
概述
参考资料