根据情报检索的需要而创制的人工语言,专门用于各种手工的和计算机化的文献情报存储
检索系统,表达文献主题概念和检索课题概念,亦称文献工作语言。
基本功能
①对文献的情报内容(及某些外部特征)加以标引;
②对内容相同及相关的情报加以集中或揭示其相关性;
③对大量情报加以系统化或组织化;
④便于将标引用语和检索用语进行相符性比较。
组成
情报检索语言由词汇和语法组成。词汇是指登录在分类表、词表、代码表中的全部标识,一个标识 (分类号、检索词、代码)就是它的一个语词,而分类表、词表、代码表则是它的词典。
语法是指如何创造和运用那些标识来正确表达文献内容和情报需要,以有效地实现情报检索的一整套规则,分为词法(主要用于分类表、词表、代码表编制过程)和句法(主要用于文献标引和情报检索过程)两部分。
情报检索语言由词汇和语法组成。词汇是指登录在分类表、词表、代码表中的全部标识,一个标识 (分类号、检索词、代码)就是它的一个语词,而分类表、词表、代码表则是它的词典。语法是指如何创造和运用那些标识来正确表达文献内容和情报需要,以有效地实现情报检索的一整套规则,分为词法(主要用于分类表、词表、代码表编制过程)和句法(主要用于文献标引和情报检索过程)两部分。
情报检索语言主要以书面形式使用,其标识必须符合唯一性、规律性、定型性、通用性、准确性和政治思想上的正确性等质量要求,必须排除自然语言中的多词一义、一词多义和词义含糊现象,并要有适当的专指度。
采用等级结构、参照系统、轮排聚类法、范畴聚类法和图示法等各种显示概念之间关系的方法,来实现对内容相同及相关的情报加以集中或揭示其相关性这项功能,是情报检索语言优于自然语言的最主要之点。概念逻辑和知识分类(事物和学科的系统分类)是显示概念关系的基本依据。
情报检索语言选取概念(选词和列类)是否符合文献主题的实际情况和情报检索的实际需要,标识的种类、 结构、专指度、规范化程度和使用方式,在显示概念关系方面的质量、分类表、词表、代码表的结构体系,以及检索设备是否与其匹配,标引是否正确等,对情报检索效率都有影响。
分类
情报检索语言按其结构原理,可分为分类检索语言(分类法)、主题检索语言(主题法)和代码检索语言;按其标识的组合使用方法,可分为先组式语言(文献标识在编表时就固定组合好,也称列举式语言) 和后组式语言(文献标识在检索时才组合起来,也称组配式语言)。后组式语言也可充当先组式语言使用 (文献标识在标引时组合成固定的标识串,称
先组散组式)。此外,还可按其包括的学科或专业范围、适用范围等划分类型。
分类检索语言
分类检索语言是将表示各种知识领域(学科及其研究问题)的类目按知识分类原理进行系统排列并以代表类目的数字、字母符号(分类号)作为文献主题标识的一类情报检索语言,亦称分类法。
主题检索语言(主题法)
使用语词标识的一类情报检索语言,亦称主题法。其基本的、共同的特点是:①用自然语言中的名词术语经过规范化后直接作为文献主题标识,直观性好;②按字顺序列排列标识,检索者较易使用;③具有按文献主题(文献所论述的事物)集中文献情报的功能,对有关某一事物的检索效率较高;④用参照系统及其他方法间接显示文献主题概念之间的关系;其系统性不及分类检索语言,对一学科或一专业文献作全面、系统的检索比较 困难;⑤较接近自然语言,所以较易与自然语言结合使用。
优势
分类法的优势
传统分类法在网络信息组织方面具有独特的优势,将会在网络信息组织中发挥着重要的作用:
①分类法具有强大的浏览功能,类目显示能够使人们触类旁通,鸟瞰全貌;
②类目的展开与收缩能够方便人们进行扩检与缩检;
③给出上下文语境,使类目名称的含义明确;
④提供多语种交流,扩大用户交流范围;
⑤完善的系统的分类体系,有专门的机构维护更新,具有广泛的用户基础;
⑥传统分类法的聚类功能及其标识能用于组织非文本信息;
⑦使用传统的分类法,即使不知道词形也可以检索;
⑧有机读形式,便于对网络信息资源的利。
总之,传统分类法能够实现概念检索,因而具有广泛的使用基础,是一种经过时间历练的具有完善体系的知识组织方法。当然,传统分类法在网络环境中也有其明显的弱点。因此20世纪90年代以来陆续产生了一批网络自建的分类体系或称分类法,用作网络信息的检索工具。他们在通用性、直接性和动态性方面以及在及时反应热点信息和用户要求方面,都表现出一定的优势。必须指出的是,这些网络分类法仍然是在传统分类法基础上发展起来的一个新的变种,被业界称为网络大众分类法。这种分类法的流行,从另一个角度也说明了分类检索语言顽强的生命力。
主题法的优势
关于检索语言存废与否的争论,在很大程度上是对自然语言和受控语言的比较和取舍。很多人认为自然语言将会取代受控语言,占领整个信息检索的舞台。诚然,我们不能否认自然语言在网络环境下表现出的强大的适应能力。但自然语言检索还处在发展的初级阶段,存在不可避免的局限性:如无法排除同义词、无法控制词间关系,因而影响检全率;选词没有严格限制,导致词量过多过杂,分散主题,影响检准率;一个概念可以用不同的词汇来表达,容易漏检,等等。而受控语言经过事先规范化的人工处理之后,具有以下优点:语词与概念一一对应,能控制同义词、多义词和其他一些在语义上的相关的词,排除多词一义和一词多义及词义含糊等现象,能显示概念间的相互关系,具有较高的检全检准率。这也正是网络上仍然广泛使用主题语言的主要原因。由此可见,受控语言和自然语言在功能上具有互补性,两者的结合才是其发展方向。
情报检索计算机化
50年代开始的情报检索计算机化,对情报检索语言的发展产生了深刻的影响,推动了情报检索语言的创新和改造,使词表、分类表向机读化和机编化发展,使多种语言结合使用成为可能,促进了文献标引过程和索引编制过程的自动化,促使许多新检索方法的产生,扩大了情报检索语言的应用范围,特别是使自然语言在情报检索中的应用成为可能。自然语言检索系统并不是与情报检索语言检索系统绝然对立的,它们或采用情报检索语言作为辅助手段,或与情报检索语言结合使用,或利用情报检索语言的某些原理和方法,以保证较高的检索效率。当前,情报检索语言仍是情报检索中的主要语言工具。对情报检索中的语言保证问题的研究,已成为情报学的重要领域,因而逐步形成情报语言学。情报语言学的主要研究对象就是情报检索语言,同时也研究自然语言在情报检索中的应用问题。