检索是指从已储存的信息库中索取、找出所需要的信息的过程。检索库是指为检索需要而创建的数据库。一般来说,检索库是根据检索系统的架构而创建的,一个好的检索库,可以提高系统检索速度和检索结果。检索库可以分为专业检索库和非专业检索库。
简介
检索系统是根据对信息资源中不同对象和层次揭示上的需要,文献目录、索引、机读数据库、网络搜索引擎等信息资源检索工具构成的以不同检索需要为目标的、形式多样的、完备的系统。检索库是指为检索需要而创建的数据库。检索库一般是根据检索关系(或检索词)而创建,例如在科技文献语义检索系统中:有的检索库以语义查询扩展关系而创建的,有的检索库以概念或实体为中心而创建的;有的检索库以面向知识发现而创建,因此,不同检索库,所对应的检索系统是不相同的。检索库应该具有高效性、灵活性、
可扩展性以及
开放性等特点。
检索词
检索词,是指能表达检索课题主题概念和信息需求的名词术语、分类号、名称及代码等的总称,包括主题词、关键词、名称、分类号、分子式、专利号及各种号码等。它与检索途径相对应,是检索途径的具体化。如主题途径的检索标识就是主题词,分类途径的检索标识是分类号,著者途径的检索标识是著者姓名,其他的则依此类推。
检索词的选择
主题词、关键词、分类号三种检索标识在课题检索中使用较多。一般说来,主题词因其种种优点是检索时的首选。若无主题词途径或无与检索概念一致的主题词,机检可考虑单用自由词(关键词)检索或由上位词与自由词联合检索,或分类与自由词联合检索;手检可选其上位词或分类途径,从中筛选。
(一)主题词
选择主题词应注意其历史变化和相关主题词,扩展下位主题词,提高查全率,检索一个主题的所有方面时组配“全部副主题词(All Subheadings)”,有选择地组配副主题词时注意所选词副主题的适用范围。头脑中有一个检索概念,怎样获取恰当表达这个概念的主题词是初学检索者常遇到的难题。将检索概念先用自然语言表达成自由词,到机检数据库中进行检索,如果检出结果较多,可限定检索字段,如题名、关键词字段等与文献论述的主要内容密切相关的字段。浏览检索结果,查看密切相关文献的主题标引情况,获取该概念及相关概念的主题词表达形式(单个主题词、主题词与副主题词组配、多个主题词的组合等)。
(二)关键词
关键词检索时要全面考虑和使用关键词的不同拼写形式和同义词,注意带连字符的词的检索,“NEAR”等位置算符的使用、限定字段检索时字段的选择等。获取关键词的不同拼写形式和同义词,可浏览其自身的检索结果,可检索其缩写。此外在CBMdisc所有字段中检索已知英文词,查看结果中TI字段与TT字段的对照及文摘字段可获取不同形式的中文关键词,反之在TI字段检索中文词,通过TI字段与TT字段的对照可能获取检索概念的不同英文表达形式。
(三)分类号
分类检索专指性低,通常文献的筛选量较大,机检中一般不单独使用,可与关键词等配合使用。课题检索中一个检索概念可能涉及多个类目,需注意相关类目的选择。
检索关系
语义查询扩展
语义学(Semantics),是一个涉及到语言学、逻辑学、计算机科学、自然语言处理、认知科学、心理学等诸多领域的一个术语。虽然各个学科之间对语义学的研究有一定的共同性,但是具体的研究方法和内容大相径庭。语义学的研究对象是自然语言的意义,这里的自然语言可以是词汇,句子,篇章等等不同级别的语言单位。但是各个领域里对语言的意义的研究目的不同:语言学的语义学研究目的在于找出语义表达的规律性、内在解释、不同语言在语义表达方面的个性以及共性;逻辑学的语义学是对一个逻辑系统的解释,着眼点在于真值条件,不直接涉及自然语言;与计算机科学相关的语义学研究在于机器对自然语言的理解;认知科学对语义学的研究在于人脑对语言单位的意义的存储及理解的模式。
语义查询扩展的检索系统在传统关键词检索基础上,对检索词进行处理,利用受控词表和本体对检索词进行扩展。例如,PubMed 支持基于 MeSH 的查询扩展,也有利用 UMLS 的同义词对 PubMed 查询进行扩展,QuExT执行面向概念的查询扩展,检索结果根据用户预先分配给概念类别的不同权重进行排序。GO2PUB用基因本体中术语之间的语义继承对PubMed 查询进行语义扩展,基因名称、 符号和同义词都作为额外的关键词提交给查询处理器。
以概念或实体
客观上存在且可区分的事物称为实体。实体可以是人,也可以是物;可以指实际的对象,也可以指某些概念;可以指事物与事物间的联系。如学生是一个实体。概念是抽象的、普遍的想法,是充当指明实体、事件或关系的范畴或类的实体。以概念或实体为中心的检索库利用本体、主题词表、叙词表等对科技文献进行语义标注,识别文献中的知识,检索过程通过匹配用户查询和语义标注结果执行,这使得检索系统能够利用标注信息查询到更精确的结果。
以关系为中心
以关系为中心的检索系统通过文本挖掘技术从科技文献中发现概念或实体之间的关系能够提供基于关系的检索服务。Quertle是一个关系驱动的生物医学文献检索工具,使用基于语义的自然语言处理方法从生物医学文献集中抽取主谓宾关系,发现生物医学实体(如疾病、基因、药物)之间的一般或特殊关系。用“咖啡因偏头痛”作为搜索词,Quertle 会发现两个检索词之间的关系如“咖啡因治疗偏头痛”,而不是通常搜索 PubMed 所返回的同时包含“咖啡因”和“偏头痛”两个检索词的记录。 CoPub是以共现关系为中心的检索工具,利用文本挖掘技术检测 PubMed 摘要中共现的生物医学概念,如基因本体中的人类/鼠基因、生物过程、分子功能、细胞组成以及病理、疾病、药物和途径等。在 CoPub 系统中检索某个生物医学概念,可以获得与其共现的其他生物医学概念以及共同出现的文摘。PolySearch 抽取人类疾病、基因、突变、药物和代谢物之间的关系,利用各种文本挖掘和信息检索技术对内容摘要、段落或句子进行识别和排序, 支持面向十几个不同类型的文本、科学文摘或生物信息学数据库的50多种查询类型, 例如检索“与乳腺癌有关的基因”。
中医语料检索库
建立中医语料检索库的可行性
中医用语特点:中医用语具有学术性语言的共性 : 用词正式、句子结构严密、语篇衔接紧凑。 但也有自身的特点,中医用语的特殊性主要表现在以下几个方面。中医用语目前较混杂。有古人之间,古、今人之间,今人与今人及中国人与外国人之间的不统一、不规范方面。 由于语言的差异,书面形式为主要学习途径。一物多名现象大量存在。 一物多名指同一中医术语 ( 指同一所指的一个或多个表达法 ) 在国内人之间与译为英语时出现多个名称或译名的现象。 例如:头,又称首、脑袋、泥丸等:胸痹,又称心痛、真心痛等。 李照国在《中医翻译导论》 一书中列举了三部当时流行的中医辞典中存在的一物多名词项,认为名词术语标准化是中医英语翻译的一个重大任务。 一物多名是异域事物进入目标语区时必然出现的一种客观现象。 “优胜劣汰”这个自然法则也适用于译名竞争固化的过程。 在语料标记时如何恰当标记一物多名的项目却是一个需要慎重考虑的问题。
中医术语的简约化。中医善用四字语、内涵丰富的短语,短小的语言形式中蕴含着丰富的具有文化色彩的信息。现代人在继承传统中医中,发扬传统中医中,中医术语的翻译中,不可避免地在很大程度上就是对历经数千年压缩了的信息的汉语解压缩和英语解压缩过程,此时,用词较多是信息再现时迫不得已而采用的手段。 然而,术语偏长却给学术思想的交流,特别是口语性质的交际造成了负面影响。 随着中医教学的不断完善,这种偏长术语随着交际在语言学经济原则的支配下必然向简单化方向转化,从而被纳入规范化语言的行列。 也就是说,再次出现符合其语用规律的压缩简化过程,尽管需要比较长的时间。 至于以何种方式转化,还有待于研究人员长期的观察。
英语国家的中医英语资料与中国国内的中医英语资料存在重大分歧。这不仅存在于中医名词术语翻译的不一致问题上,而且还存在于对中医文献意义的理解方面。 可以说,中西翻译人员的作品各有优缺点。西方翻译人员在名词术语的英语处理方面(特别是信息压缩方面)具有优势,但中方的翻译人员却在资料语义理解方面发挥着“忠实”的作用。
中医语料的时间跨度
中医语料存在着两种时间问题:原中医资料出现的时间与翻译的英语资料出现的时间。 一般英语语料库都以英语资料的出现年代为标准。 在中医英语发展的几百年间,英语语言本身也发生了重大变化。探索当代中医英语发展规律及翻译规律的语料库显然应该使用当代英语资料。中医原文资料的历史已经有几千年,但是大规模英文翻译却始于最近时期。为了确保资料收集中的完整与均衡,同时又照顾英语资料的时间问题,语料收集应先以原始中医资料出现的时间为序,将其排列,归类,后以某一时间为起点,以中医原始资料为内容,按照英语译文出现的时间顺序依次收集对应的英语资料,从而形成英语翻译资料入选准则。这些也从一定程度说明了汉语语料库与英语语料库在中医学科中的关系与不可分割性。
中医语料检索库的结构
中医资料存在古今中外资料差异的特点以及各自的优点,说明中医语料检索库的结构首先应该从中国国内的汉语资料、英语语料分界,其各占一定比例,以探求差异点及差异的规律性。 此外,为了对比分析具有统一的基础,中西方资料应尽量做到一致,也就是说,同一中医资料,在中西方各具备一份英语语料,此时从理论上讲,中西语料应该在数量上相等、结构上相同。 然而,实际存在的语料能够满足这个要求的却极其有限,因此,在无法达到完全一致的要求时,则要求语料题材基本一致,再无法满足时,则求语料所涉及范围基本一致。 例如,《黄帝内经》则容易收集到同样的中西方译文;而中医基础理论性教材却可以求得内容基本一致的资料;学术性论文就只能从研究课题基本相同入手。 同一专著存在多种版本、译本的情况也经常出现,此时则可按照权威性标准选取语料。 编、译者的权威性是衡量语料来源是否可靠的重要标准。
资料的分类标准
所收集资料可以有多种分类标准。 可以分为翻译资料与自撰资料; 母语为汉语作者的资料与母语为英语作者的资料,也可以分为:儿科、妇科、骨科等资料;专著、杂志、报刊、演说、教材、广告说明等性质资料,还可以分为:纯学术性资料、较通俗性资料等等。 深入分析所获资料,找出一种标准既能够穷尽所有资料,又有利于语料库中语料的保存、检索、有利于对语料库的开发利用是此点研究的基本目标。