跨语言信息检索_跨越语言界限进行检索问题的方式

跨语言信息检索

跨越语言界限进行检索问题的方式

跨语言检索（Cross Language Information Retrieval, CLIR）即可用一种提问语言检索出用另一种语言书写的信息，也就是一种跨越语言界限进行检索的问题。

简介

跨语言信息检索研究涉及了语言学、情报学、计算机科学等多门学科知识，是一个综合性强、富有挑战性的研究领域。跨语言检索技术的实现应用了信息检索、文字处理、和机器翻译等技术，如文字切分技术、词汇翻译、词频技术、索引技术等。

历史信息

跨语言信息检索研究最早可追溯到1973年G. Salton先生Experiments in multilingual information retrieval一文的发表。当时的研究主要针对国际联机检索进行的，由于检索系统不普及，因而人们对网络信息的需求并不强烈。跨语言信息检索研究真正成为热点，是在Internet迅猛发展的90年代后期，在很大程度上，Internet的全球化信息结构引发了对跨语言信息检索的迫切需要。这就促使越来越多的研究团体深入研究跨语言信息检索问题，并研制开发跨语言信息检索的不同方法。这一时期国际上先后有许多相关论文发表，一些实验性跨语言信息检索技术相继问世。

国内对于跨语言信息检索的研究很少，所查找到的一些资料基本都在2001年以后。国际上，从跨语言信息检索研究领域定期召开的一些会议，也反映了当今跨语言信息检索的研究热点和趋势。这些重要会议分别是文本检索会议(TREC)、跨语言评价论坛(CLEF)、日本国家科学信息系统中心信息检索系统测试集会议(NTCIR)、美国计算机协会信息检索特殊兴趣小组会议(ACM SIGIR)。

其中TREC是由美国国家技术标准局组织召开的国际会议，其旨在促进大规模文本检索领域的研究，加速研究成果向商业应用的转化，促进学术研究机构、商业团体和政府部门之间的交流与合作。TREC-6，7，8，9，10五次会议对于跨语言信息检索问题给予了极大的关注，每次的侧重点不同。TREC-6，7，8这三次会议主要对欧洲语言(英语、法语、德语以及意大利语)的跨语言检索问题进行了研究；在TREC-9会议上，对中英文的跨语言检索问题进行了研究；在TREC-10会议上，对于阿拉伯语和英语、法语之间的跨语言检索问题进行了研究。

跨语言信息检索需要解决如下几个主要的问题：

(1)查询词与检索到的文献分属不同语言。这是跨语言信息检索的最主要特征，由于提问与文献分属不同的语言，因此在两者之间需要通过词典、语料库（平行语料、可比语料）或者机器翻译系统等方式建立不同语言的语义关联，进行跨语言的翻译，将查询词语和检索文献统一映射为一种语言。

(2)词的歧义和多义性。由于原始提问中有些词义的不确定性，系统中需要借助歧义性、多义性分析机制，将原始提问排歧后转换成最终提问。

(3)查询词的切分。一些语言(如中文、日文、韩文等)由于词与词之间没有明显的分隔符号，因此词的切分问题成为此类语言的跨语言检索研究要点之一。

(4)文献的多语言性。在跨语言检索系统中，由于原始文献是用不同的语言书写的，因此语种识别是检索的基本工作，此类情况常出现在自动标引的系统中。

(5)输出结果的排序方式。检索结果中，不同语种的文献如何排序，如何对不同语种的文献进行相关度的计算，也是跨语言资讯检索系统必须研究的问题。

（6）对多语言资源的依赖。由于跨语言检索需要借助多语言资源如双语词典、语料库等进行跨语言的翻译转换，所以跨语言信息检索的性能受到多语言资源的质量和数量的约束，因此构建高质量的多语言资源是跨语言信息检索中亟待解决的难题。

参考资料

最新修订时间：2023-12-28 21:48

条目作者

小编

资深百科编辑

概述

简介

历史信息

参考资料