跨语言检索(Cross Language Information Retrieval, CLIR)即可用一种提问语言检索出用另一种语言书写的信息,也就是一种跨越语言界限进行检索的问题。
跨语言信息检索研究涉及了语言学、情报学、计算机科学等多门学科知识,是一个综合性强、富有挑战性的研究领域。
跨语言检索技术的实现应用了信息检索、文字处理、和机器翻译等技术,如文字切分技术、词汇翻译、词频技术、索引技术等。
跨语言信息检索研究最早可追溯到1973年G. Salton先生Experiments in multilingual information retrieval一文的发表。 当时的研究主要针对
国际联机检索进行的,由于检索系统不普及,因而人们对网络信息的需求并不强烈。跨语言信息检索研究真正成为热点,是在Internet迅猛发展的90年代后期,在很大程度上,Internet的全球化信息结构引发了对跨语言信息检索的迫切需要。这就促使越来越多的研究团体深入研究跨语言信息检索问题,并研制开发跨语言信息检索的不同方法。这一时期国际上先后有许多相关论文发表,一些实验性跨语言信息检索技术相继问世。
国内对于跨语言信息检索的研究很少,所查找到的一些资料基本都在2001年以后。国际上,从跨语言信息检索研究领域定期召开的一些会议,也反映了当今跨语言信息检索的研究热点和趋势。这些重要会议分别是文本检索会议(TREC)、跨语言评价论坛(CLEF)、日本国家科学信息系统中心信息检索系统测试集会议(NTCIR)、
美国计算机协会信息检索特殊兴趣小组会议(ACM SIGIR)。
其中TREC是由美国国家技术标准局组织召开的国际会议,其旨在促进大规模文本检索领域的研究,加速研究成果向商业应用的转化,促进学术研究机构、商业团体和政府部门之间的交流与合作。TREC-6,7,8,9,10五次会议对于跨语言信息检索问题给予了极大的关注,每次的侧重点不同。TREC-6,7,8这三次会议主要对欧洲语言(英语、法语、德语以及意大利语)的
跨语言检索问题进行了研究;在TREC-9会议上,对中英文的跨语言检索问题进行了研究;在TREC-10会议上,对于阿拉伯语和英语、法语之间的跨语言检索问题进行了研究。
(1)查询词与检索到的文献分属不同语言。这是跨语言信息检索的最主要特征,由于提问与文献分属不同的语言,因此在两者之间需要通过词典、语料库(平行语料、可比语料)或者机器翻译系统等方式建立不同语言的语义关联,进行跨语言的翻译,将查询词语和检索文献统一映射为一种语言。
(6)对多语言资源的依赖。由于跨语言检索需要借助多语言资源如双语词典、语料库等进行跨语言的翻译转换,所以跨语言信息检索的性能受到多语言资源的质量和数量的约束,因此构建高质量的多语言资源是跨语言信息检索中亟待解决的难题。