众所周知,人们为了避免重复,习惯用代词、称谓和缩略语来指代前面提到的实体全称。例如,在文章开始处会写“
哈尔滨工业大学”,后面可能会说“哈工大”、“工大”等,还会提到“这所大学”、“她”等。这种现象称为共指现象。虽然人们可以毫无困难的区分文章中实体的不同称谓,但是对于计算机来说,这仍旧是一项非常困难的问题。所谓共指消解就是将现实世界中同一实体的不同描述合并到一起的过程。如上几个描述都是现实世界中“哈尔滨工业大学”的不同体现。在某种意义上说,共指在自然语言中起到了超链接的作用。一方面,它使得文章作者在撰写文章时体现了一定的风格和篇章的连贯性。另一方面,共指使得
自然语言理解机制中增加了一种新的模糊成分。
共指消解是传统的研究方向,见著于二十世纪三十年代,是
自然语言处理、机器翻译、
信息抽取、信息检索等领域的关键技术之一。经过起初的蓬勃发展,于七十年代达到高潮,经历八十年代的低谷后,重新在九十年代初复兴。
近20年来,这方面的研究受到了格外的关注,许多重要的会议都设立了共指消解的专题会议,2001年Computational Linguistics学报还出版了
指代消解的专辑,在1996、1997年的MUC(Message Understanding Conference)评测会议上被列为评测内容之一。DAARC从96年到2006年共举行了五次,专门讨论指代消解。2000年开始的ACE(Automatic Cotent Extraction)评测中共指消解也是重要内容之一。2006年11月到2007年3月,英国伍尔佛汉普敦大学发起了一个名为指代消解练习ARE(Anaphora Resolution Exercise)的共指消解评测。
Lee[Stanford]——采用基于规则并层层筛选的方法取得了第一名的好成绩,以准确率由高到低构建了一系列筛子迭代地为不同的表述选取先行语,分别基于MUC、B-cubed和CEAF-E评测。