共指消解
自然语言术语
共指消解是自然语言处理、机器翻译、信息抽取、信息检索等领域的关键技术之一,在自然语言中起超链接的作用。
简介
众所周知,人们为了避免重复,习惯用代词、称谓和缩略语来指代前面提到的实体全称。例如,在文章开始处会写“哈尔滨工业大学”,后面可能会说“哈工大”、“工大”等,还会提到“这所大学”、“她”等。这种现象称为共指现象。虽然人们可以毫无困难的区分文章中实体的不同称谓,但是对于计算机来说,这仍旧是一项非常困难的问题。所谓共指消解就是将现实世界中同一实体的不同描述合并到一起的过程。如上几个描述都是现实世界中“哈尔滨工业大学”的不同体现。在某种意义上说,共指在自然语言中起到了超链接的作用。一方面,它使得文章作者在撰写文章时体现了一定的风格和篇章的连贯性。另一方面,共指使得自然语言理解机制中增加了一种新的模糊成分。
共指消解是传统的研究方向,见著于二十世纪三十年代,是自然语言处理、机器翻译、信息抽取、信息检索等领域的关键技术之一。经过起初的蓬勃发展,于七十年代达到高潮,经历八十年代的低谷后,重新在九十年代初复兴。
近20年来,这方面的研究受到了格外的关注,许多重要的会议都设立了共指消解的专题会议,2001年Computational Linguistics学报还出版了指代消解的专辑,在1996、1997年的MUC(Message Understanding Conference)评测会议上被列为评测内容之一。DAARC从96年到2006年共举行了五次,专门讨论指代消解。2000年开始的ACE(Automatic Cotent Extraction)评测中共指消解也是重要内容之一。2006年11月到2007年3月,英国伍尔佛汉普敦大学发起了一个名为指代消解练习ARE(Anaphora Resolution Exercise)的共指消解评测。
中文的共指消解研究开始于二十世纪末。中文共指消解的评测开始于2003年10月的ACE Phase3。
定义
特征分析
共指消解的特征分为两类:
1.优先性特征(Preferences)——字符串匹配优先、近距离优先、句法平行优先
2.约束性特征(Constraints)——性别一致性约束、单复数一致性约束、语义类别一致性约束
这种区分依据主要根据是共指特征的指示性强弱。
也可按照语言学角度出发,分为词法特征、语法特征、距离和位置特征、语义特征。
评测
1.MUC——主要包括信息抽取相关的评测业务。
2.ACE——实体检测与跟踪。将篇章中出现的各种表述指向其对应的实体。2003年起,ACE提供了中文语料的共指消解任务。延续到2008年。
3.TAC——共指消解任务过渡到基于维基百科的实体链接的任务。
4.OntoNotes——2010年。不包含单表述实体(单一表述的实体聚类,SingletonEntity),仅标注发生共指关系的表述。
5.CoNLL——2011年。英文的共指消解评测,采用OntoNote4.0 。
Lee[Stanford]——采用基于规则并层层筛选的方法取得了第一名的好成绩,以准确率由高到低构建了一系列筛子迭代地为不同的表述选取先行语,分别基于MUC、B-cubed和CEAF-E评测。
应用领域
最新修订时间:2022-08-25 12:16
目录
概述
简介
参考资料