话题检测与跟踪(Topic Detection and Tracking)是一项
信息处理技术,这项技术旨在帮助人们应对日益严重的互联网信息爆炸问题,对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪。TDT(Topic Detection and Tracking,话题检测与跟踪)起源于早期面向事件的检测与跟踪(Event Detection and Tracking,简写为
EDT)。与EDT不同,TDT检测与跟踪的对象从特定时间和地点发生的事件扩展为具备更多相关性外延的话题,相应的理论与应用研究也同时从传统对于事件的识别跨越到包含
突发事件及其后续相关报道的话题检测与跟踪。
自从1996年以来,该领域进行了多次大规模评测,为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、数据挖掘和信息抽取等
自然语言处理技术具有很多共性,并且面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究
热点。
与一般的信息检索或者信息过滤不同,TDT所关心的话题不是一个大的领域(如美国的对华政策)或者某一类事件(如恐怖活动),而是一个很具体的“事件(Event)”,如
美国911事件、江泽民访美等等。为了区别于
语言学上的概念,TDT评测会议对“话题”进行了定义:所谓话题(Topic),就是一个核心事件或活动以及与之直接相关的事件或活动。而一个事件(Event)通常由某些原因、条件引起,发生在特定时间、地点,涉及某些对象(人或物),并可能伴随某些必然结果。通常情况下,可以简单地认为话题就是若干对某事件相关报道的集合[1]。“话题检测与跟踪”则定义为“在新闻专线(Newswire)和广播新闻等来源的数据流中自动发现主题并把主题相关的内容联系在一起的技术”。例如,“俄克拉荷马城爆炸案”这个主题包括1995年美国联邦大楼被炸、悼念仪式、州和美国联邦政府的一系列调查、对Timothy McVeigh的指控等等。这个定义和其它与话题有关的研究不同,那些研究主要处理信息分类问题,比如任何与
爆炸有关的事件。处理分类问题需要专门的分类体系,注解起来效率低而且主观色彩浓厚。TDT与其它研究不同之处还在于它强调新事件的发现,希望找出不在人们意料之中的或没有人知道如何去查询的事件。
TDT是一项综合的技术,需要比较多的自然语言处理理论和技术作为支撑,因此这些测评对其进行了细化。根据不同的应用需求,TDT评测会议把话题检测和跟踪分成五个子任务。
● 话题跟踪(Story Tracking)给出某话题的一则或多则报道,把后输入进来的相关报道和该话题联系起来。它实际上包括两步,首先给出一组样本报道,训练得到话题模型,然后在后续报道中找出所有讨论目标话题的报道。
● 首次报道检测(New Event Detection)在数据流中检测或发现首次,并且只能是首次讨论某个话题的报道。与话题检测本质相同,区别只在于结果输出的形式不同。
构造一个实用化的TDT系统是进行TDT研究的主要目的之一,也是检验现有方法优劣的基础。从参评的数量来看,话题发现和话题跟踪两个子任务最受关注。因此我们介绍的实现方法也以这两个任务为主。总体而言,要实现话题发现与跟踪功能,需要解决以下主要问题: