伊萨卡
人工智能
伊萨卡(Ithaca)是DeepMind威尼斯大学人文系、牛津大学古典学院以及雅典经济与商业大学信息学系联合开发的人工智能,是第一个可以复原受损铭文的缺失文本、识别铭文原始(书写)位置、确定创建日期的深度神经网络。伊萨卡单独使用于复原受损希腊铭文文本时可达到62%的准确率,在历史学家使用时可达72%的准确度。它能以71%的准确度判断这些铭文的原始位置。它鉴定的年代与历史学家提出的范围相差少于30年。2022年发表于《自然》。
名字来源
伊萨卡是以荷马史诗奥德赛》中的希腊岛屿伊萨卡命名,是古希腊神话英雄奥德修斯的故乡。
开发过程
该工作始于2019年。伊萨卡接受了近8万份由帕卡德人文学院(PHI,一个非营利性基金会)提供的希腊铭文数字数据集的培训,它的架构旨在捕捉上下文并有效地处理受损的单词,同时它还可以并行地“注意”输入的不同部分。
这些希腊铭文的时间跨度在公元前7世纪至公元5世纪,并横跨古地中海世界。论文中对这些铭文的选择做出2点解释,“首先,希腊铭文记录的内容和语境的多样性,对语言处理构成了极大的挑战;其次,古希腊数字化语料库的可用性,这是训练机器学习模型的重要资源。”
伊萨卡是一种基于Transformer的人工神经网络,它使用注意力机制来衡量输入的不同部分对模型决策过程的影响。相比于循环神经网(RNN)、卷积神经网络(CNN)等,Transformer是一种新的神经网络结构,其仅基于注意力机制,抛弃了传统的循环或卷积神经网络结构。
自然语言处理模型通常使用单词进行训练,因为它们在句子中出现的顺序和它们之间的关系提供了额外的上下文和含义。例如,“once upon a time”比单独看到的每个字符或单词有更多的含义。然而在这项研究中的挑战是,这些铭文都已损坏,而且经常丢失文本块。
为了确保模型在使用部分字符时仍能正常工作,研究团队既使用单词也使用单个字符输入来训练它。模型核心的注意力机制并行地评估这两种输入,允许伊萨卡根据需要评估铭文。
此外,为了最大化伊萨卡作为研究工具的价值,研究团队还开发了一些视觉辅助工具,以确保历史学家能够轻松地解释伊萨卡的结果。
图为伊萨卡处理δήμο το αθηναίων’ (the people of Athens)的过程。该短语的前三个字符被隐藏,最终提出了修复建议。同时,伊萨卡还预测了铭文的地区和日期。
对于复原任务,伊萨卡并不是提供单一的假设,而是提供了一组根据概率排序的前20个解码预测。在确定地理任务方面,伊萨卡在84个区域中对输入文本进行分类,并通过地图和条形图可视化地实现可能区域预测的排名列表。
在年代方面,为增加可解释性,伊萨卡也不是输出一个单一的时间,而是预测时间的分类分布。更准确地说,伊萨卡将公元前800年至公元800年之间的所有时间处理为,取每10年为一个跨度,也就是说有160个10年。例如,如果日期范围在公元前300至公元前250年间,也就是5个10年,每一个概率分别为20%;而日期如果在公元前305年,则将以100%的概率指定为出自公元前300至公元前310年。
取得成果
评估显示,在复原文本方面,伊萨卡始终优于其他竞争方法,字符错误率(CER)为26.3%,top 1准确率为61.8%。对复原铭文文本和确定原始的地理位置方面,研究团队还引用top-k准确率来衡量,即正确的复原或地理位置是否在前k项预测中。
具体来说,与人类历史学家相比,伊萨卡实现了更低的字符错误率(CER),人类历史学家该项分数为59.6%。另外,与研究团队此前开发的专注于文本复原的皮提亚(Pythia)相比,表现也更为优秀。皮提亚名字取自希腊神殿德尔斐中为阿波罗神传达神谕的女祭司。在文本复原方面,皮提亚皮的字符错误率(CER)为47.0%,虽然高于伊萨卡,但也高于人类历史学家。
值得注意的是,当人类历史学家与伊萨卡合作时,历史学家的字符错误率(CER)大幅降低到18.3%,top 1准确率则从25.3%大幅提升至71.7%。
在地理定位方面,伊萨卡top 1预测准确率为70.8%,top 3预测准确率为82.1%。对于年代追溯,伊萨卡与历史学家提出的范围相差少于30年。 在研究团队的评估过程中,研究团队看到了多个伊萨卡与历史学家共识一致的例子。例如,伊萨卡将雅典的一篇提到尼基亚斯(Nikias)将军的铭文追溯到公元前413年,这与历史学家提出的范围完全吻合。
在进一步研究中,研究团队将伊萨卡的关注重点可视化,看看哪些部分的输入对这一预测贡献最大。我们看到的是个人姓名(Νικίας,“Nikias”)和希腊指挥官的军衔(στρατεγοῖς,“generals”)。尼基亚斯在雅典远征西西里岛的过程中扮演了关键的角色,而这篇铭文也与这一历史事件有关。
论文中也提到了另一案例来展示伊萨卡的潜力。研究团队注意到,目前历史学家对雅典颁布的一系列重要法令的日期存在分歧,这些法令是在苏格拉底和伯里克利等著名人物在世的时期颁布的。长期以来,这些法令被认为是在公元前446/445年之前写的。然而,也有新的证据表明,更有可能是公元前420年。
虽然看起来差别不大,但这些法令对我们理解古代雅典的政治史是至关重要的。值得关注的是,伊萨卡对这些法令的平均预测日期是公元前421年,这与最新的推测日期几乎一致。
意义
研究团队认为,历史学家现在可以使用伊萨卡的可解释性工具来进一步研究这些预测,并使雅典的历史更加清晰。
模型改进的空间总是存在的。特别是随着新铭文的发现,将会为这类文本进一步增加数字文本存储库。
研究团队认为,伊萨卡很容易适用于任何古代语言,而尽管古希腊在我们理解地中海世界的过程中发挥了重要作用,但它仍只是全球文明图景的一部分。
最新修订时间:2023-12-10 04:19
目录
概述
名字来源
开发过程
参考资料