图灵测试(The Turing Test)起源于
计算机科学和
密码学的先驱
艾伦·麦席森·图灵发表于1950年的一篇论文《计算机器与智能》。该测试的流程是,一名测试者写下自己的问题,随后将问题以纯文本的形式(如计算机屏幕和键盘)发送给另一个房间中的一个人与一台机器。测试者根据他们的回答来判断哪一个是真人,哪一个是机器。所有参与测试的人或
机器都会被分开。这个测试旨在探究机器能否模拟出与人类相似或无法区分的智能。
创始人物
艾伦·麦席森·图灵(Alan Mathison Turing),英国数学家、计算机科学家、逻辑学家和密码分析学家,被誉为计算机科学与人工智能之父。
1931年,图灵进入
剑桥大学国王学院,毕业后到美国
普林斯顿大学攻读博士学位。
1936年,图灵向伦敦权威的数学杂志投一篇论文,题为《论可计算数及其在判定问题上的应用》。在这篇开创性的论文中,图灵给“可计算数”下了一个严格的数学定义,并提出著名的“图灵机”(Turing Machine)的设想。“
图灵机”不是一种具体的机器,而是一种思想模型,可制造一种十分简单但运算能力极强的计算装置,用来计算所有能想象得到的
可计算函数。“图灵机”与“冯·诺伊曼机”齐名,被永远载入计算机的发展史中。
1950年,图灵发表了一篇划时代的论文,文中预言了创造出具有真正智能的机器的可能性。也正是这篇文章,为图灵赢得了“人工智能之父”的桂冠。图灵预测称,到2000年,人类应该可以用10GB的计算机设备,制造出可以骗过30%成年人的人工智能。
研究历程
1936年,哲学家
阿尔弗雷德·艾耶尔思考心灵哲学问题:我们怎么知道其他人曾有同样的体验。在《语言,真理与逻辑》中,艾尔建议区别有意识的人类及无意识的机器。
1950年,图灵发表的《计算机器与智能》中预言了创造出具有真正智能的机器的可能性。由于注意到“智能”这一概念难以确切定义,他提出了著名的图灵测试:如果一台机器能够与人类展开对话(通过电传设备)而不能被辨别出其机器身份,那么称这台机器具有智能。这一简化使得图灵能够令人信服地说明“思考的机器”是可能的。论文中还回答了对这一假说的各种常见质疑。图灵测试是人工智能哲学方面第一个严肃的提案。
1956年
达特茅斯会议之前,英国研究者已经探索十几年的机器人工智能研究。比率俱乐部是一个非正式的英国控制论和电子产品研究团体,成员包括
艾伦·麦席森·图灵。
1967年由英国哲学家费丽帕弗特提出。铁轨上有五个小孩在玩,停用的岔轨上有一个小孩在玩,要把车转移到岔轨上压死一个孩子救下五个吗?这是一个非常典型的关于道德问题的直觉泵。
1980年约翰·塞尔在《心智、大脑和程序》一文中提到的中文屋子思想实验,对图灵测试发表了批评。
2014年6月8日,一台名为尤金·古斯特曼的计算机成功让人类相信它是一个13岁的男孩,成为有史以来首台通过图灵测试的计算机。这被认为是人工智能发展的一个里程碑事件。但伦敦帝国理工学院教授默里-沙纳汉(Murray Shanahan)对该测试的有效性和科学依据提出质疑,认为它“完全放错了地方,贬低了真正的人工智能研究的价值。它让人觉得科幻小说中的人工智能就快实现了,而事实上并没有,而且难度大得惊人” 。博客 Techdirt 的编辑迈克-马斯尼克(Mike Masnick)也持怀疑态度,他认为 “创造一个能愚弄人类的聊天机器人与创造人工智能其实不是一回事” 。
2015年11月,《Science》杂志封面刊登了一篇重磅研究:
人工智能终于能像人类一样学习,并通过了图灵测试。测试的对象是一种
AI系统,研究者分别进行了展示它未见过的书写系统(例如,藏文)中的一个字符例子,并让它写出同样的字符、创造相似字符等任务。结果表明这个系统能够迅速学会写陌生的文字,同时还能识别出非本质特征(也就是那些因书写造成的轻微变异),通过了图灵测试,这也是人工智能领域的一大进步 。
2023年7月25日,Nature刊登新闻指出ChatGPT已经能突破图灵测试,并建议寻求新的人工智能评估方法 。
2024年6月,来自加利福尼亚大学圣迭戈分校认知科学家本杰明·伯根(Benjamin Bergen)和卡梅隆·琼斯(Cameron Jones)的最新研究结果表明,越来越多的人难以在图灵测试中区分GPT-4和人类。在上述科学家所做的一项实验中,500名人类与四种AI语言模型进行了5分钟的对话,其中GPT-4在54%的时间里被误认为是人类,这个比例超过了此前版本GPT-3.5的相应比例(50%)。这一结果表明,GPT-4已通过图灵测试。
测试内容
图灵提出了一种测试机器是不是具备人类智能的方法。即假设有一台电脑,其运算速度非常快、记忆容量和
逻辑单元的数目也超过了人脑,而且还为这台电脑编写了许多智能化的程序,并提供了合适种类的大量数据,是否就能说这台机器具有思维能力。
图灵肯定机器可以思考的,他还就智能问题从
行为主义的角度给出了定义,由此提出假想:即一个人在不接触对方的情况下,通过一种特殊的方式,和对方进行一系列的问答,如果在相当长时间内,他无法根据这些问题判断对方是人还是计算机,那么,就可以认为这个计算机具有同人相当的智力,即这台计算机是能思维的。这就是著名的“图灵测试”(Turing Testing)。当时全世界只有几台电脑,其他几乎所有计算机根本无法通过这一测试 。
要分辨一个想法是“自创”的思想还是精心设计的“模仿”是非常难的,任何自创思想的证据都可以被否决。图灵试图解决长久以来关于如何定义思考的哲学争论,他提出一个虽然主观但可操作的标准:如果一台电脑表现(act)、反应(react)和互相作用(interact)都和有意识的个体一样,那么它就应该被认为是有意识的。
为消除人类心中的偏见,图灵设计了一种“模仿游戏”即图灵测试:远处的人类测试者在一段规定的时间内,根据两个实体对他提出的各种问题的反应来判断是人类还是电脑。通过一系列这样的测试,从电脑被误判断为人的几率就可以测出电脑智能的成功程度。
图灵预言,在20世纪末,一定会有电脑通过“图灵测试”。2014年6月7日在英国皇家学会举行的“2014图灵测试”大会上,举办方英国雷丁大学发布新闻稿,宣称俄罗斯人弗拉基米尔·维西罗夫(Vladimir Veselov)创立的人工智能软件
尤金·古斯特曼(Eugene Goostman)通过了图灵测试。虽然“尤金”软件还远不能“思考”,但也是人工智能乃至于计算机史上的一个标志性事件。
测试方法
图灵测试的方法是:被测试人,和一个待测试的机器。测试时,测试人与被测试人是分开的,测试人只有以纯文本的方式向被测试人问一些问题,这些问题随便是什么问题都可以。问过一些问题后,如果测试人能够正确地分出谁是人谁是机器,那机器就没有通过图灵测试,如果测试人没有分出谁是机器谁是人,那这个机器就是有智能的。
2014的举办方英国
雷丁大学发布新闻稿,宣称俄罗斯人弗拉基米尔维西罗夫(VIadimir Veselov)创立的人工智能软件尤金古斯特曼(Eugene Goos man)通过了图灵测试。如果这—结论获得确认,那么这将是人工智能乃至于计算机史上的一个里程碑事件。
人机测试
图灵采用“问”与“答”模式,即观察者通过控制打字机向两个测试对象通话,其中一个是人,另一个是机器。要求观察者不断提出各种问题,从而辨别回答者是人还是机器。图灵还为这项测试亲自拟定了几个示范性问题:
答:不要问我这道题,我从来不会写诗。
问:34957加70764等于多少?
答:(停30秒后)105721
问:你会下国际象棋吗?
答:是的。
问:我在我的K1处有棋子K;你仅在K6处有棋子K,在R1处有棋子R。轮到你走,你应该下哪步棋?
答:(停15秒钟后)棋子R走到R8处,将军!
图灵指出:“如果机器在某些现实的条件下,能够非常好地模仿人回答问题,以至提问者在相当长时间里误认它不是机器,那么机器就可以被认为是能够思维的。”
从表面上看,要使机器回答按一定范围提出的问题似乎没有什么困难,可以通过编制特殊的程序来实现。然而,如果提问者并不遵循常规标准,编制回答的程序是极其困难的事情。例如,提问与回答呈现出下列状况:
问:你会下国际象棋吗?
答:是的。
问:你会下国际象棋吗?
答:是的。
问:请再次回答,你会下国际象棋吗?
答:是的。
你多半会想到,面前的这位是一部笨机器。如果提问与回答呈现出另一种状态:
问: 你会下国际象棋吗?
答:是的。
问:你会下国际象棋吗?
答:是的,我不是已经说过了吗?
问:请再次回答,你会下国际象棋吗?
答:你烦不烦,干嘛老提同样的问题。
那么,你面前的这位,大概是人而不是机器。上述两种对话的区别在于,第一种可明显地感到回答者是从知识库里提取简单的答案,第二种则具有分析综合的能力,回答者知道观察者在反复提出同样的问题。“图灵测试”没有规定问题的范围和提问的标准,如果想要制造出能通过试验的机器,以我们的技术水平,必须在电脑中储存人类所有可以想到的问题,储存对这些问题的所有合乎常理的回答,并且还需要理智地做出选择。
社会评价
现代计算机之父
冯·诺依曼生前曾多次谦虚地说,如果不考虑
查尔斯·巴贝奇等人早先提出的有关思想,现代计算机的概念当属于
艾伦·图灵。冯·诺依曼能把“计算机之父”的桂冠戴在比自己小10岁的图灵头上,足见图灵对计算机科学影响之巨大。
测试变体
反向图灵测试
反向图灵测试是由于一个或多个角色之间的模拟已经在机器和人之间逆转,因此对图灵测试进行一定程度的修改,以增强其适用性。R. D. Hinshelwood将“反图灵测试”的思维描述为“认知识别装置”。挑战在于让计算机确定它是否正在与人类或其他计算机互动,这是图灵试图回答的原始问题的延伸,但能够提供足够高的标准以通常所认为人类特有的方式来定义一台可以“思考”的机器。
完全图灵测试
普通的图灵测试一般避免审问者与被测试计算机发生物理上的互动,因为物理上模拟人(比如像模拟人的外表)并不是人工智能的研究范畴。然而一些人工智能可能涉及一些人机在物理上的交互,所以人们又拓展出了“完全图灵测试”。在完全图灵测试中,可以包含必要的人机在物理层面上的交互。但是为了通过完全图灵测试,还需要在普通图灵测试之外另外两项额外技术课题。询问者还可以测试受试者的感知能力(需要电脑视觉),和受试者操纵物体的能力(需要机器人学)。
相关争论
1950年,图灵预测“至少需要100年”,机器才有机会通过图灵测试。这是一个明智且谨慎的预测,清楚地表明图灵意识到创造一台可以通过图灵测试的机器多么困难。事实上,图灵测试探索了机器模仿人脑的能力,但仅限于大脑的公开语言行为(通过键盘表达)。虽然语言行为只是人类大脑产生的全部行为的一小部分,但图灵指出,语言问答仍然使判断者能够在人类的几乎所有领域中探索大脑(或机器)的能力。他举的例子包括数学、国际象棋、诗歌和交流。图灵认为,“机器能通过测试吗”这个问题与“机器是否会思考”不同,但对于人类目前对机器的期望来说似乎已经足够接近了。但不是每个人都同意图灵上述两个问题“足够接近”的观点,而且在他首次提出测试60多年后,关于测试有效性的争论至今仍在激烈进行。
伦敦帝国理工学院教授默里-沙纳汉(Murray Shanahan)对该测试的有效性和科学依据提出质疑,认为它“完全放错了地方,贬低了真正的人工智能研究的价值。它让人觉得科幻小说中的人工智能就快实现了,而事实上并没有,而且难度大得惊人” 。博客 Techdirt 的编辑迈克-马斯尼克(Mike Masnick)也持怀疑态度,他认为 “创造一个能愚弄人类的聊天机器人与创造人工智能其实不是一回事” 。
衡量标准
图灵测试并没有明确规定其能够作为衡量智能的标准。该测试旨在检验计算机是否能模仿人类行为,而非直接评估其智能水平。一些专家认为,图灵测试只是展示了欺骗人类的容易程度,并非衡量机器智能的准确指标。图灵本人在对“思考机器”的可能性进行回应时,明确指出该测试只是为了讨论研究前进的方向,而非直接衡量智能。
尽管如此,图灵测试仍被提出作为衡量机器“思考能力”或“智能”的方法。然而,这一提议受到哲学家和计算机科学家的质疑。他们对于如何判断提问人的可靠性、仅比较行为的价值以及将机器与人类进行比较的意义等提出了质疑。
判断依据
图灵测试的结果常常受计算机模仿人类的能力主导,而不完全依赖于提问者的技能或态度。图灵在描述测试时,并未具体说明测试人需要的技能,只提到了“普通测试人”。例如,ELIZA这类聊天机器人曾使没有戒备的人误以为自己在与人交谈,没有意识到他们可能正在与计算机互动。有效通过图灵测试的关键在于,机器需要通过对话暗示自己的机器身份,而测试人需要识别出这些线索。如果机器保持沉默,测试人难以准确判断。
应用价值
持肯定性观点的学者都认为,图灵测试在人工智能研究和发展中具有重要的应用价值。弗伦奇(Robert M.French)、库伯(Kevin L.Copple)等认为,图灵测试有助于科学家们深入研究人类的行为表现和人类的互动行为,从而逐步实现“更好的人工智能”。作为一种具体的评价方法,图灵测试为人工智能领域的研究者提供了一个具体的检验智能的途径,不仅考察了计算机在自然语言理解和生成方面的能力,还鼓励了研究者探索推理、逻辑等更高级的智能表现。图灵测试也引发了关于智能本质、意识是否可以通过模拟实现等哲学问题的讨论,不仅促进了人工智能领域的发展,也影响了认知科学和哲学领域的发展。
部分人工智能研究人员认为,图灵测试只会分散有益的研究注意力。约翰·麦卡锡(John McCarthy)观察到人工智能的哲学“不太可能对人工智能研究的实践应用产生更多影响,就像哲学对科学实践的影响一样微弱。”斯图尔特·拉塞尔和彼得·诺维格认为图灵测试并不是许多学术或商业努力的主要焦点:首先,有更简单的方法来测试他们的程序。当前与人工智能相关领域的大部分研究都是针对特定的目标,人工智能研究人员只需直接给予它们任务;其次,创造出类似真人的模拟是一个独立的复杂问题,不需要为实现人工智能研究的基本目标而解决,在艺术作品、游戏或复杂的用户界面中,可信的人物角色可能会引人入胜,但它们并不是创造智能机器的科学的一部分,也就是说,不是用智能来解决问题的机器。
相关奖项
勒布纳奖(Loebner Prize)每年提供一个实际的图灵测试平台,首次比赛于1991年11月举行。这个奖项的发起人是休·勒布纳(Hugh Loebner)。位于美国马萨诸塞州的剑桥行为研究中心(Cambridge Center for Behavioral Studies)组织了2003年以前的比赛。勒布纳表示,创办这项竞赛的一个原因是推进人工智能研究的状态,至少在某种程度上,因为在40年的讨论中,没有人采取措施来实施图灵测试。勒布纳奖测试对话智能,获奖者通常是聊天机器人程序或人工对话实体(ACE)。早期的勒布纳奖规则限制了对话:每个参赛作品和隐藏的人类只能就一个主题进行对话,因此质询者在每次实体交互中只能进行一行问题的提问。这个限制性的对话规则在1995年的勒布纳奖中被取消。在勒布纳2003年比赛中,萨里大学允许每个质询者与实体、机器或隐藏的人类互动五分钟。在2004年到2007年之间的勒布纳奖中,质询者和实体之间允许的交互时间超过了20分钟。
应用程序
ELIZA
1966年,美国麻省理工学院教授约瑟夫维兹豪曼(Joseph Weizenbaum)编写了聊天机器人ELIZA程序(Eliza program),它通过检查用户输入的评论中的关键词来工作。如果找到关键词,就会应用一个转换用户评论的规则,然后返回结果句子。如果没有找到关键词,ELIZA要么用一个通用的应答回应,要么重复之前的评论之一。此外,魏岑鲍姆开发了ELIZA,旨在模拟罗杰斯式心理治疗师的行为。ELIZA通过这种方式“假装几乎不了解真实世界”,使其能够欺骗人们以为他们正在与真人交谈。有些人对ELIZA的表现“很难相信它不是人类”。因此,一些人认为ELIZA可能是第一款能够通过图灵测试的程序之一。然而,对于这种观点,存在很大的争议。
尤金·古斯特曼
2014年英国《每日电讯报》报道,一台由俄罗斯人弗拉基米尔·维西罗夫(Vladimir Veselov)创立的模拟13岁小男孩的人工智能软件尤金·古斯特曼(Eugene Goostman)通过了“标志性的”图灵测试。在2014年举行的共有5台超级计算机参赛的图灵测试竞赛上,尤金·古斯特曼设法让测试人相信被测试者33%的答复为人类所为。这一测试成功正逢图灵去世60周年纪念,被认为是人工智能领域里程碑式的突破。雷丁大学的客座教授Kevin Warwick说,尽管此前曾有人声称图灵测试已经得到通过,但是相比之下,这次活动的标准是最为严格的,没有对问题做任何预设。因此,他们自豪地宣布图灵测试首次获得通过。