心智理论测试:人工智能击败人类-欢欣若狂网

测试结果并不一定意味着人工智能可以“理解”人。心智

心智理论是理论指可以理解他人心理状态的能力，正是测试它驱使着人类社会运转。它帮助你决定在紧张的人工人类情况下该说什么、猜测其他车辆的击败驾驶员将要做什么，以及与电影中的心智角色产生共鸣。一项最新的理论研究表明，ChatGPT等工具所使用的测试大语言模型在模仿这一典型人类特征方面表现得非常出色。

“在进行这项研究之前，人工人类我们都相信大语言模型无法通过这些测试，击败特别是心智那些判断不易察觉的心理状态能力的测试。”该研究的理论合著者克里斯蒂娜•贝奇奥（Cristina Becchio）说，她是测试德国汉堡-埃彭多夫大学医学中心的认知神经科学教授。这项她认为“出乎意料和令人惊讶”的人工人类研究结果发表在2024年5月20日的《自然•人类行为》杂志中。

贝奇奥和她的击败同事并不是首先提出证据表明大语言模型的反应能够表现这种推理能力的人。在2023年发表的一篇预印本论文中，斯坦福大学心理学家迈克尔•科辛斯基（Michal Kosinski）报告了几个模型在几种常见心智理论测试中的测试情况。他发现，其中最好的是OpenAI的GPT-4，它正确完成了75%的任务，他说，这相当于过去研究中6岁儿童的表现。不过，这项研究中的方法遭到了其他研究人员的批评，他们进行了后续实验，并得出结论，大语言模型之所以能得出正确答案，往往是基于“浅显的启发”和捷径，而不是真正基于心智理论推理。

本研究的作者很清楚这种争论。“在论文中，我们的目标是使用广泛的心理测试，以更加系统的方式来应对机器心智理论的评估挑战。”该研究的合著者詹姆斯•斯特拉坎（James Strachan）说，他是一名认知心理学家，目前是汉堡-埃彭多夫大学医学中心的访问科学家。他指出，进行严谨的研究意味着要测试人类和大语言模型处理相同任务的能力，这项研究比较了1907个人与几个流行的大语言模型的能力。

大语言模型和人类都完成了5种典型的心智理论测试，前3种是理解暗示、反语和失礼。此外，他们还回答了“错误信念”问题，这些问题通常用于确定幼儿心智理论的发展程度。这些问题是这样的：如果爱丽丝在鲍勃不在房间的时候移动了某样东西，那么鲍勃回来后应该去哪里找这个东西？最后，他们回答了“奇怪故事”中一些相当复杂的问题，这些故事中的人物相互撒谎、操纵并产生了很多误解。

总体而言，GPT-4占据了优势。它的得分在错误信念测试中与人类相当，在反语、暗示和奇怪故事方面的总分高于人类，只在失礼测试中表现不如人类。为了理解失礼测试结果有所不同的原因，研究人员对该模型进行了一系列后续测试，探索了几种假设。他们得出的结论是，GPT-4能够对有关失礼的问题给出正确答案，但在固执己见方面受到“极端保守”编程的限制。斯特拉坎指出，OpenAI在模型周围设置了许多围栏，“旨在保持模型真实、诚实和正确”，他认为，旨在防止GPT-4产生幻觉（即编造内容）的策略可能会妨碍它对一些问题输出观点，比如故事角色是否在高中同学聚会上无意间侮辱了老同学。

研究人员很谨慎。他们没有说自己的研究结果表明大语言模型实际上拥有心智理论能力，而是说大语言模型“在心智理论任务中的表现与人类行为没有区别”。这就引出了一个问题：如果一个仿品和真品一样好，那你怎么知道它不是真品？斯特拉坎说，这是一个社会科学家以前从未尝试回答的问题，因为对人类的测试会假设这种品质在某种程度上是存在的。“我们目前还没有一种方法甚至是一种理念来测试心智理论的存在，这是一种现象学品质。”他说。

华盛顿大学计算语言学教授艾米丽•本德（Emily Bender）因坚持揭露人工智能行业的膨胀炒作而成为了该领域的传奇人物。她对这个激励着研究人员的问题提出了异议。“面对相同问题，文本处理系统能否产生与人类相似的答案为什么如此重要？”她问道，“我们能够了解大语言模型内部是如何运作的吗？它们可能有什么用处，又可能带来哪些危险？”

本德对论文中的拟人化表示担忧，论文研究人员说大语言模型有认知、推理和作出选择的能力，还使用了“大语言模型和人类参与者之间的物种公平比较”这一措辞。本德说，这“完全没有将软件囊括在内”。

汉堡-埃彭多夫大学医学中心团队的研究结果可能并不表明人工智能真的能理解我们，但值得思考的是，人工智能能够做出令人信服的行为，这会带来什么影响。虽然这种大语言模型在与人类用户交互和预测用户需求方面会做得更好，但它们也可能更多地用于欺骗和操纵。它们会引来更多的拟人化，让人类用户相信用户界面的另一端是有思想的。

本文为作者独立观点，不代表欢欣若狂网立场，未经允许不得转载。