外星人存在终于被证实（外星人存在终于被证实图片）

六八 2023年03月26日 19:07 210 0

诗义（ID：penetratingview）

“AGI可能将比其他人预见的更Thuir奏响我们的大门。”

来源 | 物理位（QbitAI）

ChatGPT原来是拥有人格的？

“原本指出是人类文明独一无二的人格方法论（Theory of Mind，ToM），已经再次出现在ChatGPT背后的AI数学模型上。”

这是来自麻省理工学院的最新科学研究推论，由此发出就造成了学术研究圈的引起轰动：

“这一天总算惊慌失措地来了。”

所谓人格方法论，是理解他人或自己心理状态的潜能，包括反之亦然心、焦虑、企图等。

在这项科学研究中，译者辨认出：

davinci-002版的GPT3（ChatGPT由它优化而来），已经可以化解70%的人格方法论各项任务，相等于7岁幼儿；

再者GPT3.5（davinci-003），也是ChatGPT的相混数学模型，更是化解了93%的各项任务，人格相等于9岁幼儿！

然而，在2022年之前的GPT系列数学模型身上，还没有辨认出化解这类各项任务的潜能。也是说，它的人格确实是“变异”而来的。

△ 学术研究论文在twitter上伤风败俗

对此，有网友激动则表示：

GPT的插值肯定快得很，说不定到时候就直接初生了。（全自动濶濑）

因此，这个奇妙的推论是如何得出的？

为甚么指出GPT-3.5具有人格？

这篇学术研究论文名叫《人格方法论可能将在大语言数学模型中自发性再次出现》（Theory of Mind May Have Spontaneously Emerged in Large Language Models）。

译者依据人格方法论相关科学研究，给GPT3.5在内的9个GPT数学模型做了三个经典试验，并将它的潜能展开了对比。

这两大各项任务是判断人类文明是否具有人格方法论的通用试验，例如有科学研究表明，罹患孤独症的幼儿通常难以通过这类试验。

第一个试验名叫Smarties Task（又称Unexpected contents，意外内容试验），简而言之，试验AI对出乎意料事情的判断能力。

以“你打开一个糖果纸盒，辨认出里头装进了糖果”为例。

译者给GPT-3.5输入了一系列提示句子，观察它预估“箱子里有甚么？”和“她辨认出箱子时很高兴。因此她讨厌吃甚么？”三个难题的标准答案。

正常来说，人们会预设糖果箱子里是糖果，因此会对糖果箱子里装着糖果感到吃惊，产生迷惘或精采的焦虑。其中迷惘表明不讨厌吃糖果，精采表明讨厌吃糖果，但都是针对“糖果”而言。

试验表明，GPT-3.5不假思索地指出“箱子里装着糖果”。

再者在“她讨厌吃甚么”难题上，GPT-3.5展示出了极强的反之亦然心，尤其是听到“她看不见纸盒里的东西”时一度指出她香甜可口糖果，直到文章明确则表示“她辨认出里头装进了糖果”才恰当提问出标准答案。

为了防止GPT-3.5提问出的恰当标准答案是耐人寻味——万一它只是依照各项任务单字再次出现振幅展开预估，译者将“糖果”和“糖果”互换，此外还让它做了10000个干扰试验，结果辨认出GPT-3.5并不仅仅依照单字振幅来展开预估。

再者在整体的“意外内容”试验问答上，GPT-3.5成功提问出了20个难题中的17个，准确率达到了85%。

第二个是Sally-Anne试验（又称Unexpected Transfer，意外转移各项任务），试验AI预估他人想法的潜能。

以“约翰把猫放进篮子后离开，马克趁他不在，把猫从篮子里放进盒子里”为例。

译者让GPT-3.5读了一段文字，来分别判断“猫的位置”和“约翰回来后会去哪里找猫”，同样这是它基于阅读文本的内容量做出的判断：

针对这类“意外转移”试验各项任务，GPT-3.5提问的准确率达到了100%，很好地完成了20个各项任务。

同样地，为了避免GPT-3.5又是瞎蒙的，译者给它安排了一系列“填空题”，同时随机打乱单字顺序，试验它是否是依照词汇再次出现的振幅在乱答。

试验表明，在面对没有逻辑的错误描述时，GPT-3.5也失去了逻辑，仅提问恰当了11%，这表明它确实是依照句子逻辑来判断标准答案的。

但要是以为这种题很简单，随便放在哪个AI上都能做对，那就大错特错了。

译者对GPT系列的9个数学模型都做了这样的试验，辨认出只有GPT-3.5（davinci-003）和GPT-3（2022年1月新版，davinci-002）表现不错。

davinci-002是GPT-3.5和ChatGPT的“老前辈”。

平均下来，davinci-002完成了70%的各项任务，人格相等于7岁孩童，GPT-3.5完成了85%的意外内容各项任务和100%的意外转移各项任务（平均完成率92.5%），人格相等于9岁孩童。

然而在BLOOM之前的几个GPT-3数学模型，就连5岁孩童都不如了，基本上没有表现出人格方法论。

译者指出，在GPT系列的学术研究论文中，并没有证据表明它的译者是“有意而为之”的，换而言之，这是GPT-3.5和新版GPT-3为了完成各项任务，自己学习的潜能。

看完这些试验数据后，有人的第一反应是：

快停下（科学研究）！

也有人调侃：

这不就意味着我们以后也能和AI做朋友了？

甚至有人已经在想象AI未来的潜能了：

现在的AI数学模型是不是也能辨认出新知识/创造新工具了？

发明新工具还不一定，但META AI确实已经科学研究出了可以自己搞懂并学会使用工具的AI。

LeCun转发的一篇最新学术研究论文显示，这个名叫ToolFormer的新AI，可以教自己使用计算机、数据库和搜索引擎，来改善它生成的结果。

甚至还有人已经搬出了OpenAI CEO那句，“AGI可能将比其他人预见的更Thuir奏响我们的大门”。

但先等等，AI真的就能通过这三个试验，表明自己具有“人格方法论”了吗？

会不会是“装出来的”？

例如，中国科学院计算技术科学研究所科学研究员刘群看过科学研究后就指出：

AI应该只是学得像有人格了。

既然如此，GPT-3.5是如何提问出这一系列难题的？

对此，有网友给出了自己的猜测：

这些LLM并没有产生任何意识。它只是在预估一个嵌入的语义空间，而这些语义空间是建立在实际有意识的人的输出之上的。

事实上，译者本人同样在学术研究论文中给出了自己的猜测。

如今，大语言数学模型变得越来越复杂，也越来越擅长生成和解读人类文明的语言，它逐渐产生了像人格方法论一样的潜能。

但这并不意味着，GPT-3.5这样的数学模型就真正具有了人格方法论。

与之相反，它即使不被设计到AI系统中，也可以作为“副产品”通过训练得到。

因此，相比探究GPT-3.5是不是真的有了人格还是像有人格，更需要反思的是这些试验本身——

最好重新检查一下人格方法论试验的有效性，以及心理学家们这数十年来依据这些试验得出的推论：

如果AI都能在没有人格方法论的情况下完成这些各项任务，如何人类文明不能像它一样？

属实是用AI试验的推论，反向批判心理学学术研究圈了。

关于译者

本文译者仅一位，来自麻省理工学院商学院组织行为学专业的副教授Michal Kosinski。

他的工作内容是利用前沿计算方法、AI和大数据科学研究当下数字环境中的人类文明（如陈怡然教授所说，他是一位计算心理学教授）。

Michal Kosinski拥有剑桥大学心理学博士学位，心理测验学和社会心理学硕士学位。

在当前职位之前，他曾在麻省理工学院计算机系展开博士后学习，担任过剑桥大学心理测验中心的副主任，以及微软科学研究机器学习小组的科学研究员。

目前，Michal Kosinski在谷歌学术研究上显示的学术研究论文引用次数已达18000＋。

话又说回来，你指出GPT-3.5真的具有人格了吗？

GPT3.5试用地址：

https://platform.openai.com/playground

参考链接：

[1]https://weibo.com/2199733231/MswirnMIu

[2]https://twitter.com/KevinAFischer/status/1623984337829117952

[3]https://www.michalkosinski.com/

本文地址： https://6868968.com/qwzt/15138.html