电脑之心报导
电脑之心杂志社
《东部当今世界》的格斗游戏逐渐走进现实生活。
我们能否创造两个当今世界?在那个当今世界里,电脑能像人类文明一样生活、工作、SNS,去重制人类文明社会风气的各个方面。
此种想象,曾在影视剧《东部当今世界》的设定中被完美地还原出来:众多预载了情节的电脑被投放到两个主题乐园内,它能像人类文明一样行事,记得自己看见的东西、碰到的人、说过的话。每天,电脑单厢被抹除,回到它的核心情节中。
《东部当今世界》剧照,左边人物为预载了情节的电脑。
再把想象力扩张一下:放在今天,假如我们想把 ChatGPT 这样的大词汇数学模型变成东部当今世界的主人,又会怎么做?
在最近伤风败俗的一篇学术论文中,人类学家们成功地构建了两个「虚拟小城」,25 个 AI 智能化体在小城上生存,它不仅能从事繁杂的犯罪行为(比如举办圣诞节舞会),而且那些犯罪行为比人类文明配角的扮演更加真实。
学术论文链接:https://arxiv.org/pdf/2304.03442v1.pdf
Demo 地址:https://reverie.herokuapp.com/arXiv_Demo/
从《演示人生》这样的沙箱格斗游戏到认知数学模型、虚拟自然环境等应用领域,三十多年来,人类学家们一直构想去建立能同时实现可靠人类文明犯罪行为的智能化体。在那些构想中,由排序驱动的智能化体的犯罪行为会与其过往实战经验一致,并对自然环境作出可靠的化学反应。此种人类文明犯罪行为的演示能用现实生活社会风气现象充填虚拟世界和社区,训练「人们」去处置罕见但困难的人际亲密关系、试验社会风气科学方法论、制作方法论和易用性试验的人类文明处置器数学模型、提供泛在排序应用领域和SNS电脑动力,还能为在开放当今世界(Open World)中驾驭繁杂人类文明亲密关系的 NPC 配角奠定基础。
但人类文明犯罪行为的空间是巨大而繁杂的。尽管在小型词汇数学模型能演示单个时间点上的可靠人类文明犯罪行为,但要想确保长年连续性,通用智能化体需要两个构架来管理不断增长的梦境,因为捷伊交互、冲突和该事件随着推移而出现和消退,同时还要处置多个智能化体之间展开的交叉耦合Ramanathapuram。
假如一种方法能在很长一段时间内索引有关的该事件和交互,对那些梦境进行反思,并归纳和得出更多层面的假设,并应用领域此种推理来建立对当下和长年智能化体犯罪行为有意义的方案和化学反应,那么距离梦想同时实现就不远了。
这篇新学术论文介绍了「Generative Agents」(聚合式智能化体),一种利用聚合数学模型来演示可靠人类文明犯罪行为的智能化体,并证明它能造成可靠的个人和突发群体犯罪行为的演示:
能对自己、其他智能化体和自然环境进行广泛的推断;
能建立反映自身特点和实战经验的日常方案,执行那些方案,作出化学反应,并在适当的时候重新方案;
能在最终用户改变自然环境或用自然词汇命令它时作出化学反应。
「Generative Agents」背后是两个捷伊智能化体构架,能存储、合成和应用领域有关的梦境,使用小型词汇数学模型聚合可靠的犯罪行为。
举个范例,「Generative Agents」假如看见它的早餐正在燃烧,会清空水桶;假如厨房有人,会在外面等待;假如碰到想交谈的另两个智能化体,会停下阳之木。两个充满「Generative Agents」的社会风气是以新兴的Ramanathapuram为标志的,在这个社会风气中,捷伊亲密关系被形成,信息被扩散,并在智能化体之间造成协调。
具体而言,人类学家在这篇学术论文中公布了几点重要细节:
Generative Agents,是对人类文明犯罪行为的可靠演示,它以智能化体不断变化的实战经验和自然环境为条件进行动态调整;
两个新颖的构架,使 Generative Agents 有可能记住、索引、反思、与其他智能化体交互,并通过动态演变的自然环境进行规划。该构架利用了小型词汇数学模型的强大 prompt 能力,并对那些能力进行了补充,以支持智能化体的长年连续性、管理动态演变的梦境能力,以及递归地造成更多的世代;
两项评估(对照评估和端到端评估),确定构架各组成部分的重要性的因果亲密关系,以及确定因梦境索引不当等原因而造成的故障;
讨论了交互系统中 Generative Agents 的机会和伦理及社会风气风险。人类学家认为应该对那些智能化体进行调整,减轻用户形成寄生社会风气亲密关系的风险,对其进行记录以减轻由 deepfake 和定制说服所带来的风险,并在设计过程中以补充而非取代人类文明利益有关者的方式进行应用领域。
文章一经发布,就引起了全网的热议。本就看好「AutoGPT」方向的 Karpathy 连连赞叹,认为「Generative Agents」比之前玩概念的「Open World」高了不是一点半点:
更有人类学家断言,这项研究的发布,意味着「小型词汇数学模型同时实现了捷伊里程碑式进展」:
「Generative Agents」犯罪行为及其交互
为了使「Generative Agents」更加具体化,该研究将它实例化为沙箱当今世界中的配角。
25 个智能化体居住在名为 Smallville 的小城,每个智能化体由两个简单的化身表示。所有的配角都能:
与别人和自然环境交流;
记住并回忆它所做的和观察到的事情;
反思那些观察结果;
制定每天的方案。
人类学家用自然词汇描述了每个智能化体的身份,包括它的职业以及与其他智能化体的亲密关系,并将那些信息作为种籽梦境。举例来说,智能化体 John Lin 有如下描述(本文截取了一段):
「John Lin 是一名药店店主,他乐于助人。他一直在寻找使客户更容易获得药物的方法。John Lin 的妻子是大学教授 Mei Lin ,它和学习音乐方法论的儿子 Eddy Lin 住在一起;John Lin 非常爱它的家人;John Lin 认识隔壁的老夫妇 Sam Moore 和 Jennifer Moore 好几年了……」
身份设定好之后,接着就是智能化体如何与当今世界交互了。
在沙箱的每个 step 内,智能化体都输出两个自然词汇语句,以描述它当前的动作,例如语句「Isabella Rodriguez 正在写日记」、「Isabella Rodriguez 正在查看邮件」等。然后那些自然词汇被转化为影响沙箱当今世界的具体动作。动作以一组表情符号的形式显示在沙箱界面上,那些表情符号提供了动作的抽象表征。
为了同时实现这一点,该研究采用了一种词汇数学模型,能将动作转换为一组表情符号,那些表情符号出现在每个智能化体化身上方的对话框中。例如,「Isabella Rodriguez 正在写日记」显示为
,「Isabella Rodriguez 正在查看邮件」显示为
。 除此以外,通过单击智能化体头像能访问完整的自然词汇描述。
智能化体之间用自然词汇进行交流,假如智能化体意识到在其周围有其他智能化体,它会思考要不要走过去进行聊天。例如 Isabella Rodriguez 和 Tom Moreno 就即将到来的选举进行了对话:
除此以外,用户还能指定智能化体扮演什么配角,例如,指定其中两个智能化体为记者,你就能向该智能化体咨询新闻方面的内容。
智能化体与自然环境的交互
Smallville 小城有许多公共场景,包括咖啡馆、酒吧、公园、学校、宿舍、房屋和商店。此外,每个公共场景还包括自身具有的功能以及对象,例如房子中有厨房、厨房中有水桶 (图 2)。在智能化体的生活空间中还有床、桌子、衣柜、架子,以及厨房和厨房。
智能化体能在 Smallville 内随处走动,进入或离开一座建筑,导航前行,甚至去接近另两个智能化体。智能化体的移动由 Generative Agents 的构架和沙箱格斗游戏引擎控制:当数学模型指示智能化体移动到某个位置时,该研究会排序其在 Smallville 自然环境中到达目的地的步行路径,然后智能化体开始移动。
此外,用户和智能化体还能影响该自然环境下其他物体的状态,例如,当智能化体睡觉时床是被占用的,当智能化体用完早餐冰箱可能是空的。最终用户还能通过自然词汇重写智能化体自然环境。例如用户在 Isabella 进入厨房时将淋浴器状态设置为漏水,之后 Isabella 会从客厅找到工具并尝试修复漏水问题。
智能化体一天的生活
从一段描述开始,智能化体开始方案一天的生活。随着时间在沙箱当今世界中的流逝,智能化体的犯罪行为随着彼此之间的交互以及与当今世界的交互、自身建立的梦境等逐渐改变。下图为药店店主 John Lin 一天的犯罪行为。
在这个家庭中,John Lin 早上七点第两个起床,然后刷牙、洗澡、穿衣服、吃早餐,接着在客厅的餐桌旁浏览新闻。早上 8 点,John Lin 的儿子 Eddy 也跟着起床准备上课。他临出门时和 John 进行对话,内容为:
Eddy 出发后不久,他的妈妈 Mei 也醒了过来,Mei 问起儿子,John 回忆起它刚刚的对话,然后有了下面对话
SNS能力
除此以外,「Generative Agents」还表现出社会风气犯罪行为的涌现。通过相互交互,「Generative Agents」在 Smallville 自然环境下交换信息,形成捷伊亲密关系。那些社会风气犯罪行为是自然造成的,而不是预先设定好的。例如当智能化体注意到对方的存在时,可能会进行一场对话,对话信息能在智能化体之间传播。
让我们看几个范例:
信息传播。当智能化体注意到对方,它可能会进行对话。当这样做时,信息能从智能化体传播到另一智能化体。例如,在 Sam 和 Tom 在杂货店的对话中,Sam 告诉了 Tom 他在当地选举中的候选资格:
当天晚些时候,在 Sam 离开后,从另两个渠道听到消息的 Tom 和 John 讨论了 Sam 赢得选举的机会:
渐渐地,Sam 的候选资格成为了镇上的话题,有人支持他,也有人犹豫不决。
亲密关系梦境。随着时间的推移,小城上的智能化体形成了捷伊亲密关系,并记住了它与其他智能化体的交互。例如,Sam 一开始并不认识拉 Latoya Williams。在约翰逊公园散步时,Sam 碰到了 Latoya,互相做了自我介绍,Latoya 提到自己正在进行两个摄影项目:「我在这里为正在进行的两个项目拍摄照片。」在后来的交互中,Sam 与 Latoya 的交互表明了对这件事的梦境,Sam 问道:「Latoya,你的项目进展如何?」Latoya 回答:「进展得很好!」
协调能力。Isabella Rodriguez 经营一家 Hobbs 咖啡馆,打算在 2 月 14 日下午 5 点到 7 点举办一场圣诞节舞会。从这个种籽开始,当 Isabella Rodriguez 在 Hobbs 咖啡馆或其他地方碰到朋友和顾客时,就会发出邀请。13 日下午,Isabella 开始装饰咖啡馆。Isabella 的常客和密友 Maria 来到咖啡馆。Isabella 请求 Maria 帮忙布置舞会,Maria 同意了。Maria 的配角描述是它喜欢 Klaus。那天晚上,Maria 邀请它的暗恋对象 Klaus 一起参加舞会,Klaus 欣然接受。
圣诞节那天,包括 Klaus 和 Maria 在内的五名智能化体在下午 5 点出现在 Hobbs 咖啡馆,它享受着庆祝活动(图 4)。在这个场景中,最终用户只设置了 Isabella 举办舞会的初始意图和 Maria 对 Klaus 的迷恋:传播信息、装饰、约对方、到达舞会以及在舞会上交互的SNS犯罪行为 ,由智能化体构架发起。
构架
Generative Agents 需要两个框架来指导其在开放当今世界中的犯罪行为,旨在让 Generative Agents 能与其他智能化体进行交互并对自然环境变化作出化学反应。
Generative Agents 将其当前自然环境和过去的实战经验作为输入,聚合犯罪行为作为输出。Generative Agents 的构架将小型词汇数学模型和合成与索引有关信息的机制结合到一起,以调节词汇数学模型的输出。
假如没有合成与索引机制,小型词汇数学模型能输出犯罪行为,但 Generative Agents 可能不会根据智能化体过去的实战经验作出化学反应,以至于无法作出重要的推理,也可能无法保持长年的连贯性。即使使用当前性能最好的数学模型(例如 GPT-4),长年规划和连贯性方面的挑战仍然存在 。
由于 Generative Agents 会造成大量必须保留的该事件和梦境流(memory stream),因此其构架的核心挑战是确保在需要时索引和合成智能化体梦境中最有关的部分。
Generative Agents 的构架中心是梦境流 —— 两个全面记录智能化体实战经验的数据库。智能化体会从梦境流中索引有关记录,以规划智能化体的动作犯罪行为并对自然环境作出适当化学反应,并且每次犯罪行为单厢被记录以递归合成更高级别的犯罪行为指导。Generative Agents 构架中所有的内容都被记录下来并以自然词汇描述的形式来进行推理,从而使智能化体能利用小型词汇数学模型的推理功能。
当前,该研究同时实现了使用 ChatGPT 的 gpt3.5-turbo 版本。研究团队预计 Generative Agents 的构架基础 —— 梦境、规划和反思 —— 可能会保持不变。较捷伊词汇数学模型(例如 GPT-4)拥有更好的表达能力和性能,这会进一步扩展 Generative Agents。
梦境与索引
Generative Agents 的构架同时实现了两个索引功能,该功能将智能化体的当前情况作为输入并返回梦境流的两个子集以传递给词汇数学模型。索引功能有多种可能的同时实现方式,具体取决于智能化体在决定如何行动时考虑的重要因素。
反思
该研究还引入了第二种类型的梦境,称为「反思」。反思是由智能化体聚合的更多层面、更抽象的思想。反思是周期性造成的,在该研究中,只有当智能化体对最近该事件的重要性分数总和超过某个阈值,智能化体才会开始反思。
实际上,该研究提出的 Generative Agents 每天大约反思两到三次。反思的第一步是让智能化体确定要反思的内容,方法是根据智能化体最近的经历确定能提出的问题。
规划与化学反应
规划被用于描述智能化体未来行动的顺序,并帮助智能化体随着时间的推移保持犯罪行为一致。规划应该包含位置、开始时间和持续时间。
为了建立合理的规划,Generative Agents 会自上而下递归地聚合更多细节。第一步是制定两个方案,粗略地概述当天的「日程」。为了建立初始规划,该研究向词汇数学模型 prompt 智能化体的总体描述(例如,姓名、特征和它最近经历的摘要等等)。
在执行规划的过程中,Generative Agents 会感知周围自然环境,感知到的观察结果会存储在它的梦境流中。该研究用那些观察 prompt 词汇数学模型来决定智能化体是应该继续它的现有规划,还是作出其他化学反应。
实验及评估
该研究对 Generative Agents 进行了两项评估:一项是控制评估,以试验智能化体是否能独立地造成可靠的个体犯罪行为;另一项是端到端评估,其中多个 Generative Agents 在两天的格斗游戏时间内开放式交互,这是为了了解智能化体的稳定性和涌现(emergent)社会风气犯罪行为。
比如,伊莎贝拉方案举办一场圣诞节舞会。她传播了这个信息,在演示结束时,12 个配角已经知道了这件事。其中 7 个人「犹豫不决」——3 个人已有其他方案,4 个人没有表露想法,这和人类文明的相处一样。
在技术评估层面,该研究通过用自然词汇「采访」智能化体,来评估智能化体保持「性格」、梦境、规划、化学反应和准确反思的能力,并进行了消融实验。实验结果表明,那些组成部分中的每两个对于智能化体在任务中的出色表现都至关重要。
在实验评估中,智能化体出现的最常见错误包括:
其未能索引有关梦境;
对智能化体梦境进行捏造修饰;
从词汇数学模型中「继承」过于正式的言语或犯罪行为。
感兴趣的读者能阅读学术论文原文,了解更多研究细节。
还木有评论哦,快来抢沙发吧~