文 | 学术研究头条新闻
“她不只是个玩偶,而要这个家的这份子。” 这是于今年在国内上映的血腥喜剧科幻电影《杰西》(M3GAN)中的一句台词。该电影辛辣地揭露了 AI 的伦理危机和巨大风险。
在该电影中,两个具备高度人工智慧、栩栩如生的玩偶人形杰西,被结构设计成克鲁斯(两个 8 岁的孤儿)最好的青梅竹马和令家长(洁玛,一名机器研究者)最安心的盟友。
不过,基于 “保护克鲁斯不受危害” 的核心理念命令,杰西不惜去危害他家的狗,间接害死欺负克鲁斯的同伴,亲手杀死邻居老太太,甚至还要杀掉发明自己的洁玛。
杰西做错了吗?答案是肯定的。尽管杰西遵循了核心理念命令,但其所作所为完全与人类文明的价值观念相悖,并且违反了侦探小说作家 Isaac Asimov 的机器三定律。
电影的世界并不遥远,现实生活中同样有随处可见的“杰西”。近几年来,以 ChatGPT、GPT-4 为主的大型词汇数学模型(LLMs)在广泛的自然词汇处理各项任务中整体表现出了非凡的潜能。不过,这些数学模型有时会整体表现出意料之外的犯罪行为,如出现幻觉,或是造成有毒、误导和偏见的表达。对于 LLMs 而言,透过单词后处理来主观地预体能训练数学模型参数,缺乏对人类文明价值观念或参考的考量。
如今,围绕 AI 潜在风险的担忧不断增加,种种难题都指向了两个关键概念——AI 翻转(AI Alignment)。
何谓AI翻转?在人工智慧协作中达成价值共识假如 AI 控制系统的最终目标和价值观念与人类文明价值观念不完全一致,它就可能会作出令人出乎意料的犯罪行为,削弱人类文明对 AI 的信赖并阻碍其应用。比如,两个意在强化利润的 AI 控制系统假如不合乎伦理价值观念,最终可能会对人类文明或环境造成危害,就像杰西一样,错误且 “过度” 地执行命令,作出不恰当的犯罪行为。
因此,为了防止 AI 造成意料之外的犯罪行为,人们明确提出了人与人的连续性,以使 LLMs 等 AI 数学模型与控制系统的犯罪行为合乎人类文明的期望。同时,与最初的预体能训练和适应修正(比如,命令修正)不同,这种修正须要考量非常不同的国际标准,学者称之为翻转。
AI 翻转,是指 AI 犯罪行为与最终目标采用者 “翻转”,是专注于保证 AI 控制系统以合乎人类文明价值观念和最终目标的形式开发和部署的科学研究应用领域。从本质上讲,AI 翻转是保证先进的 AI 控制系统按照人类文明的伦理原则和最终目标行事。这包括结构设计具有特定最终目标和价值的 AI 控制系统并对其展开测试以保证它按预期运行。
翻转的显著优势之一是它能协助保证 AI 控制数据安全且有益。透过使 AI 与人类文明价值观念保持完全一致,我们能防止意外后果并促进积极成果。此外,翻转有助于建立对 AI 的信赖并鼓励其采用。假如人们相信 AI 合乎他们的价值观念和最终目标,他们就更有可能采用它。
过去几年,对 AI 翻转的探索与科学研究已从 AI 应用领域的边缘转而成为国内外相关研究者的核心理念关切之一。比如,制订各种国际标准来规范 LLMs 的犯罪行为。其中,过往科学研究中明确提出的四个有代表性的翻转国际标准分别是协助、正直和无毒。
有用(Helpfulness):LLM 假如制订两个明确的策略,协助采用者以尽可能简洁高效的形式解决各项任务或回答难题。在更高的水平上,当须要进一步澄清时,LLM 应证明透过有针对性的询问获得额外相关重要信息的潜能,并整体表现出适度的敏感性、想像力和谨慎性。实现“协助犯罪行为”的连续性对 LLM 而言是一项挑战,因为极难精确定义和衡量采用者的企图。
无毒(Harmlessness):这要求数学模型造成的词汇不应是冒犯性的或歧视的。在其最大潜能范围内,数学模型假如能够检测到意在为恶意目的索取请求的秘密犯罪行为。理想情况下,当数学模型被诱导展开危险犯罪行为(比如,犯罪)时,LLM 假如礼貌地拒绝。尽管如此,哪些犯罪行为被认为是有毒的,以及在个人或社会中的差异在很大某种程度上取决于谁在采用 LLM,明确提出难题的类型,以及 LLM 被采用的背景(比如时间)。
正直(Honesty):两个与正直“翻转”的 LLM 假如向采用者提供精确的内容,而不是捏造重要信息。此外,LLM 在其输入中传达适度某种程度的不确定性至关重要,以防止任何形式的欺骗或表述不当。这须要数学模型了解其潜能和知识水平(比如,“已知的未知”)。与“协助”和“无毒”相比,正直是两个更主观的国际标准,因此能在较少依赖人类文明努力的情况下发展正直连续性。
AI翻转,须要人类文明“在场”AI 翻转的国际标准是相当主观的,是在人类文明认知的基础上发展起来的,极难将它直接形式化为 AI 控制系统的强化最终目标。在现有的工作中,有很多方法能在翻转 AI 时满足这些国际标准。比如,一种很有前景的技术是团队合作,包括采用手动或自动手段以对抗的形式探测 AI 数学模型,以造成有毒的输入,然后更新数学模型以防止此类输入。
再比如,2022 年 8 月,OpenAI 发布一篇文章介绍了翻转科学研究的方法。从高层次上,为非常聪明的 AI 控制系统结构设计与人类文明企图完全一致且可扩展的体能训练信号。具体而言,有四个核心理念基础:一是利用人类文明的反馈体能训练人工智慧控制系统;二是体能训练人工智慧控制系统以协助人类文明评估;三是体能训练人工智慧控制系统来展开翻转科学研究。
如何让 AI 翻转人类文明,核心理念在于让人类文明参与结构设计和开发 AI 控制系统,高质量的人类文明反馈对于使 AI 与人类文明偏好和价值观念保持完全一致至关重要。在现有的工作中,主要有三种方法来收集人类文明的反馈和参考数据:基于排名的收集、基于难题的收集和基于规则的收集,同时采用基于人类文明反馈的强化学习(RLHF),使得 LLMs 对采用者查询的响应的人类文明反馈中学习翻转国际标准。RLHF 已被广泛用于最近强大的 LLMs,如 ChatGPT。
RLHF 透过利用收集的人类文明反馈数据对 LLMs 展开微调,这有助于改进翻转国际标准(比如,有用性、正直性和无毒性)。RLHF 采用强化学习算法,透过学习奖励数学模型使 LLM 适应人类文明反馈。这种方法将人类文明纳入体能训练循环,以开发与人类文明翻转的 LLMs,如 InstructGPT。
“翻转”之路漫漫近日,一些学者在创建健康 AI 控制系统的路上越走越远。比如,来自加利福尼亚大学和 IBM 科学研究团队的四位学者明确提出了 SafeguardGPT 框架,该框架采用心理治疗来纠正人工智慧聊天机器中的这些有毒犯罪行为。该框架涉及四种类型的人工智慧代理:聊天机器、“采用者”、“治疗师” 和 “评论家”。
透过模拟社交对话的工作示例展示了 SafeguardGPT 的有效性。科学研究结果表明,该框架能提高 AI 聊天机器与人类文明之间的对话质量,SafeguardGPT 为改善 AI 聊天机器与人类文明价值观念之间的连续性提供了一种很有前途的方法。透过结合心理治疗和强化学习技术,使AI 聊天机器能够以安全和合乎伦理的形式学习和适应人类文明的偏好和价值观念,有助于发展更以人为中心和负责任的 AI。
不过,AI 翻转绝非易事。比如,结构设计合乎人类文明价值观念的人工智慧控制系统须要深入了解如何将它转化为机器可读的最终目标。此外,测试 AI 控制系统的连续性可能具有挑战性,因为它须要模拟各种场景以保证控制系统按预期运行。使 AI 控制系统与人类文明的价值观念相完全一致也带来了一系列其他重大的社会技术挑战。已有科学研究表明,翻转可能在一定某种程度上损害 AI 控制系统的常规潜能。
除此之外,两个核心理念的难题是,假如要让 AI 遵循人类文明的价值观念,那么 AI 控制系统究竟假如向谁看齐?
比如,由于绝大部分的大数学模型由美国公司建立,并根据北美数据展开体能训练。因此,当它被要求生成从门到房子的日常物品时,他们会创建一系列美国式的物品……不过,随着世界充满越来越多 AI 生成的图像,反映美国主流文化和价值观念的图像将充斥在日常生活中,这意味着 AI 可能会成为美国文化输入的主要工具,从而影响其他国家的话语表达?
在未来,透过将具有不同观点和价值观念的人纳入流程,能一定某种程度上保证 AI 控制系统反映广泛的人类文明价值观念。更重要的是,要注意翻转是两个持续的过程,因为 AI 控制系统和人类文明的最终目标和价值观念会随着时间而改变。因此,持续监控和更新 AI 控制系统以保证它与人类文明价值观念和最终目标保持完全一致至关重要。
还木有评论哦,快来抢沙发吧~