近年,有关人工睿智(AI)的探讨四起,其中无可避免地牵涉到许多名词和基本概念,不过用单纯简练的形式向非职业专业人士说明是十分具备诱惑力的。作者试著把 AI 与人类文明自学和高速成长的等效,透过将 AI 与现代人熟识的表达方式展开比较的形式,概要介绍 AI 相关的基本原理、重大进展和意义。欢迎写作 ~
自从 ChatGPT 横空出世以来,AI 应用领域再次引起了广为关注。
最近,有关 AI 的探讨络绎不绝,其中无可避免地牵涉到许多诸如 " 样品、预体能训练、大数学模型 " 等基本概念和名词。
不过,要用浅显简练的形式向非职业专业人士说明这些基本概念是相当具备诱惑力的。
但这对于自己和他人,都很有用。
正如爱因斯坦所言:"If you can ’ t explain it simply, you don ’ t understand it well enough(如果你不能单纯地说明,那就说明你理解不够)"。
今天,我试著把 AI 与人类文明自学和高速成长的等效,透过将 AI 与现代人熟识的表达方式展开比较的形式,概要介绍 AI 相关的基本原理、重大进展和意义。
1、" TNUMBERG25Mi、蹒跚学步 " vs " 急速涌现 "
带过小孩的学生家长单厢有这种一个感觉:忽然有一天发现小孩会骂人了、会骑车了。
这个操作过程并非像 "0%、1%、2% … 98%、99%、100%" 这种逐个百分点缓慢提升,而是有一天忽然发生了变化。
数学模型的 " 急速涌现 " 指的是在大批体能训练统计数据和复杂数学模型结构的支持下,数学模型忽然表现出较高的性能和捷伊潜能。
单纯来说,是 " 量变引起质变 " 的操作过程。
当体能训练样品足够多大、演算法插值达到一定期时,数学模型的潜能会忽然提高。
潜能 " 急速涌现 " 的前提,是大批急速的输出。
自小孩出生起,尽管他们听不懂、不会说,但学生家长要急速与小孩互动,跟他骂人。在日积月累的操作过程中,有一天小孩的骂人潜能就会 " 急速涌现 " 出来。
数学模型的发展操作过程也类似。一开始可能什么都不会,即使 " 能说会道 ",也可能表现出 " 智障 " 或者 " 一本正经地胡说八道 "。
不过,在持续的大样品体能训练和演算法急速插值的操作过程中,有一天它就能达到像 ChatGPT、GPT-4 那样让人惊艳的理解潜能、推理潜能和表达潜能。
2、" 陈思王、鸠、与万人谈 " vs" 预体能训练(Pre-Train)、精调 ( Fine-Tuning ) "
小孩们会骂人、会骑车之后,人的自学才正式开始。
一个人的自学高速成长,通常先经过初等教育、广为的自学,再发展为专精的、深入某一应用领域的自学。
不仅要广为涉猎,大批自学书本科学知识,还要展开课堂教学和与人沟通交流。
在这个操作过程中,应用所学科学知识,获取意见反馈,对大脑中的科学知识展开修正和提炼,即从 " 科学知识到睿智 ",实现 " 知行合一 "。
掌控了基本的科学知识和专精技能后,现代人须要找到自己的专长应用领域。
在学校里,硕士生、博士生和教授须要选择一个细分应用领域展开深入研究。
每个人,也都须要找到自己的行业和职业。
对于 GPT 这种的大型数学模型,它们的发展也是透过类似的操作过程。
首先展开 " 大规模统计数据集 " 展开 " 预体能训练 ",然后利用有条码的样品以及人类文明意见反馈,透过增强自学(Reinforcement Learning by Human Feedback,RLHF)展开松动和插值。
数学模型的预体能训练,指的是在大批无条码统计数据上体能训练数学模型以自学基本科学知识。
这就像人在婴儿期以及从小学到高中期展开大批自学一样。不局限于某一应用领域,而是须要广为且大批地输出信息。
精调指的是在某一任务上,利用有条码统计数据对数学模型展开松动,以便更好地适应环境某一任务。
这就像人在写作了大批书籍后,还须要展开课堂教学,从课堂教学中获得意见反馈并高速成长。
许多伟人和名人,如毛泽东、列宁、特斯拉、查理 · 汤姆斯等,都十分热爱写作,并乐于与人沟通交流,在实际工作中大批课堂教学。
只有这种,才能获得足够多多的科学知识,才能塑造出过人的睿智。
3、" 任性 " vs" 过插值 "
我们时常看到许多有关 " 小孩因为鸡毛蒜皮之类的琐事而作出傻事 " 的新闻,这通常是 " 任性 " 的结果,与数学模型中的 " 过插值 " 现象有相似之处。
所谓机器自学,是让机器从样品中自学,从而 " 插值 " 出规律,进而掌控专精技能。
在体能训练数学模型时,如果样品过于单一或RosettaDock不当,就容易出现过插值现象。
过插值意味着数学模型将体能训练样品中的特殊情形误认为是普遍情形。
如此一来,在面对捷伊样品时,数学模型就无法作出恰当的处理。
同样,任性(过插值:over-fitting)导致的脆弱心智(数学模型)在面临现实世界中的各种挫折时,往往无法恰当应对(预测不准确、普遍化潜能差),从而很容易导致不幸的结果。
因此,我们应该让小孩面对各种情形,并给予意见反馈,让他们了解并适应环境真实世界。
4、" 职业教育 / 初等教育 " vs " 大数学模型、小数学模型 "
人的教育有两种类型,一种是从小就教他一门手艺。比如 " 做菜、开车、做铁匠、木匠 " 等等,这种他就成为了一个专业人才。另外,是先是漫长的初等教育,再是高等、专精教育。先打好基础,再选择专精方向。数学模型跟人一样,你给他输出什么,他就有怎样的输出,他就有怎样的科学知识专精技能。在大数学模型之前,大家熟知的猫狗识别、人脸识别、人脸识别等等数学模型,是做某一的事情,类似于职业教育。
这种的数学模型可以称为 " 小数学模型 ",一方面是数学模型的 size 小,另外一方面是数学模型的潜能范围比较窄。GPT 这种的数学模型之所以称为大数学模型,既是因为体能训练统计数据集规模大、体能训练出的数学模型 size 大,也指的是数学模型有广为的潜能,好像是 " 上知天文、下知地理 "。陈思王,是大数学模型,发展出通用智能。只读菜谱、只练厨技,是小数学模型,发展某一专精技能。
5、" 脑容量、字典、书籍 " vs " 大数学模型 "
我们可以从以下三个方面,来形象化地理解大数学模型。
首先,以脑容量作为比喻。数学模型的大小就像动物的脑容量一样,较大的脑容量通常意味着更高的睿智。拥有更多神经元和神经元间连接的大脑,才能够储存更多科学知识。
其次,以字典作为比喻。如果一个语言的字典仅包含十个字,那么这个语言能表达的意义将十分有限。不过,如果字典中有数万个字,那么它就能表达更丰富的信息。
最后,以书籍展开等效。为什么大数学模型更具威力?
以 GPT-3 为例,其数学模型有 800GB,即 8000 亿个字节,粗略地估算相当于 4000 亿个字。假设一本书有 20 万字,那么这就相当于 200 万本书。
可以说,这 " 浓缩 " 的 200 万本书基本上能够涵盖人类文明几乎所有的科学知识,且不重复。
(须要认识到的是,成千上万年来,人类文明科学知识的记录和传承基本上是透过语言和书籍形式展开的。)
因此可见,足够多大的数学模型,就能涵盖足够多多的科学知识。
大数学模型,就有大睿智。
6、" 作文潜能的体能训练 " vs " 语言大数学模型 "
常规的语言数学模型潜能相对有限,比如展开分词、词性判断等,最多完成翻译等任务。
GPT 作为 " 大语言数学模型(Large Language Model, LLM)" 之所以如此强大,是因为一开始它并没有某一的目的性,不是预设让数学模型完成某一个任务,而是给数学模型广为地输出和体能训练。
在学生作文潜能的培养上,有两种方法。
一种是以提升作文潜能为目标,让小孩写作各种作文技巧的书籍、参加各种作文培训班。但这种急于求成的方法,效果其实并不理想。
另一方面,有些学生家长鼓励小孩从小养成写作的习惯,博览群书。
这种一来,小孩的写作潜能、科学知识面、思维潜能单厢得到很大提升,作文潜能自然随之提高。
而且,由于写作速度、理解潜能的增长,小孩在读题、审题方面的速度和准确率也会提高,从而提升其他学科如数学、物理、化学等的成绩。
更为重要的是,写作不仅能提高成绩,还能塑造一个人的世界观、气质,并增强内心的力量。
可以说,对一个人的一生单厢产生深远影响。
因此,我们不应急功近利,而应培养 " 大数学模型 "。有了大数学模型,各种潜能自不过然就会呈现。
7、" 思维潜能、写作潜能 " vs " 字符预测 "
现代人常说,人如其文。一个人的文本能够体现出其思考潜能、表达潜能等综合素质。
数学模型也是如此,ChatGPT 的潜能体现在它的回答中,体现在一个个输出的字中。
首先要说明的是,ChatGPT 在回答问题时,一个字一个字地慢慢往外蹦,并非因为网络速度的问题,而是因为数学模型是以这种形式工作的:它根据当前的情境,急速地推理出下一个应该输出的字(将概率最高的字输出出来)。
因此," 准确预测下一个要输出的字符 " 是数学模型潜能的关键。
为了让你更好地理解这个基本概念的重要性,我来举一个例子。
假设有一部推理小说,故事情节跌宕起伏、线索错综复杂。
小说的最后,有一句话:" 凶手是 ______。"
如果 AI 在读到这里时能输出恰当的字符,那么就证明这个数学模型十分强大。
表面上是字符,实际上是智能。
8、" 变形金刚 " 与 "transformer"
GPT 是 "Generative Pre-trained Transformer" 的缩写,其中 Transformer 是一种深度自学架构,具体指的是一种基于自注意力(self-attention)机制的神经网络结构。
这个基本概念至关重要,但的确难以理解。
下面,试著说明一下。
你可以 " 顾名思义 ",用 " 变形金刚 " 这部电影来做等效。
变形金刚是把一辆汽车零件打散,然后再变成一个人。
这个操作过程就像 Transformer 中的 " 编码、解码 " 的操作过程。
将输出序列(比如汽车)解码成不同的部分(各个零件),并记忆部件之间的连接关系(透过自注意机制,self-attention),然后再根据相关信息组装成输出序列(如人型机器人)。
在这个操作过程中,Transformer 可以捕捉输出序列中的长距离依赖关系,从而实现更高效且准确的序列处理。
9、" 终身自学 " vs " 机器自学 " 人与人的最大差别是自学潜能
人要跟上社会发展,不仅要在学生时代好好自学,更重要的是在日常的工作和生活中急速自学、终身自学。机器之所以这么厉害、AI 之所以这么强大,是因为人家在急速自学啊。
更何况,机器的记忆力、自学速度,可是人的成百上千倍。
看看我们,一边在担忧 " 自己会不会被 AI 代替 ",一边整天慵懒地握着手机在打游戏、刷视频。
懒惰的人类文明,要努力了啊!
10、" 人脑、道 " vs " 可说明性 "
科学技术发展到今天,人类文明对自己的大脑有了一定的了解,但完全谈不上深入、透彻。
同样,对于利用深度神经网络技术打造出的 AI 数学模型,也存在 " 可说明性 " 的问题。
尽管数学模型很强大,能识别出猫狗、能对答如流、能写代码、能画画,但即使是数学模型的开发者,也无法准确地说明,某一结果是如何具体产生的。
可以说,人类文明用基本原理不明的大脑,开发出基本原理不明的大数学模型。
老子说,道可道十分道。
对于 AI 来说,也是如此。
太单纯的数学模型,的确不会有强大的潜能。
专栏作家
朱百宁,微信公众号:八点三十五,人人都是产品经理专栏作家。前百度品牌总监、蚂蚁产品总监,著有《自传播》一书,现在专注于人工睿智以及产品设计等应用领域。
本文原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自 Unsplash,基于 CC0 协议。
还木有评论哦,快来抢沙发吧~