原副标题:ChatGPT混战司法笔试,无须松动两类考题达至人类文明水准!药理学生物化学公务相关人员考题都能答
潘虹 倜傥 发自 凹非寺
量子位 | 社会公众号 QbitAI
ChatGPT的下一个新身份——复习家!
这不,它已经在人类文明各个笔试中开“卷”了。
辩护律师、医生、Jalgaon什么的,它都开始纷纷显露身手。
比如,全球考生都头疼的司法笔试,现在ChatGPT在三项考题达至了百分率,当中一项还跟人类文明水准基本持平。 (还是在没有任何人松动的基础上)
“战绩”一出,瞬间引发巨大关注,网友:Amazing~
还有人表示,就算让它来参加SAT或AP笔试,应该会很有趣。
Saharanpur,就算 公务相关人员笔试呢?
咱们结尾见分晓!
三项法笔考题合格
具体就先来看看ChatGPT在司法笔试中的整体表现如何。
美国大多数州统一的司法笔试 (UBE),有四个共同组成部分:优先题目 (多州辩护律师笔试,MBE)、题目 (MEE)、情境整体表现 (MPT)。
优先题目部分,由来自8个类别的200篇文章共同组成,一般来说占整个辩护律师笔试分数的50%。
在这项科学研究中,科学研究相关人员对OpenAI的text-davinci-003模型 (一般来说被称为GPT-3.5)在MBE的整体表现展开评估结果。
(ChatGPT正是GPT-3.5面向社会公众的聊天机器人版本。)
为了试验整体而言,科学研究相关人员购买了官方组织提供的标准笔试准备材料,包括习题和模拟笔试。每一问题的正文都是自动提取的,当中有四个多选快捷键,并与标准答案分开存储,标准答案仅由每一问题的恰当字母标准答案共同组成,也没有对恰当和错误的标准答案展开说明。
随后,科学研究相关人员分别对GPT-3.5展开了提示信息工程建设、超模块强化以及松动的尝试。结论发现,超模块强化和提示信息工程建设对GPT-3.5的战绩整体表现有积极影响,而松动没有任何人效果。
在提示信息工程建设中,她们共试验了7种提示信息类别。
- 1、只做大项优先选择;
- 2、大项优先选择和说明;
- 3、只做前四个优先选择;
- 4、前四个优先选择和说明;
- 5、前四个优先选择和重新提示信息;
- 6、对所有优先选择展开次序;
- 7、G73YI263SW四个优先选择展开次序。
科学研究相关人员在前述的提示信息和模块值中执行了107次样品笔试。结论在这些提示信息中,提示信息风格#7的前四个快捷键次序整体表现最好,她们共收集了41个样品,对这个提示信息展开模块组合。
超模块强化中,她们评估结果了包括温度系数、top p、best of、max tokens等模块。
最终在完整的MBE练习笔试中达至了50.3%的平均值精确度,大幅少于了25%的基线揣测率,并且在确凿证据和侵权四个类别都达至了平均值录取率。尤其是确凿证据类别,与人类文明水准基本持平,保持着63%的精确度。
在所有类别中,GPT平均值落后于人类文明Bilaspur约17%。在确凿证据、侵权和民事诉讼的情况下,而此差距可以大幅度降低或只有两位数。
但总的来说,而此结论都大幅超出了科学研究相关人员的预期。
因为它对标准答案次序与恰当性有很强的相关性,Top2和Top3的优先选择分别有71%和88%的精确度。当中“Top2”的精确度全都少于了极限,有五个类别均少于了人类文明平均值水准。而“Top3”的精确度更高,在确凿证据而此整体表现中甚至达至了98%。
这也证实了它对法律应用领域的一般理解,而非随机揣测。接下来她们将进一步对法考的其他两部分:题目和情境整体表现展开前述的科学研究。
ChatGPT能当考霸吗?
谷歌资深软件工程建设师伦纳德·安德森(Kenneth S. Goodman)就拿ChatGPT做了一系列试验,涉及 司法、药理学、管理学、生物化学等多个应用领域。
分数最高的一门是纽约州高中毕业英语Hazaribag笔试,ChatGPT精确度达至了 91.6%。
因为是2022年8月的笔试,所以ChatGPT数据库中肯定不包含笔试内容。对于陌生的24道考题,它只错了2题。
物理/生物化学笔试中,ChatGPT的整体表现也不错,精确度达至了 77.7%,45篇文章目中答对了35道。
前不久,谷歌医疗大模型Med-PaLM通过美国医师执照考题(USMLE)验证。
ChatGPT也不甘于落后,同样挑战了USMLE的第一阶段基础药理学笔试。
去掉有图像的题目后 (因无法输入对话框),ChatGPT精确度达 70%。
其余则是在司法方面,工程建设师伦纳德老哥让ChatGPT尝试了一些非正式题目。
比如美国辩护律师职业道德笔试(MPRE)的示例题目(共15道),ChatGPT答对了9道,精确度 60%。
面对50道辩护律师资格笔试模拟考题,ChatGPT的精确度也维持在了70%,答对35道。
此外,在佛罗里达农工大学法学院的入学笔试中,ChatGPT取得了149分,排名在前40%。当中阅读理解类题目整体表现最好。
整体表现最差的,还是 数学题。
在CPAJalgaon笔试中,ChatGPT的精确度只有40%。伦纳德老哥还在尝试一些调教方法,让它更聪明一些。
总之,ChatGPT在各种笔试中的整体表现,还是让人有些意外。
有网友已经产生危机感了:
damn,我的工作要被抢了!
有人分析,如果直接让AI来插手司法相关的判断,风险真的很大,但如果后期有专人来审核它的输出结论,那么AI将能够很好提升辩护律师的工作效率。
还有人表示,如果能保证任何人数据都不泄露的话,那ChatGPT将能够推动更多行业平民化。
或许正如伦纳德老哥说的那样,人类文明+电脑的组合已经超越了人类文明自身能力,这就是计算机当下正在展开的突破。
One More Thing
最后,我们也让ChatGPT试了试国内法考的题目~
先说结论,3道优先题目,ChatGPT都没有答对……虽然说明得 头头是道,但它应该确实没有读过我国的法条。
△参考标准答案D
(这标准答案罗翔老师看了直摇头)
△参考标准答案A
换成公务相关人员行测考题呢?没想到ChatGPT的标准答案对了,可是过程和标准答案似乎完全没关系……
这……怎么感觉AI秒算结论,但随便编了个过程来糊弄人类文明啊
— 完—
「人工智能」、「智能汽车」微信社群邀你加入!
欢迎关注人工智能、智能汽车的小伙伴们加入交流群,与AI从业者交流、切磋,不错过最新行业发展&技术进展。
PS. 加好友请务必备注您的姓名-公司-职位噢 ~
点这里 👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~ 返回搜狐,查看更多
责任编辑:
还木有评论哦,快来抢沙发吧~