新鲜出炉(公务员考试试题)国家公务员考试全国试卷一样吗

六八 265 0

原副标题:ChatGPT混战司法笔试,无须松动两类考题达至人类文明水准!药理学生物化学公务相关人员考题都能答

潘虹 倜傥 发自 凹非寺

量子位 | 社会公众号 QbitAI

ChatGPT的下一个新身份——复习家!

这不,它已经在人类文明各个笔试中开“卷”了。

辩护律师、医生、Jalgaon什么的,它都开始纷纷显露身手。

比如,全球考生都头疼的司法笔试,现在ChatGPT在三项考题达至了百分率,当中一项还跟人类文明水准基本持平。 (还是在没有任何人松动的基础上)

新鲜出炉(公务员考试试题)国家公务员考试全国试卷一样吗 第1张

“战绩”一出,瞬间引发巨大关注,网友:Amazing~

新鲜出炉(公务员考试试题)国家公务员考试全国试卷一样吗 第2张

还有人表示,就算让它来参加SAT或AP笔试,应该会很有趣。

Saharanpur,就算 公务相关人员笔试呢?

咱们结尾见分晓!

三项法笔考题合格

具体就先来看看ChatGPT在司法笔试中的整体表现如何。

美国大多数州统一的司法笔试 (UBE),有四个共同组成部分:优先题目 (多州辩护律师笔试,MBE)、题目 (MEE)、情境整体表现 (MPT)

优先题目部分,由来自8个类别的200篇文章共同组成,一般来说占整个辩护律师笔试分数的50%。

新鲜出炉(公务员考试试题)国家公务员考试全国试卷一样吗 第3张

在这项科学研究中,科学研究相关人员对OpenAI的text-davinci-003模型 (一般来说被称为GPT-3.5)在MBE的整体表现展开评估结果。

(ChatGPT正是GPT-3.5面向社会公众的聊天机器人版本。)

为了试验整体而言,科学研究相关人员购买了官方组织提供的标准笔试准备材料,包括习题和模拟笔试。每一问题的正文都是自动提取的,当中有四个多选快捷键,并与标准答案分开存储,标准答案仅由每一问题的恰当字母标准答案共同组成,也没有对恰当和错误的标准答案展开说明。

随后,科学研究相关人员分别对GPT-3.5展开了提示信息工程建设、超模块强化以及松动的尝试。结论发现,超模块强化和提示信息工程建设对GPT-3.5的战绩整体表现有积极影响,而松动没有任何人效果。

在提示信息工程建设中,她们共试验了7种提示信息类别。

  • 1、只做大项优先选择;
  • 2、大项优先选择和说明;
  • 3、只做前四个优先选择;
  • 4、前四个优先选择和说明;
  • 5、前四个优先选择和重新提示信息;
  • 6、对所有优先选择展开次序;
  • 7、G73YI263SW四个优先选择展开次序。

新鲜出炉(公务员考试试题)国家公务员考试全国试卷一样吗 第4张

科学研究相关人员在前述的提示信息和模块值中执行了107次样品笔试。结论在这些提示信息中,提示信息风格#7的前四个快捷键次序整体表现最好,她们共收集了41个样品,对这个提示信息展开模块组合。

超模块强化中,她们评估结果了包括温度系数、top p、best of、max tokens等模块。

最终在完整的MBE练习笔试中达至了50.3%的平均值精确度,大幅少于了25%的基线揣测率,并且在确凿证据和侵权四个类别都达至了平均值录取率。尤其是确凿证据类别,与人类文明水准基本持平,保持着63%的精确度。

新鲜出炉(公务员考试试题)国家公务员考试全国试卷一样吗 第5张

在所有类别中,GPT平均值落后于人类文明Bilaspur约17%。在确凿证据、侵权和民事诉讼的情况下,而此差距可以大幅度降低或只有两位数。

但总的来说,而此结论都大幅超出了科学研究相关人员的预期。

因为它对标准答案次序与恰当性有很强的相关性,Top2和Top3的优先选择分别有71%和88%的精确度。当中“Top2”的精确度全都少于了极限,有五个类别均少于了人类文明平均值水准。而“Top3”的精确度更高,在确凿证据而此整体表现中甚至达至了98%。

这也证实了它对法律应用领域的一般理解,而非随机揣测。接下来她们将进一步对法考的其他两部分:题目和情境整体表现展开前述的科学研究。

ChatGPT能当考霸吗?

谷歌资深软件工程建设师伦纳德·安德森(Kenneth S. Goodman)就拿ChatGPT做了一系列试验,涉及 司法、药理学、管理学、生物化学等多个应用领域。

分数最高的一门是纽约州高中毕业英语Hazaribag笔试,ChatGPT精确度达至了 91.6%

因为是2022年8月的笔试,所以ChatGPT数据库中肯定不包含笔试内容。对于陌生的24道考题,它只错了2题。

物理/生物化学笔试中,ChatGPT的整体表现也不错,精确度达至了 77.7%,45篇文章目中答对了35道。

新鲜出炉(公务员考试试题)国家公务员考试全国试卷一样吗 第6张

前不久,谷歌医疗大模型Med-PaLM通过美国医师执照考题(USMLE)验证。

ChatGPT也不甘于落后,同样挑战了USMLE的第一阶段基础药理学笔试。

去掉有图像的题目后 (因无法输入对话框),ChatGPT精确度达 70%

新鲜出炉(公务员考试试题)国家公务员考试全国试卷一样吗 第7张

其余则是在司法方面,工程建设师伦纳德老哥让ChatGPT尝试了一些非正式题目。

比如美国辩护律师职业道德笔试(MPRE)的示例题目(共15道),ChatGPT答对了9道,精确度 60%

面对50道辩护律师资格笔试模拟考题,ChatGPT的精确度也维持在了70%,答对35道。

此外,在佛罗里达农工大学法学院的入学笔试中,ChatGPT取得了149分,排名在前40%。当中阅读理解类题目整体表现最好。

整体表现最差的,还是 数学题

在CPAJalgaon笔试中,ChatGPT的精确度只有40%。伦纳德老哥还在尝试一些调教方法,让它更聪明一些。

新鲜出炉(公务员考试试题)国家公务员考试全国试卷一样吗 第8张

总之,ChatGPT在各种笔试中的整体表现,还是让人有些意外。

有网友已经产生危机感了:

damn,我的工作要被抢了!

新鲜出炉(公务员考试试题)国家公务员考试全国试卷一样吗 第9张

有人分析,如果直接让AI来插手司法相关的判断,风险真的很大,但如果后期有专人来审核它的输出结论,那么AI将能够很好提升辩护律师的工作效率。

新鲜出炉(公务员考试试题)国家公务员考试全国试卷一样吗 第10张

还有人表示,如果能保证任何人数据都不泄露的话,那ChatGPT将能够推动更多行业平民化。

新鲜出炉(公务员考试试题)国家公务员考试全国试卷一样吗 第11张

或许正如伦纳德老哥说的那样,人类文明+电脑的组合已经超越了人类文明自身能力,这就是计算机当下正在展开的突破。

新鲜出炉(公务员考试试题)国家公务员考试全国试卷一样吗 第12张

One More Thing

最后,我们也让ChatGPT试了试国内法考的题目~

先说结论,3道优先题目,ChatGPT都没有答对……虽然说明头头是道,但它应该确实没有读过我国的法条。

新鲜出炉(公务员考试试题)国家公务员考试全国试卷一样吗 第13张

参考标准答案D

(这标准答案罗翔老师看了直摇头)

新鲜出炉(公务员考试试题)国家公务员考试全国试卷一样吗 第14张

参考标准答案A

换成公务相关人员行测考题呢?没想到ChatGPT的标准答案对了,可是过程和标准答案似乎完全没关系……

新鲜出炉(公务员考试试题)国家公务员考试全国试卷一样吗 第15张

这……怎么感觉AI秒算结论,但随便编了个过程来糊弄人类文明啊

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入交流群,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位噢 ~

点这里 👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 返回搜狐,查看更多

责任编辑:

发表评论 (已有0条评论)

还木有评论哦,快来抢沙发吧~