环球观点：当GPT-4化身主考官：与ChatGPT处于同水平的有这些

2023-04-18 09:36:55 来源：东方资讯

GPT-4太强，甚至已经化身“主考官”了！

给其他市面上主流的大模型打分，结果自己给了自己最高分：

95.5。（好，给自己留点努力的空间）

(相关资料图)

不过随后就没有上90的选手了。就连它的“前辈”ChatGPT（GPT-3.5），它也只给了89.1分。

随后依次是号称最强竞品的Claude、谷歌Bard、UC伯克利出品的小羊驼Vicuna-13B，以及清华系开源模型ChatGLM-6B。

话不多说，速来围观GPT-4到底是如何评测的？

10项能力测评

首先，来看出题人GPT-4到底想考察语言模型的哪些能力。

要求出题尽量全面，考察模型能力的不同方面，并且足够难，使得不同水平的模型有足够的区分。

于是GPT-4直接出了10道题，而且还分别告知了出题理由——具体考察了大模型什么能力，可以说是很全面了。

（第一个问题GPT-4后面做了替换）

问题1：请简要概述小说《杀死一只知更鸟》的情节，并指出其中的主要主题。

理由：这个问题测试了模型理解和总结复杂叙事结构的能力，以及对文学作品中的主题和主旨的理解。

问题2：描述傅里叶变换的主要数学原理，并用一个简单的例子说明其应用。

理由：这个问题测试了模型以简单、易懂的方式理解和解释复杂概念的能力。

问题3：以“春天”为主题创作一首押韵的诗歌

关键词：

上一篇 : 几月吃柚子?

下一篇 : 几月吃柚子?

相关阅读

改作风办实事优环境安徽助力人才企业快发展

推动金融要素与人才要素融合发展，为人才创业创新提供全方位、多层次、高质量的金融服务。当前正是科技成果转化的关键阶段，企业资金存在缺

2022-03-18

我国自主研制商用磁浮3.0列车完成试验列车设计时速200公里

记者近日从中车株洲电力机车有限公司获悉，由该公司研制的我国拥有完全自主知识产权的首列商用磁浮3 0列车在同济大学高速磁浮试验线上完成

2022-03-18

骑手摔伤引争议平台究竟该不该负责？

【说案新就业形态劳动者权益保护个案微观】骑手摔伤引发与平台是合作关系还是劳动关系争议法官：判断劳动者与用人单位是否存在劳动关系要

2022-03-18

各地加快推进农村电商发展补齐物流短板加速鲜货出山

农村电商方兴未艾，成为转变农业发展方式的新发力点，但也面临新挑战。如何让优质农产品获得更多消费者青睐?如何利用电商直播助力销售?物流

2022-03-18

无人机即时配送解决物流配送“最后一公里”

无人机投包裹快递、无人机运防疫物资、无人机送奶茶外卖……随着新一代互联网技术的创新应用，一些旨在解决物流配送最后一公里的智能配送员

2022-03-18

X 广告

公司

监管

排行

分类

四川德格：非法猎杀濒危野生动物案告破 5名嫌疑人落网

　　中新网成都11月22日电 (记者刘忠俊)四川德格县公安局22日通报，该县竹庆镇境内发生的系列危害珍贵、濒危野生动物案已成功告破，5名

北京规划超270公里冬奥道路网 6条高速施划专用车道

(北京冬奥会)北京规划超270公里冬奥道路网 6条高速施划专用车道北京11月22日电北京2022年冬奥会和冬残奥会期间，北京赛区和延庆赛区将共计

物流

百科

消费

郑渝高铁：铺就豫鄂渝地区经济“发展路”

铺就豫鄂渝地区经济发展路。郑渝高铁是我国《中长期铁路网规划》八纵八横高速铁路网中的重要组成部分，是串联豫、鄂、渝3个省市，贯通中原

黑河市爱辉区1个中风险地区调整为低风险等级

　　中新网黑河11月14日电 (记者史轶夫王琳)黑河市应对新型冠状病毒感染肺炎疫情工作领导小组指挥部办公室14日晚发布消息，自14日18时

X 广告