环球观点:当GPT-4化身主考官:与ChatGPT处于同水平的有这些

2023-04-18 09:36:55 来源:东方资讯

GPT-4太强,甚至已经化身“主考官”了!

给其他市面上主流的大模型打分,结果自己给了自己最高分:

95.5。(好,给自己留点努力的空间)


(相关资料图)

不过随后就没有上90的选手了。就连它的“前辈”ChatGPT(GPT-3.5),它也只给了89.1分。

随后依次是号称最强竞品的Claude、谷歌Bard、UC伯克利出品的小羊驼Vicuna-13B,以及清华系开源模型ChatGLM-6B。

话不多说,速来围观GPT-4到底是如何评测的?

10项能力测评

首先,来看出题人GPT-4到底想考察语言模型的哪些能力。

要求出题尽量全面,考察模型能力的不同方面,并且足够难,使得不同水平的模型有足够的区分。

于是GPT-4直接出了10道题,而且还分别告知了出题理由——具体考察了大模型什么能力,可以说是很全面了。

(第一个问题GPT-4后面做了替换)

问题1:请简要概述小说《杀死一只知更鸟》的情节,并指出其中的主要主题。

理由:这个问题测试了模型理解和总结复杂叙事结构的能力,以及对文学作品中的主题和主旨的理解。

问题2:描述傅里叶变换的主要数学原理,并用一个简单的例子说明其应用。

理由:这个问题测试了模型以简单、易懂的方式理解和解释复杂概念的能力。

问题3:以“春天”为主题创作一首押韵的诗歌

关键词:

上一篇 : 几月吃柚子?

下一篇 : 几月吃柚子?

X 广告
公司
X 广告

Copyright   2015-2022 大河快递网版权所有  备案号:京ICP备2022022245号-75   联系邮箱:435 226 40@qq.com