GPT-4太强,甚至已经化身“主考官”了!
给其他市面上主流的大模型打分,结果自己给了自己最高分:
95.5。(好,给自己留点努力的空间)
(相关资料图)
不过随后就没有上90的选手了。就连它的“前辈”ChatGPT(GPT-3.5),它也只给了89.1分。
随后依次是号称最强竞品的Claude、谷歌Bard、UC伯克利出品的小羊驼Vicuna-13B,以及清华系开源模型ChatGLM-6B。
话不多说,速来围观GPT-4到底是如何评测的?
10项能力测评
首先,来看出题人GPT-4到底想考察语言模型的哪些能力。
要求出题尽量全面,考察模型能力的不同方面,并且足够难,使得不同水平的模型有足够的区分。
于是GPT-4直接出了10道题,而且还分别告知了出题理由——具体考察了大模型什么能力,可以说是很全面了。
(第一个问题GPT-4后面做了替换)
问题1:请简要概述小说《杀死一只知更鸟》的情节,并指出其中的主要主题。
理由:这个问题测试了模型理解和总结复杂叙事结构的能力,以及对文学作品中的主题和主旨的理解。
问题2:描述傅里叶变换的主要数学原理,并用一个简单的例子说明其应用。
理由:这个问题测试了模型以简单、易懂的方式理解和解释复杂概念的能力。
问题3:以“春天”为主题创作一首押韵的诗歌
关键词: