常见 Benchmark：MMLU、HumanEval、GSM8K

做大模型评测，绑不开几个常见的 Benchmark。

这篇介绍最常用的评测集，包括它们测什么、怎么测、怎么解读。

综合能力

MMLU

全称：Massive Multitask Language Understanding

测什么：综合知识和理解能力，覆盖 57 个学科。

规模：约 14,000 道选择题

学科分类：

STEM：物理、化学、生物、数学、计算机...
人文：历史、哲学、法律...
社科：经济、心理、政治...
其他：医学、会计、市场营销...

样例：

Question: The longest living cells in the human body are
(A) nerve cells
(B) muscle cells
(C) liver cells
(D) red blood cells

Answer: A

评测方式：选择题，4 选 1，计算准确率

基准分数（参考）：

模型	MMLU
GPT-4	86.4%
Claude 3 Opus	86.8%
LLaMA-2-70B	68.9%
LLaMA-2-7B	45.3%

注意：57 个学科可以分开看，有些模型某些学科特别强/弱。

C-Eval

测什么：中文综合能力，类似中文版 MMLU

规模：13,948 道选择题，52 个学科

特点：

涵盖初中到专业研究生难度
中国特色知识（中国历史、中国法律等）

分数参考：

模型	C-Eval
GPT-4	68.7%
Claude 3	65.3%
Qwen-72B	83.3%

中文模型在 C-Eval 上通常比英文模型表现好。

CMMLU

测什么：中文综合能力，比 C-Eval 更全面

规模：11,528 道题，67 个学科

特点：学科划分更细，有中国特色内容

数学推理

GSM8K

全称：Grade School Math 8K

测什么：小学数学应用题

规模：8,500 道题

样例：

Question: Janet's ducks lay 16 eggs per day. She eats three for
breakfast every morning and bakes muffins for her friends every
day with four. She sells the remainder at the farmers' market
daily for $2 per fresh duck egg. How much in dollars does she
make every day at the farmers' market?

Answer: 18
(16 - 3 - 4 = 9 eggs, 9 * 2 = 18 dollars)

评测方式：最终答案正确即可，需要从生成文本中提取数字

分数参考：

模型	GSM8K
GPT-4	92.0%
Claude 3 Opus	95.0%
LLaMA-2-70B	56.8%

注意：

需要 Chain-of-Thought 才能做好
提取答案的方式会影响分数

MATH

测什么：高中/竞赛级数学

规模：12,500 道题

难度分级：1-5 级

学科：代数、几何、数论、概率、预备微积分...

特点：比 GSM8K 难很多，需要真正的数学推理能力

分数参考：

模型	MATH
GPT-4	42.5%
Claude 3 Opus	60.1%
LLaMA-2-70B	13.5%

MATH 分数提升空间大，是区分模型数学能力的好指标。

代码生成

HumanEval

测什么：Python 代码生成能力

规模：164 道编程题

样例：

def has_close_elements(numbers: List[float], threshold: float) -> bool:
    """Check if in given list of numbers, are any two numbers
    closer to each other than given threshold.

    >>> has_close_elements([1.0, 2.0, 3.0], 0.5)
    False
    >>> has_close_elements([1.0, 2.8, 3.0, 4.0, 5.0, 2.0], 0.3)
    True
    """

评测方式：生成代码，跑测试用例，Pass@k

分数参考（Pass@1）：

模型	HumanEval
GPT-4	67.0%
Claude 3 Opus	84.9%
CodeLLaMA-34B	48.8%

注意：

Pass@1 和 Pass@10 差别很大
采样参数（temperature）影响结果

MBPP

全称：Mostly Basic Programming Problems

规模：974 道题

特点：比 HumanEval 简单，题量大

MultiPL-E

测什么：多语言代码生成

支持语言：Python、Java、JavaScript、C++、Rust、Go...

特点：把 HumanEval 翻译成多种编程语言

推理能力

ARC

全称：AI2 Reasoning Challenge

测什么：科学常识推理

分类：

ARC-Easy：简单
ARC-Challenge：有难度

规模：7,787 道选择题

样例：

Question: Which property of a mineral can be determined just
by looking at it?
(A) luster
(B) mass
(C) weight
(D) hardness

Answer: A

HellaSwag

测什么：常识推理，选择最合理的续写

规模：70,000 道题

样例：

A woman is outside with a bucket and a dog. The dog is running
around trying to avoid a bath. She...

(A) rinses the bucket off with soap and dries it with a towel.
(B) uses a hose to wash the dog.
(C) gets the dog wet, then makes it dry.
(D) gets into the bath herself.

Answer: B

特点：人类准确率 95%+，模型早期很差，现在基本都 90%+

WinoGrande

测什么：代词消解，常识推理

规模：44,000 道题

样例：

The trophy doesn't fit in the suitcase because it is too [big/small].
What is too big/small?

(A) trophy
(B) suitcase

阅读理解

SQuAD

全称：Stanford Question Answering Dataset

测什么：阅读理解，根据文章回答问题

版本：

SQuAD 1.1：答案在文章中
SQuAD 2.0：有些问题没有答案

RACE

测什么：阅读理解，来自中国中高考英语阅读

分类：

RACE-M：中学
RACE-H：高中

DROP

全称：Discrete Reasoning Over Paragraphs

测什么：需要数学推理的阅读理解

长上下文

LongBench

测什么：长上下文理解能力

任务：

长文档问答
长文本摘要
代码补全
few-shot 学习

长度：涵盖 4K - 128K token

RULER

测什么：长上下文「大海捞针」

任务：在长文本中找到特定信息

特点：专门测长上下文能力是否真实有效

对话/指令遵循

MT-Bench

测什么：多轮对话能力

规模：80 道多轮对话题

评测方式：GPT-4 打分（1-10）

特点：测试模型能否进行高质量多轮对话

AlpacaEval

测什么：指令遵循能力

规模：805 条指令

评测方式：GPT-4 对比打分（和参考模型比）

IFEval

测什么：指令遵循能力

特点：有客观标准（如「回答必须少于 100 字」）

中文特定

Benchmark	测什么	规模
C-Eval	综合知识	14K
CMMLU	综合知识	11.5K
GAOKAO	高考题	2.8K
AGIEval	综合能力	8.1K
BELLE	中文指令	-

怎么选 Benchmark

评测综合能力

英文：MMLU + HellaSwag + WinoGrande + ARC
中文：C-Eval + CMMLU

评测特定能力

能力	Benchmark
数学	GSM8K + MATH
代码	HumanEval + MBPP
长上下文	LongBench + RULER
对话	MT-Bench
指令遵循	IFEval

完整评测（推荐）

综合：MMLU, C-Eval
推理：ARC, HellaSwag
数学：GSM8K, MATH
代码：HumanEval
对话：MT-Bench

小结

常见 Benchmark 速查：

Benchmark	类型	规模	评测方式
MMLU	综合知识	14K	选择题
C-Eval	中文综合	14K	选择题
GSM8K	小学数学	8.5K	答案匹配
MATH	高等数学	12.5K	答案匹配
HumanEval	代码生成	164	测试用例
ARC	常识推理	7.8K	选择题
HellaSwag	常识推理	70K	选择题
MT-Bench	多轮对话	80	GPT-4 打分

选择建议：

看综合能力：MMLU + C-Eval
看特定能力：选对应 Benchmark
多个 Benchmark 综合看，不要只看一个

下一篇讲 Leaderboard 和评测平台。