知名数据集和数据公司

{
  "instruction": "Give three tips for staying healthy.",
  "input": "",
  "output": "1. Eat a balanced diet... 2. Exercise regularly... 3. Get enough sleep..."
}

规模：52K
内容：通用指令
质量：中等
许可：Apache 2.0（但生成它的 GPT 协议有争议）

很多开源模型的起点，但数据量和质量都偏弱。

ShareGPT

地址：https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered

用户分享的和 ChatGPT 的对话记录。

规模：约 7 万条多轮对话
内容：真实用户对话
质量：参差不齐
许可：有争议（用户分享但 OpenAI 协议可能不允许）

Vicuna 模型用这个训练的。

BELLE

地址：https://github.com/LianjiaTech/BELLE

贝壳找房发布的中文指令数据。

规模：约 200 万条
内容：中文指令
质量：中等
许可：Apache 2.0

中文 SFT 数据比较大的一个。

MOSS-SFT

地址：https://github.com/OpenLMLab/MOSS

复旦大学 MOSS 模型的 SFT 数据。

规模：约 100 万条
内容：中英文混合
质量：较高
许可：CC BY-NC 4.0

Dolly

地址：https://github.com/databrickslabs/dolly

Databricks 员工人工标注的数据。

规模：15K
内容：英文指令
质量：高（人工标注）
许可：CC BY-SA 3.0

量不大但质量好，许可也清晰。

OpenAssistant

地址：https://huggingface.co/datasets/OpenAssistant/oasst1

众包标注的多轮对话数据。

规模：16 万条消息，3.5 万个对话树
内容：多语言
质量：较高（有质量评分）
许可：Apache 2.0

有偏好标注，可以用于 RLHF。

RLHF 数据集

Anthropic HH-RLHF

地址：https://github.com/anthropics/hh-rlhf

Anthropic 发布的人类偏好数据。

{
  "chosen": "Human: ... Assistant: [更好的回答]",
  "rejected": "Human: ... Assistant: [较差的回答]"
}

规模：约 17 万对
内容：Helpful 和 Harmless 两个子集
质量：高
许可：MIT

RLHF 研究的标准数据集。

Stanford SHP

地址：https://huggingface.co/datasets/stanfordnlp/SHP

Reddit 上的人类偏好数据，根据投票数判断偏好。

规模：38.5 万条
内容：18 个 Reddit 子版块
质量：中等（自动从投票推断）
许可：许可较宽松

规模大，但是自动标注的，质量不如人工。

PKU-SafeRLHF

地址：https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF

北大发布的安全偏好数据。

规模：约 33 万条
内容：安全相关的偏好对
质量：较高
许可：CC BY-NC 4.0

专注于安全性，和 HH-RLHF 互补。

代码数据集

The Stack

地址：https://huggingface.co/datasets/bigcode/the-stack

BigCode 项目整理的代码数据。

规模：6TB，3 亿个文件
内容：358 种编程语言
质量：高
许可：经过筛选，尊重原代码许可

训练代码模型的首选。

CodeSearchNet

地址：https://github.com/github/CodeSearchNet

GitHub 发布的代码搜索数据集。

规模：6 种语言，200 万函数
内容：代码 + 注释配对
质量：高
许可：MIT

数据平台和公司

Hugging Face Datasets

地址：https://huggingface.co/datasets

最大的开源数据集平台，找数据第一站。

from datasets import load_dataset
dataset = load_dataset("tatsu-lab/alpaca")

一行代码下载使用。

Scale AI

地址：https://scale.com/

美国最大的数据标注公司。

服务：标注、数据生成、RLHF 数据
客户：OpenAI、Meta、微软
特点：质量高、价格也高

OpenAI 的 RLHF 数据据说主要是 Scale 标的。

Labelbox

地址：https://labelbox.com/

数据标注平台 + 工具。

提供标注工具
提供标注服务
支持自建标注团队

海天瑞声

地址：http://www.speechocean.com/

国内上市的数据公司。

业务：语音、图像、文本标注
规模：大
客户：国内大厂

数据堂

地址：https://www.datatang.com/

国内老牌数据公司。

业务：各类数据标注和采集
特点：多语言数据有优势

Magic Data

地址：https://www.magicdatatech.com/

专注 AI 数据的公司。

业务：数据采集、标注、定制
特点：国际化做得好

数据的法律问题

版权问题

用网上爬的数据训练模型，可能侵犯版权。

The New York Times 起诉 OpenAI
Getty Images 起诉 Stability AI
多起集体诉讼进行中

现在还没有定论，但风险是真实存在的。

隐私问题

训练数据可能包含个人信息。

欧盟 GDPR 有严格要求
模型可能「记住」训练数据中的个人信息

正规做法是清洗掉个人信息，但很难做到 100%。

使用协议问题

用 GPT 的输出训练自己的模型，可能违反 OpenAI 的使用协议
用 ShareGPT 数据也有类似问题

商业使用要注意许可条款。

建议

商业使用：用许可清晰的数据集
研究用途：相对宽松，但也要注意
涉及个人信息：要做脱敏处理

小结

数据集速查表：

类型	推荐数据集	规模
英文预训练	RefinedWeb、The Pile	TB 级
中文预训练	WuDaoCorpora	TB 级
英文 SFT	Dolly、OpenAssistant	万级
中文 SFT	BELLE、MOSS	百万级
RLHF	Anthropic HH-RLHF	十万级
代码	The Stack	TB 级

找数据的渠道：

Hugging Face Datasets
GitHub 搜索
数据公司购买
自己标注

数据篇到这里结束。下一部分讲训练：为什么要分布式、怎么做分布式。