知名数据集和数据公司
做大模型,要么自己标数据,要么用开源数据集,要么买。
这篇汇总一下业界常用的数据集和主要的数据公司,方便你找数据时有个参考。
预训练数据集
Common Crawl
地址:https://commoncrawl.org/
互联网爬取的网页数据,是大部分大模型预训练的主要数据来源。
- 规模:PB 级
- 内容:各种网页
- 质量:参差不齐,需要大量清洗
- 许可:免费使用
几乎所有大模型都用了 Common Crawl,但都要做大量清洗和过滤。
The Pile
地址:https://pile.eleuther.ai/
EleutherAI 整理的 800GB 英文语料,专门为训练大模型准备。
- 规模:825GB
- 内容:22 个子集混合,包括书籍、学术论文、代码、维基等
- 质量:经过清洗,质量不错
- 许可:各子集许可不同
GPT-Neo、GPT-J 等开源模型用这个训练的。
RedPajama
地址:https://github.com/togethercomputer/RedPajama-Data
复现 LLaMA 训练数据的开源版本。
- 规模:1.2 万亿 token
- 内容:参考 LLaMA 的数据配比
- 质量:较高
- 许可:开源
想复现 LLaMA 效果可以用这个。
WuDaoCorpora
地址:https://data.baai.ac.cn/
智源研究院发布的中文语料。
- 规模:3TB 文本
- 内容:中文网页、新闻、百科等
- 质量:中等
- 许可:申请使用
中文模型训练可以用。
RefinedWeb
地址:https://huggingface.co/datasets/tiiuae/falcon-refinedweb
Falcon 模型的训练数据,从 Common Crawl 精炼而来。
- 规模:5 万亿 token
- 内容:高质量英文网页
- 质量:高(去重、过滤做得好)
- 许可:开源
数据质量很高,推荐。
SFT 数据集
Alpaca
地址:https://github.com/tatsu-lab/stanford_alpaca
斯坦福发布的 5.2 万条指令数据,用 GPT-3.5 生成。
{
"instruction": "Give three tips for staying healthy.",
"input": "",
"output": "1. Eat a balanced diet... 2. Exercise regularly... 3. Get enough sleep..."
}
- 规模:52K
- 内容:通用指令
- 质量:中等
- 许可:Apache 2.0(但生成它的 GPT 协议有争议)
很多开源模型的起点,但数据量和质量都偏弱。
ShareGPT
地址:https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered
用户分享的和 ChatGPT 的对话记录。
- 规模:约 7 万条多轮对话
- 内容:真实用户对话
- 质量:参差不齐
- 许可:有争议(用户分享但 OpenAI 协议可能不允许)
Vicuna 模型用这个训练的。
BELLE
地址:https://github.com/LianjiaTech/BELLE
贝壳找房发布的中文指令数据。
- 规模:约 200 万条
- 内容:中文指令
- 质量:中等
- 许可:Apache 2.0
中文 SFT 数据比较大的一个。
MOSS-SFT
地址:https://github.com/OpenLMLab/MOSS
复旦大学 MOSS 模型的 SFT 数据。
- 规模:约 100 万条
- 内容:中英文混合
- 质量:较高
- 许可:CC BY-NC 4.0
Dolly
地址:https://github.com/databrickslabs/dolly
Databricks 员工人工标注的数据。
- 规模:15K
- 内容:英文指令
- 质量:高(人工标注)
- 许可:CC BY-SA 3.0
量不大但质量好,许可也清晰。
OpenAssistant
地址:https://huggingface.co/datasets/OpenAssistant/oasst1
众包标注的多轮对话数据。
- 规模:16 万条消息,3.5 万个对话树
- 内容:多语言
- 质量:较高(有质量评分)
- 许可:Apache 2.0
有偏好标注,可以用于 RLHF。
RLHF 数据集
Anthropic HH-RLHF
地址:https://github.com/anthropics/hh-rlhf
Anthropic 发布的人类偏好数据。
{
"chosen": "Human: ... Assistant: [更好的回答]",
"rejected": "Human: ... Assistant: [较差的回答]"
}
- 规模:约 17 万对
- 内容:Helpful 和 Harmless 两个子集
- 质量:高
- 许可:MIT
RLHF 研究的标准数据集。
Stanford SHP
地址:https://huggingface.co/datasets/stanfordnlp/SHP
Reddit 上的人类偏好数据,根据投票数判断偏好。
- 规模:38.5 万条
- 内容:18 个 Reddit 子版块
- 质量:中等(自动从投票推断)
- 许可:许可较宽松
规模大,但是自动标注的,质量不如人工。
PKU-SafeRLHF
地址:https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF
北大发布的安全偏好数据。
- 规模:约 33 万条
- 内容:安全相关的偏好对
- 质量:较高
- 许可:CC BY-NC 4.0
专注于安全性,和 HH-RLHF 互补。
代码数据集
The Stack
地址:https://huggingface.co/datasets/bigcode/the-stack
BigCode 项目整理的代码数据。
- 规模:6TB,3 亿个文件
- 内容:358 种编程语言
- 质量:高
- 许可:经过筛选,尊重原代码许可
训练代码模型的首选。
CodeSearchNet
地址:https://github.com/github/CodeSearchNet
GitHub 发布的代码搜索数据集。
- 规模:6 种语言,200 万函数
- 内容:代码 + 注释配对
- 质量:高
- 许可:MIT
数据平台和公司
Hugging Face Datasets
地址:https://huggingface.co/datasets
最大的开源数据集平台,找数据第一站。
from datasets import load_dataset
dataset = load_dataset("tatsu-lab/alpaca")
一行代码下载使用。
Scale AI
地址:https://scale.com/
美国最大的数据标注公司。
- 服务:标注、数据生成、RLHF 数据
- 客户:OpenAI、Meta、微软
- 特点:质量高、价格也高
OpenAI 的 RLHF 数据据说主要是 Scale 标的。
Labelbox
地址:https://labelbox.com/
数据标注平台 + 工具。
- 提供标注工具
- 提供标注服务
- 支持自建标注团队
海天瑞声
地址:http://www.speechocean.com/
国内上市的数据公司。
- 业务:语音、图像、文本标注
- 规模:大
- 客户:国内大厂
数据堂
地址:https://www.datatang.com/
国内老牌数据公司。
- 业务:各类数据标注和采集
- 特点:多语言数据有优势
Magic Data
地址:https://www.magicdatatech.com/
专注 AI 数据的公司。
- 业务:数据采集、标注、定制
- 特点:国际化做得好
数据的法律问题
版权问题
用网上爬的数据训练模型,可能侵犯版权。
- The New York Times 起诉 OpenAI
- Getty Images 起诉 Stability AI
- 多起集体诉讼进行中
现在还没有定论,但风险是真实存在的。
隐私问题
训练数据可能包含个人信息。
- 欧盟 GDPR 有严格要求
- 模型可能「记住」训练数据中的个人信息
正规做法是清洗掉个人信息,但很难做到 100%。
使用协议问题
- 用 GPT 的输出训练自己的模型,可能违反 OpenAI 的使用协议
- 用 ShareGPT 数据也有类似问题
商业使用要注意许可条款。
建议
- 商业使用:用许可清晰的数据集
- 研究用途:相对宽松,但也要注意
- 涉及个人信息:要做脱敏处理
小结
数据集速查表:
| 类型 | 推荐数据集 | 规模 |
|---|---|---|
| 英文预训练 | RefinedWeb、The Pile | TB 级 |
| 中文预训练 | WuDaoCorpora | TB 级 |
| 英文 SFT | Dolly、OpenAssistant | 万级 |
| 中文 SFT | BELLE、MOSS | 百万级 |
| RLHF | Anthropic HH-RLHF | 十万级 |
| 代码 | The Stack | TB 级 |
找数据的渠道:
- Hugging Face Datasets
- GitHub 搜索
- 数据公司购买
- 自己标注
数据篇到这里结束。下一部分讲训练:为什么要分布式、怎么做分布式。