HiHuo
首页
博客
手册
工具
关于
首页
博客
手册
工具
关于

知名数据集和数据公司

做大模型,要么自己标数据,要么用开源数据集,要么买。

这篇汇总一下业界常用的数据集和主要的数据公司,方便你找数据时有个参考。


预训练数据集

Common Crawl

地址:https://commoncrawl.org/

互联网爬取的网页数据,是大部分大模型预训练的主要数据来源。

  • 规模:PB 级
  • 内容:各种网页
  • 质量:参差不齐,需要大量清洗
  • 许可:免费使用

几乎所有大模型都用了 Common Crawl,但都要做大量清洗和过滤。

The Pile

地址:https://pile.eleuther.ai/

EleutherAI 整理的 800GB 英文语料,专门为训练大模型准备。

  • 规模:825GB
  • 内容:22 个子集混合,包括书籍、学术论文、代码、维基等
  • 质量:经过清洗,质量不错
  • 许可:各子集许可不同

GPT-Neo、GPT-J 等开源模型用这个训练的。

RedPajama

地址:https://github.com/togethercomputer/RedPajama-Data

复现 LLaMA 训练数据的开源版本。

  • 规模:1.2 万亿 token
  • 内容:参考 LLaMA 的数据配比
  • 质量:较高
  • 许可:开源

想复现 LLaMA 效果可以用这个。

WuDaoCorpora

地址:https://data.baai.ac.cn/

智源研究院发布的中文语料。

  • 规模:3TB 文本
  • 内容:中文网页、新闻、百科等
  • 质量:中等
  • 许可:申请使用

中文模型训练可以用。

RefinedWeb

地址:https://huggingface.co/datasets/tiiuae/falcon-refinedweb

Falcon 模型的训练数据,从 Common Crawl 精炼而来。

  • 规模:5 万亿 token
  • 内容:高质量英文网页
  • 质量:高(去重、过滤做得好)
  • 许可:开源

数据质量很高,推荐。


SFT 数据集

Alpaca

地址:https://github.com/tatsu-lab/stanford_alpaca

斯坦福发布的 5.2 万条指令数据,用 GPT-3.5 生成。

{
  "instruction": "Give three tips for staying healthy.",
  "input": "",
  "output": "1. Eat a balanced diet... 2. Exercise regularly... 3. Get enough sleep..."
}
  • 规模:52K
  • 内容:通用指令
  • 质量:中等
  • 许可:Apache 2.0(但生成它的 GPT 协议有争议)

很多开源模型的起点,但数据量和质量都偏弱。

ShareGPT

地址:https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered

用户分享的和 ChatGPT 的对话记录。

  • 规模:约 7 万条多轮对话
  • 内容:真实用户对话
  • 质量:参差不齐
  • 许可:有争议(用户分享但 OpenAI 协议可能不允许)

Vicuna 模型用这个训练的。

BELLE

地址:https://github.com/LianjiaTech/BELLE

贝壳找房发布的中文指令数据。

  • 规模:约 200 万条
  • 内容:中文指令
  • 质量:中等
  • 许可:Apache 2.0

中文 SFT 数据比较大的一个。

MOSS-SFT

地址:https://github.com/OpenLMLab/MOSS

复旦大学 MOSS 模型的 SFT 数据。

  • 规模:约 100 万条
  • 内容:中英文混合
  • 质量:较高
  • 许可:CC BY-NC 4.0

Dolly

地址:https://github.com/databrickslabs/dolly

Databricks 员工人工标注的数据。

  • 规模:15K
  • 内容:英文指令
  • 质量:高(人工标注)
  • 许可:CC BY-SA 3.0

量不大但质量好,许可也清晰。

OpenAssistant

地址:https://huggingface.co/datasets/OpenAssistant/oasst1

众包标注的多轮对话数据。

  • 规模:16 万条消息,3.5 万个对话树
  • 内容:多语言
  • 质量:较高(有质量评分)
  • 许可:Apache 2.0

有偏好标注,可以用于 RLHF。


RLHF 数据集

Anthropic HH-RLHF

地址:https://github.com/anthropics/hh-rlhf

Anthropic 发布的人类偏好数据。

{
  "chosen": "Human: ... Assistant: [更好的回答]",
  "rejected": "Human: ... Assistant: [较差的回答]"
}
  • 规模:约 17 万对
  • 内容:Helpful 和 Harmless 两个子集
  • 质量:高
  • 许可:MIT

RLHF 研究的标准数据集。

Stanford SHP

地址:https://huggingface.co/datasets/stanfordnlp/SHP

Reddit 上的人类偏好数据,根据投票数判断偏好。

  • 规模:38.5 万条
  • 内容:18 个 Reddit 子版块
  • 质量:中等(自动从投票推断)
  • 许可:许可较宽松

规模大,但是自动标注的,质量不如人工。

PKU-SafeRLHF

地址:https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF

北大发布的安全偏好数据。

  • 规模:约 33 万条
  • 内容:安全相关的偏好对
  • 质量:较高
  • 许可:CC BY-NC 4.0

专注于安全性,和 HH-RLHF 互补。


代码数据集

The Stack

地址:https://huggingface.co/datasets/bigcode/the-stack

BigCode 项目整理的代码数据。

  • 规模:6TB,3 亿个文件
  • 内容:358 种编程语言
  • 质量:高
  • 许可:经过筛选,尊重原代码许可

训练代码模型的首选。

CodeSearchNet

地址:https://github.com/github/CodeSearchNet

GitHub 发布的代码搜索数据集。

  • 规模:6 种语言,200 万函数
  • 内容:代码 + 注释配对
  • 质量:高
  • 许可:MIT

数据平台和公司

Hugging Face Datasets

地址:https://huggingface.co/datasets

最大的开源数据集平台,找数据第一站。

from datasets import load_dataset
dataset = load_dataset("tatsu-lab/alpaca")

一行代码下载使用。

Scale AI

地址:https://scale.com/

美国最大的数据标注公司。

  • 服务:标注、数据生成、RLHF 数据
  • 客户:OpenAI、Meta、微软
  • 特点:质量高、价格也高

OpenAI 的 RLHF 数据据说主要是 Scale 标的。

Labelbox

地址:https://labelbox.com/

数据标注平台 + 工具。

  • 提供标注工具
  • 提供标注服务
  • 支持自建标注团队

海天瑞声

地址:http://www.speechocean.com/

国内上市的数据公司。

  • 业务:语音、图像、文本标注
  • 规模:大
  • 客户:国内大厂

数据堂

地址:https://www.datatang.com/

国内老牌数据公司。

  • 业务:各类数据标注和采集
  • 特点:多语言数据有优势

Magic Data

地址:https://www.magicdatatech.com/

专注 AI 数据的公司。

  • 业务:数据采集、标注、定制
  • 特点:国际化做得好

数据的法律问题

版权问题

用网上爬的数据训练模型,可能侵犯版权。

  • The New York Times 起诉 OpenAI
  • Getty Images 起诉 Stability AI
  • 多起集体诉讼进行中

现在还没有定论,但风险是真实存在的。

隐私问题

训练数据可能包含个人信息。

  • 欧盟 GDPR 有严格要求
  • 模型可能「记住」训练数据中的个人信息

正规做法是清洗掉个人信息,但很难做到 100%。

使用协议问题

  • 用 GPT 的输出训练自己的模型,可能违反 OpenAI 的使用协议
  • 用 ShareGPT 数据也有类似问题

商业使用要注意许可条款。

建议

  • 商业使用:用许可清晰的数据集
  • 研究用途:相对宽松,但也要注意
  • 涉及个人信息:要做脱敏处理

小结

数据集速查表:

类型推荐数据集规模
英文预训练RefinedWeb、The PileTB 级
中文预训练WuDaoCorporaTB 级
英文 SFTDolly、OpenAssistant万级
中文 SFTBELLE、MOSS百万级
RLHFAnthropic HH-RLHF十万级
代码The StackTB 级

找数据的渠道:

  1. Hugging Face Datasets
  2. GitHub 搜索
  3. 数据公司购买
  4. 自己标注

数据篇到这里结束。下一部分讲训练:为什么要分布式、怎么做分布式。