Skip to content

大语言模型高质量数据集汇总 #129

@ninehills

Description

@ninehills

大语言模型高质量数据集汇总(2025.8 更新)

注意:SFT数据集尤其是比较老的数据集质量其实低下,用 DeepSeek 等top模型重新回答下提问效果可能更好。

预训练数据集

高质量数据集(有中文) 大小 特点
IndustryCorpus2 1TB Chinese / 2.2TB English 进行行业分类(31个行业),并对数据质量评级。
Fineweb-Edu-Chinese-V2.1 =1.5TBtokens 有4.6B Tokens 高质量教育语料
m-a-p/Matrix 4.69T tokens 训练 MAP-Neo 模型的预训练数据集
Ultra-FineWeb en 1T tokens / zh 120B tokens 最新的,过滤的更好的数据集
opencsg/chinese-cosmopedia zh 60B tokens 参考 CosMopedia 创建的中文合成预训练数据集

数据处理工具

SFT 数据集

SFT 数据集 大小 语言 特点
m-a-p/neo_sft_phase2 109k 中英 MAP-Neo SFT 阶段2 Chat 数据,质量不错。
OpenCoder-LLM/opc-sft-stage1 3.2M 中英(中文较少) 从多个数据集中过滤和合成而来,有通用指令,更关注代码类数据。
OpenCoder-LLM/opc-sft-stage2 436k 高质量的代码类数据。
BAAI/Infinity-Instruct 7M 中英(中文较少) 多个尺寸的指令和对话数据。
hfl/ruozhiba_gpt4 4.9k 著名的弱智吧+GPT4回答,对模型的能力有提升。
Mxode/Chinese-Instruct 485k 从多个数据集中筛选的中文指令数据集,价值较高。
SmolLM Instruct Datasets - 多个开源数据集。其中自我认知部分值得参考。
Magpie-Qwen2-Pro-200K-Chinese 200k 使用 MagPie 从 Qwen2-72B 中提取的指令集。
lenML/longwriter-6k-filtered 666 长文本输出(写作)
THUDM/LongAlign-10k 10k 中英 长文本输入
opencsg/smoltalk-chinese 700k 参考 SmolTalk 数据集创建的中文数据集
  • Yulan的数据 Recipe 不错,详细说明了其数据来源,可参考。

偏好数据集

偏好数据集 大小 语言 特点
llamafactory/DPO-En-Zh-20k 20k 中英 多个来源整理,质量较高,中英各10k
unalignment-toxic-dpo-v0.2-zh_cn 541 去除模型安全逻辑
ultrafeedback_binarized 187k 将 UltraFeedback改成二元偏好的数据集
opencsg/UltraFeedback-chinese 58k 多个中文资源库中收集了约58k条中文指令,使用DeepSeek V3 评分

推理数据集

推理数据集 类型 大小 语言 特点
m-a-p/COIG-Writer SFT 914 高质量中文创作与思考过程蒸馏数据集
INTELLECT-2-RL-Dataset RL 285k RL math/code 数据集带ground_truth
open-thoughts/OpenThoughts3-1.2M SFT 1M DeepSeek 蒸馏出的大量数据
Chinese-DeepSeek-R1-Distill-data-110k SFT 110k 中文的 DeepSeek 蒸馏推理数据集

评测数据集

根据 DeepSeek V3、Qwen3 等最新模型的评测数据集调整而来,选取最新、最流行、最具有代表性的评测数据集。

评测数据集 类型 大小 语言 特点
LiveBench 综合(偏数学和代码) 定时更新的综合评测集,质量较高
AlignBench v1.1 多轮对话 683 中文对齐评测集,需要LLM作为裁判
IFEval 指令遵循 自动打分
大海捞针 长上下文 通过插入针的方法评测长上下文能力
Arena-Hard 多轮对话 Arena 中比较难的问题,需要 LLM 作为裁判
BFCL v3 函数调用 比较全面的函数调用评测集
MMLU-Redux 综合(世界知识) MMLU的增强版本
GPQA-Diamond 综合(世界知识、复杂推理) GPQA 中比较难的问题(博士级别)
AIME’24 数学推理 2024年的AIME数据集
LiveCodeBench v5 代码生成 定时更新的代码生成评测集
C-Eval 综合(世界知识) 中文场景下的综合评测集,目前模型多过拟合。
CMMLU 综合(世界知识) 中文场景下的综合评测集,目前模型多过拟合。
MATH-500 数学推理 OpenAI 的MATH数据集
AIME’25 数学推理 2025年的AIME数据
RULER 长上下文 评测模型上上下文的能力

Metadata

Metadata

Assignees

No one assigned

    Labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions