Skip to content

Latest commit

 

History

History
43 lines (40 loc) · 11.6 KB

README.md

File metadata and controls

43 lines (40 loc) · 11.6 KB

开源SFT数据集整理

数据集 数目 Lang Task Gen 类型 来源 链接
belle_cn 1079517 CN TS/MT SI 通用指令,数学推理,对话 text-davunci-003 下载
firefly 1649398 CN MT COL 23种nlp任务 收集中文数据集,人工书写指令模板 下载
GAOKAO 2785 CN MT COL 高考中的多选,填空等问题 人工标注的数据集的收集 下载
COIG 298428 CN MT COL 考试,翻译,价值观指令数据集搜集,基于知识图谱的反事实对话 自动化工具+人工验证 下载
pCLUE 1200705 CN MT 73个Prompt,分类,推理,关键词识别,阅读理解等9个NLP任务 下载
CSL 396209 CN MT 40万中文论文元数据,26个Prompt 下载
CNewSum 304307 CN TS 字节与UCSB发布的中文摘要数据集 下载
Coco-cn CN TS 图文多模态 下载
news_commentary 69200 EN/CN TS 中英文翻译数据 下载
Chain of Thought 74771 EN/CN MT HG CoT相关任务 人在现有数据集上标注CoT 下载
HC3 37175 EN/CN TS MIX 对话评估 gpt-3.5 或 人工 下载
instinwild 52191 EN/CN MT SI 生成,开放域问答,头脑风暴 text-davunci-003 下载
Alpaca_GPT4 52002 EN/CN MT SI 通用指令 GPT-4 生成的Alpaca数据 下载
MOSS 1583595 EN/CN SI 下载
LLMZoo ML 下载
Guanaco 534610 ML MT SI 多种nlp任务 text-davinci-003 下载
Natural Instructions 5040134 ML MT COL 多种nlp任务 人工标注的数据集的收集 下载
xP3 78883588 ML MT COL 多种nlp任务 人工标注的数据集的收集 下载
alpaca 52002 EN MT SI 通用指令 text-davinci-003 下载
GPT4all 806199 EN MT COL 代码,故事,对话 GPT-3.5-turbo 蒸馏 下载
GPTeacher 29013 EN MT SI 通用,角色扮演,工具指令 GPT-4 & toolformer 下载
prosocial dialog 165681 EN TS MIX 对话 GPT-3改写问题,人工回复 下载
finance_en 68912 EN TS COL 金融领域问答 GPT3.5 下载
instruct 888969 EN MT COL GPT4All,Alpaca和开源数据集的增强 使用AllenAI提供的nlp增强工具 下载
Code Alpaca 20022 EN SI SI 代码生成,编辑,优化 text-davinci-003 下载
webGPT 18994 EN TS MIX 信息检索问答 fine-tuned GPT-3 + 人工评估 下载
dolly 2.0 15015 EN TS HG 公开、封闭式问答、信息抽取、摘要生成、开放式构思、分类以及创意写作七类任务 人工标注 下载
baize 653699 EN MT COL Alpaca和多种问答任务 人工标注的数据集的收集 下载
hh-rlhf 284517 EN TS MIX 对话 RLHF models 下载
OIG(part) 49237 EN MT COL 多种nlp任务 人工标注的数据集的收集和数据增强 下载
camel 760620 EN MT SI 物理生物化学编程,数学,社会等领域的角色扮演对话人工标注的数据集的收集 gpt-3.5-turbo 生成 下载
FLAN-Muffin 1764800 EN MT COL 60种nlp任务 人工标注的数据集的收集 下载
GPT4Tools 71446 EN MT SI a collection of tool-related instructions gpt-3.5-turbo 下载
ShareChat 1663241 EN MT MIX general instruct 收集ShareGPT 下载
Auto CoT EN 下载
ultrachat 28247446 EN 下载
StackLLaMA todo EN