LLM_Pretrain_SFT 数据来源(请下载后按照代码,放进正确的路径目录中) 分词器训练数据: 预训练数据来源:https://github.com/mobvoi/seq-monkey-data/blob/main/docs/pretrain_open_corpus.md 指令微调数据来源:https://www.modelscope.cn/datasets/deepctrl/deepctrl-sft-data