大模型应用模型微调使用说明
更新时间:2024-03-25
大模型应用模型微调使用说明
模型数据微调是根据开发者提供的数据对模型进行Supervised Fine-Tuning。
目前开发者只需按照格式准备数据集上传即可。
数据准备Tips:
- 5000条以上的数据有更好的效果
- 数据多样性重要性大于数据规模
- 尽量筛选掉无意义和错误的内容
基础模型选择
开发者每次可选择一个基础大模型用于数据微调,目前AI Studio大模型社区提供ChatGLM-6B、Bloom-z、Llama等开源大模型的微调功能,后续还会支持文心系列大模型的微调功能。
数据格式
-
文件内单条数据格式要求为{"src": , "tgt":}, 详见数据样例(点击可下载)。
-
详细字段说明:
- src (list(str)): 用户对话内容,可能会包含 markup 内容,如 [];
- tgt (list(str)): 系统回复内容,可能会包含 markup 内容,如 [];
- 示例:
-
- 每一行表示一组数据,每组数据中的prompt字符数不超过2000Token(包括中英文、数字、符号等),超出的字符可正常保存,但可能无法参与训练。
- 支持文本文件类型为jsonl,编码仅支持UTF-8,目前每次仅支持上传1个文件,文件不超过8M。
切分规则
自动数据切分
支持开发者上传单个文件且文件大小不超过8M,上传完毕且平台校验数据格式符合标准后,平台自动将数据按照7:2:1的比例切分为训练、验证、测试集,开发者可通过数据预览Tab进行查看。
自定义数据切分
平台支持自定义数据切分,即开发者可自由上传训练、验证与测试集,比例切分不受限,每次仅支持上传一个文件且训练/验证/测试三个文件总和大小不超过8M。上传完毕且平台校验数据格式符合标准后,开发者可通过数据预览Tab进行查看。