资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

大模型应用模型微调使用说明

大模型应用模型微调使用说明

模型数据微调是根据开发者提供的数据对模型进行Supervised Fine-Tuning。

目前开发者只需按照格式准备数据集上传即可。

数据准备Tips:

  1. 5000条以上的数据有更好的效果
  2. 数据多样性重要性大于数据规模
  3. 尽量筛选掉无意义和错误的内容

基础模型选择

开发者每次可选择一个基础大模型用于数据微调,目前AI Studio大模型社区提供ChatGLM-6B、Bloom-z、Llama等开源大模型的微调功能,后续还会支持文心系列大模型的微调功能。

数据格式

  • 文件内单条数据格式要求为{"src": , "tgt":}, 详见数据样例(点击可下载)。

    • 详细字段说明:

      • src (list(str)): 用户对话内容,可能会包含 markup 内容,如 [];
      • tgt (list(str)): 系统回复内容,可能会包含 markup 内容,如 [];
    • 示例:

image

  • 每一行表示一组数据,每组数据中的prompt字符数不超过2000Token(包括中英文、数字、符号等),超出的字符可正常保存,但可能无法参与训练。
  • 支持文本文件类型为jsonl,编码仅支持UTF-8,目前每次仅支持上传1个文件,文件不超过8M。

切分规则

自动数据切分

支持开发者上传单个文件且文件大小不超过8M,上传完毕且平台校验数据格式符合标准后,平台自动将数据按照7:2:1的比例切分为训练、验证、测试集,开发者可通过数据预览Tab进行查看。

image

自定义数据切分

平台支持自定义数据切分,即开发者可自由上传训练、验证与测试集,比例切分不受限,每次仅支持上传一个文件且训练/验证/测试三个文件总和大小不超过8M。上传完毕且平台校验数据格式符合标准后,开发者可通过数据预览Tab进行查看。

image

上一篇
创建自己的模型
下一篇
Jsonl文件格式说明