大模型应用模型微调使用说明

更新时间：2024-03-25

模型数据微调是根据开发者提供的数据对模型进行Supervised Fine-Tuning。

目前开发者只需按照格式准备数据集上传即可。

数据准备Tips：

基础模型选择

开发者每次可选择一个基础大模型用于数据微调，目前AI Studio大模型社区提供ChatGLM-6B、Bloom-z、Llama等开源大模型的微调功能，后续还会支持文心系列大模型的微调功能。

文件内单条数据格式要求为{"src": , "tgt":}，详见数据样例（点击可下载）。
- 详细字段说明：
  - src (list(str)): 用户对话内容，可能会包含 markup 内容，如 []；
  - tgt (list(str)): 系统回复内容，可能会包含 markup 内容，如 []；
- 示例：

支持开发者上传单个文件且文件大小不超过8M，上传完毕且平台校验数据格式符合标准后，平台自动将数据按照7：2：1的比例切分为训练、验证、测试集，开发者可通过数据预览Tab进行查看。

平台支持自定义数据切分，即开发者可自由上传训练、验证与测试集，比例切分不受限，每次仅支持上传一个文件且训练/验证/测试三个文件总和大小不超过8M。上传完毕且平台校验数据格式符合标准后，开发者可通过数据预览Tab进行查看。