Jsonl文件格式说明
更新时间:2024-03-25
jsonl文件格式说明
-
文件内单条数据格式要求为{"src": , "tgt":}, 详见数据样例。
- 字段说明
- src (list(str)): 用户对话内容,可能会包含 markup 内容,如 [];
- tgt (list(str)): 系统回复内容,可能会包含 markup 内容,如 [];
- 每一行表示一组数据,每组数据中的prompt字符数不超过2000Token(包括中英文、数字、符号等),超出的字符可正常保存,但可能无法参与训练。
- 支持文本文件类型为jsonl,编码仅支持UTF-8,目前每次仅支持上传1个文件,文件不超过8M。