资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

在线标注

目录

  1. 什么是自动标注
  2. 标注文本生成类数据
  3. 标注图像生成类数据

平台提供数据标注功能:在您选择数据集后,平台会根据不同的数据格式,跳转至与之对应的数据标注工作台。

登录到本平台,在左侧功能列选择在线标注,进入在线标注主任务界面。

什么是自动标注

平台支持调用千帆纳管的LLM服务(ERNIE-4.0/ERNIE-3.5/ERNIE-Speed/ERNIE-Lite)对数据集进行自动预标注,配合人工校改,提升您的标注效率。

使用自动标注会产生服务调用费用,您可查看计费说明

标注文本生成类数据

标注有监督微调SFT数据

适用于 Prompt+Response、Role(user+assistant) 数据格式。

平台支持调用LLM服务(ERNIE-4.0/ERNIE-3.5/ERNIE-Speed/ERNIE-Lite)为问题(Prompt)生成对应回答(Response)。

此外,若为多轮对话数据,选择上方“AI自动标注全部”即可进行标注。

2024-12-26 at 12.16.36@2x.png

注:您可在页面左上角进行数据集版本切换,切换前请注意保存当前标注信息,谨防丢失。

标注偏好对齐DPO/SimPO/KTO数据

适用于 Prompt+Chosen+Rejected、 Prompt+Chosen/Rejected 数据格式。

您可为Chosen和Rejected字段分别指定不同的LLM服务(ERNIE-4.0/ERNIE-3.5/ERNIE-Speed/ERNIE-Lite),从而对正负偏好回答内容分别开展自动预标注,再进行人工校改。

2024-12-26 at 12.18.24@2x.png

标注偏好对齐RLHF-奖励模型数据

适用于 Prompt+多Response排序 数据格式(暂不支持带有Score字段的奖励模型数据标注)。

该类数据集中,一个提示词(Prompt)对应多个带有先后排序的回答(Response),从而表达对不同回答内容的偏好程度。

您可在数据标注工作台,对不同回答(Response)进行拖拽操作,从而改变多个回答内容的先后排序。

2024-12-26 at 12.20.01@2x.png

注:若为多轮对话数据,您只需为最后一轮的用户问题标注多个回答即可。

标注图像生成类数据

适用于 Prompt+图片 数据格式。

您可针对每张图片,标注对应的图像生成提示词(Prompt),从而构建图文对数据。

image.png

上一篇
数据洞察与处理
下一篇
多人标注