开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
EasyDL零门槛AI开发平台

    创建数据集

    在训练之前需要在【数据集管理】中创建数据集,输入数据集名称即可创建一个空数据集。每个数据集里面可以包含有多个分类标签的文本数据,每个样本可对应多个标签。创建数据集的页面如下图:

    image.png

    如何准备文本分类(多标签)的数据集?

    ① 设计分类

    设计整个数据集的分类体系,即抽象出文本所需识别的标签,标签也是你希望识别出的结果。例如娱乐新闻的内容类型,则可以以“男星”、“大陆”、“港台”、“童星”等分别作为标签体系;

    注意:目前单个模型的标签上限为1000个,如果要超过这个量级请在百度云控制台内提交工单反馈

    ② 准备数据:

    基于设计好的分类标签准备文本数据,每个标签建议至少需要准备50个以上的样本,如果想要较好的效果,建议1000-10000个文本样本,如果某些分类的文本具有相似性,需要增加更多文本。

    注意1:训练集文本需要和实际场景要识别的文本内容的业务范围一致,且标签对应文本的数量分布一致;如训练集的业务范围是科技媒体文章的分类,而预计线上对应的场景或业务是娱乐文章的分类

    注意2:考虑实际应用场景有多种可能性,每个场景都需要准备相对应的训练数据,训练集若能覆盖的场景越多,模型的泛化能力则越强。

    注意3:如果需要寻求第三方数据采集团队协助数据采集,请在百度云控制台内提交工单反馈

    你可能会问:我无法将所有的场景都穷举,也无法将每一个场景都准备想对应的训练数据,该怎么办?

    答:本身模型算法会有一定的泛化能力,通过对每一个业务准备对应的训练样本,模型可在一定程度上泛化理解业务场景。不过建议您对高频的业务场景尽量做到覆盖,并通过线上bad case来进行训练数据的优化。

    上一篇
    文本分类(多标签)介绍
    下一篇
    数据上传