开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
BML 全功能AI开发平台

    文本智能标注介绍及原理说明

    欢迎您使用「文本智能标注」。您可以通过提供少量人工标注数据和大量无标注数据,通过文本智能标注能力进行自动标注,并将需要人工优先复审的样本筛选出来,辅助您快速完成数据标注工作。您可以获得大规模的智能标注数据,并将数据用于模型的训练。本文将介绍说明如何利用「文本智能标注」获得智能标注数据,以及智能标注与后续如何使用智能标注数据训练模型。

    详细使用「文本智能标注」的流程如下:

    一、启动智能标注获得智能标注数据

    Step1 启动智能标注任务前的准备工作

    智能标注任务,是对一个数据集中的未标注数据进行智能标注。请您先在「数据管理/标注」模块,创建数据集,并上传一定量的已标注数据和未标注数据。具体数据量的要求,请见下文「创建文本智能标注任务」。

    Step2 创建文本智能标注任务

    您可以在「智能标注」功能页面下,选中「自然语言」查看文本智能标注的流程概述和说明。

    image.png

    在页面上,通过点击「创建智能标注任务」来选择对应操作的数据集。选择「文本分类」任务,数据集选择您想智能标注的数据集。

    image.png

    注意,请先检验所选择的数据集是否满足以下条件:

    1. 数据集中已标注数据量超过600条
    2. 每个标注标签的数据量超过50条
    3. 未标注数据的数据量超过600条

    选择好数据集后,点击「启动智能标注」,平台将对您提交的数据集进行启动前的校验,并可在下方的任务栏中,查看到新建的智能标注任务,任务状态处于「数据校验中」。

    Step3 智能标注过程

    当数据校验无误后,系统将自动启动智能标注,页面将显示当前智能标注所处的流程状态。 如页面图中所示,智能标注过程分为三个部分,第四个部分为「前往模型训练」的说明,后文将详细说明。

    下面,将对智能标注所涉及的三个阶段进行说明:

    阶段一:智能标注预学习阶段

    在本阶段,系统将使用您提交的已标注数据进行机器学习。预学习阶段预计耗时约40-60分钟不等,根据您的数据集中已标注数据的量而定。如果您需要中止预学习阶段,您可以点击「关闭智能标注」,则系统将重置已完成的智能学习状态。此时您的数据集中「已标注」和「未标注」的数据不会产生变化。

    阶段二:智能标注阶段

    完成智能标注预学习阶段,系统将自动进入智能标注阶段。此时系统将对您提交数据集下的「未标注」数据进行智能标注,智能标注过程的耗时跟您提交的未标注数据量正相关,即数据量越大,耗时将越长。您可以根据需要,也可「关闭智能标注」。此时注意,关闭智能标注后,已经完成的智能标注的数据,将被恢复为未标注数据。

    Tips:按照我们的估算,预计5w条未标注数据,将消耗2小时进行智能标注。

    阶段三:完成智能标注,查看智能标注数据

    当完成智能标注后,您可前往您的数据集查看。此时数据集将被分为「未标注」、「已标注(人工)」和「已标注(智能)」三个标签。完成智能标注的数据,将放置在「已标注(智能)」中, 您可以对智能标注数据进行人工校验,完成校验的数据,将被转移到「已标注(人工)」,代表此样本确认无误,后文将详细说明智能标注的原理。智能标注前的「已标注」数据将放入「已标注(人工)」中,且数据不发生变化。

    您也可以在「已标注(智能)」中,查看本次智能标注的准确率,以及智能标注数据的总样本数。 如果您对智能标注的准确率不满意,可以点击「优化智能标注效果」,来对全部的智能标注数据进行优化。

    image.png

    二、使用智能标注数据训练模型

    如果您对智能标注的数据质量满意,您可以直接使用「已标注(人工)」和「已标注(智能)」下的数据,对模型进行训练。后文有详细介绍此步骤的原理。

    您在配置任务时,在选择数据集的过程中,可以在「选择数据集-可选项」下,勾选「使用智能标注数据」,如果此数据集下有智能标注数据,训练任务时将会使用「已标注(智能)」的数据。

    image.png

    三、启动智能标注数据优化流程

    如果您对数据质量不满意,可以在「已标注(智能)」页面中,通过点击「优化智能标注」进入优化流程。

    image.png

    进入后,平台将为您提供至多300条的优先校验样本,优先校验样本是平台挑选的机器较难确认的样本,同时也是对提升智能标注准确率最有帮助的样本。此部分样本将按照优先级从高到底排序,建议您按顺序逐一校验。

    在优化流程的页面中,您将发现已完成校验的数量,当前的智能标注准确率情况。当您完成100条以上的样本校验后,「启动效果提升」按钮将置亮,您可以点击并启动优化智能标注的能力。

    image.png

    此过程将对您完成校验的样本重新学习,并对剩余智能标注数据进行重新标注。此过程不可关闭,请您耐心等待。完成优化后,将为您展示智能标注准确率的提升状况,并同时为您再次筛选出优先标注样本进行再次的校验和提升。通常情况下,此过程将持续3次,即您完成3次的样本校验。您也可以根据智能标注优化的效果,选择退出优化流程。

    Tips:您也可以在启动优化智能标注前增加「未标注」数据,在优化智能标注过程中,也将把新提交的「未标注」数据进行智能标注。

    如果您点击「退出优化效果」或您点击进入到了其他页面中,您在优化流程中的进度将会保存。下次返回后,将可以继续进行。

    对样本的校验过程,将和文本的标注过程类似。当您发现样本的智能标注有误时,您可以点击选择正确的标签,点击「确认」后,样本将被放入到「已标注(人工)」中。

    如果您对当前页的所有样本都判断为正确,则可以点击「本页全部确认」将全部样本添加到「已标注(人工)」中。

    四、再次启动智能标注

    如果您新建了一个文本智能标注任务,并且完成过一次智能标注。此时,您可以继续在此数据集下,增加「未标注」数据,并对新增的「未标注」数据进行智能标注。

    image.png

    Tips:您在再次启动智能标注前,建议先完成至少一次「优化智能标注」的过程。此时,智能标注的数据将比「优化智能标注」前质量更高。

    五、文本智能标注原理说明

    训练模型过程中,通常需要经历数据集准备(标注)、任务网络配置开发、模型的训练和部署等重要过程。很多时候,模型训练在数据准备阶段遇到数据量不足的问题,使模型开发过程迟迟不能启动。

    平台推出的文本智能标注功能,目标是通过少量的已标注数据样本,来获得大规模的智能标注数据,通过减少人工逐一校验的工作,使用智能标注数据来训练小型网络模型,以获得效果和性能更优的模型预测服务。使用文本智能标注数据来训练模型的原理,即当前较为流行的「模型蒸馏」。

    下面,将为您简要描述智能标注和模型蒸馏的原理。

    平台智能标注原理

    平台提供的文本智能标注,是使用了当前中文模型效果最好的预训练模型ERNIE2.0。完成对少量人工标注数据学习后,可以对未标注数据进行预测,从而获得智能标注数据。由于预测的数据质量,与您提供的人工标注数据的质量强相关。建议您完成智能标注后,查看数据标注的质量效果,然后根据数据情况来判断是否进入到优化智能标注的流程中。

    优化智能标注的过程中,系统根据算法挑选出优先标注样本。您完成对优先校验样本的人工校验后,系统将使用此部分样本重新训练模型,从而获得更精准的智能标注数据。

    智能标注数据训练模型

    ERNIE完成对人工标注数据学习后,生成的模型称之为「教师模型」,通过预测的大规模无监督语料,把「教师模型」的泛化能力通过模型训练教给「学生模型」。如下图所示:

    image.png

    所以,您可以使用智能标注数据,在训练任务配置中,不使用ERNIE预训练模型。通过选择小型的网络,即可训练出效果逼近教师模型ERNIE Large的模型。且此模型的也保留了小网络的预测性能,可以在您的业务中达到具体业务使用的目标。

    六、文本智能标注常见问题

    问:智能标注可以支持哪几种类型的数据?

    答:目前平台提供的文本智能标注,仅支持「单文本-单标签」的数据类型。

    问:我是否能够对智能标注数据进行删除操作?

    答:可以,您可以处理所有智能标注数据。通常情况下,您可以根据后续模型训练所需,对某些样本进行删除,以减少模型训练过程中的干扰。

    问:为什么效果没有提升到一定程度,就提示已经完成优化智能标注?

    答:因为您的智能标注数据过少,通过人工标注即可更好的完成校验;

    问:为什么我使用智能标注数据训练模型效果不佳。不如只使用人工已标注的数据训练的效果?

    答:您可以先进入「优化智能标注」过程,平台将为您挑选提升效果最佳的样本,将您的智能标注数据进行优化。同时您也需要查看数据集的数据分布是否与验证集的分布保持一致。

    问:我将优化流程中的样本,都删除了,没法启动优化智能标注了,改怎么办?

    答:您可以对此数据集增加「未标注」数据,然后返回到「智能标注」任务页面下,找到此数据集对应的智能标注任务,点击「再次启动」。系统将重新启动智能标注过程,并重置「优化流程」

    问:完成智能标注后,我是否能在数据集新增带有新标签的标注数据?

    答:您可以上传标注数据。但请注意,如果您上传的已标注数据带有新的标签(或您在已经完成智能标注任务的数据集上新增标签),将会影响智能标注质量。如果您需要使用带有新标签的数据,建议您新建数据集,并将全部人工标注数据导入后,再根据智能标注启动条件来启动新的智能标注任务。

    问:为什么启动智能标注任务,或启动优化任务时,有时会不成功?

    答:目前平台集中公测阶段,因算力限制,仅提供给一种任务的使用。即如果您已经启动了智能标注任务,则无法在另一个智能标注任务中启动优化任务。如果您有业务中的需求,可加入技术交流群,联系工作人员;

    问:非中文语种的数据,可以使用智能标注吗?

    答:目前平台仅支持中文的智能标注。不支持其他语种的智能标注任务。

    问:为什么我使用智能标注数据训练模型,效果无明显提升?

    答:不同场景和行业的数据集,使用智能标注数据提升效果不同。建议您针对智能标注数据进行优化流程,在优化流程中将有优先校验样本进行人工校验。完成至少一次优化流程,然后再使用智能标注数据进行模型训练。

    上一篇
    图像智能标注简介
    下一篇
    通过API导入数据