课后实录-EasyDL文本分类智能标注产品介绍
May的山楂木 发布于2020-06-10 15:58 浏览:275 回复:2
0
收藏
最后编辑于2020-06-15

主题:如何拥有不断学习高效标注的“AI员工”—EasyDL文本智能标注产品介绍

时间:2020年6月9日(线上)

讲师:百度NLP产品经理 夜巡

 

【课程大纲】

1.      EasyDL平台目前在NLP这个方向共集成了哪些能力,以及如何规划整个产品。

2.      文本智能标注产品介绍,目前企业当中遇到了那些数据标注的问题,文本智能标注如何解决这些问题,以及文本智能标注背后的技术原理。

3.      通过平台提供的典型的NLP任务和场景,如何挖掘自己业务当中的场景,如何使用EasyDL的产品模型。

 

EasyDL整个平台的全景情况。目前,整个平台提供了一站式端到端的开发服务,也就是说从数据到模型训练到服务部署这个环节,都会提供相应的解决方案。在NLP这个方向也是两个版本,一个是经典版的模型训练平台,另一个是专业版。针对经典版提供了相对比较低门槛,并且可以在零代码的基础上训练文本的模型。目前可以使用的模型有文本分类,也会陆续上线文本分类多标签的任务类型,以及情感倾向分析,文本分析,文本实体抽取。专业版可以满足用户自己配置一些代码,可能有些自己开发的内容想加到预置的网络里,专业版平台也是符合开发工程师的习惯。与模型训练配套,我们也提供了数据的相关处理能力,比如说数据的管理,包括数据标注和本期着重介绍的文本智能标注。在服务部署方面也提供了发布到云端的API服务部署方式,再一个就是本地部署包的方式。

刚才提到了在NLP提供的任务类型,这些任务基础和算法都是经过百度NLP常年打磨,一篇论文又一篇论文编写,一个技术又一个技术落地和上线。通过这些积累的技术,希望开放给整个市场内的开发者和企业,去共享我们的技术成果。

大家如果想对平台有更加细致的了解和使用需求,也可以在百度搜索EasyDL,在官网中涉及到所有全景的特点和优势,对应的经典版和专业版也可以直接找到。

立即访问:https://ai.baidu.com/easydl/

企业在使用NLP的定制模型时候如何集成这些AI认知能力。首先,在企业训练一个模型,集成自己AI能力过程中,核心三个要素是什么?目前在深度学习时期,普遍需要数据、算法和算力,针对这三个环节,平台也是提供了对应的产品能力,比如在机器和环境准备环节,我也看到群里也有一些同学问到怎么部署环境这样的问题,其实在平台这一侧我们集成了开发环境,包括一些训练的机器资源。在模型训练这一环节,百度NLP这边提供了非常高精度高性能的算法和网络,也会在这个基础之上允许用户进行一些灵活编辑;部署方面也会提供性能比较好的预算框架。但在线下和企业团队沟通过程中也发现,其实很多用都是在数据这个环节被卡住,为什么数据这个环节有这么多问题?具体在数据标注过程中,文本的数据标注具体会在哪几个问题阻碍企业应用NLP这种AI能力呢?

以金融企业智能风控业务为例。首先,金融企业智能风控经常会为其服务的企业做一些舆情分析和分类,在这个过程中,很多时候需要企业对这些金融企业服务的客户进行细致的了解,比如行业背景,有哪些潜在知识需要金融企业员工不断进行了解。同时,在企业数据标注的过程中,有一些经典常见的流程。

我这边列了一下,目前了解到企业当中去标注数据的时候,经常做的这么几个管理流程,第一部分就是需要业务经理确定一下整个标注体系,所谓标注体系就是我这个标签是什么,每一个业务它需要抽象出一个标签,标签与标签之间有一定的对应关系,这就是它的标注体系。完成这个标注体系建立,就需要召集一部分标注人员,这部分标注人员是需要在业务经理标注体系下学习怎么标注,标注的一些概念。完成培训以后,标注人员就需要拿到一些带标注数据进行尝试,试标注,这个过程主要是为了后续在进行大规模标注过程中,避免一些重复的标注或者是反标。比如说在业务经理标注的体系当中有一些标注标签有一些歧义或者错误,需要在试标注期间指出,同时标注人员需要在试标注过程中,需要反馈给业务经理,这个标注标签是不是符合业务现状,不能说抽象出来的这些标签标注体系就直接使用了。在完成试标注以后,可以进行大规模的标注了,比如完成一个万级别或者十万级别数据标注的内容。

在这个过程中,我们发现有这么几个问题。首先,需要对标注人员有不同程度的专业要求。为什么会存在这个要求呢?还是回到金融企业智能风控业务当中,如果企业服务的客户是化工企业的客户,这个客户对应的企业舆情的文章,对它是正向还是负向,这个文章提到哪些点,是需要标注人员了解的,如果是这样的话,我们标注人员需要对他所在的业务,比如服务的化工企业,需要了解它的专业背景,如果是这样子的话,在培训的过程中,除了标注体系培训,还需要培训每个标注体系,每个标注标签背后的专业知识和概念,这样很大程度上都会让这些标注人员有一定的学习门槛。

假设我们已经解决了培训的问题,花了一周时间,每一个标注人员都了解了标注标签了,就一定能很好地标注吗?这个恐怕还不行。在标注的时候,很多时候我们都会发现,标注标签理解因人而异,人工进行大规模标注的效果无法得到保障。因为文本的数据标注是属于认知层的范畴。相对图像来说,图像是感知层,图像显示是猫狗就有明确答案,文本就很难有非常直观的感受。大家可以看下面的例子。比如这句话,“有两种人不谈恋爱,一种是谁都看不上,另一种是谁都看不上”。如果是你第一次听这句话,如果马上反应过来这句话讲的什么意思,那是很厉害的。但是很多时候理解这句话的过程中,有一定阅读理解的时间。所以我们在文本标注的时候,很多时候都会产生因人而异的问题。

解决这个问题,一般企业都会采用背对背标注的方案,什么是背对背呢,也就是说我们采用两到三个标注人员同时对一万条标注数据进行标注,标注的时候对同一条样本有三到两个标注人员同时标注,如果他们共同标注都是标注了A标签,这个标注样本可以认为是相对确定的样本,如果其中一个人员标注了B,其他人员标注了A,说明就存在歧义,需要质检人员及时出现,告诉他们如何确定这个样本,到底是标签A还是标签B。如果是以这种标注方法的话,我们可以看出来效率比较低,假如说有十万条样本可以标注,采用四个人同时标注十万条样本,如果想提升这个效率,每个人评分,四个人评分十万条,大概在两万五千条左右,虽然效率和时间提升上来了,肯定会导致质量有一定的下降,这个问题上也是属于常见的数据标注过程中的人力问题。

针对人力问题可以看出来,数据标注人力欠缺导致标注时间周期非常长,训练数据准备过程中,时间的长和不确定性,导致整体业务进度也会受阻。如果大家有参与过标注,或者说公司里有这个业务使用这个文本的模型运用到自己业务当中,很多时候可能都会兼职做一些标注工作。就像我们这个场景当中,这个负责人被安排了一个工作,需要在规定的时间点达成十万数据的标注量,他需要找一些标注人员共同协助他完成标注任务。他通常会怎么做呢,比如说他会看一下运营的同事,问一下,我昨天给运营同事买过了一杯咖啡,今天找他帮忙应该没有问题,又找到了PM同学,平常他们提的需求我都一定满足,这次我给他提需求也应该没有问题。这个负责人又看到了研发,研发同学正在快马加鞭编码,负责人想可能研发人员平常都会非常给力的支持,在这个问题上应该不会有什么异议,也是确定了,目前确定了三个人。我又想为了减少时间标注周期,找更多人一起标注,望向老板的时候,可能老板也在望向他,就会问他,你哪来的勇气找我帮你标注。如果是解决这些问题,我们如何帮助这个数据标注负责人搞定这三个问题呢,我们现在就要开始着重介绍一下EasyDL平台最近推出的文本智能标注产品。

为什么说文本智能标注产品能够很大程度上降低人力成本,提升整个标注效率呢,它在之前提到的三个问题上是怎么解决的呢?我先通过这一页给大家简单介绍一下文本智能标注它是如何进行的,整个流程是怎样的。

首先,假如说我是这个页面当中的用户,我需要根据平台的要求提交一部分数据,一部分是人工标注数据,需要超过六百条,另一部分是我需要标注的被标注数据,比如刚才任务场景里需要标注十万条未标注数据,就把对应这两类数据提交到平台上。提交文本智能标注的任务,通过文本智能标注对未标注数据进行标注,标注完成以后就会看到后面那个地方得出了智能标注的结果。那么这个文本智能标注它一定会正确吗?跟人工相比并不能说它完全能够比人工的数据标注的更准确吧?确实如此,我们只能说智能标注结果存在一定准确率,我们也会把这些准确率给每一位用户展示。同时我们也提供了一个出口,也就是说智能标注数据可以拿来做什么用。再下一步就是模型训练这个环节,我们使用智能标注数据可以直接拿来做模型标注训练,为什么不应该对十万条样本进行人工校验以后再进行模型训练呢?不知道大家是否了解文本模型的蒸馏这个概念,这套技术目前是在深度学习当中常见的学习方法。原理是什么呢,简单介绍一下,主要是通过一些大的模型学习的文本特点,标注了一些大规模的数据以后,再将这些特征应用到这个小的模型上,就诞生了这应用的方法。在这个环节,稍候我也会通过一些演示告诉大家如何使用。

刚才提到智能标注数据还有另一个出口,是什么呢,平台上提供了一个优先校验样本的能力,刚刚提到有十万条未标注数据需要校验,如果纯人工做十万条校验,虽然能够稍稍减轻一部分标注的工作量,但其实还是存在大量的人工的成本。为了解决这一问题,EasyDL 的文本智能标注可以从十万条智能标注数据挑出一些优先校验的样本返回给用户,用户可以对这些样本进行人工校验。这些样本是属于机器觉得标注的时候既可能属于A标签,也有可能属于B标签,它无法决定,偏向A标签概率更高一些,就标注了A标签,但是它更希望有人进行校验的过程,来帮它确认是不是真正的是A,还是标错了,帮助它进行持续的纠错和学习。

在这个过程中也会不断去优化和迭代整个文本智能标注背后的标注能力,我们提供了第一批十万条,后续每天或者每周可以不断提供未标注数据,通过文本智能标注产品不断的进行智能标注。同时可以通过优化智能标注的流程,不断地去提升文本智能标注它的智能标注准确率,这样的话人工参与的成本或次数会越来越少。

刚刚说了文本智能标注整个使用流程,我们回顾一下之前看的企业当中三个典型问题,看看EasyDL 的文本智能标注功能是如何进行解决的。

1.  对人员有不同的专业要求

-智能标注只需提交少量标注样本,即可完成对大规模数据的标注

2.  对标注标准的理解因人而异,人工大规模标注效果无法保证

-智能标注仅学习训练数据的文本字符的向量化特征,客观科学

3.  数据标注的时间周期长,训练数据的准备影响整体业务的进度

-文本智能标注,仅在2-3小时内即可完成数万条未标注数据的标注,且提供优化智能标注数据的产品功能。

站在文本智能标注背后的技术,ERNIE2.0。我给大家介绍一下什么是持续学习的语义理解框架,就是ERNIE。首先就是这个左侧部分,ERNIE是不断通过学习人类的知识,结合一些典型的常见的NLP的任务,不断的去学习这部分的知识,这些海量知识包括了1500万百科语料或者词语,实体知识,还有人类对话的知识,文章的因果结构的知识,还有搜索查询的结果句对知识,还有语言蕴含的关系知识。这些知识在ERNIE已经完成了学习,但是它并仅仅限于此,它持续学习的框架还在不断学习,截止到现在它还是在不断拿到新数据,去学习我们人类的知识。在这个过程中,我们也是希望把我们比较强大的ERNIE持续学习的语义理解框架,通过一些产品的方法,让企业能够站在我们积累的海量的大数据能力之上应用NLP的模型能力。对应这个持续学习的语义理解框架ERNIE,如果大家想了解更细节的,或者想看一下ERNIE对应的论文或者是开源代码,可以上百度搜索ERNIE开源,就可以找到相应的链接。

在ERNIE一些效果层面我们也做过很多评比,这个列表当中列出了关于在很多重要的国际级别的重要的比赛当中,ERNIE在一些常规数据集表现效果。我们在ERNIE效果上与BERT相比,评估提升了两个点。百度又对ERNIE增加了三倍参数的量,完成了ERNIE LARGE更大的模型,这个ERNIE LARGE也是文本智能标注核心应用的技术。所以说我们总结来说,ERNIE应该是目前拥有业界比较好的模型算法,更懂中文的语义理解框架。

不管是产品和技术我们邀请了一些用户做了一些测试和反馈,不管是标注过程还是优化的流程和模型训练的过程,都得到了一些用户一些比较好的反馈。大家看到这里觉得是不是这个智能标注产品该如何使用呢,它具体是什么样的,下面进入到实操的环节。

我会通过一些数据集还有演示告诉大家如何去训练和使用一个文本智能标注,以及使用文本智能标注的智能标注数据怎么训练一个模型。数据集也会通过群里发送给大家,大家可以下载演示数据集,可以自己体验一下,对应的链接就是通过这个页面的链接进入到平台里。

我先打开网页,给大家做个展示。目前在EasyDL平台上可以先找到近期最新上线的EasyDL专业版,左侧是整个专业版里对应的能力,以导航的形式展示给每位用户,右侧是主要工作区,每当你选择一个导航,右侧工作区都有一定的刷新和切换。本次可以看到一下我需要做文本智能标注,我先点一下文本智能标注,选择文本智能标注任务,点击创建文本智能标注任务,这个地方就可以看到平台上已经做了一些提示,比如需要至少六百条已标注数据,每个标签不能少于五十条的要求,过程时间也有提示,因为有部分同学没有在数据里窗间过,我演示一下数据创建的过程。首先回到这个数据部分,点击数据管理和标注,在这个地方可以看到,左上角有一个按钮,创建一个数据集,比如说文本智能标注数据集演示,选择类型是文本,这个地方说一下,因为目前文本智能标注暂时只开放了文本分类单标签智能标注任务,如果大家对其他任务类型,比如短文本匹配,序列标注有这种需求,可以在弹幕里把自己需要的能力打出来,后续会有工作人员一起看一下。选择文本分类,数据集的属性,是不是选择驱动策略。创建完数据集以后可以看到它会有一条数据集显示出来了,可以查看和导入,或者对未标注数据进行人工标注,现在我需要进行导入过程,刚才提到文本智能标注是需要上传未标注数据和已标注数据量部分,先选择导入方式,选择上传文本。

我们在群里看到的数据集,压缩包包括两个文件,在弹窗里选择点击添加文本,这里就是在群里发的数据集,我先上传未标注数据,宣传开始上传。然后再进行确认并返回。这个时候可以看到数据集进入到了导入的过程,这个各个我不等待和演示了,我直接看我已经传好的数据集。比如文本智能标注数据集演示,点击查看,通过刚才的方式传完两部分数据,可以看到未标注数据大概有8900多条,已标注数据可以通过这些标签的方式筛选出来对应的内容,这个数据集我们拿到了电商评论的公开数据集,如果大家感兴趣可以关注一下这个数据集的情况。

创建完数据集就可以回到智能标注这个地方,找到文本智能标注,创建智能标注任务,在这里选择刚创建的智能标注数据集,完成以后启动,它就进入到了校验的环节。进入校验环节以后,在智能标注状态里会变成数据校验中,如果校验完成以后会直接进入文本智能标注的学习状态或者智能标注状态,最终会到达已完成状态。在到达已完成状态之前,我们什么都不用做,等待智能标注完成即可。如果你这个数据集不满足平台提供的要求,可能就会出现失败的提示,比如说像这个数据集,因为它未标注数据没有超过六百条,就没有让它提交成功。

我们不等待它的智能标注的过程了,我们直接看一下已经完成的任务,比如说这里存在了两个操作,一个是再次启动,一个是查看结果。我们看一下查看结果,可以看到通过人工标注样本六百条,智能标注样本数七千多条,我们看一下智能标注的数据情况。进入到数据集查看,可以看到数据集里原来只有未标注和已标注,现在把已标注数据分成了已标注人工和已标注智能,人工标注数据和智能标注数据都需要做区分的。在智能标注数据里可以看到,它里面已经给到的准确率大概在85.33%,如果我们看的话,这里有355页标签1的智能标注数据,一共有7600多条,我们刚才说了,不可能逐一做人工校验。所以我们进入到优化智能标注的地方。点击这个就可以等待进入,这里有一个引导,比如说这个地方是提升的结果,这个地方就是样本。我们看怎么校验呢,首先可以看到这个样本,整个文本是偏向正向的,智能标注可能标成了0,所以我们改一下,改成正向,点确认,这个时候样本就进行了人工确认。当你切换到第二页,下一批数据的时候,这些确认过的数据就会加入到人工已标注的样本集里了。如果说你觉得这一页样本都是正确的,你可以直接点击全部确认即可。

这个过程中我们一共筛选出了300条优先校验的样本,这300条当中,我们在校验的过程中会发现,当完成到了100条的时候,启动效果提升这个地方就会亮了,可以点击。为什么会这样子,我们感觉有些用户觉得这个效果差不多,我只需要简单提升一下,100条也是可以得到比较好的提升,但是我们也是建议,尽量把300条的样本都做校验,再去说提升整个智能标注的效果,回过头就可以看到更好的情况。

我们点击退出,回到智能标注查看这个地方,回到这个任务里。刚才提到了,操作里还有另外一个操作再次启动,其实我们也是关注到有些企业或者团队里,不是说这个时期有十万条样本需要标注就结束了,其实它是长期的过程,比如说每天都会产生一千条未标注样本,或者一周一个月会产生几万条的未标注样本,这个时候对应数据集里,在数据集里做一些提交一些未标注数据,把数据提交到这里,再点击再次启动这个时候所有的未标注数据就变成了智能标注,这样就可以很好的在日常业务中应用了。

我们拿到了智能标注数据,刚才提到另一个入口进行模型训练,我们可以看导航中,我们选择全部训练任务,如果你没有训练过的话,这里是空的,我们可以创建一个项目。比如说文本智能标注模型训练,选择自然语言处理,也是选择文本单标签的任务类型,刚刚是一个电商行业评论的,我们输入一下,创建这个任务。创建完成任务以后,可以在这个项目里新建任务,进入到这个任务里可以看到对应的项目信息,需要添加数据集,选择对应模型和网络。这个过程中可以在数据集层面找到对应的数据,比如刚刚使用了已经结束的数据集是这个,我们可以把它添加到选项里,在使用智能标注数据这个地方勾选,选中以后如果这个数据集里有智能标注数据就可以拿来做训练了,然后点击确认。在任务配置的时候,建议先不选择未训练模型,因为我们需要找一些小的模型训练特征学习。网络可以选择自带模型做一个简单的分类即可,完成以后就可以提交任务,把这个任务进行模型训练了。

最后,通过目前平台提供三个典型任务给大家说明一下NLP的任务在日常的生活当中或者业务当中,我们如何去应用,如何找到对应的应用场景。

首先我们看第一个媒体的场景,比如说手机百度,我们在使用手机百度时候除了搜索之外,可以看一些新闻的内容,可以看到有一些频道,小说、健康、科技、娱乐等频道,如果我们做这个产品,如何从全网里或者是各个网站导流进来的文章做分类,其实就可以应用到文本分类的模型。首先这边遵从这四个步骤,比如目标分析,我们看一下我们需要对拿到的数据、文章做一个频道的分类,也就是说对文章做一个分类。在特征选择过程中我们应该选择哪个特征,首先可以看到,新闻的标题很多情况下都能够反映出这个文章的主题,所以我们就直接选择文章的标题作为训练数据,训练完这个就按照之前说的,确认这个标题对应的标签,比如说它是科技、娱乐还是健康的。我们准备数据,完成模型的训练,再做模型的小流样上线,之后看一下具体有一些案例,再做数据集的添加,这样可以不断优化我们的效果,通过这四个步骤可以很容易训练出一个文本分类的模型。

第二个场景是目前在行业里应用比较广泛的,叫做AI的智能问答场景。比如说在智能客服这个领域,有时候打电话咨询客服想了解一些事情,很多时候接通的对方都是人工机器人了。还有智能的故事机,我之前从事过相关的工作,对这方面内容比较了解。下一部分,比如有一些智能催收会打电话问一些问题,这个过程背后核心技术是什么,就是这个文本匹配的模型。在文本匹配模型听起来比较抽象,我通过一个现实世界的例子给大家介绍一下在业务场景怎么应用。我们可以将文本匹配模型看成一个磁铁,当用户产生一个输入,什么是天津省内的流量,我们通过这个磁铁逐一看一下侯选的知识内容,它的对应值是什么,值是多少。请问省内流量是怎么回事,这个有相对比较高的数值,这个问题对应的答案可以解答这个问题,文本相似度的模型就在这个过程中起到了它的作用。如果在知识问答中可以使用,其他的场景还有什么,比如在业务当中很多时候需要对离线数据做知识库构建或聚类,也可以通过这种方式做。同时也有站内的搜索,比如我想像百度搜索框一样,直接提供答案。

最后一个就是序列标注的任务,就是将文本看成一串序列,对序列字符进行标注,称之为序列标注,常见的应用就是快递地址的关键信息进行抽取,比如这里可以看到张三,电话号码,最后一个地址,我们把对应字段抽取出来就完成了序列标注的内容。序列标注其他的应用场景,我们在线下交流过程当中有很多的业务,一些公司也会应用到这个场景。你可以回想一下甲方或者客户那是不是也有这种场景,比如对一些财经文章抽取一些关键信息,进行结构化的录入,包括医疗专有名词的录入,这些场景是非常有商业潜力的,很多时候在AI落地的过程中,其实一些大型的国企或者政府企业会优先尝试这些能力,这个时候就诞生了一些订单,如果你回想出来自己的甲方或者客户已经有这种场景,但是还没有应用这种能力,就可以试一试在EasyDL智能标注的任务场景去构建一些模型。其他的场景,比如内容审核场景,都是对关键词识别以后进行的识别。

我们通过一个段子来结束整个课程的内容。

编辑部一个同事在新闻客户端发布了一个文章,但是总也发不出去,他就打电话给新闻客户端对接人员投诉了,对方查看以后引用了一句话,黑夜总会过去,光明总是永恒,就触发了过滤机制了,他就问哪个词,是黑夜,还是总会,还是光明,它说是夜总会,这个就是把实体词抽取错误的案例。如果你在自己业务当中不断寻找需要提升准确率的,可以来EasyDL尝试。

课程首先介绍了EasyDL在NLP方向的产品全景、之后介绍了一些文本智能标注的原理、应用和问题,以及对应的实操,最后介绍了一些NLP的任务应用场景是怎么做的,我们后续平台不管是经典版还是专业版都会陆续上线很多任务,大家可以后续可以持续关注。

【Q&A】

Q:智能标注的准确率是怎么计算的?

A:准确率,其实我们拿已标注样本作为评估集,通过这个评估集对模型进行评估。其实跟模型训练过程是一样的,当你去训练一个模型的时候,你也会提供一个独立的评估集,对这个评估集进行评估,得到一个模型的准确率还是F1还是怎样样,目前智能标注取的指标就是准确率。

 

Q:智能标注的时间大概有多久?

A:现在平台目前开放的文本分类的任务,在标注的过程中存在两个环节,第一个是学习环节,第二就是标注环节。学习环节中,大概在六百条数据,通常有一到两个小时左右。智能标注环节,大概也会有两到三个小时左右。如果你的数据集比较多或者特征比较复杂,可能时间上还会有一定的浮动。

 

Q:序列标注任务现在可以进行智能标注了吗?

A:刚刚也是想问一下直播的同学们,自己业务当中需要开放哪些智能标注能力,目前市开放了文本分类单标签的文本智能标注,后续会陆续开放其他的任务类型。上线计划我们也会陆续的在官方渠道给大家同步,大家可以期待。

 

Q:智能标注后的数据可以导出吗?

A:智能标注数据,大家可以看到刚才我演示的时候有一个Easy Data平台(与EasyDL互通),这个数据平台也会集成文本智能标注能力,同时对应的文本智能标注数据也会在这个平台上导出,但是这个是导出到百度云上的存储位置。后续也会持续关注用户使用智能标注数据的应用场景,目前看到普遍都是做模型训练,所以暂不提供下载到本地的能力。

如果大家对智能标注下载问题比较感兴趣,可以在百度搜索Easy Data这个平台,可以在数据集里可以看到有导出这个按钮,现在是导出到百度云的系统,如果有后续需求可以向我们反馈,我们也会给产品进行进一步的优化和迭代

 

Q:优化智能标注后的准确率能提升多少?

A:提升的过程或提升的幅度,其实不同的数据集的特点有很大差异,我们自己找了一些公开的数据集,比如说电商评论的公开数据集。通过测试大概第一轮能提升从85%到87%,后续每一轮的优化迭代都能够得到很好的提升。但最终提升的目标也是根据你最终的需求而定,比如说你对业务的模型效果,只需要达到87%或者80%就OK了,这个数据质量的提升也就是参考你这个业务的精确度的指标酌情优化。

 

Q:一般需要几轮优化,这也是根据业务需求决定的对吧。

A:对,比如说我需要较大幅度的优化,我建议对平台筛选出的优先校验样本做充分的校验。

 

Q:英文的任务数据可以进行智能标注吗?

A:刚才介绍过,我们背后技术是关于ERNIE持续学习语义理解的技术,它背后也是学习了大规模中文的数据和中文知识,我们在中文这个方向上有很好的效果,目前文本智能标注是不支持英文的智能标注。

 

Q:数据上传会出现安全问题吗?

A:大家不用担心,我们在EasyDL在数据这个环节有独立的安全的保护机制,都有非常严格的公司内部的数据保密管理的服务条例,对于每一位客户的数据都是最高安全保密级别的保护进行管理的,这个不用担心,这在百度内部是有非常严格的红线。

 

Q:智能标注支持的文本最大长度大概是多少?

A:文本的长度也是根据目前平台上提供的模型训练的能力,这是统一的,也就是说目前文本支持512个字符。

 

Q:现在是收费的还是免费的,如果是收费怎么计费?

A:目前也是刚刚上线的文本智能标注,同时在业界也是暂时没有看到友商,所以目前还是公测的阶段,至于后续是否收费,以及收费的计划,暂时还没有详细的定义出来,但是我们也会酌情考虑产品的商业化进展。

 

Q:人工进行标注那个部分是用来训练,那拿过来评估,中间是做了数据拆分吗,有一定的拆分比例吗?

A:对,有一定的拆分。

 

Q:所以使用这个标注数据不能下载到本地进行训练了吗?

A:如果是平台提供的任务类型能满足的话,我建议在平台上直接使用,这样的话平台上提供的这些服务部署,比如说私有化部署和公有化部署能力都可以满足日常使用,我不太了解大家对下载之后,是希望自己在本地做什么样的应用,这个可以线下持续的不断交流和沟通。

 

Q:训练好的模型可以导出吗?

A:模型文件也是不支持或者说不建议导出给用户,因为目前模型文件都是可以提供公有化服务方式,这种方式性能和兼容性也都是比较好,也是经历过我们完整的评估和测试的,暂时还没有提供这个考虑。

 

Q:ERNIE现在开源了吗?

A:ERNIE现在有一个开源版本,我们在去年ERNIE发布1.0的时候上线的,在github上可以看到,如果大家感兴趣可以百度搜索一下ERNIE开源或者ERNIE github,就可以找到对应的链接,里面有论文和安装部署说明,以及如何使用代码和效果,都可以在里面看到。

 

Q:可以做生成类的任务吗,比如机器翻译?

A:生成类的任务主要看您团队里主要做什么,如果做翻译的话,或者说做其他的场景应用,我们可以线下再交流,可以在群里单独聊一聊,因为生成任务,目前了解到很少有企业在这方面加力,大部分企业都是在分类任务上做尝试。

有同学说标注的目的是想用自己的模型进行训练,我觉得因为EasyDL训练模型非常好,如果大家想用其他的开源框架训练的话,你可以私信一下小助手,你为什么想用其他的模型,而不是用EasyDL的模型,如果有我们EasyDL可以进行优化的地方,我们可以在之后的模型优化包括产品优化上进行改进。

 

Q: EasyDL只能做文本分类的任务吗?

A:刚才也是提到了EasyDL在训练的任务上的三个场景,文本分类,文本匹配,序列标注,这在专业版都可以使用,经典版也是逐步开放了文本分类单标签和多标签,文本实体抽取以及情感分析这些任务类型都会逐步开放,在使用模型训练过程中,有一些关于数据清洗或者数据降噪以及数据增强能力我们也会酌情的考虑和开放。

【课后作业】

今天的课后作业,使用提供数据集完成未标注数据的智能标注,使用智能标注后的数据在EasyDL平台训练文本分类模型。今天介绍了智能标注功能,希望持续收到文本智能标注的反馈,也准备了一个问卷,因为我们今天第一次介绍智能标注,可能很多同学都是第一次听说,之后会在群里不断给大家重新推一下这个问卷填写的地址,大家尝试智能标注以后可以持续填写问卷。因为这次是有最佳布道师角色,不会对NLP各种功能或者智能标注功能有一些感受和教程方案,可以扫一下二维码,留下你使用感受回答,赢取百度网盘超级会员的年卡,这些信息都可以在活动里看到,如果大家没有添加小助手微信,进到NLP专场群,或者可以搜索BaiduEasyDL,添加小助手微信。

明晚直播的主题是通过EasyDL为猎头企业实现海量复杂文本自动分类,讲师是北京瀚才咨询有限公司负责人谭笑然,内容是猎头行业现状及痛点介绍、知识密集型行业如何进行知识点分类技术完成数据“结构化”提高业务处理效率。

感谢大家今天的参与,也感谢夜巡老师的分享,如果没有添加小助手微信,一定扫描一下屏幕下方的二维码,今天的直播就到这里,感谢大家的参与。

收藏
点赞
0
个赞
共2条回复 最后由才能我浪费99回复于2020-06-15 11:13
#3才能我浪费99回复于2020-06-15 11:13:10

easydl功能越来越强大了

0
#2wangwei8638回复于2020-06-10 19:41:54

新行业人工智能训练师也要受AI员工威胁?

0
TOP
切换版块