NLP常见问题汇总
置顶
用户已被禁言 发布于2019-03 浏览:15008 回复:8
2
收藏
快速回复

 NLP常见问题汇总

 

1.Q:怎么标注训练数据?

A:

您需要把您要训练的数据分为正向和负向的,标注的标准可以按照实际业务场景来判断。

我们以手机领域的用户评论数据为例:

a.    正向语料:对所描述事物表达肯定、满意、喜欢等态度。如:这个手机的功能强大,国产机的春天到了!

b.    负向语料:对所描述事物表达否定、不满、不喜欢等态度。如:超级不耐用,系统也烂,怎么说呢,反正我是不会再买了!

注:如果您没有数据标注的人力精力,您可以在『百度数据众包平台』上申请,会有专业团队根据您的需求来标注数据

(『百度数据众包平台』链接:http://zhongbao.baidu.com/mark/home/index)

 

2.Q:模型训练需要上传多少数据?

A:

需自定义的语料分为正向语料(Positive)和负向语料(Negative),分别上传即可。每行一条数据,每种语料的数量需大于100 条,才可开始训练。为保证定制化效果,每种训练语料最好大于1000 条。当然,语料越多,模型的精度会越高。

注:建议您上传的正负语料的数量比例尽量均衡(1:1)。

 

3.Q:为什么不需要上传中性语料?

A:

只上传正负语料可以让模型把分类边界更加明确 。目前来说,中性的标准很难界定,且目前二分类和三分类效果持平,为了不增加用户标注负担,暂时不支持三分类定制。我们也在持续迭代更新后端算法,如果三分类有明显的增益会另外再开放中性语料训练,给予用户更多场景选择。

 

4.Q:模型是怎么进行训练和自动评估的?

A:

情感倾向分析的定制化在技术上的步骤包括4 个阶段:1). 数据预处理;2). 数据切分; 3). 特征提取及格式转换; 4).训练、验证及测试等阶段。

其中:

1)    数据预处理:包括对配文件进行检查、对用户上传正负向语料打上标签、并完成切词和词性标注。

2)    数据切分: 先从训练语料中按模取十分之一的数据作为测试集。测试集用于评估定制化前后的效果;接着对剩下的数据进行打乱,按9:1 的比例切分成训练集和验证集;其中,训练集用于模型的训练,验证集用于从已经训练好的模型中帮您筛选效果最好的模型。

3)    特征提取和格式转换:生成训练词典,将训练集、验证集、测试集转换成相应的格式,供训练使用。

4)    训练、验证及测试:使用训练工具进行训练,从训练的模型中挑选效果最好的模型,并在测试集上评估定制化前后的准确率。

自动评估:在第2 步的时候自动从训练数据里选取十分之一的数据,并在模型训练完成后自动对模型进行评估,分别评估出模型训练前后的准确率。

评估结果会包含四列:

l  第1列是用户原始训练数据,就是定制化训练数据切分的时候,按模取1/10 的数据。

l  第2列原始训练数据的label,用户上传的正向语料和负向语料,我们处理的时候会打上label,2表示正向,0 表示负向。

l  第3列是定制化前的通用模型得到的结果:2 表示正向,1 代表中性,0 表示负向。

l  第4列是定制化后的模型得到的结果:2 表示正向,1 代表中性,0 表示负向。

 

5.Q:模型训练失败的常见原因有哪些?

A:

a.    编码错误

b.    数据行为空

c.     网络错误

a、b请您检查语料,c请您稍候重试。排除后的其他情况可以联系我们进行解决

收藏
点赞
2
个赞
共8条回复 最后由192******42回复于2023-10
#9192******42回复于2023-10

0
#818500862512qq回复于2021-06

先马住,新人报道前来学习NLP

0
#7wza5520回复于2020-08

win10 + pycharm + anaconda 3.5 一直显示编码错误

有人能帮忙看一下环境如何设置吗?

1
#6Randcase回复于2020-08

所有自然语言都以二分类思想吗?

0
#5134******14回复于2020-07

挺好~

0
#4饭小团回复于2020-04
#2 铁人俊俊的粉丝回复
请问可以分析情感强度吗

情感倾向分析可以分析情感强度哈

0
#3杨凯kd回复于2020-03

收藏了,这帮了我大忙了

0
#2铁人俊俊的粉丝回复于2019-12

请问可以分析情感强度吗

0
TOP
切换版块