【经验分享】DuReader 分析
530828854 发布于2019-12 浏览:2583 回复:1
0
收藏
最后编辑于2020-03

DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications

Paper: https://arxiv.org/abs/1711.05073

Page: http://ai.baidu.com/broad/subordinate?dataset=dureader

Code: https://github.com/baidu/DuReader/

DuReader,一个新的大型开放中文机器阅读理解数据集。

DuReader 与以前的 MRC 数据集相比有三个优势:

数据来源:问题和文档均基于百度搜索和百度知道; 答案是手动生成的。
问题类型:它为更多的问题类型提供了丰富的注释,特别是是非类和观点类问题。
规模:包含 200K 个问题,420K 个答案和 1M 个文档; 是目前最大的中文 MRC 数据集。

简介
表 1: 机器阅读理解数据集对比

初步研究
表 2: 中文六类问题的例子

从初步研究到 DuReader
数据收集与标注
数据收集
DuReader 的样本可用四元组表示: {q,t,D,A}{q,t,D,A},其中 qq 是问题,tt 是问题类型,DD 是相关文档集合,AA 是由人类标注产生的答案集合。

问题类型标注
答案标注
众包

质量控制
训练集、开发集和测试集

DuReader 是(相对地)很有挑战
挑战:

1. 答案数量


图 1. 答案数量分布
2. 编辑距离

人类生成的答案和源文档之间的差异很大。
3. 文档长度

问题平均 4.8 词,答案平均 69.6 词,文档平均 396 词。
实验
基线系统
1. 从每个文件中选择一个最相关的段落
2. 在选定的段落中应用最先进的 MRC 模型
段落选择
在训练阶段,我们从文档中选择与人类生成答案重叠最大的段落作为最相关段落。

在测试阶段,由于我们没有人类生成答案,我们选择与问题重叠最大的段落作为最相关段落。

答案选择
- Match-LSTM

要在段落中找到答案,它会按顺序遍历段落,并动态地将注意力加权问题表示与段落的每个标记进行匹配。

最后,使用答案指针层来查找段落中的答案范围。
- BiDAF

它使用上下文对问题的关注和问题对上下文的关注,以突出问题和上下文中的重要部分。

之后,使用注意流层来融合所有有用的信息,以获得每个位置的向量表示。
结果和分析
评价方法:BLEU-4, Rouge-L


表 6:典型的 MRC 系统在 DuReader 上的效果


表 8:不同问题类型的效果

Opinion-aware 验证

表 9:opinion-aware 模型在 YesNo 问题上的效果

讨论
结论
提出了 DuReader 数据集,提供了几个 baseline。

收藏
点赞
0
个赞
共1条回复 最后由国君小白殿下回复于2020-03
#2国君小白殿下回复于2020-03

这个只是简单翻译了一下论文梗要吧……

0
TOP
切换版块