【经验分享】DuReader 分析

首页版块访问AI主站注册发帖

【经验分享】DuReader 分析

530828854 发布于2019-12 浏览:2583 回复:1

【经验分享】DuReader 分析

快速回复

最后编辑于2020-03

DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications

Paper: https://arxiv.org/abs/1711.05073

Page: http://ai.baidu.com/broad/subordinate?dataset=dureader

Code: https://github.com/baidu/DuReader/

DuReader，一个新的大型开放中文机器阅读理解数据集。

DuReader 与以前的 MRC 数据集相比有三个优势：

数据来源：问题和文档均基于百度搜索和百度知道; 答案是手动生成的。
问题类型：它为更多的问题类型提供了丰富的注释，特别是是非类和观点类问题。
规模：包含 200K 个问题，420K 个答案和 1M 个文档; 是目前最大的中文 MRC 数据集。

简介
表 1: 机器阅读理解数据集对比

初步研究
表 2: 中文六类问题的例子

从初步研究到 DuReader
数据收集与标注
数据收集
DuReader 的样本可用四元组表示： {q,t,D,A}{q,t,D,A}，其中 qq 是问题，tt 是问题类型，DD 是相关文档集合，AA 是由人类标注产生的答案集合。

问题类型标注
答案标注
众包

质量控制
训练集、开发集和测试集

DuReader 是（相对地）很有挑战
挑战：

1. 答案数量

图 1. 答案数量分布
2. 编辑距离

人类生成的答案和源文档之间的差异很大。
3. 文档长度

问题平均 4.8 词，答案平均 69.6 词，文档平均 396 词。
实验
基线系统
1. 从每个文件中选择一个最相关的段落
2. 在选定的段落中应用最先进的 MRC 模型
段落选择
在训练阶段，我们从文档中选择与人类生成答案重叠最大的段落作为最相关段落。

在测试阶段，由于我们没有人类生成答案，我们选择与问题重叠最大的段落作为最相关段落。

答案选择
- Match-LSTM

要在段落中找到答案，它会按顺序遍历段落，并动态地将注意力加权问题表示与段落的每个标记进行匹配。

最后，使用答案指针层来查找段落中的答案范围。
- BiDAF

它使用上下文对问题的关注和问题对上下文的关注，以突出问题和上下文中的重要部分。

之后，使用注意流层来融合所有有用的信息，以获得每个位置的向量表示。
结果和分析
评价方法：BLEU-4, Rouge-L

表 6：典型的 MRC 系统在 DuReader 上的效果

表 8：不同问题类型的效果

Opinion-aware 验证

表 9：opinion-aware 模型在 YesNo 问题上的效果

讨论
结论
提出了 DuReader 数据集，提供了几个 baseline。

评论观点抽取

个赞

共1条回复最后由国君小白殿下回复于2020-03

#2国君小白殿下回复于2020-03

这个只是简单翻译了一下论文梗要吧……

快速回复

小编推荐

【强化学习算法】原理介绍

猪腰子3 12回复

【强化学习算法】PARL介绍、常见问题和解决方法

猪腰子3 12回复

【强化学习算法】常见应用

猪腰子3 7回复

NLP常见问题汇总

用户已被禁言 8回复

第三期【百度大脑新品体验】手写诗一首，AI来读

wangwei8638 66回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服