对话式文档问答使用的10条建议

首页版块访问AI主站注册发帖

对话式文档问答使用的10条建议

官

jieyu_1025 发布于2019-07 浏览:6650 回复:2

对话式文档问答使用的10条建议

快速回复

最后编辑于2020-06

近发现很多使用“对话式文档问答”技能的开发者反应使用效果不如预期，我们汇总梳理了开发者使用中遇到问题，整理了10条建议，希望能够帮助开发者取得更好的效果。

1、命名恰当的文档名

开发者上传的文档名字应能够体现这篇文档的主要内容，尽可能避免文档名和文档内容无关的情况，同时尽量使用中文文件名，以便于我们的技术能够更好的分析理解文档。比如，建议使用的文档名：《海淀公园介绍》、《航空公司行李托运说明》，应避免使用的文档名：《test1》、《1-5》、《说明3》等。

2、选择正确的文档类型

对话式文档问答目前支持两种文档类型，一种是普通文档，一种是整理过的faq类型的文档（即问答对的形式），这两种文档有各自的上传入口，如下图所示:

在收到的反馈中会发现有些开发者朋友在上传faq类型的文档时选择了普通文档而导致效果不佳。

3、文档内容以中文为主

目前我们的技术主要支持中文文档，暂不支持英文文档。

4、建议每篇文档只包含一篇文章

我们发现有些开发者上传的一篇文档实际上包含多篇文章，建议每篇文章作为一个文档单独上传，我们支持同一技能包含多篇文档。单独上传有助于系统理解文档，也有利于开发者管理文档。

5、避免在同一个技能中上传多个领域的文档

在一个技能中最好只上传一个领域的文档，如果有多个领域的文档，建议通过创建多个技能的方式来处理。通过创建机器人，可以实现多个技能在同一个窗口对话。

6、建议去掉文档中存在的表格

目前我们还没有对上传文档中的表格进行针对性的处理，因此建议开发者朋友在使用该技术时去除文档中的表格。

7、不要将对话日志作为文档上传

对话日志作为一种特殊类型的文档，我们后续会予以支持，但是目前支持的文档类型中不包含对话日志，因此，建议开发者暂时不要将对话日志作为普通文档上传。

8、去除文档中的冗杂信息

有些开发者朋友在上传文档时不小心将一些冗余信息加入其中，比如会将页码、页眉中的内容混入到正文中，导致原本连贯的语句被冗余信息切开了，使得文档难以被机器理解。建议用户在上传文档时，只需要将正文内容上传即可。

9、设置恰当的召回及top1阈值

因为开发者上传的文档涉及多种类型和多个领域，因此我们提供的默认的召回阈值及top1阈值在开发者创建的具体技能中不一定是最优的，因此开发者可以自己调节”技能设置”里的召回阈值和top1阈值，以取得更好的效果。

10、建议多使用干预系统优化结果

系统的结果在有些时候并不是开发者想要的，这时候需要开发者对原始结果进行干预。目前我们提供了两种干预模式，一种是通过调优模式进行干预，参见下图：

另一种是通过将case配置成问答对，以上传faq类型的文档的方式进行干预。

两者的区别是通过上传faq类型的文档可以进行批量的干预，但是上传后必须重新训练才能生效；而在调优模式下只能单条进行干预，还可以对干预过的结果进行删除，而且case级的干预可以迅速生效。

如果您在使用过程中遇到一些问题，或者您有什么建议，欢迎留言或给我们发邮件（unit-innovation@baidu.com）。

技术问答

个赞

共2条回复最后由wangwei8638回复于2020-06

#3wangwei8638回复于2020-06

升级后没有faq类型的文档？

#2伊茨米可回复于2019-07

如有问题欢迎随时联系~

快速回复

小编推荐

【7.18升级】自动预标注上线、词典值管理升级

TroubleMaker源 7回复

【智能对话深度实战营】首批训练师认证名单公示

魏亚非669 38回复

语音语义一体化全新升级，一次数据交互全搞定

用户已被禁言 18回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服