训练数据

更新时间：2022-05-20

添加训练数据后，模型才能正确的识别意图和词槽。

对话模板：按照模板规则匹配语句，符合规则即可识别。

对话样本：真实对话数据，标注样本的意图、词槽之后，可以识别样本原句和原句的相似语句。

词槽词典值：为技能提供识别语句中的关键参数的能力。比如手机推荐中的手机品牌，就需要通过添加词槽词典值来识别。

对话模板

在没有真实对话数据，但需要快速启动项目的情况下，首选配置对话模板，可以快速让模型有一定的识别效果。精确识别语句，输入的语句符合模板就能识别到意图、词槽等信息。

我们先简单了解几个概念：

模板片段：由词槽、特征词、固定文本组成。一般情况下，一个词槽或特征词或固定文本即是一个模板片段。

特征词：当一个词具有多个同义表述时，我们将这些词加到一个词组里，就是特征词。例如：问题"支持退换货嘛？"中，"支持"的同义表述有：有、能、可以、享受等。

必须匹配：必须匹配选择【是】的模板片段，必须在用户问题中出现，才能命中当前模板。

阈值：
1. 当用户语句中可识别部分内容字数除以模板内容总字数 > 阈值时，语句可匹配该模板。
2. 可识别部分包括：词槽，特征词，固定汉字，口语化词。计算字数时，汉字是1，数字、字母、标点符号是0.5。

解析返回所有词槽：选择是，表示匹配到该模板时，只要语句包含该词槽，即使未在模板配置，也会返回该词槽的解析结果。

词表黑名单：可以配置词槽、特征词，只要语句包含词表黑名单的内容，模板将不会识别该语句。

模板优先级：靠前的模板优先级高。如果语句可以匹配两个模板，会根据优先级高的模板给出识别结果。

接下来我们来看如何为导航场景下的问题"肯德基在哪？"创建一个问题模板。

首先，这句话里有两个关键词，分别是：肯德基、在哪。其中，"肯德基"是规划导航路径的关键参数，需要设置为词槽才能传给业务系统进行路径规划；"在哪"是有多个同义表述的，我们将其设为特征词。

点击【新建问题模板】即可开始配置模版，选择【新建特征词】并在对话框中输入特征词信息，如下示例：

【名称】：kw_where

【描述】：把"在哪"定义为特征词。

【词典值】：在哪，在什么地方，哪里，哪有

新建特征词

接下来，将词槽和特征词分别加入到两个模板片段中。

这时，我们发现，"肯德基在哪？"这句话中，"肯德基"和"在哪"必须都有，我们才能完整理解句子意思的词。所以，我们分别在"肯德基"和"在哪"的片段前，【必须匹配】选项选【是】。

我们还会发现一个问题，就是用户还可能会说："哪里有肯德基"，这句话特征词的出现顺序发生了明显的变化，为了解决这个问题，UNIT为模板片段提供了顺序的概念：

当顺序为0时，意味着这个模板片段可以出现在用户问题中的任意位置；当顺序大于1时，模板按照从小到大的顺序，需要依次在用户问题中从左至右出现。我们来看两个例子：

模板1

此配置下，当用户说："肯德基在什么地方？"、"肯德基在哪？"才能命中模板

模板2

此配置下，无论用户说："哪有肯德基？"、"肯德基在哪里？"、"在什么地方啊，肯德基"都可以命中模板。

注意：
单模板片段不是完全不能使用，如果词槽或者特征词之间必须紧挨，不期望中间有其他内容，就需要使用；或者意图下有两个相同词典的不同词槽，为了区分识别这两个词槽，就需要用特征词对其中一个进行限定。比如订火车票意图，有起点和终点，真实语句中，包含终点的词一般都是"去北京""到北京""回北京"，此时就需要将包含"去""到""回"的特征词与终点词槽配置在一个模板片段中。
返回数据json中有模板ID（template_id），可在对话模板界面通过搜索定位具体匹配的模板。