资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

输入参数

输入参数列表

PRODUCT_ID

根据您需要的识别语言和模型选择PRODUCT_ID参数

  • 输入法模型:效果同百度输入法的语音输入。适合于长句识别。

语义解析: 自然语言文本是用户意图的表述,语义解析的目的就是将文本分词并解析成意图表示。语义解析仅支持普通话输入法模型。 在线语义详细说明请查看“语义理解协议”文档

PID 语言 模型 是否有标点 在线语义 备注
1537 普通话 语音近场识别模型 有标点(逗号) 不支持
15372 普通话 语音近场识别模型 加强标点(逗号、句号、问号、感叹号) 不支持
15373 普通话 语音近场识别模型 加强标点(逗号、句号、问号、感叹号) 支持
1737 英语 有标点(逗号) 不支持
1637 粤语 有标点(逗号) 不支持
16372 粤语 加强标点(逗号、句号、问号、感叹号) 不支持
1837 四川话 有标点(逗号) 不支持
1936 普通话 远场模型 有标点(逗号) 不支持
19362 普通话 远场模型 加强标点(逗号、句号、问号、感叹号) 不支持
19363 普通话 远场模型 加强标点(逗号、句号、问号、感叹号) 支持

自训练平台模型的pid

PID 语言 模型 是否有标点 在线语义 备注
8001 普通话 输入法模型 逗号 不支持

BDSSDKMessage

BDSSDKMessage 包可以认为是用户向SDK发送命令。由一个标明意向的name,及该name相关的参数组成,然后通过post函数传递命令。

name 说明 参数
ASR_CMD_CONFIG 设置配置参数 见本节的“ASR_CMD_CONFIG 输入参数”
ASR_CMD_START 设置启动参数 见本节的“ASR_CMD_START” 输入参数”
ASR_CMD_PUSH_AUDIO 传递音频数据 见本节的“ASR_CMD_PUSH_AUDIO” 输入参数”
ASR_CMD_STOP 停止当前音频流输入
ASR_CMD_CANCEL 取消当前的整个识别过程
   BDSSDKMessage params;
   params.name=ASR_CMD_CONFIG; // 这里设置name
   params.set_parameter(xxxx, yyyyy);// 根据文档或者demo,设置参数
   bool is_success =sdk->post(params, err_msg)); // 发送这个命令

ASR_CMD_CONFIG 参数

bool 表示 int =0 (关闭)和 =1 (开启) 的值

参数名 参数类型 / 值 必填选填 常用程度 说明
ASR_PARAM_KEY_APP_ID string 必填 常用 您在网站上申请的应用appId
ASR_PARAM_KEY_API_KEY string 必填 常用 您在网站上申请的应用appKey
ASR_PARAM_KEY_PRODUCT_ID int 必填 常用 根据需要识别的语言,及模型选择一个PID值,中文输入法模型是1537。具体值见上一个表格,PRODUCT_ID。
ASR_PARAM_KEY_LMID int 选填 常用 自训练平台上线后的模型Id,必须和自训练平台的PID连用。
ASR_PARAM_KEY
_MAX_SPEECH_PAUSE
float 选填 常用 默认值70帧(=700ms)。VAD检测xxx帧 静音后认为一句话结束。 一帧 = 10ms
ASR_PARAM_KEY_SAVE_AUDIO_ENABLE bool 选填 常用 默认关闭,用于保存识别过程中的音频数据
ASR_PARAM_KEY_SAVE_AUDIO_PATH string 选填 常用 保存音频文件路径,ASR_PARAM_KEY_SAVE_AUDIO_ENABLE开启后生效,默认路径为程序启动目录下的sdk_save_audio.d里。音频文件以单次识别为分割,文件以日期命名,精确到微秒,后缀为.pcm
COMMON_PARAM
_KEY_DEBUG_LOG_LEVEL
TBDVoiceRecognition
DebugLogLevel
选填 常用 设置日志级别,日志可以使用open_log_file保存到文件中
EVRDebugLogLevelOff 默认 不常用 关闭日志,仅测试是使用
EVRDebugLogLevelTrace 常用 开启所有日志, 反馈请开启这个级别日志
ASR_PARAM_KEY
_COMPRESSION_TYPE
TBDVoiceRecognition
AudioCompressionType
选填 不常用 SDK内部传输到百度服务端的音频流压缩格式,仅仅在与百度服务端通讯带宽不够的情况下设置。注意此处不是输入格式。输入格式见ASR_PARAM_KEY_SAMPLE_RATE。
EVR_AUDIO
_COMPRESSION_PCM
推荐 常用 不压缩,以原始音频pcm格式上传。
EVR_AUDIO
_COMPRESSION_BV32
默认 不常用 BV有损压缩格式传输,8倍压缩
EVR_AUDIO
_COMPRESSION_AMR
不常用 AMR有损压缩格式传输,16倍压缩
ASR_PARAM_KEY_SAMPLE_RATE BDVoiceRecognition
RecordSampleRateFlags
选填 固定值 原始音频的采样率。输入音频流的音频格式为raw,或者是pcm文件输入流。单声道,16bits, 小端序
EVoiceRecognition
RecordSampleRate16K
默认 常用 16000的采样率,推荐
ASR_PARAM_KEY
_DISABLE_PUNCTUATION
bool 选填 固定值 固定值1,仅当不需要标点时将其设置为0
ASR_PARAM_KEY
_ENABLE_LONG_SPEECH
bool 选填 固定值 固定值1,长语音参数,识别可以超过60s
ASR_PARAM_KEY
_CHUNK_ENABLE
bool 必填 固定值 固定值1
ASR_PARAM_KEY
_MFE_DNN_DAT_FILE
string 必填 固定值 固定值为bds_easr_mfe_dnn.dat文件的路径
ASR_PARAM_KEY
_MFE_CMVN_DAT_FILE
string 必填 固定值 固定值为bds_easr_mfe_cmvn.dat文件的路径

ASR_CMD_START 参数

参数名 参数类型 / 值 必填 说明
ASR_PARAM_KEY_APP string 必填 您自己应用的名称, 英文字母数字及下划线
ASR_PARAM_KEY_PLATFORM string 必填 固定值 "Linux"
ASR_PARAM_KEY_SDK_VERSION string 必填 固定值 "sdk3.0", 该值随版本而定,具体参见demo

ASR_CMD_PUSH_AUDIO参数

传输方式见:”接口使用及调用流程:传递音频数据“一节。 | 参数名 | 参数类型 / 值 | 必填 | 说明 | | ---------- | -------- | ---- | ------------------------- | | DATA_CHUNK | 二进制 及其长度 | 是 | 传入音频流二进制数组及长度,长度为0表示音频流结束 |