开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
语音技术

    输入参数

    输入参数列表

    PRODUCT_ID

    根据您需要的识别语言和模型选择PRODUCT_ID参数

    • 输入法模型:效果同百度输入法的语音输入。适合于长句识别。

    语义解析: 自然语言文本是用户意图的表述,语义解析的目的就是将文本分词并解析成意图表示。语义解析仅支持普通话输入法模型。 在线语义详细说明请查看“语义理解协议”文档

    PID 语言 模型 是否有标点 在线语义 备注
    1537 普通话 语音近场识别模型 有标点(逗号) 不支持
    15372 普通话 语音近场识别模型 加强标点(逗号、句号、问号、感叹号) 不支持
    15373 普通话 语音近场识别模型 加强标点(逗号、句号、问号、感叹号) 支持
    1737 英语 有标点(逗号) 不支持
    1637 粤语 有标点(逗号) 不支持
    16372 粤语 加强标点(逗号、句号、问号、感叹号) 不支持
    1837 四川话 有标点(逗号) 不支持
    1936 普通话 远场模型 有标点(逗号) 不支持
    19362 普通话 远场模型 加强标点(逗号、句号、问号、感叹号) 不支持
    19363 普通话 远场模型 加强标点(逗号、句号、问号、感叹号) 支持

    自训练平台模型的pid

    PID 语言 模型 是否有标点 在线语义 备注
    8001 普通话 输入法模型 逗号 不支持

    BDSSDKMessage

    BDSSDKMessage 包可以认为是用户向SDK发送命令。由一个标明意向的name,及该name相关的参数组成,然后通过post函数传递命令。

    name 说明 参数
    ASR_CMD_CONFIG 设置配置参数 见本节的“ASR_CMD_CONFIG 输入参数”
    ASR_CMD_START 设置启动参数 见本节的“ASR_CMD_START” 输入参数”
    ASR_CMD_PUSH_AUDIO 传递音频数据 见本节的“ASR_CMD_PUSH_AUDIO” 输入参数”
    ASR_CMD_STOP 停止当前音频流输入
    ASR_CMD_CANCEL 取消当前的整个识别过程
       BDSSDKMessage params;
       params.name=ASR_CMD_CONFIG; // 这里设置name
       params.set_parameter(xxxx, yyyyy);// 根据文档或者demo,设置参数
       bool is_success =sdk->post(params, err_msg)); // 发送这个命令

    ASR_CMD_CONFIG 参数

    bool 表示 int =0 (关闭)和 =1 (开启) 的值

    参数名 参数类型 / 值 必填选填 常用程度 说明
    ASR_PARAM_KEY_APP_ID string 必填 常用 您在网站上申请的应用appId
    ASR_PARAM_KEY_API_KEY string 必填 常用 您在网站上申请的应用appKey
    ASR_PARAM_KEY_PRODUCT_ID int 必填 常用 根据需要识别的语言,及模型选择一个PID值,中文输入法模型是1537。具体值见上一个表格,PRODUCT_ID。
    ASR_PARAM_KEY_LMID int 选填 常用 自训练平台上线后的模型Id,必须和自训练平台的PID连用。
    ASR_PARAM_KEY
    _MAX_SPEECH_PAUSE
    float 选填 常用 默认值70帧(=700ms)。VAD检测xxx帧 静音后认为一句话结束。 一帧 = 10ms
    ASR_PARAM_KEY_SAVE_AUDIO_ENABLE bool 选填 常用 默认关闭,用于保存识别过程中的音频数据
    ASR_PARAM_KEY_SAVE_AUDIO_PATH string 选填 常用 保存音频文件路径,ASR_PARAM_KEY_SAVE_AUDIO_ENABLE开启后生效,默认路径为程序启动目录下的sdk_save_audio.d里。音频文件以单次识别为分割,文件以日期命名,精确到微秒,后缀为.pcm
    COMMON_PARAM
    _KEY_DEBUG_LOG_LEVEL
    TBDVoiceRecognition
    DebugLogLevel
    选填 常用 设置日志级别,日志可以使用open_log_file保存到文件中
    EVRDebugLogLevelOff 默认 不常用 关闭日志,仅测试是使用
    EVRDebugLogLevelTrace 常用 开启所有日志, 反馈请开启这个级别日志
    ASR_PARAM_KEY
    _COMPRESSION_TYPE
    TBDVoiceRecognition
    AudioCompressionType
    选填 不常用 SDK内部传输到百度服务端的音频流压缩格式,仅仅在与百度服务端通讯带宽不够的情况下设置。注意此处不是输入格式。输入格式见ASR_PARAM_KEY_SAMPLE_RATE。
    EVR_AUDIO
    _COMPRESSION_PCM
    推荐 常用 不压缩,以原始音频pcm格式上传。
    EVR_AUDIO
    _COMPRESSION_BV32
    默认 不常用 BV有损压缩格式传输,8倍压缩
    EVR_AUDIO
    _COMPRESSION_AMR
    不常用 AMR有损压缩格式传输,16倍压缩
    ASR_PARAM_KEY_SAMPLE_RATE BDVoiceRecognition
    RecordSampleRateFlags
    选填 固定值 原始音频的采样率。输入音频流的音频格式为raw,或者是pcm文件输入流。单声道,16bits, 小端序
    EVoiceRecognition
    RecordSampleRate16K
    默认 常用 16000的采样率,推荐
    ASR_PARAM_KEY
    _DISABLE_PUNCTUATION
    bool 选填 固定值 固定值1,仅当不需要标点时将其设置为0
    ASR_PARAM_KEY
    _CHUNK_ENABLE
    bool 必填 固定值 固定值1
    ASR_PARAM_KEY
    _MFE_DNN_DAT_FILE
    string 必填 固定值 固定值为bds_easr_mfe_dnn.dat文件的路径
    ASR_PARAM_KEY
    _MFE_CMVN_DAT_FILE
    string 必填 固定值 固定值为bds_easr_mfe_cmvn.dat文件的路径

    ASR_CMD_START 参数

    参数名 参数类型 / 值 必填 说明
    ASR_PARAM_KEY_APP string 必填 您自己应用的名称, 英文字母数字及下划线
    ASR_PARAM_KEY_PLATFORM string 必填 固定值 "Linux"
    ASR_PARAM_KEY_SDK_VERSION string 必填 固定值 "sdk3.0", 该值随版本而定,具体参见demo

    ASR_CMD_PUSH_AUDIO参数

    传输方式见:”接口使用及调用流程:传递音频数据“一节。 | 参数名 | 参数类型 / 值 | 必填 | 说明 | | ---------- | -------- | ---- | ------------------------- | | DATA_CHUNK | 二进制 及其长度 | 是 | 传入音频流二进制数组及长度,长度为0表示音频流结束 |

    上一篇
    调用流程
    下一篇
    输出参数