语音识别LinuxSDK（C++）正式发布

首页版块访问AI主站注册发帖

精

官

卖萌吗sky 发布于2018-01 浏览:24530 回复:59

语音识别LinuxSDK（C++）正式发布

快速回复

最后编辑于2023-10

尊敬的百度AI开放平台用户：

百度AI开放平台LinuxSDK（C++）正式发布啦！

为解决服务端调用实时语音识别和长语音识别能力，百度AI开放平台，开放了LinuxSDK（C++）。大家可以在服务端使用和安卓、iOSSDK一样的在线识别功能了。

【技术特色】

支持语言：中文、英文、粤语、四川话
支持实时长语音识别，识别时间不设上限
支持流式：边说边传，返回临时结构和最终接口
支持输出识别任务起始时间戳，可应用于视频转字幕功能
支持多实例，多任务无压力
基于DNN的高性能端点检测技术，节约带宽而且有更好的识别效果
支持64位linux系统
【如何使用】

文档地址：http://ai.baidu.com/docs#/ASR-Android-SDK/top

SDK下载地址：http://ai.baidu.com/sdk

本月内，还会有更多的语音技术升级，敬请持续关注！

语音识别产品详细介绍：http://ai.baidu.com/tech/speech

语音技术社区交流平台：http://ai.baidu.com/forum/topic/list/166

语音识别

在线

文档

个赞

共59条回复最后由192******42回复于2023-10

#83回复于2023-04

感谢评论区的大佬

#62189******80回复于2018-11

对#41 黯然销魂贴回复

问题解决了吗？，我感觉应该是获取linux实时语音流，而不是处理文件，但是如何获取实时语音流是我现在要解决的问题

展开

是的

#61想123666回复于2018-11

四川话，是有成都的小伙伴不

#60蓝色的湖8889回复于2018-11

对#59 儒雅的李建辉回复

多希望语音识别走进VR

技术特色竟有四川话

#59儒雅的李建辉回复于2018-11

多希望语音识别走进VR

#58133******90回复于2018-11

最近一直研究C++，打开了些思路

#57189******80回复于2018-11

对#47 happierb回复

不知道你有没有解决，可以参看我的帖子，我在下边给出了方案： http://ai.baidu.com/forum/topic/show/497639

展开

哇哇，谢谢，我也是遇见同样的问题

#56189******80回复于2018-11

对#37 踏岸寻柳回复

不错，支持一个

支持支持

#55189******80回复于2018-11

对#54 liguanghui2588回复

C++这个SDK用起来非常顺手，主要是对这个语言熟练，经常用

是的是的

#54liguanghui2588回复于2018-10

C++这个SDK用起来非常顺手，主要是对这个语言熟练，经常用

#51xuxianjin123回复于2018-07

对#50 xuxianjin123回复

[图片] 我这个是将demo稍微修改成解析输入的语音文件。但是很奇怪的问题，麻烦帮忙看下。。。。请问为啥？如果我直接程序调用给出的demo，要如何操作。

展开

[root@iz2ze3skq324qf4hkeg1isz ~]# pwd
/root
[root@iz2ze3skq324qf4hkeg1isz ~]# /tmp/xxj/sample/asrDemo2/run/asrDemo /tmp/xxj/filetmp/a.pcm
-------------==========----------
BEGIN!
2
0x7ffe69142bf8
------------------------------
[GlobalThreadPool::GlobalThreadPool] alloc thread num:30
FOR Feedback : Config is filled :
name: asr.config
string: asr.param.secret_key.string=037dc446820ec143d1628c20146b9d34; asr_param_key_app_id=10455099; asr_param_key_chunk_key.string=rKCHBLmYiFPuCQTS0HttLbUD; asr_param_key_mfe_cmvn_dat_file.string=../../../resources/asr_resource/bds_easr_mfe_cmvn.dat; asr_param_key_mfe_dnn_dat_file.string=../../../resources/asr_resource/bds_easr_mfe_dnn.dat; asr_param_key_product_id.string=15361;
int: asr_param_key_chunk_enable.bool=1; asr_param_key_compression_type.int=1; asr_param_key_enable_long_speech.bool=1; common_param_key_debug_log_level.int=0;
float: asr_param_key_max_speech_pause.float=30;

ERROR:[/home/hanyong01/work/work/sdk_3_0/baidu/speech-arch/baidu-speech-sdk/core/VAD/MFE/dnn/vad_nn.cpp:30]failed to open dnn model file[../../../resources/asr_resource/bds_easr_mfe_dnn.dat]
ERROR:[/home/hanyong01/work/work/sdk_3_0/baidu/speech-arch/baidu-speech-sdk/core/VAD/MFE/dnn/dnn_vad.cpp:347]DNN Init Failed
[2018-07-17 15:45:59.519][/tmp/xxj/filetmp/a.pcm] :识别错误， err_domain=20 ;err_code=1 ;err_desc=VAD start: start error. ;sn= 6B31949E-5D5D-4D1D-AF21-EC3A6EF98AFD
stop audio data error: sdk is finished and released : 0
[root@iz2ze3skq324qf4hkeg1isz ~]#
[root@iz2ze3skq324qf4hkeg1isz ~]#
[root@iz2ze3skq324qf4hkeg1isz ~]#
[root@iz2ze3skq324qf4hkeg1isz ~]# cd /tmp/xxj/sample/asrDemo2/run/
[root@iz2ze3skq324qf4hkeg1isz run]# ./asrDemo /tmp/xxj/filetmp/a.pcm
-------------==========----------
BEGIN!
2
0x7ffd175c6398
------------------------------
[GlobalThreadPool::GlobalThreadPool] alloc thread num:30
FOR Feedback : Config is filled :
name: asr.config
string: asr.param.secret_key.string=037dc446820ec143d1628c20146b9d34; asr_param_key_app_id=10455099; asr_param_key_chunk_key.string=rKCHBLmYiFPuCQTS0HttLbUD; asr_param_key_mfe_cmvn_dat_file.string=../../../resources/asr_resource/bds_easr_mfe_cmvn.dat; asr_param_key_mfe_dnn_dat_file.string=../../../resources/asr_resource/bds_easr_mfe_dnn.dat; asr_param_key_product_id.string=15361;
int: asr_param_key_chunk_enable.bool=1; asr_param_key_compression_type.int=1; asr_param_key_enable_long_speech.bool=1; common_param_key_debug_log_level.int=0;
float: asr_param_key_max_speech_pause.float=30;

ASR MULTIFILES BEGIN TO SLEEP
[2018-07-17 15:46:26.268][/tmp/xxj/filetmp/a.pcm] :识别结果：{"results_recognition":["小猪佩奇全集"],"origin_result":{"corpus_no":6579089251098034286,"err_no":0,"result":{"word":["小猪佩奇全集"]},"sn":"8059C319-7194-497C-B139-C5CB4CB29C15","voice_energy":24449.4394531250},"sn_start_time":"00:00.160","sn_end_time":"00:01.951"}
[2018-07-17 15:46:26.469][/tmp/xxj/filetmp/a.pcm] :语义理解结果：{"merged_res":{"semantic_form":{"appid":15361,"err_no":0,"parsed_text":"小猪佩奇全集 ","raw_text":"小猪佩奇全集","results":[]}}}

ASR MULTIFILES FINISHED
[root@iz2ze3skq324qf4hkeg1isz run]# pwd
/tmp/xxj/sample/asrDemo2/run
[root@iz2ze3skq324qf4hkeg1isz run]#

#50xuxianjin123回复于2018-07

我这个是将demo稍微修改成解析输入的语音文件。但是很奇怪的问题，麻烦帮忙看下。。。。

请问为啥？如果我直接程序调用给出的demo，要如何操作。

#49shendy_liu8回复于2018-06

请问基于Linux系统的语音SDK，可以支持语音互动及日常生活的一些互动播报吗？

#48happierb回复于2018-05

对#32 _TroyBarlow回复

支持流式：边说边传，返回临时结构和最终接口；这个是怎样实现？demo中只是一个录制好的文件，如果想实现流式应该怎样实现音频文件的实时上传

展开

不知道你有没有解决，可以参看我的帖子，我在下边给出了声卡实时语音流的解决方案：

http://ai.baidu.com/forum/topic/show/497639

#47happierb回复于2018-05

对#41 黯然销魂贴回复

问题解决了吗？，我感觉应该是获取linux实时语音流，而不是处理文件，但是如何获取实时语音流是我现在要解决的问题

展开

不知道你有没有解决，可以参看我的帖子，我在下边给出了方案：

http://ai.baidu.com/forum/topic/show/497639

#46szlqgsina回复于2018-05

运行经常崩，请问什么原因。

#45happierb回复于2018-05

linux-cpp-sdk.3.0.3.v3
在实际运行中，asr和asrDemo2，都只能打印出第一次语音活动的开始。无法打印出其后的语音活动结束、语音活动开始。
请问如何解决？

如果此问题无法解决，则：无法实现录音的分段与返回的翻译结果一一对应。
请技术部重视此BUG。
谢谢！

#44盛世傻子回复于2018-05

对#36 张飞项目回复

同问，是否有支持ARM平台的意愿？

同问，是否支持ARM等嵌入式平台的？？

#43baicaiLNG回复于2018-05

libBDSpeechSDK.a只有 pc版本有什么用，谁会那个PC跑智能语音产品. 不开放源码也不提供arm,mips版本没啥实用的价值...

#42djcardcn回复于2018-05

对#41 黯然销魂贴回复

问题解决了吗？，我感觉应该是获取linux实时语音流，而不是处理文件，但是如何获取实时语音流是我现在要解决的问题

展开

你好，我也在想要处理这个问题，请问你解决了么？

快速回复

小编推荐

百度大脑语音方向服务全面升级！

用户已被禁言 235.9K回复

语音识别「极速版」升级，支持小程序接入

用户已被禁言 1.6K回复

第三期【百度大脑新品体验】语音问答机器人小程序

wangwei8638 259.3K回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服