语音识别LinuxSDK(C++)正式发布
置顶
卖萌吗sky 发布于2018-01-12 18:06 浏览:5822 回复:52
4
收藏
最后编辑于2018-08-17

尊敬的百度AI开放平台用户:

百度AI开放平台LinuxSDK(C++)正式发布啦!

百度AI开放平台LinuxSDK(C++)正式发布啦!

百度AI开放平台LinuxSDK(C++)正式发布啦!

为解决服务端调用实时语音识别和长语音识别能力,百度AI开放平台,开放了LinuxSDK(C++)。大家可以在服务端使用和安卓、iOSSDK一样的在线识别功能了。

【技术特色】

支持语言:中文、英文、粤语、四川话
支持实时长语音识别,识别时间不设上限
支持流式:边说边传,返回临时结构和最终接口
支持输出识别任务起始时间戳 ,可应用于视频转字幕功能
支持多实例,多任务无压力
基于DNN的高性能端点检测技术,节约带宽而且有更好的识别效果
支持64位linux系统
【如何使用】

文档地址:http://ai.baidu.com/docs#/ASR-Android-SDK/top

SDK下载地址:http://ai.baidu.com/sdk

本月内,还会有更多的语音技术升级,敬请持续关注!

语音识别产品详细介绍:http://ai.baidu.com/tech/speech

语音技术社区交流平台:http://ai.baidu.com/forum/topic/list/166

收藏
点赞
4
个赞
共52条回复 最后由喀什假毕业证s回复于2018-08-17 00:37
#51xuxianjin123回复于2018-07-17
#50 xuxianjin123回复
[图片] 我这个是将demo稍微修改成解析输入的语音文件。但是很奇怪的问题,麻烦帮忙看下。。。。 请问为啥?如果我直接程序调用给出的demo,要如何操作。
展开

[root@iz2ze3skq324qf4hkeg1isz ~]# pwd
/root
[root@iz2ze3skq324qf4hkeg1isz ~]# /tmp/xxj/sample/asrDemo2/run/asrDemo /tmp/xxj/filetmp/a.pcm
-------------==========----------
BEGIN!
2
0x7ffe69142bf8
------------------------------
[GlobalThreadPool::GlobalThreadPool] alloc thread num:30
FOR Feedback : Config is filled :
name: asr.config
string: asr.param.secret_key.string=037dc446820ec143d1628c20146b9d34; asr_param_key_app_id=10455099; asr_param_key_chunk_key.string=rKCHBLmYiFPuCQTS0HttLbUD; asr_param_key_mfe_cmvn_dat_file.string=../../../resources/asr_resource/bds_easr_mfe_cmvn.dat; asr_param_key_mfe_dnn_dat_file.string=../../../resources/asr_resource/bds_easr_mfe_dnn.dat; asr_param_key_product_id.string=15361;
int: asr_param_key_chunk_enable.bool=1; asr_param_key_compression_type.int=1; asr_param_key_enable_long_speech.bool=1; common_param_key_debug_log_level.int=0;
float: asr_param_key_max_speech_pause.float=30;

ERROR:[/home/hanyong01/work/work/sdk_3_0/baidu/speech-arch/baidu-speech-sdk/core/VAD/MFE/dnn/vad_nn.cpp:30]failed to open dnn model file[../../../resources/asr_resource/bds_easr_mfe_dnn.dat]
ERROR:[/home/hanyong01/work/work/sdk_3_0/baidu/speech-arch/baidu-speech-sdk/core/VAD/MFE/dnn/dnn_vad.cpp:347]DNN Init Failed
[2018-07-17 15:45:59.519][/tmp/xxj/filetmp/a.pcm] :识别错误, err_domain=20 ;err_code=1 ;err_desc=VAD start: start error. ;sn= 6B31949E-5D5D-4D1D-AF21-EC3A6EF98AFD
stop audio data error: sdk is finished and released : 0
[root@iz2ze3skq324qf4hkeg1isz ~]#
[root@iz2ze3skq324qf4hkeg1isz ~]#
[root@iz2ze3skq324qf4hkeg1isz ~]#
[root@iz2ze3skq324qf4hkeg1isz ~]# cd /tmp/xxj/sample/asrDemo2/run/
[root@iz2ze3skq324qf4hkeg1isz run]# ./asrDemo /tmp/xxj/filetmp/a.pcm
-------------==========----------
BEGIN!
2
0x7ffd175c6398
------------------------------
[GlobalThreadPool::GlobalThreadPool] alloc thread num:30
FOR Feedback : Config is filled :
name: asr.config
string: asr.param.secret_key.string=037dc446820ec143d1628c20146b9d34; asr_param_key_app_id=10455099; asr_param_key_chunk_key.string=rKCHBLmYiFPuCQTS0HttLbUD; asr_param_key_mfe_cmvn_dat_file.string=../../../resources/asr_resource/bds_easr_mfe_cmvn.dat; asr_param_key_mfe_dnn_dat_file.string=../../../resources/asr_resource/bds_easr_mfe_dnn.dat; asr_param_key_product_id.string=15361;
int: asr_param_key_chunk_enable.bool=1; asr_param_key_compression_type.int=1; asr_param_key_enable_long_speech.bool=1; common_param_key_debug_log_level.int=0;
float: asr_param_key_max_speech_pause.float=30;

ASR MULTIFILES BEGIN TO SLEEP
[2018-07-17 15:46:26.268][/tmp/xxj/filetmp/a.pcm] :识别结果:{"results_recognition":["小猪佩奇全集"],"origin_result":{"corpus_no":6579089251098034286,"err_no":0,"result":{"word":["小猪佩奇全集"]},"sn":"8059C319-7194-497C-B139-C5CB4CB29C15","voice_energy":24449.4394531250},"sn_start_time":"00:00.160","sn_end_time":"00:01.951"}
[2018-07-17 15:46:26.469][/tmp/xxj/filetmp/a.pcm] :语义理解结果:{"merged_res":{"semantic_form":{"appid":15361,"err_no":0,"parsed_text":"小猪 佩奇 全集 ","raw_text":"小猪佩奇全集","results":[]}}}

ASR MULTIFILES FINISHED
[root@iz2ze3skq324qf4hkeg1isz run]# pwd
/tmp/xxj/sample/asrDemo2/run
[root@iz2ze3skq324qf4hkeg1isz run]#

0
#50xuxianjin123回复于2018-07-17

我这个是将demo稍微修改成解析输入的语音文件。但是很奇怪的问题,麻烦帮忙看下。。。。

请问为啥?如果我直接程序调用给出的demo,要如何操作。

0
#49shendy_liu8回复于2018-06-30

请问基于Linux系统的语音SDK,可以支持语音互动及日常生活的一些互动播报吗?

0
#48happierb回复于2018-05-16
#32 _TroyBarlow回复
支持流式:边说边传,返回临时结构和最终接口; 这个是怎样实现?demo中只是一个录制好的文件,如果想实现流式应该怎样实现音频文件的实时上传
展开

不知道你有没有解决,可以参看我的帖子,我在下边给出了声卡实时语音流的解决方案:

http://ai.baidu.com/forum/topic/show/497639

0
#47happierb回复于2018-05-16
#41 黯然销魂贴回复
问题解决了吗?,我感觉应该是获取linux实时语音流,而不是处理文件,但是如何获取实时语音流是我现在要解决的问题
展开

不知道你有没有解决,可以参看我的帖子,我在下边给出了方案:

http://ai.baidu.com/forum/topic/show/497639

0
#46szlqgsina回复于2018-05-16

运行经常崩,请问什么原因。

0
#45happierb回复于2018-05-14

linux-cpp-sdk.3.0.3.v3
在实际运行中,asr和asrDemo2,都只能打印出第一次语音活动的开始。无法打印出其后的语音活动结束、语音活动开始。
请问如何解决?

如果此问题无法解决,则:无法实现录音的分段与返回的翻译结果一一对应。
请技术部重视此BUG。
谢谢!

1
#44盛世傻子回复于2018-05-14
#36 张飞项目回复
同问,是否有支持ARM平台的意愿?

同问,是否支持ARM等嵌入式平台的??

0
#43baicaiLNG回复于2018-05-04

libBDSpeechSDK.a只有 pc版本有什么用,谁会那个PC跑智能语音产品. 不开放源码也不提供arm,mips版本没啥实用的价值...

0
D
#42djcardcn回复于2018-05-03
#41 黯然销魂贴回复
问题解决了吗?,我感觉应该是获取linux实时语音流,而不是处理文件,但是如何获取实时语音流是我现在要解决的问题
展开

你好,我也在想要处理这个问题,请问你解决了么?

0
#41黯然销魂贴回复于2018-04-12
#32 _TroyBarlow回复
支持流式:边说边传,返回临时结构和最终接口; 这个是怎样实现?demo中只是一个录制好的文件,如果想实现流式应该怎样实现音频文件的实时上传
展开

问题解决了吗?,我感觉应该是获取linux实时语音流,而不是处理文件,但是如何获取实时语音流是我现在要解决的问题

0
#40fujiayi1984回复于2018-04-08
#39 wxc200回复
居然还有一堆的编译问题, 百度的工程师不自己先搞一遍的吗?

肯定都先测试过再放出的,使用常见的linux x64测试下

0
#39wxc200回复于2018-04-02

居然还有一堆的编译问题, 百度的工程师不自己先搞一遍的吗?

0
#38goJhou回复于2018-03-31
#37 踏岸寻柳回复
不错,支持一个

请遵守社区规章制度,如果觉得帖子很赞,请点一下文章右上角或右下角的心形,无需回复

0
#37踏岸寻柳回复于2018-03-30

不错,支持一个

0
#36张飞项目回复于2018-03-30

同问,是否有支持ARM平台的意愿?

0
#35fujiayi1984回复于2018-03-28
#33 ypchenn327回复
按照文档说明,使用sample的demo,未改动任何代码。 ## 运行 sample目录下有两个实例工程 sample/asr 运行 sh build_and_run.sh build成功。运行出错 。。。 [2018-03-21 11:40:44.041]push_audio data, size 320 [2018-03-21 11:40:44.051]push_audio data, size 320 [2018-03-21 11:40:44.061]push_audio finish 其它状态16 [2018-03-21 11:40:44.062]检测到说话结束 [2018-03-21 11:40:49.939]识别出错, err_code: -3011, err_domain: 33,                 err_desc: Server unkown error., sn: 41FE2C27-D3EE-4BE8-98A9-1675E9275D62 [2018-03-21 11:40:49.946]thread[0] finish   环境在公司内服务器上,通过http代理可以访问外网,wget能成功。
展开

linux SDK没设置http代码的参数

0
#34风搅火回复于2018-03-27
#20 fujiayi1984回复
看下文档,x64的

可以下载使用这种语音识别吗

0
#33ypchenn327回复于2018-03-22

按照文档说明,使用sample的demo,未改动任何代码。


## 运行

sample目录下有两个实例工程

sample/asr 运行 sh build_and_run.sh

build成功。运行出错


。。。

[2018-03-21 11:40:44.041]push_audio data, size 320

[2018-03-21 11:40:44.051]push_audio data, size 320

[2018-03-21 11:40:44.061]push_audio finish

其它状态16

[2018-03-21 11:40:44.062]检测到说话结束

[2018-03-21 11:40:49.939]识别出错, err_code: -3011, err_domain: 33,                 err_desc: Server unkown error., sn: 41FE2C27-D3EE-4BE8-98A9-1675E9275D62

[2018-03-21 11:40:49.946]thread[0] finish

 


环境在公司内服务器上,通过http代理可以访问外网,wget能成功。

0
#32_TroyBarlow回复于2018-03-20

支持流式:边说边传,返回临时结构和最终接口;

这个是怎样实现?demo中只是一个录制好的文件,如果想实现流式应该怎样实现音频文件的实时上传

0
TOP
切换版块