语音识别LinuxSDK(C++)正式发布
卖萌吗sky 发布于2018-01 浏览:24530 回复:59
5
收藏
最后编辑于2023-10

尊敬的百度AI开放平台用户:

百度AI开放平台LinuxSDK(C++)正式发布啦!

百度AI开放平台LinuxSDK(C++)正式发布啦!

百度AI开放平台LinuxSDK(C++)正式发布啦!

为解决服务端调用实时语音识别和长语音识别能力,百度AI开放平台,开放了LinuxSDK(C++)。大家可以在服务端使用和安卓、iOSSDK一样的在线识别功能了。

【技术特色】

支持语言:中文、英文、粤语、四川话
支持实时长语音识别,识别时间不设上限
支持流式:边说边传,返回临时结构和最终接口
支持输出识别任务起始时间戳 ,可应用于视频转字幕功能
支持多实例,多任务无压力
基于DNN的高性能端点检测技术,节约带宽而且有更好的识别效果
支持64位linux系统
【如何使用】

文档地址:http://ai.baidu.com/docs#/ASR-Android-SDK/top

SDK下载地址:http://ai.baidu.com/sdk

本月内,还会有更多的语音技术升级,敬请持续关注!

语音识别产品详细介绍:http://ai.baidu.com/tech/speech

语音技术社区交流平台:http://ai.baidu.com/forum/topic/list/166

收藏
点赞
5
个赞
共59条回复 最后由192******42回复于2023-10
#83回复于2023-04

感谢评论区的大佬

0
#62189******80回复于2018-11
#41 黯然销魂贴回复
问题解决了吗?,我感觉应该是获取linux实时语音流,而不是处理文件,但是如何获取实时语音流是我现在要解决的问题
展开

是的

0
#61想123666回复于2018-11

四川话,是有成都的小伙伴不

0
#60蓝色的湖8889回复于2018-11
#59 儒雅的李建辉回复
多希望语音识别走进VR

技术特色竟有四川话

0
#59儒雅的李建辉回复于2018-11

多希望语音识别走进VR

0
#58133******90回复于2018-11

最近一直研究C++,打开了些思路

0
#57189******80回复于2018-11
#47 happierb回复
不知道你有没有解决,可以参看我的帖子,我在下边给出了方案: http://ai.baidu.com/forum/topic/show/497639
展开

哇哇,谢谢,我也是遇见同样的问题

0
#56189******80回复于2018-11
#37 踏岸寻柳回复
不错,支持一个

支持支持

0
#55189******80回复于2018-11
#54 liguanghui2588回复
C++这个SDK用起来非常顺手,主要是对这个语言熟练,经常用

是的是的

0
#54liguanghui2588回复于2018-10

C++这个SDK用起来非常顺手,主要是对这个语言熟练,经常用

0
#51xuxianjin123回复于2018-07
#50 xuxianjin123回复
[图片] 我这个是将demo稍微修改成解析输入的语音文件。但是很奇怪的问题,麻烦帮忙看下。。。。 请问为啥?如果我直接程序调用给出的demo,要如何操作。
展开

[root@iz2ze3skq324qf4hkeg1isz ~]# pwd
/root
[root@iz2ze3skq324qf4hkeg1isz ~]# /tmp/xxj/sample/asrDemo2/run/asrDemo /tmp/xxj/filetmp/a.pcm
-------------==========----------
BEGIN!
2
0x7ffe69142bf8
------------------------------
[GlobalThreadPool::GlobalThreadPool] alloc thread num:30
FOR Feedback : Config is filled :
name: asr.config
string: asr.param.secret_key.string=037dc446820ec143d1628c20146b9d34; asr_param_key_app_id=10455099; asr_param_key_chunk_key.string=rKCHBLmYiFPuCQTS0HttLbUD; asr_param_key_mfe_cmvn_dat_file.string=../../../resources/asr_resource/bds_easr_mfe_cmvn.dat; asr_param_key_mfe_dnn_dat_file.string=../../../resources/asr_resource/bds_easr_mfe_dnn.dat; asr_param_key_product_id.string=15361;
int: asr_param_key_chunk_enable.bool=1; asr_param_key_compression_type.int=1; asr_param_key_enable_long_speech.bool=1; common_param_key_debug_log_level.int=0;
float: asr_param_key_max_speech_pause.float=30;

ERROR:[/home/hanyong01/work/work/sdk_3_0/baidu/speech-arch/baidu-speech-sdk/core/VAD/MFE/dnn/vad_nn.cpp:30]failed to open dnn model file[../../../resources/asr_resource/bds_easr_mfe_dnn.dat]
ERROR:[/home/hanyong01/work/work/sdk_3_0/baidu/speech-arch/baidu-speech-sdk/core/VAD/MFE/dnn/dnn_vad.cpp:347]DNN Init Failed
[2018-07-17 15:45:59.519][/tmp/xxj/filetmp/a.pcm] :识别错误, err_domain=20 ;err_code=1 ;err_desc=VAD start: start error. ;sn= 6B31949E-5D5D-4D1D-AF21-EC3A6EF98AFD
stop audio data error: sdk is finished and released : 0
[root@iz2ze3skq324qf4hkeg1isz ~]#
[root@iz2ze3skq324qf4hkeg1isz ~]#
[root@iz2ze3skq324qf4hkeg1isz ~]#
[root@iz2ze3skq324qf4hkeg1isz ~]# cd /tmp/xxj/sample/asrDemo2/run/
[root@iz2ze3skq324qf4hkeg1isz run]# ./asrDemo /tmp/xxj/filetmp/a.pcm
-------------==========----------
BEGIN!
2
0x7ffd175c6398
------------------------------
[GlobalThreadPool::GlobalThreadPool] alloc thread num:30
FOR Feedback : Config is filled :
name: asr.config
string: asr.param.secret_key.string=037dc446820ec143d1628c20146b9d34; asr_param_key_app_id=10455099; asr_param_key_chunk_key.string=rKCHBLmYiFPuCQTS0HttLbUD; asr_param_key_mfe_cmvn_dat_file.string=../../../resources/asr_resource/bds_easr_mfe_cmvn.dat; asr_param_key_mfe_dnn_dat_file.string=../../../resources/asr_resource/bds_easr_mfe_dnn.dat; asr_param_key_product_id.string=15361;
int: asr_param_key_chunk_enable.bool=1; asr_param_key_compression_type.int=1; asr_param_key_enable_long_speech.bool=1; common_param_key_debug_log_level.int=0;
float: asr_param_key_max_speech_pause.float=30;

ASR MULTIFILES BEGIN TO SLEEP
[2018-07-17 15:46:26.268][/tmp/xxj/filetmp/a.pcm] :识别结果:{"results_recognition":["小猪佩奇全集"],"origin_result":{"corpus_no":6579089251098034286,"err_no":0,"result":{"word":["小猪佩奇全集"]},"sn":"8059C319-7194-497C-B139-C5CB4CB29C15","voice_energy":24449.4394531250},"sn_start_time":"00:00.160","sn_end_time":"00:01.951"}
[2018-07-17 15:46:26.469][/tmp/xxj/filetmp/a.pcm] :语义理解结果:{"merged_res":{"semantic_form":{"appid":15361,"err_no":0,"parsed_text":"小猪 佩奇 全集 ","raw_text":"小猪佩奇全集","results":[]}}}

ASR MULTIFILES FINISHED
[root@iz2ze3skq324qf4hkeg1isz run]# pwd
/tmp/xxj/sample/asrDemo2/run
[root@iz2ze3skq324qf4hkeg1isz run]#

1
#50xuxianjin123回复于2018-07

我这个是将demo稍微修改成解析输入的语音文件。但是很奇怪的问题,麻烦帮忙看下。。。。

请问为啥?如果我直接程序调用给出的demo,要如何操作。

0
#49shendy_liu8回复于2018-06

请问基于Linux系统的语音SDK,可以支持语音互动及日常生活的一些互动播报吗?

0
#48happierb回复于2018-05
#32 _TroyBarlow回复
支持流式:边说边传,返回临时结构和最终接口; 这个是怎样实现?demo中只是一个录制好的文件,如果想实现流式应该怎样实现音频文件的实时上传
展开

不知道你有没有解决,可以参看我的帖子,我在下边给出了声卡实时语音流的解决方案:

http://ai.baidu.com/forum/topic/show/497639

0
#47happierb回复于2018-05
#41 黯然销魂贴回复
问题解决了吗?,我感觉应该是获取linux实时语音流,而不是处理文件,但是如何获取实时语音流是我现在要解决的问题
展开

不知道你有没有解决,可以参看我的帖子,我在下边给出了方案:

http://ai.baidu.com/forum/topic/show/497639

0
#46szlqgsina回复于2018-05

运行经常崩,请问什么原因。

0
#45happierb回复于2018-05

linux-cpp-sdk.3.0.3.v3
在实际运行中,asr和asrDemo2,都只能打印出第一次语音活动的开始。无法打印出其后的语音活动结束、语音活动开始。
请问如何解决?

如果此问题无法解决,则:无法实现录音的分段与返回的翻译结果一一对应。
请技术部重视此BUG。
谢谢!

1
#44盛世傻子回复于2018-05
#36 张飞项目回复
同问,是否有支持ARM平台的意愿?

同问,是否支持ARM等嵌入式平台的??

0
#43baicaiLNG回复于2018-05

libBDSpeechSDK.a只有 pc版本有什么用,谁会那个PC跑智能语音产品. 不开放源码也不提供arm,mips版本没啥实用的价值...

0
D
#42djcardcn回复于2018-05
#41 黯然销魂贴回复
问题解决了吗?,我感觉应该是获取linux实时语音流,而不是处理文件,但是如何获取实时语音流是我现在要解决的问题
展开

你好,我也在想要处理这个问题,请问你解决了么?

0
TOP
切换版块