最后编辑于2023-10
尊敬的百度AI开放平台用户:
百度AI开放平台LinuxSDK(C++)正式发布啦!
百度AI开放平台LinuxSDK(C++)正式发布啦!
百度AI开放平台LinuxSDK(C++)正式发布啦!
为解决服务端调用实时语音识别和长语音识别能力,百度AI开放平台,开放了LinuxSDK(C++)。大家可以在服务端使用和安卓、iOSSDK一样的在线识别功能了。
【技术特色】
支持语言:中文、英文、粤语、四川话
支持实时长语音识别,识别时间不设上限
支持流式:边说边传,返回临时结构和最终接口
支持输出识别任务起始时间戳 ,可应用于视频转字幕功能
支持多实例,多任务无压力
基于DNN的高性能端点检测技术,节约带宽而且有更好的识别效果
支持64位linux系统
【如何使用】
文档地址:http://ai.baidu.com/docs#/ASR-Android-SDK/top
SDK下载地址:http://ai.baidu.com/sdk
本月内,还会有更多的语音技术升级,敬请持续关注!
语音识别产品详细介绍:http://ai.baidu.com/tech/speech
语音技术社区交流平台:http://ai.baidu.com/forum/topic/list/166
TOP
切换版块
感谢评论区的大佬
是的
四川话,是有成都的小伙伴不
技术特色竟有四川话
多希望语音识别走进VR
最近一直研究C++,打开了些思路
哇哇,谢谢,我也是遇见同样的问题
支持支持
是的是的
C++这个SDK用起来非常顺手,主要是对这个语言熟练,经常用
[root@iz2ze3skq324qf4hkeg1isz ~]# pwd
/root
[root@iz2ze3skq324qf4hkeg1isz ~]# /tmp/xxj/sample/asrDemo2/run/asrDemo /tmp/xxj/filetmp/a.pcm
-------------==========----------
BEGIN!
2
0x7ffe69142bf8
------------------------------
[GlobalThreadPool::GlobalThreadPool] alloc thread num:30
FOR Feedback : Config is filled :
name: asr.config
string: asr.param.secret_key.string=037dc446820ec143d1628c20146b9d34; asr_param_key_app_id=10455099; asr_param_key_chunk_key.string=rKCHBLmYiFPuCQTS0HttLbUD; asr_param_key_mfe_cmvn_dat_file.string=../../../resources/asr_resource/bds_easr_mfe_cmvn.dat; asr_param_key_mfe_dnn_dat_file.string=../../../resources/asr_resource/bds_easr_mfe_dnn.dat; asr_param_key_product_id.string=15361;
int: asr_param_key_chunk_enable.bool=1; asr_param_key_compression_type.int=1; asr_param_key_enable_long_speech.bool=1; common_param_key_debug_log_level.int=0;
float: asr_param_key_max_speech_pause.float=30;
ERROR:[/home/hanyong01/work/work/sdk_3_0/baidu/speech-arch/baidu-speech-sdk/core/VAD/MFE/dnn/vad_nn.cpp:30]failed to open dnn model file[../../../resources/asr_resource/bds_easr_mfe_dnn.dat]
ERROR:[/home/hanyong01/work/work/sdk_3_0/baidu/speech-arch/baidu-speech-sdk/core/VAD/MFE/dnn/dnn_vad.cpp:347]DNN Init Failed
[2018-07-17 15:45:59.519][/tmp/xxj/filetmp/a.pcm] :识别错误, err_domain=20 ;err_code=1 ;err_desc=VAD start: start error. ;sn= 6B31949E-5D5D-4D1D-AF21-EC3A6EF98AFD
stop audio data error: sdk is finished and released : 0
[root@iz2ze3skq324qf4hkeg1isz ~]#
[root@iz2ze3skq324qf4hkeg1isz ~]#
[root@iz2ze3skq324qf4hkeg1isz ~]#
[root@iz2ze3skq324qf4hkeg1isz ~]# cd /tmp/xxj/sample/asrDemo2/run/
[root@iz2ze3skq324qf4hkeg1isz run]# ./asrDemo /tmp/xxj/filetmp/a.pcm
-------------==========----------
BEGIN!
2
0x7ffd175c6398
------------------------------
[GlobalThreadPool::GlobalThreadPool] alloc thread num:30
FOR Feedback : Config is filled :
name: asr.config
string: asr.param.secret_key.string=037dc446820ec143d1628c20146b9d34; asr_param_key_app_id=10455099; asr_param_key_chunk_key.string=rKCHBLmYiFPuCQTS0HttLbUD; asr_param_key_mfe_cmvn_dat_file.string=../../../resources/asr_resource/bds_easr_mfe_cmvn.dat; asr_param_key_mfe_dnn_dat_file.string=../../../resources/asr_resource/bds_easr_mfe_dnn.dat; asr_param_key_product_id.string=15361;
int: asr_param_key_chunk_enable.bool=1; asr_param_key_compression_type.int=1; asr_param_key_enable_long_speech.bool=1; common_param_key_debug_log_level.int=0;
float: asr_param_key_max_speech_pause.float=30;
ASR MULTIFILES BEGIN TO SLEEP
[2018-07-17 15:46:26.268][/tmp/xxj/filetmp/a.pcm] :识别结果:{"results_recognition":["小猪佩奇全集"],"origin_result":{"corpus_no":6579089251098034286,"err_no":0,"result":{"word":["小猪佩奇全集"]},"sn":"8059C319-7194-497C-B139-C5CB4CB29C15","voice_energy":24449.4394531250},"sn_start_time":"00:00.160","sn_end_time":"00:01.951"}
[2018-07-17 15:46:26.469][/tmp/xxj/filetmp/a.pcm] :语义理解结果:{"merged_res":{"semantic_form":{"appid":15361,"err_no":0,"parsed_text":"小猪 佩奇 全集 ","raw_text":"小猪佩奇全集","results":[]}}}
ASR MULTIFILES FINISHED
[root@iz2ze3skq324qf4hkeg1isz run]# pwd
/tmp/xxj/sample/asrDemo2/run
[root@iz2ze3skq324qf4hkeg1isz run]#
我这个是将demo稍微修改成解析输入的语音文件。但是很奇怪的问题,麻烦帮忙看下。。。。
请问为啥?如果我直接程序调用给出的demo,要如何操作。
请问基于Linux系统的语音SDK,可以支持语音互动及日常生活的一些互动播报吗?
不知道你有没有解决,可以参看我的帖子,我在下边给出了声卡实时语音流的解决方案:
http://ai.baidu.com/forum/topic/show/497639
不知道你有没有解决,可以参看我的帖子,我在下边给出了方案:
http://ai.baidu.com/forum/topic/show/497639
运行经常崩,请问什么原因。
linux-cpp-sdk.3.0.3.v3
在实际运行中,asr和asrDemo2,都只能打印出第一次语音活动的开始。无法打印出其后的语音活动结束、语音活动开始。
请问如何解决?
如果此问题无法解决,则:无法实现录音的分段与返回的翻译结果一一对应。
请技术部重视此BUG。
谢谢!
同问,是否支持ARM等嵌入式平台的??
libBDSpeechSDK.a只有 pc版本有什么用,谁会那个PC跑智能语音产品. 不开放源码也不提供arm,mips版本没啥实用的价值...
你好,我也在想要处理这个问题,请问你解决了么?