资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

常见问题

为了帮助您加速解决问题,我们训练了百度大脑小助手,可以支持常见问题答疑。

如果有些问题它还无法回答,也期待您进行补充和调教,我们将送出礼品卡、键鼠套装、小度音箱等以表谢意。

账号登录

Q:需要使用什么账号登录?
A:您需要拥有一个百度账号,用来登录百度云,可以点击此处注册百度账户。如您以前拥有百度推广账户,同样可以登录百度云。

Q:注册百度账户时收不到验证码怎么办?
A:由于欠费停机、存储信息已满、信号网络延迟等原因没有及时收到验证码,这时请检查您的手机及话费余额,保证手机可正常接收短信后,请尝试重新获取验证码。

Q:AI服务支持推广账号使用么?
A:支持推广账户使用。

接口调用

Q:百度大脑目前开放了哪些能力?
A:百度大脑是百度 AI 核心技术引擎,包括视觉、语音、自然语言处理、知识图谱、深度学习等AI核心技术和AI开放平台。百度大脑对内支持百度所有业务,对外全方位开放,助力合作伙伴和开发者,加速AI技术落地应用,赋能各行各业转型升级,并赋能行业客户。

Q:每个服务的请求配额都是免费的么?
A:目前我们为每个账户下的每项API服务,都设置了固定的免费请求配额,便于您体验服务及应用调试。在免费试用阶段,成功调用或失败调用都算做一次有效调用,会消耗免费测试资源。

Q:每个服务的请求配额有限制么?
A:目前在同一账号下,您可以在对应服务的控制台中查看。付费服务不限请求数量,即用即扣。

Q:QPS超限怎么办?
A:QPS超限可以根据您的需求,进行购买。百度AI技术服务的详细价目表: https://ai.baidu.com/ai-doc/REFERENCE/hk3dwjfzo
价目表包含:免费测试资源、计费简介、计费价目表、费用列举等。

Q:支持哪些语言的服务端SDK?
A:目前支持各项服务的Java、PHP、Python、C#、Node.js版本服务端SDK,部分技术推出了C++、IOS、Android等版本服务端SDK,详情请参见各技术服务SDK文档。

Q:邀测、公测和商用接口有什么区别吗?

A:邀测的全称是邀请测试。AI能力引擎刚推出之际,邀请用户小范围测试。只有经过邀测后,才能进行公测,您需要提交工单申请或者直接通过产品页面进行商务咨询;公测的全称是公开测试。AI能力引擎向平台所有用户开放,提供一定的免费调用额度。同时,支持用户提交工单进行免费测试资源提额申请;商用是指AI能力引擎向平台所有用户开放,并收取一定费用。平台为用户提供一定的免费测试量。

技术问答

人脸识别

Q:识别的图片支持怎样输入?
A:目前人脸识别接口支持base64编码和图片URL输入。

Q:什么是base64编码,如何提供?
A:图片的base64编码指将一副图片数据编码成一串字符串,使用该字符串代替图像地址。您可以首先得到图片的二进制,然后用Base64格式编码即可。注:图片的base64编码是不包含图片头的,(data:image/jpg;base64,)。

Q:识别的图片格式有什么要求?
A:支持PNG、JPG、JPEG、BMP等格式图片,暂不支持 GIF 类型的动图识别。

Q:人脸服务的请求图片大小限制是?
A:图片数据总数据大小需限制在10M内。

Q:人脸识别、认证我应该取多少分算是同一人?
A:推荐可判断为同一人的相似度分值为80,大概对应的误识率为万分之一,您也可以根据业务需求选择更合适的阈值。

Q:人脸识别和人脸认证,有什么区别?
A:人脸认证与人脸识别的差别在于:人脸识别需要指定一个待查找的人脸库中的组;而人脸认证需要指定具体的用户id即可,不需要指定具体的人脸库中的组;实际应用中,人脸认证需要用户或系统先输入id,这增加了验证安全度,但也增加了复杂度,具体使用哪个接口需要视您的业务场景判断。

Q:人脸识别的人脸库、用户组、用户、用户下的人脸都是些什么?
A:您可以参考如下层级关系:

|- 人脸库
   |- 用户组一
      |- 用户01
         |- 人脸
      |- 用户02
         |- 人脸
         |- 人脸
         ....
       ....
   |- 用户组二
   |- 用户组三
   |- 用户组四
   ....

Q:人脸库的设置限制?
A:各项限制如下所示:

  • 每个appid对应一个人脸库,且不同appid之间,人脸库互不相通
  • 每个人脸库下,可以创建多个用户组,用户组(group)数量没有限制
  • 每个用户组(group)下,可添加无限个user_id,无限张人脸(注:为了保证查询速度,单个group中的人脸容量上限建议为80万)。;
  • 每个用户(uid)所能注册的最大人脸数量20个

说明: 人脸注册完毕后,生效时间一般为5s以内,之后便可以进行识别或认证操作。

说明: 为保证后续识别的效果较佳,建议注册的人脸,为用户正面人脸。

更多问题,这里交流:https://ai.baidu.com/forum/topic/list/165

文字识别

Q: 文字识别的并发量上限是多少?
A: 大部分文字识别接口在未开通付费时提供2QPS额度,开通付费后提升至10QPS,如果您有更高并发需求,可购买QPS叠加包进行扩充。对于已上线但没有价格的产品,暂属于测试状态,当测试额度不足时,您可以提交工单进行申请,您需要在工单提供您的appid、业务场景描述、需要的接口名称和申请的并发量。

Q:如何购买/提升调用次数?
A:已上线计费的接口,您可以直接在控制台购买次数包或开通按量后付费,计费价格参见产品价格;未上线计费的接口,您可以提交工单进行申请,您需要在工单提供您的appid、业务场景描述、需要的接口名称和申请的调用次数。

Q:文字识别对上传的图片格式、图片大小有哪些要求?
A:支持 JPG、JPEG、PNG、BMP、TIF、WebP 等格式图片,暂不支持 GIF 类型的动图识别。
一般情况下,图像base64编码后大小必须小于4M,建议不要超过1M;最小边长不小于15,最大边长不超过4096,建议不要超过1024(编码后大于1M或最大边长超过1024的图像会被等比压缩,建议控制输入图像大小,有助于减少网络传输及接口处理耗时)。但是不同的功能接口,对于图片大小的要求可能不同,具体以相应的API文档中的 Image 和 url 参数说明为准。

Q:什么是base64编码,如何提供?
A:图片的base64编码指将一副图片数据编码成一串字符串,各种编程语言均包含Base64编码函数,可直接调用使用。

注:图片base64编码后需去除图片头,如(data:image/jpg;base64,),并进行urlencode后方可上传。

Q:怎么提高识别的准确率和识别速度?
A:文字识别的准确率跟拍摄光照、背景、清晰度等因素有关。推荐上传JPG图片格式,图片大小建议1M以内。可在图片采集端尽量扩大要识别文字的区域,并保证图片内文字清晰人眼可辨认、倾斜度不得小于30%。同时,适当压缩图片大小,可大幅缩短图片识别时间。

Q:文字识别支持的语言?
A:不同的功能接口,所支持的语言都不同。常见多语言识别接口如下:

通用文字识别(标准版)、通用文字识别(标准含位置版):支持中文简体、中文繁体、英文、日语、韩语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语。
通用文字识别(高精度版)、通用文字识别(高精度含位置版):支持中文简体、中文繁体、英文、日语、韩语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、丹麦语、荷兰语、马来语、瑞典语、印尼语、波兰语、罗马尼亚语、土耳其语、希腊语、匈牙利语。
其他接口(除国内专用卡证票据外)基本均可支持中、英文内容识别。详细参见API文档

如果您对于产品支持识别的语言有特殊需求,您可以提交工单联系我们。

Q:文字识别是否支持方向旋转/不同朝向的图片文字识别?
A:文字识别大部分能力均已支持图像方向自动校正功能,可对旋转的图片进行正确的识别,也可通过控制参数『detect_direction』为true/false控制该功能是否开启。如果您在使用中存在部分旋转图片无法正确识别的问题,您可以提交工单告知我们进行优化。

Q:文字识别有无区分卡证、票据原件和复印件的功能?
A:身份证识别含风险检测功能,可区分身份证原件及复印件,详情参考API文档。如果您对其他文字识别服务有区分原件、复印件功能的需求,您可以提交工单联系我们。

Q:文字识别有无区分卡证、票据真伪的功能?
A:身份证识别具备翻拍、PS、复印件告警功能,您也可以使用人脸核身的公安验证接口,用于校验姓名和身份证号的真实性和一致性。如果您对其他文字识别服务有区分卡证、票据真伪功能的需求,您可以提交工单联系我们。

Q:文字识别是否可以批量识别吗?
A:暂不支持,单次调用仅可识别单张图片,但您可在QPS允许范围进行多线程调用。

Q:识别结果可以转化为Word或者TXT吗?
A:OCR提取之后返回的结果是JSON格式,需要您通过进行业务处理将结果保存为Word或者TXT格式。

Q:可否在文字识别的应用界面添加扫描框?
A:百度仅提供文字识别API接口,应用界面可根据您的需求进行自行开发。

Q:是否支持识别验证码?
A:对验证码进行识别涉及网络安全问题,百度不提供验证码识别专项服务。

Q: 文字识别的响应速度是多少?
A: 一般在1s内,识别时间会受图片大小、字数多少影响,但最长不超过7s,一旦超过将自动返回『超时』错误,相应调用不计费。

注:但由于数据传输的网络情况不同,且为百度不可控范围,实际您感受到的响应时间为百度模型识别时间+数据来往传输时间,如出现大量耗时过长情况,请您排查服务器网络状况,适当扩充带宽或对图片进行压缩后上传,如有需要也可提交工单联系我们。

Q:在国外,也可以在线调用文字识别的接口吗?
A:可以的,但延时会大些。

Q:为什么文字识别结果不准确?
A:有以下几个原因:

(1)图片尺寸过小,图片尺寸小于15px,无法进行识别。

(2)图片画质太差,例如图片过暗,文字内容不可辨识。

(3)文字内容存在水印、印章、褶皱等遮挡。

(4)图片样式与接口支持类型不符。例如,身份证识别只支持识别二代居民身份证,不支持识别护照、银行卡等。

(5)如果有返回错误码,请参考错误码排查问题。

Q:调用文字识别API服务失败时,应该怎么处理?

A:排查原因:

(1)根据API调用返回结果或错误码查找原因。

(2)检查API调用方法是否正确(您可以参考AI接入指南进行操作)。

更多问题,这里交流:https://ai.baidu.com/forum/topic/list/164

图像审核

Q:图片格式和分辨率有限制吗?
A:目前图片格式支持PNG、JPG、JPEG、BMP、GIF(仅对首帧进行审核)、Webp、TIFF;图像要求base64后大于等于5KB,小于等于4MB,最短边大于等于128像素,小于等于4096像素。

Q:图片大小有限制吗?
A:图像URL地址,以URL形式请求,图像Url需要做UrlEncode,图像要求base64后大于等于5kb, 小于等于4M,最短边大于等于128像素,小于等于4096像素。

Q:识别的图片支持怎样输入?
A:支持传输Base64编码后的图片或者图片的URL。

Q:什么是base64编码,如何提供?
A:图片的base64编码指将一副图片数据编码成一串字符串,使用该字符串代替图像地址。您可以首先得到图片的二进制,然后用Base64格式编码即可。注:图片的base64编码是不包含图片头的,如(data:image/jpg;base64,)。

Q:是否支持通过URL方式传入图片?

A:支持。您可以通过图像审核组合服务接口,使用该服务。

Q:是否支持一次API调用,获取多个模型的返回结果?

A:支持。您可以通过图像审核组合服务接口,灵活选定您需要的模型能力。

Q:如何在线购买图像审核产品

A:您可以通过在线充值付费方式,购买无限量的图像审核产品,具体流程请点击:https://ai.baidu.com/ai-doc/ANTIPORN/Fkp5jux3p

更多问题,这里交流:https://ai.baidu.com/forum/topic/list/172

图像识别

Q:图像识别接口可以识别哪些图像?

A:图像识别接口可支持通用物体和场景识别、品牌logo识别、动物识别、植物识别、菜品识别、地标识别、果蔬识别、红酒识别、货币识别、图像主体识别、翻拍识别、快消商品检测等。详情链接:https://ai.baidu.com/tech/imagerecognition

Q:图像识别有离线的吗?

A:图像识别目前不支持离线,不过可以推荐使用EasyDL图像来满足这个需求,EasyDL支持离线。

Q:车辆图像能识别哪些?

A:目前支持识别车辆类型、车辆检测、车流统计、车辆属性识别、车辆外观损伤识别、车辆分割。详情链接:https://ai.baidu.com/tech/vehicle

Q:定制化图像识别的图片有哪些要求?

A:为保证训练效果,请您尽可能提交实际业务中需要识别的图片作为训练集,同时尽可能覆盖不同光线、不同角度、不同背景的样本图片。需要工作人员协助采集样本,可在官网右下角浮窗“合作咨询”中进行申请。

Q:定制化图像识别怎样组织样本?

A:①梳理最细粒度识别目标list;
②采集或整理训练样本。需要工作人员协助采集样本,可在官网右下角浮窗“合作咨询”中进行申请。

Q:定制化图像识别的图片训练样本怎样上传?有哪些上传要求?

A: ①您可将原图上传至平台,使用平台内置的标注工具完成标注,也可直接上传图片与标注信息。支持的上传方式灵活多样,包括本地导入(图片导入、压缩包导入、API导入)、支持网络文件导入(包括百度云bos导入、共享文件链接导入)等。
② 上传数据需要以实际业务场景使用的相应分类结果来命名,至少需要上传2个分类投入训练(如果实际业务场景中需要识别出“其他”类结果,请以其他作为一个分类补充训练集上传)。
③目前支持图片类型为png、jpg、bmp、jpeg,图片大小限制在14M以内。图片长宽比在3:1以内,其中最长边小于4096px,最短边大于30px。
④ 训练图片和实际场景要识别的图片拍摄环境一致,举例:如果实际要识别的图片是摄像头俯拍的,训练图片就不能用网上下载的目标正面图片。每个标签的图片需要覆盖实际场景里面的可能性,如拍照角度、光线明暗的变化,训练集覆盖的场景越多,模型的泛化能力越强。

Q:定制化图像识别显示模型训练失败是什么原因?

A:可能有以下原因:
①提交训练文件有损坏
②提交训练集无文件夹(比如提交一批散乱的图片)
③提交压缩包无法解压(比如上传一半异常关闭浏览器导致压缩包不完整、压缩包格式有误)
④提交图片格式有误
⑤提交训练集只有1个分类文件夹
⑥其他异常可访问百度AI社区的「图像识别」版块提问交流:http://ai.baidu.com/forum/topic/list/171

Q:定制化图像识别训练失败怎么办?

A:训练失败通常是训练样本问题,建议参照训练失败原因检查上传压缩包中,是否有文件损坏、没有文件夹、图片格式错误等问题,然后重新新建一个模型再上传训练。

Q:训练模型如何调优?

A:①补充训练集图片
②优化图片质量
③优化训练集分类规则
④如有针对性调优或疑问可访问百度AI社区的「图像识别」版块提问交流:http://ai.baidu.com/forum/topic/list/171

Q:定制化识别平面图形,基本不受角度、光线影响,也需要200+的图片吗?

A:物体与物体之间差别较大的,几十张一组也是可以的。如果差距不明显,根据我们的经验,每组200+的照片,识别效果会好一些。

更多问题,这里交流:https://ai.baidu.com/forum/topic/list/171

图像搜索

Q:图像搜索怎么收费?

A:图像搜索服务有一定额度的免费调用量,免费资源用尽后进行收费,如需付费使用,可购买次数包或开通按调用量后付费。详细价格方案请参考产品价格文档:https://ai.baidu.com/ai-doc/IMAGESEARCH/Zk3bczq54

Q:图像搜索中相似图像搜索都是根据什么信息判别是相似的?

A:我们会分析检索图片和入库图片特征上的相似度。特征更多是这个图片通用的语义,比如照片的颜色、主体、构图等。

Q:图像搜索中相似图像搜索目前在哪些场景的效果比较理想?

A:各种实拍图、网络图片或者美术作品的场景都是识别比较好的,比如设计素材、UGC内容等。注意检索图和入库的原图要尽量保持场景一致性,比如入库的原图为标准的广告图(无背景干扰),则检索图要尽量避免背景、其他干扰特征,否则模型计算图片的相似度时会有噪声,造成检索结果不准确。

Q:相似图像搜索可以在百度图片库里帮我找到我想要的图片吗?

A:图像搜索范围是您在百度AI建立的图片库中查找目标图片,百度图片的检索结果只是网络的信息,不能作为检索图库。

Q:图像搜索中自建库是存在哪里?

A:数据库存储在百度服务器上,专有云服务,别人访问不到。

Q:公司用了其他的云服务,调用百度的接口时,必须要在百度建库吗?可以直接调其他云服务器上的数据吗?

A:必须在百度的服务器入库,目前不支持直接调取其他云服务上的数据。因为算法是搭在百度服务器上的,图像库入库时需要进行特征提取。

Q:商品搜索是否支持局部和完整图像的搜索?

A: 支持局部和完整图片之间的搜索。

Q:如何自建库用于图像搜索

A:您可以将现有图片归类整理,按照实际需求创建图库,建库流程请点击:http://ai.baidu.com/forum/topic/show/496543

更多问题,这里交流:https://ai.baidu.com/forum/topic/list/170

视频技术

Q:如何接入视频内容审核、视频封面选图的服务?

A:请您首先通过页面的“商务合作”提交您的业务需求,我们收到后会与您联系,并提供测试文档与接口。

Q:如何使用视频对比检索的服务?

A:请您首先通过页面的“合作咨询”提交您的业务需求,我们收到后会与您联系。

更多问题,这里交流:https://ai.baidu.com/forum/topic/list/173

语言处理基础技术

Q:输入编码是什么?
A:目前支持输入GBK编码和UTF-8编码。

Q:词法分析结果中的词性标注都是什么含义?
A:详见下表,具体请参考API文档

词性 含义 词性 含义 词性 含义 词性 含义
n 普通名词 f 方位名词 s 处所名词 t 时间名词
nr 人名 ns 地名 nt 机构团体名 nw 作品名
nz 其他专名 v 普通动词 vd 动副词 vn 名动词
a 形容词 ad 副动词 an 名形词 d 副词
m 数量词 q 量词 r 代词 p 介词
c 连词 u 助词 xc 其他虚词 w 标点符号

Q:词向量表示具备多少维度?

A:我们提供1024维的词向量表示,后续版本会考虑提供降维版本以适用于不同场景。

Q:中文DNN语言模型对文本个数有什么限制?输入编码是什么?

A:最大长度10240字节,大约为5120个汉字,支持GBK编码输入,不需要切词。

Q:中文DNN语言模型中英文混杂怎么办?

A:模型词表中包含常用高频英文单词,也可以进行匹配。

Q:为什么很多词的词义相似度都是1?

A:尽管词向量的词表在百万量级,但仍有可能出现不在词表中的词,不在词表中的词统一映射到OOV(out-of-vocabulary)中,所以当词对中的两个词都是OOV的时候,相似度为1。

Q:短文本相似度对文字字数有什么限制?

A:最大长度512字节,大约为266个汉字,但字数过多或过少会对效果略有影响。

Q:短文本相似度计算,中英文混杂怎么办?

A:模型词表中包含常用高频英文单词,对中文语境中的“中英混排”文本可以很好的进行匹配。

Q:为什么有时短文本相似度计算没有返回结果?

A:有结果返回的前提条件是文本中的单词被词表收录,尽管模型词表很大(百万级),但仍然偶尔会出现不在词表的问题,当文本所有单词都不在词表中的时候,会得不到结果。

Q:评论观点抽取对输入的评论长度有限制么?

A:建议输入字符长度不超过150字,即保持在常用评论字符长度范围内。理论上评论长度不做限制,但是平台限制字符串长度为10240字符,超过即截断。

Q:评论观点抽取可以标记挖掘出观点的文本位置吗?

A:可以的,输出结果中包含观点标签在原始文本中的位置。例如可以标记出:这家旅店服务还是不错的。

Q:评论观点抽取支持自定义词典上传吗?

A:定制版可以上传13个行业垂类的自定义评论词表,有效提高评论抽取的精度和召回率,同时支持用户自定义评论的“归一化标签”。

Q:评论观点抽取可以批量上传并总结好标签及个数吗?

A:可以利用接口实现该功能。接口可以实现对每个评论的评论观点标签抽取和极性分析,多次调用即可实现多评论的标签挖掘和分析。

Q:情感倾向分析可以分析哪些情感类型?

A:目前分析的情感极性分为积极、消极、中性。

Q:情感倾向分析与对话情绪识别有何差异?

A:对话情绪识别是对用户对话场景下的语言是正向/中性/负向(如:你好厉害啊/烦死啦)的一种直观检测,而情感分析更倾向于分析对某个客体(如:电影、书籍)所表达出来的喜好/讨厌程度,两者在对应场景下的效果最优,否则将会一定程度影响识别准确率。

更多问题,这里交流:https://ai.baidu.com/forum/topic/list/169

语音识别与合成

Q:语音识别、合成接口每天调用限额是多少,如何申请提高限额?
A:语音识别、合成接口有一定测试额度,完成个人实名认证及企业认证可提高QPS限额,详细QPS限额可在控制台中查看。若需更大QPS可在控制台中开通付费接口,或进一步合作咨询

Q:控制台--语音应用详情页高级设置,语音识别词库设置、语义解析设置有什么注意事项?
A:离线命令词识别服务可以在断网环境下识别出预定义的固定短语(该功能只能在设备断网时使用)。离线命令词适用于断网时识别语音说出的通讯录好友、断网时识别特定的语音操作指令等场景。 本地语义解析可以对识别出的文本进行解析,并自动将识别后文本转为结构化数据,方便您获得该文本的意图(该功能与设备的网络状态无关)。本地语义解析适用于联系通讯录好友、语音打开手机应用等场景。

Q:语音识别REST API支持的音频格式、采样率有哪些?
A:原始 PCM 的音频格式必须符合16k、8k 采样率、16bit 位深、单声道。支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)、m4a(压缩格式,仅支持极速版模型)。

Q:语音识别 REST API 最长支持多长的录音?
A:最长支持60s的录音文件

Q:语音识别REST API是什么?有什么注意事项?
A:语音识别全平台REST API,采用http方式请求,可适用于任何平台任意可以发起http请求的编程语言。 使用REST API,录音、压缩及上传模块需要自行开发。且REST API语音识别暂时不支持语义解析。

Q:语音服务是免费的?还是需要付费
A: 语音识别、合成接口有一定测试额度,完成个人实名认证及企业认证可提高QPS限额,详细QPS限额可在控制台中查看。若需更大QPS可在控制台中开通付费接口。若需购买语音服务,具体报价请看文档:
语音识别报价:https://ai.baidu.com/ai-doc/SPEECH/ck38lxnx8
语音合成报价:https://ai.baidu.com/ai-doc/SPEECH/Nk38y8pjq

Q:语音识别和合成支持什么语言?
A: 语音识别支持:普通话、四川话、粤语、英语
语音合成支持:支持中文、英文,其他语言暂不支持,后续请您持续关注官网。

Q:SDK,代码出错,不能正常运行怎么办?
A: 您好,请您先测试官方demo,测试通demo,再添加您自己的代码,基本都是可以使用的了。 如果还是有问题,可以在AI社区讨论或者发起工单,我们进一步查看原因。

Q: 出现问题如何反馈?

  1. 先确认是不是代码问题,可以测试我们的demo。
  2. 您可以通过官网搜索,输入关键字进行文档和常见问题的搜索
  3. 如果依然没有您要的答案,您可以选择一个渠道反馈:

Q:我想提高一些词的识别准确率,有什么办法?
A: 您好,您可以通过EasyDL语音自训练平台训练专属语言模型持续提升识别准确率,详情可见https://ai.baidu.com/easydl/audio/同时,针对少量业务名词场景,也可通过自定义词库快速提升对应名词准确率。入口是:控制台--语音应用详情页高级设置,语音识别词库设置。

Q:语音识别REST API和SDK的区别是什么?
A: REST API:hhtp接口,开发者上传录音——百度语音进行识别——识别结果返回开发者;SDK:需要集成代码,百度语音提供从录音到识别结果返回的整体解决方案。

Q:语音识别通过哪个接口获取音频信息?
A: Android SDK:CALLBACK_EVENT_ASR_AUDIO回调或者OUT_FILE 参数,设置需要保存的路径。此外需要将 ACCEPT_AUDIO_DATA设置为true

iOS SDK:MVoiceRecognitionClientDelegate的(void)VoiceRecognitionClientWorkStatus:(int) aStatus obj:(id)aObj;的aStatus是EVoiceRecognitionClientWorkStatusNewRecordData时,aObj为NSData音频数据。 数据格式均为pcm,采样率可通过VoiceRecognitionConfig.getSampleRate()/[[BDVoiceRecognitionClient sharedInstance] getCurrentSampleRate]获取,获取的音频格式是位深16bit,单声道。

Q:如何才能提高语音识别的准确率?
A:建议通过EasyDL语音自训练平台,上传业务文本训练语言模型提升语音识别准确率。具体请点击:https://ai.baidu.com/easydl/audio/ 您也可以进行自定义语音识别设置:打开百度开放云平台,在目前创建的应用下进行自定义语音识别设置。上传识别关键词文本,保存并生效。

Q:百度语音SDK与其他百度SDK,或其他第三方SDK冲突时,如何解决?
A: 与其他百度SDK冲突一般是由于使用了相同的基础库galaxy.jar,请检查是否重复导入了该jar包;与其他第三方SDK冲突一般是由于so库的架构不统一,请保证工程libs目录下armeabi/armeabi-v7a/x86/mips目录的so库均一致,如果不能保证一致,则一般只能所有SDK仅使用armeabi架构的so库。

Q:首次开启语音识别功能的延迟时间较长,需要如何调控?
A: 首次延迟时间较长一般是由于权限验证造成,可以通过预先调用接口: (int)verifyApiKey:(NSString )apiKey withSecretKey:(NSString )secretKey; 来进行验证。首次开启语音时就不需要再发送验证请求,从而降低语音识别启动的延迟。

Q:需要降低ASR Android的安装包体积,应该怎么操作?
A:如果为了节省安装包体积,可以只使用armeabi目录,性能损失微小。
如果只需要在线识别功能,仅需要2个so文件。

Q:语音合成如果想指定某个字的发音,怎么实现?
A:语音合成接口,支持用户自主标音,通过在所需合成的文字后,增加音标的方式,比如,想把“重音”中的重字,指定合成"chong"的读音时,需将合成文字改为“重(chong2)音”,其中2表示2声,可以根据数字变化调节音调,1对应1声,2对应2声,3对应3声,4对应4声。

Q:语音合成支持那些语言和音色的播报?
A:语音合成目前支持中文普通话播报、英文播报,音色支持男声、女声、童声,有度丫丫、度逍遥、度博文、度米朵、 度小童、度小萌、度小娇等音库。

Q:语音合成SDK正式授权如何实现
A:您可以先测试demo。授权--请您先设置APPID,绑定包名,设置AK SK。第一次保证在线调用成功即可。具体步骤:

  1. 语音官网中应用请确定绑定包名,android sdk的demo的包名是com.baidu.tts.sample
  2. 启动后检查离线资源文件是否存在并且可读。然后联网调用成功,后续持续使用。

Q:SDK在语音合成播放的时候,接听电话,会自动暂停播放吗?还是需要自行处理?
A:android sdk不处理音频焦点。您需要使用pause和resume方法自行处理逻辑操作。

Q:语音合成怎么保存识别的音频
A:您好,如果想要保存合成的音频,以PythonSDK为例生成文件的路径是可以自定义的,只要您本地的路径正确即可,脚本运行完毕就自动生成的,不需要保存,如果重名,会做覆盖处理,需要您本地安装Python环境,然后按照文档进行调用:http://ai.baidu.com/docs#/TTS-Online-Python-SDK/top

Q:提示“Unable to execute dex: Multiple dex files define Lcom/baidu/android/common/logging/Log”错误?
A:您在应用同时集成了百度其它 SDK,造成公共库冲突,请删除语音SDK中的galaxy_lite.jar。

Q:在小说阅读、新闻播报等需要连续合成大段文字的场景下,如何调用语音合成比较好?
A:可以根据标点切分文字,按句调用,这样会有较快的合成速度. 同时,您可以在播放第一句合成的同时就开始缓存第二句的合成,第一句播放完成后,直接播放缓存的音频,这样可以有较强的连贯性。 百度语音合成SDK还提供了批量合成文本的方法,具体可以查看技术文档。

Q:在网约车、快递、智能硬件等领域,如果网络信号的稳定性不能保证(频繁断网),应该如何调用?
这种情况下建议使用百度语音提供的纯离线语音合成SDK。
若您使用Android SDK,推荐使用TTSMODE_OFFLINE 模式。如果使用MIX_MODE_HIGH_SPEED_SYNTHESIZE模式(WIFI 4G 3G 2G下在线优先, 其它网络状况离线合成。如果在线连接百度服务器失败或者超时1.2s,那么切换成离线合成)。
若您需要在移动网络下不想消耗流量,或是对响应速度有更强的需求,请自行根据业务需求选择其他模式。 若您使用iOS SDK,建议使用默认设置。如需要调节在线请求超时时间,可通过BDS_SYNTHESIZER_PARAM_ONLINE_REQUEST_TIMEOUT参数进行设置。 具体方法可以参考技术文档

Q:百度 Android tts 合成SDK 与 地图导航SDK 有冲突,该如何解决
A:对于 Android导航SDK 来说, 内置tts在导航SDK里是一个完整独立的aar文件,所有相关依赖jar全部在aar里,只要不把aar引入工程,就不会与外置的tts SDK发生任何冲突。具体可参见 http://lbsyun.baidu.com/index.php?title=android-navsdk/guide/projectConfiguration

Q:语音合成过程中,有的文字朗读不正确该怎么办
A:您可以通过多音字标注的方法来进行自主标音,在所需合成的文字后增加音标,比如,想把“重音”中的重字,指定合成”chong”的读音时,需将合成文字改为“重(chong2)音”,其中2表示2声,可以根据数字变化调节音调,1对应1声,2对应2声,3对应3声,4对应4声。
同时,您可以将错误发音的case反馈到QQ群或工单中,反馈格式如下:
【restapi】【发音人】【在线】【错误类型】
错误类型分类:多音字、韵律、儿化音、TN(数字及特殊符号转换错误)、英文badcase、其他
反馈示例:
【restapi】【标准女声】【在线】【多音字“行”】
文本:一行白鹭上青天
描述:行念成(xing)
期望:一行(hang)白鹭上青天
更多问题,这里讨论:https://ai.baidu.com/forum/topic/list/166

上一篇
财务参考
下一篇
错误码