开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
通用参考

    常见问题

    为了帮助您加速解决问题,我们训练了百度大脑小助手,可以支持常见问题答疑。

    如果有些问题它还无法回答,也期待您进行补充和调教,我们将送出礼品卡、键鼠套装、小度音箱等以表谢意。

    账号登录

    Q:需要使用什么账号登录?
    A:您需要拥有一个百度账号,用来登录百度云,可以点击此处注册百度账户。如您以前拥有百度推广账户,同样可以登录百度云。

    Q:注册百度账户时收不到验证码怎么办?
    A:由于欠费停机、存储信息已满、信号网络延迟等原因没有及时收到验证码,这时请检查您的手机及话费余额,保证手机可正常接收短信后,请尝试重新获取验证码。

    Q:AI服务支持推广账号使用么?
    A:支持推广账户使用。

    接口调用

    Q:百度大脑目前开放了哪些能力?
    A:百度大脑是百度 AI 核心技术引擎,包括视觉、语音、自然语言处理、知识图谱、深度学习等AI核心技术和AI开放平台。百度大脑对内支持百度所有业务,对外全方位开放,助力合作伙伴和开发者,加速AI技术落地应用,赋能各行各业转型升级,并赋能行业客户。

    Q:每个服务的请求配额都是免费的么?
    A:目前我们为每个账户下的每项API服务,都设置了固定的免费请求配额,便于您体验服务及应用调试。在免费试用阶段,成功调用或失败调用都算做一次有效调用,会消耗免费配额。

    Q:每个服务的请求配额有限制么?
    A:目前在同一账号下,您可以在对应服务的控制台中查看。付费服务不限请求数量,即用即扣。

    Q:QPS超限怎么办?
    A:QPS超限可以根据您的需求,进行购买。百度AI技术服务的详细价目表: https://ai.baidu.com/ai-doc/REFERENCE/hk3dwjfzo
    价目表包含:免费额度、计费简介、计费价目表、费用列举等。

    Q:支持哪些语言的服务端SDK?
    A:目前支持各项服务的Java、PHP、Python、C#、Node.js版本服务端SDK,部分技术推出了C++、IOS、Android等版本服务端SDK,详情请参见各技术服务SDK文档。

    商用咨询

    Q:我有一些定制化需求,如何与你们取得联系?
    A:您可以通过以下两种方式与我们联系:

    1. 点击百度AI开放平台右侧的合作咨询,通过提交合作咨询表单,我们会在收到您的邮件后尽快与您取得联系。
    2. 也可以在百度云控制台中,提交工单,选择「人工智能」问题类型,提交您的需求。
    3. 访问百度AI社区的「经验交流」版块,发布信息,标题注明【官方合作咨询】即可,我们有专人与您联系。
    4. 加入我们的开发者QQ群:224994340。

    Q:如果我正在做一个比较大型的落地项目,需要更多配额如何接洽?
    A:目前百度AI开放平台大部分产品是免费的,如果您合理化接入应用,有一定的合理化应用场景,可以通过【工单】或者官网右侧【合作咨询】,说明您的使用场景和预期的配额量级,进行申请,我们评估后会尽快满足您的需求:给您免费提高配额,让您充分试用我们的产品;或是有专业负责人与您商务对接,为您的调用保驾护航。其他付费服务-如文字识别方向,已经可以自助付费使用,充值付费后,调用量不再受限。

    Q:目前除了免费部分,是否支持付费,计费价目表是怎样的?
    A:目前大部分开放服务是免费的,付费技术服务在技术介绍页最下方以及您的控制台中,都会有相应的免费配额、付费计价的介绍。

    Q:除了免费的百度AI技术服务,付费如何充值?
    A:我们将统一使用百度云的账户计费,您只需在百度云中充值即可,依据不同付费方案,将会从您的账户余额中扣费。

    更多问题,可以在这里交流:https://ai.baidu.com/forum

    技术问答

    人脸识别

    Q:识别的图片支持怎样输入?
    A:目前人脸识别接口支持base64编码和图片URL输入。

    Q:什么是base64编码,如何提供?
    A:图片的base64编码指将一副图片数据编码成一串字符串,使用该字符串代替图像地址。您可以首先得到图片的二进制,然后用Base64格式编码即可。注:图片的base64编码是不包含图片头的,(data:image/jpg;base64,)。

    Q:识别的图片格式有什么要求?
    A:支持PNG、JPG、JPEG、BMP等格式图片,暂不支持 GIF 类型的动图识别。

    Q:人脸服务的请求图片大小限制是?
    A:图片数据总数据大小需限制在10M内。

    Q:人脸识别、认证我应该取多少分算是同一人?
    A:推荐可判断为同一人的相似度分值为80,大概对应的误识率为万分之一,您也可以根据业务需求选择更合适的阈值。

    Q:人脸识别和人脸认证,有什么区别?
    A:人脸认证与人脸识别的差别在于:人脸识别需要指定一个待查找的人脸库中的组;而人脸认证需要指定具体的用户id即可,不需要指定具体的人脸库中的组;实际应用中,人脸认证需要用户或系统先输入id,这增加了验证安全度,但也增加了复杂度,具体使用哪个接口需要视您的业务场景判断。

    Q:人脸识别的人脸库、用户组、用户、用户下的人脸都是些什么?
    A:您可以参考如下层级关系:

    |- 人脸库
       |- 用户组一
          |- 用户01
             |- 人脸
          |- 用户02
             |- 人脸
             |- 人脸
             ....
           ....
       |- 用户组二
       |- 用户组三
       |- 用户组四
       ....

    Q:人脸库的设置限制?
    A:各项限制如下所示:

    • 每个appid对应一个人脸库,且不同appid之间,人脸库互不相通
    • 每个人脸库下,可以创建多个用户组,用户组(group)数量没有限制
    • 每个用户组(group)下,可添加无限个user_id,无限张人脸(注:为了保证查询速度,单个group中的人脸容量上限建议为80万)。;
    • 每个用户(uid)所能注册的最大人脸数量20个

    说明: 人脸注册完毕后,生效时间一般为5s以内,之后便可以进行识别或认证操作。

    说明: 为保证后续识别的效果较佳,建议注册的人脸,为用户正面人脸。

    更多问题,这里交流:https://ai.baidu.com/forum/topic/list/165

    文字识别

    Q: 文字识别的并发量上限是多少?
    A: 大部分文字识别接口在未开通付费时提供2QPS额度,开通付费后提升至10QPS,如果您有更高并发需求,可购买QPS叠加包进行扩充。对于已上线但没有价格的产品,暂属于测试状态,当测试额度不足时,您可以提交工单进行申请,您需要在工单提供您的appid、业务场景描述、需要的接口名称和申请的并发量。

    Q:如何购买/提升调用次数?
    A:已上线计费的接口,您可以直接在控制台购买次数包或开通按量后付费,计费价格参见产品价格;未上线计费的接口,您可以提交工单进行申请,您需要在工单提供您的appid、业务场景描述、需要的接口名称和申请的调用次数。

    Q:文字识别对上传的图片格式、图片大小有哪些要求?
    A:支持 JPG、JPEG、PNG、BMP、TIF、WebP 等格式图片,暂不支持 GIF 类型的动图识别。
    一般情况下,图像base64编码后大小必须小于4M,建议不要超过1M;最小边长不小于15,最大边长不超过4096,建议不要超过1024(编码后大于1M或最大边长超过1024的图像会被等比压缩,建议控制输入图像大小,有助于减少网络传输及接口处理耗时)。但是不同的功能接口,对于图片大小的要求可能不同,具体以相应的API文档中的 Image 和 url 参数说明为准。

    Q:什么是base64编码,如何提供?
    A:图片的base64编码指将一副图片数据编码成一串字符串,各种编程语言均包含Base64编码函数,可直接调用使用。

    注:图片base64编码后需去除图片头,如(data:image/jpg;base64,),并进行urlencode后方可上传。

    Q:怎么提高识别的准确率和识别速度?
    A:文字识别的准确率跟拍摄光照、背景、清晰度等因素有关。推荐上传JPG图片格式,图片大小建议1M以内。可在图片采集端尽量扩大要识别文字的区域,并保证图片内文字清晰人眼可辨认、倾斜度不得小于30%。同时,适当压缩图片大小,可大幅缩短图片识别时间。

    Q:文字识别支持的语言?
    A:不同的功能接口,所支持的语言都不同。常见多语言识别接口如下:

    通用文字识别(标准版)、通用文字识别(标准含位置版):支持中文简体、中文繁体、英文、日语、韩语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语。
    通用文字识别(高精度版)、通用文字识别(高精度含位置版):支持中文简体、中文繁体、英文、日语、韩语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、丹麦语、荷兰语、马来语、瑞典语、印尼语、波兰语、罗马尼亚语、土耳其语、希腊语、匈牙利语。
    其他接口(除国内专用卡证票据外)基本均可支持中、英文内容识别。详细参见API文档

    如果您对于产品支持识别的语言有特殊需求,您可以提交工单联系我们。

    Q:文字识别是否支持方向旋转/不同朝向的图片文字识别?
    A:文字识别大部分能力均已支持图像方向自动校正功能,可对旋转的图片进行正确的识别,也可通过控制参数『detect_direction』为true/false控制该功能是否开启。如果您在使用中存在部分旋转图片无法正确识别的问题,您可以提交工单告知我们进行优化。

    Q:文字识别有无区分卡证、票据原件和复印件的功能?
    A:身份证识别含风险检测功能,可区分身份证原件及复印件,详情参考API文档。如果您对其他文字识别服务有区分原件、复印件功能的需求,您可以提交工单联系我们。

    Q:文字识别有无区分卡证、票据真伪的功能?
    A:身份证识别具备翻拍、PS、复印件告警功能,您也可以使用人脸核身的公安验证接口,用于校验姓名和身份证号的真实性和一致性。如果您对其他文字识别服务有区分卡证、票据真伪功能的需求,您可以提交工单联系我们。

    Q:文字识别是否可以批量识别吗?
    A:暂不支持,单次调用仅可识别单张图片,但您可在QPS允许范围进行多线程调用。

    Q:识别结果可以转化为Word或者TXT吗?
    A:OCR提取之后返回的结果是JSON格式,需要您通过进行业务处理将结果保存为Word或者TXT格式。

    Q:可否在文字识别的应用界面添加扫描框?
    A:百度仅提供文字识别API接口,应用界面可根据您的需求进行自行开发。

    Q:是否支持识别验证码?
    A:对验证码进行识别涉及网络安全问题,百度不提供验证码识别专项服务。

    Q: 文字识别的响应速度是多少?
    A: 一般在1s内,识别时间会受图片大小、字数多少影响,但最长不超过7s,一旦超过将自动返回『超时』错误,相应调用不计费。

    注:但由于数据传输的网络情况不同,且为百度不可控范围,实际您感受到的响应时间为百度模型识别时间+数据来往传输时间,如出现大量耗时过长情况,请您排查服务器网络状况,适当扩充带宽或对图片进行压缩后上传,如有需要也可提交工单联系我们。

    Q:在国外,也可以在线调用文字识别的接口吗?
    A:可以的,但延时会大些。

    Q:为什么文字识别结果不准确?
    A:有以下几个原因:

    (1)图片尺寸过小,图片尺寸小于15px,无法进行识别。

    (2)图片画质太差,例如图片过暗,文字内容不可辨识。

    (3)文字内容存在水印、印章、褶皱等遮挡。

    (4)图片样式与接口支持类型不符。例如,身份证识别只支持识别二代居民身份证,不支持识别护照、银行卡等。

    (5)如果有返回错误码,请参考错误码排查问题。

    Q:调用文字识别API服务失败时,应该怎么处理?

    A:排查原因:

    (1)根据API调用返回结果或错误码查找原因。

    (2)检查API调用方法是否正确(您可以参考AI接入指南进行操作)。

    更多问题,这里交流:https://ai.baidu.com/forum/topic/list/164

    图像审核

    Q:图片格式和分辨率有限制吗?
    A:目前图片格式支持PNG、JPG、JPEG、BMP、GIF(仅对首帧进行审核)、Webp、TIFF;图像要求base64后大于等于5KB,小于等于4MB,最短边大于等于128像素,小于等于4096像素。

    Q:图片大小有限制吗?
    A:图像URL地址,以URL形式请求,图像Url需要做UrlEncode,图像要求base64后大于等于5kb, 小于等于4M,最短边大于等于128像素,小于等于4096像素。

    Q:识别的图片支持怎样输入?
    A:支持传输Base64编码后的图片或者图片的URL。

    Q:什么是base64编码,如何提供?
    A:图片的base64编码指将一副图片数据编码成一串字符串,使用该字符串代替图像地址。您可以首先得到图片的二进制,然后用Base64格式编码即可。注:图片的base64编码是不包含图片头的,如(data:image/jpg;base64,)。

    Q:是否支持通过URL方式传入图片?

    A:支持。您可以通过图像审核组合服务接口,使用该服务。

    Q:是否支持一次API调用,获取多个模型的返回结果?

    A:支持。您可以通过图像审核组合服务接口,灵活选定您需要的模型能力。

    Q:如何在线购买图像审核产品

    A:您可以通过在线充值付费方式,购买无限量的图像审核产品,具体流程请点击:https://ai.baidu.com/ai-doc/ANTIPORN/Fkp5jux3p

    更多问题,这里交流:https://ai.baidu.com/forum/topic/list/172

    图像识别

    Q:图像识别接口可以识别哪些图像?

    A:图像识别接口可支持通用物体和场景识别、品牌logo识别、动物识别、植物识别、菜品识别、地标识别、果蔬识别、红酒识别、货币识别、图像主体识别、翻拍识别、快消商品检测等。详情链接:https://ai.baidu.com/tech/imagerecognition

    Q:图像识别有离线的吗?

    A:图像识别目前不支持离线,不过可以推荐使用EasyDL图像来满足这个需求,EasyDL支持离线。

    Q:车辆图像能识别哪些?

    A:目前支持识别车辆类型、车辆检测、车流统计、车辆属性识别、车辆外观损伤识别、车辆分割。详情链接:https://ai.baidu.com/tech/vehicle

    Q:定制化图像识别的图片有哪些要求?

    A:为保证训练效果,请您尽可能提交实际业务中需要识别的图片作为训练集,同时尽可能覆盖不同光线、不同角度、不同背景的样本图片。需要工作人员协助采集样本,可在官网右下角浮窗“合作咨询”中进行申请。

    Q:定制化图像识别怎样组织样本?

    A:①梳理最细粒度识别目标list;
    ②采集或整理训练样本。需要工作人员协助采集样本,可在官网右下角浮窗“合作咨询”中进行申请。

    Q:定制化图像识别的图片训练样本怎样上传?有哪些上传要求?

    A: ①您可将原图上传至平台,使用平台内置的标注工具完成标注,也可直接上传图片与标注信息。支持的上传方式灵活多样,包括本地导入(图片导入、压缩包导入、API导入)、支持网络文件导入(包括百度云bos导入、共享文件链接导入)等。
    ② 上传数据需要以实际业务场景使用的相应分类结果来命名,至少需要上传2个分类投入训练(如果实际业务场景中需要识别出“其他”类结果,请以其他作为一个分类补充训练集上传)。
    ③目前支持图片类型为png、jpg、bmp、jpeg,图片大小限制在14M以内。图片长宽比在3:1以内,其中最长边小于4096px,最短边大于30px。
    ④ 训练图片和实际场景要识别的图片拍摄环境一致,举例:如果实际要识别的图片是摄像头俯拍的,训练图片就不能用网上下载的目标正面图片。每个标签的图片需要覆盖实际场景里面的可能性,如拍照角度、光线明暗的变化,训练集覆盖的场景越多,模型的泛化能力越强。

    Q:定制化图像识别显示模型训练失败是什么原因?

    A:可能有以下原因:
    ①提交训练文件有损坏
    ②提交训练集无文件夹(比如提交一批散乱的图片)
    ③提交压缩包无法解压(比如上传一半异常关闭浏览器导致压缩包不完整、压缩包格式有误)
    ④提交图片格式有误
    ⑤提交训练集只有1个分类文件夹
    ⑥其他异常可访问百度AI社区的「图像识别」版块提问交流:http://ai.baidu.com/forum/topic/list/171

    Q:定制化图像识别训练失败怎么办?

    A:训练失败通常是训练样本问题,建议参照训练失败原因检查上传压缩包中,是否有文件损坏、没有文件夹、图片格式错误等问题,然后重新新建一个模型再上传训练。

    Q:训练模型如何调优?

    A:①补充训练集图片
    ②优化图片质量
    ③优化训练集分类规则
    ④如有针对性调优或疑问可访问百度AI社区的「图像识别」版块提问交流:http://ai.baidu.com/forum/topic/list/171

    Q:定制化识别平面图形,基本不受角度、光线影响,也需要200+的图片吗?

    A:物体与物体之间差别较大的,几十张一组也是可以的。如果差距不明显,根据我们的经验,每组200+的照片,识别效果会好一些。

    更多问题,这里交流:https://ai.baidu.com/forum/topic/list/171

    图像搜索

    Q:图像搜索怎么收费?

    A:图像搜索服务有一定额度的免费调用量,免费资源用尽后进行收费,如需付费使用,可购买次数包或开通按调用量后付费。详细价格方案请参考产品价格文档:https://ai.baidu.com/ai-doc/IMAGESEARCH/Zk3bczq54

    Q:图像搜索中相似图像搜索都是根据什么信息判别是相似的?

    A:我们会分析检索图片和入库图片特征上的相似度。特征更多是这个图片通用的语义,比如照片的颜色、主体、构图等。

    Q:图像搜索中相似图像搜索目前在哪些场景的效果比较理想?

    A:各种实拍图、网络图片或者美术作品的场景都是识别比较好的,比如设计素材、UGC内容等。注意检索图和入库的原图要尽量保持场景一致性,比如入库的原图为标准的广告图(无背景干扰),则检索图要尽量避免背景、其他干扰特征,否则模型计算图片的相似度时会有噪声,造成检索结果不准确。

    Q:相似图像搜索可以在百度图片库里帮我找到我想要的图片吗?

    A:图像搜索范围是您在百度AI建立的图片库中查找目标图片,百度图片的检索结果只是网络的信息,不能作为检索图库。

    Q:图像搜索中自建库是存在哪里?

    A:数据库存储在百度服务器上,专有云服务,别人访问不到。

    Q:公司用了其他的云服务,调用百度的接口时,必须要在百度建库吗?可以直接调其他云服务器上的数据吗?

    A:必须在百度的服务器入库,目前不支持直接调取其他云服务上的数据。因为算法是搭在百度服务器上的,图像库入库时需要进行特征提取。

    Q:商品搜索是否支持局部和完整图像的搜索?

    A: 支持局部和完整图片之间的搜索。

    Q:如何自建库用于图像搜索

    A:您可以将现有图片归类整理,按照实际需求创建图库,建库流程请点击:http://ai.baidu.com/forum/topic/show/496543

    更多问题,这里交流:https://ai.baidu.com/forum/topic/list/170

    视频技术

    Q:如何接入视频内容审核、视频封面选图的服务?

    A:请您首先通过页面的“商务合作”提交您的业务需求,我们收到后会与您联系,并提供测试文档与接口。

    Q:如何使用视频对比检索的服务?

    A:请您首先通过页面的“合作咨询”提交您的业务需求,我们收到后会与您联系。

    更多问题,这里交流:https://ai.baidu.com/forum/topic/list/173

    语言处理基础技术

    Q:输入编码是什么?
    A:目前支持输入GBK编码和UTF-8编码。

    Q:词法分析结果中的词性标注都是什么含义?
    A:详见下表,具体请参考API文档

    词性 含义 词性 含义 词性 含义 词性 含义
    n 普通名词 f 方位名词 s 处所名词 t 时间名词
    nr 人名 ns 地名 nt 机构团体名 nw 作品名
    nz 其他专名 v 普通动词 vd 动副词 vn 名动词
    a 形容词 ad 副动词 an 名形词 d 副词
    m 数量词 q 量词 r 代词 p 介词
    c 连词 u 助词 xc 其他虚词 w 标点符号

    Q:词向量表示具备多少维度?

    A:我们提供1024维的词向量表示,后续版本会考虑提供降维版本以适用于不同场景。

    Q:中文DNN语言模型对文本个数有什么限制?输入编码是什么?

    A:最大长度10240字节,大约为5120个汉字,支持GBK编码输入,不需要切词。

    Q:中文DNN语言模型中英文混杂怎么办?

    A:模型词表中包含常用高频英文单词,也可以进行匹配。

    Q:为什么很多词的词义相似度都是1?

    A:尽管词向量的词表在百万量级,但仍有可能出现不在词表中的词,不在词表中的词统一映射到OOV(out-of-vocabulary)中,所以当词对中的两个词都是OOV的时候,相似度为1。

    Q:短文本相似度对文字字数有什么限制?

    A:最大长度512字节,大约为266个汉字,但字数过多或过少会对效果略有影响。

    Q:短文本相似度计算,中英文混杂怎么办?

    A:模型词表中包含常用高频英文单词,对中文语境中的“中英混排”文本可以很好的进行匹配。

    Q:为什么有时短文本相似度计算没有返回结果?

    A:有结果返回的前提条件是文本中的单词被词表收录,尽管模型词表很大(百万级),但仍然偶尔会出现不在词表的问题,当文本所有单词都不在词表中的时候,会得不到结果。

    Q:评论观点抽取对输入的评论长度有限制么?

    A:建议输入字符长度不超过150字,即保持在常用评论字符长度范围内。理论上评论长度不做限制,但是平台限制字符串长度为10240字符,超过即截断。

    Q:评论观点抽取可以标记挖掘出观点的文本位置吗?

    A:可以的,输出结果中包含观点标签在原始文本中的位置。例如可以标记出:这家旅店服务还是不错的。

    Q:评论观点抽取支持自定义词典上传吗?

    A:定制版可以上传13个行业垂类的自定义评论词表,有效提高评论抽取的精度和召回率,同时支持用户自定义评论的“归一化标签”。

    Q:评论观点抽取可以批量上传并总结好标签及个数吗?

    A:可以利用接口实现该功能。接口可以实现对每个评论的评论观点标签抽取和极性分析,多次调用即可实现多评论的标签挖掘和分析。

    Q:情感倾向分析可以分析哪些情感类型?

    A:目前分析的情感极性分为积极、消极、中性。

    Q:情感倾向分析与对话情绪识别有何差异?

    A:对话情绪识别是对用户对话场景下的语言是正向/中性/负向(如:你好厉害啊/烦死啦)的一种直观检测,而情感分析更倾向于分析对某个客体(如:电影、书籍)所表达出来的喜好/讨厌程度,两者在对应场景下的效果最优,否则将会一定程度影响识别准确率。

    更多问题,这里交流:https://ai.baidu.com/forum/topic/list/169

    语音识别与合成

    Q:语音识别、合成接口每天调用限额是多少,如何申请提高限额?
    A:语音识别、合成接口有一定测试额度,完成个人实名认证及企业认证可提高QPS限额,详细QPS限额可在控制台中查看。若需更大QPS可在控制台中开通付费接口,或进一步合作咨询

    Q:控制台--语音应用详情页高级设置,语音识别词库设置、语义解析设置有什么注意事项?
    A:离线命令词识别服务可以在断网环境下识别出预定义的固定短语(该功能只能在设备断网时使用)。离线命令词适用于断网时识别语音说出的通讯录好友、断网时识别特定的语音操作指令等场景。 本地语义解析可以对识别出的文本进行解析,并自动将识别后文本转为结构化数据,方便您获得该文本的意图(该功能与设备的网络状态无关)。本地语义解析适用于联系通讯录好友、语音打开手机应用等场景。

    Q:语音识别REST API支持的音频格式、采样率有哪些?
    A:原始 PCM 的音频格式必须符合16k、8k 采样率、16bit 位深、单声道。支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)、m4a(压缩格式,仅支持极速版模型)。

    Q:语音识别 REST API 最长支持多长的录音?
    A:最长支持60s的录音文件

    Q:语音识别REST API是什么?有什么注意事项?
    A:语音识别全平台REST API,采用http方式请求,可适用于任何平台任意可以发起http请求的编程语言。 使用REST API,录音、压缩及上传模块需要自行开发。且REST API语音识别暂时不支持语义解析。

    Q:语音服务是免费的?还是需要付费
    A: 语音识别、合成接口有一定测试额度,完成个人实名认证及企业认证可提高QPS限额,详细QPS限额可在控制台中查看。若需更大QPS可在控制台中开通付费接口。若需购买语音服务,具体报价请看文档:
    语音识别报价:https://ai.baidu.com/ai-doc/SPEECH/ck38lxnx8
    语音合成报价:https://ai.baidu.com/ai-doc/SPEECH/Nk38y8pjq

    Q:语音识别和合成支持什么语言?
    A: 语音识别支持:普通话、四川话、粤语、英语
    语音合成支持:支持中文、英文,其他语言暂不支持,后续请您持续关注官网。

    Q:SDK,代码出错,不能正常运行怎么办?
    A: 您好,请您先测试官方demo,测试通demo,再添加您自己的代码,基本都是可以使用的了。 如果还是有问题,可以在AI社区讨论或者发起工单,我们进一步查看原因。

    Q: 出现问题如何反馈?

    1. 先确认是不是代码问题,可以测试我们的demo。
    2. 您可以通过官网搜索,输入关键字进行文档和常见问题的搜索
    3. 如果依然没有您要的答案,您可以选择一个渠道反馈:

    Q:我想提高一些词的识别准确率,有什么办法?
    A: 您好,您可以通过EasyDL语音自训练平台训练专属语言模型持续提升识别准确率,详情可见https://ai.baidu.com/easydl/audio/同时,针对少量业务名词场景,也可通过自定义词库快速提升对应名词准确率。入口是:控制台--语音应用详情页高级设置,语音识别词库设置。

    Q:语音识别REST API和SDK的区别是什么?
    A: REST API:hhtp接口,开发者上传录音——百度语音进行识别——识别结果返回开发者;SDK:需要集成代码,百度语音提供从录音到识别结果返回的整体解决方案。

    Q:语音识别通过哪个接口获取音频信息?
    A: Android SDK:CALLBACK_EVENT_ASR_AUDIO回调或者OUT_FILE 参数,设置需要保存的路径。此外需要将 ACCEPT_AUDIO_DATA设置为true

    iOS SDK:MVoiceRecognitionClientDelegate的(void)VoiceRecognitionClientWorkStatus:(int) aStatus obj:(id)aObj;的aStatus是EVoiceRecognitionClientWorkStatusNewRecordData时,aObj为NSData音频数据。 数据格式均为pcm,采样率可通过VoiceRecognitionConfig.getSampleRate()/[[BDVoiceRecognitionClient sharedInstance] getCurrentSampleRate]获取,获取的音频格式是位深16bit,单声道。

    Q:如何才能提高语音识别的准确率?
    A:建议通过EasyDL语音自训练平台,上传业务文本训练语言模型提升语音识别准确率。具体请点击:https://ai.baidu.com/easydl/audio/ 您也可以进行自定义语音识别设置:打开百度开放云平台,在目前创建的应用下进行自定义语音识别设置。上传识别关键词文本,保存并生效。

    Q:百度语音SDK与其他百度SDK,或其他第三方SDK冲突时,如何解决?
    A: 与其他百度SDK冲突一般是由于使用了相同的基础库galaxy.jar,请检查是否重复导入了该jar包;与其他第三方SDK冲突一般是由于so库的架构不统一,请保证工程libs目录下armeabi/armeabi-v7a/x86/mips目录的so库均一致,如果不能保证一致,则一般只能所有SDK仅使用armeabi架构的so库。

    Q:首次开启语音识别功能的延迟时间较长,需要如何调控?
    A: 首次延迟时间较长一般是由于权限验证造成,可以通过预先调用接口: (int)verifyApiKey:(NSString )apiKey withSecretKey:(NSString )secretKey; 来进行验证。首次开启语音时就不需要再发送验证请求,从而降低语音识别启动的延迟。

    Q:需要降低ASR Android的安装包体积,应该怎么操作?
    A:如果为了节省安装包体积,可以只使用armeabi目录,性能损失微小。
    如果只需要在线识别功能,仅需要2个so文件。

    Q:语音合成如果想指定某个字的发音,怎么实现?
    A:语音合成接口,支持用户自主标音,通过在所需合成的文字后,增加音标的方式,比如,想把“重音”中的重字,指定合成"chong"的读音时,需将合成文字改为“重(chong2)音”,其中2表示2声,可以根据数字变化调节音调,1对应1声,2对应2声,3对应3声,4对应4声。

    Q:语音合成支持那些语言和音色的播报?
    A:语音合成目前支持中文普通话播报、英文播报,音色支持男声、女声、童声,有度丫丫、度逍遥、度博文、度米朵、 度小童、度小萌、度小娇等音库。

    Q:语音合成SDK正式授权如何实现
    A:您可以先测试demo。授权--请您先设置APPID,绑定包名,设置AK SK。第一次保证在线调用成功即可。具体步骤:

    1. 语音官网中应用请确定绑定包名,android sdk的demo的包名是com.baidu.tts.sample
    2. 启动后检查离线资源文件是否存在并且可读。然后联网调用成功,后续持续使用。

    Q:SDK在语音合成播放的时候,接听电话,会自动暂停播放吗?还是需要自行处理?
    A:android sdk不处理音频焦点。您需要使用pause和resume方法自行处理逻辑操作。

    Q:语音合成怎么保存识别的音频
    A:您好,如果想要保存合成的音频,以PythonSDK为例生成文件的路径是可以自定义的,只要您本地的路径正确即可,脚本运行完毕就自动生成的,不需要保存,如果重名,会做覆盖处理,需要您本地安装Python环境,然后按照文档进行调用:http://ai.baidu.com/docs#/TTS-Online-Python-SDK/top

    Q:提示“Unable to execute dex: Multiple dex files define Lcom/baidu/android/common/logging/Log”错误?
    A:您在应用同时集成了百度其它 SDK,造成公共库冲突,请删除语音SDK中的galaxy_lite.jar。

    Q:在小说阅读、新闻播报等需要连续合成大段文字的场景下,如何调用语音合成比较好?
    A:可以根据标点切分文字,按句调用,这样会有较快的合成速度. 同时,您可以在播放第一句合成的同时就开始缓存第二句的合成,第一句播放完成后,直接播放缓存的音频,这样可以有较强的连贯性。 百度语音合成SDK还提供了批量合成文本的方法,具体可以查看技术文档。

    Q:在网约车、快递、智能硬件等领域,如果网络信号的稳定性不能保证(频繁断网),应该如何调用?
    这种情况下建议使用百度语音提供的纯离线语音合成SDK。
    若您使用Android SDK,推荐使用TTSMODE_OFFLINE 模式。如果使用MIX_MODE_HIGH_SPEED_SYNTHESIZE模式(WIFI 4G 3G 2G下在线优先, 其它网络状况离线合成。如果在线连接百度服务器失败或者超时1.2s,那么切换成离线合成)。
    若您需要在移动网络下不想消耗流量,或是对响应速度有更强的需求,请自行根据业务需求选择其他模式。 若您使用iOS SDK,建议使用默认设置。如需要调节在线请求超时时间,可通过BDS_SYNTHESIZER_PARAM_ONLINE_REQUEST_TIMEOUT参数进行设置。 具体方法可以参考技术文档

    Q:百度 Android tts 合成SDK 与 地图导航SDK 有冲突,该如何解决
    A:对于 Android导航SDK 来说, 内置tts在导航SDK里是一个完整独立的aar文件,所有相关依赖jar全部在aar里,只要不把aar引入工程,就不会与外置的tts SDK发生任何冲突。具体可参见 http://lbsyun.baidu.com/index.php?title=android-navsdk/guide/projectConfiguration

    Q:语音合成过程中,有的文字朗读不正确该怎么办
    A:您可以通过多音字标注的方法来进行自主标音,在所需合成的文字后增加音标,比如,想把“重音”中的重字,指定合成”chong”的读音时,需将合成文字改为“重(chong2)音”,其中2表示2声,可以根据数字变化调节音调,1对应1声,2对应2声,3对应3声,4对应4声。
    同时,您可以将错误发音的case反馈到QQ群或工单中,反馈格式如下:
    【restapi】【发音人】【在线】【错误类型】
    错误类型分类:多音字、韵律、儿化音、TN(数字及特殊符号转换错误)、英文badcase、其他
    反馈示例:
    【restapi】【标准女声】【在线】【多音字“行”】
    文本:一行白鹭上青天
    描述:行念成(xing)
    期望:一行(hang)白鹭上青天

    更多问题,这里讨论:https://ai.baidu.com/forum/topic/list/166