开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
通用参考

    常见问题

    为了帮助您加速解决问题,我们训练了百度大脑小助手,可以支持常见问题答疑。

    如果有些问题它还无法回答,也期待您进行补充和调教,我们将送出礼品卡、键鼠套装、小度音箱等以表谢意。

    账号登录

    Q:需要使用什么账号登录?
    A:您需要拥有一个百度账号,用来登录百度云,可以点击此处注册百度账户。如您以前拥有百度推广账户,同样可以登录百度云。

    Q:注册百度账户时收不到验证码怎么办?
    A:由于欠费停机、存储信息已满、信号网络延迟等原因没有及时收到验证码,这时请检查您的手机及话费余额,保证手机可正常接收短信后,请尝试重新获取验证码。

    Q:AI服务支持推广账号使用么?
    A:支持推广账户使用。

    Q:为什么登录到百度云还要填写手机号、邮箱等信息?
    A:如果您是初次使用百度云,我们需要收集一些您的几个核心信息,用于做开发者认证,这些信息也会作为您使用产品过程中,我们与您取得联系的重要联系方式。如您之前已经是百度云用户、百度开发者中心用户,此步骤将会自动省略。

    Q:我以前是百度开发者中心用户,还需要进行开发者认证么?
    A:不需要。我们会自动同步您的开发者信息,但是为保证后续使用中可以及时联系到您,可能会提示您重新补充最新的开发者信息(手机号等)。

    接口调用

    Q:目前都开放了哪些服务?
    A:目前百度语音、文字识别、人脸识别、人体分析、图像识别、图像搜索、图像增强与特效、自然语言处理、内容审核、知识图谱、EasyDL等技术您可以直接在控制台中使用,也可以通过在百度AI开放平台官网,提交商务合作需求。
    数据智能、机器翻译、unit等服务,您可以通过点击导航上的链接,到其官方平台进行使用,也可以统一在百度AI开放平台提交商务合作需求。

    Q:每个服务的请求配额都是免费的么?
    A:目前我们为每个账户下的每项API服务,都设置了固定的免费请求配额,便于您体验服务及应用调试。在免费试用阶段,成功调用或失败调用都算做一次有效调用,会消耗免费配额。

    Q:每个服务的请求配额有限制么?
    A:目前在同一账号下,每个API服务都有免费的请求配额,您可以在对应服务的控制台中查看。付费服务不限请求数量,即用即扣。

    Q:目前这些服务免费吗?能够保证QPS吗?
    A:目前百度AI开放平台的绝大多数的基础技术能力都有免费调用量,每天都有既定的配额,如果不够可以填写申请或进行商务合作沟通。申请方式:通过工单申请配额和QPS,官方根据您的应用场景和需求审核后评估调整配额的额度。还有一些技术服务已经陆续推出付费商用方案(比如文字识别方向等),为您提供更多维度的支持,您可根据自己的需求定制化自由调用,全方位保障您的产品需求。

    Q:我是百度云的老用户,可以使用百度云的AK/SK么?
    A:目前文字识别、人脸识别、自然语言处理、图像审核、知识图谱在后台都可以使用百度云AK/SK调用,请求限额相同。非常抱歉的是语音服务暂不支持百度云AK/SK调用,我们会尽快完善,给您带来的不便深感抱歉。

    Q:支持哪些语言的服务端SDK?
    A:目前支持各项服务的Java、PHP、Python、C#、Node.js版本服务端SDK,我们会尽快陆续推出更多语言支持,请您持续关注。

    商用咨询

    Q:我有一些定制化需求,如何与你们取得联系?
    A:您可以通过以下两种方式与我们联系:

    1. 点击百度AI开放平台右侧的合作咨询,通过提交合作咨询表单,我们会在收到您的邮件后尽快与您取得联系
    2. 也可以在百度云控制台中,提交工单,选择「人工智能」问题类型,提交您的需求 3.访问百度AI社区的「经验交流」版块,发布信息,标题注明【官方合作咨询】即可,我们有专人与您联系https://ai.baidu.com/forum/topic/list/178 4.加入我们的开发者QQ群:224994340。

    Q:如果我正在做一个比较大型的落地项目,需要更多配额如何接洽?
    A:目前百度AI开放平台大部分产品是免费的,如果您合理化接入应用,有一定的合理化应用场景,可以通过【工单】或者官方右侧【合作咨询】,说明您的使用场景和预期的配额量级,进行申请,我们评估后会尽快满足您的需求:给您免费提高配额,让您充分试用我们的产品;或是有专业负责人与您商务对接,为您的调用保驾护航。其他付费服务-如文字识别方向,已经可以自助付费使用,充值付费后,调用量不再受限。

    Q:目前除了免费部分,是否支持付费,计费价目表是怎样的?
    A:目前大部分开放服务是免费的,付费技术服务在技术介绍页最下方以及您的控制台中,都会有相应的免费配额、付费计价的介绍。

    Q:除了免费的百度AI技术服务,付费如何充值?
    A:我们将统一使用百度云的账户计费,您只需在百度云中充值即可,依据不同付费方案,将会从您的账户余额中扣费。

    更多问题,可以在这里交流:https://ai.baidu.com/forum

    技术问答

    人脸识别

    Q:识别的图片支持怎样输入?
    A:目前文字识别接口仅支持base64编码输入。

    Q:什么是base64编码,如何提供?
    A:图片的base64编码指将一副图片数据编码成一串字符串,使用该字符串代替图像地址。您可以首先得到图片的二进制,然后用Base64格式编码即可。注:图片的base64编码是不包含图片头的,(data:image/jpg;base64,)

    Q:识别的图片格式有什么要求?
    A:支持PNG、JPG、JPEG、BMP,不支持GIF图片。

    Q:人脸服务的请求图片大小限制是?
    A:Base64编码后大小限制,参考如下表格:

    接口名称 图片编码后大小限额
    人脸检测 小于2M
    人脸比对 小于10M
    人脸识别 小于10M
    人脸认证 小于10M
    人脸库设置 小于10M

    Q:人脸识别、认证我应该取多少分算是同一人?
    A:推荐可判断为同一人的相似度分值为80,大概对应的误识率为万分之一,您也可以根据业务需求选择更合适的阈值。

    Q:人脸识别和人脸认证,有什么区别?
    A:人脸认证与人脸识别的差别在于:人脸识别需要指定一个待查找的人脸库中的组;而人脸认证需要指定具体的用户id即可,不需要指定具体的人脸库中的组;实际应用中,人脸认证需要用户或系统先输入id,这增加了验证安全度,但也增加了复杂度,具体使用哪个接口需要视您的业务场景判断。

    Q:人脸识别的人脸库、用户组、用户、用户下的人脸都是些什么?
    A:您可以参考如下层级关系:

    |- 人脸库
       |- 用户组一
          |- 用户01
             |- 人脸
          |- 用户02
             |- 人脸
             |- 人脸
             ....
           ....
       |- 用户组二
       |- 用户组三
       |- 用户组四
       ....

    Q:人脸库的设置限制?
    A:各项限制如下所示:

    • 每个appid对应一个人脸库,且不同appid之间,人脸库互不相通
    • 每个人脸库下,可以创建多个用户组,用户组(group)数量没有限制
    • 每个用户组(group)下,可添加最多无限张人脸,无限个uid;
    • 每个用户(uid)所能注册的最大人脸数量20个

    说明: 人脸注册完毕后,生效时间一般为5s以内,之后便可以进行识别或认证操作。

    说明: 为保证后续识别的效果较佳,建议注册的人脸,为用户正面人脸。

    更多问题,这里交流:https://ai.baidu.com/forum/topic/list/165

    文字识别

    Q:图片大小、分辨率、格式有限制吗?
    A:图片大小:编码后不能超过4M,分辨率4096*4096,建议文件大小在1M以内,分辨率1024*1024,最小边长不小于15px。图片格式:支持jpg、png、bmp。

    Q:识别的图片支持怎样输入?
    A:目前文字识别接口仅支持base64编码输入。

    Q:什么是base64编码,如何提供?
    A:图片的base64编码指将一副图片数据编码成一串字符串,使用该字符串代替图像地址。您可以首先得到图片的二进制,然后用Base64格式编码即可。注:图片的base64编码是不包含图片头的,如(data:image/jpg;base64,)

    Q:如何在线购买文字识别产品
    A:您可以通过在线充值付费方式,购买无限量的文字识别产品,具体流程请点击:http://ai.baidu.com/forum/topic/show/496541

    Q:哪些因素影响识别效果?有没有提升识别效果的方法?
    A:您好,使用jpg格式的图片,效果相对更好。

    Q:身份证识别支持图片的竖拍吗?
    A:横拍竖拍都支持。

    Q:银行卡识别支持翻转识别吗?
    A:目前翻转不支持。

    Q:怎么提高识别的准确率和识别速度?
    A:文字识别的准确率跟拍摄光照、背景、清晰度等因素有关,可在图片采集端尽量缩小要识别文字区域,尽量保证图片清晰度人眼可以辨认;
    「身份证识别」:在保证文字清晰度的前提下,降低图片大小可以提高识别速度。请尽量将图片高和宽都控制在1000 px以下,图片尽量没有反光、倾斜小于10度。
    「银行卡识别」:在保证文字清晰度的前提下,降低图片大小可以提高识别速度。请尽量保证银行卡号清晰、倾斜角度不超过30度,银行卡尽量占满图片的大部分。
    「通用文字识别」:在保证文字清晰度的前提下,降低图片大小、减少文字个数都可以提高识别速度,请尽量将图片高和宽都控制在1000 px以下,单图字数控制在70字以内。

    Q:通用文字识别对字体有要求吗?
    A:字体没要求,但很特殊字体可能支持不好。

    Q:通用文字识别支持哪些语言识别?
    A:支持十国语言(中/英/日/韩/西班牙/法/德/俄/葡萄牙/意大利,语言类型有参数设置)。

    Q:支持文档扫描图片的文字识别吗?
    A:目前开放的自然场景下,通用文字识别接口也同样支持文档扫描图片。

    Q:文字识别能不能返回单个字的位置信息?
    A:可以返回,使用通用文字识别(含位置高精度版),可在++char参数中返回单字位置结果。技术文档http://ai.baidu.com/docs#/OCR-API/top

    Q: 为何两次账单中的调用次数基本相同,费用却差距很大?
    A: 产品采用分段式阶梯计价,因月度调用累积量不同而单价不同。两次小时级账单虽然显示调用次数基本相似,但是月度调用累积量可能已经落入不同的阶梯区间,这样导致调用次数的单价不同,因此费用差距比较大。这种差异多发生在月末与月初账单对比,或是跨价格阶梯的账单对比中。

    Q: 文字识别、图像审核怎么开发票?
    A: 开通付费后,开通付费具体流程:http://ai.baidu.com/forum/topic/show/496542 ,可进入‘控制台’-‘财务中心’-‘发票管理’中进行发票申请、发票信息管理等。更多发票相关问题可点击查看详情

    Q:多个应用均调用银行卡识别,可以部分应用作为测试只使用免费配额,另一部分应用开通付费吗?
    A: 非常抱歉,产品计费是按照总调用量进行计算,暂时无法实现只有部分应用开通付费。倘若您开通了银行卡识别的付费,那么当相关应用调用银行卡识别的日调用量总计超过了500次,则开始计费,不区分应用。

    Q:表格文字识别,对表格的行列数有限制吗?

    A:没有限制,但需要图片在不超过大小限制的基础上,保证单元格清晰。

    Q:表格文字识别,对表格的样式有什么特殊要求吗?

    A:表格线清晰,无合并单元格的情况下,识别效果较好。如果您有特殊要求,可以通过工单、官网咨询、AI社区或QQ群联系我们。

    更多问题,这里交流:https://ai.baidu.com/forum/topic/list/164

    图像审核

    Q:图片格式和分辨率有限制吗?
    A:目前图片格式支持jpg、png、bmp,图片的长和宽要求最短边大于10px,最长边小于2048px。

    Q:图片大小有限制吗?
    A:色情识别图像编码后大小必须小于4M,分辨率小于4096*4096,GIF色情识别要求如下:

    GIF色情识别的请求限制

    检查项 限制条件
    图片格式 gif
    每帧编码后大小 < 4M
    帧数 不超过50
    GIF图片整体大小 base64编码后不超过20M

    Q:识别的图片支持怎样输入?
    A:图像审核的组合服务接口支持base64编码、图片URL两种方式输入。色情识别、暴恐识别单独的接口仅支持base64编码输入。

    Q:什么是base64编码,如何提供?
    A:图片的base64编码指将一副图片数据编码成一串字符串,使用该字符串代替图像地址。您可以首先得到图片的二进制,然后用Base64格式编码即可。注:图片的base64编码是不包含图片头的,如(data:image/jpg;base64,)

    Q:是否支持通过URL方式传入图片?

    A:支持。您可以通过图像审核组合服务接口,使用该服务。

    Q:是否支持一次API调用,获取多个模型的返回结果?

    A:支持。您可以通过图像审核组合服务接口,灵活选定您需要的模型能力。

    Q:使用色情识别服务,如何确定一张图片是否需要二次审核?

    A:我们的服务接口中会直接返回“是否确定”,同时接口也会返回每个标签的置信度分值,您可以结合自己的业务特点,根据需要制定需要二次审核的阈值规则

    Q:如何确定一张图片是否是暴恐图片?

    A:我们的暴恐识别服务接口中会返回置信度分值,推荐0.5以上的作为暴恐图片处理,您也可以结合自己的业务特点,根据需要制定阈值规则

    Q:如何在线购买图像审核产品

    A:您可以通过在线充值付费方式,购买无限量的图像审核产品,具体流程请点击:http://ai.baidu.com/forum/topic/show/496542

    Q:如何反馈badcase?

    A:平台开放了专门的数据反馈API,您可以通过接口调用的方式,反馈评测结果和badcase,接口使用说明参考“图像审核数据反馈接口使用说明”。我们会根据您的反馈优化模型,使模型在您的业务场景中获得更优的使用效果。

    更多问题,这里交流:http://ai.baidu.com/forum/topic/show/496542

    图像识别

    【费用常见QA】

    Q:图像识别怎么收费?

    A:目前属于免费公测阶段,预计1月上线在线付费,在此之前每个账号可每天免费调用500次 。建议先测试,后期在线付费上线后,可直接在线付费。

    Q:图像识别免费调用次数不够,怎样开通付费部分?

    A:免费公测期间,可在官网右下角浮窗“合作咨询”提交工单,进行申请。

    Q:阶梯收费是什么意思?

    A:按照调用次数,进行阶梯收费,即把调用量设置为若干个阶梯分段定价计算费用,调用次数越高的区间,价格越低。例如,调用量为100000次,前500次免费,第501-50000次按照0.0007元/次收费,50001-100000次按照0.0006元/次收费。

    【产品常见QA】

    Q:通用图像分析适合什么场景?目前能够识别出多少类别的物体及场景?

    A:支持识别图片中的场景及物体标签,目前支持数万种标签类型。

    Q:如何接入通用物体识别、图像主体位置检测、花卉、logo识别、动植物等图像识别服务?

    A:请您首先通过页面的“合作咨询”提交您的业务需求,我们收到后会与您联系,并提供测试文档与接口。

    Q:通用图像分析可以返回一张图片中的多个物体标签吗?

    A:可以,支持识别图片中多个物体及场景标签,返回结果数组。

    Q:细粒度图像识别目前支持哪些细粒度图像的识别?

    A:目前支持菜品识别、车型识别、logo识别、动物识别、植物识别。除此之外多个细粒度识别场景正在开发,若有其他需求,如果蔬识别、公众人物识别需求可在官网右下角浮窗“合作咨询”中进行申请。

    Q:细粒度图像识别目前哪些支持自建库?

    A:目前仅logo识别支持自建库,有其他需求可在官网右下角浮窗“合作咨询”中进行申请。

    Q:除图像识别介绍页面展示的能力外能否提供定制化的图像识别服务?

    A:定制化图像开放平台已上线,欢迎使用http://ai.baidu.com/customize/

    Q:定制化图像开放平台怎么使用?

    A:使用流程,参考这里:http://ai.baidu.com/forum/topic/show/496746

    Q:定制化图像识别的图片有哪些要求?

    A:【训练样本要求】:支持训练图片格式:jpg、png、bmp、jepg,大小限【1】M以内 ;建议最长边不超过【5000】px,最小边不低于【20】px,长宽比3:1以内。

    Q:定制化图像识别对样本有哪些要求?

    A:为保证训练效果,尽可能提交实际业务中需要识别的图片作为训练集,同时尽可能覆盖不同光线、不同角度、不同背景的样本图片。需要工作人员协助采集样本,可在官网右下角浮窗“合作咨询”中进行申请。

    Q:定制化图像识别怎样组织样本?

    A:①梳理最细粒度识别目标list ;②采集或整理训练样本。需要工作人员协助采集样本,可在官网右下角浮窗“合作咨询”中进行申请。

    Q:定制化图像识别的图片训练样本怎样上传?有哪些上传要求?

    A:①将待训练图片存放至对应分类的文件夹中,建议每个分类至少上传100张; ② 文件夹需要以实际业务场景使用的相应分类结果来命名,至少需要上传2个分类文件夹投入训练(如果实际业务场景中需要识别出“其他”类结果,请以其他作为单独一个文件夹补充训练集上传); ③ 分类文件夹整体压缩,以.zip格式上传,单次上传压缩包需要在500M以内; ④ 将压缩包上传至训练平台,同一训练集最多支持10个压缩包。 ⑤ 注意,数据质量将直接影响训练效果,请提前检查上传文件中是否有损坏、图片及压缩包格式是否正确。

    Q:定制化图像识别显示模型训练失败是什么原因?

    A:①提交训练文件有损坏 ②提交训练集无文件夹(比如提交一批散乱的图片) ③提交压缩包无法解压(比如上传一半异常关闭浏览器导致压缩包不完整、压缩包格式有误) ④提交图片格式有误 ⑤提交训练集只有1个分类文件夹 ⑥其他异常可访问百度AI社区的「图像识别」版块提问交流:http://ai.baidu.com/forum/topic/list/171

    Q:定制化图像识别训练失败怎么办?

    A:训练失败通常是训练样本问题,建议参照训练失败原因检查上传压缩包中,是否有文件损坏、没有文件夹、图片格式错误等问题,然后重新新建一个模型再上传训练。

    Q:训练模型如何调优?

    A:①补充训练集图片 ②优化图片质量 ③优化训练集分类规则 ④如有针对性调优或疑问可访问百度AI社区的「图像识别」版块提问交流:http://ai.baidu.com/forum/topic/list/171

    Q:定制化识别平面图形,基本不受角度、光线影响,也需要200+的图片吗?

    A:物体与物体之间差别较大的,几十张一组也是可以的。如果差距不明显,根据我们的经验,每组200+的照片,识别效果会好一些。

    Q:定制化识别,可以把一张图片中的多个物体都识别出来是什么吗?即实现图像打标功能。

    A:后续会做相关开发,敬请期待。如有相关需求,可在官网首页右下角浮窗“合作咨询” 提交您的具体需求,我们收到后会在第一时间与您联系。

    Q:定制化识别从开始训练到训练完成,中间大概需要多久?

    A:预计一周左右可完成训练。

    更多问题,这里交流:https://ai.baidu.com/forum/topic/list/171

    图像搜索

    【费用常见QA】

    Q:图像搜索怎么收费?

    A:目前属于免费公测阶段,预计1月上线在线付费,上线后图像搜索将分为入库与检索两部分进行收费,收费形式均为按调用量阶梯收费。再此之前入库、检索每天免费调用500次。建议先测试,后期在线付费上线后,可直接在线付费。

    Q:图像搜索免费调用次数不够,怎样开通付费部分?

    A:可在官网右下角浮窗 “合作咨询”提交工单,进行申请。

    【产品常见QA】

    Q:图像搜索中相似图像搜索都是根据什么信息判别是相似的?

    A:我们会分析检索图片和入库图片特征上的相似度。特征更多是这个图片通用的语义,比如照片的颜色、主体、构图等。

    Q:图像搜索中相似图像搜索目前在哪些场景的效果比较理想?

    A:现在基本所有的实物或者美术作品的场景都是识别比较好的。

    Q:相似图像搜索可以在百度图片库里帮我找到我想要的图片吗?

    A:图像搜索范围是您在百度AI建立的图片库中查找目标图片,百度图片的检索结果只是网络的信息,不能作为检索图库。

    Q:图像搜索中自建库是存在哪里?

    A:数据库存储在百度服务器上,专有云服务,别人访问不到。

    Q:公司用了其他的云服务,调用百度的接口时,必须要在百度建库吗?可以直接调其他云服务器上的数据吗?

    A:必须在百度的服务器入库,目前不支持直接调取其他云服务上的数据。因为算法是搭在百度服务器上的,图像库入库时需要进行特征提取。

    Q: 图像搜索测试流程是怎样的?

    A:建议您在控制台内,查看已创建的应用是否勾选指定的接口;如果是图像搜索应用,默认会勾选相似图像搜索/相同图像搜索接口,然后申请建库、等待电话沟通,审核通过,接口就可以用了。

    Q:商品搜索是否支持在自定义图库中进行搜索?

    A: 支持。目前商品搜索里面入库的时候是可以加两个维度的标签,class1和class2,比如你说的A,B,C就是对应在class1的三个值,然后检索的时候传入class1=A,就可以实现只在A中查找相似商品图。

    Q:商品搜索是否支持局部和完整图像的搜索?

    A: 如果两张完全相同图片,支持局部和完整图片之间的搜索。

    Q:如何自建库用于搜索

    A:您可以将现有图片归类整理,按照实际需求创建图库,建库流程请点击:http://ai.baidu.com/forum/topic/show/496543

    更多问题,这里交流:http://ai.baidu.com/forum/topic/show/496543

    视频技术

    Q:如何接入视频内容分析、视频内容审核、视频封面选图的服务?

    A:请您首先通过页面的“商务合作”提交您的业务需求,我们收到后会与您联系,并提供测试文档与接口。

    Q:如何使用视频比对检索的服务?

    A:请您首先通过页面的“合作咨询”提交您的业务需求,我们收到后会与您联系。

    更多问题,这里交流:https://ai.baidu.com/forum/topic/list/173

    语言处理基础技术

    Q:输入编码是什么?
    A:目前仅支持输入GBK编码,需要您在输入前进行转码处理。

    Q:词法分析结果中的词性标注都是什么含义?
    A:详见下表,具体请参考API文档。

    词性 含义 词性 含义 词性 含义 词性 含义
    n 普通名词 f 方位名词 s 处所名词 t 时间名词
    nr 人名 ns 地名 nt 机构团体名 nw 作品名
    nz 其他专名 v 普通动词 vd 动副词 vn 名动词
    a 形容词 ad 副动词 an 名形词 d 副词
    m 数量词 q 量词 r 代词 p 介词
    c 连词 u 助词 xc 其他虚词 w 标点符号

    Q:依存句法关系标签有哪些?

    A:我们可分析34种句法依存关系,详细介绍请参考API文档。

    1. 定中关系ATT
    2. 数量关系QUN(quantity)
    3. 并列关系COO(coordinate)
    4. 同位关系APP(appositive)
    5. 附加关系ADJ(adjunct)
    6. 动宾关系VOB(verb-object)
    7. 介宾关系POB(preposition-object)
    8. 主谓关系SBV(subject-verb)
    9. 比拟关系SIM(similarity)
    10. 时间关系TMP(temporal)
    11. 处所关系LOC(locative)
    12. “的”字结构DE
    13. “地”字结构DI
    14. “得”字结构DEI
    15. “所”字结构SUO
    16. “把”字结构BA
    17. “被”字结构BEI
    18. 状中结构ADV(adverbial)
    19. 动补结构CMP(complement)
    20. 兼语结构DBL(double)
    21. 关联词CNJ(conjunction)
    22. 关联结构 CS(conjunctive structure)
    23. 语态结构MT(mood-tense)
    24. 连谓结构VV(verb-verb)
    25. 核心HED(head)
    26. 前置宾语FOB(fronting object)
    27. 双宾语DOB(double object)
    28. 主题TOP(topic)
    29. 独立结构IS(independent structure)
    30. 独立分句IC(independent clause)
    31. 依存分句DC(dependent clause)
    32. 叠词关系VNV (verb-no-verb or verb-one-verb)
    33. 一个词YGC
    34. 标点 WP

    Q:词向量表示具备多少维度?

    A:我们提供1024维的词向量表示,后续版本会考虑提供降维版本以适用于不同场景。

    Q:中文DNN语言模型对文本个数有什么限制?输入编码是什么?

    A:最大长度10240字节,大约为5120个汉字,支持GBK编码输入,不需要切词。

    Q:中文DNN语言模型中英文混杂怎么办?

    A:模型词表中包含常用高频英文单词,也可以进行匹配。

    Q:为什么很多词的词义相似度都是1?

    A:尽管词向量的词表在百万量级,但仍有可能出现不在词表中的词,不在词表中的词统一映射到OOV(out-of-vocabulary)中,所以当词对中的两个词都是OOV的时候,相似度为1。

    Q:短文本相似度对文字字数有什么限制?

    A:最大长度512字节,大约为266个汉字,但字数过多或过少会对效果略有影响。

    Q:短文本相似度计算,中英文混杂怎么办?

    A:模型词表中包含常用高频英文单词,对中文语境中的“中英混排”文本可以很好的进行匹配。

    Q:为什么有时短文本相似度计算没有返回结果?

    A:有结果返回的前提条件是文本中的单词被词表收录,尽管模型词表很大(百万级),但仍然偶尔会出现不在词表的问题,当文本所有单词都不在词表中的时候,会得不到结果。

    Q:评论观点抽取对输入的评论长度有限制么?

    A:最大长度10240字节,大约为5120个汉字。

    Q:评论观点抽取可以标记挖掘出观点的文本位置吗?

    A:可以的,输出结果中包含观点标签在原始文本中的位置。例如可以标记出:这家旅店服务还是不错的。

    Q:评论观点抽取支持自定义词典上传吗?

    A:评论观点抽取定制版已于2018.7月正式开放,可支持用户自行上传扩展13个垂类的表述观点词表内容,以保证定义和抽取更丰富的评论内容,具体可参见官网文档介绍与功能介绍。

    Q:评论观点抽取可以批量上传并总结好标签及个数吗?

    A:可以利用接口实现该功能。接口可以实现对每个评论的评论观点标签抽取和极性分析,多次调用即可实现多评论的标签挖掘和分析。

    Q:情感倾向分析可以分析哪些情感类型?

    A:目前分析的情感极性分为积极、消极、中性。

    Q:情感倾向分析与对话情绪识别有何差异?

    A:对话情绪识别是对用户对话场景下的语言是正向/中性/负向(如:你好厉害啊/烦死啦)的一种直观检测,而情感分析更倾向于分析对某个客体(如:电影、书籍)所表达出来的喜好/讨厌程度,两者在对应场景下的效果最优,否则将会一定程度影响识别准确率。

    更多问题,这里交流:https://ai.baidu.com/forum/topic/list/169

    语音识别

    Q:语音识别、合成接口每天调用限额是多少,如何申请提高限额?
    A:语音识别、合成接口有QPS配额限制,但不限调用次数。QPS详细限额数据可在控制台中查看。完成个人实名认证及企业认证可提高QPS限额。若需更大QPS可进一步商务合作咨询

    Q:控制台--语音应用详情页高级设置,语音识别词库设置、语义解析设置有什么注意事项?
    A:语音识别词库设置,适用于在线语音识别,目前只在搜索模型下生效(API和SDK均支持)。上传词库中的词或句子,在单说的情况下,识别率会高。具体效果见文档中的解释。
    语义解析设置,目前自动全部开启,无需设置。覆盖天气、日历、航班等常见领域的语义库,可以有效识别用户意图,适用于相关领域的问答场景; 2017年6月前版本用户注意需要进行此处的设置。之后版本默认全部开启,设置无效。

    Q:语音识别REST API支持的音频格式、采样率有哪些?
    A:原始 PCM 的音频格式必须符合16k 采样率、16bit 位深、单声道。支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。

    Q:语音识别 REST API 最长支持多长的录音?
    A: 最长支持60s的录音文件。对文件大小没有限制,只对时长有限制。

    Q:语音识别SDK支持的操作系统、音频格式、采样率有哪些?
    A:Android SDK:支持Android 2.3及以上系统,支持ARM\X86架构。安装包最小增加200k,16k 采样率、16bit 位深、单声道。,pcm格式。

    iOS SDK:支持iOS 5.0及以上系统,支持ARM-v7\ARM-v7s\ARM64\i386\x86_64架构。安装包最小增加400k,合6k 采样率、16bit 位深、单声道,pcm格式。

    Q:语音识别REST API是什么?有什么注意事项?
    A:语音识别全平台REST API,采用http方式请求,可适用于任何平台任意可以发起http请求的编程语言。 使用REST API,录音、压缩及上传模块需要自行开发。且REST API语音识别暂时不支持语义解析。

    Q:百度语音SDK是否单独提供录音功能,以及语音通讯功能?
    A:Android 和iOS 均可以使用系统录音, 并且有参数保存录音后的音频文件。 语音通讯功能SDK不提供,需开发者自行开发。 Android保存录音文件:请看下文档和demo中的OUT_FILE 参数,设置需要保存的路径。此外需要将 ACCEPT_AUDIO_DATA设置为true

    Q:语音服务是免费的?还是需要付费
    A: 语音识别、合成接口有QPS配额限制,但不限调用次数。QPS详细限额数据可在控制台中查看。完成个人实名认证及企业认证可提高QPS限额。若需更大QPS可进一步商务合作咨询

    Q:语音识别和合成支持什么语言?
    A: 语音识别支持:普通话、四川话、粤语、英语
    语音合成支持:仅支持中英文混合,没有纯中文或者纯英文选项。

    Q:SDK,代码出错,不能正常运行怎么办?
    A: 您好,请您先测试官方demo,测试通demo,再添加您自己的代码,基本都是可以使用的了。 测试demo通过后,我们文档中集成指南。 如果还是有问题,可以在AI社区讨论或者发起工单,我们进一步查看原因。

    Q:语音 Android SDK,集成出怎么办?
    请先测试demo,不要急于集成。 文档中 集成指南部分。 demo 目录下有 doc_integration_DOCUMENT下面有多个集成文档图文教程。

    Q: 出现问题如何反馈?

    1. 先确认是不是问题,可以测试我们的demo。
    2. http://aip-bot.baidu.com/ 您可以输入关键字进行文档和常见问题的搜索
    3. 如果依然没有您要的答案,您可以选择一个渠道反馈:

    Q:我想提高一些词的识别准确率,有什么办法?
    A: 您好,您可以通过语音自训练平台训练专属模型持续提升识别准确率,详情可见https://ai.baidu.com/docs#/SmartASR-intro/top 同时,针对少量业务名词场景,也可通过自定义词库快速提升对应名词准确率。入口是:控制台--语音应用详情页高级设置,语音识别词库设置。

    Q:语音识别REST API和SDK的区别是什么?
    A: REST API:hhtp接口,开发者上传录音——百度语音进行识别——识别结果返回开发者;SDK:需要集成代码,百度语音提供从录音到识别结果返回的整体解决方案。

    Q:语音识别通过哪个接口获取音频信息?
    A: Android SDK:CALLBACK_EVENT_ASR_AUDIO回调或者OUT_FILE 参数,设置需要保存的路径。此外需要将 ACCEPT_AUDIO_DATA设置为true

    iOS SDK:MVoiceRecognitionClientDelegate的(void)VoiceRecognitionClientWorkStatus:(int) aStatus obj:(id)aObj;的aStatus是EVoiceRecognitionClientWorkStatusNewRecordData时,aObj为NSData音频数据。 数据格式均为pcm,采样率可通过VoiceRecognitionConfig.getSampleRate()/[[BDVoiceRecognitionClient sharedInstance] getCurrentSampleRate]获取,获取的音频格式是位深16bit,单声道。

    Q:如何才能提高语音识别的准确率?
    A:自定义语音识别设置:打开百度开放云平台,在目前创建的应用下进行自定义语音识别设置。上传识别关键词文本,保存并生效。注:只在搜索模型下生效

    Q:百度语音SDK与其他百度SDK,或其他第三方SDK冲突时,如何解决?
    A: 与其他百度SDK冲突一般是由于使用了相同的基础库galaxy.jar,请检查是否重复导入了该jar包;与其他第三方SDK冲突一般是由于so库的架构不统一,请保证工程libs目录下armeabi/armeabi-v7a/x86/mips目录的so库均一致,如果不能保证一致,则一般只能所有SDK仅使用armeabi架构的so库

    Q:首次开启语音识别功能的延迟时间较长,需要如何调控?
    A: 首次延迟时间较长一般是由于权限验证造成,可以通过预先调用接口: (int)verifyApiKey:(NSString )apiKey withSecretKey:(NSString )secretKey; 来进行验证。首次开启语音时就不需要再发送验证请求,从而降低语音识别启动的延迟。

    Q:需要降低ASR iOS的安装包体积,应该怎么操作? A:可参考资源占用描述。可参考http://ai.baidu.com/docs#/ASR-iOS-SDK/f7fdd420

    Q:需要降低ASR Android的安装包体积,应该怎么操作? A:如果为了节省安装包体积,可以只使用armeabi目录,性能损失微小。
    如果只需要在线识别功能,仅需要2个so文件。
    可参考http://ai.baidu.com/docs#/ASR-Android-SDK/79870942

    语音合成

    更多讨论,可以来百度AI社区:https://ai.baidu.com/forum/topic/list/166

    Q:语音识别、合成接口每天调用限额是多少,如何申请提高限额?
    A:语音识别、合成接口有QPS配额限制,但不限调用次数。QPS详细限额数据可在控制台中查看。完成个人实名认证及企业认证可提高QPS限额。若需更大QPS可进一步商务合作咨询

    Q:语音合成如果想指定某个字的发音,怎么实现?
    A:语音合成接口,支持用户自主标音,通过在所需合成的文字后,增加音标的方式,比如,想把“重音”中的重字,指定合成"chong"的读音时,需将合成文字改为“重(chong2)音”,其中2表示2声,可以根据数字变化调节音调,1对应1声,2对应2声,3对应3声,4对应4声。

    Q:语音合成支持那些语言和音色的播报?
    A:语音合成目前支持中文普通话播报、中英文混读播报,音色支持男声、女声、度丫丫、度逍遥。 同时,我们支持语速、音调的调节,通过设置不同的参数,可以获得不同的朗读效果,更好适配您的业务场景。

    Q:语音合成SDK正式授权如何实现
    A:您可以先测试demo。授权--请您先设置APPID,绑定包名,设置AK SK。第一次保证在线调用成功即可。具体步骤:

    1. 语音官网中应用请确定绑定包名,android sdk的demo的包名是com.baidu.tts.sample
    2. 启动后检查离线资源文件是否存在并且可读。然后联网调用成功,后续持续使用。

    Q:SDK在语音合成播放的时候,接听电话,会自动暂停播放吗?还是需要自行处理?
    A:您好,android sdk不处理音频焦点。您需要使用pause和resume方法自行处理逻辑操作。

    Q:有离线语音合成可以提供吗?
    A:目前没有开放纯离线模式下的语音合成SDK,但是我们开放了离在线融合语音合成SDK,会自动判断当前网络环境,强制在线优先。

    Q:语音合成的语音,我想获取音频数据该怎么办?
    A:合成数据过程中的回调接口,返回合成数据和进度,分多次回调。具体可以参见demo中的“保存音频文件“。

     void onSynthesizeDataArrived(String utteranceId, byte[] audioData, int progress);

    audioData: 合成的部分数据,可以就这部分数据自行播放或者顺序保存到文件。如果保存到文件的话,是一个pcm可以播放的音频文件。 音频数据是16K采样率,16bits编码,单声道。 progress 大致进度。从0 到 “合成文本的字符数”。

    Q:提示“Unable to execute dex: Multiple dex files define Lcom/baidu/android/common/logging/Log”错误?
    A:应用同时集成了百度其它 SDK,造成公共库冲突,请删除语音SDK中的galaxy_lite.jar。

    Q:提示“Caused by: java.lang.UnsatisfiedLinkError: Couldn't load BDSpeechDecoder_V1: findLibrary returned null”错误?
    A:百度语音合成SDK 提供了armeabi标准库及armeabi-v7a库。如项目只包含其中一个目录,请只将TTS SDK中的同名目录集成,否则会造成其它库无法正常加载的错误。如项目只有armeabi,请只集成armeabi,反之如果只有armeabi-v7a,则只集成armeabi-v7a。

    Q:在小说阅读、新闻播报等需要连续合成大段文字的场景下,如何调用语音合成比较好?
    A:可以根据标点切分文字,按句调用,这样会有较快的合成速度. 同时,您可以在播放第一句合成的同时就开始缓存第二句的合成,第一句播放完成后,直接播放缓存的音频,这样可以有较强的连贯性。 百度语音合成SDK还提供了批量合成文本的方法,具体可以查看技术文档。

    Q:在网约车、快递、智能硬件等领域,如果网络信号的稳定性不能保证(频繁断网),应该如何调用?
    这种情况下建议使用百度语音提供的离在线融合模式。 若您使用Android SDK,推荐使用MIX_MODE_HIGH_SPEED_SYNTHESIZE模式(WIFI 4G 3G 2G下在线优先, 其它网络状况离线合成。 如果在线连接百度服务器失败或者超时1.2s,那么切换成离线合成)。若您需要在移动网络下不想消耗流量,或是对响应速度有更强的需求,请自行根据业务需求选择其他模式。 若您使用iOS SDK,建议使用默认设置。如需要调节在线请求超时时间,可通过BDS_SYNTHESIZER_PARAM_ONLINE_REQUEST_TIMEOUT参数进行设置。 具体方法可以参考技术文档。

    Q:百度tts SDK 与 地图导航SDK 有冲突,该如何解决?
    A:对于 Android导航SDK 来说, 内置tts在导航SDK里是一个完整独立的aar文件,所有相关依赖jar全部在aar里,只要不把aar引入工程,就不会与外置的tts SDK发生任何冲突。具体可参见 http://lbsyun.baidu.com/index.php?title=android-navsdk/guide/projectConfiguration 对于 iOS导航SDK 来说,目前地图开放平台提供的导航SDK无法与开放平台提供的tts SDK同时使用,若您有相关需求,可以从地图开放平台提交工单。我们目前正在推动地图导航SDK修复该问题,很快会解决这一问题,敬请期待。

    Q:语音合成过程中,有的文字朗读不正确该怎么办
    A:您可以通过多音字标注的方法来进行自主标音,在所需合成的文字后增加音标,比如,想把“重音”中的重字,指定合成”chong”的读音时,需将合成文字改为“重(chong2)音”,其中2表示2声,可以根据数字变化调节音调,1对应1声,2对应2声,3对应3声,4对应4声。
    同时,您可以将错误发音的case反馈到QQ群或工单中,反馈格式如下:
    【restapi】【发音人】【在线】【错误类型】
    错误类型 分类:多音字、韵律、儿化音、TN(数字及特殊符号转换错误)、英文badcase、其他

    反馈示例:
    【restapi】【标准女声】【在线】【多音字“行”】
    文本:一行白鹭上青天
    描述:行念成(xing)
    期望:一行(hang)白鹭上青天

    Q:需要降低TTS iOS的安装包体积,应该怎么操作? A:可参考资源占用描述。可参考http://ai.baidu.com/docs#/TTS-iOS-SDK/1488f946

    Q:需要降低TTS Android的安装包体积,应该怎么操作? A:如果为了节省安装包体积,可以只使用armeabi目录,性能损失微小。
    如果仅需要在线功能,不使用压缩传输,可以不需要上述so文件。
    可参考http://ai.baidu.com/docs#/TTS-Android-SDK/67b48648

    更多问题,这里讨论:https://ai.baidu.com/forum/topic/list/166

    上一篇
    快速入门实践
    下一篇
    产品价格