开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
文字识别

    产品使用问题

    Q: 文字识别的并发量上限是多少?
    A: 大部分文字识别接口在未开通付费时提供2QPS额度,开通付费后提升至10QPS,如果您有更高并发需求,可购买QPS叠加包进行扩充。对于已上线但没有价格的产品,暂属于测试状态,当测试额度不足时,您可以提交工单进行申请,您需要在工单提供您的appid、业务场景描述、需要的接口名称和申请的并发量。

    Q:如何购买/提升调用次数?
    A:已上线计费的接口,您可以直接在控制台购买次数包或开通按量后付费,计费价格参见产品价格;未上线计费的接口,您可以提交工单进行申请,您需要在工单提供您的appid、业务场景描述、需要的接口名称和申请的调用次数。

    Q:文字识别对上传的图片格式、图片大小有哪些要求?
    A:图片格式:支持 JPG、JPEG、PNG、BMP、TIF、WebP 等格式图片,暂不支持 GIF 类型的动图识别。

    图片大小:一般情况下,图像base64编码后大小必须小于4M,建议不要超过1M;最小边长不小于15,最大边长不超过4096,建议不要超过1024(编码后大于1M或最大边长超过1024的图像会被等比压缩,建议控制输入图像大小,有助于减少网络传输及接口处理耗时)。但是不同的功能接口,对于图片大小的要求可能不同,具体以相应的API文档中的 Image 和 url 参数说明为准。

    Q:什么是base64编码,如何提供?
    A:图片的base64编码指将一副图片数据编码成一串字符串,各种编程语言均包含Base64编码函数,可直接调用使用。

    注:图片base64编码后需去除图片头,如(data:image/jpg;base64,),并进行urlencode后方可上传。

    Q:怎么提高识别的准确率和识别速度?
    A:文字识别的准确率跟拍摄光照、背景、清晰度等因素有关。推荐上传JPG图片格式,图片大小建议1M以内。可在图片采集端尽量扩大要识别文字的区域,并保证图片内文字清晰人眼可辨认、倾斜度不得小于30%。同时,适当压缩图片大小,可大幅缩短图片识别时间。

    Q:文字识别支持的语言?
    A:不同的功能接口,所支持的语言都不同。常见多语言识别接口如下:

    通用文字识别(标准版)、通用文字识别(标准含位置版):支持中文简体、中文繁体、英文、日语、韩语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语。
    通用文字识别(高精度版)、通用文字识别(高精度含位置版):支持中文简体、中文繁体、英文、日语、韩语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、丹麦语、荷兰语、马来语、瑞典语、印尼语、波兰语、罗马尼亚语、土耳其语、希腊语、匈牙利语。
    其他接口(除国内专用卡证票据外)基本均可支持中、英文内容识别。详细参见API文档

    如果您对于产品支持识别的语言有特殊需求,您可以提交工单联系我们。

    Q:文字识别是否支持方向旋转/不同朝向的图片文字识别?
    A:文字识别大部分能力均已支持图像方向自动校正功能,可对旋转的图片进行正确的识别,也可通过控制参数『detect_direction』为true/false控制该功能是否开启。如果您在使用中存在部分旋转图片无法正确识别的问题,您可以提交工单告知我们进行优化。

    Q:文字识别有无区分卡证、票据原件和复印件的功能?
    A:身份证识别含风险检测功能,可区分身份证原件及复印件,详情参考API文档。如果您对其他文字识别服务有区分原件、复印件功能的需求,您可以提交工单联系我们。

    Q:文字识别有无区分卡证、票据真伪的功能?
    A:身份证识别具备翻拍、PS、复印件告警功能,您也可以使用人脸核身的公安验证接口,用于校验姓名和身份证号的真实性和一致性。如果您对其他文字识别服务有区分卡证、票据真伪功能的需求,您可以提交工单联系我们。

    Q:文字识别是否可以批量识别吗?
    A:暂不支持,单次调用仅可识别单张图片,但您可在QPS允许范围进行多线程调用。

    Q:识别结果可以转化为Word或者TXT吗?
    A:OCR提取之后返回的结果是JSON格式,需要您通过进行业务处理将结果保存为Word或者TXT格式。

    Q:可以识别PDF等文本格式文件吗?
    A:目前仅支持对图像中的文字进行检测与识别,暂不能识别word、pdf、excel等文件,如果您对上述文本格式存在识别需求,可先将其转为图片格式后再进行上传。

    Q:可否在文字识别的应用界面添加扫描框?
    A:百度仅提供文字识别API接口,应用界面可根据您的需求进行自行开发。

    Q:是否支持识别验证码?
    A:对验证码进行识别涉及网络安全问题,百度不提供验证码识别专项服务。

    Q: 文字识别的响应速度是多少?
    A: 一般在1s内,识别时间会受图片大小、字数多少影响,但最长不超过7s,一旦超过将自动返回『超时』错误,相应调用不计费。

    注:但由于数据传输的网络情况不同,且为百度不可控范围,实际您感受到的响应时间为百度模型识别时间+数据来往传输时间,如出现大量耗时过长情况,请您排查服务器网络状况,适当扩充带宽或对图片进行压缩后上传,如有需要也可提交工单联系我们。

    Q:在国外,也可以在线调用文字识别的接口吗?
    A:可以的,但延时会大些。

    Q:为什么文字识别结果不准确?
    A:有以下几个原因:

    (1)图片尺寸过小,图片尺寸小于15px,无法进行识别。

    (2)图片画质太差,例如图片过暗,文字内容不可辨识。

    (3)文字内容存在水印、印章、褶皱等遮挡。

    (4)图片样式与接口支持类型不符。例如,身份证识别只支持识别二代居民身份证,不支持识别护照、银行卡等。

    (5)如果有返回错误码,请参考错误码排查问题。

    如果仍然无法确定原因和解决问题,您可以提交工单,您需要在工单提供误识别的原图及返回的log_id(log_id为调用接口返回时,在返回结果中出现的一长串数字)。举例如下: b4e56d546391a0156ec419dc28e8c6f1.png

    Q:调用文字识别API服务失败时,应该怎么处理?

    A:排查原因:

    (1)根据API调用返回结果或错误码查找原因。

    (2)检查API调用方法是否正确(您可以参考AI接入指南进行操作)。

    如果仍然无法确定原因和解决问题,您可以提交工单联系我们。

    遇到其他相关问题,您可寻求智能助手帮助,或提交工单,会有专人跟进处理。

    上一篇
    售前咨询
    下一篇
    计费问题