资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

简介

Hi,您好,欢迎使用百度文字识别服务。

本文档主要针对Python开发者,描述百度文字识别接口服务的相关技术内容。如果您对文档内容有任何疑问,可以通过以下几种方式联系我们:

接口能力

接口名称 接口能力简要描述
通用文字识别 识别图片中的文字信息
通用文字识别(高精度版) 更高精度地识别图片中的文字信息
通用文字识别(含位置信息版) 识别图片中的文字信息(包含文字区域的坐标信息)
通用文字识别(高精度含位置版) 更高精度地识别图片中的文字信息(包含文字区域的坐标信息)
通用文字识别(含生僻字版) 识别图片中的文字信息(包含对常见字和生僻字的识别)
网络图片文字识别 识别一些网络上背景复杂,特殊字体的文字
网络图片文字识别(含位置版) 识别网络图片中的文字内容(包含文字区域的坐标信息)
身份证识别 识别身份证正反面的文字信息
银行卡识别 识别银行卡的卡号并返回发卡行和卡片性质信息
驾驶证识别 识别机动车驾驶证所有关键字段
行驶证识别 识别机动车行驶证所有关键字段
车牌识别 识别中国大陆各类机动车车牌信息
营业执照识别 对营业执照进行识别
表格文字识别 自动识别表格线及表格内容,结构化输出表头、表尾及每个单元格的文字内容
通用票据识别 对各类票据图片(医疗票据,保险保单等)进行文字识别,并返回文字在图片中的位置信息
增值税发票识别 对增值税发票进行文字识别,并结构化返回字段信息,支持增值税专票、普票、电子发票
出租车票识别 针对全国各大城市出租车票的发票号码、发票代码、车号、日期、时间、金额等进行结构化识别
VIN码识别 对车辆车架、挡风玻璃上的VIN码进行识别
火车票识别 支持对大陆火车票的车票号、始发站、目的站、车次、日期、票价、席别、姓名进行结构化识别
飞机行程单识别 支持对飞机行程单的24个字段进行结构化识别
二维码识别 对图片中的二维码、条形码进行检测和识别,返回存储的文字信息
数字识别 识别图片中的数字,适用于手机号提取、快递单号提取、充值号码提取等场景
手写文字识别 支持对图片中的手写中文、手写数字进行检测和识别
护照识别 支持对中国大陆护照个人资料页所有15个字段进行结构化识别
户口本识别 对出生地、出生日期、姓名、民族、与户主关系、性别、身份证号码字段进行识别
试卷分析与识别 可对作业、试卷的版面进行分析,输出图、表、标题、文本的位置,并输出分版块内容的OCR识别结果
通用机打发票 支持对国家/地方税务局发行的横/竖版通用机打发票的23个关键字段进行结构化识别
机动车销售发票 支持对机动车销售发票的26个关键字段进行结构化识别
车辆合格证 支持对车辆合格证的23个关键字段进行结构化识别
通用机打发票 对国家/地方税务局发行的横/竖版通用机打发票进行结构化识别
护照识别 支持对中国大陆护照个人资料页所有11个字段进行结构化识别
医疗费用明细识别 支持识别全国医疗费用明细识别
网约车行程单识别 对国家/地方税务局发行的横/对各大主要服务商的网约车行程单进行结构化识别
磅单识别 结构化识别磅单的车牌号、打印时间、毛重、皮重、净重、发货单位、收货单位、单号8个关键字段,现阶段仅支持识别印刷体磅单
仪器仪表盘读数识别 适用于各类血糖仪、血压仪、燃气表、电表等,可识别表盘上的数字、英文、符号
自定义模板文字识别 针对固定版式卡证票据提供的 OCR 定制化产品,可由用户自助创建识别模板和分类器,实现对任意版式卡证票据进行自动分类并结构化输出识别结果
医疗费用明细识别 支持识别全国医疗费用明细的姓名、日期、病人ID、总金额等关键字段,支持识别费用明细项目清单,包含项目类型、项目名称、单价、数量、规格、金额
办公文档识别 可对办公类文档的版面进行分析,输出图、表、标题、文本、目录、栏、页眉、页脚、页码和脚注的位置,并输出分版块内容的OCR识别结果
印章识别 检测并识别合同文件或常用票据中的印章,输出文字内容、印章位置信息以及相关置信度,已支持圆形章、椭圆形章、方形章等常见印章检测与识别
机动车登记证书识别 对机动车登记证书的编号、机动车所有人、登记机关、车辆类型、发证机关章等15个关键字段进行结构化识别
智能财务票据识别 对增值税发票、卷票、火车票、出租车票、机票行程单等13类票据混贴的图片进行切分识别
增值税发票验真 支持9种增值税发票的真伪及字段信息准确性校验,包括增值税专票、电子专票、普票、电子普票、卷票、通行费增值税电子普票、货运专票、机动车销售发票、二手车销售发票,支持返回票面的全部信息
医疗发票识别 支持识别全国各地门诊/住院发票的 业务流水号、发票号、住院号、门诊号、病例号、姓名、性别、社保卡号、金额大/小写、收款单位、省市、医保统筹支付、个人账户支付等关键字段。支持识别收费项目明细,并可根据不同省市地区返回对应的识别参数
门脸文字识别 识别图片中的门脸文字信息,自动过滤非门脸文字内容,接口返回门脸名称、描述文字和置信度
车辆证照混贴识别 对机动车行驶证主页及副页、驾驶证主页及副页在同一张图片上的场景进行结构化识别
公式识别 对试卷中的数学公式及题目内容进行识别
图文转换器 可识别图片/PDF文档版面布局,提取文字内容,并转换为保留原文档版式的Word、Excel文档,方便二次编辑和复制,可支持含表格、印章、水印、手写等内容的文档

版本更新记录

上线日期 版本号 更新内容
2022.03.22 4.16.2 OCR 商用和公测接口新增支持 url 传图方式,并支持 pdf 文件传入识别
2022.03.22 4.16.1 新增: 智能财务票据识别,增值税发票验真,医疗发票识别,门脸文字识别,车辆证照混贴识别,公式识别
2022.03.15 4.15.16 新增: 办公文档识别,印章识别,机动车登记证书识别
2021.12.14 4.15.14 新增: 网约车行程单识别,磅单识别,医疗明细识别
2021.05.26 4.15.12 新增: 二维码,行程单,机动车销售发票,车辆合格证,试卷分析与识别,手写,护照,户口本,通用机打
2021.01.28 4.15.4 新增:增值税发票,出租车票,VIN码,火车票,数字识别
2020.08.06 4.15.1 新增:文档版面分析与识别,仪器仪表盘读数识别, 网络图片文字识别
2018.04.09 2.2.2 新增:表格识别同步接口
2018.01.12 2.1.0 新增:自定义OCR识别
2017.12.22 2.0.0 SDK代码重构
2017.08.25 1.6.4 OCR 新增营业执照识别
2017.05.11 1.0.0 OCR服务上线
上一篇
API文档
下一篇
快速入门