资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

简介

Hi,欢迎您使用百度 iOCR 通用版。

iOCR 通用版是 iOCR 自定义模板文字识别针对通用场景下固定版式的卡证票据、文件资料提供的一款 OCR 定制化产品,您仅需上传一张模板图片,即可通过框选参照字段及识别区快速制作结构化识别模型;同时,还可针对制作的多个模板训练自定义分类器,一步完成图片的自动分类和结构化识别。

iOCR 通用版提供三大自定义功能:

  • 自定义模板: 针对需要识别的图片版式,仅需上传一张模板图片,即可通过框选参照字段和识别区自助制作一个识别模板,并建立图片中文字的 Key-Value 对应关系,实现对相同版式图片的结构化识别
  • 自定义分类器: 针对已发布的多个识别模板,只需每类上传 30 张训练集图片或填写分类关键词即可创建分类器,实现对不同版式图片的自动分类,省去人工分类成本,一步实现图片的自动分类和结构化识别
  • 自定义字段类型: 针对输出值为有限集的字段,用户可将可能的输出值汇总为字段词典进行上传,在框选识别区后选择该字段类型,系统则会对识别结果进行智能匹配或纠正,用于规范识别结果,并提高识别准确率

以上三大自定义功能可结合使用实现对不同版式图片进行自动分类并结构化识别的需求,分类准确率可达 99% 以上,识别准确率可达 95% 以上。如需了解更多,可访问 iOCR 通用版产品介绍页


名词解释

  • 固定版式: 指不同图片中的对应字段文字虽内容不同、长短不同,但可能出现的位置及范围固定不变的一类图片,如身份证、学生证、结婚证、火车票等;若图片中存在前文内容长度影响后文位置、表格行列不固定等情况的需针对不同情况制作多个模板
  • 参照字段: 相同版式的不同图片中 位置和内容固定不变的字段,可框选做为图片的锚点,用做对后续传入的图片进行模板匹配和矫正;建议选取 8 个以上、分散在图片四周、且不重复无换行的参照字段,效果最佳
  • 识别区: 图片中需要进行识别的字段,可通过框选及命名构建 「字段名称 : 识别区内容」 的 Key : Value 对应关系,用于对后续传入的相同版式图片的相同位置内容进行结构化识别;识别区的框选直接影响最终识别效果,框选区域需完全覆盖文字可能出现的范围
  • 字段类型: 针对不同识别区内容类型进行专项优化的切片识别模型,如小写金额、日期、纯数字等,可根据需求选择合适的字段类型以提升识别准确率也可通过穷举可能的输出值范围,自定义字段类型,对识别结果进行智能纠正和规范
  • 训练集图片: 针对已发布的识别模板上传的相同版式的图片集合,用于提取该版式图片的视觉特征,对后续上传的图片进行自动分类。为了最佳的分类效果,训练集至少包含 30 张以上不重复的、版式相同的图片
  • 分类关键词:图片中存在的独有的文字内容,用作模板分类的文字依据,需保证填写的关键词在该版式图片中均有出现,可根据填写的关键词唯一确定图片所属模板类别
  • templateSign: 模板ID,用于指定后期上传的图片用哪个模板来进行识别
  • classifierId: 分类器ID,用于指定使用具体某个分类器,传入本参数后不用再传templateSign参数

预置能力介绍


预置模板

  • 大陆身份证正面:支持对中国大陆二代居民身份证人像面所有 6 个字段进行结构化识别,包括姓名、性别、民族、出生日期、住址、身份证号
  • 大陆身份证背面:支持对中国大陆二代居民身份证国徽面的签发日期、失效日期、签发机关 3 个字段进行结构化识别
  • 行驶证正页:支持对机动车行驶证正页所有 10 个字段进行结构化识别,包括号牌号码、车辆类型、所有人、住址、使用性质、品牌型号、车辆识别代号、发动机号码、注册日期、发证日期
  • 行驶证副页:支持对机动车行驶证副页所有 11 个字段进行结构化识别,包括号牌号码、档案编号、核定载人数、总质量、整备质量、核定载质量、外廓尺寸、准牵引总质量、备注、检验记录、燃油类型
  • 驾驶证:支持对机动车驾驶证正本所有 9 个字段进行结构化识别,包括证号、姓名、性别、国籍、住址、出生日期、初次领证日期、准驾车型、有效起始日期、失效日期
  • 银行卡:支持对国内主流银行卡的卡号、有效期、发卡行、卡片类型 4 个关键字段进行结构化识别
  • 营业执照(可选):支持对不同版式营业执照所有 11 个字段进行结构化识别,包括证件编号、社会信用代码、单位名称、地址、法人、类型、组成形式、注册资本、成立日期、有效日期、经营范围
  • 大陆护照(可选):支持对中国大陆护照个人资料页所有 11 个字段进行结构化识别,包括国家码、护照号、姓名、姓名拼音、性别、出生地点、出生日期、签发地点、签发日期、有效期、签发机关
  • 港澳通行证(可选):支持对大陆居民往来港澳通行证的 7 个关键字段进行结构化识别,包括证件号码、姓名、姓名拼音、出生日期、性别、有效期限、签发地点
  • 台湾通行证(可选):支持对大陆居民往来台湾通行证的 7 个关键字段进行结构化识别,包括证件号码、姓名、姓名拼音、出生日期、性别、有效期限、签发地点
  • 车辆合格证(可选):支持对车辆合格证的 23 个关键字段进行结构化识别,包括合格证编号、发证日期及制造企业名、品牌、名称、型号等车辆信息
  • 增值税发票(可选):支持对增值税普票或专票所有 31 个字段进行结构化识别,包括发票基本信息、销售方及购买方信息、商品信息、价税信息等,其中四要素识别准确率超过99.9%
  • 增值税卷票(可选):支持对增值税卷票的 16 个关键字段进行识别,包括发票类型、发票代码、发票号码、机打号码、机器编号、销售方纳税人识别号、开票日期、购买方纳税人识别号、项目、单价、数量、金额、税额、合计金额(小写)、合计金额(大写)、校验码
  • 定额发票(可选):支持对各类定额发票的发票代码、发票号码、金额 3 个关键字段进行结构化识别
  • 通用机打发票(可选):支持对国家/地方税务局发行的横/竖版通用机打发票的 6 个关键字段进行结构化识别,包括发票类型、发票号码、发票代码、开票日期、商品名称、合计金额
  • 火车票(可选):支持对红、蓝火车票的 8 个关键字段进行结构化识别,包括车票号码、始发站、目的站、车次、日期、票价、席别、姓名
  • 出租车票(可选):支持识别全国各大城市出租车票的 6 个关键字段,包括发票号码、代码、车号、日期、时间、金额
  • 行程单(可选):支持对飞机行程单的 12 个关键字段进行结构化识别,包括印刷序号、姓名、始发站、目的站、航班号、日期、票价、民航发展基金、燃油附加费、其他税费、合计金额、填开日期

注意:

  • 预置模板默认已发布,可直接复制对应的 templateSign 使用API进行调用
  • 备注「可选」字样的预置模板未默认展示在「模板管理 - 预置模板」标签页,如需使用需点击页面右上角的「添加更多」按钮按需进行勾选添加

联系我们

本文档主要说明如何使用 iOCR 自定义模板文字识别完成文字识别模型及分类器的制作,以及发布后如何通过 API 进行调用,如文档内容无法解决您的问题,可以通过以下方式寻求帮助:

  • 在百度云控制台内 提交工单 联系专业的技术支持人员进行解答
  • 进入 OCR 论坛 发布您的问题参与互动
  • 加入百度 iOCR 交流群(群号:570832882)与更多开发者进行交流
上一篇
概览
下一篇
使用流程