产品服务
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
数据智能
知识图谱
硬件产品与服务
定制化训练平台
深度学习开放平台
硬件产品
官方认证的硬件产品与百度AI协同应用
硬件与软件开源的机器人视觉产品方案
软硬一体化的人脸识别开发套件
软硬一体化的远场语音开发套件
硬件赋能
快速赋能移动设备及智能手机
零代码生成高性能端计算模型
高性能计算卡参考方案&软件工具包
端云一体的多模态人机交互解决方案
EdgeCloud端云协同平台
为抓拍机厂商提供端云对接协议及产品推广
可视化配置,实现抓拍机管理与业务系统集成
硬件合作
开放评测认证让您的产品加入AI生态
开放与芯片合作,让AI深度走入终端设备
可视化训练模型服务平台,获取高精度定制图像识别、声音识别、文本分类服务
自助定制专属模板,实现海量单据卡证的结构化识别
智能对话系统开发平台,让产品快速拥有对话交互能力
自助训练专属模型,提升业务场景语音识别效果
集合代码环境、算法算力和数据集的线上一站式开发平台
提供深度学习系列公开课与商业案例
源于产业实践的开源深度学习平台
零代码生成高性能端计算模型
基于真实样本的超大规模的开放数据集
AI加速器
AI市场
资讯
社区
自定义模板OCR升级 自动匹配识别模板
发布日期:2018-06-19 10:00:35浏览量:2487次

前期百度推出了自定义模板文字识别,可以通过快至15分钟的模板制作,实现结构化的文字内容提取和输入,解决了大部分模板的结构化文字识别问题。但部分客户仍需要投入人力分类指定具体使用的模板。

为了进一步节省人力成本,百度自定义模板文字识别新增自动分类功能,能针对票据、卡证自动分类匹配并调用对应模板一步完成结构化识别。

在企业报销等场景中涉及大量各式发票的结构化识别,之前需要人工分类票据的工作,现可以交由自定义模板的自动分类功能实现,准确率高至99%,一步完成分类+结构化,省时省力!

 

操作步骤:当创建完文字识别模板之后,按照下面5步即可实现文字识别模板自动分类功能:

1.     分类器管理页面新建分类器

2.     选择参与分类的模板

3.     上传对应模板的训练集

4.     训练完成后测试效果并发布

5.     通过API/SDK调用该服务(具体文档参见:http://ai.baidu.com/docs#/OCR-API/8b83b775

 

以下为分步的详细操作指导:

1.     分类器管理页面新建分类器

点击“分类器管理”标签进入管理页面,点击“创建分类器”后输入分类器名称和该分类器的应用场景/功能描述后点击确定进入编辑页面。

 

2.     选择参与分类的模板

需要分类的模板分为“我的模板”和“系统模板”,“我的模板”是指您在自定义模板文字识别中手动创建的模板,“系统模板”指百度官网预置的模板(包含了:身份证正面、身份证反面、银行卡、驾驶证、行驶证、车牌、营业执照、护照、增值税发票)。客户可以根据业务需要添加模板参与分类。

 

3.     上传对应模板的训练集

参与分类的如果是百度预置的模板您无需上传训练集,如果参与分类的是您自己制作的模板则需要您准备30100张同模板的票据打包成ZIP包以后点击编辑训练集上传该训练集。当所有的自定义模板都已经上传了符合要求(30100张、同模板)的训练集后点击开始训练。您可以在分类器管理页面查看预计完成的时间并通过刷新查看当前状态。

 

4.     训练完成后测试效果并发布

当您的分类器训练完成后您可以在分类器管理页面点击“测试”上传图片进行分类测试,如果测试结果没有问题点击“发布”即可通过API调用该接口,如果对分类结果不满意,建议检查训练集数据中是否包含了较多噪声数据,或尝试增加训练集内的图片数量。

 

5.     通过API/SDK调用服务

如果针对第4步的测试结果没有问题点击“发布”即可通过API调用该接口,参数classifierId指定某个已发布的分类器,即可实现该分类器中任意模板的自动识别。具体调用文档参见:http://ai.baidu.com/docs#/OCR-API/8b83b775

 

欢迎使用自定义模板文字识别,如需咨询,可点击屏幕右下角标志,提交具体咨询信息

推荐阅读:文字识别免费额再提升 自定义模板OCR发布