OCR金融产业实战，表单信息识别应用详解

控制台

发布日期：2022-04-29 10:09浏览量：1417次

随着人工智能技术的逐渐成熟，计算机视觉、语音、自然语言处理等技术在金融行业的应用从广度和深度上都在加速，这不仅降低了金融机构的运营和风险成本，而且有助于提升客户的满意度，比如：利用 OCR 技术快速处理海量表格做信息结构化抽取和存储，大幅提升从业人员工作效率。

本次飞桨产业实践范例库开源表单自动识别金融行业典型场景应用，提供了从数据准备、模型训练及优化的全流程可复用方案，降低产业落地门槛。

⭐项目链接⭐

https://github.com/PaddlePaddle/PaddleOCR/tree/dygraph/applications

所有源码及教程均已开源，欢迎大家使用，star 鼓励~

表单识别旨在识别各种具有表格性质的证件（如房产证、营业执照、个人信息表、发票等）上的关键键值对(如姓名-张三)，其广泛应用于银行、证券、公司财务等领域，具有很高的商业价值。本次范例项目开源了表单识别全流程方案，能够在多个场景快速实现能力迁移。

图1 保险申请单展示

图中红色框表示问题，蓝色框表示答案，问题和答案之间使用绿色线连接。在 OCR 检测框的左上方也标出了对应的类别和 OCR 识别结果。

我们将上述 OCR 识别结果和关键键值对的匹配关系输出到 Excel 中，结果如图2所示，实现智能化录入，便于进一步整理。

图2 结果导出到 Excel 效果

【场景难点】

金融表单样式多：常见表单类型众多，而且同一类型的表单版式也比较多，对方案的兼容能力要较高；

传统技术方案泛化效果不满足：传统单模态技术方案（只利用图像数据的 OCR 提取）模型泛化性差、依赖大量训练数据。

【方案设计】

表单识别包含两个阶段：OCR 阶段和文档视觉问答阶段。

OCR 阶段选取了 PaddleOCR 的 PP-OCRv2 模型，主要由文本检测和文本识别两个模块组成。DOC-VQA文档视觉问答阶段基于 PaddleNLP 自然语言处理算法库实现的 LayoutXLM 模型，支持基于多模态方法的语义实体识别（Semantic Entity Recognition, SER）以及关系抽取（Relation Extraction, RE）任务。该应用从实际的痛点出发，涉及数据处理、预训练模型使用、模型优化（超参数调节、fine-tune、添加真实场景数据等）、模型评估、模型导出、模型预测。

图3 表单识别解决方案流程图

【模型优化策略和效果】

本方案的 OCR 核心能力基于百度飞桨自研 PP-OCRv2 模型，包含文本检测和识别模型，分别进行优化。

文本检测

首先利用 PP-OCRv2 中英文超轻量检测预训练模型在 XFUND 数据集(微软提出的一个多语言数据集，包含多种类型的表单数据)上评估，然后在 XFUND 数据集上微调进一步提升模型效果。

文本识别

同上，我们首先也采用 PP-OCRv2 中英文超轻量识别预训练模型、XFUND 数据集+fine-tune、XFUND 数据集+fine-tune+真实通用识别数据3种方案。

本方案的 DOC- VQA 文档视觉问答阶段基于 LayoutXLM 模型，包含 SER 和 RE，使用在 XFUND 的中文数据集上的预训练模型，模型性能如下。

【范例使用工具介绍】

PaddleOCR 是百度飞桨 OCR 模型库，依托于飞桨核心框架，在模型算法、预训练模型库、工业级部署等层面均提供了丰富的解决方案，并且提供了数据合成、半自动数据标注工具，满足开发者的数据生产需求。PaddleOCR 精选并复现丰富的前沿算法，基于复现的算法研发更适用于产业落地的 PP 特色模型，并打通训推一体，提供多种预测部署方式，满足实际应用的不同需求场景。

精彩课程预告

为了让小伙伴们更便捷地实践和应用金融行业中表单信息识别技术方案，百度高级工程师将于4月27日19:00为大家深度解析从数据准备、方案设计到模型优化部署的开发全流程，手把手教大家进行代码实践。

扫码报名直播课，加入技术交流群