【百度大脑CV主题月征稿计划】表格文字识别
让天涯 发布于2019-09-18 浏览:1993 回复:5
1
收藏

一、功能介绍

对图片中的表格文字内容进行提取和识别,支持识别完整框线表格、含合并单元格表格或无框线表格,并可选择以JSON或Excel形式进行返回。

二、应用场景

财税报表识别

使用表格文字识别技术,对银行对账单、资产负债表、损益表等财税场景常用表格内容进行提取和识别,快速实现表格内容的电子化,用于财税信息统计、存档及核算,大幅度提升信息录入效率,节省企业人力成本。

信息登记表识别

使用表格文字识别技术,对个人、商品、公示内容等纸质信息登记表进行识别,快速实现表格内容的电子化,用于登记信息的结构化整理和统计,大幅度降低信息电子化工作的人力录入成本,提升信息管理的便捷性。

三、使用攻略

说明:本文采用C# 语言,开发环境为.Net Core 2.1,采用在线API接口方式实现。

(1)平台接入
登陆 百度智能云-管理中心 创建 “文字识别”应用,获取 “API Key ”和 “Secret Key”:https://console.bce.baidu.com/ai/?_=1568727747165#/ai/ocr/overview/index
(2)接口文档

文档地址(异步):https://ai.baidu.com/docs#/OCR-API/87932804

接口描述:对图片中的表格文字内容进行提取和识别,结构化输出表头、表尾及每个单元格的文字内容。支持识别常规表格及含合并单元格表格,并可选择以JSON或Excel形式进行返回。 本接口为异步接口,分为两个API:提交请求接口、获取结果接口。下面分别描述两个接口的使用方法。

(2-1)提交请求接口

请求说明

HTTP方法:POST
请求URL:https://aip.baidubce.com/rest/2.0/solution/v1/form_ocr/request
URL参数:

Header如下:

Body中放置请求参数,参数详情如下:
请求参数

返回说明
返回参数

成功返回示例:

{
    "result" : [
        {
            "request_id" : "1234_6789"
        }
    ],
    "log_id":149689853984104
}

失败返回示例:

{
    "log_id": 149319909347709,
    "error_code": 282000
    "error_msg":"internal error"
}

(2-2)获取结果接口

请求说明

HTTP方法:POST
请求URL:https://aip.baidubce.com/rest/2.0/solution/v1/form_ocr/get_request_result
URL参数:

Header如下:

Body中放置请求参数,参数详情如下:
请求参数

返回说明
返回参数

返回示例:

成功返回示例:

{
    "result" : {
        "result_data" : "",
        "percent":100,
        "request_id": "149691317905102",
        "ret_code": 3
        "ret_msg": "已完成",
    },
    "log_id":149689853984104
}

当request_type为excel时,result_data格式样例为:

{
    "file_url":"https://ai.baidu.com/file/xxxfffddd"
}

当request_type为json时,result_data格式样例为:

{
    "result": {
        "result_data":"{
                "form_num": 1,
                "forms": [
                {
                    "footer": [],
                    "header": [
                    {
                        "column": [
                            1,
                            2
                            ],
                        "probability":0.925165,
                        "rect":{"left":1138.0,"top":127.0},
                        "row": [
                            1
                            ],
                        "word": "表头信息1",
                        }
                        ],
                    "body": [
                    {
                        "column": [
                            1,
                            2
                            ],
                        "probability":0.999275,
                        "rect":{"left":171.0,"top":26.0},
                        "row": [
                            1
                            ],
                        "word": "单元格文字",
                        }
                        ],
                    }
                ]
    }
}

其中各个参数的说明(json方式返回结果时):

失败返回示例:

{
    "log_id": 149319909347709,
    "error_code": 282000
    "error_msg":"internal error"
}

(3)源码共享

(3-1)根据 API Key 和 Secret Key 获取 AccessToken

        /// 
        /// 获取百度access_token
        /// 
        /// API Key
        /// Secret Key
        /// 
        public static string GetAccessToken(string clientId, string clientSecret)
        {
            string authHost = "https://aip.baidubce.com/oauth/2.0/token";
            HttpClient client = new HttpClient();
            List> paraList = new List>();
            paraList.Add(new KeyValuePair("grant_type", "client_credentials"));
            paraList.Add(new KeyValuePair("client_id", clientId));
            paraList.Add(new KeyValuePair("client_secret", clientSecret)); 

            HttpResponseMessage response = client.PostAsync(authHost, new FormUrlEncodedContent(paraList)).Result;
            string result = response.Content.ReadAsStringAsync().Result;
            JObject jo = (JObject)JsonConvert.DeserializeObject(result);

            string token = jo["access_token"].ToString();
            return token;
        }

(3-2)调用API接口获取识别结果

(3-2-1)在Startup.cs 文件 的 Configure(IApplicationBuilder app, IHostingEnvironment env) 方法中开启虚拟目录映射功能:

            string webRootPath = HostingEnvironment.WebRootPath;//wwwroot目录

            app.UseStaticFiles(new StaticFileOptions
            {
                FileProvider = new PhysicalFileProvider(
                    Path.Combine(webRootPath, "Uploads", "BaiduAIs")),
                RequestPath = "/BaiduAIs"
            });

(3-2-2) 建立Index.cshtml文件

(3-2-2-1)前台代码:

    由于html代码无法原生显示,只能简单说明一下:

    主要是一个form表单,需要设置属性enctype="multipart/form-data",否则无法上传图片;

    form表单里面有几个控件:

    一个Input:type="file",asp-for="FileUpload" ,上传图片;

    一个Input:type="text",value="@Model.RequestId",输入RequestId,获取识别结果用;

    一个Input:type="submit",asp-page-handler="FormRequest" ,提交表格请求。

    一个Input:type="submit",asp-page-handler="GetFormResult" ,获取表格结果。

    一个img:src="@Model.curPath",显示需要识别的图片。

    最后显示后台 msg 字符串列表信息,如果需要输出原始Html代码,则需要使用@Html.Raw()函数。 

(3-2-2-2) 后台代码:

        [BindProperty]
        public IFormFile FileUpload { get; set; }
        [BindProperty]
        public string ImageUrl { get; set; }
        [BindProperty]
        public string RequestId { get; set; }
        private readonly IHostingEnvironment HostingEnvironment;
        public List msg = new List();
        public string curPath { get; set; }

        string BaiduAI_OCRPath="Uploads//BaiduAIs//";
        string BaiduAI_OCRUrl="/BaiduAIs/";
        string OCR_API_KEY="你的API KEY";
        string OCR_SECRET_KEY="你的SECRET KEY";

        public OCRSearchModel(IHostingEnvironment hostingEnvironment)
        {
            HostingEnvironment = hostingEnvironment;
        }


        public async Task OnPostFormRequestAsync()
        {
            if (FileUpload is null)
            {
                ModelState.AddModelError(string.Empty, " 请先选择本地图片!");
            }  

          if (!ModelState.IsValid)
            {
                return Page();
            }
            msg = new List();

            string webRootPath = HostingEnvironment.WebRootPath;//wwwroot目录
            string fileDir = Path.Combine(webRootPath, BaiduAI_OCRPath);
            string imgName = await UploadFile(FileUpload, fileDir);

            string fileName = Path.Combine(fileDir, imgName);
            string imgBase64 = GetFileBase64(fileName);
            curPath = Path.Combine(BaiduAI_OCRUrl, imgName);

            DateTime startTime = DateTime.Now;

            string result = GetFormOCRJson("request", OCR_API_KEY, OCR_SECRET_KEY, imgBase64);

            DateTime endTime = DateTime.Now;
            TimeSpan ts = endTime - startTime;

            JObject jo = (JObject)JsonConvert.DeserializeObject(result);


            try
            {
                msg.Add("提交表格请求(耗时" + ts.TotalSeconds + "秒):\n");

                if (jo["error_code"] != null)
                {
                    msg.Add("提交失败:" + jo["error_msg"].ToString());
                }
                else
                {
                    RequestId = jo["result"][0]["request_id"].ToString();
                    msg.Add("提交成功:");
                    msg.Add("RequestId:" + RequestId);
                }
            }
            catch (Exception e)
            {
                msg.Add(result);
            }
            return Page();
        }

        public async Task OnPostGetFormResultAsync()
        {
            if (string.IsNullOrEmpty(RequestId))
            {
                ModelState.AddModelError(string.Empty, "请先输入RequestId!");
            }
            if (!ModelState.IsValid)
            {
                return Page();
            }
            msg = new List();

            DateTime startTime = DateTime.Now;

            string result = GetFormOCRJson("get_request_result", OCR_API_KEY, OCR_SECRET_KEY, "", RequestId);

            DateTime endTime = DateTime.Now;
            TimeSpan ts = endTime - startTime;

            JObject jo = (JObject)JsonConvert.DeserializeObject(result);

            try
            {
                msg.Add("获取表格结果(耗时" + ts.TotalSeconds + "秒):\n");

                msg.Add("识别进度:" + jo["result"]["percent"].ToString());
                msg.Add("请求的RequestId:" + jo["result"]["request_id"].ToString());
                msg.Add("识别状态:" + jo["result"]["ret_msg"].ToString());
                msg.Add("Excel文件下载:点击下载");
            }
            catch (Exception e)
            {
                msg.Add(result);
            }
            return Page();
        }

        /// 
        /// 上传文件,返回文件名
        /// 
        /// 文件上传控件
        /// 文件绝对路径
        /// 
        public static async Task UploadFile(IFormFile formFile, string fileDir)
        {
            if (!Directory.Exists(fileDir))
            {
                Directory.CreateDirectory(fileDir);
            }
            string extension = Path.GetExtension(formFile.FileName);
            string imgName = Guid.NewGuid().ToString("N") + extension;
            var filePath = Path.Combine(fileDir, imgName);

            using (var fileStream = new FileStream(filePath, FileMode.Create, FileAccess.Write))
            {
                await formFile.CopyToAsync(fileStream);
            }

            return imgName;
        }

        /// 
        /// 返回图片的base64编码
        /// 
        /// 文件绝对路径名称
        /// 
        public static String GetFileBase64(string fileName)
        {
            FileStream filestream = new FileStream(fileName, FileMode.Open);
            byte[] arr = new byte[filestream.Length];
            filestream.Read(arr, 0, (int)filestream.Length);
            string baser64 =  Convert.ToBase64String(arr);
            filestream.Close();
            return baser64;
        }


        /// 
        /// 表格文字识别Json字符串
        /// 
        /// 表格文字识别类型(“request”--提交请求;“get_request_result”-获取识别结果)
        /// 图片base64编码(""-不需要)
        /// API Key
        /// Secret Key
        /// 请求返回的request id(""-不需要)
        /// 指定获取结果的类型(json/excel)
        /// 是否同步返回识别结果(true/false)
        /// 
        public static string GetFormOCRJson(string formOcrType, string clientId, string clientSecret, string strbaser64 = "", string request_id = "", string result_type = "excel", string is_sync = "false")
        {
            string token = GetAccessToken(clientId, clientSecret);
            string host = "https://aip.baidubce.com/rest/2.0/solution/v1/form_ocr/" + formOcrType + "?access_token=" + token;
            Encoding encoding = Encoding.Default;
            HttpWebRequest request = (HttpWebRequest)WebRequest.Create(host);
            request.Method = "post";
            request.ContentType = "application/x-www-form-urlencoded";
            request.KeepAlive = true;
            string str = "is_sync=" + is_sync;
            if (!string.IsNullOrEmpty(strbaser64))
            {
                str = "&image=" + HttpUtility.UrlEncode(strbaser64);
            }
            if (!string.IsNullOrEmpty(request_id))
            {
                str += "&request_id=" + request_id;
            }
            if (!string.IsNullOrEmpty(result_type))
            {
                str += "&result_type=" + result_type;
            }
            byte[] buffer = encoding.GetBytes(str);
            request.ContentLength = buffer.Length;
            request.GetRequestStream().Write(buffer, 0, buffer.Length);
            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
            StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.Default);
            string result = reader.ReadToEnd();
            return result;
        }

四、效果测试

1、页面:

2、识别结果:

2.1

2.2

2.3

2.4

2.5

2.6

五、测试结果及建议

从上述的测试结果可以看出,百度的表格文字识别技术,对于电子表格(图一、图二组)的识别结果是相当准确的,较为复杂的表格结构也能够准确识别出来,数字也能准确识别。

不过,对于同一表格,如果存在一个单元格,但是单元格内的文字存在换行行为,或者文字之间存在空格,那么识别后的结果无法显示换行、空格,这点需要再进行优化。

但是,如果是识别手写文字表格内容的话(图三图四、图五、图六组),那识别结果就有点辣眼睛了,如果手写的字体再潦草一些,甚至不忍直视,会出现各种问题:数字无法准确识别,一个字被识别成了两个字等等;至于表格格式,存在不该合并单元格的被合并了,该显示的列结果整列消失了(图四组),由此可见,对于手写表格识别,还存在很大的提升空间。

在中小企业中,对手写文字表格识别的运用空间还是很大的,比如:物品领取登记表,日员工工资统计表,工作进度统计表,员工简历表,人员进出登记表等等,很多表格内容,目前都还是手写登记形式的,而且这类表格有个特点,那就是表格格式不复杂,基本上就是多行多列的形式,没有合并单元格等复杂形式。所以,如果能够优化对手写文字表格的识别,那么表格识别的使用范围就更大了。

收藏
点赞
1
个赞
共5条回复 最后由wangwei8638回复于2019-10-25
#6wangwei8638回复于2019-10-25
#5 ttpod9回复
这是同步的,不是异步的 另外,现在是不是把表格识别,文字识别和票据识别的接口全都关了?
展开

类比改下程序

0
#5ttpod9回复于2019-10-25
#4 wangwei8638回复
https://ai.baidu.com/forum/topic/show/954201
展开

这是同步的,不是异步的

另外,现在是不是把表格识别,文字识别和票据识别的接口全都关了?

0
#4wangwei8638回复于2019-10-17
#3 ttpod9回复
用Python怎么实现表格识别的异步呢?

https://ai.baidu.com/forum/topic/show/954201

0
#3ttpod9回复于2019-10-17

用Python怎么实现表格识别的异步呢?

0
#2Mr_SunJ回复于2019-09-30

感谢您的反馈和产品建议。表格识别近期正在研发新版,预计十月可以上线,手写内容的识别确实是一个比较大的需求,同时也存在比较大的难度~我们会持续改进~

0
TOP
切换版块