【百度大脑CV主题月征稿计划】云猫OCR评测
kohakuarc 发布于2019-09 浏览:1894 回复:1
1
收藏
最后编辑于2022-04

基于百度AI的云猫OCR开发实录之评测篇

一、概述

   笔者是在2017年接触百度云服务平台的,在这里我也称之为百度AI 。“AI”这个词真的很奇妙,它来源于英语词组“Artificial Intelligence”,取首字母就成了AI ,而与此同时,中文AI的发音就是“爱”,这是巧合吗?还是说大自然的安排?

   现在回到话题,本文是评测篇,因为笔者根据百度AI提供的函数接口,自行编程实现了一款OCR软件——云猫OCR。云猫OCR大部分的代码开发是在2017年底前完成的,之所以雪藏到现在,是因为笔者的一些私人事务(小孩出生等)——我是利用业余时间进行软件开发的,所以中断了大概一年多的时间,现在才有空继续这个项目。因为本文主要是评测,所以我不会说太多关于编程代码的事,适当的时候我会考虑写个代码篇,请各位看官期待一下。

二、评测的具体内容

(一)准备工作

   在使用云猫OCR之前,我们必须先去百度云官网进行注册账号,有了账号以后,我们还要去具体的云服务项目下申请API Key和Secret Key ,一般这两个Key是用户各人保管的,不能随便透露给外人。因为百度云现在已经正式收费,而用户每人每天的免费调用次数都是有限的,提高限额需要支付费用,用户使用百度云AI接口的依据主要就是这两个Key,所以我们要保管好。下面是简单的准备工作图片说明:

(一)正式使用云猫OCR

用户有了百度云API Key和Secret Key之后,就可以正式使用云猫OCR了。具体使用步骤如下:

(一)评测的具体内容

   首先介绍一下云猫OCR调用的百度AI的主要接口,首先是通用文字识别(带位置版),其次是通用文字识别(带位置高精度版),最后是表格文字识别,下面依次介绍这三种识别。

1. 通用文字识别(带位置版)和通用文字识别(带位置高精度版)的混合使用

如上图所示,用户可以选择多种语言(包括德语、法语、西班牙语等等),选择好后点击文字识别即可。因为百度云提供的高精度文字识别接口只支持中英文,而通用的文字识别支持除中英文以外的多种语言,所以笔者在编写软件中,这两种接口是混合使用的,具体怎么混合使用请看代码篇。一般情况下,高精度的文字识别效果比通用的好,但也比较耗时。

本软件支持识别的文字结果在本机保存为文件,具体如下图操作:

保存的文件是rtf格式,可以用WPS或者Office Word打开。下面再给出一次性识别20张图片的统计结果图示:

从上图可以看出,百度云的文字识别结果速度还是不错的,识别速度是平均大概2-3秒一张图。

2. 表格文字识别

表格文字识别的主要步骤如下图所示:

识别的结果软件会自动保存为Excel文件并打开,如图:

从上图可以看出,表格文字识别的速度比普通文字识别要慢一些,大概需要5-6秒。

评测总结:百度OCR对于印刷体的识别还是不错的,比起以前的OCR软件来说,百度OCR可以说是革命性的进步。当然,它也有自己的短板。比如手写体的识别,笔者还没有评测,但百度云通用文字高精度接口对手写体的识别是较差的。再比如QPS并发,我的理解是可以提高OCR文字识别的速度,对于大量的图片文字识别来说尤其是重要,可以节省大量时间。但遗憾的是,百度云对并发好像做的不太好,程序不一定支持QPS并发,这个缺点我们也是希望百度后面能够有所改正。

收藏
点赞
1
个赞
共1条回复 最后由用户已被禁言回复于2022-04
#2kohakuarc回复于2019-09

跟楼主的其他帖子联动:

http://ai.baidu.com/forum/topic/show/955975

云猫OCR展示版本试用

http://ai.baidu.com/forum/topic/show/492371

云猫OCR软件演示视频

1
TOP
切换版块