百度OCR技术加持输入法获好评

控制台

百度OCR技术加持输入法获好评

发布日期：2017-08-01 02:46浏览量：2978次

近日，百度输入法发布iOS7.5版本，在基于语音识别的基础上，推出“文字扫描”识别的功能，它支持直接拍照或者选择相册中的图片进行文字识别，免去输入过程，成段内容直接上屏。此外，百度手机输入法对实时的翻译功能进行了全线突破，新版本结合沟通平台与翻译功能，为用户提供文字翻译、语音翻译、文字扫描翻译、快捷翻译等多种智能翻译方式。其中文字扫描翻译支持西班牙语、希腊语、韩语等近十种语言的直接扫描翻译。“扫一扫”排除语音障碍，即使在国外，也能轻松享受旅游时光。

据悉，百度输入法iOS7.5版本的文字扫描功能是基于百度图像文字识别(OCR)技术。百度OCR技术是目前全球最准确的中文通用识别技术，它是基于百度领先的深度学习技术，拥有整图文字检测和识别、整图文字识别、整图文字行定位和单字图像识别等能力，并成功的应用于多个应用场景。如文档图片录入和检索、自然场景输入和翻译、拍照读卡、网图推荐和反作弊等。目前，百度 OCR支持中、英、日、韩、葡、德、法、意、西、俄等十国语言，线上集群每天满足着公司数十条产品线的数千万PV的流量请求。

百度OCR技术不仅在国内远超竞争者，在海外也一直倍受关注。截止到7月13日，百度OCR技术在国际文档分类与识别大会(ICDAR)最具挑战性的自然场景类文字识别任务中斩获三项冠军，比赛结果均远超第二名，此外百度凭借OCR技术在该比赛中已经连续两年获得多项世界第一。ICDAR是OCR领域最权威的学术会议。该会议组织的Robust Reading竞赛是当前OCR技术领域全球最具影响力的比赛。该竞赛吸引了Face++，Sensetime等国内视觉AI创业新秀，以及谷歌、微软等国际顶级互联网公司厉兵秣马，各展头角。

ICDAR竞赛中最具挑战的OCR竞赛任务： Challenge 4：“Incidental Scene Text”(自然场景随拍文字识别)。这个任务中的图片都来源于用户拍摄的自然场景图像，例如真实的街道和商场场景，由于待检测和识别的文字处于复杂的自然场景中，且待识别的文字往往有各种各样字体格式，文字的检测和识别具有较大的挑战性。随拍文字识别(Challenge 4)任务的难度很大，图片拍摄并不是专门针对文字区域进行的，存在噪声、模糊以及角度倾斜等不利因素。IDL OCR的算法在这个场景上，多项指标取得世界第一!结果地址：http://rrc.cvc.uab.es/?ch=2&com=evaluation。

在2017年百度AI开发者大会(Baidu Create 2017)上， AI技术与开放平台分论坛，吸引了众多开发者关注。此次，百度多年打造的完整AI技术平台将对开发者全面开放，开放的技术能力总共有60个，是最全面的AI技术开放平台。作为重要开放技术之一的图像文字识别(OCR)，在通用文字、网络图片文字、二代居民身份证、银行卡识别的基础上还发布了表格文字识别、驾驶证识别和行驶证识别等三项新功能。

此次百度核心技术的全面开放是从根本上打破封闭的研发生态，为开发者和合作伙伴赋能，积极推动技术和产品结合，应用于更多场景。开发者陶新乐就是百度技术开放的受益者之一，其研发的白描APP通过百度OCR开放平台接口搭载了百度OCR技术，并广受好评。据陶新乐介绍，白描APP通过百度OCR技术可轻松将图片转换成文字，准确率非常高的百度OCR文字识别技术简化了用户输入步骤，力求为用户提供最智能的文字识别服务。目前，白描APP已成为APPLE STORE工具类付费下载榜的前几名，并被网友称为“准确率高到没有朋友的文字识别 OCR APP”。

百度AI技术在行业内具有先发优势，完整布局和深厚技术积累。此前百度已经通过API向开发者提供了多项百度研发的前沿技术，未来随着百度AI基础能力的进一步开放，开发者、创业者、行业伙伴将如虎添翼，让人工智能技术赋能更多场景，创造更多价值。