资讯 社区 文档
百度OCR技术加持输入法获好评
发布日期:2017-08-01 02:46浏览量:2978次

近日,百度输入法发布iOS7.5版本,在基于语音识别的基础上,推出“文字扫描”识别的功能,它支持直接拍照或者选择相册中的图片进行文字识别,免去输入过程,成段内容直接上屏。此外,百度手机输入法对实时的翻译功能进行了全线突破,新版本结合沟通平台与翻译功能,为用户提供文字翻译、语音翻译、文字扫描翻译、快捷翻译等多种智能翻译方式。其中文字扫描翻译支持西班牙语、希腊语、韩语等近十种语言的直接扫描翻译。“扫一扫”排除语音障碍,即使在国外,也能轻松享受旅游时光。

据悉,百度输入法iOS7.5版本的文字扫描功能是基于百度图像文字识别(OCR)技术。百度OCR技术是目前全球最准确的中文通用识别技术,它是基于百度领先的深度学习技术,拥有整图文字检测和识别、整图文字识别、整图文字行定位和单字图像识别等能力,并成功的应用于多个应用场景。如文档图片录入和检索、自然场景输入和翻译、拍照读卡、网图推荐和反作弊等。目前,百度 OCR支持中、英、日、韩、葡、德、法、意、西、俄等十国语言,线上集群每天满足着公司数十条产品线的数千万PV的流量请求。

百度OCR技术不仅在国内远超竞争者,在海外也一直倍受关注。截止到7月13日,百度OCR技术在国际文档分类与识别大会(ICDAR)最具挑战性的自然场景类文字识别任务中斩获三项冠军,比赛结果均远超第二名,此外百度凭借OCR技术在该比赛中已经连续两年获得多项世界第一。ICDAR是OCR领域最权威的学术会议。该会议组织的Robust Reading竞赛是当前OCR技术领域全球最具影响力的比赛。该竞赛吸引了Face++,Sensetime等国内视觉AI创业新秀,以及谷歌、微软等国际顶级互联网公司厉兵秣马,各展头角。

ICDAR竞赛中最具挑战的OCR竞赛任务: Challenge 4:“Incidental Scene Text”(自然场景随拍文字识别)。这个任务中的图片都来源于用户拍摄的自然场景图像,例如真实的街道和商场场景,由于待检测和识别的文字处于复杂的自然场景中,且待识别的文字往往有各种各样字体格式,文字的检测和识别具有较大的挑战性。随拍文字识别(Challenge 4)任务的难度很大,图片拍摄并不是专门针对文字区域进行的,存在噪声、模糊以及角度倾斜等不利因素。IDL OCR的算法在这个场景上,多项指标取得世界第一!结果地址:http://rrc.cvc.uab.es/?ch=2&com=evaluation。

在2017年百度AI开发者大会(Baidu Create 2017)上, AI技术与开放平台分论坛,吸引了众多开发者关注。此次,百度多年打造的完整AI技术平台将对开发者全面开放,开放的技术能力总共有60个,是最全面的AI技术开放平台。作为重要开放技术之一的图像文字识别(OCR),在通用文字、网络图片文字、二代居民身份证、银行卡识别的基础上还发布了表格文字识别、驾驶证识别和行驶证识别等三项新功能。

此次百度核心技术的全面开放是从根本上打破封闭的研发生态,为开发者和合作伙伴赋能,积极推动技术和产品结合,应用于更多场景。开发者陶新乐就是百度技术开放的受益者之一,其研发的白描APP通过百度OCR开放平台接口搭载了百度OCR技术,并广受好评。据陶新乐介绍,白描APP通过百度OCR技术可轻松将图片转换成文字,准确率非常高的百度OCR文字识别技术简化了用户输入步骤,力求为用户提供最智能的文字识别服务。目前,白描APP已成为APPLE STORE工具类付费下载榜的前几名,并被网友称为“准确率高到没有朋友的文字识别 OCR APP”。

百度AI技术在行业内具有先发优势,完整布局和深厚技术积累。此前百度已经通过API向开发者提供了多项百度研发的前沿技术,未来随着百度AI基础能力的进一步开放,开发者、创业者、行业伙伴将如虎添翼,让人工智能技术赋能更多场景,创造更多价值。

技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术