开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术
AR与VR
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
信息服务
智能园区

文档矫正增强

接口描述

对图片中的文件、卡证、票据等内容进行四角点检测定位,提取主体内容并对其进行矫正,同时可选图片增强效果进一步提升图片清晰度,达到主体检测矫正并增强的目的,提升图片整体质量。

申请试用

该接口正在邀测中,在正式使用之前,请先提交合作咨询,或者提交工单,提供公司名称、appid、应用场景,工作人员协助开通权限后方可使用。

请求说明

请求示例

HTTP 方法: POST

请求URL: https://aip.baidubce.com/rest/2.0/ocr/v1/doc_crop_enhance

URL参数:

参数
access_token 通过API Key和Secret Key获取的access_token,参考“Access Token获取

Header如下:

参数
Content-Type application/json

Body中放置请求参数,参数详情如下:

请求参数

参数 类型 是否必须 说明
image string 和 url/pdf_file 三选一 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效
url string 和 image/pdf_file 三选一 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url字段失效
请注意关闭URL防盗链
pdf_file string 和 image/url 三选一 PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px
优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效
pdf_file_num string 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页
scan_type int32 选择是否对图片内主体内容进行四角点增强或矫正,可选值如下:
- scan_type = 1:只做检测,不对主体进行矫正,返回主体四角点坐标,可用作前端页面展示
- scan_type = 2:只做矫正,需传入主体四角点坐标,使用传入的坐标值对主体进行扣取及矫正
- scan_type = 3:默认值,检测并矫正,返回主体在原图中的四角点坐标以及矫正后的图像
points array 如 scan_type = 2,则需传入此参数,左上角起顺时针汇总四角点坐标为[{x1,y1},{x2,y2},{x3,y3},{x4,.y4}]
enhance_type int32 选择是否开启图像增强功能,如开启可选择增强效果,可选值如下:
- enhance_type =0:默认值,不开启增强功能
- enhance_type = 1:去阴影
- enhance_type = 2:增强并锐化
- enhance_type = 3:黑白滤镜

返回说明

返回参数

参数 类型 是否必须 说明
log_id uint64 唯一的log id,用于问题定位
image_processed string 检测矫正并进行图像增强后的图片base64编码,如请求参数 scan_type = 1&enhance_type =0,则返回原图
points array[] 检测到的图片内主体在原图中的四角点坐标,scan_type = 2 时不返回此参数
pdf_file_size string 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段

返回示例

{
    "points": [
        {
            "x": 859,
            "y": 41
        },
        {
            "x": 854,
            "y": 546
        },
        {
            "x": 117,
            "y": 550
        },
        {
            "x": 104,
            "y": 49
        }
    ],            
    "image_processed":"/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAYEBQYFBACUoKSj/2w",
    "log_id": 1540570874964208918
}
上一篇
其他场景文字识别
下一篇
文档去手写