文档矫正增强

更新时间：2023-03-13

接口描述

对图片中的文件、卡证、票据等内容进行四角点检测定位，提取主体内容并对其进行矫正，同时可选图片增强效果进一步提升图片清晰度，达到主体检测矫正并增强的目的，提升图片整体质量。示意图如下：

在线调试

您可以在示例代码中心中调试该接口，可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

请求说明

请求示例

HTTP 方法: POST

请求URL: https://aip.baidubce.com/rest/2.0/ocr/v1/doc_crop_enhance

URL参数：

参数	值
access_token	通过API Key和Secret Key获取的access_token,参考“Access Token获取”

Header如下：

参数	值
Content-Type	application/json

Body中放置请求参数，参数详情如下：

请求参数

参数	类型	是否必须	说明
image	string	和 url/pdf_file 三选一	图像数据，base64编码后进行urlencode，要求base64编码和urlencode后大小不超过4M，最短边至少15px，最长边最大4096px，支持jpg/jpeg/png/bmp格式优先级：image > url > pdf_file，当image字段存在时，url、pdf_file字段失效
url	string	和 image/pdf_file 三选一	图片完整url，url长度不超过1024字节，url对应的图片base64编码后大小不超过4M，最短边至少15px，最长边最大4096px，支持jpg/jpeg/png/bmp格式优先级：image > url > pdf_file，当image字段存在时，url字段失效请注意关闭URL防盗链
pdf_file	string	和 image/url 三选一	PDF文件，base64编码后进行urlencode，要求base64编码和urlencode后大小不超过4M，最短边至少15px，最长边最大4096px 优先级：image > url > pdf_file，当image、url字段存在时，pdf_file字段失效
pdf_file_num	string	否	需要识别的PDF文件的对应页码，当 pdf_file 参数有效时，识别传入页码的对应页面内容，若不传入，则默认识别第 1 页
scan_type	int32	否	选择是否对图片内主体内容进行四角点增强或矫正，可选值如下： - scan_type = 1：只做检测，不对主体进行矫正，返回主体四角点坐标，可用作前端页面展示 - scan_type = 2：只做矫正，需传入主体四角点坐标，使用传入的坐标值对主体进行扣取及矫正 - scan_type = 3：默认值，检测并矫正，返回主体在原图中的四角点坐标以及矫正后的图像
points	array	否	如 scan_type = 2，则需传入此参数，左上角起顺时针汇总四角点坐标为[{x1,y1},{x2,y2},{x3,y3},{x4,.y4}]
enhance_type	int32	否	选择是否开启图像增强功能，如开启可选择增强效果，可选值如下： - enhance_type =0：默认值，不开启增强功能 - enhance_type = 1：去阴影 - enhance_type = 2：增强并锐化 - enhance_type = 3：黑白滤镜

返回说明

返回参数

参数	类型	是否必须	说明
log_id	uint64	是	唯一的log id，用于问题定位
image_processed	string	是	返回处理后的图片，base64编码，如请求参数 scan_type = 1&enhance_type =0，则返回原图
points	array[]	否	检测到的图片内主体在原图中的四角点坐标，scan_type = 2 时不返回此参数
pdf_file_size	string	否	传入PDF文件的总页数，当 pdf_file 参数有效时返回该字段

返回示例

{
    "points": [
        {
            "x": 859,
            "y": 41
        },
        {
            "x": 854,
            "y": 546
        },
        {
            "x": 117,
            "y": 550
        },
        {
            "x": 104,
            "y": 49
        }
    ],            
    "image_processed":"/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAYEBQYFBACUoKSj/2w",
    "log_id": 1540570874964208918
}

其他场景文字识别

文档去手写