资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

文档矫正增强

接口描述

对图片中的文件、卡证、票据等内容进行四角点检测定位,提取主体内容并对其进行矫正,同时可选图片增强效果进一步提升图片清晰度,达到主体检测矫正并增强的目的,提升图片整体质量。示意图如下:
4.JPG

在线调试

您可以在 示例代码中心 中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

请求说明

请求示例

HTTP 方法: POST

请求URL: https://aip.baidubce.com/rest/2.0/ocr/v1/doc_crop_enhance

URL参数:

参数
access_token 通过API Key和Secret Key获取的access_token,参考“Access Token获取

Header如下:

参数
Content-Type application/json

Body中放置请求参数,参数详情如下:

请求参数

参数 类型 是否必须 说明
image string 和 url/pdf_file 三选一 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效
url string 和 image/pdf_file 三选一 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url字段失效
请注意关闭URL防盗链
pdf_file string 和 image/url 三选一 PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px
优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效
pdf_file_num string 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页
scan_type int32 选择是否对图片内主体内容进行四角点增强或矫正,可选值如下:
- scan_type = 1:只做检测,不对主体进行矫正,返回主体四角点坐标,可用作前端页面展示
- scan_type = 2:只做矫正,需传入主体四角点坐标,使用传入的坐标值对主体进行扣取及矫正
- scan_type = 3:默认值,检测并矫正,返回主体在原图中的四角点坐标以及矫正后的图像
points array 如 scan_type = 2,则需传入此参数,左上角起顺时针汇总四角点坐标为[{x1,y1},{x2,y2},{x3,y3},{x4,.y4}]
enhance_type int32 选择是否开启图像增强功能,如开启可选择增强效果,可选值如下:
- enhance_type =0:默认值,不开启增强功能
- enhance_type = 1:去阴影
- enhance_type = 2:增强并锐化
- enhance_type = 3:黑白滤镜

返回说明

返回参数

参数 类型 是否必须 说明
log_id uint64 唯一的log id,用于问题定位
image_processed string 返回处理后的图片,base64编码,如请求参数 scan_type = 1&enhance_type =0,则返回原图
points array[] 检测到的图片内主体在原图中的四角点坐标,scan_type = 2 时不返回此参数
pdf_file_size string 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段

返回示例

{
    "points": [
        {
            "x": 859,
            "y": 41
        },
        {
            "x": 854,
            "y": 546
        },
        {
            "x": 117,
            "y": 550
        },
        {
            "x": 104,
            "y": 49
        }
    ],            
    "image_processed":"/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAYEBQYFBACUoKSj/2w",
    "log_id": 1540570874964208918
}
上一篇
其他场景文字识别
下一篇
文档去手写