资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

图像内容理解

接口描述

该请求用于图像内容理解,支持输入图片和提问信息,多维度识别与理解图片内容,包括人、物、行为、场景、文字等,输出对图片内容的描述。用于图片内容问答,图片打标签,图片物体识别等业务场景。图像内容理解服务涉及 2 个子接口,分别为:

  • 图像内容理解-提交请求:支持传入图片、提问等参数,创建图像内容理解任务,该接口会返回任务ID。
  • 图像内容理解-获取结果:在任务成功创建后,支持传入任务ID,查看任务处理的状态、获取处理完成后返回的结果。

图像内容理解-提交请求

在线调试

您可以在 示例代码中心 中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

请求示例

HTTP 方法:POST

请求URL: https://aip.baidubce.com/rest/2.0/image-classify/v1/image-understanding/request

URL参数:

参数
access_token 通过API Key和Secret Key获取的access_token,参考“Access Token获取

Header如下:

参数
Content-Type application/json

Body中放置请求参数,要求使用json格式的结构体来描述一个请求的具体内容,参数详情如下:

请求参数

参数 是否必选 类型 可选值范围 说明
image 和 url 二选一 string - 图片数据,base64 编码后进行 urlencode,要求 base64 编码和 urlencode 后大小不超过 10M,最短边至少 64px,最长边最大 8192px,支持 jpg/jpeg/png 格式
优先级:image > url,当 image 字段存在时,url 字段失效
注意: 超过 4096px 的图片,将被自动等比例压缩至 4096px 进行处理,压缩后会影响处理效果
url 和 image 二选一 string - 图片完整 url,url 长度不超过 1024 字节,要求 base64 编码和 urlencode 后大小不超过 10M,最短边至少 64px,最长边最大 8192px,支持 jpg/jpeg/png 格式
优先级:image > url,当 image 字段存在时,url 字段失效
注意: 超过 4096px 的图片,将被自动等比例压缩至 4096px 进行处理,压缩后会影响处理效果
请注意关闭URL防盗链
question string - 提问信息,如“这张图片里有什么?”、“图中的人物是谁,并进行简单介绍”
限制 100 个字符之内

返回参数

字段 类型 说明
log_id uint64 唯一的log id,用于问题定位
result object 返回结果列表
+ task_id string 该请求生成的task_id,后续使用该task_id获取识别结果

返回示例

{
    "result": {
        "task_id": "1826091287582742824"
    },
    "log_id": "1826091287582742824"
}

图像内容理解-获取结果

在线调试

您可以在 示例代码中心 中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

请求示例

HTTP 方法:POST

请求URL:https://aip.baidubce.com/rest/2.0/image-classify/v1/image-understanding/get-result

URL参数:

参数
access_token 通过API Key和Secret Key获取的access_token,参考“Access Token获取

Header如下:

参数
Content-Type application/json

Body中放置请求参数,要求使用json格式的结构体来描述一个请求的具体内容,参数详情如下:

请求参数

参数 是否必选 类型 可选值范围 说明
task_id string - 调用提交请求接口时,返回的task_id

返回参数

字段 类型 说明
log_id uint64 唯一的log id,用于问题定位
result object 返回结果列表
+ task_id string 该结果对应请求的task_id
+ ret_code int 识别状态,0:处理成功;1:处理中
+ ret_msg string 识别状态信息,success:处理成功;processing:处理中
+ description string 针对输入的 question 问题,对图片内容进行分析后输出的答案

返回示例

{
    "result": {
        "task_id": "1826091287582742824",
        "ret_msg": "success",
        "ret_code": 0,
        "description": "这张图片展示的是位于中国西藏自治区拉萨市区西北玛布日山上的布达拉宫,它是藏传佛教的宗教圣地,同时也是中国的世界文化遗产之一,以其宏伟的建筑风格和深厚的文化底蕴吸引着无数游客前来参观。"
    },
    "log_id": "1826091451221753557"
}
上一篇
图像多主体检测
下一篇
货币识别