资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

图像理解

本文介绍了图像理解 V2版本相关API及使用。

功能介绍

调用本接口,可根据用户输入的图像和文字,回答图像有关问题。

支持模型列表

模型名称 模型版本 model 参数值
DeepSeek-VL2 DeepSeek-VL2 deepseek-vl2
DeepSeek-VL2 DeepSeek-VL2-Small deepseek-vl2-small
Qwen2.5-VL-7B-Instruct Qwen2.5-VL-7B-Instruct qwen2.5-vl-7b-instruct
ERNIE 4.5 ERNIE-4.5-8K-Preview ernie-4.5-8k-preview

鉴权说明

调用本文API,需使用API Key鉴权方式。使用API Key鉴权调用API流程,具体调用流程,请查看认证鉴权

请求结构

POST /v2/chat/completions HTTP/1.1
Host: qianfan.baidubce.com
Authorization: authorization string
Content-Type: application/json

{
  "model": "deepseek-vl2",
  "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "分别使用1句话描述以下3张图片的内容"
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://aidp-qa***"
                    }
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://qianfan-test***"
                    }
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://aidp-***"
                    }
                }
            ]
        }
    ] 
}

请求头域

公共头域外,无其它特殊头域。

请求参数

名称 类型 必填 描述
messages List(message) 聊天历史信息列表,说明:输入总长度不能超过对应model的输入字符限制和输入tokens限制,请查看各模型上下文长度说明
model string 大模型ID,说明:
(1)预置服务,支持以下:
· deepseek-vl2
· deepseek-vl2-small
· qwen2.5-vl-7b-instruct
· ernie-4.5-8k-preview
(2)平台训练模型,可以通过查看服务地址获取该字段值,详情请查看新手指南-平台使用快速开始:model值为在创建服务时对应的API地址,如下图所示: image.png
stream bool 是否以流式接口的形式返回数据,说明:
·(1)true:是
·(2)false:否,默认false,beam search模型只能为false
temperature float 说明:
(1)较高的数值会使输出更加随机,而较低的数值会使其更加集中和确定
(2)取值范围:[0,2]
top_p float 说明:
(1)影响输出文本的多样性,取值越大,生成文本的多样性越强
(2)取值范围:[0,1]
max_completion_tokens int 指定模型最大输出token数,默认值2048,说明:
· model值为qwen2.5-vl-7b-instruct,该字段取值范围 [2,4096]
· 其它模型,该字段取值范围[2, 2048]

message说明

名称 类型 必填 描述
role string 当前支持以下:
· system:人设
· user:用户
· assistant:对话助手
· tool:函数
name string message名
content list(content) 图像相关信息

content说明

名称 类型 必填 描述
type string 当前支持以下类型:
· text:文本
· image_url:图像url
text string 文本信息,当参数type为text时,必填
image_url image_url 图像url信息,当参数type为image_url时,必填

image_url说明

名称 类型 必填 描述
url string 图像url,说明:
(1)支持以下:
· 传入图片链接
· 图片的Base64编码,传入 Base64 编码格式时,传入的格式需为:data:image/<图片格式>;base64,<Base64编码>
(2)单个图像的大小不超过10MB
detail string 可选值:
· low:将启用“低分辨率”模式,该模型将接收低分辨率 512px x 512px 版本的图像,并使用 85 个令牌的预算来表示该图像;允许 API 返回更快的响应,并且对于不需要高细节的用例消耗更少的输入令牌
· high:将启用“高分辨率”模式,该模式首先允许模型首先查看低分辨率图像(使用 85 个标记),然后使用 170 个标记为每个 512px x 512px 图块创建详细裁剪
· auto:默认值

响应头域

除公共头域外,无其它特殊头域。

响应参数

名称 类型 描述
id string 本次请求的唯一标识,可用于排查问题
object string 回包类型 chat.completion:多轮对话返回
created int 时间戳
model string 说明:预置服务,返回模型ID
choices choices stream=false时,返回内容
choices sse_choices stream=true时,返回内容
usage usage token统计信息,说明:
(1)同步请求默认返回
(2)流式请求默认不返回,当开启stream_options.include_usage=true时,会在最后一个chunk返回实际内容,其他chunk返回null
search_results search_results 搜索结果列表

请求示例

curl --location 'https://qianfan.baidubce.com/v2/chat/completions' \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer bce-v3/ALTAK-*********/614fb**********' \
--data '{
  "model": "deepseek-vl2",
  "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "分别使用1句话描述以下3张图片的内容"
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://aidp-qa***"
                    }
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://qianfan-test***"
                    }
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://aidp-***"
                    }
                }
            ]
        }
    ] 
}'
import requests
import json


def main():
    url = "https://qianfan.baidubce.com/v2/chat/completions"

    payload = json.dumps({
        "model": "deepseek-vl2",
        "messages": [
            {
                "role": "user",
                "content": [
                    {
                        "type": "text",
                        "text": "分别使用1句话描述以下3张图片的内容"
                    },
                    {
                        "type": "image_url",
                        "image_url": {
                            "url": "https://aidp-qa***"
                        }
                    },
                    {
                        "type": "image_url",
                        "image_url": {
                            "url": "https://qianfan-test***"
                        }
                    },
                    {
                        "type": "image_url",
                        "image_url": {
                            "url": "https://aidp-***"
                        }
                    }
                ]
            }
        ]
    })
    headers = {
        'Content-Type': 'application/json',
        'Authorization': 'Bearer bce-v3/ALTAK-*********/614fb**********'
    }

    response = requests.request("POST", url, headers=headers, data=payload)

    print(response.text)


if __name__ == '__main__':
    main()

响应示例

{
    "id": "as-7u9f6065tq",
    "object": "chat.completion",
    "created": 1736413890,
    "model": "deepseek-vl2",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "第一张图片:一个蓝色圆形,中间有一个黑色的比特币符号。\n第二张图片:一个蓝色圆形,中间有一个黑色的比特币符号。\n第三张图片:一个蓝色圆形,中间有一个黑色的比特币符号。"
            },
            "finish_reason": "normal",
            "flag": 0
        }
    ],
    "usage": {
        "prompt_tokens": 10,
        "completion_tokens": 41,
        "total_tokens": 51
    }
}

错误码

如果请求错误,服务器返回的JSON文本包含以下参数。

名称 描述
error_code 错误码
error_msg 错误描述信息,帮助理解和解决发生的错误
type 错误类型

更多相关错误码,请查看错误码说明

上一篇
图像生成
下一篇
阅读助手插件