AI开放能力MCP使用指南

更新时间：2026-03-05

百度智能云提供了丰富的AI开放能力，包括文字识别、图像识别、人脸识别等，有着优秀的效果和响应效率。

现在，AI开放能力全面拥抱MCP协议，大幅降低智能体应用开发过程中调用相关能力的门槛，为智能体装上更灵敏的手和脚，让智能体能做更多事，且做的更好。

当前百度智能云AI开放能力共提供了13个MCP Server，共70个工具。详细清单见附录1：工具清单。

功能类型	MCP Server地址	包含工具能力
通用文字识别	https://aip.baidubce.com/mcp/ocr_general/sse	通用文字识别、网络图片文字识别、办公文档识别、表格文字识别、手写文字识别、智能结构化、文件检测分类、二维码识别、数字识别、印章识别、仪器仪表盘读数识别
文档解析	https://aip.baidubce.com/mcp/document/sse	支持对doc、pdf、图片、xlsx等18种格式文档进行解析，输出文档的版面、表格、阅读顺序、标题层级、旋转角度等信息，支持中、英、日、韩、法等20余种语言类型，可返回Markdown格式内容，将非结构化数据转化为易于处理的结构化数据
财务医疗票据识别	https://aip.baidubce.com/mcp/ocr_receipt/sse	智能财务票据识别、增值税发票验真、医疗发票识别、医疗费用明细识别、医疗费用结算单识别
个人证照识别	https://aip.baidubce.com/mcp/ocr_personal_card/sse	身份证识别、银行卡识别、驾驶证识别、护照识别、护照识别（港澳台地区及境外）、港澳台证件识别、户口本识别、出生医学证明识别、结婚证识别、离婚证识别、社保卡识别、房产证识别
企业证照识别	https://aip.baidubce.com/mcp/ocr_company_card/sse	营业执照识别、开户许可证识别、食品经营许可证识别、食品生产许可证识别
车辆证照识别	https://aip.baidubce.com/mcp/ocr_car_card/sse	车牌识别、VIN 码识别、车辆证照混贴识别、车辆合格证识别、道路运输证识别、机动车登记证书识别
教育文字识别	https://aip.baidubce.com/mcp/ocr_edu/sse	试卷分析与识别
图像识别	https://aip.baidubce.com/mcp/image_recognition/sse	车辆检测、车型识别、菜品识别、地标识别、动物识别、果蔬识别、货币识别、通用物体和场景识别、图像单主体检测、图像多主体检测、植物识别
看图识万物	https://aip.baidubce.com/mcp/image_understanding/sse	基于视觉专家模型与多模态大模型技术实现万物精准识别，支持针对图像中的主体内容进行通识性知识问答，覆盖动植物、名人、影视、汽车、商品、文物等各类主体类型，整合权威百科及实时网络信息，输出高时效性、多维度的精准答案
图像增强	https://aip.baidubce.com/mcp/image_enhance/sse	拉伸图像恢复、图片去摩尔纹、图像对比度增强、图像清晰度增强、图像去雾、图像去噪、图像色彩增强、图像无损放大、图像修复、文档图片去底纹、文档矫正增强、文档去手写
图像特效	https://aip.baidubce.com/mcp/image_effects/sse	黑白图像上色、人像动漫化、图像风格转换
人脸识别	https://aip.baidubce.com/mcp/face/sse	人脸检测
语音技术	https://aip.baidubce.com/mcp/speech/sse	短语音识别

使用方式

当前MCP Server仅支持通过APIKey的方式使用，开始前请参考 API Key鉴权机制创建一个AI开放能力的API Key，并为API Key配置合适的权限范围。

为避免MCP使用过程中遇到未授权的问题，建议为API Key配置AI开放能力-全部接口权限。

使用短期API Key时，请注意API Key的有效期，避免过期后无法使用。

大多数AI开放能力都为已实名认证的客户提供了免费测试额度，创建AI开放能力的API Key后即可调用这些额度。如免费额度耗尽，您可以前往对应能力的购买页，购买更多资源。

能力方向	免费额度	资源购买
文字识别	查看	去购买
图像识别	查看	去购买
图像增强与特效	查看	去购买
人脸识别	查看	去购买

通过 HTTP SSE 传输方式使用 MCP Server

对于支持HTTP SSE传输的Client (如Cursor)，建议使用此方式，无须安装其他前置依赖。

配置：参考下面的配置文件：
- mcp_server_url: 替换成要使用的MCP Server的URL, 例如：https://aip.baidubce.com/mcp/ocr_general/sse
- api_key: 替换成你的API Key, 注意需要进行URL编码后填入，否则可能会导致连接失败。
- 尖括号<>在调用时需要删除。

{
    "mcpServers": {
      "mcpserver_1": {
        "url": "<mcp_server_url>?Authorization=Bearer%20<url encoded api key>"
      }
    }
}

通过 stdio 传输方式使用 MCP Server

对于不支持HTTP SSE传输的Client (如Claude), 可以通过stdio传输方式使用MCP Server。百度AI开放能力目前尚未提供原生的stdio传输方式，可通过第三方工具supergateway实现。

安装
- 安装nodejs: 请参考nodejs官网
配置：参考下面的配置文件：
- mcp_server_url: 替换成要使用的MCP Server的URL, 例如：https://aip.baidubce.com/mcp/ocr_general/sse
- api_key: 替换成你的API Key
- 尖括号<>在调用时需要删除。

{
  "mcpServers": {
    "mcpserver_1": {
      "command": "npx",
      "args": [
        "-y",
        "supergateway",
        "--sse",
        "<mcp_server_url>",
        "--header",
        "Authorization: Bearer <api key>"
      ]
    }
  }
}

快速开始：常见 Client 使用方式举例

下面将以调用『教育文字识别』MCP为例，介绍在几类常见Client里的使用方式。帮助第一次使用MCP的开发者快速上手使用。

在 Cursor 中使用

打开cursor，点击右上角的齿轮图标，打开设置界面
选择『MCP』，点击『Add new global MCP Server』，打开MCP Server配置文件
在配置文件里粘贴以下内容。如果您已经配置了其他MCP Server，需要注意新增加的内容与其他内容都要在"mcpServers"这个父节点之下。

{
    "mcpServers": {
      "ocr_edu": {
        "url": "https://aip.baidubce.com/mcp/ocr_edu/sse?Authorization=Bearer%20<url encoded api key>"
      }
    }
}

其中：

ocr_edu是MCP Server的名称，您可以自行设置。
<url encoded api key>需要替换为经过了url编码的AI开放能力的API Key，请根据API Key使用文档获取。
https://aip.baidubce.com/mcp/ocr_edu/sse 是教育文字识别MCP Server的地址，您可以在本文开头找到其他MCP Server的地址。

保存文件变更，重启cursor。重启后就能在MCP的配置界面看到对应的MCP Server了。
接下来就可以提问，验证能力了。例如，我们使用cursor的agent模式，输入一张手写试卷的url地址（例如https://dataset-bj.bj.bcebos.com/v1/platform-guangwang/home/%E6%89%8B%E5%86%99%E8%AF%95%E5%8D%B7.png），并要求识别里边的文字。cursor会自动调用对应的MCP识别图片里的文字内容并返回。

在 Claude 中使用

Claude目前不支持sse，可以通过第三方工具supergateway实现调用。调用前，请先安装好nodejs。

Claude免费版所提供的大模型上下文长度较短，在使用工具较多的MCP Server时可能会报错。

打开Claude本地客户端，点击Claude-Settings

点击Developer-Edit Config，会出现Claude的MCP配置文件。打开该配置文件。
在配置文件里粘贴以下内容。如果您已经配置了其他MCP Server，需要注意新增加的内容与其他内容都要在"mcpServers"这个父节点之下。

{
  "mcpServers": {
    "ocr_edu": {
      "command": "npx",
      "args": [
        "-y",
        "supergateway",
        "--sse",
        "https://aip.baidubce.com/mcp/ocr_edu/sse",
        "--header",
        "Authorization: Bearer <api key>"
      ]
    }
  }
}

其中：

ocr_edu是MCP Server的名称，您可以自行设置。
https://aip.baidubce.com/mcp/ocr_receipt/sse 是教育文字识别MCP Server的地址，您可以在本文开头找到其他MCP Server的地址。
<api key>需要替换成AI开放能力的API Key，请根据API Key使用文档获取。尖括号<>需要删除。

保存文件变更，重启Claude。重启后就能在Claude界面上看到一个锤形图标，点击即可查看当前已添加的MCP工具。
接下来就可以提问，验证能力了。例如，输入一张手写试卷的url地址（例如https://dataset-bj.bj.bcebos.com/v1/platform-guangwang/home/%E6%89%8B%E5%86%99%E8%AF%95%E5%8D%B7.png），并要求识别里边的文字。cursor会自动调用对应的MCP识别图片里的文字内容并返回。

通过千帆 AppBuilder 平台接入

使用千帆Appbuilder接入AI开放能力MCP的示例代码已上传至github，您可以参考readme文件的指引，实现一个接入AI开放能力的智能体。

通过 MCP Python SDK 接入

使用MCP Python SDK接入AI开放能力MCP的示例代码已上传至github，您可以参考readme文件的指引，实现一个接入AI开放能力的智能体。

使用 Tips

受限于MCP协议的实现方式，使用MCP协议需要大模型具备较长的上下文长度，短上下文的大模型会直接报错。经过实际测试，64k token以上的上下文长度可以获得较好的效果。此外，MCP依赖大模型的判断能力来选取正确的工具，建议使用效果领先的大模型。
目前通过mcp协议调用的请求总大小建议不超过4MB，否则可能会报错。
在cursor、claude等客户端配置好MCP Server后，通常需要重启客户端以更新MCP配置。如您确认MCP Server的配置正确但无法正常使用，可尝试重启客户端。
如果能力的输入/输出是多模态的（例如图片、语音文件），需要您使用的MCP client支持对应的文件格式。可以参考https://modelcontextprotocol.io/clients了解哪些client支持对应格式，或者参考官方开发文档自己实现一个client。

附录1：工具清单

通用文字识别

MCP Server URL: https://aip.baidubce.com/mcp/ocr_general/sse
支持的工具:

工具名称	工具描述	功能说明	对应的API接口文档
ocr_general_accurate_location	通用文字识别（高精度含位置版）	提供多场景、多语种、高精度的整图文字检测和识别服务，支持生僻字识别，并支持20种语言识别，相对于通用文字识别（含位置信息版）该产品精度更高，但是识别耗时会稍长。	https://cloud.baidu.com/doc/OCR/s/tk3h7y2aq
ocr_handwriting	手写文字识别	支持对图片中的手写中文、手写数字进行检测和识别，针对不规则的手写字体进行专项优化，识别准确率可达90%以上。	https://cloud.baidu.com/doc/OCR/s/hk3h7y2qq
ocr_office_doc	办公文档识别	可对办公类文档版面进行分析，输出图、表、标题、文本的位置，并输出分版块内容的OCR识别结果，支持中、英两种语言，手写、印刷体混排多种场景。	https://cloud.baidu.com/doc/OCR/s/ykg9c09ji
ocr_web_image_location	网络图片文字识别（含位置版）	支持识别艺术字体或背景复杂的文字内容，除文字信息外，还可返回每行文字的位置信息、行置信度，以及单字符内容和位置等。	https://cloud.baidu.com/doc/OCR/s/Nkaz574we
ocr_qrcode	二维码识别	对图片中的二维码、条形码进行检测和识别，返回存储的文字信息。	https://cloud.baidu.com/doc/OCR/s/qk3h7y5o7
ocr_digits	数字识别	对图片中的数字进行提取和识别，自动过滤非数字内容，仅返回数字内容及其位置信息，识别准确率超过99%。	https://cloud.baidu.com/doc/OCR/s/Ok3h7y1vo
ocr_seal	印章识别	检测并识别合同文件或常用票据中的印章，输出文字内容、印章位置信息以及相关置信度，支持识别印章编码，可覆盖圆形章、椭圆形章、方形章等常见种类的印章。	https://cloud.baidu.com/doc/OCR/s/Mk3h7y47a
ocr_table	表格文字识别V2	支持识别图片/PDF格式文档中的表格内容，返回各表格的表头表尾内容、单元格文字内容及其行列位置信息，全面覆盖各类表格样式，包括常规有线表格、无线表格、含合并单元格表格。同时，支持多表格内容识别。	https://cloud.baidu.com/doc/OCR/s/Al1zvpylt
ocr_meter_reading	仪器仪表盘读数识别	适用于不同品牌、不同型号的仪器仪表盘读数识别，广泛适用于各类血糖仪、血压仪、燃气表、电表等，可识别表盘上的数字、英文、符号，支持液晶屏、字轮表等表型。	https://cloud.baidu.com/doc/OCR/s/Jkafike0v
ocr_structure	智能结构化	支持智能提取图片中的字段结构化信息，无需训练灵活提取。适用于各类证照、票据、表单等版式中的结构化信息录入场景。	https://cloud.baidu.com/doc/OCR/s/Mltqmoc3o
ocr_file_classify	文件检测分类	对图片中的文档、卡证、票据等含文字的主体进行检测、分类，可同时支持一张图片中多张主体的情况，返回每个主体的类别及位置信息。	https://cloud.baidu.com/doc/OCR/s/qlor1ahik

文档解析

MCP Server URL: https://aip.baidubce.com/mcp/document/sse
支持的工具:

工具名称	工具描述	功能说明	对应的API接口文档
document_parse	文档解析	支持对doc、pdf、图片、xlsx等18种格式文档进行解析，输出文档的版面、表格、阅读顺序、标题层级、旋转角度等信息，支持中、英、日、韩、法等20余种语言类型，可返回Markdown格式内容，将非结构化数据转化为易于处理的结构化数据，识别准确率可达 90% 以上。	https://cloud.baidu.com/doc/OCR/s/Klxag8wiy

财务医疗票据识别

MCP Server URL: https://aip.baidubce.com/mcp/ocr_receipt/sse
支持的工具:

工具名称	工具描述	功能说明	对应的API接口文档
ocr_medical_settlement	医疗费用结算单识别	支持识别全国医疗费用结算单的姓名、出/入院时间、发票总金额、自费金额、医保支付金额等 6 个关键字段，其中北京地区票据识别效果最佳。	https://cloud.baidu.com/doc/OCR/s/Jke30ki7d
ocr_vat_verify	增值税发票验真	支持9种增值税发票的信息核验，包括增值税专票、电子专票、普票、电子普票、卷票、通行费增值税电子普通发票、货物运输业增值税专用发票、机动车销售发票、二手车销售发票等，支持返回票面的全部信息。同时可直接与同平台的发票识别能力对接，完成发票识别的同时进行自动化验真。	https://cloud.baidu.com/doc/OCR/s/cklbnrnwe
ocr_medical_expense	医疗费用明细识别	支持识别全国医疗费用明细小票的姓名、日期、病人ID、总金额等关键字段，支持识别费用明细项目，其中北京地区识别效果最佳。	https://cloud.baidu.com/doc/OCR/s/Bknjnwlyj
ocr_medical_invoice	医疗发票识别	支持识别全国各地门诊/住院发票的业务流水号、发票号、住院号、门诊号、病例号、姓名、性别、社保卡号、金额大/小写、收款单位、省市、医保统筹支付、个人账户支付等关键字段，其中北京/广东/河北/河南/江苏/山东/上海/天津/浙江等地区票据识别效果较佳。支持识别收费项目明细，并可根据不同省市地区返回对应的识别参数。	https://cloud.baidu.com/doc/OCR/s/yke30j1hq
ocr_finance_receipt	智能财务票据识别	支持财务场景中13种常见票据的分类及结构化识别，包括增值税发票、卷票、机打发票、定额发票、火车票、出租车票、网约车行程单、飞机行程单、汽车票、过路过桥费、船票、机动车/二手车销售发票。支持多张不同种类票据在同一张图片上的混贴场景，可返回每张票据的位置、种类及票面信息的结构化识别结果。	https://cloud.baidu.com/doc/OCR/s/7ktb8md0j

个人证照识别

MCP Server URL: https://aip.baidubce.com/mcp/ocr_personal_card/sse
支持的工具:

工具名称	工具描述	功能说明	对应的API接口文档
ocr_passport_international	护照识别（港澳台地区及境外）	支持对港澳台地区及境外护照进行结构化识别，包括MRZCode1、MRZCode2、出生日期、国家码、国籍、姓名拼音、性别、护照号、护照类型、有效期，10 个关键字段。	https://cloud.baidu.com/doc/OCR/s/5lr7dq3ej
ocr_driving_license	驾驶证识别	支持对机动车驾驶证正页及副页所有15个字段进行结构化识别，包括证号、姓名、性别、国籍、住址、出生日期、初次领证日期、准驾车型、有效期限、发证单位、档案编号等。	https://cloud.baidu.com/doc/OCR/s/Vk3h7xzz7
ocr_social_security	社保卡识别	支持识别全国各地社保卡，其中北京/河北等地区的识别效果最佳，支持识别社会保障卡号、姓名、性别、出生日期、银行卡号、有效期限等8个字段	https://cloud.baidu.com/doc/OCR/s/lkto93055
ocr_birth_cert	出生医学证明识别	支持对出生医学证明的6个关键字段进行结构化识别，包括新生儿姓名、性别、出生时间、父亲姓名、母亲姓名、出生证编号。	https://cloud.baidu.com/doc/OCR/s/mk3h7y1o6
ocr_property_cert	房产证识别	支持对房产证进行结构化识别，包括权利人、坐落、权利类型、面积、字第号、不动产单元号、共有情况、用途、使用期限、登记日期、共有人，全部 11 个字段。	https://cloud.baidu.com/doc/OCR/s/Qlqf1zc7h
ocr_hk_mo_tw_cert	港澳台证件识别	支持识别4类港澳台出入境证件识别，包含港澳通行证正/反面、台湾通行证正/反面、台胞证（台湾居民来往大陆通行证）正/反面、返乡证（港澳居民来往内地通行证）正/反面，可支持识别以上4类证件的全部字段信息。	https://cloud.baidu.com/doc/OCR/s/Tlg6859ns
ocr_household_register	户口本识别	支持对户口本内常住人口登记卡的全部 22 个字段进行结构化识别，包括户号、姓名、与户主关系、性别、出生地、民族、出生日期、身份证号、本市县其他住址、曾用名、籍贯、宗教信仰、身高、血型、文化程度、婚姻状况、兵役状况、服务处所、职业、何时由何地迁往本市、何时由何地迁往本址、登记日期。	https://cloud.baidu.com/doc/OCR/s/ak3h7xzk7
ocr_id_card	身份证识别	支持对二代居民身份证正反面所有8个字段进行结构化识别，包括姓名、性别、民族、出生日期、住址、身份证号、签发机关、有效期限，识别准确率超过99%；同时支持身份证正面头像检测，并返回头像切片的base64编码及位置信息。同时，支持对用户上传的身份证图片进行图像风险和质量检测，可识别图片是否为复印件或临时身份证，是否被翻拍或编辑，是否存在正反颠倒、模糊、欠曝、过曝等质量问题。	https://cloud.baidu.com/doc/OCR/s/rk3h7xzck
ocr_passport	护照识别	支持对中国大陆护照个人资料页所有15个字段进行结构化识别，包括国家码、护照号、姓名、姓名拼音、性别、出生地点、出生日期、签发地点（不支持境外签发地）、签发日期、有效期、签发机关、护照类型、国籍、MRZCode1、MRZCode2。	https://cloud.baidu.com/doc/OCR/s/Wk3h7y1gi
ocr_marriage_cert	结婚证识别	支持对结婚证进行结构化识别，包括姓名男、身份证件号男、出生日期男、国籍男、性别男、姓名女、身份证件号女、出生日期女、国籍女、性别女、结婚证字号、持证人、备注、登记日期，全部14 个字段。	https://cloud.baidu.com/doc/OCR/s/Klg67mfkc
ocr_divorce_cert	离婚证识别	支持对离婚证进行结构化识别，包括姓名男、身份证件号男、出生日期男、国籍男、性别男、姓名女、身份证件号女、出生日期女、国籍女、性别女、离婚证字号、持证人、备注、登记日期，全部 14 个字段。	https://cloud.baidu.com/doc/OCR/s/nm56djniq
ocr_bank_card	银行卡识别	支持对主流银行卡的卡号、有效期、发卡行、卡片类型4个关键字段进行结构化识别，识别准确率超过99%。	https://cloud.baidu.com/doc/OCR/s/ak3h7xxg3

企业证照识别

MCP Server URL: https://aip.baidubce.com/mcp/ocr_company_card/sse
支持的工具:

工具名称	工具描述	功能说明	对应的API接口文档
ocr_food_business_permit	食品经营许可证识别	支持对食品经营许可证进行结构化识别，包括经营者名称、社会信用代码、法定代表人、住所、经营场所、主体业态、经营项目、有效期至、许可证编号、日常监督管理机构、日常监督管理人员、发证机关、签发人、签发日期，全部 14 个字段。	https://cloud.baidu.com/doc/OCR/s/yltyewt09
ocr_business_license	营业执照识别	支持对不同版式营业执照的证件编号、社会信用代码、单位名称、地址、法人、类型、成立日期、有效日期、经营范围等关键字段进行结构化识别。	https://cloud.baidu.com/doc/OCR/s/sk3h7y3zs
ocr_account_permit	开户许可证识别	支持对开户许可证进行结构化识别，包括公司名称、开户银行、核准号、法人、编号、账号，全部 6 个字段。	https://cloud.baidu.com/doc/OCR/s/7lsb7obsj
ocr_food_produce_permit	食品生产许可证识别	支持对食品生产许可证进行结构化识别，包括生产者名称、社会信用代码、法定代表人、住所、生产地址、食品类别、有效期至、许可证编号、日常监督管理机构、日常监督管理人员、投诉举报电话等信息、发证机关、签发人、签发日期，全部 14 个字段。	https://cloud.baidu.com/doc/OCR/s/8ltygimoo

车辆证照识别

MCP Server URL: https://aip.baidubce.com/mcp/ocr_car_card/sse
支持的工具:

工具名称	工具描述	功能说明	对应的API接口文档
ocr_vin	VIN码识别	支持对车辆挡风玻璃处的车架号码进行识别。	https://cloud.baidu.com/doc/OCR/s/zk3h7y51e
ocr_vehicle_cert_mix	车辆证照混贴识别	车辆证照混贴识别接口支持自动检测与识别行驶证、驾驶证混贴图片，即识别机动车行驶证主页及副页、机动车驾驶证主页及副页在同一张图片上的场景，一次性识别图片中多个行驶证、驾驶证的所有字段。支持对机动车行驶证主页及副页所有22个字段进行结构化识别，包括号牌号码、车辆类型、所有人、品牌型号、车辆识别代码、发动机号码、核定载人数、质量、尺寸、检验记录等；支持对机动车驾驶证正页及副页所有15个字段进行结构化识别，包括证号、姓名、性别、国籍、住址、出生日期、初次领证日期、准驾车型、有效期限、发证单位、档案编号等。	https://cloud.baidu.com/doc/OCR/s/Kksfsbngb
ocr_vehicle_registration	机动车登记证书识别	支持对机动车登记证书的15个关键字段进行结构化识别，包括编号、机动车所有人、登记机关、登记日期、登记编号、车辆类型等，同时支持检测发证机关章。	https://cloud.baidu.com/doc/OCR/s/vk3h7y4tx
ocr_vehicle_qualification	车辆合格证识别	支持对车辆合格证的28个关键字段进行结构化识别，包括合格证编号、发证日期、车辆制造企业名、车辆品牌、车辆名称、车辆型号、车架号、车身颜色、发动机型号、发动机号、燃料种类、排量、功率、排放标准、轮胎数、轴距、轴数、转向形式、总质量、整备质量、驾驶室准乘人数、最高设计车速、车辆制造日期等。	https://cloud.baidu.com/doc/OCR/s/yk3h7y3sc
ocr_road_transport	道路运输证识别	结构化识别道路运输证的业户名称、地址、车辆号牌、经营许可证、经济类型、车辆类型、吨座位、车辆规格、经营范围、初领日期、备注、发证日期等14个关键字段，支持识别横版及竖版两种道路运输证	https://cloud.baidu.com/doc/OCR/s/ol07rjylw
ocr_license_plate	车牌识别	支持识别中国大陆机动车蓝牌、黄牌（单双行）、绿牌、大型新能源（黄绿）、领使馆车牌、警牌、武警牌（单双行）、军牌（单双行）、港澳出入境车牌、农用车牌、民航车牌的地域编号和车牌号，并能同时识别图像中的多张车牌。	https://cloud.baidu.com/doc/OCR/s/ck3h7y191

教育文字识别

MCP Server URL: https://aip.baidubce.com/mcp/ocr_edu/sse
支持的工具:

工具名称	工具描述	功能说明	对应的API接口文档
ocr_exam_analysis	试卷分析与识别	可对文档版面进行分析，输出图、表、标题、文本的位置，并输出分版块内容的OCR识别结果，支持中、英两种语言，手写、印刷体混排多种场景。	https://cloud.baidu.com/doc/OCR/s/jk9m7mj1l

图像识别

MCP Server URL: https://aip.baidubce.com/mcp/image_recognition/sse
支持的工具:

工具名称	工具描述	功能说明	对应的API接口文档
image_general_scene	通用物体和场景识别	该请求用于通用物体及场景识别，即对于输入的一张图片（可正常解码，且长宽比适宜），输出图片中的多个物体及场景标签。	https://cloud.baidu.com/doc/IMAGERECOGNITION/s/Xk3bcxe21
image_vehicle_detect	车辆检测	传入单帧图像，检测图片中所有机动车辆，返回每辆车的类型和坐标位置，可识别小汽车、卡车、巴士、摩托车、三轮车5类车辆，并对每类车辆分别计数，同时可定位小汽车、卡车、巴士的车牌位置，支持指定矩形区域的车辆检测与数量统计。当前主要适用于普通监控场景，如道路、停车场等，无人机高空拍摄的图片，因车辆目标较小，识别效果可能欠佳，后续会扩展支持超高空拍摄场景，如有该场景的需求，请通过QQ群或提交工单，详细沟通测试情况。	https://cloud.baidu.com/doc/IMAGERECOGNITION/s/2lw8w1hym
image_fruit_veg	果蔬识别	识别图像中的果蔬类别	https://cloud.baidu.com/doc/IMAGERECOGNITION/s/wk3bcxevq
image_car_type	车型识别	识别图片中车辆的具体车型，可识别常见的3000+款车型（小汽车为主），输出车辆的品牌型号、颜色、年份、位置信息；支持返回对应识别结果的百度百科词条信息，包含词条名称、百科页面链接、百科图片链接、百科内容简介。注：当前只支持单主体识别，若图片中有多个车辆，则识别目标最大的车辆。	https://cloud.baidu.com/doc/IMAGERECOGNITION/s/llw7a5n24
image_multi_object_detect	图像多主体检测	检测出图片中多个主体，并给出位置、标签和置信得分。	https://cloud.baidu.com/doc/IMAGERECOGNITION/s/Wk7em3moi
image_single_object_detect	图像单主体检测	用户向服务请求检测图像中的主体位置。	https://cloud.baidu.com/doc/IMAGERECOGNITION/s/Xk3bcxdum
image_currency	货币识别	识别图像中的货币类型，以纸币为主，正反面均可准确识别，接口返回货币的名称、代码、面值、年份信息；可识别各类近代常见货币，如美元、欧元、英镑、法郎、澳大利亚元、俄罗斯卢布、日元、韩元、泰铢、印尼卢比等。注意：图片中货币要清晰可见	https://cloud.baidu.com/doc/IMAGERECOGNITION/s/pk3bcxavy
image_dish	菜品识别	用于菜品识别。即对于输入的一张图片（可正常解码，且长宽比适宜），输出图片的菜品名称、卡路里信息、置信度。	https://cloud.baidu.com/doc/IMAGERECOGNITION/s/tk3bcxbb0
image_plant	植物识别	该请求用于识别一张图片，即对于输入的一张图片（可正常解码，且长宽比较合适），输出植物识别结果。	https://cloud.baidu.com/doc/IMAGERECOGNITION/s/Mk3bcxe9i
image_landmark	地标识别	该请求用于识别地标，即对于输入的一张图片（可正常解码，且长宽比适宜），输出图片中的地标识别结果。	https://cloud.baidu.com/doc/IMAGERECOGNITION/s/jk3bcxbih
image_animal	动物识别	该请求用于识别一张图片，即对于输入的一张图片（可正常解码，且长宽比较合适），输出动物识别结果。	https://cloud.baidu.com/doc/IMAGERECOGNITION/s/Zk3bcxdfr

看图识万物

MCP Server URL: https://aip.baidubce.com/mcp/image_understanding/sse
支持的工具:

工具名称	工具描述	功能说明	对应的API接口文档
object_recognition	看图识万物	基于视觉专家模型与多模态大模型技术实现万物精准识别，支持针对图像中的主体内容进行通识性知识问答，覆盖动植物、名人、影视、汽车、商品、文物等各类主体类型，整合权威百科及实时网络信息，输出高时效性、多维度的精准答案。适用于通用AI助手、智能硬件、科普问答等场景。	https://cloud.baidu.com/doc/IMAGERECOGNITION/s/umcj0nqdl

图像增强

MCP Server URL: https://aip.baidubce.com/mcp/image_enhance/sse
支持的工具:

工具名称	工具描述	功能说明	对应的API接口文档
image_remove_handwriting	文档去手写	去除图片中的手写内容，保留印刷体内容，可用于试卷去手写还原等场景	https://cloud.baidu.com/doc/OCR/s/il4tb1jay
image_moire_remove	图片去摩尔纹	去除翻拍电脑、手机等显示屏照片中的摩尔纹，使图片更加清晰。	https://cloud.baidu.com/doc/IMAGEPROCESS/s/ql4wdlnc0
image_doc_crop_enhance	文档矫正增强	对图片中的文件、卡证、票据等内容进行四角点检测定位，提取主体内容并对其进行矫正，同时可选图片增强效果进一步提升图片清晰度，达到主体检测矫正并增强的目的，提升图片整体质量。	https://cloud.baidu.com/doc/OCR/s/Hl4taza5f
image_contrast_enhance	图像对比度增强	调整过暗或者过亮图像的对比度，使图像更加鲜明。	https://cloud.baidu.com/doc/IMAGEPROCESS/s/ek3bclnzn
image_dehaze	图像去雾	对浓雾天气下拍摄，导致细节无法辨认的图像进行去雾处理，还原更清晰真实的图像。	https://cloud.baidu.com/doc/IMAGEPROCESS/s/8k3bclp1l
image_doc_watermark_remove	文档图片去底纹	自动识别并去除文档图片中的底纹，使图片更加清晰，便于阅读。	https://cloud.baidu.com/doc/IMAGEPROCESS/s/Nl6os53ab
image_sharpen	图像清晰度增强	对压缩后的模糊图像实现智能快速去噪，优化图像纹理细节，使画面更加自然清晰	https://cloud.baidu.com/doc/IMAGEPROCESS/s/5k4i6mzqk
image_denoise	图像去噪	自动识别图片内（由成像设备或者外部环境导致的）噪点，进行去噪处理，使得图像更加干净，细节更加突出。常见应用场景为老照片修复、监控图片处理。	https://cloud.baidu.com/doc/IMAGEPROCESS/s/Tl78sby7g
image_upscale	图像无损放大	输入一张图片，可以在尽量保持图像质量的条件下，将图像在长宽方向各放大两倍。	https://cloud.baidu.com/doc/IMAGEPROCESS/s/ok3bclnkg
image_stretch_restore	拉伸图像恢复	自动识别过度拉伸的图像，将图像内容恢复成正常比例。	https://cloud.baidu.com/doc/IMAGEPROCESS/s/Rk3bclp97
image_inpaint	图像修复	去除图片中不需要的遮挡物，并用背景内容填充，提高图像质量。	https://cloud.baidu.com/doc/IMAGEPROCESS/s/ok3bclome
image_color_enhance	图像色彩增强	可智能调节图片的色彩饱和度、亮度、对比度，使得图片内容细节、色彩更加逼真，可用于提升网站图片、手机相册图片、视频封面图片的质量。	https://cloud.baidu.com/doc/IMAGEPROCESS/s/Tk9l4kll7

注意：图像增强工具的输出都包含图片，请确认你的client是支持image类型输出的

图像特效

MCP Server URL: https://aip.baidubce.com/mcp/image_effect/sse
支持的工具:

工具名称	工具描述	功能说明	对应的API接口文档
image_style_transfer	图像风格转换	可将图像转化成卡通画、铅笔画、彩色铅笔画，或者哥特油画、彩色糖块油画、呐喊油画、神奈川冲浪里油画、奇异油画、薰衣草油画等共计9种风格，可用于开展趣味活动，或集成到美图应用中对图像进行风格转换	https://cloud.baidu.com/doc/IMAGEPROCESS/s/xk3bclo77
image_colorize	黑白图像上色	智能识别黑白图像内容并填充色彩，使黑白图像变得鲜活。	https://cloud.baidu.com/doc/IMAGEPROCESS/s/Bk3bclns3
image_portrait_anime	人像动漫化	运用世界领先的对抗生成网络，结合人脸检测、头发分割、人像分割等技术，为用户量身定制千人千面的二次元动漫形象，并且可通过参数设置，生成戴口罩的二次元动漫人像	https://cloud.baidu.com/doc/IMAGEPROCESS/s/Mk4i6olx5

注意：图像增强工具的输出都包含图片，请确认你的client是支持image类型输出的

人脸识别

MCP Server URL: https://aip.baidubce.com/mcp/face/sse
支持的工具:

工具名称	工具描述	功能说明	对应的API接口文档
face_detect	人脸检测	接口能力： - 人脸检测：检测图片中的人脸并标记出位置信息 - 人脸关键点：展示人脸的核心关键点信息，及150个关键点信息 - 人脸属性值：展示人脸属性信息，如年龄、性别等 - 人脸质量信息：返回人脸各部分的遮挡、光照、模糊、完整度、置信度等信息	https://cloud.baidu.com/doc/FACE/s/yk37c1u4t

语音技术

MCP Server URL: https://aip.baidubce.com/mcp/speech/sse
支持的工具:

工具名称	工具描述	功能说明	对应的API接口文档
speech_recognition	短语音识别标准版	将60秒以内的语音精准识别为文字，可适用于手机语音输入、智能语音交互、语音指令、语音搜索等短语音交互场景。	https://cloud.baidu.com/doc/SPEECH/s/Jlbxdezuf
speech_recognition_faster	短语音识别极速版	将60秒以内的完整音频文件识别为文字，专有GPU服务集群，识别响应速度较标准版API提升2倍及识别准确率提升15%。适用于近场短语音交互，如手机语音搜索、聊天输入等场景。支持上传完整的录音文件，录音文件时长不超过60秒，实时返回识别结果。	https://cloud.baidu.com/doc/SPEECH/s/4lbxdz34z

附录2：什么是MCP协议？

MCP可以看做大模型与具体的工具之间的"转接头"。

在MCP出现之前，大模型想要调用外部工具（例如邮箱、日历、聊天软件等），都需要专门基于大模型平台开发一个适配某工具的插件。插件是捆绑在平台上的，在A平台能用的插件，到了B平台上还需要重复适配。

而MCP是一个开放的标准协议，只要某工具支持了MCP协议，则所有支持MCP协议的平台都可以调用该工具。

这为行业带来了全新的思路：如果大模型平台和工具提供者均支持MCP协议，则平台方可以调用海量的MCP工具，而工具提供方也可以让自身的服务被跨平台的开发者所使用。

这也极大便利了大模型应用的开发者，支持MCP的工具提供者越多，大模型应用就能具备更多技能，能够做到更多原来做不到的事。

API调用指南

财务参考