AI开放能力MCP使用指南
百度智能云提供了丰富的AI开放能力,包括文字识别、图像识别、人脸识别等,有着优秀的效果和响应效率。
现在,AI开放能力全面拥抱MCP协议,大幅降低智能体应用开发过程中调用相关能力的门槛,为智能体装上更灵敏的手和脚,让智能体能做更多事,且做的更好。
当前百度智能云AI开放能力共提供了11个MCP Server,共68个工具。详细清单见附录1:工具清单。
功能类型 | MCP Server地址 | 包含工具能力 |
---|---|---|
通用文字识别 | https://aip.baidubce.com/mcp/ocr_general/sse | 通用文字识别、网络图片文字识别、办公文档识别、表格文字识别、手写文字识别、智能结构化、文件检测分类、二维码识别、数字识别、印章识别、仪器仪表盘读数识别 |
财务医疗票据识别 | https://aip.baidubce.com/mcp/ocr_receipt/sse | 智能财务票据识别、增值税发票验真、医疗发票识别、医疗费用明细识别、医疗费用结算单识别 |
个人证照识别 | https://aip.baidubce.com/mcp/ocr_personal_card/sse | 身份证识别、银行卡识别、驾驶证识别、护照识别、护照识别(港澳台地区及境外)、港澳台证件识别、户口本识别、出生医学证明识别、结婚证识别、离婚证识别、社保卡识别、房产证识别 |
企业证照识别 | https://aip.baidubce.com/mcp/ocr_company_card/sse | 营业执照识别、开户许可证识别、食品经营许可证识别、食品生产许可证识别 |
车辆证照识别 | https://aip.baidubce.com/mcp/ocr_car_card/sse | 车牌识别、VIN 码识别、车辆证照混贴识别、车辆合格证识别、道路运输证识别、机动车登记证书识别 |
教育文字识别 | https://aip.baidubce.com/mcp/ocr_edu/sse | 试卷分析与识别 |
图像识别 | https://aip.baidubce.com/mcp/image_recognition/sse | 车辆检测、车型识别、菜品识别、地标识别、动物识别、果蔬识别、货币识别、通用物体和场景识别、图像单主体检测、图像多主体检测、植物识别 |
图像增强 | https://aip.baidubce.com/mcp/image_enhance/sse | 拉伸图像恢复、图片去摩尔纹、图像对比度增强、图像清晰度增强、图像去雾、图像去噪、图像色彩增强、图像无损放大、图像修复、文档图片去底纹、文档矫正增强、文档去手写 |
图像特效 | https://aip.baidubce.com/mcp/image_effects/sse | 黑白图像上色、人像动漫化、图像风格转换 |
人脸识别 | https://aip.baidubce.com/mcp/face/sse | 人脸检测 |
语音技术 | https://aip.baidubce.com/mcp/speech/sse | 短语音识别 |
使用方式
当前MCP Server仅支持通过APIKey的方式使用,开始前请参考 API Key鉴权机制创建一个AI开放能力的API Key,并为API Key配置合适的权限范围。
- 为避免MCP使用过程中遇到未授权的问题,建议为API Key配置AI开放能力-全部接口权限。
- 使用短期API Key时,请注意API Key的有效期,避免过期后无法使用。
- 大多数AI开放能力都为已实名认证的客户提供了免费测试额度,创建AI开放能力的API Key后即可调用这些额度。如免费额度耗尽,您可以前往对应能力的购买页,购买更多资源。
能力方向 | 免费额度 | 资源购买 |
---|---|---|
文字识别 | 查看 | 去购买 |
图像识别 | 查看 | 去购买 |
图像增强与特效 | 查看 | 去购买 |
人脸识别 | 查看 | 去购买 |
通过 HTTP SSE 传输方式使用 MCP Server
对于支持HTTP SSE传输的Client (如Cursor),建议使用此方式,无须安装其他前置依赖。
-
配置:参考下面的配置文件:
- mcp_server_url: 替换成要使用的MCP Server的URL, 例如:https://aip.baidubce.com/mcp/ocr_general/sse
- api_key: 替换成你的API Key, 注意需要进行URL编码后填入,否则可能会导致连接失败
{
"mcpServers": {
"mcpserver_1": {
"url": "<mcp_server_url>?Authorization=Bearer%20<url encoded api key>"
}
}
}
通过 stdio 传输方式使用 MCP Server
对于不支持HTTP SSE传输的Client (如Claude), 可以通过stdio传输方式使用MCP Server。百度AI开放能力目前尚未提供原生的stdio传输方式,可通过第三方工具supergateway实现。
-
安装
- 安装nodejs: 请参考nodejs官网
-
配置:参考下面的配置文件:
- mcp_server_url: 替换成要使用的MCP Server的URL, 例如:https://aip.baidubce.com/mcp/ocr_general/sse
- api_key: 替换成你的API Key
{
"mcpServers": {
"mcpserver_1": {
"command": "npx",
"args": [
"-y",
"supergateway",
"--sse",
"<mcp_server_url>",
"--header",
"Authorization: Bearer <api key>"
]
}
}
}
快速开始:常见 Client 使用方式举例
下面将以调用『教育文字识别』MCP为例,介绍在几类常见Client里的使用方式。帮助第一次使用MCP的开发者快速上手使用。
在 Cursor 中使用
- 打开cursor,点击右上角的齿轮图标,打开设置界面
- 选择『MCP』,点击『Add new global MCP Server』,打开MCP Server配置文件
- 在配置文件里粘贴以下内容。如果您已经配置了其他MCP Server,需要注意新增加的内容与其他内容都要在"mcpServers"这个父节点之下。
{
"mcpServers": {
"ocr_edu": {
"url": "https://aip.baidubce.com/mcp/ocr_edu/sse?Authorization=Bearer%20<url encoded api key>"
}
}
}
其中:
- ocr_edu是MCP Server的名称,您可以自行设置。
- ?后面的是AI开放能力的API Key,请根据API Key使用文档 获取;
- https://aip.baidubce.com/mcp/ocr_edu/sse 是教育文字识别MCP Server的地址,您可以在本文开头找到其他MCP Server的地址。
- 保存文件变更,重启cursor。重启后就能在MCP的配置界面看到对应的MCP Server了。
- 接下来就可以提问,验证能力了。例如,我们使用cursor的agent模式,输入一张手写试卷的url地址(例如https://dataset-bj.bj.bcebos.com/v1/platform-guangwang/home/%E6%89%8B%E5%86%99%E8%AF%95%E5%8D%B7.png),并要求识别里边的文字。cursor会自动调用对应的MCP识别图片里的文字内容并返回。
在 Claude 中使用
- Claude目前不支持sse,可以通过第三方工具supergateway实现调用。调用前,请先安装好nodejs。
- Claude免费版所提供的大模型上下文长度较短,在使用工具较多的MCP Server时可能会报错。
- 打开Claude本地客户端,点击Claude-Settings
- 点击Developer-Edit Config,会出现Claude的MCP配置文件。打开该配置文件。
- 在配置文件里粘贴以下内容。如果您已经配置了其他MCP Server,需要注意新增加的内容与其他内容都要在"mcpServers"这个父节点之下。
{
"mcpServers": {
"ocr_edu": {
"command": "npx",
"args": [
"-y",
"supergateway",
"--sse",
"https://aip.baidubce.com/mcp/ocr_edu/sse",
"--header",
"Authorization: Bearer <api key>"
]
}
}
}
其中:
ocr_edu
是MCP Server的名称,您可以自行设置。https://aip.baidubce.com/mcp/ocr_receipt/sse
是教育文字识别MCP Server的地址,您可以在本文开头找到其他MCP Server的地址。<api key>
需要替换成AI开放能力的API Key,请根据API Key使用文档 获取
- 保存文件变更,重启Claude。重启后就能在Claude界面上看到一个锤形图标,点击即可查看当前已添加的MCP工具。
- 接下来就可以提问,验证能力了。例如,输入一张手写试卷的url地址(例如https://dataset-bj.bj.bcebos.com/v1/platform-guangwang/home/%E6%89%8B%E5%86%99%E8%AF%95%E5%8D%B7.png),并要求识别里边的文字。cursor会自动调用对应的MCP识别图片里的文字内容并返回。
通过千帆 AppBuilder 平台接入
使用千帆Appbuilder接入AI开放能力MCP的示例代码已上传至github,您可以参考readme文件的指引,实现一个接入AI开放能力的智能体。
通过 MCP Python SDK 接入
使用MCP Python SDK接入AI开放能力MCP的示例代码已上传至github,您可以参考readme文件的指引,实现一个接入AI开放能力的智能体。
使用 Tips
- 受限于MCP协议的实现方式,使用MCP协议需要大模型具备较长的上下文长度,短上下文的大模型会直接报错。经过实际测试,64k token以上的上下文长度可以获得较好的效果。此外,MCP依赖大模型的判断能力来选取正确的工具,建议使用效果领先的大模型。
- 目前通过mcp协议调用的请求总大小建议不超过4MB,否则可能会报错。
- 在cursor、claude等客户端配置好MCP Server后,通常需要重启客户端以更新MCP配置。如您确认MCP Server的配置正确但无法正常使用,可尝试重启客户端。
- 如果能力的输入/输出是多模态的(例如图片、语音文件),需要您使用的MCP client支持对应的文件格式。可以参考https://modelcontextprotocol.io/clients了解哪些client支持对应格式,或者参考官方开发文档自己实现一个client。
附录1:工具清单
通用文字识别
- MCP Server URL: https://aip.baidubce.com/mcp/ocr_general/sse
- 支持的工具:
工具名称 | 工具描述 | 功能说明 | 对应的API接口文档 |
---|---|---|---|
ocr_general_accurate_location | 通用文字识别(高精度含位置版) | 提供多场景、多语种、高精度的整图文字检测和识别服务,支持生僻字识别,并支持20种语言识别,相对于通用文字识别(含位置信息版)该产品精度更高,但是识别耗时会稍长。 | https://cloud.baidu.com/doc/OCR/s/tk3h7y2aq |
ocr_handwriting | 手写文字识别 | 支持对图片中的手写中文、手写数字进行检测和识别,针对不规则的手写字体进行专项优化,识别准确率可达90%以上。 | https://cloud.baidu.com/doc/OCR/s/hk3h7y2qq |
ocr_office_doc | 办公文档识别 | 可对办公类文档版面进行分析,输出图、表、标题、文本的位置,并输出分版块内容的OCR识别结果,支持中、英两种语言,手写、印刷体混排多种场景。 | https://cloud.baidu.com/doc/OCR/s/ykg9c09ji |
ocr_web_image_location | 网络图片文字识别(含位置版) | 支持识别艺术字体或背景复杂的文字内容,除文字信息外,还可返回每行文字的位置信息、行置信度,以及单字符内容和位置等。 | https://cloud.baidu.com/doc/OCR/s/Nkaz574we |
ocr_qrcode | 二维码识别 | 对图片中的二维码、条形码进行检测和识别,返回存储的文字信息。 | https://cloud.baidu.com/doc/OCR/s/qk3h7y5o7 |
ocr_digits | 数字识别 | 对图片中的数字进行提取和识别,自动过滤非数字内容,仅返回数字内容及其位置信息,识别准确率超过99%。 | https://cloud.baidu.com/doc/OCR/s/Ok3h7y1vo |
ocr_seal | 印章识别 | 检测并识别合同文件或常用票据中的印章,输出文字内容、印章位置信息以及相关置信度,支持识别印章编码,可覆盖圆形章、椭圆形章、方形章等常见种类的印章。 | https://cloud.baidu.com/doc/OCR/s/Mk3h7y47a |
ocr_table | 表格文字识别V2 | 支持识别图片/PDF格式文档中的表格内容,返回各表格的表头表尾内容、单元格文字内容及其行列位置信息,全面覆盖各类表格样式,包括常规有线表格、无线表格、含合并单元格表格。同时,支持多表格内容识别。 | https://cloud.baidu.com/doc/OCR/s/Al1zvpylt |
ocr_meter_reading | 仪器仪表盘读数识别 | 适用于不同品牌、不同型号的仪器仪表盘读数识别,广泛适用于各类血糖仪、血压仪、燃气表、电表等,可识别表盘上的数字、英文、符号,支持液晶屏、字轮表等表型。 | https://cloud.baidu.com/doc/OCR/s/Jkafike0v |
ocr_structure | 智能结构化 | 支持智能提取图片中的字段结构化信息,无需训练灵活提取。适用于各类证照、票据、表单等版式中的结构化信息录入场景。 | https://cloud.baidu.com/doc/OCR/s/Mltqmoc3o |
ocr_file_classify | 文件检测分类 | 对图片中的文档、卡证、票据等含文字的主体进行检测、分类,可同时支持一张图片中多张主体的情况,返回每个主体的类别及位置信息。 | https://cloud.baidu.com/doc/OCR/s/qlor1ahik |
财务医疗票据识别
- MCP Server URL: https://aip.baidubce.com/mcp/ocr_receipt/sse
- 支持的工具:
工具名称 | 工具描述 | 功能说明 | 对应的API接口文档 |
---|---|---|---|
ocr_medical_settlement | 医疗费用结算单识别 | 支持识别全国医疗费用结算单的姓名、出/入院时间、发票总金额、自费金额、医保支付金额等 6 个关键字段,其中北京地区票据识别效果最佳。 | https://cloud.baidu.com/doc/OCR/s/Jke30ki7d |
ocr_vat_verify | 增值税发票验真 | 支持9种增值税发票的信息核验,包括增值税专票、电子专票、普票、电子普票、卷票、通行费增值税电子普通发票、货物运输业增值税专用发票、机动车销售发票、二手车销售发票等,支持返回票面的全部信息。同时可直接与同平台的发票识别能力对接,完成发票识别的同时进行自动化验真。 | https://cloud.baidu.com/doc/OCR/s/cklbnrnwe |
ocr_medical_expense | 医疗费用明细识别 | 支持识别全国医疗费用明细小票的姓名、日期、病人ID、总金额等关键字段,支持识别费用明细项目,其中北京地区识别效果最佳。 | https://cloud.baidu.com/doc/OCR/s/Bknjnwlyj |
ocr_medical_invoice | 医疗发票识别 | 支持识别全国各地门诊/住院发票的 业务流水号、发票号、住院号、门诊号、病例号、姓名、性别、社保卡号、金额大/小写、收款单位、省市、医保统筹支付、个人账户支付 等关键字段,其中北京/广东/河北/河南/江苏/山东/上海/天津/浙江等地区票据识别效果较佳。支持识别收费项目明细,并可根据不同省市地区返回对应的识别参数。 | https://cloud.baidu.com/doc/OCR/s/yke30j1hq |
ocr_finance_receipt | 智能财务票据识别 | 支持财务场景中13种常见票据的分类及结构化识别,包括增值税发票、卷票、机打发票、定额发票、火车票、出租车票、网约车行程单、飞机行程单、汽车票、过路过桥费、船票、机动车/二手车销售发票。支持多张不同种类票据在同一张图片上的混贴场景,可返回每张票据的位置、种类及票面信息的结构化识别结果。 | https://cloud.baidu.com/doc/OCR/s/7ktb8md0j |
个人证照识别
- MCP Server URL: https://aip.baidubce.com/mcp/ocr_personal_card/sse
- 支持的工具:
工具名称 | 工具描述 | 功能说明 | 对应的API接口文档 |
---|---|---|---|
ocr_passport_international | 护照识别(港澳台地区及境外) | 支持对港澳台地区及境外护照进行结构化识别,包括MRZCode1、MRZCode2、出生日期、国家码、国籍、姓名拼音、性别、护照号、护照类型、有效期,10 个关键字段。 | https://cloud.baidu.com/doc/OCR/s/5lr7dq3ej |
ocr_driving_license | 驾驶证识别 | 支持对机动车驾驶证正页及副页所有15个字段进行结构化识别,包括证号、姓名、性别、国籍、住址、出生日期、初次领证日期、准驾车型、有效期限、发证单位、档案编号等。 | https://cloud.baidu.com/doc/OCR/s/Vk3h7xzz7 |
ocr_social_security | 社保卡识别 | 支持识别全国各地社保卡,其中北京/河北等地区的识别效果最佳,支持识别社会保障卡号、姓名、性别、出生日期、银行卡号、有效期限等8个字段 | https://cloud.baidu.com/doc/OCR/s/lkto93055 |
ocr_birth_cert | 出生医学证明识别 | 支持对出生医学证明的6个关键字段进行结构化识别,包括新生儿姓名、性别、出生时间、父亲姓名、母亲姓名、出生证编号。 | https://cloud.baidu.com/doc/OCR/s/mk3h7y1o6 |
ocr_property_cert | 房产证识别 | 支持对房产证进行结构化识别,包括权利人、坐落、权利类型、面积、字第号 、不动产单元号、共有情况、用途、使用期限 、登记日期、共有人,全部 11 个字段。 | https://cloud.baidu.com/doc/OCR/s/Qlqf1zc7h |
ocr_hk_mo_tw_cert | 港澳台证件识别 | 支持识别4类港澳台出入境证件识别,包含港澳通行证正/反面、台湾通行证正/反面、台胞证(台湾居民来往大陆通行证)正/反面、返乡证(港澳居民来往内地通行证)正/反面,可支持识别以上4类证件的全部字段信息。 | https://cloud.baidu.com/doc/OCR/s/Tlg6859ns |
ocr_household_register | 户口本识别 | 支持对户口本内常住人口登记卡的全部 22 个字段进行结构化识别,包括户号、姓名、与户主关系、性别、出生地、民族、出生日期、身份证号、本市县其他住址、曾用名、籍贯、宗教信仰、身高、血型、文化程度、婚姻状况、兵役状况、服务处所、职业、何时由何地迁往本市、何时由何地迁往本址、登记日期。 | https://cloud.baidu.com/doc/OCR/s/ak3h7xzk7 |
ocr_id_card | 身份证识别 | 支持对二代居民身份证正反面所有8个字段进行结构化识别,包括姓名、性别、民族、出生日期、住址、身份证号、签发机关、有效期限,识别准确率超过99%;同时支持身份证正面头像检测,并返回头像切片的base64编码及位置信息。 同时,支持对用户上传的身份证图片进行图像风险和质量检测,可识别图片是否为复印件或临时身份证,是否被翻拍或编辑,是否存在正反颠倒、模糊、欠曝、过曝等质量问题。 | https://cloud.baidu.com/doc/OCR/s/rk3h7xzck |
ocr_passport | 护照识别 | 支持对中国大陆护照个人资料页所有15个字段进行结构化识别,包括国家码、护照号、姓名、姓名拼音、性别、出生地点、出生日期、签发地点(不支持境外签发地)、签发日期、有效期、签发机关、护照类型、国籍、MRZCode1、MRZCode2。 | https://cloud.baidu.com/doc/OCR/s/Wk3h7y1gi |
ocr_marriage_cert | 结婚证识别 | 支持对结婚证进行结构化识别,包括姓名男、身份证件号男、出生日期男、国籍男、性别男、姓名女、身份证件号女、出生日期女、国籍女、性别女、结婚证字号、持证人、备注、登记日期,全部14 个字段。 | https://cloud.baidu.com/doc/OCR/s/Klg67mfkc |
ocr_divorce_cert | 离婚证识别 | 支持对离婚证进行结构化识别,包括姓名男、身份证件号男、出生日期男、国籍男、性别男、姓名女、身份证件号女、出生日期女、国籍女、性别女、离婚证字号、持证人、备注、登记日期,全部 14 个字段。 | https://cloud.baidu.com/doc/OCR/s/nm56djniq |
ocr_bank_card | 银行卡识别 | 支持对主流银行卡的卡号、有效期、发卡行、卡片类型4个关键字段进行结构化识别,识别准确率超过99%。 | https://cloud.baidu.com/doc/OCR/s/ak3h7xxg3 |
企业证照识别
- MCP Server URL: https://aip.baidubce.com/mcp/ocr_company_card/sse
- 支持的工具:
工具名称 | 工具描述 | 功能说明 | 对应的API接口文档 |
---|---|---|---|
ocr_food_business_permit | 食品经营许可证识别 | 支持对食品经营许可证进行结构化识别,包括经营者名称、社会信用代码、法定代表人、住所、经营场所、主体业态、经营项目、有效期至、许可证编号、日常监督管理机构、日常监督管理人员、发证机关、签发人、签发日期,全部 14 个字段。 | https://cloud.baidu.com/doc/OCR/s/yltyewt09 |
ocr_business_license | 营业执照识别 | 支持对不同版式营业执照的证件编号、社会信用代码、单位名称、地址、法人、类型、成立日期、有效日期、经营范围等关键字段进行结构化识别。 | https://cloud.baidu.com/doc/OCR/s/sk3h7y3zs |
ocr_account_permit | 开户许可证识别 | 支持对开户许可证进行结构化识别,包括公司名称、开户银行、核准号、法人、编号、账号,全部 6 个字段。 | https://cloud.baidu.com/doc/OCR/s/7lsb7obsj |
ocr_food_produce_permit | 食品生产许可证识别 | 支持对食品生产许可证进行结构化识别,包括生产者名称、社会信用代码、法定代表人、住所、生产地址、食品类别、有效期至、许可证编号、日常监督管理机构、日常监督管理人员、投诉举报电话等信息、发证机关、签发人、签发日期,全部 14 个字段。 | https://cloud.baidu.com/doc/OCR/s/8ltygimoo |
车辆证照识别
- MCP Server URL: https://aip.baidubce.com/mcp/ocr_car_card/sse
- 支持的工具:
工具名称 | 工具描述 | 功能说明 | 对应的API接口文档 |
---|---|---|---|
ocr_vin | VIN码识别 | 支持对车辆挡风玻璃处的车架号码进行识别。 | https://cloud.baidu.com/doc/OCR/s/zk3h7y51e |
ocr_vehicle_cert_mix | 车辆证照混贴识别 | 车辆证照混贴识别接口支持自动检测与识别行驶证、驾驶证混贴图片,即识别机动车行驶证主页及副页、机动车驾驶证主页及副页在同一张图片上的场景,一次性识别图片中多个行驶证、驾驶证的所有字段。 支持对机动车行驶证主页及副页所有22个字段进行结构化识别,包括号牌号码、车辆类型、所有人、品牌型号、车辆识别代码、发动机号码、核定载人数、质量、尺寸、检验记录等;支持对机动车驾驶证正页及副页所有15个字段进行结构化识别,包括证号、姓名、性别、国籍、住址、出生日期、初次领证日期、准驾车型、有效期限、发证单位、档案编号等。 | https://cloud.baidu.com/doc/OCR/s/Kksfsbngb |
ocr_vehicle_registration | 机动车登记证书识别 | 支持对机动车登记证书的15个关键字段进行结构化识别,包括编号、机动车所有人、登记机关、登记日期、登记编号、车辆类型等,同时支持检测发证机关章。 | https://cloud.baidu.com/doc/OCR/s/vk3h7y4tx |
ocr_vehicle_qualification | 车辆合格证识别 | 支持对车辆合格证的28个关键字段进行结构化识别,包括合格证编号、发证日期、车辆制造企业名、车辆品牌、车辆名称、车辆型号、车架号、车身颜色、发动机型号、发动机号、燃料种类、排量、功率、排放标准、轮胎数、轴距、轴数、转向形式、总质量、整备质量、驾驶室准乘人数、最高设计车速、车辆制造日期等。 | https://cloud.baidu.com/doc/OCR/s/yk3h7y3sc |
ocr_road_transport | 道路运输证识别 | 结构化识别道路运输证的业户名称、地址、车辆号牌、经营许可证、经济类型、车辆类型、吨座位、车辆规格、经营范围、初领日期、备注、发证日期等14个关键字段,支持识别横版及竖版两种道路运输证 | https://cloud.baidu.com/doc/OCR/s/ol07rjylw |
ocr_license_plate | 车牌识别 | 支持识别中国大陆机动车蓝牌、黄牌(单双行)、绿牌、大型新能源(黄绿)、领使馆车牌、警牌、武警牌(单双行)、军牌(单双行)、港澳出入境车牌、农用车牌、民航车牌的地域编号和车牌号,并能同时识别图像中的多张车牌。 | https://cloud.baidu.com/doc/OCR/s/ck3h7y191 |
教育文字识别
- MCP Server URL: https://aip.baidubce.com/mcp/ocr_edu/sse
- 支持的工具:
工具名称 | 工具描述 | 功能说明 | 对应的API接口文档 |
---|---|---|---|
ocr_exam_analysis | 试卷分析与识别 | 可对文档版面进行分析,输出图、表、标题、文本的位置,并输出分版块内容的OCR识别结果,支持中、英两种语言,手写、印刷体混排多种场景。 | https://cloud.baidu.com/doc/OCR/s/jk9m7mj1l |
图像识别
- MCP Server URL: https://aip.baidubce.com/mcp/image_recognition/sse
- 支持的工具:
工具名称 | 工具描述 | 功能说明 | 对应的API接口文档 |
---|---|---|---|
image_general_scene | 通用物体和场景识别 | 该请求用于通用物体及场景识别,即对于输入的一张图片(可正常解码,且长宽比适宜),输出图片中的多个物体及场景标签。 | https://cloud.baidu.com/doc/IMAGERECOGNITION/s/Xk3bcxe21 |
image_vehicle_detect | 车辆检测 | 传入单帧图像,检测图片中所有机动车辆,返回每辆车的类型和坐标位置,可识别小汽车、卡车、巴士、摩托车、三轮车5类车辆,并对每类车辆分别计数,同时可定位小汽车、卡车、巴士的车牌位置,支持指定矩形区域的车辆检测与数量统计。 当前主要适用于普通监控场景,如道路、停车场等,无人机高空拍摄的图片,因车辆目标较小,识别效果可能欠佳,后续会扩展支持超高空拍摄场景,如有该场景的需求,请通过QQ群或提交工单,详细沟通测试情况。 | https://cloud.baidu.com/doc/IMAGERECOGNITION/s/2lw8w1hym |
image_fruit_veg | 果蔬识别 | 识别图像中的果蔬类别 | https://cloud.baidu.com/doc/IMAGERECOGNITION/s/wk3bcxevq |
image_car_type | 车型识别 | 识别图片中车辆的具体车型,可识别常见的3000+款车型(小汽车为主),输出车辆的品牌型号、颜色、年份、位置信息;支持返回对应识别结果的百度百科词条信息,包含词条名称、百科页面链接、百科图片链接、百科内容简介。 注:当前只支持单主体识别,若图片中有多个车辆,则识别目标最大的车辆。 | https://cloud.baidu.com/doc/IMAGERECOGNITION/s/llw7a5n24 |
image_multi_object_detect | 图像多主体检测 | 检测出图片中多个主体,并给出位置、标签和置信得分。 | https://cloud.baidu.com/doc/IMAGERECOGNITION/s/Wk7em3moi |
image_single_object_detect | 图像单主体检测 | 用户向服务请求检测图像中的主体位置。 | https://cloud.baidu.com/doc/IMAGERECOGNITION/s/Xk3bcxdum |
image_currency | 货币识别 | 识别图像中的货币类型,以纸币为主,正反面均可准确识别,接口返回货币的名称、代码、面值、年份信息;可识别各类近代常见货币,如美元、欧元、英镑、法郎、澳大利亚元、俄罗斯卢布、日元、韩元、泰铢、印尼卢比等。 注意:图片中货币要清晰可见 | https://cloud.baidu.com/doc/IMAGERECOGNITION/s/pk3bcxavy |
image_dish | 菜品识别 | 用于菜品识别。即对于输入的一张图片(可正常解码,且长宽比适宜),输出图片的菜品名称、卡路里信息、置信度。 | https://cloud.baidu.com/doc/IMAGERECOGNITION/s/tk3bcxbb0 |
image_plant | 植物识别 | 该请求用于识别一张图片,即对于输入的一张图片(可正常解码,且长宽比较合适),输出植物识别结果。 | https://cloud.baidu.com/doc/IMAGERECOGNITION/s/Mk3bcxe9i |
image_landmark | 地标识别 | 该请求用于识别地标,即对于输入的一张图片(可正常解码,且长宽比适宜),输出图片中的地标识别结果。 | https://cloud.baidu.com/doc/IMAGERECOGNITION/s/jk3bcxbih |
image_animal | 动物识别 | 该请求用于识别一张图片,即对于输入的一张图片(可正常解码,且长宽比较合适),输出动物识别结果。 | https://cloud.baidu.com/doc/IMAGERECOGNITION/s/Zk3bcxdfr |
图像增强
- MCP Server URL: https://aip.baidubce.com/mcp/image_enhance/sse
- 支持的工具:
工具名称 | 工具描述 | 功能说明 | 对应的API接口文档 |
---|---|---|---|
image_remove_handwriting | 文档去手写 | 去除图片中的手写内容,保留印刷体内容,可用于试卷去手写还原等场景 | https://cloud.baidu.com/doc/OCR/s/il4tb1jay |
image_moire_remove | 图片去摩尔纹 | 去除翻拍电脑、手机等显示屏照片中的摩尔纹,使图片更加清晰。 | https://cloud.baidu.com/doc/IMAGEPROCESS/s/ql4wdlnc0 |
image_doc_crop_enhance | 文档矫正增强 | 对图片中的文件、卡证、票据等内容进行四角点检测定位,提取主体内容并对其进行矫正,同时可选图片增强效果进一步提升图片清晰度,达到主体检测矫正并增强的目的,提升图片整体质量。 | https://cloud.baidu.com/doc/OCR/s/Hl4taza5f |
image_contrast_enhance | 图像对比度增强 | 调整过暗或者过亮图像的对比度,使图像更加鲜明。 | https://cloud.baidu.com/doc/IMAGEPROCESS/s/ek3bclnzn |
image_dehaze | 图像去雾 | 对浓雾天气下拍摄,导致细节无法辨认的图像进行去雾处理,还原更清晰真实的图像。 | https://cloud.baidu.com/doc/IMAGEPROCESS/s/8k3bclp1l |
image_doc_watermark_remove | 文档图片去底纹 | 自动识别并去除文档图片中的底纹,使图片更加清晰,便于阅读。 | https://cloud.baidu.com/doc/IMAGEPROCESS/s/Nl6os53ab |
image_sharpen | 图像清晰度增强 | 对压缩后的模糊图像实现智能快速去噪,优化图像纹理细节,使画面更加自然清晰 | https://cloud.baidu.com/doc/IMAGEPROCESS/s/5k4i6mzqk |
image_denoise | 图像去噪 | 自动识别图片内(由成像设备或者外部环境导致的)噪点,进行去噪处理,使得图像更加干净,细节更加突出。常见应用场景为老照片修复、监控图片处理。 | https://cloud.baidu.com/doc/IMAGEPROCESS/s/Tl78sby7g |
image_upscale | 图像无损放大 | 输入一张图片,可以在尽量保持图像质量的条件下,将图像在长宽方向各放大两倍。 | https://cloud.baidu.com/doc/IMAGEPROCESS/s/ok3bclnkg |
image_stretch_restore | 拉伸图像恢复 | 自动识别过度拉伸的图像,将图像内容恢复成正常比例。 | https://cloud.baidu.com/doc/IMAGEPROCESS/s/Rk3bclp97 |
image_inpaint | 图像修复 | 去除图片中不需要的遮挡物,并用背景内容填充,提高图像质量。 | https://cloud.baidu.com/doc/IMAGEPROCESS/s/ok3bclome |
image_color_enhance | 图像色彩增强 | 可智能调节图片的色彩饱和度、亮度、对比度,使得图片内容细节、色彩更加逼真,可用于提升网站图片、手机相册图片、视频封面图片的质量。 | https://cloud.baidu.com/doc/IMAGEPROCESS/s/Tk9l4kll7 |
注意:图像增强工具的输出都包含图片,请确认你的client是支持image类型输出的
图像特效
- MCP Server URL: https://aip.baidubce.com/mcp/image_effect/sse
- 支持的工具:
工具名称 | 工具描述 | 功能说明 | 对应的API接口文档 |
---|---|---|---|
image_style_transfer | 图像风格转换 | 可将图像转化成卡通画、铅笔画、彩色铅笔画,或者哥特油画、彩色糖块油画、呐喊油画、神奈川冲浪里油画、奇异油画、薰衣草油画等共计9种风格,可用于开展趣味活动,或集成到美图应用中对图像进行风格转换 | https://cloud.baidu.com/doc/IMAGEPROCESS/s/xk3bclo77 |
image_colorize | 黑白图像上色 | 智能识别黑白图像内容并填充色彩,使黑白图像变得鲜活。 | https://cloud.baidu.com/doc/IMAGEPROCESS/s/Bk3bclns3 |
image_portrait_anime | 人像动漫化 | 运用世界领先的对抗生成网络,结合人脸检测、头发分割、人像分割等技术,为用户量身定制千人千面的二次元动漫形象,并且可通过参数设置,生成戴口罩的二次元动漫人像 | https://cloud.baidu.com/doc/IMAGEPROCESS/s/Mk4i6olx5 |
注意:图像增强工具的输出都包含图片,请确认你的client是支持image类型输出的
人脸识别
- MCP Server URL: https://aip.baidubce.com/mcp/face/sse
- 支持的工具:
工具名称 | 工具描述 | 功能说明 | 对应的API接口文档 |
---|---|---|---|
face_detect | 人脸检测 | 接口能力: - 人脸检测:检测图片中的人脸并标记出位置信息 - 人脸关键点:展示人脸的核心关键点信息,及150个关键点信息 - 人脸属性值:展示人脸属性信息,如年龄、性别等 - 人脸质量信息:返回人脸各部分的遮挡、光照、模糊、完整度、置信度等信息 | https://cloud.baidu.com/doc/FACE/s/yk37c1u4t |
语音技术
- MCP Server URL: https://aip.baidubce.com/mcp/speech/sse
- 支持的工具:
工具名称 | 工具描述 | 功能说明 | 对应的API接口文档 |
---|---|---|---|
speech_recognition | 短语音识别标准版 | 将60秒以内的语音精准识别为文字,可适用于手机语音输入、智能语音交互、语音指令、语音搜索等短语音交互场景。 | https://cloud.baidu.com/doc/SPEECH/s/Jlbxdezuf |
speech_recognition_faster | 短语音识别极速版 | 将60秒以内的完整音频文件识别为文字,专有GPU服务集群,识别响应速度较标准版API提升2倍及识别准确率提升15%。适用于近场短语音交互,如手机语音搜索、聊天输入等场景。 支持上传完整的录音文件,录音文件时长不超过60秒,实时返回识别结果。 | https://cloud.baidu.com/doc/SPEECH/s/4lbxdz34z |
附录2:什么是MCP协议?
MCP可以看做大模型与具体的工具之间的"转接头"。
在MCP出现之前,大模型想要调用外部工具(例如邮箱、日历、聊天软件等),都需要专门基于大模型平台开发一个适配某工具的插件。插件是捆绑在平台上的,在A平台能用的插件,到了B平台上还需要重复适配。
而MCP是一个开放的标准协议,只要某工具支持了MCP协议,则所有支持MCP协议的平台都可以调用该工具。
这为行业带来了全新的思路:如果大模型平台和工具提供者均支持MCP协议,则平台方可以调用海量的MCP工具,而工具提供方也可以让自身的服务被跨平台的开发者所使用。
这也极大便利了大模型应用的开发者,支持MCP的工具提供者越多,大模型应用就能具备更多技能,能够做到更多原来做不到的事。