资讯 社区 文档
【升级】图像内容理解全面升级
发布日期:2024-08-14 09:39浏览量:2543次
       近日,图像内容理解服务全面升级,优化图像理解效果,新增支持图像内容问答。同时,对部分返回字段及错误码进行调整。欢迎大家试用体验。
      1、优化图像理解效果
      扩充物体标签识别种类并提升准确率,优化对图像中各主体的空间位置感知能力,增强逻辑推理能力。
      2、新增支持图像问答能力
      可根据传入的 question 参数依据图像内容直接给出针对性回答,避免泛化性描述。例如,针对下图询问 “这张图展示的是哪个景点?”
      当前版本返回:
      "description": "这张照片展示了一个大型的夜间照明建筑群。该建筑群由多栋传统设计的建筑组成,以白色墙壁、红色屋顶和金色为特色。这些建筑堆叠在山坡上,中心是最大、最突出的结构。灯光突出了建筑细节,在黑暗的天空中为建筑带来了温暖的光芒。在前景中,有一个有几个人的屏障,这表明这可能是游客的观景区。图像的风格是一张照片,以高水平的细节和现实主义捕捉场景。图像中的人似乎在从事休闲活动,可能是欣赏风景或排队等候,他们没有传达任何可以从图像中看出的特定情感。图像中没有可见的文本。照明是人工的,可能来自建筑物本身的照明,与漆黑的夜空形成对比。"
     升级后版本返回:
    "description":"布达拉宫"
    3、返回字段及错误码调整
  • 返回结果中,subject_result、classify_result、ocr_result 字段变更为默认不输出;如需继续获取上述字段,可在请求参数中设置 subject_detect= true。
  • 返回结果中,description_to_llm 字段变更为默认不输出,如需继续获取,可在请求参数中设置 llm_switch = false。
  • 错误码变更,返回结果中 ret_code和 ret_msg 参数中的错误信息将在 error_code和 error_msg中返回错误码,错误码定义参考图像识别错误码。
  • 详细内容可参考图像内容理解接口文档

 

 

百度图像技术现已推出:通用物体和场景识别植物识别动物识别车型识别菜品识别相似图片搜索相同图片搜索商品图片搜索图像清晰度增强图像风格转换等产品,满足各种场景的使用需求。提供在线API私有化部署等方式,接入便捷、稳定可靠。
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术