资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

英语答题卡识别(多模态)

接口描述

基于多模态大模型,实现英语答题卡中手写内容的精准识别。最大程度还原原始手写内容,严格区分单词的大小写与单词之间的空格,并按照结构化进行输出。

英语答题卡识别(多模态)API服务为异步接口,需要先调用提交请求接口获取 task_id,然后调用获取结果接口进行结果轮询,建议提交请求后 5~10 秒轮询。提交请求接口QPS为2,获取结果接口QPS为10。

在线调试

您可以在 示例代码中心 中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

申请试用

该接口正在邀测中,请您先提交 合作咨询提交工单,提供公司名称、appid、应用场景等信息,工作人员协助开通权限后方可使用。

提交请求接口

请求说明

请求示例

HTTP 方法:POST

请求URL: https://aip.baidubce.com/rest/2.0/ocr/v1/engcard/create_task

URL参数:

参数
access_token 通过API Key和Secret Key获取的access_token,参考“Access Token获取

Header如下:

参数
Content-Type application/json

Body中放置请求参数,参数详情如下:

请求参数

参数 是否必选 类型 可选值范围 说明
image 和 url/pdf_file 三选一 string - 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过10M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级: image > url > pdf_file,当image字段存在时,url、pdf_file字段失效
url 和 image/pdf_file 三选一 string - 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过10M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级: image > url > pdf_file,当image字段存在时,url字段失效
请注意关闭URL防盗链
pdf_file 和 image/url 三选一 string - PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过10M,最短边至少15px,最长边最大4096px
优先级: image > url > pdf_file,当image字段存在时,url字段失效
pdf_file_num string -

请求代码示例

提示:使用示例代码前,请记得替换其中的示例Token、文档地址或Base64信息。

curl -i -k 'https://aip.baidubce.com/rest/2.0/ocr/v1/engcard/create_task?access_token=【调用鉴权接口获取的token】' 
 -H 'Content-Type: application/json'
--data '{
    "url": "https://ai.bdstatic.com/file/088749BAB26D4809B8A0B96FE100E7F0"
}'
# encoding:utf-8

import requests
import base64

'''
英语答题卡提交请求
'''

request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/engcard/create_task"
# 二进制方式打开图片文件
f = open('[本地文件]', 'rb')
img = base64.b64encode(f.read())

params = json.dumps({
  "image": img
})

access_token = '[调用鉴权接口获取的token]'
request_url = request_url + "?access_token=" + access_token
headers = {'content-type': 'application/json'}
response = requests.post(request_url, data=params, headers=headers)
if response:
    print (response.json())
package com.baidu.ai.aip;

import com.baidu.ai.aip.utils.Base64Util;
import com.baidu.ai.aip.utils.FileUtil;
import com.baidu.ai.aip.utils.HttpUtil;
import com.google.gson.Gson;
import java.util.HashMap;
import java.util.Map;

/**
* 英语答题卡提交请求
*/
public class EngcardCreateTask {

    /**
    * 重要提示代码中所需工具类
    * FileUtil,Base64Util,HttpUtil,GsonUtils请从
    * https://ai.baidu.com/file/658A35ABAB2D404FBF903F64D47C1F72
    * https://ai.baidu.com/file/C8D81F3301E24D2892968F09AE1AD6E2
    * https://ai.baidu.com/file/544D677F5D4E4F17B4122FBD60DB82B3
    * https://ai.baidu.com/file/470B3ACCA3FE43788B5A963BF0B625F3
    * 下载
    */
    public static String engcardCreateTask() {
        // 请求url
        String url = "https://aip.baidubce.com/rest/2.0/ocr/v1/engcard/create_task";
        try {
            // 本地文件路径
            String filePath = "[本地文件路径]";
            byte[] imgData = FileUtil.readFileByBytes(filePath);
            String imgStr = Base64Util.encode(imgData);

            // 构造请求体
            Map<String, Object> map = new HashMap<>();
            map.put("image", imgStr); // 或者使用 url 参数
            String param = new Gson().toJson(map);

            // 注意这里仅为了简化编码每一次请求都去获取access_token,线上环境access_token有过期时间, 客户端可自行缓存,过期后重新获取。
            String accessToken = "[调用鉴权接口获取的token]";

            String result = HttpUtil.post(url, accessToken, "application/json", param);
            System.out.println(result);
            return result;
        } catch (Exception e) {
            e.printStackTrace();
        }
        return null;
    }

    public static void main(String[] args) {
        EngcardCreateTask.engcardCreateTask();
    }
}

返回说明

返回参数

字段 类型 说明
log_id uint64 唯一的log id,用于问题定位
error_code int 错误码
error_msg string 详情
result dict 返回的结果列表
+ task_id string 发送提交请求时返回的 task_id

返回示例

成功返回示例:

{
    "result": {
        "task_id": "1980477206527747650"
    },
    "log_id": 1980477206527747650
}

失败返回示例(详细的错误码说明见API文档-错误码):

{
    "log_id": 1965746008642488944,
    "error_msg": "并发超限",
    "error_code": 15
}

获取结果接口

请求说明

请求示例

HTTP 方法:POST

请求URL: https://aip.baidubce.com/rest/2.0/ocr/v1/engcard/get_result

URL参数:

参数
access_token 通过API Key和Secret Key获取的access_token,参考“Access Token获取

Header如下:

参数
Content-Type application/json

Body中放置请求参数,参数详情如下:

请求参数

参数 是否必选 类型 说明
task_id string 发送提交请求时返回的task_id

请求代码示例

提示:使用示例代码前,请记得替换其中的示例Token、task_id。

curl --location 'https://aip.baidubce.com/rest/2.0/ocr/v1/engcard/get_result?access_token=【调用鉴权接口获取的token】' \
--header 'Content-Type: application/json' \
--data '{
    "task_id": "1978071075535233212"
}'
# encoding:utf-8

import requests
import base64

'''
英语答题卡获取请求
'''

request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/engcard/get_result"


params = json.dumps({
  "task_id":  "1978071075535233212"
})
access_token = '[调用鉴权接口获取的token]'
request_url = request_url + "?access_token=" + access_token
headers = {'content-type': 'application/json'}
response = requests.post(request_url, data=params, headers=headers)
if response:
    print (response.json())
package com.baidu.ai.aip;

import com.baidu.ai.aip.utils.HttpUtil;
import com.google.gson.Gson;

import java.util.HashMap;
import java.util.Map;

/**
* 英语答题卡获取请求
*/
public class EngcardGetResult {

    /**
    * 重要提示代码中所需工具类
    * HttpUtil,GsonUtils请从
    * https://ai.baidu.com/file/544D677F5D4E4F17B4122FBD60DB82B3
    * https://ai.baidu.com/file/470B3ACCA3FE43788B5A963BF0B625F3
    * 下载
    */
    public static String engcardGetResult() {
        // 请求url
        String url = "https://aip.baidubce.com/rest/2.0/ocr/v1/engcard/get_result";
        try {
            // task_id 来自提交请求的返回结果
            Map<String, Object> map = new HashMap<>();
            map.put("task_id", "1978071075535233212");
            String param = new Gson().toJson(map);

            String accessToken = "[调用鉴权接口获取的token]";

            String result = HttpUtil.post(url, accessToken, "application/json", param);
            System.out.println(result);
            return result;
        } catch (Exception e) {
            e.printStackTrace();
        }
        return null;
    }

    public static void main(String[] args) {
        EngcardGetResult.engcardGetResult();
    }
}

返回说明

返回参数

字段 类型 说明
log_id uint64 唯一的log id,用于问题定位
error_code int 错误码(任务成功时统一返回0)
error_msg string 错误描述信息(任务成功时统一返回空值)
result dict 返回的结果列表
+ task_id string 任务ID
+ status string 任务状态,pending:排队中;processing:运行中;success:成功;failed:失败
+ created_time string 任务创建时间
+ started_time string 任务开始时间
+ finished_time string 任务结束时间
+ duration string 任务执行时长
+ word string 答题卡识别结果,示例结果:
[{"number":"1","answer":"Wag its tail"},{"number":"2","answer":"her heart racing"}, {"number":"3","answer":"her blood rushing"}, {"number":"4","answer":"A wave of"},{"number":"5","answer":"swept over"},{"number":"6","answer":"words failing him"},{"number":"7","answer":"were keen on"}]
参数说明:number为题号,answer为作答内容
pdf_file_size string 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段

返回示例

成功返回示例:

{
    "error_code": "0",
    "error_msg": "",
    "result": {
        "task_id": "1980477206527747650",
        "status": "Success",
        "created_time": 1760988737000,
        "started_time": 1761017538000,
        "finished_time": 1761017549896,
        "duration": 11896,
        "words": "[{"number":"1","answer":"Wag its tail"},{"number":"2","answer":"her heart racing"}, {"number":"3","answer":"her blood rushing"}, {"number":"4","answer":"A wave of"},{"number":"5","answer":"swept over"},{"number":"6","answer":"words failing him"},{"number":"7","answer":"were keen on"}]"
    },
    "log_id": 1980477394082166537
}

失败返回示例(详细的错误码说明见API文档-错误码):

{
     "log_id": 1980539085136046096,
    "error_msg": "输入的 task_id 无效",
    "error_code": 282004
}
上一篇
手写作文识别(多模态)
下一篇
智能作业批改