资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

试卷切题识别

接口描述

支持对图片/PDF格式文档内的题目自动切分与结构化识别,可按题输出题干、选项、答案等信息,适用于整页试卷、习题册、课本等,可广泛应用于拍照搜题、题库录入、智能判卷等场景

在线调试

您可以在 示例代码中心 中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

申请试用

该接口正在邀测中,请您先提交 合作咨询提交工单,提供公司名称、appid、应用场景等信息,工作人员协助开通权限后方可使用。

请求说明

请求示例

HTTP 方法:POST

请求URL: https://aip.baidubce.com/rest/2.0/ocr/v1/paper_cut_edu

URL参数:

参数
access_token 通过API Key和Secret Key获取的access_token,参考“Access Token获取

Header如下:

参数
Content-Type application/x-www-form-urlencoded

Body中放置请求参数,参数详情如下:

请求参数

参数 是否必选 类型 可选值范围 说明
image 和 url/pdf_file 三选一 string - 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效
url 和 image/pdf_file 三选一 string - 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url字段失效
请注意关闭URL防盗链
pdf_file 和 image/url 三选一 string - PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px
优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效
pdf_file_num string - 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页
language_type string CHN_ENG/ ENG 识别语言类型,默认为CHN_ENG。可选值包括:
= CHN_ENG:中英文
= ENG:英文,纯英文场景下建议开启
detect_direction string true/false 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括:
true :检测朝向,输入非正向图片时建议开启
false:不检测朝向
words_type string handprint_mix/handwring_only 识别文字类型,默认为手写印刷混排识别,即:handprint_mix。可选值包括:
= handprint_mix:手写印刷混排
= handwring_only:手写,纯手写场景下建议开启
splice_text string true/false 是否拼接题目元素内每行的文本信息后输出,默认不拼接,即:false。开启该参数后,处理耗时预计会增加 1s。可选值包括:
true :拼接题目元素每行的文本信息,在elem_text 内输出;
false:不拼接,仅按行输出文本信息

返回说明

返回参数

字段 是否必选 类型 说明
log_id uint64 唯一的log id,用于问题定位
direction int32 检测到的图像朝向,当 detect_direction=true 时返回。0 :正向; 1:逆时针旋转90度;2:逆时针旋转180度;3:逆时针旋转270度
qus_result_num int32 识别题目结果数,表示 qus_result 的元素个数
qus_figure array[] 试卷内题目图片信息
+fig_location array[] 题目图片位置的四角点坐标,坐标 0 点为左上角,順时针返回
qus_result array[] 试卷切题信息
+qus_type int32 检测到的题目类型。0:选择题;1:判断题;2:填空题;3:问答题;4:其他
+qus_probability float 题目置信度
+elem_text object 题目各元素的完整文本信息,当 splice_text = true 时,拼接题目各元素内每行的文本信息后输出
++stem_text string 题干文本信息
++subqus_text string 子题文本信息
++answer_text string 答案文本信息
++option_text string 选项文本信息,仅在题目类型为选择题时输出
++interpretation_text string 参考答案文本信息
+qus_location array[] 题目位置四角点坐标,坐标 0 点为左上角,順时针返回
+qus_element array[] 题目元素信息
++elem_type int32 题目元素类型。0:题干;1:子题;2:答案;3:选项;4:配图;5:参考答案
++elem_probability float 题目元素置信度
++elem_location array[] 题目元素位置四角点坐标,坐标 0 点为左上角,順时针返回
++elem_word array[] 题目元素的文本信息
+++word_location array[] 按行返回文字位置信息,坐标 0 点为左上角,順时针返回
+++word_type string 按行返回文字属性信息。handwriting:手写;print:印刷
+++word string 按行返回文字信息
pdf_file_size int32 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段
上一篇
词典笔文字识别
下一篇
其他场景文字识别