试卷切题识别

更新时间：2024-07-05

接口描述

支持对图片/PDF格式文档内的题目自动切分与结构化识别，可按题输出题干、选项、答案等信息，适用于整页试卷、习题册、课本等，可广泛应用于拍照搜题、题库录入、智能判卷等场景

在线调试

您可以在示例代码中心中调试该接口，可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

申请试用

该接口正在邀测中，请您先提交合作咨询或提交工单，提供公司名称、appid、应用场景等信息，工作人员协助开通权限后方可使用。

请求说明

请求示例

HTTP 方法：POST

请求URL： https://aip.baidubce.com/rest/2.0/ocr/v1/paper_cut_edu

URL参数：

参数	值
access_token	通过API Key和Secret Key获取的access_token,参考“Access Token获取”

Header如下：

参数	值
Content-Type	application/x-www-form-urlencoded

Body中放置请求参数，参数详情如下：

请求参数

参数	是否必选	类型	可选值范围	说明
image	和 url/pdf_file 三选一	string	-	图像数据，base64编码后进行urlencode，要求base64编码和urlencode后大小不超过4M，最短边至少15px，最长边最大4096px，支持jpg/jpeg/png/bmp格式优先级：image > url > pdf_file，当image字段存在时，url、pdf_file字段失效
url	和 image/pdf_file 三选一	string	-	图片完整url，url长度不超过1024字节，url对应的图片base64编码后大小不超过4M，最短边至少15px，最长边最大4096px，支持jpg/jpeg/png/bmp格式优先级：image > url > pdf_file，当image字段存在时，url字段失效请注意关闭URL防盗链
pdf_file	和 image/url 三选一	string	-	PDF文件，base64编码后进行urlencode，要求base64编码和urlencode后大小不超过4M，最短边至少15px，最长边最大4096px 优先级：image > url > pdf_file，当image、url字段存在时，pdf_file字段失效
pdf_file_num	否	string	-	需要识别的PDF文件的对应页码，当 pdf_file 参数有效时，识别传入页码的对应页面内容，若不传入，则默认识别第 1 页
language_type	否	string	CHN_ENG/ ENG	识别语言类型，默认为CHN_ENG。可选值包括： = CHN_ENG：中英文 = ENG：英文，纯英文场景下建议开启
detect_direction	否	string	true/false	是否检测图像朝向，默认不检测，即：false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括： true ：检测朝向，输入非正向图片时建议开启 false：不检测朝向
words_type	否	string	handprint_mix/handwring_only	识别文字类型，默认为手写印刷混排识别，即：handprint_mix。可选值包括： = handprint_mix：手写印刷混排 = handwring_only：手写，纯手写场景下建议开启
splice_text	否	string	true/false	是否拼接题目元素内每行的文本信息后输出，默认不拼接，即：false。开启该参数后，处理耗时预计会增加 1s。可选值包括： true ：拼接题目元素每行的文本信息，在elem_text 内输出； false：不拼接，仅按行输出文本信息

返回说明

返回参数

字段	是否必选	类型	说明
log_id	是	uint64	唯一的log id，用于问题定位
direction	否	int32	检测到的图像朝向，当 detect_direction=true 时返回。0 ：正向； 1：逆时针旋转90度；2：逆时针旋转180度；3：逆时针旋转270度
qus_result_num	是	int32	识别题目结果数，表示 qus_result 的元素个数
qus_figure	是	array[]	试卷包含的图片信息
+fig_location	是	array[]	图片位置的四角点坐标，坐标 0 点为左上角，順时针返回
+fig	是	string	图片 base64 编码
qus_result	是	array[]	试卷切题信息
+qus_type	是	int32	检测到的题目类型。0：选择题；1：判断题；2：填空题；3：问答题；4：其他
+qus_probability	是	float	题目置信度
+elem_text	否	object	题目各元素的完整文本信息，当 splice_text = true 时，拼接题目各元素内每行的文本信息后输出
++stem_text	否	string	题干文本信息
++subqus_text	否	string	子题文本信息
++answer_text	否	string	答案文本信息
++option_text	否	string	选项文本信息，仅在题目类型为选择题时输出
+qus_location	是	array[]	题目位置四角点坐标，坐标 0 点为左上角，順时针返回
+qus_element	是	array[]	题目元素信息
++elem_type	是	int32	题目元素类型。0：题干；1：子题；2：答案；3：选项
++elem_probability	是	float	题目元素置信度
++elem_location	是	array[]	题目元素位置四角点坐标，坐标 0 点为左上角，順时针返回
++elem_word	是	array[]	题目元素的文本信息
+++word_location	是	array[]	按行返回文字位置信息，坐标 0 点为左上角，順时针返回
+++word_type	是	string	按行返回文字属性信息。handwriting：手写；print：印刷
+++word	是	string	按行返回文字信息
pdf_file_size	否	int32	传入PDF文件的总页数，当 pdf_file 参数有效时返回该字段

词典笔文字识别

其他场景文字识别