接口说明
通用文字识别(标准版)
用户向服务请求识别某张图中的所有文字。
""" 读取文件 """
def get_file_content(filePath):
with open(filePath, "rb") as fp:
return fp.read()
image = get_file_content('文件路径')
url = "https://www.x.com/sample.jpg"
pdf_file = get_file_content('文件路径')
# 调用通用文字识别(标准版)
res_image = client.basicGeneral(image)
res_url = client.basicGeneralUrl(url)
res_pdf = client.basicGeneralPdf(pdf_file)
print(res_image)
print(res_url)
print(res_pdf)
# 如果有可选参数
options = {}
options["language_type"] = "CHN_ENG"
options["detect_direction"] = "true"
options["detect_language"] = "true"
options["probability"] = "true"
res_image = client.basicGeneral(image, options)
res_url = client.basicGeneralUrl(url, options)
res_pdf = client.basicGeneralPdf(pdf_file, options)
print(res_image)
print(res_url)
print(res_pdf)
通用文字识别 请求参数详情
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和 url/pdf_file 三选一 | string | - | 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效 |
url | 和 image/pdf_file 三选一 | string | - | 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式优先级:image > url > pdf_file,当image字段存在时,url字段失效请注意关闭URL防盗链 |
pdf_file | 和 image/url 三选一 | string | - | PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效 |
pdf_file_num | 否 | string | - | 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页 |
language_type | 否 | string | CHN_ENG ENG JAP KOR FRE SPA POR GER ITA RUS |
识别语言类型,默认为CHN_ENG 可选值包括: - CHN_ENG:中英文混合 - ENG:英文 - JAP:日语 - KOR:韩语 - FRE:法语 - SPA:西班牙语 - POR:葡萄牙语 - GER:德语 - ITA:意大利语 - RUS:俄语 |
detect_direction | 否 | string | true/false | 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括: - true:检测朝向; - false:不检测朝向。 |
detect_language | 否 | string | true/false | 是否检测语言,默认不检测。当前支持(中文、英语、日语、韩语) |
paragraph | 否 | string | true/false | 是否输出段落信息 |
probability | 否 | string | true/false | 是否返回识别结果中每一行的置信度 |
通用文字识别 返回数据参数详情
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
direction | 否 | int32 | 图像方向,当 detect_direction=true 时返回该字段。 - - 1:未定义, - 0:正向, - 1:逆时针90度, - 2:逆时针180度, - 3:逆时针270度 |
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
words_result | 是 | array[] | 识别结果数组 |
+ words | 否 | string | 识别结果字符串 |
+ probability | 否 | object | 识别结果中每一行的置信度值,包含average:行置信度平均值,variance:行置信度方差,min:行置信度最小值,当 probability=true 时返回该字段 |
paragraphs_result | 否 | array[] | 段落检测结果,当 paragraph=true 时返回该字段 |
+ words_result_idx | 否 | array[] | 一个段落包含的行序号,当 paragraph=true 时返回该字段 |
language | 否 | int32 | 当 detect_language=true 时返回该字段 |
pdf_file_size | 否 | string | 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段 |
通用文字识别 返回示例
{
"log_id": 2471272194,
"words_result_num": 2,
"words_result":
[
{"words": " TSINGTAO"},
{"words": "青島睥酒"}
]
}
通用文字识别(高精度版)
用户向服务请求识别某张图中的所有文字,相对于通用文字识别该产品精度更高,但是识别耗时会稍长。
""" 读取文件 """
def get_file_content(filePath):
with open(filePath, "rb") as fp:
return fp.read()
image = get_file_content('文件路径')
url = "https://www.x.com/sample.jpg"
pdf_file = get_file_content('文件路径')
# 调用通用文字识别(高精度版)
res_image = client.basicAccurate(image)
res_url = client.basicAccurateUrl(url)
res_pdf = client.basicAccuratePdf(pdf_file)
print(res_image)
print(res_url)
print(res_pdf)
# 如果有可选参数
options = {}
options["detect_direction"] = "true"
options["probability"] = "true"
res_image = client.basicAccurate(image, options)
res_url = client.basicAccurateUrl(url, options)
res_pdf = client.basicAccuratePdf(pdf_file, options)
print(res_image)
print(res_url)
print(res_pdf)
通用文字识别(高精度版) 请求参数详情
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和 url/pdf_file 三选一 | string | - | 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过10M,最短边至少15px,最长边最大8192px,支持jpg/jpeg/png/bmp格式 优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效 |
url | 和 image/pdf_file 三选一 | string | - | 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过10M,最短边至少15px,最长边最大8192px,支持jpg/jpeg/png/bmp格式优先级:image > url > pdf_file,当image字段存在时,url字段失效请注意关闭URL防盗链 |
pdf_file | 和 image/url 三选一 | string | - | PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过10M,最短边至少15px,最长边最大8192px优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效 |
pdf_file_num | 否 | string | - | 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页 |
language_type | 否 | string | auto_detect CHN_ENG ENG JAP KOR FRE SPA POR GER ITA RUS DAN DUT MAL SWE IND POL ROM TUR GRE HUN |
识别语言类型,默认为CHN_ENG 可选值包括: - auto_detect:自动检测语言,并识别 - CHN_ENG:中英文混合 - ENG:英文 - JAP:日语 - KOR:韩语 - FRE:法语 - SPA:西班牙语 - POR:葡萄牙语 - GER:德语 - ITA:意大利语 - RUS:俄语 - DAN:丹麦语 - DUT:荷兰语 - MAL:马来语 - SWE:瑞典语 - IND:印尼语 - POL:波兰语 - ROM:罗马尼亚语 - TUR:土耳其语 - GRE:希腊语 - HUN:匈牙利语 - THA:泰语 - VIE:越南语 - ARA:阿拉伯语 - HIN:印地语 |
detect_direction | 否 | string | true/false | 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括: - true:检测朝向; - false:不检测朝向 |
paragraph | 否 | string | true/false | 是否输出段落信息 |
probability | 否 | string | true/false | 是否返回识别结果中每一行的置信度 |
通用文字识别(高精度版) 返回数据参数详情
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
direction | 否 | int32 | 图像方向,当 detect_direction=true 时返回该字段。 - - 1:未定义, - 0:正向, - 1:逆时针90度, - 2:逆时针180度, - 3:逆时针270度 |
words_result | 是 | array[] | 识别结果数组 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
+ words | 否 | string | 识别结果字符串 |
paragraphs_result | 否 | array[] | 段落检测结果,当 paragraph=true 时返回该字段 |
+ words_result_idx | 否 | array[] | 一个段落包含的行序号,当 paragraph=true 时返回该字段 |
+ probability | 否 | object | 识别结果中每一行的置信度值,包含average:行置信度平均值,variance:行置信度方差,min:行置信度最小值,当 probability=true 时返回该字段 |
pdf_file_size | 否 | string | 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段 |
通用文字识别(高精度版) 返回示例
参考通用文字识别(标准版)返回示例
通用文字识别(标准含位置版)
用户向服务请求识别某张图中的所有文字,并返回文字在图中的位置信息。
""" 读取文件 """
def get_file_content(filePath):
with open(filePath, "rb") as fp:
return fp.read()
image = get_file_content('文件路径')
url = "https://www.x.com/sample.jpg"
pdf_file = get_file_content('文件路径')
# 调用通用文字识别(标准含位置信息版)
res_image = client.general(image)
res_url = client.generalUrl(url)
res_pdf = client.generalPdf(pdf_file)
print(res_image)
print(res_url)
print(res_pdf)
# 如果有可选参数
options = {}
options["recognize_granularity"] = "big"
options["language_type"] = "CHN_ENG"
options["detect_direction"] = "true"
options["detect_language"] = "true"
options["vertexes_location"] = "true"
options["probability"] = "true"
res_image = client.general(image, options)
res_url = client.generalUrl(url, options)
res_pdf = client.generalPdf(pdf_file, options)
print(res_image)
print(res_url)
print(res_pdf)
通用文字识别(标准含位置版) 请求参数详情
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和 url/pdf_file 三选一 | string | - | 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效 |
url | 和 image/pdf_file 三选一 | string | - | 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式优先级:image > url > pdf_file,当image字段存在时,url字段失效请注意关闭URL防盗链 |
pdf_file | 和 image/url 三选一 | string | - | PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效 |
pdf_file_num | 否 | string | - | 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页 |
recognize_granularity | 否 | string | big/small | 是否定位单字符位置,big:不定位单字符位置,默认值;small:定位单字符位置 |
language_type | 否 | string | CHN_ENG ENG JAP KOR FRE SPA POR GER ITA RUS |
识别语言类型,默认为CHN_ENG 可选值包括: - CHN_ENG:中英文混合 - ENG:英文 - JAP:日语 - KOR:韩语 - FRE:法语 - SPA:西班牙语 - POR:葡萄牙语 - GER:德语 - ITA:意大利语 - RUS:俄语 |
detect_direction | 否 | string | true/false | 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括: - true:检测朝向; - false:不检测朝向。 |
detect_language | 否 | string | true/false | 是否检测语言,默认不检测。当前支持(中文、英语、日语、韩语) |
paragraph | 否 | string | true/false | 是否输出段落信息 |
vertexes_location | 否 | string | true/false | 是否返回文字外接多边形顶点位置,不支持单字位置。默认为false |
probability | 否 | string | true/false | 是否返回识别结果中每一行的置信度 |
通用文字识别(标准含位置版) 返回数据参数详情
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
direction | 否 | int32 | 图像方向,当 detect_direction=true 时返回该字段。 - - 1:未定义, - 0:正向, - 1:逆时针90度, - 2:逆时针180度, - 3:逆时针270度 |
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
words_result | 是 | array[] | 识别结果数组 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
+ words | 否 | string | 识别结果字符串 |
+ location | 是 | array[] | 位置数组(坐标0点为左上角) |
++ left | 是 | uint32 | 表示定位位置的长方形左上顶点的水平坐标 |
++ top | 是 | uint32 | 表示定位位置的长方形左上顶点的垂直坐标 |
++ width | 是 | uint32 | 表示定位位置的长方形的宽度 |
++ height | 是 | uint32 | 表示定位位置的长方形的高度 |
language | 否 | int32 | 当 detect_language=true 时返回该字段 |
paragraphs_result | 否 | array[] | 段落检测结果,当 paragraph=true 时返回该字段 |
+ words_result_idx | 否 | array[] | 一个段落包含的行序号,当 paragraph=true 时返回该字段 |
++ x | 否 | uint32 | 水平坐标(坐标0点为左上角) |
++ y | 否 | uint32 | 垂直坐标(坐标0点为左上角) |
+ chars | 否 | array[] | 单字符结果,当 recognize_granularity=small 时返回该字段 |
++ char | 否 | string | 单字符识别结果,当 recognize_granularity=small 时返回该字段 |
++ location | 否 | array[] | 位置数组(坐标0点为左上角),当 recognize_granularity=small 时返回该字段 |
+++ left | 否 | uint32 | 表示定位位置的长方形左上顶点的水平坐标,当 recognize_granularity=small 时返回该字段 |
+++ top | 否 | uint32 | 表示定位位置的长方形左上顶点的垂直坐标,当 recognize_granularity=small 时返回该字段 |
+++ width | 否 | uint32 | 表示定位定位位置的长方形的宽度,当 recognize_granularity=small 时返回该字段 |
+++ height | 否 | uint32 | 表示位置的长方形的高度,当 recognize_granularity=small 时返回该字段 |
+ probability | 否 | object | 识别结果中每一行的置信度值,包含average:行置信度平均值,variance:行置信度方差,min:行置信度最小值,当 probability=true 时返回该字段 |
pdf_file_size | 否 | string | 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段 |
通用文字识别(含位置信息版) 返回示例
{
"log_id": 3523983603,
"direction": 0, //detect_direction=true时存在
"words_result_num": 2,
"words_result": [
{
"location": {
"left": 35,
"top": 53,
"width": 193,
"height": 109
},
"words": "感动",
"chars": [ //recognize_granularity=small时存在
{
"location": {
"left": 56,
"top": 65,
"width": 69,
"height": 88
},
"char": "感"
},
{
"location": {
"left": 140,
"top": 65,
"width": 70,
"height": 88
},
"char": "动"
}
]
}
...
]
}
通用文字识别(高精度含位置版)
用户向服务请求识别某张图中的所有文字,并返回文字在图片中的坐标信息,相对于通用文字识别(含位置信息版)该产品精度更高,但是识别耗时会稍长。
""" 读取文件 """
def get_file_content(filePath):
with open(filePath, "rb") as fp:
return fp.read()
image = get_file_content('文件路径')
url = "https://www.x.com/sample.jpg"
pdf_file = get_file_content('文件路径')
# 调用通用文字识别(高精度含位置版)
res_image = client.accurate(image)
res_url = client.accurateUrl(url)
res_pdf = client.accuratePdf(pdf_file)
print(res_image)
print(res_url)
print(res_pdf)
# 如果有可选参数
options = {}
options["recognize_granularity"] = "big"
options["detect_direction"] = "true"
options["vertexes_location"] = "true"
options["probability"] = "true"
res_image = client.accurate(image, options)
res_url = client.accurateUrl(url, options)
res_pdf = client.accuratePdf(pdf_file, options)
print(res_image)
print(res_url)
print(res_pdf)
通用文字识别(高精度含位置版) 请求参数详情
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和 url/pdf_file 三选一 | string | - | 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过10M,最短边至少15px,最长边最大8192px,支持jpg/jpeg/png/bmp格式 优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效 |
url | 和 image/pdf_file 三选一 | string | - | 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过10M,最短边至少15px,最长边最大8192px,支持jpg/jpeg/png/bmp格式优先级:image > url > pdf_file,当image字段存在时,url字段失效请注意关闭URL防盗链 |
pdf_file | 和 image/url 三选一 | string | - | PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过10M,最短边至少15px,最长边最大8192px优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效 |
pdf_file_num | 否 | string | - | 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页 |
language_type | 否 | string | auto_detect CHN_ENG ENG JAP KOR FRE SPA POR GER ITA RUS DAN DUT MAL SWE IND POL ROM TUR GRE HUN |
识别语言类型,默认为CHN_ENG 可选值包括: - auto_detect:自动检测语言,并识别 - CHN_ENG:中英文混合 - ENG:英文 - JAP:日语 - KOR:韩语 - FRE:法语 - SPA:西班牙语 - POR:葡萄牙语 - GER:德语 - ITA:意大利语 - RUS:俄语 - DAN:丹麦语 - DUT:荷兰语 - MAL:马来语 - SWE:瑞典语 - IND:印尼语 - POL:波兰语 - ROM:罗马尼亚语 - TUR:土耳其语 - GRE:希腊语 - HUN:匈牙利语 - THA:泰语 - VIE:越南语 - ARA:阿拉伯语 - HIN:印地语 |
eng_granularity | 否 | string | word/letter | 表示识别语言类型为「中英文(CHN_ENG)」的情况下,英文的单字符结果是按照单词(word)维度输出还是字母(letter)维度输出,当 recognize_granularity=small 时生效 |
recognize_granularity | 否 | string | big/small | 是否定位单字符位置,big:不定位单字符位置,默认值;small:定位单字符位置 |
detect_direction | 否 | string | true/false | 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括: - true:检测朝向; - false:不检测朝向。 |
vertexes_location | 否 | string | true/false | 是否返回文字外接多边形顶点位置,不支持单字位置。默认为false |
paragraph | 否 | string | true/false | 是否输出段落信息 |
probability | 否 | string | true/false | 是否返回识别结果中每一行的置信度 |
通用文字识别(高精度含位置版) 返回数据参数详情
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
direction | 否 | int32 | 图像方向,当 detect_direction=true 时返回该字段。 - - 1:未定义, - 0:正向, - 1:逆时针90度, - 2:逆时针180度, - 3:逆时针270度 |
words_result | 是 | array[] | 识别结果数组 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
+ words | 否 | string | 识别结果字符串 |
+ location | 是 | array[] | 位置数组(坐标0点为左上角) |
++ left | 是 | uint32 | 表示定位位置的长方形左上顶点的水平坐标 |
++ top | 是 | uint32 | 表示定位位置的长方形左上顶点的垂直坐标 |
++ width | 是 | uint32 | 表示定位位置的长方形的宽度 |
++ height | 是 | uint32 | 表示定位位置的长方形的高度 |
paragraphs_result | 否 | array[] | 段落检测结果,当 paragraph=true 时返回该字段 |
+ words_result_idx | 否 | array[] | 一个段落包含的行序号,当 paragraph=true 时返回该字段 |
++ x | 否 | uint32 | 水平坐标(坐标0点为左上角) |
++ y | 否 | uint32 | 垂直坐标(坐标0点为左上角) |
+ chars | 否 | array[] | 单字符结果,当 recognize_granularity=small 时返回该字段 |
++ char | 否 | string | 单字符识别结果,当 recognize_granularity=small 时返回该字段 |
++ location | 否 | array[] | 位置数组(坐标0点为左上角),当 recognize_granularity=small 时返回该字段 |
+++ left | 否 | uint32 | 表示定位位置的长方形左上顶点的水平坐标,当 recognize_granularity=small 时返回该字段 |
+++ top | 否 | uint32 | 表示定位位置的长方形左上顶点的垂直坐标,当 recognize_granularity=small 时返回该字段 |
+++ width | 否 | uint32 | 表示定位定位位置的长方形的宽度,当 recognize_granularity=small 时返回该字段 |
+++ height | 否 | uint32 | 表示定位位置的长方形的高度,当 recognize_granularity=small 时返回该字段 |
+ probability | 否 | object | 识别结果中每一行的置信度值,包含average:行置信度平均值,variance:行置信度方差,min:行置信度最小值,当 probability=true 时返回该字段 |
pdf_file_size | 否 | string | 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段 |
通用文字识别(含位置高精度版) 返回示例
{
"log_id": 3523983603,
"direction": 0, //detect_direction=true时存在
"words_result_num": 2,
"words_result": [
{
"location": {
"left": 35,
"top": 53,
"width": 193,
"height": 109
},
"words": "感动",
"chars": [ //recognize_granularity=small时存在
{
"location": {
"left": 56,
"top": 65,
"width": 69,
"height": 88
},
"char": "感"
},
{
"location": {
"left": 140,
"top": 65,
"width": 70,
"height": 88
},
"char": "动"
}
]
}
...
]
}
通用文字识别(含生僻字版)
【该服务已停止更新,如需更好的识别效果请使用通用文字识别(高精度版 / 高精度含位置版),此两项服务已扩充字库,可支持生僻字识别】字库范围更大,支持对图片中的生僻字进行识别
通用文字识别(含生僻字版) 返回数据参数详情
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
direction | 否 | int32 | 图像方向,当detect_direction=true时存在。 - -1:未定义, - 0:正向, - 1: 逆时针90度, - 2:逆时针180度, - 3:逆时针270度 |
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
words_result | 是 | array() | 识别结果数组 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
+words | 否 | string | 识别结果字符串 |
probability | 否 | object | 识别结果中每一行的置信度值,包含average:行置信度平均值,variance:行置信度方差,min:行置信度最小值 |
+ average | 否 | number | 行置信度平均值 |
+ variance | 否 | number | 行置信度方差 |
+ min | 否 | number | 行置信度最小值 |
通用文字识别(含生僻字版) 返回示例
{
"log_id": 2471272194,
"words_result_num": 2,
"words_result":
[
{"words": " TSINGTAO"},
{"words": "青島睥酒"}
]
}
网络图片文字识别
用户向服务请求识别一些网络上背景复杂,特殊字体的文字。
""" 读取文件 """
def get_file_content(filePath):
with open(filePath, "rb") as fp:
return fp.read()
image = get_file_content('文件路径')
url = "https://www.x.com/sample.jpg"
pdf_file = get_file_content('文件路径')
# 调用网络图片文字识别
res_image = client.webImage(image)
res_url = client.webImageUrl(url)
res_pdf = client.webImagePdf(pdf_file)
print(res_image)
print(res_url)
print(res_pdf)
# 如果有可选参数
options = {}
options["detect_direction"] = "true"
options["detect_language"] = "true"
res_image = client.webImage(image, options)
res_url = client.webImageUrl(url, options)
res_pdf = client.webImagePdf(pdf_file, options)
print(res_image)
print(res_url)
print(res_pdf)
网络图片文字识别 请求参数详情
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和 url/pdf_file 三选一 | string | - | 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效 |
url | 和 image/pdf_file 三选一 | string | - | 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式优先级:image > url > pdf_file,当image字段存在时,url字段失效请注意关闭URL防盗链 |
pdf_file | 和 image/url 三选一 | string | - | PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效 |
pdf_file_num | 否 | string | - | 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页 |
detect_direction | 否 | string | true/false | 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括: - true:检测朝向; - false:不检测朝向。 |
detect_language | 否 | string | true/false | 是否检测语言,默认不检测。当前支持(中文、英语、日语、韩语) |
网络图片文字识别 返回数据参数详情
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
direction | 否 | int32 | 图像方向,当 detect_direction=true 时返回该字段。 - - 1:未定义, - 0:正向, - 1:逆时针90度, - 2:逆时针180度, - 3:逆时针270度 |
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
words_result | 是 | array[] | 定位和识别结果数组 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
+ words | 否 | string | 识别结果字符串 |
probability | 否 | object | 识别结果中每一行的置信度值,包含average:行置信度平均值,variance:行置信度方差,min:行置信度最小值 |
pdf_file_size | 否 | string | 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段 |
网络图片文字识别 返回示例
{
"log_id": 2471272194,
"words_result_num": 2,
"words_result":
[
{"words": " TSINGTAO"},
{"words": "青島睥酒"}
]
}
身份证识别
用户向服务请求识别身份证,身份证识别包括正面和背面。
""" 读取图片 """
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
image = get_file_content('example.jpg')
url = "https://www.x.com/sample.jpg"
idCardSide = "back"
# 调用身份证识别
res_image = client.idcard(image, idCardSide)
res_url = client.idcardUrl(url, idCardSide)
print(res_image)
print(res_url)
# 如果有可选参数
options = {}
options["detect_direction"] = "true"
options["detect_risk"] = "false"
res_image = client.idcard(image, idCardSide, options)
res_url = client.idcardUrl(url, idCardSide, options)
print(res_image)
print(res_url)
身份证识别 请求参数详情
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和url二选一 | string | - | 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 |
url | 和image二选一 | string | - | 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效请注意关闭URL防盗链 |
id_card_side | 是 | string | front/back | -front:身份证含照片的一面-back:身份证带国徽的一面自动检测身份证正反面,如果传参指定方向与图片相反,支持正常识别,返回参数image_status字段为"reversed_side" |
detect_direction | 否 | string | true/false | 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括: - true:检测朝向; - false:不检测朝向 |
detect_risk | 否 | string | true/false | 是否开启身份证风险类型(身份证复印件、临时身份证、身份证翻拍、修改过的身份证)检测功能,默认不开启,即:false。- true:开启,请查看返回参数risk_type;- false:不开启 |
detect_quality | 否 | string | true/false | 是否开启身份证质量类型(边框/四角不完整、头像或关键字段被遮挡/马赛克)检测功能,默认不开启,即:false。- true:开启,请查看返回参数card_quality;- false:不开启 |
detect_photo | 否 | string | true/false | 是否检测头像内容,默认不检测。可选值:true-检测头像并返回头像的 base64 编码及位置信息 |
detect_card | 否 | string | true/false | 是否检测身份证进行裁剪,默认不检测。可选值:true-检测身份证并返回证照的 base64 编码及位置信息 |
身份证识别 返回数据参数详情
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
direction | 否 | int32 | 图像方向,当 detect_direction=true 时返回该字段。 - - 1:未定义, - 0:正向, - 1:逆时针90度, - 2:逆时针180度, - 3:逆时针270度 |
image_status | 是 | string | normal-识别正常 reversed_side-身份证正反面颠倒 non_idcard-上传的图片中不包含身份证 blurred-身份证模糊 other_type_card-其他类型证照 over_exposure-身份证关键字段反光或过曝 over_dark-身份证欠曝(亮度过低) unknown-未知状态 |
risk_type | 否 | string | 输入参数 detect_risk = true 时,则返回该字段识别身份证风险类型: normal-正常身份证; copy-复印件; temporary-临时身份证; screen-翻拍; unknown-其他未知情况 |
edit_tool | 否 | string | 如果参数 detect_risk = true 时,则返回此字段。如果检测身份证被编辑过,该字段指定编辑软件名称,如:Adobe Photoshop CC 2014 (Macintosh),如果没有被编辑过则返回值无此参数 |
card_quality | 否 | object | 输入参数 detect_quality = true 时,则返回该字段识别身份证质量类型: IsClear - 是否清晰; IsComplete - 是否边框/四角完整; IsNoCover - 是否头像、关键字段无遮挡/马赛克。 及对应的概率:IsComplete_propobility、IsNoCover_propobility、IsClear_propobility,值在0-1之间,值越大表示图像质量越好。 默认阈值:当 IsComplete_propobility 超过0.5时,IsComplete返回1,低于0.5,则返回0。IsNoCover_propobility、IsClear_propobility 同上 |
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
photo | 否 | string | 当请求参数 detect_photo = true时返回,头像切图的 base64 编码(无编码头,需自行处理) |
photo_location | 否 | object | 当请求参数 detect_photo = true时返回,头像的位置信息(坐标0点为左上角) |
card_image | 否 | string | 当请求参数 detect_card = true时返回,身份证裁剪切图的 base64 编码(无编码头,需自行处理) |
card_location | 否 | object | 当请求参数 detect_card = true时返回,身份证裁剪切图的位置信息(坐标0点为左上角) |
idcard_number_type | 是 | string | 用于校验身份证号码、性别、出生是否一致,输出结果及其对应关系如下: - 1: 身份证正面所有字段全为空 0: 身份证证号不合法,此情况下不返回身份证证号 1: 身份证证号和性别、出生信息一致 2: 身份证证号和性别、出生信息都不一致 3: 身份证证号和出生信息不一致 4: 身份证证号和性别信息不一致 |
words_result | 是 | array[] | 定位和识别结果数组 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
+ location | 是 | array[] | 位置数组(坐标0点为左上角) |
++ left | 是 | uint32 | 表示定位位置的长方形左上顶点的水平坐标 |
++ top | 是 | uint32 | 表示定位位置的长方形左上顶点的垂直坐标 |
++ width | 是 | uint32 | 表示定位位置的长方形的宽度 |
++ height | 是 | uint32 | 表示定位位置的长方形的高度 |
+ words | 否 | string | 识别结果字符串 |
身份证识别 返回示例
{
"log_id": 2648325511,
"direction": 0,
"image_status": "normal",
"idcard_type": "normal",
"edit_tool": "Adobe Photoshop CS3 Windows",
"words_result": {
"住址": {
"location": {
"left": 267,
"top": 453,
"width": 459,
"height": 99
},
"words": "南京市江宁区弘景大道3889号"
},
"公民身份号码": {
"location": {
"left": 443,
"top": 681,
"width": 589,
"height": 45
},
"words": "330881199904173914"
},
"出生": {
"location": {
"left": 270,
"top": 355,
"width": 357,
"height": 45
},
"words": "19990417"
},
"姓名": {
"location": {
"left": 267,
"top": 176,
"width": 152,
"height": 50
},
"words": "伍云龙"
},
"性别": {
"location": {
"left": 269,
"top": 262,
"width": 33,
"height": 52
},
"words": "男"
},
"民族": {
"location": {
"left": 492,
"top": 279,
"width": 30,
"height": 37
},
"words": "汉"
}
},
"words_result_num": 6
}
银行卡识别
识别银行卡并返回卡号和发卡行。
""" 读取图片 """
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
image = get_file_content('example.jpg')
url = "https://www.x.com/sample.jpg"
# 调用银行卡识别
res_image = client.bankcard(image)
res_url = client.bankcardUrl(url)
print(res_image)
print(res_url)
银行卡识别 请求参数详情
参数 | 类型 | 是否必须 | 说明 |
---|---|---|---|
image | string | 和url二选一 | 图像数据,base64编码后进行urlencode,需去掉编码头(data:image/jpeg;base64, )要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 |
url | string | 和image二选一 | 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效请注意关闭URL防盗链 |
detect_direction | string | true/false | 是否检测图像朝向,默认检测,即:true。可选值包括true - 检测朝向;false - 不检测朝向。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。 |
银行卡识别 返回数据参数详情
参数 | 类型 | 是否必须 | 说明 |
---|---|---|---|
log_id | uint64 | 是 | 请求标识码,随机数,唯一。 |
direction | int32 | 否 | 图像方向,当 detect_direction = true 时,返回该参数。 - - 1:未定义;- 0:正向;- 1:逆时针90度;- 2:逆时针180度;- 3:逆时针270度 |
result | object | 是 | 返回结果 |
+ bank_card_number | string | 是 | 银行卡卡号 |
+ valid_date | string | 是 | 有效期 |
+ bank_card_type | uint32 | 是 | 银行卡类型,0:不能识别; 1:借记卡; 2:贷记卡(原信用卡大部分为贷记卡); 3:准贷记卡; 4:预付费卡 |
+ bank_name | string | 是 | 银行名,不能识别时为空 |
+ holder_name | string | 是 | 持卡人姓名,不能识别时为空 |
银行卡识别 返回示例
{
"log_id": 1447188951,
"result": {
"bank_card_number": "622500000000000",
"bank_name": "招商银行",
"bank_card_type": 1
}
}
驾驶证识别
对机动车驾驶证所有关键字段进行识别。
""" 读取图片 """
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
image = get_file_content('example.jpg')
url = "https://www.x.com/sample.jpg"
# 调用驾驶证识别
res_image = client.drivingLicense(image)
res_url = client.drivingLicenseUrl(url)
print(res_image)
print(res_url)
# 如果有可选参数
options = {}
options["detect_direction"] = "true"
res_image = client.drivingLicense(image, options)
res_url = client.drivingLicenseUrl(url, options)
print(res_image)
print(res_url)
驾驶证识别 请求参数详情
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和image二选一 | string | - | 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 |
url | 和image二选一 | string | - | 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效请注意关闭URL防盗链 |
detect_direction | 否 | string | true/false | - false:默认值,不检测朝向,朝向是指输入图像是正常方向、逆时针旋转90/180/270度 - true:检测朝向 |
driving_license_side | 否 | string | front/back | - front:默认值,识别驾驶证正页 - back:识别驾驶证副页 |
unified_valid_period | 否 | bool | true/false | - false: 默认值,不进行归一化处理 - true: 归一化格式输出驾驶证的「有效起始日期」+「有效期限」及「有效期限」+「至」两种输出格式归一化为「有效起始日期」+「失效日期」 |
quality_warn | 否 | string | true/false | 是否开启质量检测功能,仅在驾驶证正页识别时生效,- false:默认值,不输出质量告警信息- true: 输出驾驶证遮挡、不完整质量告警信息 |
risk_warn | 否 | string | true/false | 是否开启风险检测功能,- false:默认值,不输出风险告警信息 - true:开启,输出驾驶证复印、翻拍、PS等告警信息 |
驾驶证识别 返回数据参数详情
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
direction | 否 | int32 | 图像方向,当 detect_direction=true 时返回该字段。 - - 1:未定义, - 0:正向, - 1:逆时针90度, - 2:逆时针180度, - 3:逆时针270度 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
words_result | 是 | object | 识别结果 |
+ words | 否 | string | 识别结果字符串 |
warn_infos | 否 | array[] | 当输入参数 driving_license_side=front,且 quality_warn=true 时输出,- shield:驾驶证证照存在遮挡告警提示 - incomplete:驾驶证证照边框不完整告警提示 |
risk_type | 否 | string | 当输入参数 risk_warn=true 时返回识出的驾驶证的类型:normal-正常驾驶证;copy-复印件;screen-翻拍 |
edit_tool | 否 | string | 当输入参数 risk_warn=true 时返回,如果检测驾驶证被编辑过,该字段指定编辑软件名称,如:Adobe Photoshop CC 2014 (Macintosh),如果没有被编辑过则返回值为空 |
返回示例(驾驶证正页)
{
"words_result": {
"姓名": {
"words": "王桃桃"
},
"至": {
"words": "20210518"
},
"出生日期": {
"words": "19880929"
},
"证号": {
"words": "210282198809294228"
},
"住址": {
"words": "辽宁省大连市甘井子区"
},
"初次领证日期": {
"words": "20150518"
},
"国籍": {
"words": "中国"
},
"准驾车型": {
"words": "C1"
},
"性别": {
"words": "女"
},
"有效期限": {
"words": "20150518"
},
"发证单位": {
"words": "北京市公安局公安交通管理局"
}
"log_id": 1321746413993852928,
"words_result_num": 11,
"direction": -1
}
返回示例(驾驶证副页)
{
"words_result": {
"姓名": {
"words": "万万"
},
"记录": {
"words": "请于每个记分周期结束后三十日接受审验。无记分的,免予本次审验。"
},
"证号": {
"words": "513601198209290000"
},
"档案编号": {
"words": "511600001169"
}
},
"direction": 0,
"words_result_num": 4,
"log_id": 1483000040398531214
}
行驶证识别
对机动车行驶证正本所有关键字段进行识别。
""" 读取图片 """
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
image = get_file_content('example.jpg')
url = "https://www.x.com/sample.jpg"
# 调用行驶证识别
res_image = client.vehicleLicense(image)
res_url = client.vehicleLicenseUrl(url)
print(res_image)
print(res_url)
# 如果有可选参数
options = {}
options["detect_direction"] = "true"
options["accuracy"] = "normal"
res_image = client.vehicleLicense(image, options)
res_url = client.vehicleLicenseUrl(url, options)
print(res_image)
print(res_url)
行驶证识别 请求参数详情
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和image二选一 | string | - | 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 |
url | 和image二选一 | string | - | 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效请注意关闭URL防盗链 |
detect_direction | 否 | string | true/false | - false:默认值不进行图像方向自动矫正 - true: 开启图像方向自动矫正功能,可对旋转 90/180/270 度的图片进行自动矫正并识别 |
vehicle_license_side | 否 | string | front/back | - front:默认值,识别行驶证主页- back:识别行驶证副页 |
unified | 否 | string | true/false | - false:默认值,不进行归一化处理- true:对输出字段进行归一化处理,将新/老版行驶证的“注册登记日期/注册日期”统一为”注册日期“进行输出 |
quality_warn | 否 | string | true/false | 是否开启质量检测功能,仅在行驶证正页识别时生效,- false:默认值,不输出质量告警信息- true: 输出行驶证遮挡、不完整质量告警信息 |
risk_warn | 否 | string | true/false | 是否开启风险检测功能,- false:默认值,不输出风险告警信息 - true:开启,输出行驶证复印、翻拍、PS等告警信息 |
行驶证识别 返回数据参数详情
字段 | 必选 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
direction | 否 | int32 | 图像方向,当 detect_direction=true 时返回该字段。 - - 1:未定义, - 0:正向, - 1:逆时针90度, - 2:逆时针180度, - 3:逆时针270度 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
words_result | 是 | object | 识别结果 |
+ words | 否 | string | 识别结果字符串 |
warn_infos | 否 | array[] | 当输入参数 vehicle_license_side=front,且 quality_warn=true 时输出,- shield:行驶证证照存在遮挡告警提示 - incomplete:行驶证证照边框不完整告警提示 |
risk_type | 否 | string | 当输入参数 risk_warn=true 时返回识出的行驶证的类型:normal-正常行驶证;copy-复印件;screen-翻拍 |
edit_tool | 否 | string | 当输入参数 risk_warn=true 时返回,如果检测行驶证被编辑过,该字段指定编辑软件名称,如:Adobe Photoshop CC 2014 (Macintosh),如果没有被编辑过则返回值为空 |
行驶证识别 返回示例
{
"errno": 0,
"msg": "success",
"data": {
"words_result_num": 10,
"words_result": {
"品牌型号": {
"words": "保时捷GT37182RUCRE"
},
"发证日期": {
"words": "20160104"
},
"使用性质": {
"words": "非营运"
},
"发动机号码": {
"words": "20832"
},
"号牌号码": {
"words": "苏A001"
},
"所有人": {
"words": "圆圆"
},
"住址": {
"words": "南京市江宁区弘景大道"
},
"注册日期": {
"words": "20160104"
},
"车辆识别代号": {
"words": "HCE58"
},
"车辆类型": {
"words": "小型轿车"
}
}
}
}
车牌识别
识别机动车车牌,并返回号牌号码和车牌颜色。
""" 读取图片 """
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
image = get_file_content('example.jpg')
url = "https://www.x.com/sample.jpg"
# 调用车牌识别
res_image = client.licensePlate(image)
res_url = client.licensePlateUrl(url)
print(res_image)
print(res_url)
# 如果有可选参数
options = {}
options["multi_detect"] = "true"
res_image = client.licensePlate(image, options)
res_url = client.licensePlateUrl(url, options)
print(res_image)
print(res_url)
车牌识别 请求参数详情
参数名称 | 是否必选 | 类型 | 可选值范围 | 默认值 | 说明 |
---|---|---|---|---|---|
image | 是 | string | 图像数据,base64编码,要求base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/png/bmp格式 | ||
multi_detect | 否 | string | true false |
false | 是否检测多张车牌,默认为false,当置为true的时候可以对一张图片内的多张车牌进行识别 |
车牌识别 返回数据参数详情
参数 | 类型 | 是否必须 | 说明 |
---|---|---|---|
log_id | uint64 | 是 | 请求标识码,随机数,唯一。 |
Color | string | 是 | 车牌颜色 |
number | string | 是 | 车牌号码 |
车牌识别 返回示例
{
"log_id": 3583925545,
"words_result": {
"color": "blue",
"number": "苏HS7766"
}
}
营业执照识别
识别营业执照,并返回关键字段的值,包括单位名称、法人、地址、有效期、证件编号、社会信用代码等。
""" 读取图片 """
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
image = get_file_content('example.jpg')
url = "https://www.x.com/sample.jpg"
# 调用营业执照识别
res_image = client.businessLicense(image)
res_url = client.businessLicenseUrl(url)
print(res_image)
print(res_url)
营业执照识别 请求参数详情
参数 | 类型 | 是否必须 | 说明 |
---|---|---|---|
image | string | 和url二选一 | 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 |
url | string | 和image二选一 | 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效请注意关闭URL防盗链 |
detect_direction | string | 否 | 此参数新版本无需传,支持自动检测图像旋转角度;朝向是指输入图像是正常方向、逆时针旋转90/180/270度 |
accuracy | string | 否 | 此参数新版本无需传,可选值:normal,high |
risk_warn | string | 否 | 是否开启风险类型功能,默认不开启,即:false。- false:不开启 - true:开启 |
营业执照识别 返回数据参数详情
参数 | 是否必须 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | uint64 | 请求标识码,随机数,唯一。 |
direction | 否 | uint32 | 图像方向,当图像旋转时,返回该参数。 - - 1:未定义, - 0:正向, - 1:逆时针90度, - 2:逆时针180度, - 3:逆时针270度 |
risk_type | 否 | string | 当输入参数 risk_warn=true 时返回识出的营业执照的类型:normal-正常营业执照;copy-复印件;screen-翻拍;scan-扫描 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
words_result | 是 | object | 识别结果 |
+ location | 是 | object | 位置数组(坐标0点为左上角) |
++ left | 是 | uint32 | 表示定位位置的长方形左上顶点的水平坐标 |
++ top | 是 | uint32 | 表示定位位置的长方形左上顶点的垂直坐标 |
++ width | 是 | uint32 | 表示定位位置的长方形的宽度 |
++ height | 是 | uint32 | 表示定位位置的长方形的高度 |
+ words | 否 | string | 识别结果字符串 |
营业执照识别 返回示例
{
"log_id": 490058765,
"words_result": {
"单位名称": {
"location": {
"left": 500,
"top": 479,
"width": 618,
"height": 54
},
"words": "袁氏财团有限公司"
},
"法人": {
"location": {
"left": 938,
"top": 557,
"width": 94,
"height": 46
},
"words": "袁运筹"
},
"地址": {
"location": {
"left": 503,
"top": 644,
"width": 574,
"height": 57
},
"words": "江苏省南京市中山东路19号"
},
"有效期": {
"location": {
"left": 779,
"top": 1108,
"width": 271,
"height": 49
},
"words": "2015年02月12日"
},
"证件编号": {
"location": {
"left": 1219,
"top": 357,
"width": 466,
"height": 39
},
"words": "苏餐证字(2019)第666602666661号"
},
"社会信用代码": {
"location": {
"left": 0,
"top": 0,
"width": 0,
"height": 0
},
"words": "无"
}
},
"words_result_num": 6
}
通用票据识别
用户向服务请求识别医疗票据、增值税发票、出租车票、保险保单等票据类图片中的所有文字,并返回文字在图中的位置信息。
""" 读取图片 """
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
image = get_file_content('example.jpg')
url = "https://www.x.com/sample.jpg"
# 调用通用票据识别
res_image = client.receipt(image)
res_url = client.receiptUrl(url)
print(res_image)
print(res_url)
# 如果有可选参数
options = {}
options["recognize_granularity"] = "big"
options["probability"] = "true"
options["accuracy"] = "normal"
options["detect_direction"] = "true"
res_image = client.receipt(image, options)
res_url = client.receiptUrl(url, options)
print(res_image)
print(res_url)
通用票据识别 请求参数详情
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和url二选一 | string | - | 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 |
url | 和image二选一 | string | - | 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效请注意关闭URL防盗链 |
recognize_granularity | 否 | string | big/small | 是否定位单字符位置,big:不定位单字符位置,默认值;small:定位单字符位置 |
probability | 否 | string | true/false | 是否返回识别结果中每一行的置信度 |
accuracy | 否 | string | normal/缺省 | normal:使用快速服务;缺省或其它值:使用高精度服务 |
detect_direction | 否 | string | true/false | 是否检测图像朝向,默认不检测,即:false。可选值包括:- true:检测朝向;- false:不检测朝向,朝向是指输入图像是正常方向、逆时针旋转90/180/270度 |
通用票据识别 返回数据参数详情
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
words_result | 是 | array[] | 定位和识别结果数组 |
+ location | 是 | object{} | 位置数组(坐标0点为左上角) |
++ left | 是 | uint32 | 表示定位位置的长方形左上顶点的水平坐标 |
++ top | 是 | uint32 | 表示定位位置的长方形左上顶点的垂直坐标 |
++ width | 是 | uint32 | 表示定位位置的长方形的宽度 |
++ height | 是 | uint32 | 表示定位位置的长方形的高度 |
+ words | 是 | string | 识别结果字符串 |
+ chars | 否 | array[] | 单字符结果,recognize_granularity=small 时存在 |
++ char | 否 | string | 单字符识别结果 |
++ location | 否 | object{} | 位置数组(坐标0点为左上角) |
+++ left | 否 | uint32 | 表示定位位置的长方形左上顶点的水平坐标 |
+++ top | 否 | uint32 | 表示定位位置的长方形左上顶点的垂直坐标 |
+++ width | 否 | uint32 | 表示定位定位位置的长方形的宽度 |
+++ height | 否 | uint32 | 表示位置的长方形的高度 |
+ probability | 否 | float | 识别结果中每一行的置信度值,包含average:行置信度平均值,variance:行置信度方差,min:行置信度最小值 |
通用票据识别 返回示例
{
"log_id": 2661573626,
"words_result": [
{
"location": {
"left": 10,
"top": 3,
"width": 121,
"height": 24
},
"words": "姓名:小明明",
"chars": [
{
"location": {
"left": 16,
"top": 6,
"width": 17,
"height": 20
},
"char": "姓"
}
...
]
},
{
"location": {
"left": 212,
"top": 3,
"width": 738,
"height": 24
},
"words": "卡号/病案号:105353990标本编号:150139071送检科室:血液透析门诊病房",
"chars": [
{
"location": {
"left": 218,
"top": 6,
"width": 18,
"height": 21
},
"char": "卡"
}
...
]
}
],
"words_result_num": 2
}
自定义模板文字识别
自定义模板文字识别,是针对百度官方没有推出相应的模板,但是当用户需要对某一类卡证/票据(如房产证、军官证、火车票等)进行结构化的提取内容时,可以使用该产品快速制作模板,进行识别。
# 读取图片
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
image = get_file_content('aa.jpg')
# 必填参数
options = {}
# key固定为templateSign 后面给页面提供的 模板ID(templateSign) 的值即可
options["templateSign"] = ""
# 调用自定义模板文字识别
res_image = client.custom(image, options)
print(res_image)
自定义模板文字识别 请求参数详情
参数名称 | 是否必选 | 类型 | 说明 |
---|---|---|---|
image | 是 | string | 图像数据,base64编码,要求base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/png/bmp格式 |
options | 是 | object | 用于传入额外参数,如templateSign、classifierId |
+ templateSign | 否 | string | 您在自定义文字识别平台制作的模板的ID |
+ classifierId | 否 | string | 分类器Id。这个参数和templateSign至少存在一个,优先使用templateSign。存在templateSign时,表示使用指定模板;如果没有templateSign而有classifierId,表示使用分类器去判断使用哪个模板 |
自定义模板文字识别 返回数据参数详情
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
error_code | number | number | 0代表成功,如果有错误码返回可以参考下方错误码列表排查问题 |
error_msg | 是 | string | 具体的失败信息,可以参考下方错误码列表排查问题 |
data | jsonObject | 识别返回的结果 |
自定义模板文字识别 返回示例
{
"isStructured": true,
"ret": [
{
"charset": [
{
"rect": {
"top": 183,
"left": 72,
"width": 14,
"height": 28
},
"word": "5"
},
{
"rect": {
"top": 183,
"left": 90,
"width": 14,
"height": 28
},
"word": "4"
},
{
"rect": {
"top": 183,
"left": 103,
"width": 15,
"height": 28
},
"word": "."
},
{
"rect": {
"top": 183,
"left": 116,
"width": 14,
"height": 28
},
"word": "5"
},
{
"rect": {
"top": 183,
"left": 133,
"width": 19,
"height": 28
},
"word": "元"
}
],
"word_name": "票价",
"word": "54.5元"
},
{
"charset": [
{
"rect": {
"top": 144,
"left": 35,
"width": 14,
"height": 28
},
"word": "2"
},
{
"rect": {
"top": 144,
"left": 53,
"width": 14,
"height": 28
},
"word": "0"
},
{
"rect": {
"top": 144,
"left": 79,
"width": 14,
"height": 28
},
"word": "1"
},
{
"rect": {
"top": 144,
"left": 97,
"width": 14,
"height": 28
},
"word": "7"
}
]
]
}
表格文字识别(同步接口)
自动识别表格线及表格内容,结构化输出表头、表尾及每个单元格的文字内容。
""" 读取图片 """
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
image = get_file_content('example.jpg')
url = "https://www.x.com/sample.jpg"
# 调用表格文字识别(同步接口)
res_image = client.form(image)
res_url = client.formUrl(url)
print(res_image)
print(res_url)
# 如果有可选参数
options = {}
options["table_border"] = "none"
res_image = client.form(image, options)
res_url = client.formUrl(url, options)
print(res_image)
print(res_url)
表格文字识别(同步接口) 请求参数详情
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | long | 唯一的log id,用于问题定位 |
forms_result_num | 是 | uint32 | 识别结果元素个数 |
forms_result | 是 | array[] | 识别结果 |
+ body | 是 | array[] | 表格主体区域 |
+ footer | 是 | array[] | 表格尾部区域信息 |
header | 是 | array[] | 表格头部区域信息 |
vertexes_location | 是 | array[] | 表格边界顶点 |
表格文字识别(同步接口) 返回示例
{
"log_id": 3445697108,
"forms_result_num": 1,
"forms_result": [
{
"body": [
{
"column": 0,
"probability": 0.99855202436447,
"row": 0,
"vertexes_location": [
{
"x": -2,
"y": 260
},
{
"x": 21,
"y": 244
},
{
"x": 35,
"y": 266
},
{
"x": 12,
"y": 282
}
],
"words": "目"
},
{
"column": 3,
"probability": 0.99960500001907,
"row": 5,
"vertexes_location": [
{
"x": 603,
"y": 52
},
{
"x": 634,
"y": 32
},
{
"x": 646,
"y": 50
},
{
"x": 615,
"y": 71
}
],
"words": "66"
},
{
"column": 3,
"probability": 0.99756097793579,
"row": 6,
"vertexes_location": [
{
"x": 634,
"y": 73
},
{
"x": 648,
"y": 63
},
{
"x": 657,
"y": 77
},
{
"x": 643,
"y": 86
}
],
"words": "4"
},
{
"column": 3,
"probability": 0.96489900350571,
"row": 10,
"vertexes_location": [
{
"x": 699,
"y": 178
},
{
"x": 717,
"y": 167
},
{
"x": 727,
"y": 183
},
{
"x": 710,
"y": 194
}
],
"words": "3,"
},
{
"column": 3,
"probability": 0.99809801578522,
"row": 14,
"vertexes_location": [
{
"x": 751,
"y": 296
},
{
"x": 786,
"y": 273
},
{
"x": 797,
"y": 289
},
{
"x": 761,
"y": 312
}
],
"words": "206"
}
],
"footer": [
{
"column": 0,
"probability": 0.99853301048279,
"row": 0,
"vertexes_location": [
{
"x": 605,
"y": 698
},
{
"x": 632,
"y": 680
},
{
"x": 643,
"y": 696
},
{
"x": 616,
"y": 714
}
],
"words": "22"
}
],
"header": [
{
"column": 0,
"probability": 0.94802802801132,
"row": 0,
"vertexes_location": [
{
"x": 183,
"y": 96
},
{
"x": 286,
"y": 29
},
{
"x": 301,
"y": 52
},
{
"x": 199,
"y": 120
}
],
"words": "29月"
}
],
"vertexes_location": [
{
"x": -154,
"y": 286
},
{
"x": 512,
"y": -153
},
{
"x": 953,
"y": 513
},
{
"x": 286,
"y": 953
}
]
}
]
}
表格文字识别(异步接口)--提交请求
自动识别表格线及表格内容,结构化输出表头、表尾及每个单元格的文字内容。表格文字识别接口为异步接口,分为两个API:提交请求接口、获取结果接口。
""" 读取图片 """
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
image = get_file_content('example.jpg')
# 调用表格文字识别(异步接口)--提交请求
res_image = client.tableRecognitionAsync(image)
print(res_image)
表格文字识别 请求参数详情
参数名称 | 是否必选 | 类型 | 说明 |
---|---|---|---|
image | 是 | string | 图像数据,base64编码,要求base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/png/bmp格式 |
表格文字识别 返回数据参数详情
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | long | 唯一的log id,用于问题定位 |
result | 是 | list | 返回的结果列表 |
+request_id | 是 | string | 该请求生成的request_id,后续使用该request_id获取识别结果 |
表格文字识别 返回示例
{
"result" : [
{
"request_id" : "1234_6789"
}
],
"log_id":149689853984104
}
失败应答示例(详细的错误码说明见本文档底部):
{
"log_id": 149319909347709,
"error_code": 282000
"error_msg":"internal error"
}
表格文字识别(异步接口)--获取结果
获取表格文字识别结果。
requestId = "23454320-23255"
# 调用表格文字识别(异步接口)--获取结果
res_image = client.getTableRecognitionResult(requestId)
print(res_image)
# 如果有可选参数
options = {}
options["result_type"] = "json"
res_image = client.getTableRecognitionResult(requestId, options)
print(res_image)
表格识别结果 请求参数详情
参数名称 | 是否必选 | 类型 | 可选值范围 | 默认值 | 说明 |
---|---|---|---|---|---|
request_id | 是 | string | 发送表格文字识别请求时返回的request id | ||
result_type | 否 | string | json excel |
excel | 期望获取结果的类型,取值为“excel”时返回xls文件的地址,取值为“json”时返回json格式的字符串,默认为”excel” |
表格识别结果 返回数据参数详情
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | long | 唯一的log id,用于问题定位 |
result | 是 | object | 返回的结果 |
+result_data | 是 | string | 识别结果字符串,如果request_type是excel,则返回excel的文件下载地址,如果request_type是json,则返回json格式的字符串 |
+percent | 是 | int | 表格识别进度(百分比) |
+request_id | 是 | string | 该图片对应请求的request_id |
+ret_code | 是 | int | 识别状态,1:任务未开始,2:进行中,3:已完成 |
+ret_msg | 是 | string | 识别状态信息,任务未开始,进行中,已完成 |
表格识别结果 返回示例
成功应答示例:
{
"result" : {
"result_data" : "",
"persent":100,
"request_id": "149691317905102",
"ret_code": 3
"ret_msg": "已完成",
},
"log_id":149689853984104
}
当request_type为excel时,result_data格式样例为:
{
"file_url":"https://ai.baidu.com/file/xxxfffddd"
}
当request_type为json时,result_data格式样例为:
{
"form_num": 1,
"forms": [
{
"header": [
{
"row": [
1
],
"column": [
1,
2
],
"word": "表头信息1",
}
],
"footer": [
{
"row": [
1
],
"column": [
1,
2
],
"word": "表尾信息1",
}
],
"body": [
{
"row": [
1
],
"column": [
1,
2
],
"word": "单元格文字",
}
]
}
]
}
其中各个参数的说明(json方式返回结果时):
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
form_num | 是 | int | 表格数量(可能一张图片中包含多个表格) |
forms | 是 | list | 表格内容信息的列表 |
+header | 是 | list | 每个表格中,表头数据的相关信息 |
+footer | 是 | list | 表尾的相关信息 |
+body | 是 | list | 表格主体部分的数据 |
++row | 是 | list | 该单元格占据的行号 |
++column | 是 | list | 该单元格占据的列号 |
++word | 是 | string | 该单元格中的文字信息 |
失败应答示例(详细的错误码说明见本文档底部):
{
"log_id": 149319909347709,
"error_code": 282000
"error_msg":"internal error"
}
表格识别接口
调用表格识别请求,获取请求id之后轮询调用表格识别获取结果的接口。
""" 读取图片 """
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
image = get_file_content('example.jpg')
# 调用表格识别
options = {}
options["result_type"] = "json"
res_image = client.tableRecognition(image, options)
print(res_image)
请求参数
tableRecognition(image, option, timeout)
参数名称 | 是否必选 | 类型 | 可选值范围 | 默认值 | 说明 | ||
---|---|---|---|---|---|---|---|
image | 是 | string | 图片base64编码数据 | ||||
+result_type | 是 | string | json excel |
excel | 期望获取结果的类型,取值为“excel”时返回xls文件的地址,取值为“json”时返回json格式的字符串,默认为”excel” | ||
timeout | 是 | number | 10000 | 轮询tableGetresult接口获取数据的超时时间,单位毫秒 |
返回参数表格识别结果接口返回相同
试卷分析与识别
可对文档版面进行分析,输出图、表、标题、文本的位置,并输出分版块内容的OCR识别结果,支持中、英两种语言,手写、印刷体混排多种场景。
""" 读取图片 """
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
image = get_file_content('example.jpg')
url = "https://www.x.com/sample.jpg"
pdf_file = get_file_content('文件路径')
# 调用试卷分析与识别
res_image = client.docAnalysis(image)
res_url = client.docAnalysisUrl(url)
res_pdf = client.docAnalysisPdf(pdf_file)
print(res_image)
print(res_url)
print(res_pdf)
识别结果 请求参数详情
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和 url/pdf_file 三选一 | string | - | 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效 |
url | 和 image/pdf_file 三选一 | string | - | 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式优先级:image > url > pdf_file,当image字段存在时,url字段失效请注意关闭URL防盗链 |
pdf_file | 和 image/url 三选一 | string | - | PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效 |
pdf_file_num | 否 | string | - | 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页 |
language_type | 否 | string | CHN_ENG/ ENG | 识别语言类型,默认为CHN_ENG 可选值包括: = CHN_ENG:中英文 = ENG:英文 |
result_type | 否 | string | big/small | 返回识别结果是按单行结果返回,还是按单字结果返回,默认为big。 = big:返回行识别结果 = small:返回行识别结果之上还会返回单字结果 |
detect_direction | 否 | string | true/false | 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。其中, 0 :正向 1:逆时针旋转90度 2:逆时针旋转180度 3:逆时针旋转270度 |
line_probability | 否 | string | true/false | 是否返回每行识别结果的置信度。默认为false |
words_type | 否 | string | handwring_only/ handprint_mix | 文字类型。 默认:印刷文字识别 = handwring_only:手写文字识别 = handprint_mix: 手写印刷混排识别 |
layout_analysis | 否 | string | true/false | 是否分析文档版面:包括图、表、标题、段落的分析输出 |
识别结果 返回数据参数详情
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
img_direction | 否 | int32 | detect_direction=true 时返回。检测到的图像朝向,0 :正向; 1:逆时针旋转90度;2:逆时针旋转180度;3:逆时针旋转270度 |
results_num | 是 | uint32 | 识别结果数,表示results的元素个数 |
results | 是 | array[] | 识别结果数组 |
+ words_type | 是 | string | 文字属性(手写、印刷),handwriting 手写,print 印刷 |
+ words | 是 | array[] | 整行的识别结果数组。 |
++ line_probability | 否 | array[] | line_probability=true 时返回。识别结果中每一行的置信度值,包含average:行置信度平均值,min:行置信度最小值 |
+++ average | 否 | float | 行置信度 |
+++ min | 否 | float | 整行中单字的最低置信度 |
++ word | 是 | float | 整行的识别结果 |
++ words_location | 是 | array[] | 整行的矩形框坐标。位置数组(坐标0点为左上角) |
+++ left | 是 | uint32 | 表示定位位置的长方形左上顶点的水平坐标 |
+++ top | 是 | uint32 | 表示定位位置的长方形左上顶点的垂直坐标 |
+++ width | 是 | uint32 | 表示定位定位位置的长方形的宽度 |
+++ height | 是 | uint32 | 表示位置的长方形的高度 |
+ chars | 否 | array[] | result_type=small 时返回。单字符结果数组 |
++ char | 否 | string | result_type=small 时返回。每个单字的内容 |
++ chars_location | 否 | array[] | 每个单字的矩形框坐标。位置数组(坐标0点为左上角) |
+++ left | 否 | uint32 | 表示定位位置的长方形左上顶点的水平坐标 |
+++ top | 否 | uint32 | 表示定位位置的长方形左上顶点的垂直坐标 |
+++ width | 否 | uint32 | 表示定位定位位置的长方形的宽度 |
+++ height | 否 | uint32 | 表示位置的长方形的高度 |
layouts_num | 否 | uint32 | 版面分析结果数,表示layout的元素个数 |
layouts | 否 | array[] | 文档版面信息数组,包含表格、图、段落文本、标题等标签;标签的坐标位置;段落文本和表格内文本内容对应的行序号ID |
+ layout | 否 | string | 版面分析的标签结果。表格:table, 图:figure, 文本:text, 标题:title |
+ layout_location | 否 | array[] | 文档版面信息标签的位置,四个顶点: 左上,右上,右下,左下 |
++ x | 否 | uint32 | 水平坐标(坐标0点为左上角) |
++ y | 否 | uint32 | 水平坐标(坐标0点为左上角) |
+ layout_idx | 否 | array[] | 文档版面信息中的文本在results结果中的位置:版面文本标签对应的行序号ID为n,则此标签中的文本在results结果中第n+1条展示) |
pdf_file_size | 否 | string | 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段 |
仪器仪表盘读数识别
适用于不同品牌、不同型号的仪器仪表盘读数识别,广泛适用于各类血糖仪、血压仪、燃气表、电表等,可识别表盘上的数字、英文、符号,支持液晶屏、字轮表等表型。
""" 读取图片 """
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
image = get_file_content('example.jpg')
url = "https://www.x.com/sample.jpg"
# 调用仪器仪表盘读数识别
res_image = client.meter(image)
res_url = client.meterUrl(url)
print(res_image)
print(res_url)
# 如果有可选参数
options={}
options['poly_location']='true'
res_image = client.meter(image, options)
res_url = client.meterUrl(url, options)
print(res_image)
print(res_url)
识别结果 请求参数详情
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和url二选一 | string | - | 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px。支持jpg/jpeg/png/bmp格式.注意:图片的base64编码是不包含图片头的,如(data:image/jpg;base64,) |
url | 和image二选一 | string | - | 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效请注意关闭URL防盗链 |
probability | 否 | string | true/false | 是否返回每行识别结果的置信度。默认为false |
poly_location | 否 | string | true/false | 位置信息返回形式,默认:false false:只给出识别结果所在长方形位置信息 true:除了默认的识别文字所在长方形的位置信息,还会给出文字所在区域的最小外接旋转矩形的4个点坐标信息 |
识别结果 返回数据参数详情
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
words_result | 是 | array[] | 识别结果数组 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
+ words | 是 | string | 识别结果字符串 |
+ location | 是 | array[] | 识别结果所在长方形位置信息 |
++ left | 是 | uint32 | 表示定位位置的长方形左上顶点的水平坐标 |
++ top | 是 | uint32 | 表示定位位置的长方形左上顶点的垂直坐标 |
++ width | 是 | uint32 | 表示定位位置的长方形的宽度 |
++ height | 是 | uint32 | 表示定位位置的长方形的高度 |
+ probability | 否 | string | probability=true 时存在。识别结果中每一行的置信度值,包含average:行置信度平均值,variance:行置信度方差,min:行置信度最小值 |
+ poly_location | 否 | array[] | poly_location=true 时存在。文字所在区域的外接四边形的4个点坐标信息 |
返回示例
{
"log_id": "1392680790663364608",
"words_result_num": 5
"words_result": [
{
"words": "5.8",
"location": {
"top": 150,
"left": 370,
"width": 87,
"height": 79
}
},
{
"words": "mmol/L",
"location": {
"top": 241,
"left": 402,
"width": 52,
"height": 12
}
},
{
"words": "10:38",
"location": {
"top": 115,
"left": 347,
"width": 42,
"height": 21
}
},
{
"words": "12-11",
"location": {
"top": 116,
"left": 410,
"width": 36,
"height": 20
}
},
{
"words": "am",
"location": {
"top": 115,
"left": 391,
"width": 12,
"height": 5
}
}
],
}
网络图片文字识别(含位置版)
支持识别艺术字体或背景复杂的文字内容,除文字信息外,还可返回每行文字的位置信息、行置信度,以及单字符内容和位置等。
""" 读取图片 """
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
image = get_file_content('example.jpg')
url = "https://www.x.com/sample.jpg"
pdf_file = get_file_content('文件路径')
# 调用网络图片文字识别(含位置版)
res_image = client.webimageLoc(image)
res_url = client.webimageLocUrl(url)
res_pdf = client.webimageLocPdf(pdf_file)
print(res_image)
print(res_url)
print(res_pdf)
# 如果有可选参数
options={}
options['probability']='true'
res_image = client.webimageLoc(image, options)
res_url = client.webimageLocUrl(url, options)
res_pdf = client.webimageLocPdf(pdf_file, options)
print(res_image)
print(res_url)
print(res_pdf)
网络图片文字识别(含位置版) 请求参数详情
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和 url/pdf_file 三选一 | string | - | 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效 |
url | 和 image/pdf_file 三选一 | string | - | 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式优先级:image > url > pdf_file,当image字段存在时,url字段失效请注意关闭URL防盗链 |
pdf_file | 和 image/url 三选一 | string | - | PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效 |
pdf_file_num | 否 | string | - | 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页 |
detect_direction | 否 | string | true/false | 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括: - true:检测朝向; - false:不检测朝向 |
probability | 否 | string | true/false | 是否返回每行识别结果的置信度。默认为false |
poly_location | 否 | string | true/false | 是否返回文字所在区域的外接四边形的4个点坐标信息。默认为false |
recognize_granularity | 否 | string | big/small | 是否定位单字符位置,big:不定位单字符位置,默认值;small:定位单字符位置 |
识别结果 返回数据参数详情
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
direction | 否 | int32 | 图像方向,当 detect_direction=true 时返回该字段。检测到的图像朝向: - - 1:未定义; - 0 :正向; - 1:逆时针旋转90度; - 2:逆时针旋转180度; - 3:逆时针旋转270度 |
words_result | 是 | array[] | 识别结果数组 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
+ words | 是 | string | 整行的识别结果 |
+ location | 是 | object | 整行的矩形框坐标。位置数组(坐标0点为左上角) |
++ left | 是 | uint32 | 表示定位位置的长方形左上顶点的水平坐标 |
++ top | 是 | uint32 | 表示定位位置的长方形左上顶点的垂直坐标 |
++ width | 是 | uint32 | 表示定位位置的长方形的宽度 |
++ height | 是 | uint32 | 表示定位位置的长方形的高度 |
+ probability | 否 | string | 当 probability=true 时返回该字段。识别结果中每一行的置信度值,包含average:行置信度平均值,variance:行置信度方差,min:行置信度最小值 |
+ poly_location | 否 | array[] | 当 probability=true 时返回该字段。文字所在区域的外接矩形的4个点坐标信息 |
++ x | 否 | uint32 | 水平坐标(坐标0点为左上角) |
++ y | 否 | uint32 | 垂直坐标(坐标0点为左上角) |
+ chars | 否 | array[] | 单字符结果,当 recognize_granularity=small 时返回该字段 |
++ char | 否 | string | 单字符识别结果 |
++ location | 否 | object | 每个单字的矩形框坐标。位置数组(坐标0点为左上角) |
+++ left | 否 | uint32 | 表示定位位置的长方形左上顶点的水平坐标 |
+++ top | 否 | uint32 | 表示定位位置的长方形左上顶点的垂直坐标 |
+++ width | 否 | uint32 | 表示定位定位位置的长方形的宽度 |
+++ height | 否 | uint32 | 表示定位定位位置的长方形的高度 |
pdf_file_size | 否 | string | 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段 |
返回示例 |
{
"log_id": 1390656223866519552,
"words_result_num": 3,
"words_result": [
{
"words": "梦想起航",
"location": {
"top": 328,
"left": 1079,
"width": 56,
"height": 262
},
},
{
"words": "前往下一个目的地",
"location": {
"top": 329,
"left": 1160,
"width": 63,
"height": 446
},
},
{
"words": "开始新的旅程",
"location": {
"top": 455,
"left": 1246,
"width": 63,
"height": 340
},
}
],
}
增值税发票识别
支持对增值税普票、专票、卷票、电子发票、区块链发票的所有字段进行结构化识别,包括发票基本信息、销售方及购买方信息、商品信息、价税信息等,其中五要素识别准确率超过 99.9%; 同时,支持对增值税卷票的 21 个关键字段进行识别,包括发票类型、发票代码、发票号码、机打号码、机器编号、收款人、销售方名称、销售方纳税人识别号、开票日期、购买方名称、购买方纳税人识别号、项目、单价、数量、金额、税额、合计金额(小写)、合计金额(大写)、校验码、省、市,四要素平均识别准确率可达95%以上。
""" 读取图片 """
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
image = get_file_content('example.jpg')
url = "https://www.x.com/sample.jpg"
pdf_file = get_file_content('文件路径')
# 调用增值税发票识别
res_image = client.vatInvoice(image)
res_url = client.vatInvoiceUrl(url)
res_pdf = client.vatInvoicePdf(pdf_file)
print(res_image)
print(res_url)
print(res_pdf)
# 如果有可选参数
options={}
options['type']='roll'
res_image = client.vatInvoice(image, options)
res_url = client.vatInvoiceUrl(url, options)
res_pdf = client.vatInvoicePdf(pdf_file, options)
print(res_image)
print(res_url)
print(res_pdf)
请求参数详情
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和 url/pdf_file 三选一 | string | - | 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效 |
url | 和 image/pdf_file 三选一 | string | - | 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式优先级:image > url > pdf_file,当image字段存在时,url字段失效请注意关闭URL防盗链 |
pdf_file | 和 image/url 三选一 | string | - | PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效 |
pdf_file_num | 否 | string | - | 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页 |
type | 否 | string | normal/roll | 进行识别的增值税发票类型,默认为 normal,可缺省- normal:可识别增值税普票、专票、电子发票- roll:可识别增值税卷票 |
返回参数 |
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
pdf_file_size | 否 | string | 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
words_result | 是 | object{} | 识别结果 |
+ ServiceType | 是 | string | 发票消费类型。不同消费类型输出:餐饮、电器设备、通讯、服务、日用品食品、医疗、交通、其他 |
+ InvoiceType | 是 | string | 发票种类。不同类型发票输出:普通发票、专用发票、电子普通发票、电子专用发票、通行费电子普票、区块链发票、通用机打电子发票 |
+ InvoiceTypeOrg | 是 | string | 发票名称 |
+ InvoiceCode | 是 | string | 发票代码 |
+ InvoiceNum | 是 | string | 发票号码 |
+ InvoiceCodeConfirm | 是 | string | 发票代码的辅助校验码,一般业务情景可忽略 |
+ InvoiceNumConfirm | 是 | string | 发票号码的辅助校验码,一般业务情景可忽略 |
+ MachineNum | 是 | string | 机打号码。仅增值税卷票含有此参数 |
+ MachineCode | 是 | string | 机器编号。仅增值税卷票含有此参数 |
+ CheckCode | 是 | string | 校验码。增值税专票无此参数 |
+ InvoiceDate | 是 | string | 开票日期 |
+ PurchaserName | 是 | string | 购方名称 |
+ PurchaserRegisterNum | 是 | string | 购方纳税人识别号 |
+ PurchaserAddress | 是 | string | 购方地址及电话 |
+ PurchaserBank | 是 | string | 购方开户行及账号 |
+ Password | 是 | string | 密码区 |
+ Province | 是 | string | 省 |
+ City | 是 | string | 市 |
+ SheetNum | 是 | string | 联次信息。专票第一联到第三联分别输出:第一联:记账联、第二联:抵扣联、第三联:发票联;普通发票第一联到第二联分别输出:第一联:记账联、第二联:发票联 |
+ Agent | 是 | string | 是否代开 |
+ CommodityName | 是 | array[] | 货物名称 |
++ row | 是 | uint32 | 行号 |
++ word | 是 | string | 内容 |
+ CommodityType | 是 | array[] | 规格型号 |
++ row | 是 | uint32 | 行号 |
++ word | 是 | string | 内容 |
+ CommodityUnit | 是 | array[] | 单位 |
++ row | 是 | uint32 | 行号 |
++ word | 是 | string | 内容 |
+ CommodityNum | 是 | array[] | 数量 |
++ row | 是 | uint32 | 行号 |
++ word | 是 | string | 内容 |
+ CommodityPrice | 是 | array[] | 单价 |
++ row | 是 | uint32 | 行号 |
++ word | 是 | string | 内容 |
+ CommodityAmount | 是 | array[] | 金额 |
++ row | 是 | uint32 | 行号 |
++ word | 是 | string | 内容 |
+ CommodityTaxRate | 是 | array[] | 税率 |
++ row | 是 | uint32 | 行号 |
++ word | 是 | string | 内容 |
+ CommodityTax | 是 | array[] | 税额 |
++ row | 是 | uint32 | 行号 |
++ word | 是 | string | 内容 |
+ CommodityPlateNum | 是 | array[] | 车牌号。仅通行费增值税电子普通发票含有此参数 |
++ row | 是 | uint32 | 行号 |
++ word | 是 | string | 内容 |
+ CommodityVehicleType | 是 | array[] | 类型。仅通行费增值税电子普通发票含有此参数 |
++ row | 是 | uint32 | 行号 |
++ word | 是 | string | 内容 |
+ CommodityStartDate | 是 | array[] | 通行日期起。仅通行费增值税电子普通发票含有此参数 |
++ row | 是 | uint33 | 行号 |
++ word | 是 | string | 内容 |
+ CommodityEndDate | 是 | array[] | 通行日期止。仅通行费增值税电子普通发票含有此参数 |
++ row | 是 | uint33 | 行号 |
++ word | 是 | string | 内容 |
+ OnlinePay | 是 | String | 电子支付标识。仅区块链发票含有此参数 |
+ SellerName | 是 | string | 销售方名称 |
+ SellerRegisterNum | 是 | string | 销售方纳税人识别号 |
+ SellerAddress | 是 | string | 销售方地址及电话 |
+ SellerBank | 是 | string | 销售方开户行及账号 |
+ TotalAmount | 是 | uint32 | 合计金额 |
+ TotalTax | 是 | uint32 | 合计税额 |
+ AmountInWords | 是 | string | 价税合计(大写) |
+ AmountInFiguers | 是 | uint32 | 价税合计(小写) |
+ Payee | 是 | string | 收款人 |
+ Checker | 是 | string | 复核 |
+ NoteDrawer | 是 | string | 开票人 |
+ Remarks | 是 | string | 备注 |
返回示例
{
"log_id": "5425496231209218858",
"words_result_num": 29,
"words_result": {
"InvoiceNum": "14641426",
"SellerName": "上海易火广告传媒有限公司",
"CommodityTaxRate": [
{
"word": "6%",
"row": "1"
}
],
"SellerBank": "中国银行南翔支行446863841354",
"Checker": ":沈园园",
"TotalAmount": "94339.62",
"CommodityAmount": [
{
"word": "94339.62",
"row": "1"
}
],
"InvoiceDate": "2016年06月02日",
"CommodityTax": [
{
"word": "5660.38",
"row": "1"
}
],
"PurchaserName": "百度时代网络技术(北京)有限公司",
"CommodityNum": [
{
"word": "",
"row": "1"
}
],
"Province": "上海",
"City": "",
"SheetNum": "第三联",
"Agent": "否",
"PurchaserBank": "招商银行北京分行大屯路支行8661820285100030",
"Remarks": "告传",
"Password": "074/45781873408>/6>8>65*887676033/51+<5415>9/32--852>1+29<65>641-5>66<500>87/*-34<943359034>716905113*4242>",
"SellerAddress": ":嘉定区胜辛南路500号15幢1161室55033753",
"PurchaserAddress": "北京市海淀区东北旺西路8号中关村软件园17号楼二属A2010-59108001",
"InvoiceCode": "3100153130",
"CommodityUnit": [
{
"word": "",
"row": "1"
}
],
"Payee": ":徐蓉",
"PurchaserRegisterNum": "110108787751579",
"CommodityPrice": [
{
"word": "",
"row": "1"
}
],
"NoteDrawer": "沈园园",
"AmountInWords": "壹拾万圆整",
"AmountInFiguers": "100000.00",
"TotalTax": "5660.38",
"InvoiceType": "专用发票",
"SellerRegisterNum": "913101140659591751",
"CommodityName": [
{
"word": "信息服务费",
"row": "1"
}
],
"CommodityType": [
{
"word": "",
"row": "1"
}
]
}
}
出租车票识别
支持识别全国各大城市出租车票的 16 个关键字段,包括发票号码、代码、车号、日期、总金额、燃油附加费、叫车服务费、省、市、单价、里程、上车时间、下车时间等。
""" 读取文件 """
def get_file_content(filePath):
with open(filePath, "rb") as fp:
return fp.read()
image = get_file_content('文件路径')
url = "https//www.x.com/sample.jpg"
pdf_file = get_file_content('文件路径')
# 调用出租车票识别
res_image = client.taxiReceipt(image)
res_url = client.taxiReceiptUrl(url)
res_pdf = client.taxiReceiptPdf(pdf_file)
print(res_image)
print(res_url)
print(res_pdf)
# 如果有可选参数
options={}
options['pdf_file_num'] = '1'
res_image = client.taxiReceipt(image, options)
res_url = client.taxiReceiptUrl(url, options)
res_pdf = client.taxiReceiptPdf(pdf_file, options)
print(res_image)
print(res_url)
print(res_pdf)
请求参数详情
参数 | 是否必须 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和 url/pdf_file 三选一 | string | - | 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效 |
url | 和 image/pdf_file 三选一 | string | - | 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式优先级:image > url > pdf_file,当image字段存在时,url字段失效请注意关闭URL防盗链 |
pdf_file | 和 image/url 三选一 | string | - | PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效 |
pdf_file_num | 否 | string | - | 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页 |
返回参数 |
参数 | 是否必须 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | uint64 | 请求标识码,随机数,唯一。 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
words_result | 是 | object{} | 识别结果数组 |
+ InvoiceCode | 是 | string | 发票代号 |
+ InvoiceNum | 是 | string | 发票号码 |
+ TaxiNum | 是 | string | 车牌号 |
+ Date | 是 | string | 日期 |
+ Time | 是 | string | 上下车时间 |
+ PickupTime | 是 | string | 上车时间 |
+ DropoffTime | 是 | string | 下车时间 |
+ Fare | 是 | string | 金额 |
+ FuelOilSurcharge | 是 | string | 燃油附加费 |
+ CallServiceSurcharge | 是 | string | 叫车服务费 |
+ TotalFare | 是 | string | 总金额 |
+ Location | 是 | string | 开票城市 |
+ Province | 是 | string | 省 |
+ City | 是 | string | 市 |
+ PricePerkm | 是 | string | 单价 |
+ Distance | 是 | string | 里程 |
pdf_file_size | 否 | string | 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段 |
返回示例
{
"log_id":2034039896,
"words_result_num":6,
"words_result":
{
"Date":"2017-11-26",
"Fare":"¥153.30元",
"InvoiceCode":"111001681009",
"InvoiceNum":"90769610",
"TaxiNum":"BV2062",
"Time":"20:42-21:07",
"FuelOilSurcharge": "¥0.00",
"CallServiceSurcharge": "¥0.00",
"Province": "浙江省",
"City": "杭州市",
"PricePerkm": "2.50元/KM",
"Distance": "4.5KM"
}
}
VIN码识别
支持对车辆挡风玻璃处的车架号码进行识别。
""" 读取文件 """
def get_file_content(filePath):
with open(filePath, "rb") as fp:
return fp.read()
image = get_file_content('文件路径')
url = "https://www.x.com/sample.jpg"
# 调用VIN码识别
res_image = client.vinCode(image)
res_url = client.vinCodeUrl(url)
print(res_image)
print(res_url)
# 如果有可选参数
options={}
res_image = client.vinCode(image, options)
res_url = client.vinCodeUrl(url, options)
print(res_image)
print(res_url)
请求参数详情
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和url二选一 | string | - | 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 |
url | 和image二选一 | string | - | 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效请注意关闭URL防盗链 |
返回参数
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
words_result_num | 是 | int | 识别结果数,表示words_result的元素个数 |
words_result | 是 | array[] | 定位和识别结果数组 |
+ location | 是 | object | 位置数组(坐标0点为左上角) |
++ left | 是 | uint32 | 表示定位位置的长方形左上顶点的水平坐标 |
++ top | 是 | uint32 | 表示定位位置的长方形左上顶点的垂直坐标 |
++ width | 是 | uint32 | 表示定位位置的长方形的宽度 |
++ height | 是 | uint32 | 表示定位位置的长方形的高度 |
+ words | 是 | string | VIN码识别结果 |
返回示例
{
"log_id": 246589877,
"words_result": [
{
"location": {
"left": 124,
"top": 11,
"width": 58,
"height": 359
},
"words": "LFV2A11K8D4010942"
}
],
"words_result_num": 1
}
火车票识别
支持对红、蓝火车票的13个关键字段进行结构化识别,包括车票号码、始发站、目的站、车次、日期、票价、席别、姓名、座位号、身份证号、售站、序列号、时间。
""" 读取文件 """
def get_file_content(filePath):
with open(filePath, "rb") as fp:
return fp.read()
image = get_file_content('文件路径')
url = "https//www.x.com/sample.jpg"
pdf_file = get_file_content('文件路径')
# 调用火车票识别
res_image = client.trainTicket(image)
res_url = client.trainTicketUrl(url)
res_pdf = client.trainTicketPdf(pdf_file)
print(res_image)
print(res_url)
print(res_pdf)
# 如果有可选参数
options={}
res_image = client.trainTicket(image, options)
res_url = client.trainTicketUrl(url, options)
res_pdf = client.trainTicketPdf(pdf_file, options)
print(res_image)
print(res_url)
print(res_pdf)
请求参数详情
参数 | 是否必须 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和 url/pdf_file 三选一 | string | - | 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效 |
url | 和 image/pdf_file 三选一 | string | - | 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式优先级:image > url > pdf_file,当image字段存在时,url字段失效请注意关闭URL防盗链 |
pdf_file | 和 image/url 三选一 | string | - | PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效 |
pdf_file_num | 否 | string | - | 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页 |
返回参数 |
参数 | 是否必须 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | uint64 | 请求标识码,唯一,用于调用失败后进行问题定位 |
direction | 是 | int32 | 图像方向- 0:正向,- 1:逆时针90度,- 2:逆时针180度,- 3:逆时针270度 |
words_result | 是 | object{} | 识别结果 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
+ ticket_num | 是 | string | 车票号 |
+ starting_station | 是 | string | 始发站 |
+ train_num | 是 | string | 车次号 |
+ destination_station | 是 | string | 到达站 |
+ date | 是 | string | 出发日期 |
+ ticket_rates | 是 | string | 车票金额 |
+ seat_category | 是 | string | 席别 |
+ name | 是 | string | 乘客姓名 |
+ id_num | 是 | string | 身份证号 |
+ serial_number | 是 | string | 序列号 |
+ sales_station | 是 | string | 售站 |
+ time | 是 | string | 时间 |
+ seat_num | 是 | string | 座位号 |
pdf_file_size | 否 | string | 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段 |
返回示例 |
{
"log_id": "12317512659",
"direction": 1,
"words_result_num": 13,
"words_result": {
"id_num": "2302051998****156X",
"name": "裴一丽",
"ticket_rates": "¥54.5元",
"destination_station": "天津站",
"seat_category": "二等座",
"sales_station": "北京南",
"ticket_num": "F05706",
"seat_num": "02车03C号",
"time": "09:36",
"date": "2019年04月03日",
"serial_number": "10010300067846",
"train_num": "C255",
"starting_station": "北京南站"
}
}
数字识别
对图片中的数字进行提取和识别,自动过滤非数字内容,仅返回数字内容及其位置信息,识别准确率超过99%。
""" 读取文件 """
def get_file_content(filePath):
with open(filePath, "rb") as fp:
return fp.read()
image = get_file_content('文件路径')
url = "https://www.x.com/sample.jpg"
# 调用数字识别
res_image = client.numbers(image)
res_url = client.numbersUrl(url)
print(res_image)
print(res_url)
# 如果有可选参数
options={}
options['recognize_granularity']='small'
res_image = client.numbers(image, options)
res_url = client.numbersUrl(url, options)
print(res_image)
print(res_url)
请求参数详情
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和url二选一 | string | - | 图像数据,base64编码后进行urlencode,需去掉编码头(data:image/jpeg;base64, )要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 |
url | 和image二选一 | string | - | 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效请注意关闭URL防盗链 |
recognize_granularity | 否 | string | big/small | 是否定位单字符位置,big:不定位单字符位置,默认值;small:定位单字符位置 |
detect_direction | 否 | string | true/false | 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。 可选值包括- true:检测朝向;- false:不检测朝向 |
返回说明
返回参数
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
words_result | 是 | array[] | 定位和识别结果数组 |
+ location | 是 | object | 位置数组(坐标0点为左上角) |
++ left | 是 | uint32 | 表示定位位置的长方形左上顶点的水平坐标 |
++ top | 是 | uint32 | 表示定位位置的长方形左上顶点的垂直坐标 |
++ width | 是 | uint32 | 表示定位位置的长方形的宽度 |
++ height | 是 | uint32 | 表示定位位置的长方形的高度 |
+ words | 是 | string | 识别结果字符串 |
+ chars | 否 | array[] | 单字符结果,当 recognize_granularity=small 时返回该字段 |
++ char | 否 | string | 单字符识别结果 |
++ location | 否 | object | 位置数组(坐标0点为左上角) |
+++ left | 否 | uint32 | 表示定位位置的长方形左上顶点的水平坐标 |
+++ top | 否 | uint32 | 表示定位位置的长方形左上顶点的垂直坐标 |
+++ width | 否 | uint32 | 表示定位定位位置的长方形的宽度 |
+++ height | 否 | uint32 | 表示位置的长方形的高度 |
返回示例
{
"log_id": 620759800,
"words_result": [
{
"location": {
"left": 56,
"top": 0,
"width": 21,
"height": 210
},
"words": "3"
}
],
"words_result_num": 1
}
飞机行程单识别
支持对飞机行程单的24个字段进行结构化识别,包括电子客票号、印刷序号、姓名、始发站、目的站、航班号、日期、时间、票价、身份证号、承运人、民航发展基金、保险费、燃油附加费、其他税费、合计金额、填开日期、订票渠道、客票级别、座位等级、销售单位号、签注、免费行李、验证码。 同时,支持单张行程单上的多航班信息识别。
""" 读取文件 """
def get_file_content(filePath):
with open(filePath, "rb") as fp:
return fp.read()
image = get_file_content('文件路径')
url = "https//www.x.com/sample.jpg"
pdf_file = get_file_content('文件路径')
# 调用飞机行程单识别
res_image = client.airTicket(image)
res_url = client.airTicketUrl(url)
res_pdf = client.airTicketPdf(pdf_file)
print(res_image)
print(res_url)
print(res_pdf)
# 如果有可选参数
options={}
options["multi_detect"] = "false"
res_image = client.airTicket(image, options)
res_url = client.airTicketUrl(url, options)
res_pdf = client.airTicketPdf(pdf_file, options)
print(res_image)
print(res_url)
print(res_pdf)
请求参数详情
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和 url/pdf_file 三选一 | string | - | 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效 |
url | 和 image/pdf_file 三选一 | string | - | 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式优先级:image > url > pdf_file,当image字段存在时,url字段失效请注意关闭URL防盗链 |
pdf_file | 和 image/url 三选一 | string | - | PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效 |
pdf_file_num | 否 | string | - | 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页 |
multi_detect | 否 | string | true/false | 控制是否开启多航班信息识别功能,默认值:false- true:开启多航班信息识别功能,开启后返回结果中对应字段格式将改为数组类型- false: 不开启,仅识别单一航班信息 |
返回参数详情
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
words_result | 是 | object{} | 识别结果 |
+ name | 是 | string | 姓名 |
+ starting_station | 是 | string | 始发站 |
+ destination_station | 是 | string | 目的站 |
+ flight | 是 | string | 航班号 |
+ date | 是 | string | 日期 |
+ ticket_number | 是 | string | 电子客票号码 |
+ fare | 是 | string | 票价 |
+ dev_fund | 是 | string | 民航发展基金/基建费 |
+ fuel_surcharge | 是 | string | 燃油附加费 |
+ other_tax | 是 | string | 其他税费 |
+ ticket_rates | 是 | string | 合计金额 |
+ issued_date | 是 | string | 填开日期 |
+ id_num | 是 | string | 身份证号 |
+ carrier | 是 | string | 承运人 |
+ time | 是 | string | 时间 |
+ issued_by | 是 | string | 订票渠道 |
+ serial_number | 是 | string | 印刷序号 |
+ insurance | 是 | string | 保险费 |
+ fare_basis | 是 | string | 客票级别 |
+ class | 是 | string | 座位等级 |
+ agent_code | 是 | string | 销售单位号 |
+ endorsement | 是 | string | 签注 |
+ allow | 是 | string | 免费行李 |
+ ck | 是 | string | 验证码 |
pdf_file_size | 否 | string | 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段 |
返回示例
// 识别单航班信息(multi_detect=false,或参数缺省)
{
"log_id": 7306800033425229106,
"direction": 0,
"words_result_num": 18,
"words_result": {
"insurance": "20.00",
"date": "2019-10-22",
"allow": "20K",
"flight": "CA6589",
"issued_by": "中国国际航空服务有限公司",
"starting_station": "武汉",
"fare": "260.00",
"endorsement": "不得签转改期退转",
"ticket_rates": "350.00",
"ck": "5866",
"serial_number": "51523588676",
"ticket_number": "7843708871196",
"fuel_surcharge": "EXEMPT",
"carrier": "南航",
"issued_date": "2019-10-30",
"other_tax": "",
"fare_basis": "NREOW",
"id_num": "411201123909020877",
"destination_station": "合肥",
"name": "郭达",
"agent_code": "BJS19197300025",
"time": "21:25",
"class": "N",
"dev_fund": "50.00"
}
}
// 识别多航班信息(multi_detect=true)
{
"words_result": {
"log_id": "1280814270572920832",
"words_result_num": 18
"insurance": [
{
"word": "XXX"
}
],
"date": [
{
"word": "2019-10-18"
},
{
"word": "2019-10-21"
}
],
"flight": [
{
"word": "CZ3565"
},
{
"word": "CZ3566"
}
],
"issued_by": [
{
"word": "上海携程旅行社有限公司"
}
],
"starting_station": [
{
"word": "北京"
}
],
"fare": [
{
"word": "1080.00"
}
],
"ticket_rates": [
{
"word": "1420.00"
}
],
"serial_number": [
{
"word": "45956029770"
}
],
"ticket_number": [
{
"word": "7849648364314"
}
],
"fuel_surcharge": [
{
"word": "240.00"
}
],
"carrier": [
{
"word": "南航"
},
{
"word": "南航"
}
],
"issued_date": [
{
"word": "2019-09-18"
}
],
"other_tax": [],
"id_num": [
{
"word": "0789654700"
}
],
"destination_station": [
{
"word": "深圳"
},
{
"word": "北京"
}
],
"name": [
{
"word": "姚佳"
}
],
"time": [
{
"word": "13:55"
},
{
"word": "16:30"
}
],
"dev_fund": [
{
"word": "100.00"
}
]
},
}
二维码识别
对图片中的二维码、条形码进行检测和识别,返回存储的文字信息。
""" 读取文件 """
def get_file_content(filePath):
with open(filePath, "rb") as fp:
return fp.read()
image = get_file_content('文件路径')
url = "https://www.x.com/sample.jpg"
# 调用二维码识别
res_image = client.qrcode(image)
res_url = client.qrcodeUrl(url)
print(res_image)
print(res_url)
请求参数详情
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和url二选一 | string | - | 图像数据,base64编码后进行urlencode,需去掉编码头(data:image/jpeg;base64, )要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 |
url | 和image二选一 | string | - | 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效请注意关闭URL防盗链 |
返回参数详情
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
codes_result_num | 是 | uint32 | 识别结果数,表示codes_result的元素个数 |
codes_result | 是 | array[] | 定位和识别结果数组 |
+ type | 是 | string | 识别码类型条码类型包括:9种条形码(UPC_A、UPC_E、EAN_13、EAN_8、CODE_39、CODE_93、CODE_128、ITF、CODABAR),4种二维码(QR_CODE、DATA_MATRIX、AZTEC、PDF_417) |
+ text | 是 | string | 条形码识别内容,暂时只限于识别中英文结果 |
返回示例