资讯 社区 文档 控制台
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术
AR与VR
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
信息服务
智能园区

接口说明

通用文字识别(标准版)

用户向服务请求识别某张图中的所有文字。

    """ 读取文件 """
   def get_file_content(filePath):
      with open(filePath, "rb") as fp:
         return fp.read()

   image = get_file_content('文件路径')
   url = "https://www.x.com/sample.jpg"
   pdf_file = get_file_content('文件路径')
	
   # 调用通用文字识别(标准版)
   res_image = client.basicGeneral(image)
   res_url = client.basicGeneralUrl(url)
   res_pdf = client.basicGeneralPdf(pdf_file)
   print(res_image)
   print(res_url)
   print(res_pdf)
   
   # 如果有可选参数
   options = {}
   options["language_type"] = "CHN_ENG"
   options["detect_direction"] = "true"
   options["detect_language"] = "true"
   options["probability"] = "true"
   res_image = client.basicGeneral(image, options)
   res_url = client.basicGeneralUrl(url, options)
   res_pdf = client.basicGeneralPdf(pdf_file, options)
   print(res_image)
   print(res_url)
   print(res_pdf)
   

通用文字识别 请求参数详情

参数 是否必选 类型 可选值范围 说明
image 和 url/pdf_file 三选一 string - 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效
url 和 image/pdf_file 三选一 string - 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url字段失效
请注意关闭URL防盗链
pdf_file 和 image/url 三选一 string - PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px
优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效
pdf_file_num string - 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页
language_type string CHN_ENG
ENG
JAP
KOR
FRE
SPA
POR
GER
ITA
RUS
识别语言类型,默认为CHN_ENG
可选值包括:
- CHN_ENG:中英文混合
- ENG:英文
- JAP:日语
- KOR:韩语
- FRE:法语
- SPA:西班牙语
- POR:葡萄牙语
- GER:德语
- ITA:意大利语
- RUS:俄语
detect_direction string true/false 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括:
- true:检测朝向;
- false:不检测朝向。
detect_language string true/false 是否检测语言,默认不检测。当前支持(中文、英语、日语、韩语)
paragraph string true/false 是否输出段落信息
probability string true/false 是否返回识别结果中每一行的置信度

通用文字识别 返回数据参数详情

字段 是否必选 类型 说明
direction int32 图像方向,当 detect_direction=true 时返回该字段。
- - 1:未定义,
- 0:正向,
- 1:逆时针90度,
- 2:逆时针180度,
- 3:逆时针270度
log_id uint64 唯一的log id,用于问题定位
words_result_num uint32 识别结果数,表示words_result的元素个数
words_result array[] 识别结果数组
+ words string 识别结果字符串
+ probability object 识别结果中每一行的置信度值,包含average:行置信度平均值,variance:行置信度方差,min:行置信度最小值,当 probability=true 时返回该字段
paragraphs_result array[] 段落检测结果,当 paragraph=true 时返回该字段
+ words_result_idx array[] 一个段落包含的行序号,当 paragraph=true 时返回该字段
language int32 当 detect_language=true 时返回该字段
pdf_file_size string 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段

通用文字识别 返回示例

{
"log_id": 2471272194,
"words_result_num": 2,
"words_result":
    [
        {"words": " TSINGTAO"},
        {"words": "青島睥酒"}
    ]
}

通用文字识别(高精度版)

用户向服务请求识别某张图中的所有文字,相对于通用文字识别该产品精度更高,但是识别耗时会稍长。

   """ 读取文件 """
   def get_file_content(filePath):
      with open(filePath, "rb") as fp:
         return fp.read()

   image = get_file_content('文件路径')
   url = "https://www.x.com/sample.jpg"
   pdf_file = get_file_content('文件路径')
   
	# 调用通用文字识别(高精度版)
   res_image = client.basicAccurate(image)
   res_url = client.basicAccurateUrl(url)
   res_pdf = client.basicAccuratePdf(pdf_file)
   print(res_image)
   print(res_url)
   print(res_pdf)

	# 如果有可选参数
   options = {}
   options["detect_direction"] = "true"
   options["probability"] = "true"
   res_image = client.basicAccurate(image, options)
   res_url = client.basicAccurateUrl(url, options)
   res_pdf = client.basicAccuratePdf(pdf_file, options)   
   print(res_image)
   print(res_url)
   print(res_pdf)   

通用文字识别(高精度版) 请求参数详情

参数 是否必选 类型 可选值范围 说明
image 和 url/pdf_file 三选一 string - 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过10M,最短边至少15px,最长边最大8192px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效
url 和 image/pdf_file 三选一 string - 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过10M,最短边至少15px,最长边最大8192px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url字段失效
请注意关闭URL防盗链
pdf_file 和 image/url 三选一 string - PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过10M,最短边至少15px,最长边最大8192px
优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效
pdf_file_num string - 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页
language_type string auto_detect
CHN_ENG
ENG
JAP
KOR
FRE
SPA
POR
GER
ITA
RUS
DAN
DUT
MAL
SWE
IND
POL
ROM
TUR
GRE
HUN
识别语言类型,默认为CHN_ENG
可选值包括:
- auto_detect:自动检测语言,并识别
- CHN_ENG:中英文混合
- ENG:英文
- JAP:日语
- KOR:韩语
- FRE:法语
- SPA:西班牙语
- POR:葡萄牙语
- GER:德语
- ITA:意大利语
- RUS:俄语
- DAN:丹麦语
- DUT:荷兰语
- MAL:马来语
- SWE:瑞典语
- IND:印尼语
- POL:波兰语
- ROM:罗马尼亚语
- TUR:土耳其语
- GRE:希腊语
- HUN:匈牙利语
- THA:泰语
- VIE:越南语
- ARA:阿拉伯语
- HIN:印地语
detect_direction string true/false 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括:
- true:检测朝向;
- false:不检测朝向
paragraph string true/false 是否输出段落信息
probability string true/false 是否返回识别结果中每一行的置信度

通用文字识别(高精度版) 返回数据参数详情

字段 是否必选 类型 说明
log_id uint64 唯一的log id,用于问题定位
direction int32 图像方向,当 detect_direction=true 时返回该字段。
- - 1:未定义,
- 0:正向,
- 1:逆时针90度,
- 2:逆时针180度,
- 3:逆时针270度
words_result array[] 识别结果数组
words_result_num uint32 识别结果数,表示words_result的元素个数
+ words string 识别结果字符串
paragraphs_result array[] 段落检测结果,当 paragraph=true 时返回该字段
+ words_result_idx array[] 一个段落包含的行序号,当 paragraph=true 时返回该字段
+ probability object 识别结果中每一行的置信度值,包含average:行置信度平均值,variance:行置信度方差,min:行置信度最小值,当 probability=true 时返回该字段
pdf_file_size string 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段

通用文字识别(高精度版) 返回示例

参考通用文字识别(标准版)返回示例

通用文字识别(标准含位置版)

用户向服务请求识别某张图中的所有文字,并返回文字在图中的位置信息。

   """ 读取文件 """
   def get_file_content(filePath):
      with open(filePath, "rb") as fp:
         return fp.read()

   image = get_file_content('文件路径')
   url = "https://www.x.com/sample.jpg"
   pdf_file = get_file_content('文件路径')
   
	# 调用通用文字识别(标准含位置信息版)
   res_image = client.general(image)
   res_url = client.generalUrl(url)
   res_pdf = client.generalPdf(pdf_file)
   print(res_image)
   print(res_url)
   print(res_pdf)   

	# 如果有可选参数
   options = {}
   options["recognize_granularity"] = "big"
   options["language_type"] = "CHN_ENG"
   options["detect_direction"] = "true"
   options["detect_language"] = "true"
   options["vertexes_location"] = "true"
   options["probability"] = "true"
   res_image = client.general(image, options)
   res_url = client.generalUrl(url, options)
   res_pdf = client.generalPdf(pdf_file, options)   
   print(res_image)
   print(res_url)
   print(res_pdf)

通用文字识别(标准含位置版) 请求参数详情

参数 是否必选 类型 可选值范围 说明
image 和 url/pdf_file 三选一 string - 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效
url 和 image/pdf_file 三选一 string - 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url字段失效
请注意关闭URL防盗链
pdf_file 和 image/url 三选一 string - PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px
优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效
pdf_file_num string - 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页
recognize_granularity string big/small 是否定位单字符位置,big:不定位单字符位置,默认值;small:定位单字符位置
language_type string CHN_ENG
ENG
JAP
KOR
FRE
SPA
POR
GER
ITA
RUS
识别语言类型,默认为CHN_ENG
可选值包括:
- CHN_ENG:中英文混合
- ENG:英文
- JAP:日语
- KOR:韩语
- FRE:法语
- SPA:西班牙语
- POR:葡萄牙语
- GER:德语
- ITA:意大利语
- RUS:俄语
detect_direction string true/false 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括:
- true:检测朝向;
- false:不检测朝向。
detect_language string true/false 是否检测语言,默认不检测。当前支持(中文、英语、日语、韩语)
paragraph string true/false 是否输出段落信息
vertexes_location string true/false 是否返回文字外接多边形顶点位置,不支持单字位置。默认为false
probability string true/false 是否返回识别结果中每一行的置信度

通用文字识别(标准含位置版) 返回数据参数详情

字段 是否必选 类型 说明
direction int32 图像方向,当 detect_direction=true 时返回该字段。
- - 1:未定义,
- 0:正向,
- 1:逆时针90度,
- 2:逆时针180度,
- 3:逆时针270度
log_id uint64 唯一的log id,用于问题定位
words_result array[] 识别结果数组
words_result_num uint32 识别结果数,表示words_result的元素个数
+ words string 识别结果字符串
+ location array[] 位置数组(坐标0点为左上角)
++ left uint32 表示定位位置的长方形左上顶点的水平坐标
++ top uint32 表示定位位置的长方形左上顶点的垂直坐标
++ width uint32 表示定位位置的长方形的宽度
++ height uint32 表示定位位置的长方形的高度
language int32 当 detect_language=true 时返回该字段
paragraphs_result array[] 段落检测结果,当 paragraph=true 时返回该字段
+ words_result_idx array[] 一个段落包含的行序号,当 paragraph=true 时返回该字段
++ x uint32 水平坐标(坐标0点为左上角)
++ y uint32 垂直坐标(坐标0点为左上角)
+ chars array[] 单字符结果,当 recognize_granularity=small 时返回该字段
++ char string 单字符识别结果,当 recognize_granularity=small 时返回该字段
++ location array[] 位置数组(坐标0点为左上角),当 recognize_granularity=small 时返回该字段
+++ left uint32 表示定位位置的长方形左上顶点的水平坐标,当 recognize_granularity=small 时返回该字段
+++ top uint32 表示定位位置的长方形左上顶点的垂直坐标,当 recognize_granularity=small 时返回该字段
+++ width uint32 表示定位定位位置的长方形的宽度,当 recognize_granularity=small 时返回该字段
+++ height uint32 表示位置的长方形的高度,当 recognize_granularity=small 时返回该字段
+ probability object 识别结果中每一行的置信度值,包含average:行置信度平均值,variance:行置信度方差,min:行置信度最小值,当 probability=true 时返回该字段
pdf_file_size string 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段

通用文字识别(含位置信息版) 返回示例

{
"log_id": 3523983603,
"direction": 0, //detect_direction=true时存在
"words_result_num": 2,
"words_result": [
    {
        "location": {
            "left": 35,
            "top": 53,
            "width": 193,
            "height": 109
        },
        "words": "感动",
        "chars": [    //recognize_granularity=small时存在
            {
                "location": {
                    "left": 56,
                    "top": 65,
                    "width": 69,
                    "height": 88
                },
                "char": "感"
            },
            {
                "location": {
                    "left": 140,
                    "top": 65,
                    "width": 70,
                    "height": 88
                },
                "char": "动"
            }
        ]
    }
    ...
]
}

通用文字识别(高精度含位置版)

用户向服务请求识别某张图中的所有文字,并返回文字在图片中的坐标信息,相对于通用文字识别(含位置信息版)该产品精度更高,但是识别耗时会稍长。

    """ 读取文件 """
   def get_file_content(filePath):
      with open(filePath, "rb") as fp:
         return fp.read()

   image = get_file_content('文件路径')
   url = "https://www.x.com/sample.jpg"
   pdf_file = get_file_content('文件路径')
   
	# 调用通用文字识别(高精度含位置版)
   res_image = client.accurate(image)
   res_url = client.accurateUrl(url)
   res_pdf = client.accuratePdf(pdf_file)   
   print(res_image)
   print(res_url)
   print(res_pdf)

	# 如果有可选参数
   options = {}
   options["recognize_granularity"] = "big"
   options["detect_direction"] = "true"
   options["vertexes_location"] = "true"
   options["probability"] = "true"
   res_image = client.accurate(image, options)
   res_url = client.accurateUrl(url, options)
   res_pdf = client.accuratePdf(pdf_file, options)
   print(res_image)
   print(res_url)
   print(res_pdf)
   

通用文字识别(高精度含位置版) 请求参数详情

参数 是否必选 类型 可选值范围 说明
image 和 url/pdf_file 三选一 string - 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过10M,最短边至少15px,最长边最大8192px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效
url 和 image/pdf_file 三选一 string - 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过10M,最短边至少15px,最长边最大8192px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url字段失效
请注意关闭URL防盗链
pdf_file 和 image/url 三选一 string - PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过10M,最短边至少15px,最长边最大8192px
优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效
pdf_file_num string - 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页
language_type string auto_detect
CHN_ENG
ENG
JAP
KOR
FRE
SPA
POR
GER
ITA
RUS
DAN
DUT
MAL
SWE
IND
POL
ROM
TUR
GRE
HUN
识别语言类型,默认为CHN_ENG
可选值包括:
- auto_detect:自动检测语言,并识别
- CHN_ENG:中英文混合
- ENG:英文
- JAP:日语
- KOR:韩语
- FRE:法语
- SPA:西班牙语
- POR:葡萄牙语
- GER:德语
- ITA:意大利语
- RUS:俄语
- DAN:丹麦语
- DUT:荷兰语
- MAL:马来语
- SWE:瑞典语
- IND:印尼语
- POL:波兰语
- ROM:罗马尼亚语
- TUR:土耳其语
- GRE:希腊语
- HUN:匈牙利语
- THA:泰语
- VIE:越南语
- ARA:阿拉伯语
- HIN:印地语
eng_granularity string word/letter 表示识别语言类型为「中英文(CHN_ENG)」的情况下,英文的单字符结果是按照单词(word)维度输出还是字母(letter)维度输出,当 recognize_granularity=small 时生效
recognize_granularity string big/small 是否定位单字符位置,big:不定位单字符位置,默认值;small:定位单字符位置
detect_direction string true/false 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括:
- true:检测朝向;
- false:不检测朝向。
vertexes_location string true/false 是否返回文字外接多边形顶点位置,不支持单字位置。默认为false
paragraph string true/false 是否输出段落信息
probability string true/false 是否返回识别结果中每一行的置信度

通用文字识别(高精度含位置版) 返回数据参数详情

字段 是否必选 类型 说明
log_id uint64 唯一的log id,用于问题定位
direction int32 图像方向,当 detect_direction=true 时返回该字段。
- - 1:未定义,
- 0:正向,
- 1:逆时针90度,
- 2:逆时针180度,
- 3:逆时针270度
words_result array[] 识别结果数组
words_result_num uint32 识别结果数,表示words_result的元素个数
+ words string 识别结果字符串
+ location array[] 位置数组(坐标0点为左上角)
++ left uint32 表示定位位置的长方形左上顶点的水平坐标
++ top uint32 表示定位位置的长方形左上顶点的垂直坐标
++ width uint32 表示定位位置的长方形的宽度
++ height uint32 表示定位位置的长方形的高度
paragraphs_result array[] 段落检测结果,当 paragraph=true 时返回该字段
+ words_result_idx array[] 一个段落包含的行序号,当 paragraph=true 时返回该字段
++ x uint32 水平坐标(坐标0点为左上角)
++ y uint32 垂直坐标(坐标0点为左上角)
+ chars array[] 单字符结果,当 recognize_granularity=small 时返回该字段
++ char string 单字符识别结果,当 recognize_granularity=small 时返回该字段
++ location array[] 位置数组(坐标0点为左上角),当 recognize_granularity=small 时返回该字段
+++ left uint32 表示定位位置的长方形左上顶点的水平坐标,当 recognize_granularity=small 时返回该字段
+++ top uint32 表示定位位置的长方形左上顶点的垂直坐标,当 recognize_granularity=small 时返回该字段
+++ width uint32 表示定位定位位置的长方形的宽度,当 recognize_granularity=small 时返回该字段
+++ height uint32 表示定位位置的长方形的高度,当 recognize_granularity=small 时返回该字段
+ probability object 识别结果中每一行的置信度值,包含average:行置信度平均值,variance:行置信度方差,min:行置信度最小值,当 probability=true 时返回该字段
pdf_file_size string 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段

通用文字识别(含位置高精度版) 返回示例

{
"log_id": 3523983603,
"direction": 0, //detect_direction=true时存在
"words_result_num": 2,
"words_result": [
    {
        "location": {
            "left": 35,
            "top": 53,
            "width": 193,
            "height": 109
        },
        "words": "感动",
        "chars": [    //recognize_granularity=small时存在
            {
                "location": {
                    "left": 56,
                    "top": 65,
                    "width": 69,
                    "height": 88
                },
                "char": "感"
            },
            {
                "location": {
                    "left": 140,
                    "top": 65,
                    "width": 70,
                    "height": 88
                },
                "char": "动"
            }
        ]
    }
    ...
]
}

通用文字识别(含生僻字版)

【该服务已停止更新,如需更好的识别效果请使用通用文字识别(高精度版 / 高精度含位置版),此两项服务已扩充字库,可支持生僻字识别】字库范围更大,支持对图片中的生僻字进行识别

通用文字识别(含生僻字版) 返回数据参数详情

字段 是否必选 类型 说明
direction int32 图像方向,当detect_direction=true时存在。
- -1:未定义,
- 0:正向,
- 1: 逆时针90度,
- 2:逆时针180度,
- 3:逆时针270度
log_id uint64 唯一的log id,用于问题定位
words_result array() 识别结果数组
words_result_num uint32 识别结果数,表示words_result的元素个数
+words string 识别结果字符串
probability object 识别结果中每一行的置信度值,包含average:行置信度平均值,variance:行置信度方差,min:行置信度最小值
+ average number 行置信度平均值
+ variance number 行置信度方差
+ min number 行置信度最小值

通用文字识别(含生僻字版) 返回示例

{
"log_id": 2471272194,
"words_result_num": 2,
"words_result":
    [
        {"words": " TSINGTAO"},
        {"words": "青島睥酒"}
    ]
}

网络图片文字识别

用户向服务请求识别一些网络上背景复杂,特殊字体的文字。

   """ 读取文件 """
   def get_file_content(filePath):
      with open(filePath, "rb") as fp:
         return fp.read()

   image = get_file_content('文件路径')
   url = "https://www.x.com/sample.jpg"
   pdf_file = get_file_content('文件路径')
	
   # 调用网络图片文字识别
   res_image = client.webImage(image)
   res_url = client.webImageUrl(url)
   res_pdf = client.webImagePdf(pdf_file)
   print(res_image)
   print(res_url)
   print(res_pdf)   

	# 如果有可选参数
   options = {}
   options["detect_direction"] = "true"
   options["detect_language"] = "true"
   res_image = client.webImage(image, options)
   res_url = client.webImageUrl(url, options)
   res_pdf = client.webImagePdf(pdf_file, options)   
   print(res_image)
   print(res_url)
   print(res_pdf)

网络图片文字识别 请求参数详情

参数 是否必选 类型 可选值范围 说明
image 和 url/pdf_file 三选一 string - 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效
url 和 image/pdf_file 三选一 string - 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url字段失效
请注意关闭URL防盗链
pdf_file 和 image/url 三选一 string - PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px
优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效
pdf_file_num string - 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页
detect_direction string true/false 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括:
- true:检测朝向;
- false:不检测朝向。
detect_language string true/false 是否检测语言,默认不检测。当前支持(中文、英语、日语、韩语)

网络图片文字识别 返回数据参数详情

字段 是否必选 类型 说明
direction int32 图像方向,当 detect_direction=true 时返回该字段。
- - 1:未定义,
- 0:正向,
- 1:逆时针90度,
- 2:逆时针180度,
- 3:逆时针270度
log_id uint64 唯一的log id,用于问题定位
words_result array[] 定位和识别结果数组
words_result_num uint32 识别结果数,表示words_result的元素个数
+ words string 识别结果字符串
probability object 识别结果中每一行的置信度值,包含average:行置信度平均值,variance:行置信度方差,min:行置信度最小值
pdf_file_size string 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段

网络图片文字识别 返回示例

{
"log_id": 2471272194,
"words_result_num": 2,
"words_result":
    [
        {"words": " TSINGTAO"},
        {"words": "青島睥酒"}
    ]
}

身份证识别

用户向服务请求识别身份证,身份证识别包括正面和背面。

    """ 读取图片 """
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()

    image = get_file_content('example.jpg')
    url = "https://www.x.com/sample.jpg"
    
    idCardSide = "back"

    # 调用身份证识别
    res_image = client.idcard(image, idCardSide)
    res_url = client.idcardUrl(url, idCardSide)    
    print(res_image)
    print(res_url)
    
    # 如果有可选参数
    options = {}
    options["detect_direction"] = "true"
    options["detect_risk"] = "false"
    res_image = client.idcard(image, idCardSide, options)
    res_url = client.idcardUrl(url, idCardSide, options)    
    print(res_image)
    print(res_url)    

身份证识别 请求参数详情

参数 是否必选 类型 可选值范围 说明
image 和url二选一 string - 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
url 和image二选一 string - 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效
请注意关闭URL防盗链
id_card_side string front/back -front:身份证含照片的一面
-back:身份证带国徽的一面
自动检测身份证正反面,如果传参指定方向与图片相反,支持正常识别,返回参数image_status字段为"reversed_side"
detect_direction string true/false 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括:
- true:检测朝向;
- false:不检测朝向
detect_risk string true/false 是否开启身份证风险类型(身份证复印件、临时身份证、身份证翻拍、修改过的身份证)检测功能,默认不开启,即:false。
- true:开启,请查看返回参数risk_type;
- false:不开启
detect_quality string true/false 是否开启身份证质量类型(边框/四角不完整、头像或关键字段被遮挡/马赛克)检测功能,默认不开启,即:false。
- true:开启,请查看返回参数card_quality;
- false:不开启
detect_photo string true/false 是否检测头像内容,默认不检测。可选值:true-检测头像并返回头像的 base64 编码及位置信息
detect_card string true/false 是否检测身份证进行裁剪,默认不检测。可选值:true-检测身份证并返回证照的 base64 编码及位置信息

身份证识别 返回数据参数详情

字段 是否必选 类型 说明
direction int32 图像方向,当 detect_direction=true 时返回该字段。
- - 1:未定义,
- 0:正向,
- 1:逆时针90度,
- 2:逆时针180度,
- 3:逆时针270度
image_status string normal-识别正常
reversed_side-身份证正反面颠倒
non_idcard-上传的图片中不包含身份证
blurred-身份证模糊
other_type_card-其他类型证照
over_exposure-身份证关键字段反光或过曝
over_dark-身份证欠曝(亮度过低)
unknown-未知状态
risk_type string 输入参数 detect_risk = true 时,则返回该字段识别身份证风险类型:
normal-正常身份证;
copy-复印件;
temporary-临时身份证;
screen-翻拍;
unknown-其他未知情况
edit_tool string 如果参数 detect_risk = true 时,则返回此字段。如果检测身份证被编辑过,该字段指定编辑软件名称,如:Adobe Photoshop CC 2014 (Macintosh),如果没有被编辑过则返回值无此参数
card_quality object 输入参数 detect_quality = true 时,则返回该字段识别身份证质量类型:
IsClear - 是否清晰;
IsComplete - 是否边框/四角完整;
IsNoCover - 是否头像、关键字段无遮挡/马赛克。
及对应的概率:IsComplete_propobility、IsNoCover_propobility、IsClear_propobility,值在0-1之间,值越大表示图像质量越好。
默认阈值:当 IsComplete_propobility 超过0.5时,IsComplete返回1,低于0.5,则返回0。IsNoCover_propobility、IsClear_propobility 同上
log_id uint64 唯一的log id,用于问题定位
photo string 当请求参数 detect_photo = true时返回,头像切图的 base64 编码(无编码头,需自行处理)
photo_location object 当请求参数 detect_photo = true时返回,头像的位置信息(坐标0点为左上角)
card_image string 当请求参数 detect_card = true时返回,身份证裁剪切图的 base64 编码(无编码头,需自行处理)
card_location object 当请求参数 detect_card = true时返回,身份证裁剪切图的位置信息(坐标0点为左上角)
idcard_number_type string 用于校验身份证号码、性别、出生是否一致,输出结果及其对应关系如下:
- 1: 身份证正面所有字段全为空
0: 身份证证号不合法,此情况下不返回身份证证号
1: 身份证证号和性别、出生信息一致
2: 身份证证号和性别、出生信息都不一致
3: 身份证证号和出生信息不一致
4: 身份证证号和性别信息不一致
words_result array[] 定位和识别结果数组
words_result_num uint32 识别结果数,表示words_result的元素个数
+ location array[] 位置数组(坐标0点为左上角)
++ left uint32 表示定位位置的长方形左上顶点的水平坐标
++ top uint32 表示定位位置的长方形左上顶点的垂直坐标
++ width uint32 表示定位位置的长方形的宽度
++ height uint32 表示定位位置的长方形的高度
+ words string 识别结果字符串

身份证识别 返回示例

{
    "log_id": 2648325511,
    "direction": 0,
    "image_status": "normal",
    "idcard_type": "normal",
    "edit_tool": "Adobe Photoshop CS3 Windows",
    "words_result": {
        "住址": {
            "location": {
                "left": 267,
                "top": 453,
                "width": 459,
                "height": 99
            },
            "words": "南京市江宁区弘景大道3889号"
        },
        "公民身份号码": {
            "location": {
                "left": 443,
                "top": 681,
                "width": 589,
                "height": 45
            },
            "words": "330881199904173914"
        },
        "出生": {
            "location": {
                "left": 270,
                "top": 355,
                "width": 357,
                "height": 45
            },
            "words": "19990417"
        },
        "姓名": {
            "location": {
                "left": 267,
                "top": 176,
                "width": 152,
                "height": 50
            },
            "words": "伍云龙"
        },
        "性别": {
            "location": {
                "left": 269,
                "top": 262,
                "width": 33,
                "height": 52
            },
            "words": "男"
        },
        "民族": {
            "location": {
                "left": 492,
                "top": 279,
                "width": 30,
                "height": 37
            },
            "words": "汉"
        }
    },
    "words_result_num": 6
}

银行卡识别

识别银行卡并返回卡号和发卡行。

    """ 读取图片 """
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()

    image = get_file_content('example.jpg')
    url = "https://www.x.com/sample.jpg"    

    # 调用银行卡识别
    res_image = client.bankcard(image)
    res_url = client.bankcardUrl(url)    
    print(res_image)
    print(res_url)    

银行卡识别 请求参数详情

参数 类型 是否必须 说明
image string 和url二选一 图像数据,base64编码后进行urlencode,需去掉编码头(data:image/jpeg;base64, )
要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
url string 和image二选一 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效
请注意关闭URL防盗链
detect_direction string true/false 是否检测图像朝向,默认检测,即:true。可选值包括true - 检测朝向;false - 不检测朝向。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。

银行卡识别 返回数据参数详情

参数 类型 是否必须 说明
log_id uint64 请求标识码,随机数,唯一。
direction int32 图像方向,当 detect_direction = true 时,返回该参数。
- - 1:未定义;
- 0:正向;
- 1:逆时针90度;
- 2:逆时针180度;
- 3:逆时针270度
result object 返回结果
+ bank_card_number string 银行卡卡号
+ valid_date string 有效期
+ bank_card_type uint32 银行卡类型,0:不能识别; 1:借记卡; 2:贷记卡(原信用卡大部分为贷记卡); 3:准贷记卡; 4:预付费卡
+ bank_name string 银行名,不能识别时为空
+ holder_name string 持卡人姓名,不能识别时为空

银行卡识别 返回示例

{
    "log_id": 1447188951,
    "result": {
        "bank_card_number": "622500000000000",
        "bank_name": "招商银行",
        "bank_card_type": 1
    }
}

驾驶证识别

对机动车驾驶证所有关键字段进行识别。

    """ 读取图片 """
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()

    image = get_file_content('example.jpg')
    url = "https://www.x.com/sample.jpg"
    
    # 调用驾驶证识别
    res_image = client.drivingLicense(image)
    res_url = client.drivingLicenseUrl(url)    
    print(res_image)
    print(res_url)

    # 如果有可选参数
    options = {}
    options["detect_direction"] = "true"
    res_image = client.drivingLicense(image, options)
    res_url = client.drivingLicenseUrl(url, options)    
    print(res_image)
    print(res_url)

驾驶证识别 请求参数详情

参数 是否必选 类型 可选值范围 说明
image 和image二选一 string - 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
url 和image二选一 string - 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效
请注意关闭URL防盗链
detect_direction string true/false - false:默认值,不检测朝向,朝向是指输入图像是正常方向、逆时针旋转90/180/270度
- true:检测朝向
driving_license_side string front/back - front:默认值,识别驾驶证正页
- back:识别驾驶证副页
unified_valid_period bool true/false - false: 默认值,不进行归一化处理
- true: 归一化格式输出驾驶证的「有效起始日期」+「有效期限」及「有效期限」+「至」两种输出格式归一化为「有效起始日期」+「失效日期」
quality_warn string true/false 是否开启质量检测功能,仅在驾驶证正页识别时生效,
- false:默认值,不输出质量告警信息
- true: 输出驾驶证遮挡、不完整质量告警信息
risk_warn string true/false 是否开启风险检测功能,
- false:默认值,不输出风险告警信息
- true:开启,输出驾驶证复印、翻拍、PS等告警信息

驾驶证识别 返回数据参数详情

字段 是否必选 类型 说明
log_id uint64 唯一的log id,用于问题定位
direction int32 图像方向,当 detect_direction=true 时返回该字段。
- - 1:未定义,
- 0:正向,
- 1:逆时针90度,
- 2:逆时针180度,
- 3:逆时针270度
words_result_num uint32 识别结果数,表示words_result的元素个数
words_result object 识别结果
+ words string 识别结果字符串
warn_infos array[] 当输入参数 driving_license_side=front,且 quality_warn=true 时输出,
- shield:驾驶证证照存在遮挡告警提示
- incomplete:驾驶证证照边框不完整告警提示
risk_type string 当输入参数 risk_warn=true 时返回识出的驾驶证的类型:normal-正常驾驶证;copy-复印件;screen-翻拍
edit_tool string 当输入参数 risk_warn=true 时返回,如果检测驾驶证被编辑过,该字段指定编辑软件名称,如:Adobe Photoshop CC 2014 (Macintosh),如果没有被编辑过则返回值为空

返回示例(驾驶证正页)

{
    "words_result": {
        "姓名": {
            "words": "王桃桃"
        },
        "至": {
            "words": "20210518"
        },
        "出生日期": {
            "words": "19880929"
        },
        "证号": {
            "words": "210282198809294228"
        },
        "住址": {
            "words": "辽宁省大连市甘井子区"
        },
        "初次领证日期": {
            "words": "20150518"
        },
        "国籍": {
            "words": "中国"
        },
        "准驾车型": {
            "words": "C1"
        },
        "性别": {
            "words": "女"
        },
        "有效期限": {
            "words": "20150518"
        },
        "发证单位": {
			"words": "北京市公安局公安交通管理局"
        }
    "log_id": 1321746413993852928,
    "words_result_num": 11,
    "direction": -1
}

返回示例(驾驶证副页)

{
    "words_result": {
        "姓名": {
            "words": "万万"
        },
        "记录": {
            "words": "请于每个记分周期结束后三十日接受审验。无记分的,免予本次审验。"
        },
        "证号": {
            "words": "513601198209290000"
        },
        "档案编号": {
            "words": "511600001169"
        }
    },
    "direction": 0,
    "words_result_num": 4,
    "log_id": 1483000040398531214
}

行驶证识别

对机动车行驶证正本所有关键字段进行识别。

    """ 读取图片 """
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()

    image = get_file_content('example.jpg')
    url = "https://www.x.com/sample.jpg"
    
    # 调用行驶证识别
    res_image = client.vehicleLicense(image)
    res_url = client.vehicleLicenseUrl(url)    
    print(res_image)
    print(res_url)    

    # 如果有可选参数
    options = {}
    options["detect_direction"] = "true"
    options["accuracy"] = "normal"
    res_image = client.vehicleLicense(image, options)
    res_url = client.vehicleLicenseUrl(url, options)    
    print(res_image)
    print(res_url)    

行驶证识别 请求参数详情

参数 是否必选 类型 可选值范围 说明
image 和image二选一 string - 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
url 和image二选一 string - 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效
请注意关闭URL防盗链
detect_direction string true/false - false:默认值不进行图像方向自动矫正
- true: 开启图像方向自动矫正功能,可对旋转 90/180/270 度的图片进行自动矫正并识别
vehicle_license_side string front/back - front:默认值,识别行驶证主页
- back:识别行驶证副页
unified string true/false - false:默认值,不进行归一化处理
- true:对输出字段进行归一化处理,将新/老版行驶证的“注册登记日期/注册日期”统一为”注册日期“进行输出
quality_warn string true/false 是否开启质量检测功能,仅在行驶证正页识别时生效,
- false:默认值,不输出质量告警信息
- true: 输出行驶证遮挡、不完整质量告警信息
risk_warn string true/false 是否开启风险检测功能,
- false:默认值,不输出风险告警信息
- true:开启,输出行驶证复印、翻拍、PS等告警信息

行驶证识别 返回数据参数详情

字段 必选 类型 说明
log_id uint64 唯一的log id,用于问题定位
direction int32 图像方向,当 detect_direction=true 时返回该字段。
- - 1:未定义,
- 0:正向,
- 1:逆时针90度,
- 2:逆时针180度,
- 3:逆时针270度
words_result_num uint32 识别结果数,表示words_result的元素个数
words_result object 识别结果
+ words string 识别结果字符串
warn_infos array[] 当输入参数 vehicle_license_side=front,且 quality_warn=true 时输出,
- shield:行驶证证照存在遮挡告警提示
- incomplete:行驶证证照边框不完整告警提示
risk_type string 当输入参数 risk_warn=true 时返回识出的行驶证的类型:normal-正常行驶证;copy-复印件;screen-翻拍
edit_tool string 当输入参数 risk_warn=true 时返回,如果检测行驶证被编辑过,该字段指定编辑软件名称,如:Adobe Photoshop CC 2014 (Macintosh),如果没有被编辑过则返回值为空

行驶证识别 返回示例

{
  "errno": 0,
  "msg": "success",
  "data": {
    "words_result_num": 10,
    "words_result": {
      "品牌型号": {
        "words": "保时捷GT37182RUCRE"
      },
      "发证日期": {
        "words": "20160104"
      },
      "使用性质": {
        "words": "非营运"
      },
      "发动机号码": {
        "words": "20832"
      },
      "号牌号码": {
        "words": "苏A001"
      },
      "所有人": {
        "words": "圆圆"
      },
      "住址": {
        "words": "南京市江宁区弘景大道"
      },
      "注册日期": {
        "words": "20160104"
      },
      "车辆识别代号": {
        "words": "HCE58"
      },
      "车辆类型": {
        "words": "小型轿车"
      }
    }
  }
}

车牌识别

识别机动车车牌,并返回号牌号码和车牌颜色。

    """ 读取图片 """
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()

    image = get_file_content('example.jpg')
    url = "https://www.x.com/sample.jpg"
    
    # 调用车牌识别
    res_image = client.licensePlate(image)
    res_url = client.licensePlateUrl(url)    
    print(res_image)
    print(res_url)    
    
    # 如果有可选参数
    options = {}
    options["multi_detect"] = "true"
    res_image = client.licensePlate(image, options)
    res_url = client.licensePlateUrl(url, options)    
    print(res_image)
    print(res_url)    

车牌识别 请求参数详情

参数名称 是否必选 类型 可选值范围 默认值 说明
image string 图像数据,base64编码,要求base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/png/bmp格式
multi_detect string true
false
false 是否检测多张车牌,默认为false,当置为true的时候可以对一张图片内的多张车牌进行识别

车牌识别 返回数据参数详情

参数 类型 是否必须 说明
log_id uint64 请求标识码,随机数,唯一。
Color string 车牌颜色
number string 车牌号码

车牌识别 返回示例

{
    "log_id": 3583925545,
    "words_result": {
        "color": "blue",
        "number": "苏HS7766"
    }
}

营业执照识别

识别营业执照,并返回关键字段的值,包括单位名称、法人、地址、有效期、证件编号、社会信用代码等。

    """ 读取图片 """
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()

    image = get_file_content('example.jpg')
    url = "https://www.x.com/sample.jpg"
    
    # 调用营业执照识别
    res_image = client.businessLicense(image)
    res_url = client.businessLicenseUrl(url)    
    print(res_image)
    print(res_url)

营业执照识别 请求参数详情

参数 类型 是否必须 说明
image string 和url二选一 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
url string 和image二选一 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效
请注意关闭URL防盗链
detect_direction string 此参数新版本无需传,支持自动检测图像旋转角度;朝向是指输入图像是正常方向、逆时针旋转90/180/270度
accuracy string 此参数新版本无需传,可选值:normal,high
risk_warn string 是否开启风险类型功能,默认不开启,即:false。
- false:不开启
- true:开启

营业执照识别 返回数据参数详情

参数 是否必须 类型 说明
log_id uint64 请求标识码,随机数,唯一。
direction uint32 图像方向,当图像旋转时,返回该参数。
- - 1:未定义,
- 0:正向,
- 1:逆时针90度,
- 2:逆时针180度,
- 3:逆时针270度
risk_type string 当输入参数 risk_warn=true 时返回识出的营业执照的类型:normal-正常营业执照;copy-复印件;screen-翻拍;scan-扫描
words_result_num uint32 识别结果数,表示words_result的元素个数
words_result object 识别结果
+ location object 位置数组(坐标0点为左上角)
++ left uint32 表示定位位置的长方形左上顶点的水平坐标
++ top uint32 表示定位位置的长方形左上顶点的垂直坐标
++ width uint32 表示定位位置的长方形的宽度
++ height uint32 表示定位位置的长方形的高度
+ words string 识别结果字符串

营业执照识别 返回示例

{
    "log_id": 490058765,
    "words_result": {
        "单位名称": {
            "location": {
                "left": 500,
                "top": 479,
                "width": 618,
                "height": 54
            },
            "words": "袁氏财团有限公司"
        },
        "法人": {
            "location": {
                "left": 938,
                "top": 557,
                "width": 94,
                "height": 46
            },
            "words": "袁运筹"
        },
        "地址": {
            "location": {
                "left": 503,
                "top": 644,
                "width": 574,
                "height": 57
            },
            "words": "江苏省南京市中山东路19号"
        },
        "有效期": {
            "location": {
                "left": 779,
                "top": 1108,
                "width": 271,
                "height": 49
            },
            "words": "2015年02月12日"
        },
        "证件编号": {
            "location": {
                "left": 1219,
                "top": 357,
                "width": 466,
                "height": 39
            },
            "words": "苏餐证字(2019)第666602666661号"
        },
        "社会信用代码": {
            "location": {
                "left": 0,
                "top": 0,
                "width": 0,
                "height": 0
            },
            "words": "无"
        }
    },
    "words_result_num": 6
}

通用票据识别

用户向服务请求识别医疗票据、增值税发票、出租车票、保险保单等票据类图片中的所有文字,并返回文字在图中的位置信息。

    """ 读取图片 """
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()

    image = get_file_content('example.jpg')
    url = "https://www.x.com/sample.jpg"
    
    # 调用通用票据识别
    res_image = client.receipt(image)
    res_url = client.receiptUrl(url)    
    print(res_image)
    print(res_url)

    # 如果有可选参数
    options = {}
    options["recognize_granularity"] = "big"
    options["probability"] = "true"
    options["accuracy"] = "normal"
    options["detect_direction"] = "true"
    res_image = client.receipt(image, options)
    res_url = client.receiptUrl(url, options)    
    print(res_image)
    print(res_url)    

通用票据识别 请求参数详情

参数 是否必选 类型 可选值范围 说明
image 和url二选一 string - 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
url 和image二选一 string - 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效
请注意关闭URL防盗链
recognize_granularity string big/small 是否定位单字符位置,big:不定位单字符位置,默认值;small:定位单字符位置
probability string true/false 是否返回识别结果中每一行的置信度
accuracy string normal/缺省 normal:使用快速服务;缺省或其它值:使用高精度服务
detect_direction string true/false 是否检测图像朝向,默认不检测,即:false。可选值包括:
- true:检测朝向;
- false:不检测朝向,朝向是指输入图像是正常方向、逆时针旋转90/180/270度

通用票据识别 返回数据参数详情

字段 是否必选 类型 说明
log_id uint64 唯一的log id,用于问题定位
words_result_num uint32 识别结果数,表示words_result的元素个数
words_result array[] 定位和识别结果数组
+ location object{} 位置数组(坐标0点为左上角)
++ left uint32 表示定位位置的长方形左上顶点的水平坐标
++ top uint32 表示定位位置的长方形左上顶点的垂直坐标
++ width uint32 表示定位位置的长方形的宽度
++ height uint32 表示定位位置的长方形的高度
+ words string 识别结果字符串
+ chars array[] 单字符结果,recognize_granularity=small 时存在
++ char string 单字符识别结果
++ location object{} 位置数组(坐标0点为左上角)
+++ left uint32 表示定位位置的长方形左上顶点的水平坐标
+++ top uint32 表示定位位置的长方形左上顶点的垂直坐标
+++ width uint32 表示定位定位位置的长方形的宽度
+++ height uint32 表示位置的长方形的高度
+ probability float 识别结果中每一行的置信度值,包含average:行置信度平均值,variance:行置信度方差,min:行置信度最小值

通用票据识别 返回示例

{
    "log_id": 2661573626,
    "words_result": [
        {
            "location": {
                "left": 10,
                "top": 3,
                "width": 121,
                "height": 24
            },
            "words": "姓名:小明明",
            "chars": [
                {
                    "location": {
                        "left": 16,
                        "top": 6,
                        "width": 17,
                        "height": 20
                    },
                    "char": "姓"
                }
                ...
            ]
        },
        {
            "location": {
                "left": 212,
                "top": 3,
                "width": 738,
                "height": 24
            },
            "words": "卡号/病案号:105353990标本编号:150139071送检科室:血液透析门诊病房",
            "chars": [
                {
                    "location": {
                        "left": 218,
                        "top": 6,
                        "width": 18,
                        "height": 21
                    },
                    "char": "卡"
                }
                ...
            ]
        }
    ],
    "words_result_num": 2
}

自定义模板文字识别

自定义模板文字识别,是针对百度官方没有推出相应的模板,但是当用户需要对某一类卡证/票据(如房产证、军官证、火车票等)进行结构化的提取内容时,可以使用该产品快速制作模板,进行识别。

    # 读取图片
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()
    image = get_file_content('aa.jpg')

    # 必填参数
    options = {}
    # key固定为templateSign 后面给页面提供的 模板ID(templateSign) 的值即可
    options["templateSign"] = ""
    # 调用自定义模板文字识别
    res_image = client.custom(image, options)
    print(res_image)

自定义模板文字识别 请求参数详情

参数名称 是否必选 类型 说明
image string 图像数据,base64编码,要求base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/png/bmp格式
options object 用于传入额外参数,如templateSign、classifierId
+ templateSign string 您在自定义文字识别平台制作的模板的ID
+ classifierId string 分类器Id。这个参数和templateSign至少存在一个,优先使用templateSign。存在templateSign时,表示使用指定模板;如果没有templateSign而有classifierId,表示使用分类器去判断使用哪个模板

自定义模板文字识别 返回数据参数详情

字段 是否必选 类型 说明
error_code number number 0代表成功,如果有错误码返回可以参考下方错误码列表排查问题
error_msg string 具体的失败信息,可以参考下方错误码列表排查问题
data jsonObject 识别返回的结果

自定义模板文字识别 返回示例

{
    "isStructured": true,
    "ret": [
        {
            "charset": [
                {
                    "rect": {
                        "top": 183,
                        "left": 72,
                        "width": 14,
                        "height": 28
                    },
                    "word": "5"
                },
                {
                    "rect": {
                        "top": 183,
                        "left": 90,
                        "width": 14,
                        "height": 28
                    },
                    "word": "4"
                },
                {
                    "rect": {
                        "top": 183,
                        "left": 103,
                        "width": 15,
                        "height": 28
                    },
                    "word": "."
                },
                {
                    "rect": {
                        "top": 183,
                        "left": 116,
                        "width": 14,
                        "height": 28
                    },
                    "word": "5"
                },
                {
                    "rect": {
                        "top": 183,
                        "left": 133,
                        "width": 19,
                        "height": 28
                    },
                    "word": "元"
                }
            ],
            "word_name": "票价",
            "word": "54.5元"
        },
        {
            "charset": [
                {
                    "rect": {
                        "top": 144,
                        "left": 35,
                        "width": 14,
                        "height": 28
                    },
                    "word": "2"
                },
                {
                    "rect": {
                        "top": 144,
                        "left": 53,
                        "width": 14,
                        "height": 28
                    },
                    "word": "0"
                },
                {
                    "rect": {
                        "top": 144,
                        "left": 79,
                        "width": 14,
                        "height": 28
                    },
                    "word": "1"
                },
                {
                    "rect": {
                        "top": 144,
                        "left": 97,
                        "width": 14,
                        "height": 28
                    },
                    "word": "7"
                }
            ]
    ]
}

表格文字识别(同步接口)

自动识别表格线及表格内容,结构化输出表头、表尾及每个单元格的文字内容。

    """ 读取图片 """
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()

    image = get_file_content('example.jpg')
    url = "https://www.x.com/sample.jpg"
    
    # 调用表格文字识别(同步接口)
    res_image = client.form(image)
    res_url = client.formUrl(url)    
    print(res_image)
    print(res_url)  
    
    # 如果有可选参数
    options = {}
    options["table_border"] = "none"
    res_image = client.form(image, options)
    res_url = client.formUrl(url, options)    
    print(res_image)
    print(res_url)  

表格文字识别(同步接口) 请求参数详情

字段 是否必选 类型 说明
log_id long 唯一的log id,用于问题定位
forms_result_num uint32 识别结果元素个数
forms_result array[] 识别结果
+ body array[] 表格主体区域
+ footer array[] 表格尾部区域信息
header array[] 表格头部区域信息
vertexes_location array[] 表格边界顶点

表格文字识别(同步接口) 返回示例

   {
        "log_id": 3445697108,
        "forms_result_num": 1,
        "forms_result": [
            {
                "body": [
                    {
                        "column": 0,
                        "probability": 0.99855202436447,
                        "row": 0,
                        "vertexes_location": [
                            {
                                "x": -2,
                                "y": 260
                            },
                            {
                                "x": 21,
                                "y": 244
                            },
                            {
                                "x": 35,
                                "y": 266
                            },
                            {
                                "x": 12,
                                "y": 282
                            }
                        ],
                        "words": "目"
                    },
                    {
                        "column": 3,
                        "probability": 0.99960500001907,
                        "row": 5,
                        "vertexes_location": [
                            {
                                "x": 603,
                                "y": 52
                            },
                            {
                                "x": 634,
                                "y": 32
                            },
                            {
                                "x": 646,
                                "y": 50
                            },
                            {
                                "x": 615,
                                "y": 71
                            }
                        ],
                        "words": "66"
                    },
                    {
                        "column": 3,
                        "probability": 0.99756097793579,
                        "row": 6,
                        "vertexes_location": [
                            {
                                "x": 634,
                                "y": 73
                            },
                            {
                                "x": 648,
                                "y": 63
                            },
                            {
                                "x": 657,
                                "y": 77
                            },
                            {
                                "x": 643,
                                "y": 86
                            }
                        ],
                        "words": "4"
                    },
                    {
                        "column": 3,
                        "probability": 0.96489900350571,
                        "row": 10,
                        "vertexes_location": [
                            {
                                "x": 699,
                                "y": 178
                            },
                            {
                                "x": 717,
                                "y": 167
                            },
                            {
                                "x": 727,
                                "y": 183
                            },
                            {
                                "x": 710,
                                "y": 194
                            }
                        ],
                        "words": "3,"
                    },
                    {
                        "column": 3,
                        "probability": 0.99809801578522,
                        "row": 14,
                        "vertexes_location": [
                            {
                                "x": 751,
                                "y": 296
                            },
                            {
                                "x": 786,
                                "y": 273
                            },
                            {
                                "x": 797,
                                "y": 289
                            },
                            {
                                "x": 761,
                                "y": 312
                            }
                        ],
                        "words": "206"
                    }
                ],
                "footer": [
                    {
                        "column": 0,
                        "probability": 0.99853301048279,
                        "row": 0,
                        "vertexes_location": [
                            {
                                "x": 605,
                                "y": 698
                            },
                            {
                                "x": 632,
                                "y": 680
                            },
                            {
                                "x": 643,
                                "y": 696
                            },
                            {
                                "x": 616,
                                "y": 714
                            }
                        ],
                        "words": "22"
                    }
                ],
                "header": [
                    {
                        "column": 0,
                        "probability": 0.94802802801132,
                        "row": 0,
                        "vertexes_location": [
                            {
                                "x": 183,
                                "y": 96
                            },
                            {
                                "x": 286,
                                "y": 29
                            },
                            {
                                "x": 301,
                                "y": 52
                            },
                            {
                                "x": 199,
                                "y": 120
                            }
                        ],
                        "words": "29月"
                    }
                ],
                "vertexes_location": [
                    {
                        "x": -154,
                        "y": 286
                    },
                    {
                        "x": 512,
                        "y": -153
                    },
                    {
                        "x": 953,
                        "y": 513
                    },
                    {
                        "x": 286,
                        "y": 953
                    }
                ]
            }
        ]
    }

表格文字识别(异步接口)--提交请求

自动识别表格线及表格内容,结构化输出表头、表尾及每个单元格的文字内容。表格文字识别接口为异步接口,分为两个API:提交请求接口、获取结果接口。

    """ 读取图片 """
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()

    image = get_file_content('example.jpg')

    # 调用表格文字识别(异步接口)--提交请求
    res_image = client.tableRecognitionAsync(image)
    print(res_image)

表格文字识别 请求参数详情

参数名称 是否必选 类型 说明
image string 图像数据,base64编码,要求base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/png/bmp格式

表格文字识别 返回数据参数详情

字段 是否必选 类型 说明
log_id long 唯一的log id,用于问题定位
result list 返回的结果列表
+request_id string 该请求生成的request_id,后续使用该request_id获取识别结果

表格文字识别 返回示例

    {
        "result" : [
            {
                "request_id" : "1234_6789"
            }
        ],
        "log_id":149689853984104
    }

失败应答示例(详细的错误码说明见本文档底部):

    {
        "log_id": 149319909347709,
        "error_code": 282000
        "error_msg":"internal error"
    }

表格文字识别(异步接口)--获取结果

获取表格文字识别结果。

    requestId = "23454320-23255"

    # 调用表格文字识别(异步接口)--获取结果
    res_image = client.getTableRecognitionResult(requestId)
    print(res_image)
    
    # 如果有可选参数
    options = {}
    options["result_type"] = "json"
    res_image = client.getTableRecognitionResult(requestId, options)
    print(res_image)

表格识别结果 请求参数详情

参数名称 是否必选 类型 可选值范围 默认值 说明
request_id string 发送表格文字识别请求时返回的request id
result_type string json
excel
excel 期望获取结果的类型,取值为“excel”时返回xls文件的地址,取值为“json”时返回json格式的字符串,默认为”excel”

表格识别结果 返回数据参数详情

字段 是否必选 类型 说明
log_id long 唯一的log id,用于问题定位
result object 返回的结果
+result_data string 识别结果字符串,如果request_type是excel,则返回excel的文件下载地址,如果request_type是json,则返回json格式的字符串
+percent int 表格识别进度(百分比)
+request_id string 该图片对应请求的request_id
+ret_code int 识别状态,1:任务未开始,2:进行中,3:已完成
+ret_msg string 识别状态信息,任务未开始,进行中,已完成

表格识别结果 返回示例

成功应答示例:

    {
        "result" : {
            "result_data" : "",
            "persent":100,
            "request_id": "149691317905102",
            "ret_code": 3
            "ret_msg": "已完成",
        },
        "log_id":149689853984104
    }

当request_type为excel时,result_data格式样例为:

    {
        "file_url":"https://ai.baidu.com/file/xxxfffddd"
    }

当request_type为json时,result_data格式样例为:

    {
        "form_num": 1,
        "forms": [
            {
                "header": [
                    {
                    "row": [
                        1
                    ],
                    "column": [
                        1,
                        2
                    ],
                    "word": "表头信息1",
                }
            ],
            "footer": [
                {
                    "row": [
                        1
                    ],
                    "column": [
                        1,
                        2
                    ],
                    "word": "表尾信息1",
                }
            ],
            "body": [
                {
                    "row": [
                        1
                    ],
                    "column": [
                        1,
                        2
                    ],
                    "word": "单元格文字",
                }
            ]
        }
    ]
    }

其中各个参数的说明(json方式返回结果时):

字段 是否必选 类型 说明
form_num int 表格数量(可能一张图片中包含多个表格)
forms list 表格内容信息的列表
+header list 每个表格中,表头数据的相关信息
+footer list 表尾的相关信息
+body list 表格主体部分的数据
++row list 该单元格占据的行号
++column list 该单元格占据的列号
++word string 该单元格中的文字信息

失败应答示例(详细的错误码说明见本文档底部):

    {
        "log_id": 149319909347709,
        "error_code": 282000
        "error_msg":"internal error"
    }

表格识别接口

调用表格识别请求,获取请求id之后轮询调用表格识别获取结果的接口。

    """ 读取图片 """
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()

    image = get_file_content('example.jpg')
    
    # 调用表格识别
    options = {}
    options["result_type"] = "json"
    res_image = client.tableRecognition(image, options)
    print(res_image)    

请求参数

tableRecognition(image, option, timeout)

参数名称 是否必选 类型 可选值范围 默认值 说明
image string 图片base64编码数据
+result_type string json
excel
excel 期望获取结果的类型,取值为“excel”时返回xls文件的地址,取值为“json”时返回json格式的字符串,默认为”excel”
timeout number 10000 轮询tableGetresult接口获取数据的超时时间,单位毫秒

返回参数表格识别结果接口返回相同

试卷分析与识别

可对文档版面进行分析,输出图、表、标题、文本的位置,并输出分版块内容的OCR识别结果,支持中、英两种语言,手写、印刷体混排多种场景。

    """ 读取图片 """
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()

    image = get_file_content('example.jpg')
    url = "https://www.x.com/sample.jpg"
    pdf_file = get_file_content('文件路径')    

    # 调用试卷分析与识别
    res_image = client.docAnalysis(image)
    res_url = client.docAnalysisUrl(url)
    res_pdf = client.docAnalysisPdf(pdf_file)    
    print(res_image)
    print(res_url)
    print(res_pdf)    

识别结果 请求参数详情

参数 是否必选 类型 可选值范围 说明
image 和 url/pdf_file 三选一 string - 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效
url 和 image/pdf_file 三选一 string - 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url字段失效
请注意关闭URL防盗链
pdf_file 和 image/url 三选一 string - PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px
优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效
pdf_file_num string - 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页
language_type string CHN_ENG/ ENG 识别语言类型,默认为CHN_ENG
可选值包括:
= CHN_ENG:中英文
= ENG:英文
result_type string big/small 返回识别结果是按单行结果返回,还是按单字结果返回,默认为big。
= big:返回行识别结果
= small:返回行识别结果之上还会返回单字结果
detect_direction string true/false 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。其中,
0 :正向
1:逆时针旋转90度
2:逆时针旋转180度
3:逆时针旋转270度
line_probability string true/false 是否返回每行识别结果的置信度。默认为false
words_type string handwring_only/ handprint_mix 文字类型。
默认:印刷文字识别
= handwring_only:手写文字识别
= handprint_mix: 手写印刷混排识别
layout_analysis string true/false 是否分析文档版面:包括图、表、标题、段落的分析输出

识别结果 返回数据参数详情

字段 是否必选 类型 说明
log_id uint64 唯一的log id,用于问题定位
img_direction int32 detect_direction=true 时返回。检测到的图像朝向,0 :正向; 1:逆时针旋转90度;2:逆时针旋转180度;3:逆时针旋转270度
results_num uint32 识别结果数,表示results的元素个数
results array[] 识别结果数组
+ words_type string 文字属性(手写、印刷),handwriting 手写,print 印刷
+ words array[] 整行的识别结果数组。
++ line_probability array[] line_probability=true 时返回。识别结果中每一行的置信度值,包含average:行置信度平均值,min:行置信度最小值
+++ average float 行置信度
+++ min float 整行中单字的最低置信度
++ word float 整行的识别结果
++ words_location array[] 整行的矩形框坐标。位置数组(坐标0点为左上角)
+++ left uint32 表示定位位置的长方形左上顶点的水平坐标
+++ top uint32 表示定位位置的长方形左上顶点的垂直坐标
+++ width uint32 表示定位定位位置的长方形的宽度
+++ height uint32 表示位置的长方形的高度
+ chars array[] result_type=small 时返回。单字符结果数组
++ char string result_type=small 时返回。每个单字的内容
++ chars_location array[] 每个单字的矩形框坐标。位置数组(坐标0点为左上角)
+++ left uint32 表示定位位置的长方形左上顶点的水平坐标
+++ top uint32 表示定位位置的长方形左上顶点的垂直坐标
+++ width uint32 表示定位定位位置的长方形的宽度
+++ height uint32 表示位置的长方形的高度
layouts_num uint32 版面分析结果数,表示layout的元素个数
layouts array[] 文档版面信息数组,包含表格、图、段落文本、标题等标签;标签的坐标位置;段落文本和表格内文本内容对应的行序号ID
+ layout string 版面分析的标签结果。表格:table, 图:figure, 文本:text, 标题:title
+ layout_location array[] 文档版面信息标签的位置,四个顶点: 左上,右上,右下,左下
++ x uint32 水平坐标(坐标0点为左上角)
++ y uint32 水平坐标(坐标0点为左上角)
+ layout_idx array[] 文档版面信息中的文本在results结果中的位置:版面文本标签对应的行序号ID为n,则此标签中的文本在results结果中第n+1条展示)
pdf_file_size string 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段

仪器仪表盘读数识别

适用于不同品牌、不同型号的仪器仪表盘读数识别,广泛适用于各类血糖仪、血压仪、燃气表、电表等,可识别表盘上的数字、英文、符号,支持液晶屏、字轮表等表型。

    """ 读取图片 """
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()

    image = get_file_content('example.jpg')
    url = "https://www.x.com/sample.jpg"
    
    # 调用仪器仪表盘读数识别
    res_image = client.meter(image)
    res_url = client.meterUrl(url)    
    print(res_image)
    print(res_url)
    
    # 如果有可选参数
    options={}
    options['poly_location']='true'
    res_image = client.meter(image, options)
    res_url = client.meterUrl(url, options)
    print(res_image)
    print(res_url)    

识别结果 请求参数详情

参数 是否必选 类型 可选值范围 说明
image 和url二选一 string - 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px。支持jpg/jpeg/png/bmp格式.注意:图片的base64编码是不包含图片头的,如(data:image/jpg;base64,)
url 和image二选一 string - 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效
请注意关闭URL防盗链
probability string true/false 是否返回每行识别结果的置信度。默认为false
poly_location string true/false 位置信息返回形式,默认:false
false:只给出识别结果所在长方形位置信息
true:除了默认的识别文字所在长方形的位置信息,还会给出文字所在区域的最小外接旋转矩形的4个点坐标信息

识别结果 返回数据参数详情

字段 是否必选 类型 说明
log_id uint64 唯一的log id,用于问题定位
words_result array[] 识别结果数组
words_result_num uint32 识别结果数,表示words_result的元素个数
+ words string 识别结果字符串
+ location array[] 识别结果所在长方形位置信息
++ left uint32 表示定位位置的长方形左上顶点的水平坐标
++ top uint32 表示定位位置的长方形左上顶点的垂直坐标
++ width uint32 表示定位位置的长方形的宽度
++ height uint32 表示定位位置的长方形的高度
+ probability string probability=true 时存在。识别结果中每一行的置信度值,包含average:行置信度平均值,variance:行置信度方差,min:行置信度最小值
+ poly_location array[] poly_location=true 时存在。文字所在区域的外接四边形的4个点坐标信息

返回示例

{
    "log_id": "1392680790663364608",
	"words_result_num": 5
	"words_result": [
		{
			"words": "5.8",
			"location": {
				"top": 150,
				"left": 370,
				"width": 87,
				"height": 79
			}
		},
		{
			"words": "mmol/L",
			"location": {
				"top": 241,
				"left": 402,
				"width": 52,
				"height": 12
			}
		},
		{
			"words": "10:38",
			"location": {
				"top": 115,
				"left": 347,
				"width": 42,
				"height": 21
			}
		},
		{
			"words": "12-11",
			"location": {
				"top": 116,
				"left": 410,
				"width": 36,
				"height": 20
			}
		},
		{
			"words": "am",
			"location": {
				"top": 115,
				"left": 391,
				"width": 12,
				"height": 5
			}
		}
	],
}

网络图片文字识别(含位置版)

支持识别艺术字体或背景复杂的文字内容,除文字信息外,还可返回每行文字的位置信息、行置信度,以及单字符内容和位置等。

    """ 读取图片 """
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()

    image = get_file_content('example.jpg')
    url = "https://www.x.com/sample.jpg"
    pdf_file = get_file_content('文件路径')    

    # 调用网络图片文字识别(含位置版)
    res_image = client.webimageLoc(image)
    res_url = client.webimageLocUrl(url)
    res_pdf = client.webimageLocPdf(pdf_file)    
    print(res_image)
    print(res_url)
    print(res_pdf)
    
    # 如果有可选参数
    options={}
    options['probability']='true'
    res_image = client.webimageLoc(image, options)
    res_url = client.webimageLocUrl(url, options)
    res_pdf = client.webimageLocPdf(pdf_file, options)
    print(res_image)
    print(res_url)
    print(res_pdf)    

网络图片文字识别(含位置版) 请求参数详情

参数 是否必选 类型 可选值范围 说明
image 和 url/pdf_file 三选一 string - 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效
url 和 image/pdf_file 三选一 string - 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url字段失效
请注意关闭URL防盗链
pdf_file 和 image/url 三选一 string - PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px
优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效
pdf_file_num string - 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页
detect_direction string true/false 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括:
- true:检测朝向;
- false:不检测朝向
probability string true/false 是否返回每行识别结果的置信度。默认为false
poly_location string true/false 是否返回文字所在区域的外接四边形的4个点坐标信息。默认为false
recognize_granularity string big/small 是否定位单字符位置,big:不定位单字符位置,默认值;small:定位单字符位置

识别结果 返回数据参数详情

字段 是否必选 类型 说明
log_id uint64 唯一的log id,用于问题定位
direction int32 图像方向,当 detect_direction=true 时返回该字段。检测到的图像朝向:
- - 1:未定义;
- 0 :正向;
- 1:逆时针旋转90度;
- 2:逆时针旋转180度;
- 3:逆时针旋转270度
words_result array[] 识别结果数组
words_result_num uint32 识别结果数,表示words_result的元素个数
+ words string 整行的识别结果
+ location object 整行的矩形框坐标。位置数组(坐标0点为左上角)
++ left uint32 表示定位位置的长方形左上顶点的水平坐标
++ top uint32 表示定位位置的长方形左上顶点的垂直坐标
++ width uint32 表示定位位置的长方形的宽度
++ height uint32 表示定位位置的长方形的高度
+ probability string 当 probability=true 时返回该字段。识别结果中每一行的置信度值,包含average:行置信度平均值,variance:行置信度方差,min:行置信度最小值
+ poly_location array[] 当 probability=true 时返回该字段。文字所在区域的外接矩形的4个点坐标信息
++ x uint32 水平坐标(坐标0点为左上角)
++ y uint32 垂直坐标(坐标0点为左上角)
+ chars array[] 单字符结果,当 recognize_granularity=small 时返回该字段
++ char string 单字符识别结果
++ location object 每个单字的矩形框坐标。位置数组(坐标0点为左上角)
+++ left uint32 表示定位位置的长方形左上顶点的水平坐标
+++ top uint32 表示定位位置的长方形左上顶点的垂直坐标
+++ width uint32 表示定位定位位置的长方形的宽度
+++ height uint32 表示定位定位位置的长方形的高度
pdf_file_size string 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段
返回示例
{
    "log_id": 1390656223866519552,
    "words_result_num": 3,
    "words_result": [
        {
            "words": "梦想起航",
            "location": {
                "top": 328,
                "left": 1079,
                "width": 56,
                "height": 262
            },
        },
        {
            "words": "前往下一个目的地",
            "location": {
                "top": 329,
                "left": 1160,
                "width": 63,
                "height": 446
            },
        },
        {
            "words": "开始新的旅程",
            "location": {
                "top": 455,
                "left": 1246,
                "width": 63,
                "height": 340
            },
        }
    ],
}

增值税发票识别

支持对增值税普票、专票、卷票、电子发票、区块链发票的所有字段进行结构化识别,包括发票基本信息、销售方及购买方信息、商品信息、价税信息等,其中五要素识别准确率超过 99.9%; 同时,支持对增值税卷票的 21 个关键字段进行识别,包括发票类型、发票代码、发票号码、机打号码、机器编号、收款人、销售方名称、销售方纳税人识别号、开票日期、购买方名称、购买方纳税人识别号、项目、单价、数量、金额、税额、合计金额(小写)、合计金额(大写)、校验码、省、市,四要素平均识别准确率可达95%以上。

    """ 读取图片 """
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()

    image = get_file_content('example.jpg')
    url = "https://www.x.com/sample.jpg"
    pdf_file = get_file_content('文件路径')
    
    # 调用增值税发票识别
    res_image = client.vatInvoice(image)
    res_url = client.vatInvoiceUrl(url)
    res_pdf = client.vatInvoicePdf(pdf_file)
    print(res_image)
    print(res_url)
    print(res_pdf)
    
    # 如果有可选参数
    options={}
    options['type']='roll'
    res_image = client.vatInvoice(image, options)
    res_url = client.vatInvoiceUrl(url, options)
    res_pdf = client.vatInvoicePdf(pdf_file, options)
    print(res_image)
    print(res_url)
    print(res_pdf)

请求参数详情

参数 是否必选 类型 可选值范围 说明
image 和 url/pdf_file 三选一 string - 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效
url 和 image/pdf_file 三选一 string - 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url字段失效
请注意关闭URL防盗链
pdf_file 和 image/url 三选一 string - PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px
优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效
pdf_file_num string - 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页
type string normal/roll 进行识别的增值税发票类型,默认为 normal,可缺省
- normal:可识别增值税普票、专票、电子发票
- roll:可识别增值税卷票
返回参数
字段 是否必选 类型 说明
log_id uint64 唯一的log id,用于问题定位
pdf_file_size string 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段
words_result_num uint32 识别结果数,表示words_result的元素个数
words_result object{} 识别结果
+ ServiceType string 发票消费类型。不同消费类型输出:餐饮、电器设备、通讯、服务、日用品食品、医疗、交通、其他
+ InvoiceType string 发票种类。不同类型发票输出:普通发票、专用发票、电子普通发票、电子专用发票、通行费电子普票、区块链发票、通用机打电子发票
+ InvoiceTypeOrg string 发票名称
+ InvoiceCode string 发票代码
+ InvoiceNum string 发票号码
+ InvoiceCodeConfirm string 发票代码的辅助校验码,一般业务情景可忽略
+ InvoiceNumConfirm string 发票号码的辅助校验码,一般业务情景可忽略
+ MachineNum string 机打号码。仅增值税卷票含有此参数
+ MachineCode string 机器编号。仅增值税卷票含有此参数
+ CheckCode string 校验码。增值税专票无此参数
+ InvoiceDate string 开票日期
+ PurchaserName string 购方名称
+ PurchaserRegisterNum string 购方纳税人识别号
+ PurchaserAddress string 购方地址及电话
+ PurchaserBank string 购方开户行及账号
+ Password string 密码区
+ Province string
+ City string
+ SheetNum string 联次信息。专票第一联到第三联分别输出:第一联:记账联、第二联:抵扣联、第三联:发票联;普通发票第一联到第二联分别输出:第一联:记账联、第二联:发票联
+ Agent string 是否代开
+ CommodityName array[] 货物名称
++ row uint32 行号
++ word string 内容
+ CommodityType array[] 规格型号
++ row uint32 行号
++ word string 内容
+ CommodityUnit array[] 单位
++ row uint32 行号
++ word string 内容
+ CommodityNum array[] 数量
++ row uint32 行号
++ word string 内容
+ CommodityPrice array[] 单价
++ row uint32 行号
++ word string 内容
+ CommodityAmount array[] 金额
++ row uint32 行号
++ word string 内容
+ CommodityTaxRate array[] 税率
++ row uint32 行号
++ word string 内容
+ CommodityTax array[] 税额
++ row uint32 行号
++ word string 内容
+ CommodityPlateNum array[] 车牌号。仅通行费增值税电子普通发票含有此参数
++ row uint32 行号
++ word string 内容
+ CommodityVehicleType array[] 类型。仅通行费增值税电子普通发票含有此参数
++ row uint32 行号
++ word string 内容
+ CommodityStartDate array[] 通行日期起。仅通行费增值税电子普通发票含有此参数
++ row uint33 行号
++ word string 内容
+ CommodityEndDate array[] 通行日期止。仅通行费增值税电子普通发票含有此参数
++ row uint33 行号
++ word string 内容
+ OnlinePay String 电子支付标识。仅区块链发票含有此参数
+ SellerName string 销售方名称
+ SellerRegisterNum string 销售方纳税人识别号
+ SellerAddress string 销售方地址及电话
+ SellerBank string 销售方开户行及账号
+ TotalAmount uint32 合计金额
+ TotalTax uint32 合计税额
+ AmountInWords string 价税合计(大写)
+ AmountInFiguers uint32 价税合计(小写)
+ Payee string 收款人
+ Checker string 复核
+ NoteDrawer string 开票人
+ Remarks string 备注

返回示例

{	
  "log_id": "5425496231209218858",
	"words_result_num": 29,
	"words_result": {
		"InvoiceNum": "14641426",
		"SellerName": "上海易火广告传媒有限公司",
		"CommodityTaxRate": [
			{
				"word": "6%",
				"row": "1"
			}
		],
		"SellerBank": "中国银行南翔支行446863841354",
		"Checker": ":沈园园",
		"TotalAmount": "94339.62",
		"CommodityAmount": [
			{
				"word": "94339.62",
				"row": "1"
			}
		],
		"InvoiceDate": "2016年06月02日",
		"CommodityTax": [
			{
				"word": "5660.38",
				"row": "1"
			}
		],
		"PurchaserName": "百度时代网络技术(北京)有限公司",
		"CommodityNum": [
			{
				"word": "",
				"row": "1"
			}
		],
        "Province": "上海",
        "City": "",
        "SheetNum": "第三联",
        "Agent": "否",
		"PurchaserBank": "招商银行北京分行大屯路支行8661820285100030",
		"Remarks": "告传",
		"Password": "074/45781873408>/6>8>65*887676033/51+<5415>9/32--852>1+29<65>641-5>66<500>87/*-34<943359034>716905113*4242>",
		"SellerAddress": ":嘉定区胜辛南路500号15幢1161室55033753",
		"PurchaserAddress": "北京市海淀区东北旺西路8号中关村软件园17号楼二属A2010-59108001",
		"InvoiceCode": "3100153130",
		"CommodityUnit": [
			{
				"word": "",
				"row": "1"
			}
		],
		"Payee": ":徐蓉",
		"PurchaserRegisterNum": "110108787751579",
		"CommodityPrice": [
			{
				"word": "",
				"row": "1"
			}
		],
		"NoteDrawer": "沈园园",
		"AmountInWords": "壹拾万圆整",
		"AmountInFiguers": "100000.00",
		"TotalTax": "5660.38",
		"InvoiceType": "专用发票",
		"SellerRegisterNum": "913101140659591751",
		"CommodityName": [
			{
				"word": "信息服务费",
				"row": "1"
			}
		],
		"CommodityType": [
			{
				"word": "",
				"row": "1"
			}
		]
	}
}

出租车票识别

支持识别全国各大城市出租车票的 16 个关键字段,包括发票号码、代码、车号、日期、总金额、燃油附加费、叫车服务费、省、市、单价、里程、上车时间、下车时间等。

	""" 读取文件 """
   def get_file_content(filePath):
      with open(filePath, "rb") as fp:
         return fp.read()
   
   image = get_file_content('文件路径')
   url = "https//www.x.com/sample.jpg" 
   pdf_file = get_file_content('文件路径') 
   
   # 调用出租车票识别
   res_image = client.taxiReceipt(image)
   res_url = client.taxiReceiptUrl(url)
   res_pdf = client.taxiReceiptPdf(pdf_file)
   print(res_image)
   print(res_url)
   print(res_pdf)   
   
   # 如果有可选参数
   options={}
   options['pdf_file_num'] = '1'
   res_image = client.taxiReceipt(image, options)
   res_url = client.taxiReceiptUrl(url, options)
   res_pdf = client.taxiReceiptPdf(pdf_file, options)   
   print(res_image)
   print(res_url)
   print(res_pdf)

请求参数详情

参数 是否必须 类型 可选值范围 说明
image 和 url/pdf_file 三选一 string - 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效
url 和 image/pdf_file 三选一 string - 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url字段失效
请注意关闭URL防盗链
pdf_file 和 image/url 三选一 string - PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px
优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效
pdf_file_num string - 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页
返回参数
参数 是否必须 类型 说明
log_id uint64 请求标识码,随机数,唯一。
words_result_num uint32 识别结果数,表示words_result的元素个数
words_result object{} 识别结果数组
+ InvoiceCode string 发票代号
+ InvoiceNum string 发票号码
+ TaxiNum string 车牌号
+ Date string 日期
+ Time string 上下车时间
+ PickupTime string 上车时间
+ DropoffTime string 下车时间
+ Fare string 金额
+ FuelOilSurcharge string 燃油附加费
+ CallServiceSurcharge string 叫车服务费
+ TotalFare string 总金额
+ Location string 开票城市
+ Province string
+ City string
+ PricePerkm string 单价
+ Distance string 里程
pdf_file_size string 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段

返回示例

{
	"log_id":2034039896,
	"words_result_num":6,
	"words_result":
	{
		"Date":"2017-11-26",
		"Fare":"¥153.30元",
		"InvoiceCode":"111001681009",
		"InvoiceNum":"90769610",
		"TaxiNum":"BV2062",
		"Time":"20:42-21:07",
		"FuelOilSurcharge": "¥0.00",
		"CallServiceSurcharge": "¥0.00",
        "Province": "浙江省",
        "City": "杭州市",
        "PricePerkm": "2.50元/KM",
        "Distance": "4.5KM"
	}
}

VIN码识别

支持对车辆挡风玻璃处的车架号码进行识别。

	""" 读取文件 """
   def get_file_content(filePath):
      with open(filePath, "rb") as fp:
         return fp.read()
   
   image = get_file_content('文件路径')
   url = "https://www.x.com/sample.jpg" 
   
   # 调用VIN码识别
   res_image = client.vinCode(image)
   res_url = client.vinCodeUrl(url)
   print(res_image)
   print(res_url)
   
   # 如果有可选参数
   options={}
   res_image = client.vinCode(image, options)
   res_url = client.vinCodeUrl(url, options)
   print(res_image)
   print(res_url)

请求参数详情

参数 是否必选 类型 可选值范围 说明
image 和url二选一 string - 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
url 和image二选一 string - 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效
请注意关闭URL防盗链

返回参数

字段 是否必选 类型 说明
log_id uint64 唯一的log id,用于问题定位
words_result_num int 识别结果数,表示words_result的元素个数
words_result array[] 定位和识别结果数组
+ location object 位置数组(坐标0点为左上角)
++ left uint32 表示定位位置的长方形左上顶点的水平坐标
++ top uint32 表示定位位置的长方形左上顶点的垂直坐标
++ width uint32 表示定位位置的长方形的宽度
++ height uint32 表示定位位置的长方形的高度
+ words string VIN码识别结果

返回示例

{
	"log_id": 246589877,
	"words_result": [
		{
			"location": {
				"left": 124,
				"top": 11,
				"width": 58,
				"height": 359
			},
			"words": "LFV2A11K8D4010942"
		}
	],
	"words_result_num": 1
}

火车票识别

支持对红、蓝火车票的13个关键字段进行结构化识别,包括车票号码、始发站、目的站、车次、日期、票价、席别、姓名、座位号、身份证号、售站、序列号、时间。

	""" 读取文件 """
   def get_file_content(filePath):
      with open(filePath, "rb") as fp:
         return fp.read()
   
   image = get_file_content('文件路径')
   url = "https//www.x.com/sample.jpg" 
   pdf_file = get_file_content('文件路径')   
   
   # 调用火车票识别
   res_image = client.trainTicket(image)
   res_url = client.trainTicketUrl(url)
   res_pdf = client.trainTicketPdf(pdf_file)   
   print(res_image)
   print(res_url)
   print(res_pdf)   
   
   # 如果有可选参数
   options={}
   res_image = client.trainTicket(image, options)
   res_url = client.trainTicketUrl(url, options)
   res_pdf = client.trainTicketPdf(pdf_file, options)   
   print(res_image)
   print(res_url)
   print(res_pdf)   
   

请求参数详情

参数 是否必须 类型 可选值范围 说明
image 和 url/pdf_file 三选一 string - 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效
url 和 image/pdf_file 三选一 string - 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url字段失效
请注意关闭URL防盗链
pdf_file 和 image/url 三选一 string - PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px
优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效
pdf_file_num string - 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页
返回参数
参数 是否必须 类型 说明
log_id uint64 请求标识码,唯一,用于调用失败后进行问题定位
direction int32 图像方向
- 0:正向,
- 1:逆时针90度,
- 2:逆时针180度,
- 3:逆时针270度
words_result object{} 识别结果
words_result_num uint32 识别结果数,表示words_result的元素个数
+ ticket_num string 车票号
+ starting_station string 始发站
+ train_num string 车次号
+ destination_station string 到达站
+ date string 出发日期
+ ticket_rates string 车票金额
+ seat_category string 席别
+ name string 乘客姓名
+ id_num string 身份证号
+ serial_number string 序列号
+ sales_station string 售站
+ time string 时间
+ seat_num string 座位号
pdf_file_size string 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段
返回示例
{
	"log_id": "12317512659",
	"direction": 1,
	"words_result_num": 13,
	"words_result": {
		"id_num": "2302051998****156X",
		"name": "裴一丽",
		"ticket_rates": "¥54.5元",
		"destination_station": "天津站",
		"seat_category": "二等座",
		"sales_station": "北京南",
		"ticket_num": "F05706",
		"seat_num": "02车03C号",
		"time": "09:36",
		"date": "2019年04月03日",
		"serial_number": "10010300067846",
		"train_num": "C255",
		"starting_station": "北京南站"
	}
}

数字识别

对图片中的数字进行提取和识别,自动过滤非数字内容,仅返回数字内容及其位置信息,识别准确率超过99%。

	""" 读取文件 """
   def get_file_content(filePath):
      with open(filePath, "rb") as fp:
         return fp.read()
   
   image = get_file_content('文件路径')
   url = "https://www.x.com/sample.jpg"   
   
   # 调用数字识别
   res_image = client.numbers(image)
   res_url = client.numbersUrl(url)   
   print(res_image)
   print(res_url)   
   
   # 如果有可选参数
   options={}
   options['recognize_granularity']='small'
   res_image = client.numbers(image, options)
   res_url = client.numbersUrl(url, options)   
   print(res_image)
   print(res_url)   

请求参数详情

参数 是否必选 类型 可选值范围 说明
image 和url二选一 string - 图像数据,base64编码后进行urlencode,需去掉编码头(data:image/jpeg;base64, )
要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
url 和image二选一 string - 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效
请注意关闭URL防盗链
recognize_granularity string big/small 是否定位单字符位置,big:不定位单字符位置,默认值;small:定位单字符位置
detect_direction string true/false 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。 可选值包括
- true:检测朝向;
- false:不检测朝向

返回说明

返回参数

字段 是否必选 类型 说明
log_id uint64 唯一的log id,用于问题定位
words_result_num uint32 识别结果数,表示words_result的元素个数
words_result array[] 定位和识别结果数组
+ location object 位置数组(坐标0点为左上角)
++ left uint32 表示定位位置的长方形左上顶点的水平坐标
++ top uint32 表示定位位置的长方形左上顶点的垂直坐标
++ width uint32 表示定位位置的长方形的宽度
++ height uint32 表示定位位置的长方形的高度
+ words string 识别结果字符串
+ chars array[] 单字符结果,当 recognize_granularity=small 时返回该字段
++ char string 单字符识别结果
++ location object 位置数组(坐标0点为左上角)
+++ left uint32 表示定位位置的长方形左上顶点的水平坐标
+++ top uint32 表示定位位置的长方形左上顶点的垂直坐标
+++ width uint32 表示定位定位位置的长方形的宽度
+++ height uint32 表示位置的长方形的高度

返回示例

{
    "log_id": 620759800,
    "words_result": [
        {
            "location": {
                "left": 56,
                "top": 0,
                "width": 21,
                "height": 210
            },
            "words": "3"
        }
    ],
    "words_result_num": 1
}

飞机行程单识别

支持对飞机行程单的24个字段进行结构化识别,包括电子客票号、印刷序号、姓名、始发站、目的站、航班号、日期、时间、票价、身份证号、承运人、民航发展基金、保险费、燃油附加费、其他税费、合计金额、填开日期、订票渠道、客票级别、座位等级、销售单位号、签注、免费行李、验证码。 同时,支持单张行程单上的多航班信息识别。

	""" 读取文件 """
   def get_file_content(filePath):
      with open(filePath, "rb") as fp:
         return fp.read()
   
   image = get_file_content('文件路径')
   url = "https//www.x.com/sample.jpg" 
   pdf_file = get_file_content('文件路径')   
   
   # 调用飞机行程单识别
   res_image = client.airTicket(image)
   res_url = client.airTicketUrl(url)
   res_pdf = client.airTicketPdf(pdf_file)   
   print(res_image)
   print(res_url)
   print(res_pdf)   
   
   # 如果有可选参数
   options={}
   options["multi_detect"] = "false"
   res_image = client.airTicket(image, options)
   res_url = client.airTicketUrl(url, options)
   res_pdf = client.airTicketPdf(pdf_file, options)   
   print(res_image)
   print(res_url)
   print(res_pdf)   

请求参数详情

参数 是否必选 类型 可选值范围 说明
image 和 url/pdf_file 三选一 string - 图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效
url 和 image/pdf_file 三选一 string - 图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url字段失效
请注意关闭URL防盗链
pdf_file 和 image/url 三选一 string - PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px
优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效
pdf_file_num string - 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页
multi_detect string true/false 控制是否开启多航班信息识别功能,默认值:false
- true:开启多航班信息识别功能,开启后返回结果中对应字段格式将改为数组类型
- false: 不开启,仅识别单一航班信息

返回参数详情

字段 是否必选 类型 说明
log_id uint64 唯一的log id,用于问题定位
words_result_num uint32 识别结果数,表示words_result的元素个数
words_result object{} 识别结果
+ name string 姓名
+ starting_station string 始发站
+ destination_station string 目的站
+ flight string 航班号
+ date string 日期
+ ticket_number string 电子客票号码
+ fare string 票价
+ dev_fund string 民航发展基金/基建费
+ fuel_surcharge string 燃油附加费
+ other_tax string 其他税费
+ ticket_rates string 合计金额
+ issued_date string 填开日期
+ id_num string 身份证号
+ carrier string 承运人
+ time string 时间
+ issued_by string 订票渠道
+ serial_number string 印刷序号
+ insurance string 保险费
+ fare_basis string 客票级别
+ class string 座位等级
+ agent_code string 销售单位号
+ endorsement string 签注
+ allow string 免费行李
+ ck string 验证码
pdf_file_size string 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段

返回示例

// 识别单航班信息(multi_detect=false,或参数缺省)
{
    "log_id": 7306800033425229106,
    "direction": 0,
    "words_result_num": 18,
    "words_result": {
        "insurance": "20.00",
        "date": "2019-10-22",
        "allow": "20K",
        "flight": "CA6589",
        "issued_by": "中国国际航空服务有限公司",
        "starting_station": "武汉",
        "fare": "260.00",
        "endorsement": "不得签转改期退转",
        "ticket_rates": "350.00",
        "ck": "5866",
        "serial_number": "51523588676",
        "ticket_number": "7843708871196",
        "fuel_surcharge": "EXEMPT",
        "carrier": "南航",
        "issued_date": "2019-10-30",
        "other_tax": "",
        "fare_basis": "NREOW",
        "id_num": "411201123909020877",
        "destination_station": "合肥",
        "name": "郭达",
        "agent_code": "BJS19197300025",
        "time": "21:25",
        "class": "N",
        "dev_fund": "50.00"
    }
}

// 识别多航班信息(multi_detect=true)
{
    "words_result": {
        "log_id": "1280814270572920832",
        "words_result_num": 18
        "insurance": [
            {
                "word": "XXX"
            }
        ],
        "date": [
            {
                "word": "2019-10-18"
            },
            {
                "word": "2019-10-21"
            }
        ],
        "flight": [
            {
                "word": "CZ3565"
            },
            {
                "word": "CZ3566"
            }
        ],
        "issued_by": [
            {
                "word": "上海携程旅行社有限公司"
            }
        ],
        "starting_station": [
            {
                "word": "北京"
            }
        ],
        "fare": [
            {
                "word": "1080.00"
            }
        ],
        "ticket_rates": [
            {
                "word": "1420.00"
            }
        ],
        "serial_number": [
            {
                "word": "45956029770"
            }
        ],
        "ticket_number": [
            {
                "word": "7849648364314"
            }
        ],
        "fuel_surcharge": [
            {
                "word": "240.00"
            }
        ],
        "carrier": [
            {
                "word": "南航"
            },
            {
                "word": "南航"
            }
        ],
        "issued_date": [
            {
                "word": "2019-09-18"
            }
        ],
        "other_tax": [],
        "id_num": [
            {
                "word": "0789654700"
            }
        ],
        "destination_station": [
            {
                "word": "深圳"
            },
            {
                "word": "北京"
            }
        ],
        "name": [
            {
                "word": "姚佳"
            }
        ],
        "time": [
            {
                "word": "13:55"
            },
            {
                "word": "16:30"
            }
        ],
        "dev_fund": [
            {
                "word": "100.00"
            }
        ]
    },
}

二维码识别

对图片中的二维码、条形码进行检测和识别,返回存储的文字信息。

	""" 读取文件 """
   def get_file_content(filePath):
      with open(filePath, "rb") as fp:
         return fp.read()
   
   image = get_file_content('文件路径')
   url = "https://www.x.com/sample.jpg" 
   
   # 调用二维码识别
   res_image = client.qrcode(image)
   res_url = client.qrcodeUrl(url)
   print(res_image)
   print(res_url)
   

请求参数详情

参数 是否必选 类型 可选值范围 说明
image 和url二选一 string - 图像数据,base64编码后进行urlencode,需去掉编码头(data:image/jpeg;base64, )
要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
url 和image二选一 string - 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式,当image字段存在时url字段失效
请注意关闭URL防盗链

返回参数详情

字段 是否必选 类型 说明
log_id uint64 唯一的log id,用于问题定位
codes_result_num uint32 识别结果数,表示codes_result的元素个数
codes_result array[] 定位和识别结果数组
+ type string 识别码类型条码类型包括:9种条形码(UPC_A、UPC_E、EAN_13、EAN_8、CODE_39、CODE_93、CODE_128、ITF、CODABAR),4种二维码(QR_CODE、DATA_MATRIX、AZTEC、PDF_417)
+ text string 条形码识别内容,暂时只限于识别中英文结果

返回示例

{
    "log_id": 863402790,
    "codes_result": [
        {
            "type": "QR_CODE",
            "text": [
                "中国",
                "北京"
            ]
        }
    ],
    "codes_result_num"