第五期【百度大脑新品体验】名片识别
风搅火 发布于2019-09-15 浏览:4922 回复:18
0
收藏
最后编辑于2020-02-18

百度名片识别,支持对各类名片的9个关键字段进行结构化识别,包括姓名、公司、职位、邮编、邮箱、电话、网址、地址、手机号

功能接入:
进入百度AI管理界面:https://console.bce.baidu.com/
进入界面后点击“创建应用”

输入应用信息及需要的AI功能即可。


百度现在提供每天一定量的免费调用额度,足够大家测试使用了。


获取Access Token
调用名片识别功能前需要先调用鉴权API,确保安全。
具体说明请查阅:http://ai.baidu.com/docs#/Auth/top

请求URL数据格式
向授权服务地址https://aip.baidubce.com/oauth/2.0/token发送请求(推荐使用POST),并在URL中带上以下参数:
grant_type: 必须参数,固定为client_credentials;
client_id: 必须参数,应用的API Key;
client_secret: 必须参数,应用的Secret Key;
例如:
https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=Va5yQRHlA4Fq5eR3LT0vuXV4&client_secret=0rDSjzQ20XUj5itV6WRtznPQSzr5pVw2&


名片识别AP调用
名片识别的API说明链接为:https://ai.baidu.com/docs#/OCR-API/top

接口描述
提供对各类名片的结构化识别功能,提取姓名、邮编、邮箱、电话、网址、地址、手机号、公司、职位字段

请求说明
请求URL: https://aip.baidubce.com/rest/2.0/ocr/v1/business_card

具体参数:


返回示例
{
"errno": "0",
"logid": "14815156840",
"words_result_num": 7
"words_result": {
"ADDR": ["中国·北京东城区朝阳门北大街4848号"],
"FAX": ["010-818480043"],
"MOBILE": ["18284584483"],
"NAME": ["陈圆圆"],
"PC": ["100010"],
"URL": ["www.baidu.comwww.baidu.com"],
"TEL": ["010-89184841"],
"COMPANY": ["宝力机械有限公司"],
"TITLE": ["总经理"]
...
}
}


详细代码(C#):

    public static class AccessToken
	{
	    // 调用getAccessToken()获取的 access_token建议根据expires_in 时间 设置缓存
	    // 返回token示例
     // 百度云中开通对应服务应用的 API Key 建议开通应用的时候多选服务
		private static String clientId = "你获得的ID";
		// 百度云中开通对应服务应用的 Secret Key
		private static String clientSecret = "你获得的KEY";

		public static String getAccessToken() {
			String authHost = "https://aip.baidubce.com/oauth/2.0/token";
			HttpClient client = new HttpClient();
			List> paraList = new List>();
			paraList.Add(new KeyValuePair("grant_type", "client_credentials"));
			paraList.Add(new KeyValuePair("client_id", clientId));
			paraList.Add(new KeyValuePair("client_secret", clientSecret));

			HttpResponseMessage response = client.PostAsync(authHost, new FormUrlEncodedContent(paraList)).Result;
			String result = response.Content.ReadAsStringAsync().Result;
			Console.WriteLine(result);
            JObject jobject = (JObject)JsonConvert.DeserializeObject(result);
            string token = jobject["access_token"].ToString();
            return token;
			//return result;
		}
		public class Program
    {
        // 名片识别
				public static string businessCard(String imagefilename)
        {
            string token = AccessToken.getAccessToken();
            Console.WriteLine(token);
            string host = "https://aip.baidubce.com/rest/2.0/ocr/v1/business_card?access_token=" + token;
            Encoding encoding = Encoding.Default;
            HttpWebRequest request = (HttpWebRequest)WebRequest.Create(host);
            request.Method = "post";
            request.KeepAlive = true;
            // 图片的base64编码
            string base64 = getFileBase64(imagefilename);
            String str = "image=" + HttpUtility.UrlEncode(base64);
            byte[] buffer = encoding.GetBytes(str);
            request.ContentLength = buffer.Length;
            request.GetRequestStream().Write(buffer, 0, buffer.Length);
            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
            StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.Default);
            string result = reader.ReadToEnd();
            Console.WriteLine("分析结果:");
            Console.WriteLine(result);
            return result;
        }
        public static String getFileBase64(String fileName) {
            FileStream filestream = new FileStream(fileName, FileMode.Open);
            byte[] arr = new byte[filestream.Length];
            filestream.Read(arr, 0, (int)filestream.Length);
            string baser64 = Convert.ToBase64String(arr);
            filestream.Close();
            return baser64;
        }
    }
    

功能测试(所有测试图片都来自网络):


分析结果:
{"log_id": 3193284132770686927, "words_result_num": 10, "words_result": {"FAX": [""], "TEL": [""], "NAME": ["徐海明"], "TITLE": [""], "MOBILE": ["18929579331"], "PC": [""], "COMPANY": ["新滿堂家私", "龙源家私商场", "福满堂家私商场", "新满堂家私商场"], "URL": [""], "EMAIL": [""], "ADDR": ["从化市区旺城路口贵泉油站侧边", "龙潭市场二楼", "龙潭广韶路22号", "从化市区旺城路口贵泉油站侧边"]}}

分析结果:
{"log_id": 2578627223370283791, "words_result_num": 10, "words_result": {"FAX": ["0592-5751418"], "TEL": [""], "NAME": ["张济鑫"], "TITLE": [""], "MOBILE": ["59904833"], "PC": [""], "COMPANY": ["罗浮宫(国际)发展有限公司", "罗浮宫尼凯陶瓷(厦门)营销中心", "罗浮宫厦门专营商", "厦门鸿祥泰商贸有限公司", "广盛陶瓷砖发展商:", "厦门广盛陶建材经营公司"], "URL": ["www.louvre-cr.com", "www.louvre-cr.com"], "EMAIL": ["louvrexm@163.com"], "ADDR": ["厦门红星美凯龙负一楼8178--8179号罗浮宫陶瓷", "厦门台湾街1号科瑞建材城一层、二层、三层64(台湾"]}}


测试结论及建议
测试后发现效果很好,调用速度很快,结果准确,可以大大的提高人们的工作效率。建议后续优化的时候增加更多的识别字段,例如把姓名、邮编、邮箱、电话、网址、地址、手机号、公司、职位之外字段内容放在“其他”字段里面返回。

收藏
点赞
0
个赞
共18条回复 最后由189******30回复于2020-02-18
#19189******30回复于2020-02-18
#18 谢岳松回复
咨询一下,名片识别代码实现逻辑如姓名是用百家姓语料库去匹配吗?是写规则还是用NLP算法?
展开

这是调用的百度提供的API。

0
#18谢岳松回复于2020-02-17

咨询一下,名片识别代码实现逻辑如姓名是用百家姓语料库去匹配吗?是写规则还是用NLP算法?

0
#17worddict回复于2019-10-19
#16 风搅火回复
还有没有建议,可以指导我一下?

感觉已经很好了

0
#16风搅火回复于2019-10-19
#13 worddict回复
写的很详细啊

还有没有建议,可以指导我一下?

0
#15风搅火回复于2019-10-19
#12 AI最前线回复
HI 有没有兴趣交流一下,可以把你的微信号发到v_guoweicheng@baidu.com 
展开

刚看见,我这就发给你,谢谢!

0
#13worddict回复于2019-09-27

写的很详细啊

0
#12AI最前线回复于2019-09-25

HI 有没有兴趣交流一下,可以把你的微信号发到v_guoweicheng@baidu.com 

0
TOP
切换版块