【语言与知识主题月】短文本相似度评测
才能我浪费99 发布于2020-07 浏览:4935 回复:5
1
收藏

1.功能描述:
短文本相似度依托全网海量优质数据和深度神经网络技术,为您提供高精度的短文本相似度服务,帮助快速实现推荐、检索、排序等应用

2.平台接入

具体接入方式比较简单,可以参考我的另一个帖子,这里就不重复了:
http://ai.baidu.com/forum/topic/show/943327

3.调用攻略(Python3)及评测

3.1首先认证授权:

在开始调用任何API之前需要先进行认证授权,具体的说明请参考:

http://ai.baidu.com/docs#/Auth/top

具体Python3代码如下:

# -*- coding: utf-8 -*-
#!/usr/bin/env python

import urllib
import base64
import json
#client_id 为官网获取的AK, client_secret 为官网获取的SK
client_id =【百度云应用的AK】
client_secret =【百度云应用的SK】

#获取token
def get_token():
host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=' + client_id + '&client_secret=' + client_secret
request = urllib.request.Request(host)
request.add_header('Content-Type', 'application/json; charset=UTF-8')
response = urllib.request.urlopen(request)
token_content = response.read()
#print (token_content)
if token_content:
token_info = json.loads(token_content)
token_key = token_info['access_token']
return token_key

3.2百度词向量表示接口调用:

详细说明请参考:https://ai.baidu.com/ai-doc/NLP/ek6z52frp

说明的比较清晰,这里就不重复了。

大家需要注意的是:请求URL: https://aip.baidubce.com/rpc/2.0/nlp/v2/simnet
Body请求示例:
{
"text_1": "浙富股份", // 待比较文本1
"text_2": "万事通自考网" // 待比较文本2
}

请求参数
text_1:待比较文本1,最大512字节
text_2:待比较文本2,最大512字节
model:默认为"BOW",可选"BOW"、"CNN"与"GRNN"

关于模型选择:
短文本相似度接口,可由用户自主选择合适的模型:
BOW(词包)模型
基于bag of words的BOW模型,特点是泛化性强,效率高,比较轻量级,适合任务:输入序列的 term “确切匹配”、不关心序列的词序关系,对计算效率有很高要求;
GRNN(循环神经网络)模型
基于recurrent,擅长捕捉短文本“跨片段”的序列片段关系,适合任务:对语义泛化要求很高,对输入语序比较敏感的任务;
CNN(卷积神经网络)模型
模型语义泛化能力介于 BOW/RNN 之间,对序列输入敏感,相较于 GRNN 模型的一个显著优点是计算效率会更高些。

Python3调用代码如下:

def simnet(text_1,text_2,model):
    token=get_token()
    url = 'https://aip.baidubce.com/rpc/2.0/nlp/v2/simnet'
    params = dict()
    params['text_1'] = text_1
    params['text_2'] = text_2
    params['model'] = model
    params = json.dumps(params).encode('utf-8')
    access_token = token
    url = url + "?access_token=" + access_token
    request = urllib.request.Request(url=url, data=params)
    request.add_header('Content-Type', 'application/json')
    response = urllib.request.urlopen(request)
    content = response.read()
    if content:
        content=content.decode('GBK')
        data = json.loads(content)
        print (data)

4.功能评测:
simnet("汗血宝马","宝马汽车",'CNN')
{'log_id': 4801458885129859330, 'texts': {'text_2': '宝马汽车', 'text_1': '汗血宝马'}, 'score': 0.382908}

simnet("汗血宝马","奔驰汽车",'CNN')
{'log_id': 1141131741869006018, 'texts': {'text_2': '奔驰汽车', 'text_1': '汗血宝马'}, 'score': 0.339106}

simnet("汗血宝马","纯血赛马",'CNN')
{'log_id': 8804496587735541858, 'texts': {'text_2': '纯血赛马', 'text_1': '汗血宝马'}, 'score': 0.528051}

对比内容发现:短文本相似度功能能很好的分辨"汗血宝马"与"宝马汽车";"奔驰汽车";"纯血赛马"之间的关系,并给出分值。

5.测试结论和建议
短文本相似度接口用来判断两个文本的相似度得分,经过测试发现分辨的很准确。对于信息检索,新闻检索,智能客服等领域会有很好的效果。

收藏
点赞
1
个赞
共5条回复 最后由用户已被禁言回复于2022-04
#6笔墨哥回复于2020-07

羡慕什么都会用的大佬

0
#5才能我浪费99回复于2020-07

可以用于内容推荐

0
#4才能我浪费99回复于2020-07

可以快速检索信息

0
#3才能我浪费99回复于2020-07

这个功能应用场景很多

0
#2worddict回复于2020-07

用起来非常方便

0
TOP
切换版块