【语言与知识主题月】DNN语言模型评测
才能我浪费99 发布于2020-07-02 浏览:1371 回复:5
1
收藏

1.功能描述:
DNN语言模型依托全网海量优质数据和深度神经网络技术,判断一句话是否符合语言表达习惯,帮助您实现文本分析、纠错、对话等多种语义应用

2.平台接入

具体接入方式比较简单,可以参考我的另一个帖子,这里就不重复了:
http://ai.baidu.com/forum/topic/show/943327

3.调用攻略(Python3)及评测

3.1首先认证授权:

在开始调用任何API之前需要先进行认证授权,具体的说明请参考:

http://ai.baidu.com/docs#/Auth/top

具体Python3代码如下:

# -*- coding: utf-8 -*-
#!/usr/bin/env python

import urllib
import base64
import json
#client_id 为官网获取的AK, client_secret 为官网获取的SK
client_id =【百度云应用的AK】
client_secret =【百度云应用的SK】

#获取token
def get_token():
host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=' + client_id + '&client_secret=' + client_secret
request = urllib.request.Request(host)
request.add_header('Content-Type', 'application/json; charset=UTF-8')
response = urllib.request.urlopen(request)
token_content = response.read()
#print (token_content)
if token_content:
token_info = json.loads(token_content)
token_key = token_info['access_token']
return token_key

3.2百度词向量表示接口调用:

详细说明请参考:https://ai.baidu.com/ai-doc/NLP/0k6z52fb4

说明的比较清晰,这里就不重复了。

大家需要注意的是:请求URL: https://aip.baidubce.com/rpc/2.0/nlp/v2/dnnlm_cn

Body请求示例:
{
"text": "百度是一家高科技公司"
}

Python3调用代码如下:

def dnnlm_cn(text):
    token=get_token()
    url = 'https://aip.baidubce.com/rpc/2.0/nlp/v2/dnnlm_cn'
    params = dict()
    params['text'] = text
    params = json.dumps(params).encode('utf-8')
    access_token = token
    url = url + "?access_token=" + access_token
    request = urllib.request.Request(url=url, data=params)
    request.add_header('Content-Type', 'application/json')
    response = urllib.request.urlopen(request)
    content = response.read()
    if content:
        content=content.decode('GBK')
        data = json.loads(content)
        print (data)

4.功能评测:
dnnlm_cn('今天天气真不错')
{'log_id': 3297982206021368514, 'text': '今天天气真不错', 'items': [{'word': '今天', 'prob': 0.00124328}, {'word': '天气', 'prob': 0.00425616}, {'word': '真', 'prob': 0.00535392}, {'word': '不', 'prob': 0.150294}, {'word': '错', 'prob': 0.415348}], 'ppl': 56.296}

dnnlm_cn('今天太阳真不错')
{'log_id': 6607228999651078402, 'text': '今天太阳真不错', 'items': [{'word': '今天', 'prob': 0.00124328}, {'word': '太阳', 'prob': 0.000211695}, {'word': '真', 'prob': 0.00142492}, {'word': '不', 'prob': 0.0711383}, {'word': '错', 'prob': 0.03952}], 'ppl': 248.543}

对比内容发现句子越通顺,PPL的值越低。

5.测试结论和建议
中文DNN语言模型接口用于输出切词结果并给出每个词在句子中的概率值,判断一句话是否符合语言表达习惯。使用起来很方便,会有很好的应用前景。

收藏
点赞
1
个赞
共5条回复 最后由worddict回复于2020-07-28
#6worddict回复于2020-07-28
#5 笔墨哥回复
大佬具体哪它做啥啦?

看文章介绍是文本分析、纠错等方面

0
#5笔墨哥回复于2020-07-28
#4 才能我浪费99回复
识别的很准确

大佬具体哪它做啥啦?

0
#4才能我浪费99回复于2020-07-14

识别的很准确

0
#3worddict回复于2020-07-13

期待后续的优化

0
#2worddict回复于2020-07-13

百度的NLP技术非常强大

0
TOP
切换版块