【征稿计划第二期】新闻摘要功能评测
才能我浪费99 发布于2019-07-12 16:00 浏览:1183 回复:3
1
收藏

【评测报告】【新闻摘要】

1.功能介绍:
新闻摘要,基于深度语义分析模型,自动抽取新闻文本中的关键信息并生成指定长度的新闻摘要。可用于热点新闻聚合、新闻推荐、语音播报、APP消息Push等场景。

2.平台接入

新闻摘要接入网址:https://console.bce.baidu.com/ai/#/ai/imagerecognition/overview/index

具体接入方式比较简单,可以参考我的另一个帖子,这里就不重复了:
http://ai.baidu.com/forum/topic/show/943327

3.调用攻略(Python3)及评测

3.1首先认证授权:

在开始调用任何API之前需要先进行认证授权,具体的说明请参考:

http://ai.baidu.com/docs#/Auth/top

具体Python3代码如下:

# -*- coding: utf-8 -*-
#!/usr/bin/env python

import urllib
import base64
import json
#client_id 为官网获取的AK, client_secret 为官网获取的SK
client_id =【百度云应用的AK】
client_secret =【百度云应用的SK】

#获取token
def get_token():
    host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=' + client_id + '&client_secret=' + client_secret
    request = urllib.request.Request(host)
    request.add_header('Content-Type', 'application/json; charset=UTF-8')
    response = urllib.request.urlopen(request)
    token_content = response.read()
    if token_content:
        token_info = json.loads(token_content)
        token_key = token_info['access_token']
    return token_key


3.2新闻摘要分析接口调用:

详细说明请参考: http://ai.baidu.com/docs#/NLP-API/2759b696

说明的比较清晰,这里就不重复了。大家需要注意的是:
API访问URL:https://aip.baidubce.com/rpc/2.0/nlp/v1/news_summary

Python3调用代码如下:

#新闻摘要
def news_summary(title,content,max_summary_len):
    print ('max_summary_len:',max_summary_len)
    token=get_token()
    url = 'https://aip.baidubce.com/rpc/2.0/nlp/v1/news_summary'
    params = dict()
    params['title'] = title
    params['content'] = content
    params['max_summary_len'] = max_summary_len
    params = json.dumps(params).encode('utf-8')
    
    access_token = token
    begin = time.perf_counter()
    url = url + "?access_token=" + access_token
    request = urllib.request.Request(url=url, data=params)
    request.add_header('Content-Type', 'application/json')
    response = urllib.request.urlopen(request)
    content = response.read()
    end = time.perf_counter()
    print('处理时长:'+'%.2f'%(end-begin)+'秒')
    if content:
        content=content.decode('GB2312')
        #print (content)
        data = json.loads(content)
        summary=data['summary']
        print ('Summary:',summary)

4.功能评测:

title="星系团碰撞时可产生1亿摄氏度高温冲击波"
content="新浪科技讯 北京时间7月12日消息,据英国每日邮报报道,一支研究小组对两个星系团观测显示,当星系团碰撞时会产生合并冲击,将动能转化为热能,星系碰撞时可以产生高达1亿摄氏度的高温冲击波。星系团是由数百个星系组成,每个星系通过引力作用将数千亿颗恒星结合在一起。天文学家已经知道星系团之间会发生碰撞,此前已观察到星系初始碰撞的前后过程,然而,拍摄到每个星系团碰撞过程是非常困难的,可能需要花费人们一生的时间去完成。来自国际射电天文研究中心(ICRARA)的研究小组希望建立一个关于这些星团如何融合的连续模型,他们观察到两个星系团的碰撞初期阶段,与所有已观测到的合并冲击情况相反,最新观测的冲击沿着合并平面向外扩散。这一发现揭晓了大质量星系团形成的一个重要时期,当星系团快速接近时,会导致沿合并轴的气体产生较强压缩,根据当前理论模型预测称,大部分激波能量可能会消失在星系团之外,最终转化为热气体。在我们对宇宙结构形成的理解中,这一观察可被看作是一块缺失的“拼图”,这与星系和星系团等大型天体结构主要通过碰撞和合并而增长的观点相悖。星系团是已知最大的天体,是由数百个星系组成,每个星系都包含着数千亿颗恒星,周围环绕着一圈炽热气体,自从宇宙大爆炸以来,星系一直处于增长状态,主要是通过相互碰撞和合并。由于它们具有较大体积,直径可达到数百万光年,此类碰撞可能需要大约10亿年时间才能完成。当宇宙尘埃落定时,两个相互碰撞的星系团将合并成为一个更大的星系团。"

max_summary_len: 300
处理时长:0.46秒
Summary: 新浪科技讯 北京时间7月12日消息,据英国每日邮报报道,一支研究小组对两个星系团观测显示,当星系团碰撞时会产生合并冲击,将动能转化为热能,星系碰撞时可以产生高达1亿摄氏度的高温冲击波。天文学家已经知道星系团之间会发生碰撞,此前已观察到星系初始碰撞的前后过程,然而,拍摄到每个星系团碰撞过程是非常困难的,可能需要花费人们一生的时间去完成。这一发现揭晓了大质量星系团形成的一个重要时期,当星系团快速接近时,会导致沿合并轴的气体产生较强压缩,根据当前理论模型预测称,大部分激波能量可能会消失在星系团之外,最终转化为热气体。当宇宙尘埃落定时,两个相互碰撞的星系团将合并成为一个更大的星系团。

max_summary_len: 200
处理时长:0.44秒
Summary: 天文学家已经知道星系团之间会发生碰撞,此前已观察到星系初始碰撞的前后过程,然而,拍摄到每个星系团碰撞过程是非常困难的,可能需要花费人们一生的时间去完成。这一发现揭晓了大质量星系团形成的一个重要时期,当星系团快速接近时,会导致沿合并轴的气体产生较强压缩,根据当前理论模型预测称,大部分激波能量可能会消失在星系团之外,最终转化为热气体。当宇宙尘埃落定时,两个相互碰撞的星系团将合并成为一个更大的星系团。

max_summary_len: 100
处理时长:0.25秒
Summary: 当宇宙尘埃落定时,两个相互碰撞的星系团将合并成为一个更大的星系团。


title="麻省理工学院为无人机配备RFID技术,进行仓库货物管理"
content="麻省理工学院的研究团队为无人机在仓库中使用RFID技术进行库存查找等工作,创造了一种聪明的新方式。它允许公司使用更小,更安全的无人机在巨型建筑物中找到之前无法找到的东西。使用RFID标签更换仓库中的条形码,将帮助提升自动化并提高库存管理的准确性。与条形码不同,RFID标签不需要对准扫描,标签上包含的信息可以更广泛和更容易地更改。它们也可以很便宜,尽管有优点,但是它具有局限性,对于跟踪商品没有设定RFID标准,“标签冲突”可能会阻止读卡器同时从多个标签上拾取信号。扫描RFID标签的方式也会在大型仓库内引起尴尬的问题。固定的RFID阅读器和阅读器天线只能扫描通过设定阈值的标签,手持式读取器需要人员出去手动扫描物品。几家公司已经解决了无人机读取RFID的技术问题。配有RFID读卡器的无人机可以代替库存盘点的人物,并以更少的麻烦更快地完成工作。一个人需要梯子或电梯进入的高箱,可以通过无人机很容易地达到,无人机可以被编程为独立地导航空间,并且他们比执行大规模的重复任务的准确性和效率要比人类更好。目前市场上的RFID无人机需要庞大的读卡器才能连接到无人机的本身。这意味着它们必须足够大,以支持附加硬件的尺寸和重量,使其存在坠机风险。麻省理工学院的新解决方案,名为Rfly,允许无人机阅读RFID标签,而不用捆绑巨型读卡器。相反,无人机配备了一个微小的继电器,它像Wi-Fi中继器一样。无人机接收从远程RFID读取器发送的信号,然后转发它读取附近的标签。由于继电器很小,这意味着可以使用更小巧的无人机,可以使用塑料零件,可以适应较窄的空间,不会造成人身伤害的危险。麻省理工学院的Rfly系统本质上是对现有技术的一个聪明的补充,它不仅消除了额外的RFID读取器,而且由于它是一个更轻的解决方案,允许小型无人机与大型无人机做同样的工作。研究团队正在马萨诸塞州的零售商测试该系统。"

max_summary_len: 300
处理时长:0.23秒
Summary: 麻省理工学院的研究团队为无人机在仓库中使用RFID技术进行库存查找等工作,创造了一种聪明的新方式。使用RFID标签更换仓库中的条形码,将帮助提升自动化并提高库存管理的准确性。扫描RFID标签的方式也会在大型仓库内引起尴尬的问题。几家公司已经解决了无人机读取RFID的技术问题。配有RFID读卡器的无人机可以代替库存盘点的人物,并以更少的麻烦更快地完成工作。目前市场上的RFID无人机需要庞大的读卡器才能连接到无人机的本身。麻省理工学院的新解决方案,名为Rfly,允许无人机阅读RFID标签,而不用捆绑巨型读卡器。无人机接收从远程RFID读取器发送的信号,然后转发它读取附近的标签。

max_summary_len: 200
处理时长:0.25秒
Summary: 麻省理工学院的研究团队为无人机在仓库中使用RFID技术进行库存查找等工作,创造了一种聪明的新方式。使用RFID标签更换仓库中的条形码,将帮助提升自动化并提高库存管理的准确性。扫描RFID标签的方式也会在大型仓库内引起尴尬的问题。几家公司已经解决了无人机读取RFID的技术问题。麻省理工学院的新解决方案,名为Rfly,允许无人机阅读RFID标签,而不用捆绑巨型读卡器。无人机接收从远程RFID读取器发送的信号,然后转发它读取附近的标签。

max_summary_len: 100
处理时长:0.23秒
Summary: 麻省理工学院的研究团队为无人机在仓库中使用RFID技术进行库存查找等工作,创造了一种聪明的新方式。麻省理工学院的新解决方案,名为Rfly,允许无人机阅读RFID标签,而不用捆绑巨型读卡器。

测试结论

通过测试可以发现针对不同的内容,及不同的长度要求,百度AI新闻摘要总是可以抓住文章的重点,即使在100字以下的极端情况,也能一语中的。整体速度都不到1秒,反应很快,内容通顺性也都很好。


5.功能建议:
现在的接口参数除了Title和内容,只有max_summary_len(摘要结果的最大长度)一个参数。希望能够提供压缩比例选项,方便使用,比如0.2,就是摘要的内容不能超过原文的20%等。

收藏
点赞
1
个赞
共3条回复 最后由才能我浪费99回复于2019-07-17 08:26
#4才能我浪费99回复于2019-07-17 08:26:48
#3 小雨青青润无声回复
百度根据这些测评结果,不断改进,越来越优化了

百度AI十分的强大

0
#3小雨青青润无声回复于2019-07-15 12:57:34

百度根据这些测评结果,不断改进,越来越优化了

0
#2才能我浪费99回复于2019-07-13 13:32:05

以后写总结方便了

0
TOP
切换版块