提取关键字用什么算法比较好?
天道冲 发布于2018-10 浏览:3118 回复:17
0
收藏

我有几千篇文章,需要从中提取关键字30个,用什么算法比较好?我试了试tf-idf,也许是我分词的问题,得到的结果不太好,而且多数都是2个字的关键词。

收藏
点赞
0
个赞
共17条回复 最后由天道冲回复于2018-10
#18天道冲回复于2018-10
#13 才能我浪费99回复
你用什么分的词,jieba?

用的是ansj,没用词库。谢谢啦,有空的时候找个词库试试看。

0
#17才能我浪费99回复于2018-10
#16 xianlu199回复
词库,老哥有资料推荐吗?

我记得GITHUB上有一个专门的中文词库,你搜一下应该能找到

0
#16xianlu199回复于2018-10
#15 才能我浪费99回复
如果是专业的文章,你没用相应的词库,肯定切词就不会太准

词库,老哥有资料推荐吗?

0
#15才能我浪费99回复于2018-10

如果是专业的文章,你没用相应的词库,肯定切词就不会太准

0
#14才能我浪费99回复于2018-10

分词的效果和你用的词库关系也挺大的

0
#13才能我浪费99回复于2018-10

你用什么分的词,jieba?

0
#12hefeitest回复于2018-10

关键字也分领域吧

0
#11liguanghui2588回复于2018-10

,可以把一些标点符号滤除掉,没有特定的算法

0
#10天道冲回复于2018-10
#6 lastAccomplice回复
不知道楼主对常用词以及人名数字等是否进行了过滤呢?

过滤了一些语气词和连接词,效果不好主要是有一些类似“会议”“地区”,“天气”这样的词

0
#9xianlu199回复于2018-10
#6 lastAccomplice回复
不知道楼主对常用词以及人名数字等是否进行了过滤呢?

同感,对于常用的介词也需要过滤,可以设置一个比率,去掉频率最高和最低的词,这个比率需要自己去试验。

0
#8天道冲回复于2018-10
#7 xianlu199回复
1. 去掉后面细分的词2.用细分的词替换原位置词3.用粗粒度划分,我使用结巴分词多一点
展开

好的,非常感谢

0
#7xianlu199回复于2018-10
#5 天道冲回复
没处理,怎么做?

1. 去掉后面细分的词2.用细分的词替换原位置词3.用粗粒度划分,我使用结巴分词多一点

0
#6lastAccomplice回复于2018-10

不知道楼主对常用词以及人名数字等是否进行了过滤呢?

0
#5天道冲回复于2018-10
#4 xianlu199回复
这个算法中,细分出来放在句子后面的词,楼主如何处理的?https://blog.csdn.net/xiao_jun_0820/article/details/50515350
展开

没处理,怎么做?

0
#4xianlu199回复于2018-10
#3 天道冲回复
ansj的IndexAnalysis,不太清楚内部算法

这个算法中,细分出来放在句子后面的词,楼主如何处理的?https://blog.csdn.net/xiao_jun_0820/article/details/50515350

0
#3天道冲回复于2018-10
#2 xianlu199回复
楼主是用什么算法分的词

ansj的IndexAnalysis,不太清楚内部算法

0
#2xianlu199回复于2018-10

楼主是用什么算法分的词

0
TOP
切换版块