我有几千篇文章,需要从中提取关键字30个,用什么算法比较好?我试了试tf-idf,也许是我分词的问题,得到的结果不太好,而且多数都是2个字的关键词。
用的是ansj,没用词库。谢谢啦,有空的时候找个词库试试看。
我记得GITHUB上有一个专门的中文词库,你搜一下应该能找到
词库,老哥有资料推荐吗?
如果是专业的文章,你没用相应的词库,肯定切词就不会太准
分词的效果和你用的词库关系也挺大的
你用什么分的词,jieba?
关键字也分领域吧
,可以把一些标点符号滤除掉,没有特定的算法
过滤了一些语气词和连接词,效果不好主要是有一些类似“会议”“地区”,“天气”这样的词
同感,对于常用的介词也需要过滤,可以设置一个比率,去掉频率最高和最低的词,这个比率需要自己去试验。
好的,非常感谢
1. 去掉后面细分的词2.用细分的词替换原位置词3.用粗粒度划分,我使用结巴分词多一点
不知道楼主对常用词以及人名数字等是否进行了过滤呢?
没处理,怎么做?
这个算法中,细分出来放在句子后面的词,楼主如何处理的?https://blog.csdn.net/xiao_jun_0820/article/details/50515350
ansj的IndexAnalysis,不太清楚内部算法
楼主是用什么算法分的词
用的是ansj,没用词库。谢谢啦,有空的时候找个词库试试看。
我记得GITHUB上有一个专门的中文词库,你搜一下应该能找到
词库,老哥有资料推荐吗?
如果是专业的文章,你没用相应的词库,肯定切词就不会太准
分词的效果和你用的词库关系也挺大的
你用什么分的词,jieba?
关键字也分领域吧
,可以把一些标点符号滤除掉,没有特定的算法
过滤了一些语气词和连接词,效果不好主要是有一些类似“会议”“地区”,“天气”这样的词
同感,对于常用的介词也需要过滤,可以设置一个比率,去掉频率最高和最低的词,这个比率需要自己去试验。
好的,非常感谢
1. 去掉后面细分的词2.用细分的词替换原位置词3.用粗粒度划分,我使用结巴分词多一点
不知道楼主对常用词以及人名数字等是否进行了过滤呢?
没处理,怎么做?
这个算法中,细分出来放在句子后面的词,楼主如何处理的?https://blog.csdn.net/xiao_jun_0820/article/details/50515350
ansj的IndexAnalysis,不太清楚内部算法
楼主是用什么算法分的词