适用场景
更新时间:2022-07-05
简介
文本分类是经典的NLP问题之一,简单来说,它是一种将文本对象(文档或句子)分类到一个固定类别的技术。它的输入是一段文本,输出是这段文本所属的类别,通过对所属类别的数量来划分,常见的分类任务可以被分为常单分类、多分类、层次化分类。
- 单标签分类:一段文本属于一堆类别中某一个特定的类别,这些类别之间是互斥的。最常见的例子就是判断一段文本的情感倾向,例如:“acer的品质、服务都很不错,而且本品很超值。样子也算漂亮,基本性能只要不玩大游戏全能应付“ ,这段文本就属于积极倾向的类别,它只能是积极、消极、中立这几个类别中的一个。
- 多标签分类:一段文本可以同时属于多个类别,这些类别之间相互独立但不互斥。例如常见的新闻标题分类,”中美元首就经济问题通电话“,这段新闻标题可以同时属于时政、财经、名人等多个类别。
- 层次化分类:和多分类类似,一段文本可以同时属于多个类别,不同之处在于这多个类别之间是有层级关系的。例如”本台记者前方发回报道:专家预测未来一年,6家公司拟现金分红比例超50% “,这段新闻内容,按频道类别(如财经、体育、科研、时政)、主题(如财经下可分为A股、港股、美股、基金等)、标签类别(如基金下的博时基金、基金分红等)进行判断,它是属于财经-基金-基金分红这几个类别,而这三个类别是有层级关系的。
适用场景
常见场景有垃圾邮件识别,文本审核、新闻主题分类,情感分析,以及搜索引擎的页面组织。当应用场景中的数据量非常大时,文本分类对数据的组织、信息过滤,以及数据存储等方面都能起到非常大的作用。
案例
常见场景有垃圾邮件识别,文本审核、新闻主题分类,情感分析,以及搜索引擎的页面组织。当应用场景中的数据量非常大时,文本分类对数据的组织、信息过滤,以及数据存储等方面都能起到非常大的作用。