核心诉求
房天下楼盘点评覆盖全国658个城市的6.5万个新房楼盘,购房者互动的日均点评量超过50万,面对海量的内容数据,以往需要投入更多的人力审核识别出优质的真实内容,一般每个城市至少需要一个人维护,如何借助技术手段更高效地完成内容审核,是房天下的重要诉求。另外,房天下一直致力于楼盘点评的内容分析,但是此前的分析均基于运营人工拆分的关键词,关键词数量少、描述单一且无法动态更新,仅能满足点评内容的基础分类。
解决方案
关于楼盘点评的内容审核,房天下在技术审核模式上全力推进,前期主要包括:自动排重,有效防范雷同内容的产生;关键词过滤,带有违规词的内容自动过滤删除;OCR图片过滤,违规图片自动过滤删除;在此基础上,房天下引入百度自然语言情感倾向分析技术,实现了对优质内容的自动识别加精,在自动加精分类时,可以按情感极性的分类进行区别处理。
引入百度自然语言处理技术后,房天下为每个楼盘形成了一套点评标签,实现了标签词因盘而异、动态更新,向购房者和开发商直观展示楼盘的用户口碑。
点评标签的建立:使用百度评论观点抽取技术,按楼盘对每条点评数据进行 “短标签”和“长标签”的提取,将提取到的点评标签通过短文本相似度技术进行聚类归并,期间也会进行情感倾向分析,获取点评的情感极性,最终按照权重在前端页面展示标签关键词。