词法分析

基于大数据和用户行为的分词、词性标注、命名实体识别
定位基本语言元素,消除歧义,支撑自然语言的准确理解

获取API Key 技术文档
功能介绍
百度词法分析向用户提供分词、词性标注、命名实体识别三大功能
该服务能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体
百度词法分析的算法效果大幅领先已公开的主流中文词法分析模型
中文分词
中文分词是将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列的过程
词性标注
词性标注(Part-of-Speech tagging 或POS tagging)是指为自然语言文本中的每个词汇赋予一个词性的过程
专有名词
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别自然语言文本中具有特定意义的实体,主要包括人名、地名、机构名、时间日期,等等
功能演示
换一个实例
词性识别
专业名词


技术特色
粒度更灵活
分词输出混排和基本词两种粒度,用户可以根据具体应用场景选择对应粒度;词性标注结合了字模型与词模型的优势,能够进一步优化分词粒度,从而既保证了基本词汇的原子性,又保证了大粒度词汇,对领域新词、专有名词的识别尤其有效
海量数据建模
词性标注通过互联网用户行为挖掘海量训练样本,提高了算法在复杂多变的应用场景下的效果稳定性和适配性;命名实体识别引入了百亿级的远距离监督学习与点击反馈,在上下文较少时仍能基于先验得到较好处理效果
用户定制
可根据用户需求,自主干预和定制分词效果,自由定制专名实体类目,打造个性化的分词和专名识别系统(暂未开放)

应用场景
情感分析
输入的文本内容首先进行分词处理,然后通过词性标注识别带有感情色彩的关键词、辅助情感分析算法用户评论的极性,最终得到用户对事物的观点和褒贬分类
语音助手
用于客户身份认证,直播实名认证等场景,通过分词和词性标注,分析语音命令中的关键名词、动词、数量、时间,准确理解命令的含义,提高用户体验
多轮交互式搜索
通过专名识别技术定位多轮,自动判断后续对话中对该实体的进一步信息需求
生活服务
识别查询串中的生活基础设施词汇,如导航POI、酒店、娱乐场所,判断查询意图,调起对应的生活服务类App
实体数据库构建
通过挖掘实体之间、实体与关键词之间的关联,构建实体信息(如人物、机构)数据库

立即获取免费API Key

现在试用,获取免费API Key,免费调用各项开放能力API

免费试用