开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
语言处理技术

    词法分析

    词法分析接口

    接口描述

    词法分析(通用版):向用户提供分词、词性标注、专名识别三大功能;能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体。

    词法分析(定制版):向用户提供分词、词性标注、专名识别三大功能;用户在控制台中进行个性化配置,支持自定义专有名词词表与规则,通过定制版可有效识别应用场景中的小众词汇与类别。

    定制版接口的使用教程请看链接定制版配置使用说明帖

    请求说明

    请求示例

    • HTTP方法: POST
    • (通用版)请求URL: https://aip.baidubce.com/rpc/2.0/nlp/v1/lexer
    • (定制版)请求URL: https://aip.baidubce.com/rpc/2.0/nlp/v1/lexer_custom
    • URL参数:
    参数
    access_token 通过API Key和Secret Key获取的access_token,参考“Access Token获取
    • Header如下:
    参数
    Content-Type application/json
    • body请求示例:

      {
        "text": "百度是一家高科技公司"
      }

    请求格式

    POST方式调用

    注意:要求使用JSON格式的结构体来描述一个请求的具体内容。

    body整体文本内容可以支持GBK和UTF-8两种格式的编码。

    1、GBK支持:默认按GBK进行编码,输入内容为GBK编码,输出内容为GBK编码,否则会接口报错编码错误

    2、UTF-8支持:若文本需要使用UTF-8编码,请在url参数中添加charset=UTF-8 (大小写敏感) 例如 https://aip.baidubce.com/rpc/2.0/nlp/v1/lexer?charset=UTF-8&access_token=24.f9ba9c5241b67688bb4adbed8bc91dec.2592000.1485570332.282335-8574074

    请求参数

    参数名称 类型 详细说明
    text string 待分析文本,长度不超过20000字节

    返回格式

    JSON格式

    默认返回内容为GBK编码

    若用户指定输入为UTF-8编码(通过指定charset参数),则返回内容为UTF-8编码

    返回参数

    参数名称 类型 必需 详细说明
    text string 原始单条请求文本
    items array of objects 词汇数组,每个元素对应结果中的一个词
    +item string 词汇的字符串
    +ne string 命名实体类型,命名实体识别算法使用。词性标注算法中,此项为空串
    +pos string 词性,词性标注算法使用。命名实体识别算法中,此项为空串
    +byte_offset int 在text中的字节级offset
    +byte_length int 字节级length
    +uri string 链指到知识库的URI,只对命名实体有效。对于非命名实体和链接不到知识库的命名实体,此项为空串
    +formal string 词汇的标准化表达,主要针对时间、数字单位,没有归一化表达的,此项为空串
    +basic_words array of strings 基本词成分
    +loc_details array of objects 地址成分,非必需,仅对地址型命名实体有效,没有地址成分的,此项为空数组。
    ++type string 成分类型,如省、市、区、县
    ++byte_offset int 在item中的字节级offset
    ++byte_length int 字节级length

    返回示例

    {
          "text":"百度是一家高科技公司",
          "items":[
             {
               "byte_length":4,
               "byte_offset":0,
               "formal":"",
               "item":"百度",
               "ne":"ORG",
               "pos":"",
               "uri":"",
               "loc_details":[ ],
               "basic_words":["百度"]
             },
             {
               "byte_length":2,
               "byte_offset":4,
               "formal":"",
               "item":"是",
               "ne":"",
               "pos":"v",
               "uri":"",
               "loc_details":[ ],
               "basic_words":["是"]
             },
             {
               "byte_length":4,
               "byte_offset":6,
               "formal":"",
               "item":"一家",
               "ne":"",
               "pos":"m",
               "uri":"",
               "loc_details":[ ],
               "basic_words":["一","家"]
             },
             {
               "byte_length":6,
               "byte_offset":10,
               "formal":"",
               "item":"高科技",
               "ne":"",
               "pos":"n",
               "uri":"",
               "loc_details":[ ],
               "basic_words":["高","科技"]
             },
             {
               "byte_length":4,
               "byte_offset":16,
               "formal":"",
               "item":"公司",
               "ne":"",
               "pos":"n",
               "uri":"",
               "loc_details":[ ],
               "basic_words":["公司"]
             }
          ]
    }

    词性缩略说明

    词性 含义 词性 含义 词性 含义 词性 含义
    n 普通名词 f 方位名词 s 处所名词 t 时间名词
    nr 人名 ns 地名 nt 机构团体名 nw 作品名
    nz 其他专名 v 普通动词 vd 动副词 vn 名动词
    a 形容词 ad 副形词 an 名形词 d 副词
    m 数量词 q 量词 r 代词 p 介词
    c 连词 u 助词 xc 其他虚词 w 标点符号

    专名识别缩略词含义

    缩略词 含义 缩略词 含义 缩略词 含义 缩略词 含义
    PER 人名 LOC 地名 ORG 机构名 TIME 时间
    上一篇
    注意事项
    下一篇
    词向量表示