开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
语言处理技术

    词向量表示

    词向量表示接口

    接口描述

    本接口已于2017年5月25日升级,仅支持词向量查询。如果希望查询两个词的相似度,可使用词义相似度

    如果您需要查阅旧版接口文档,请查看中文词向量表示接口(旧版),但建议您尽快升级到新版接口。

    词向量表示接口提供中文词汇的词向量查询功能,实现文本的可计算。

    请求说明

    请求示例

    HTTP方法: POST

    请求URL: https://aip.baidubce.com/rpc/2.0/nlp/v2/word_emb_vec

    URL参数:

    参数
    access_token 通过API Key和Secret Key获取的access_token,参考“Access Token获取

    Header如下:

    参数
    Content-Type application/json

    Body请求示例:

    {
        "word":"张飞"
    }

    请求格式

    POST方式调用

    注意:要求使用JSON格式的结构体来描述一个请求的具体内容。

    body整体文本内容可以支持GBK和UTF-8两种格式的编码。

    1、GBK支持:默认按GBK进行编码,输入内容为GBK编码,输出内容为GBK编码,否则会接口报错编码错误

    2、UTF-8支持:若文本需要使用UTF-8编码,请在url参数中添加charset=UTF-8 (大小写敏感) 例如 https://aip.baidubce.com/rpc/2.0/nlp/v1/lexer?charset=UTF-8&access_token=24.f9ba9c5241b67688bb4adbed8bc91dec.2592000.1485570332.282335-8574074

    请求参数

    参数 是否必选 类型 描述
    word string 文本内容,最大64字节
    dem int 词向量维度。默认值为0(对应1024维),目前仅支持dem=0

    返回格式

    JSON格式

    默认返回内容为GBK编码

    若用户指定输入为UTF-8编码(通过指定charset参数),则返回内容为UTF-8编码

    返回参数

    参数 类型 描述
    log_id uint64 请求唯一标识码
    word string 查询词
    vec float 词向量结果表示

    返回示例

    {
      "word": "张飞",
      "vec": [
        0.233962,
        0.336867,
        0.187044,
        0.565261,
        0.191568,
        0.450725,
        ...
        0.43869,
        -0.448038,
        0.283711,
        -0.233656,
        0.555556
      ]
    }
    上一篇
    词法分析
    下一篇
    词义相似度