资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

文本纠错-高级版

接口描述

纠错是搜索引擎、语音识别、内容审查等功能更好运行的基础模块之一。文本纠错-高级版,能够识别输入文本中有错误的片段,提示错误并给出正确的文本结果。支持字词、标点、语法、专名、地址纠错。

  • 字词纠错包含音近字、形近字、成语、古诗等内容的纠错;
  • 标点纠错包含中英文标点混用、成对标点符号缺失、标点冗余等内容的纠错;
  • 语法纠错包含常见的语法冗余和缺失内容的纠错;
  • 专名纠错包含专有名词、固定短语等内容的纠错;
  • 地址纠错包含地址别字、地址搭配、地址缺失纠错;

在线调试

您可以在示例代码中心中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

请求说明

请求示例

HTTP方法: POST

请求URL: https://aip.baidubce.com/rpc/2.0/nlp/v2/text_correction

URL参数:

参数
access_token 通过API Key和Secret Key获取的access_token,参考“Access Token获取
charset UTF-8

Header如下:

参数
Content-Type application/json

Body请求示例:

{
      "text": "实现祖国完全统一,是全体中华儿女共同愿望,解决台湾问题,是中华民族根本利益所在。推动两岸关系和平发展,必须继续坚持“和平统一、一郭两制”方针,退进祖国和平统一。"
}

请求格式

POST方式调用

注意:要求使用JSON格式的结构体来描述一个请求的具体内容。

body整体文本内容支持UTF-8格式的编码。

UTF-8支持:若文本需要使用UTF-8编码,请在url参数中添加charset=UTF-8 (大小写敏感)

请求参数

参数 类型 描述 是否必填
text string 待纠错文本,字数上限为3000字节(汉字=3字节) 必填

返回格式

JSON格式

若输入为UTF-8编码(通过指定charset参数),则返回内容为UTF-8编码

返回参数

参数 说明 描述
log_id uint64 请求唯一标识码
text string 纠错前的文本
+correct_query string 纠错后的文本
content_len int content的长度
details list 纠错信息列表
sentence_id int 子句id(子句为最细标点符号切割粒度)
sentence string 原始子句文本
sentence_fixed string 纠正后的子句文本
+score double 模型置信度打分。备注:若score返回为数字7,表示输入不合法,比如输入过长或过短。该情况没有纠错结果。
item object 分析结果
+vec_fragment list 替换候选片段信息
++ori_frag string 原片段
++correct_frag string 替换片段
++begin_pos int 片段起始
++end_pos int 片段结尾
++explain string 纠错释义
explain_long string 详细的释义信息,说明常用字/词纠错的具体原因
explain_structure string 涉政相关的结构化释义信息
++operation int 建议操作类型,0:检查,1:交换,2:替换,3:插入,4:删除
++label string 错误类型。010100:别字,010200:别词, 010600:诗词错误, 020100:标点误用,020200:标点缺失,020300:标点冗余,030100:语法错误-冗余,030200:语法错误-缺失,030300:语法错误-乱序, 030400:语法错误-语句不通, 040101:人名专名错误,040102:职务专名错误,040200:专名搭配错误,040300:专名排序错误,040400:术语错误,060100:地址别字,060200:地址搭配错误,060300:地址缺失错误
error_num int 纠错片段数量
begin_sentence_offset int 子句在content中的起始位置(长度单位)
end_sentence_offset int 子句在content中的结尾位置(长度单位)
begin_psent_cont_offset int 子句所属句子在content中的起始位置(长度单位)
end_psent_cont_offset int 子句所属句子在content中的结尾位置(长度单位)

返回示例

{
    "item": {
        "text": "实现祖国完全统一,是全体中华儿女共同愿望,解决台湾问题,是中华民族根本利益所在。推动两岸关系和平发展,必须继续坚持“和平统一、一郭两制”方针,退进祖国和平统一。",
        "error_num": 2,
        "correct_query": "实现祖国完全统一,是全体中华儿女共同愿望,解决台湾问题,是中华民族根本利益所在。推动两岸关系和平发展,必须继续坚持“和平统一、一国两制”方针,推进祖国和平统一。",
        "content_len": 80,
        "details": [
            {
                "sentence_fixed": "必须继续坚持“和平统一、一国两制”方针,",
                "begin_sentence_offset": 51,
                "vec_fragment": [
                    {
                        "explain_long": "",
                        "operation": 2,
                        "explain": "建议用“一国两制”替换“一郭两制”",
                        "label": "040400",
                        "score": 1.0,
                        "begin_pos": 63,
                        "end_pos": 67,
                        "ori_frag": "一郭两制",
                        "correct_frag": "一国两制",
                        "explain_structure": "{\"时间\":\"\",\"事件\":\"\",\"含义\":\"\",\"详细内容\":\"“一国两制”的基本内容是:在一个中国的前提下,国家的主体坚持社会主义制度;香港、澳门、台湾是中华人民共和国不可分离的部分,它们作为特别行政区保持原有的资本主义制度长期不变。在国际上代表中国的,只能是中华人民共和国。“一国两制”是中国的一个伟大创举,是中华民族为世界和平与发展作出的新贡献。习近平在庆祝澳门回归祖国15周年大会暨澳门特别行政区第四届政府就职典礼、庆祝香港回归祖国20周年大会暨香港特别行政区第五届政府就职典礼等重要场合,对深入推进“一国两制”实践作出了重要综述。继续推进“一国两制”事业,是中央政府、特别行政区政府和包括港澳同胞在内的全国各族人民的共同使命。中央贯彻“一国两制”方针坚持两点,一是坚定不移,不会变、不动摇;二是全面准确,确保“一国两制”在港澳的实践不走样、不变形,始终沿着正确方向前进。事实证明,“一国两制”在港澳的实践已经取得了举世公认的成功。当然,作为一项前无古人的开创性事业,“一国两制”的实践不会一帆风顺,需要在实践中不断探索。\",\"类别\":\"政治\"}"
                    }
                ],
                "sentence": "必须继续坚持“和平统一、一郭两制”方针,",
                "sentence_id": 5,
                "end_psent_cont_offset": 80,
                "end_sentence_offset": 71,
                "begin_psent_cont_offset": 40
            },
            {
                "sentence_fixed": "推进祖国和平统一。",
                "begin_sentence_offset": 71,
                "vec_fragment": [
                    {
                        "explain_long": "",
                        "operation": 2,
                        "explain": "建议用“推进”替换“退进”",
                        "label": "010200",
                        "score": 0.7009568214416504,
                        "begin_pos": 71,
                        "end_pos": 73,
                        "ori_frag": "退进",
                        "correct_frag": "推进",
                        "explain_structure": ""
                    }
                ],
                "sentence": "退进祖国和平统一。",
                "sentence_id": 6,
                "end_psent_cont_offset": 80,
                "end_sentence_offset": 80,
                "begin_psent_cont_offset": 40
            }
        ]
    },
    "log_id": 1607933485727930154
}
上一篇
文本纠错
下一篇
关键词提取