UNIT正则表达式增加中文汉字识别功能

首页版块访问AI主站注册发帖

UNIT正则表达式增加中文汉字识别功能

陆仁贾wzl 发布于2018-01 浏览:2750 回复:2

UNIT正则表达式增加中文汉字识别功能

快速回复

在词表中配正则表达式使用方法如下：

大家可以通过在上传的词表文件中配正则表达式（需要在前面加“$$$”与正常词区分）来使用该功能，使用示例：

1、识别邮箱：如果想把邮箱识别成user_email词槽，可在user_email词槽上传的词表中加入下面两行（第一行可以识别xxx_xxx@gmail.com等，第二行可以识别xxx_xxx@sina.com.cn等）：

$$$[a-z0-9_-]{1,20}@[a-z0-9]{1,10}\.[a-z0-9]{1,10}

$$$[a-z0-9_-]{1,20}@[a-z0-9]{1,10}\.[a-z0-9]{1,10}\.[a-z0-9]{1,10}

2、识别电话号码：如果想把电话号码识别成user_phone词槽，可在user_phone词槽中加入下面两行（第一行可以识别固定电话，第二行可以识别手机号）：

$$$\d{3,4}-\d{7,8}

$$$1[34578]\d{9}

3、识别中文汉字：（本次新增功能）如果想识别“李x”、“李xx”等姓名，可用下面正则表达式：

$$$李[\u4e00-\u9fff]{1,2}

说明：

1、暂时只支持以下6种字符类："\s" "\d" "\w" "\u"(中文Unicode编码) "." "[…]"；以及3种量词："?" "{n}" "{m,n}" ，其他正则表达式符号如：* + () ^ $ 等均不支持，如果不加反斜杠进行转义训练会失败

2、正则表达式和普通词可以在一个词槽文件中，正则表达式前面需要加$$$进行区分

其他

个赞

共2条回复最后由185******84回复于2020-04

#3185******84回复于2020-04

$$$吃[\u4e00-\u9fff]{0,100}螃蟹[\u4e00-\u9fff]{0,100}

用不起啊

#2周俊316回复于2018-04

超级清晰的分享

快速回复

小编推荐

【7.18升级】自动预标注上线、词典值管理升级

TroubleMaker源 7回复

【智能对话深度实战营】首批训练师认证名单公示

魏亚非669 38回复

语音语义一体化全新升级，一次数据交互全搞定

用户已被禁言 18回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服