UNIT正则表达式增加中文汉字识别功能
陆仁贾wzl 发布于2018-01-31 浏览:1437 回复:2
0
收藏

在词表中配正则表达式使用方法如下:

大家可以通过在上传的词表文件中配正则表达式(需要在前面加“$$$”与正常词区分)来使用该功能,使用示例:

1、识别邮箱:如果想把邮箱识别成user_email词槽,可在user_email词槽上传的词表中加入下面两行(第一行可以识别xxx_xxx@gmail.com等,第二行可以识别xxx_xxx@sina.com.cn等):

$$$[a-z0-9_-]{1,20}@[a-z0-9]{1,10}\.[a-z0-9]{1,10}

$$$[a-z0-9_-]{1,20}@[a-z0-9]{1,10}\.[a-z0-9]{1,10}\.[a-z0-9]{1,10}

2、识别电话号码:如果想把电话号码识别成user_phone词槽,可在user_phone词槽中加入下面两行(第一行可以识别固定电话,第二行可以识别手机号):

$$$\d{3,4}-\d{7,8}

$$$1[34578]\d{9}

3、识别中文汉字:(本次新增功能)如果想识别“李x”、“李xx”等姓名,可用下面正则表达式:

$$$李[\u4e00-\u9fff]{1,2}

 

说明:

1、暂时只支持以下6种字符类:"\s" "\d" "\w" "\u"(中文Unicode编码) "." "[…]";以及3种量词:"?" "{n}" "{m,n}" ,其他正则表达式符号如:* + () ^ $ 等均不支持, 如果不加反斜杠进行转义训练会失败

2、正则表达式和普通词可以在一个词槽文件中,正则表达式前面需要加$$$进行区分

收藏
点赞
0
个赞
共2条回复 最后由185******84回复于2020-04-30
#3185******84回复于2020-04-30

$$$吃[\u4e00-\u9fff]{0,100}螃蟹[\u4e00-\u9fff]{0,100}

 

用不起啊

0
#2周俊316回复于2018-04-28

超级清晰的分享

1
TOP
切换版块