摘要

<正>背景信息化、数字化时代,大量姓名含生僻字的公民在金融、电信、出行等各行业办理业务经常受阻,这是“数字鸿沟”的一种表现。通过检查相关页面的HTML代码,我们发现造成这一共性问题的重要技术原因是各行业IT系统用户注册页面大量使用了一个过时的正则表达式判断用户输入姓名是否合法的汉字字符,导致GBK(《汉字内码扩展规范》)之外的合法生僻字都被错误地当作非法字符。正则表达式是早已出现且又很强大的文本处理技术手段,