常用正则表达式系列文章主要整理在开发过程中经常使用到的正则表达,本文主要讲解邮箱(Email)的正则表达式。
邮箱格式并没有统一的格式,但是都遵循“名称@域名”的规律。对于名称和域名的字符限制,我们可以根据项目的情况定义一个,比如只允许有英文、数字、下划线等组成。当然现在使用中文命名的邮箱也合法了,比如“博客@吉文川.中国”。
下面举例实现一些验证邮箱格式的正则表达式。
实例一、只允许英文字母、数字、下划线、英文句号、以及中划线组成。
举例:my-001@jiwenchuan.cn
分析邮件名称部分:
26个大小写英文字母表示为a-zA-Z
数字表示为0-9
下划线表示为_
中划线表示为-
由于名称是由若干个字母、数字、下划线和中划线组成,所以需要用到+表示多次出现
根据以上条件得出邮件名称表达式:[a-zA-Z0-9_-]+
分析域名部分:
一般域名的规律为“[N级域名][三级域名.]二级域名.顶级域名”,比如“qq.com”、“www.qq.com”、“mp.weixin.qq.com”、“12-34.com.cn”,分析可得域名类似“** .** .** .**”组成。
“**”部分可以表示为[a-zA-Z0-9_-]+
“.**”部分可以表示为\.[a-zA-Z0-9_-]+
多个“.**”可以表示为(\.[a-zA-Z0-9_-]+)+
综上所述,域名部分可以表示为[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+
最终表达式:
由于邮箱的基本格式为“名称@域名”,需要使用“^”匹配邮箱的开始部分,用“$”匹配邮箱结束部分以保证邮箱前后不能有其他字符,所以最终邮箱的正则表达式为:
^[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$
实例二、名称允许汉字、字母、数字,域名只允许英文域名
举例:博客No001@jiwenchuan.cn
分析邮件名称部分:
汉字在正则表示为[\u4e00-\u9fa5]
字母和数字表示为A-Za-z0-9
通过分析得出邮件名称部分表达式为[A-Za-z0-9\u4e00-\u9fa5]+
分析邮件域名部分:
邮件域名部分可以参考实例一中的分析域名部分,得出域名部分的表达式为[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+
最终表达式:
我们用@符号将邮箱的名称和域名拼接起来,因此完整的邮箱表达式为
^[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$
实例三、名称允许汉字、字母、数字,域名允许英文域名、中文域名
举例:博客No001@吉文川.中国
分析邮件名称部分:
邮件名称部分可以参考实例二中的分析邮件名称部分,得出邮件名称部分的表达式为[A-Za-z0-9\u4e00-\u9fa5]+
分析邮件域名部分:
汉字在正则表示为[\u4e00-\u9fa5]
参考实例一中的分析邮件域名部分,增加汉字正则支持,得出域名部分的表达式为[a-zA-Z0-9_-\u4e00-\u9fa5]+(\.[a-zA-Z0-9_-\u4e00-\u9fa5]+)+
最终表达式:
我们用@符号将邮箱的名称和域名拼接起来,因此完整的邮箱表达式为
[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-\u4e00-\u9fa5]+(\.[a-zA-Z0-9_-\u4e00-\u9fa5]+)+