聊聊正则表达式

在写爬虫代码，文字匹配等类型的代码时，我们往往会看到一串奇怪的符号，让人难以理解，如：

# 解析jpg图片url的正则
    jpgReg = re.compile(r'<img.+?src="(.+?\.jpg)" width')  
# 注：这里最后加一个'width'是为了提高匹配精确度

如爬虫代码中这一串r'<img.+?src="(.+?\.jpg)" width'，让人有一种摸不着头脑的感觉，这就是一种正则表达式，他的核心就是在一些规律的字符中搜索出（找到）想应的匹配字符串，其属于一种过滤算法。

如下，就是百度百科的定义：

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

正则表达式在代码中非常常用，如爬虫中的特定文件（内容）抓取，LINUX中的grep，POWERSHELL的 ‘ select ’ 方法……都有应用，他的核心逻辑改改如何设计，本文将和各位聊一下正则表达式的实现

Post Views: 1,536

相关文章