聊聊正则表达式

在写爬虫代码,文字匹配等类型的代码时,我们往往会看到一串奇怪的符号,让人难以理解,如:

# 解析jpg图片url的正则
    jpgReg = re.compile(r'<img.+?src="(.+?\.jpg)" width')  
# 注:这里最后加一个'width'是为了提高匹配精确度

如爬虫代码中这一串r'<img.+?src="(.+?\.jpg)" width',让人有一种摸不着头脑的感觉,这就是一种正则表达式,他的核心就是在一些规律的字符中搜索出(找到)想应的匹配字符串,其属于一种过滤算法

(更多…)