在写爬虫代码,文字匹配等类型的代码时,我们往往会看到一串奇怪的符号,让人难以理解,如:
# 解析jpg图片url的正则
jpgReg = re.compile(r'<img.+?src="(.+?\.jpg)" width')
# 注:这里最后加一个'width'是为了提高匹配精确度
如爬虫代码中这一串r'<img.+?src="(.+?\.jpg)" width'
,让人有一种摸不着头脑的感觉,这就是一种正则表达式,他的核心就是在一些规律的字符中搜索出(找到)想应的匹配字符串,其属于一种过滤算法。
(更多…)