在写爬虫代码,文字匹配等类型的代码时,我们往往会看到一串奇怪的符号,让人难以理解,如:
# 解析jpg图片url的正则
jpgReg = re.compile(r'<img.+?src="(.+?\.jpg)" width')
# 注:这里最后加一个'width'是为了提高匹配精确度
如爬虫代码中这一串r'<img.+?src="(.+?\.jpg)" width'
,让人有一种摸不着头脑的感觉,这就是一种正则表达式,他的核心就是在一些规律的字符中搜索出(找到)想应的匹配字符串,其属于一种过滤算法。
如下,就是百度百科的定义:
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
正则表达式在代码中非常常用,如爬虫中的特定文件(内容)抓取,LINUX中的grep,POWERSHELL的 ‘ select ’ 方法……都有应用,他的核心逻辑改改如何设计,本文将和各位聊一下正则表达式的实现
0 条评论