用Python写网络爬虫 (理查德 劳森) 中文pdf完整版[10MB]
findall 函数:
在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。
注意: match 和 search 是匹配一次 findall 匹配所有,match 和 search 的区别也很大,可以自行网上查找!
这里主要需要讨论的是其返回值的展现方式,即findall函数根据正则表达式的不同所返回的结果包含的不同信息!
主要包含三种情况:
1. 当给出的正则表达式中带有多个括号时,列表的元素为多个字符串组成的tuple,tuple中字符串个数与括号对数相同,字符串内容与每个括号内的正则表达式相对应,并且排放顺序是按括号出现的顺序。
# 例子,正则表达式里分了两个组 import re test = '2018年的下半年,9月份, 27日' pattern = re.compile(r'(\d)+(年|月|日)') res = pattern.findall(test) print(res) # 输出结果: [('8', '年'), ('9', '月'), ('7', '日')]
2. 当给出的正则表达式中带有一个括号时,列表的元素为字符串,此字符串的内容与括号中的正则表达式相对应(不是整个正则表达式的匹配内容)。
# 例子,正则表达式里有一个分组 import re test = '2018年的下半年,9月份, 27日' pattern = re.compile(r'\d+(年|月|日)') res = pattern.findall(test) print(res) # 输出结果: ['年', '月', '日']
3. 当给出的正则表达式中不带括号时,列表的元素为字符串,此字符串为整个正则表达式匹配的内容。
# 例子,正则表达式里没有分组 import re test = '2018年的下半年,9月份, 27日' pattern = re.compile(r'\d{4}年|\d{1}月|\d{2}日') res = pattern.findall(test) print(res) # 输出结果: ['2018年', '9月', '27日']
4. 同样是前面的 test 数据,要匹配出和3中同样的结果,可以这样写。
# 例子,输出和3中同样的结果 import re test = '2018年的下半年,9月份, 27日' pattern = re.compile(r'\d{1,4}(?:年|月|日)') res = pattern.findall(test) print(res) # 输出结果: ['2018年', '9月', '27日']
此例子中的 (?:年|月|日) 不表示一个分组
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持谷谷点程序。