Python 分析 AJAX 请求并抓取今日头条街拍图片

文章来源：企鹅号 - 积极乐观的人

利用多进程将抓取的数据存入 mongodb 。

github 地址 : https://github.com/xutaoa/spider

缺点：今日头条图片返回格式不一样，需要多种爬取策略才能爬取所有信息。

知识点回顾：

re 模块

re.match()

从首字母开始开始匹配，string如果包含pattern子串，则匹配成功，返回Match对象，失败则返回None，若要完全匹配，pattern要以$结尾。

re.search()

若string中包含pattern子串，则返回Match对象，否则返回None，注意，如果string中存在多个pattern子串，只返回第一个。

re.findall()

返回string中所有与pattern相匹配的全部字串，返回形式为数组。

re.finditer()

返回string中所有与pattern相匹配的全部字串，返回形式为迭代器。

若匹配成功，match()/search()返回的是Match对象，finditer()返回的也是Match对象的迭代器，获取匹配结果需要调用Match对象的group()、groups或group(index)方法。

group()：母串中与模式pattern匹配的子串；

group(0)：结果与group()一样；

groups()：所有group组成的一个元组，group(1)是与patttern中第一个group匹配成功的子串，group(2)是第二个，依次类推，如果index超了边界，抛出IndexError；

findall()：返回的就是所有groups的数组，就是group组成的元组的数组，母串中的这一撮组成一个元组，那一措组成一个元组，这些元组共同构成一个list，就是findall()的返回结果。另，如果groups是只有一个元素的元组，findall的返回结果是子串的list，而不是元组的list了。

发表于: 2017-12-192017-12-19 17:02:45
原文链接：http://kuaibao.qq.com/s/20171219G0IXH700?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Python 分析 AJAX 请求并抓取今日头条街拍图片

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐