首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python 豆瓣上的图片

0 前言 最近在极客时间上学习数据分析的内容,刚好老师在课程上讲了爬虫的内容,而且是豆瓣上的图片,把老师给的代码稍微修改了一下,再加上了我的理解和说明。...json、re 和 os 是不用辛苦安装;requests 可以直接 pip install requests 安装。要是不知道该怎么安装,那还是 Pycharm 安装吧。...2 实现 代码不算多,为了能解释清楚,所以是按顺序分开来,的时候按顺序复制就好。...先导入要用的库 import json import re import os import requests query 是查询,在代码里的意思是想要取的人的名字,随意修改。...https://img3.doubanio.com/view/photo/thumb/public/p611792033.jpg 这里实现替换可以两种方法,一种是直接 replace,一种是 re

1.6K40

Python 豆瓣电影海报

伪君子 读完需要 9 分钟 速读仅需 4 分钟 0 前言 之前写过一篇 Python 豆瓣上的图片,那今天就来写一下豆瓣上的电影海报,算是姐妹篇。...requests 可以直接 pip install requests 安装,lxml、selenium 也一样,要是不知道该怎么安装,那还是 PyCharm 安装吧。 ?...2 代码 代码不算多,为了能解释清楚,所以也是按顺序分开来,的时候按顺序复制就好。...import os import requests from lxml import etree from selenium import webdriver query 是查询,在代码里的意思是想要取的人的名字...search_text=' + query + '&cat=1002' + '&start=' + str(i) 先去豆瓣电影那搜索一下王祖贤,把每一页的链接都看一遍。

1.4K40
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    豆瓣电影信息

    昨天写了一个小爬虫,取了豆瓣上2017年中国大陆的电影信息,网址为豆瓣选影视,取了电影的名称、导演、编剧、主演、类型、上映时间、片长、评分和链接,并保存到MongoDB中。...一开始的本机的IP地址,没用代理IP,请求了十几个网页之后就收不到数据了,报HTTP错误302,然后用浏览器打开网页试了一下,发现浏览器也是302。。。 ? 但是我不怕,我有代理IP,哈哈哈!...详见我前一篇随笔:取代理IP。...使用代理IP之后果然可以持续收到数据了,但中间还是有302错误,没事,另一个代理IP请求重新请求一次就好了,一次不行再来一次,再来一次不行那就再再来一次,再再不行,那。。。 ?

    1.2K20

    23行代码豆瓣音乐top250

    豆瓣对于爬虫十分友好,而且豆瓣上面又有各种电影图书音乐等资源,是我们学习爬虫一个很不错的锻炼目标。基本上每个学习爬虫的人都会拿豆瓣来练练手。...网上有各种豆瓣电影top250的教程,虽然豆瓣音乐top250和豆瓣电影top250的取十分类似,但是我大致对比了一下,我这种方法应该是最简单的,仅需要23行代码。...抓取目标:豆瓣音乐top250的歌名、作者(专辑)、评分和歌曲链接 使用工具:requests + lxml + xpath。...取结果如下: ? 本来我想存为CSV文件的,结果发现有的歌曲有多个歌手,而且几个歌手之间是逗号(,)分开的,这就和CSV中的逗号产生了混淆,导致结果比较错乱。...当然,同样的取思路,我们还可以豆瓣电影top250、豆瓣图书top250。只需要将url和xpath路径修改一下就可以了。 每天学习一点点,每天进步一点点。

    1.3K50

    教你python登陆豆瓣取影评

    这是我的第二篇原创文章 在上篇文章豆瓣电影top250后,想想既然了电影,干脆就连影评也了,这样可以看看人们评价的电影,再加上刚出不久的移动迷官3好像挺热的,干脆就他吧,完看看好不好看!...鼠标所点的就是我接下来要的网站,先看看他的response和请求头之类的信息,他的请求方式时get,response是一个网页结构,这就好办了,我们就可以正则来匹配出所要的数据,正则还是个很好用的东西...2.re+requests获取数据 获取信息 ?...3.模拟登陆豆瓣 首先需要看看登陆需要什么参数,这个参数是在豆瓣的登陆网址,先打开登陆,打开开发者工具(要不会看不到后面这个所需要的网页),填好信息点击登陆,然后点击这个login网页,往下拉就会看到From...大功告成,由于只能获取500条这是因为豆瓣只开放了500条评论信息,多一条都不肯给 4.登陆多了需要填验证码 由于我多次登陆注销,然后我就需要填验证码了,然而这还是难不到我,还是分析网页找出验证码图片然后下载下来自己填写

    780100

    豆瓣书单100本

    听首歌开心一下 唉,今天本来是在学习取梨视频的,但是网页又发生了变化,和老师讲的操作又不一样...而且还变难了...我找了很多资料也实在是不会,只好学习一下取电影试试。...但是这个取电影我还没学习,现在去学习一下。...好家伙,经过我的一番努力后,我发现豆瓣电影的页面是Ajax请求的页面,Ajax请求就是可以在不刷新界面的情况下加载页面的技术,比如说我们平时在网页浏览东西,一直往下滑他能够一直加载,的就是Ajax请求...所以我取不到页面的信息(对不起是我不会)。。。 所以临时降低难度哈哈哈哈,改成豆瓣书单前100,但是后面还有怎么将他写入CSV格式的问题,我需要一边做一边学,加油嗯!...: 所以我们可以分析出,我们在翻页时,只有start的参数在发生变化,表示的是从第几本开始的书,第一页从0开始,第二页从第25本书开始(也就是说一面有25本书)...后面也以此类推,因此我们可以param

    38210

    scrapy豆瓣电影教程

    由于这个评分是动态更新的,所以我们不是一次就完事了,要按照一定的时间间隔去取更新 ? 2. 这个电影的观众评论内容,评论观众的昵称,ID,评论日期,该评论的“有用”数 ?...需求不多,我们先来看一下该怎么 熟悉scrapy scrapy的架构如下: ? 工欲善其事,必先利其器。...,留着不用改 创建完项目框架之后,我们来开始数据 豆瓣网址链接分析 我们以4月初上映的高分电影《头号玩家》为例, ?..., like Gecko) Version/3.1.2 Mobile Safari/525.20.1", ] 每次随机选一个加在request的头部就好了 第二步,加上cookie模拟登录 比如在豆瓣...在云服务器上定时运行 好了,做到这里你其实已经完成了一个可以的爬虫,但是我们之前说,因为影评是动态更新的,每次取的数据只代表直到目前的数据,如果要获取最新的数据,当然是要定时取,使用crontab

    3K31

    豆瓣电影分类排名

    豆瓣电影分类排名取: 今天晚上复习了一下python学习之百度翻译页面取 复习成果已经写在上一个博客了 这接下来就是requests模块学习之豆瓣电影分类排名进行数据取...我本来以为这个学会之后就可以对豆瓣呀,网易云上面的歌曲进行取了 开始学习之后标题给我整了一个豆瓣电影分类排名取 但是还是太年轻了,原来事情没有那么简单 下面就是一边听课一边编写的代码...params={ # 'kw':kw #}#在get函数中可以时制定kw关键字 #headers={ # 'User-Agent':''#对应ua检测的一个反反策略...#} #response=requests.get(url=url,kwargs=kwargs,) #接下来就是requests模块练习之豆瓣电影分类排行 #import...'type': '24', 'interval_id':'100:90', 'action':'' , 'start': '1',#从豆瓣库中的第几部电影去取

    62520

    豆瓣读书的详细步骤

    最近一个让我帮他豆瓣图书的一些数据,恰好已经好久没有数据了,今天就重温下爬虫过程并分享出来大家参考讨论下,文中我把取的过程按照顺序写下来,主要是留个痕迹。...在文中我会把取数据所需的所有代码也示例出来,如果你懒得自己敲的话,可以直接复制步骤一:添加header信息。设置header信息,模拟成浏览器或者app欺骗反系统,避免418。...步骤二:获取网页信息且解析网页,我取的是网页是:https://book.douban.com/步骤三:分析网页的反机制,经常搞爬虫的都知道豆瓣的反比较严,这里我主要分析了网站的随机ua,cookie...port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 设置 http和https访问都是HTTP

    80300
    领券