首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python登录豆瓣影评

    一、需求背景 之前猪哥带大家爬取了优酷的弹幕生成词云图片,发现优酷弹幕的质量并不高,有很多介词和一些无效词,比如:哈哈、啊啊、这些、那些。。。...三、技术方案 我们看下简单的技术方案,大致可以分为三部分: 分析豆瓣的登录接口并用requests库实现登录保存cookie 分析豆瓣影评接口实现批量抓取数据 使用词云做影评数据分析 方案确定之后我们就开始实际操作吧...由上图我们可以看到,对于http客户端python官方文档也推荐我们使用requests库,实际工作中requests库也是使用的比较多的库。...4.批量爬 我们爬、提取、保存完一条数据之后,我们来批量爬一下。...from=singlemessage&isappinstalled=0 当然也可以加入到猪哥的Python新手交流群中和大家一起学习,遇到问题也可以在群里提问!

    1.6K20

    Python求列表的差、交集与

    公众号新增加了一个栏目,就是每天给大家解答一道Python常见的面试题,反正每天不贪多,一天一题,正好合适,只希望这个面试栏目,给那些正在准备面试的同学,提供一点点帮助!...废话不多说,开始今天的题目: 问:简单Python求列表的差、交集与? 答:先来说说这三者的定义,读过初中数学的应该都知道吧 。...差:A,B是两个集合,所有属于A且不属于B的元素构成的集合, 就是差。 ? 交集:A,B是两个集合,既属于A又属于B的元素构成的集合, 就是交集。 ?...:A,B是两个集合,把他们所有的元素合并在一起组成的集合,就是。 ? 说完了定义,接下来说下Python怎么求两个列表中的差、交集与的方法 。...[1,2,3] list2 = [3,4,5] temp = list(set(list1).intersection(set(list2))) print(temp) #[3] 求两个list

    1.5K30

    使用Python下载腾讯动漫

    开发环境 操作系统:windows 10 Python版本 :3.6 爬网页模块:selenium,PhantomJS 分析网页模块:BeautifulSoup4 关于Selenium selenium...自动测试的工具,可以用来操作一些浏览器Driver,例如Chrome,Firefox等,也可以使用一些headless的driver,例如PhantomJS 具体请参加官网: http://selenium-python.readthedocs.io...这里我们通过bs4 来提取出所有img地址 之后通过Python将其保存成图片 程序原理 ?...新建目录下载图片 这里首先判断是否有该漫画的目录,如果没有则新建,之后下载图片,图片的名称为列表的索引号 ? 执行结果 ? ?...注意事项: 建议先用Chrome测试OK,再改用PhantomJS执行 Chrome和PhantomJS在实际向下翻页时有差异,需测试后调节循环次数 为防止被ban,每次爬采用了随机延迟的方法 只能爬免费的内容

    85910

    Python小说写入word文档

    进入首页,选择我们要爬的书籍,点进去,刷新页面,确定书籍的url。...这里我们可以确定本网站每本书的url是固定的; 小说概览页 小说详情页,主要是两个部分,一部分是上面的书名、作者、类别等详情信息,另外一部分就是下面的章节信息了; 进一步确认,章节信息全部加载渲染...pip install lxml pip install docx # docx包的运行需要依赖python-docx,所以也要安装 pip install python-docx 章节与url获取...请求数据 请求网页数据就比较简单,python有很多相关的包,这里就使用requests包就行;另外这种小网站,正常是没有发爬虫机制的,但是为了严谨一点,还是设置一下请求头数据。...") break 小说内容获取 上面获取到了每个章节的url和标题; 接下来就直接拼接url获取数据即可; 方法和获取章节信息是相同的,利用requests包请求以及xpath解析即可

    78510
    领券