首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python模拟新浪登陆功能(新浪爬虫)

首先我们查看登陆页面源码 ?...由于要用的一部分数据用API获取不方便, 所以还是要自己写个小爬虫, 模拟登录是必不可少的。琢磨了一下这个东西,最终登录成功。...接下来再请求这个URL,这样就成功登录到了。 记得要提前build 缓存。 下面是完整代码(没加注释,凑合看吧): #!...很多豆友反馈有模拟登录新浪抓取数据的需求,其实对于一般的数据获取,如用户信息、内容等,使用开放平台API是更明智的选择:速度更快,而且节省许多网页处理的功夫。...熟悉Web的朋友只要定期维护模拟登录的代码就可以一直成功登录。如果不那么熟悉的话,其实可以采用更naive的思路来解决:直接将Cookie发送给新浪以实现模拟登录。

3.2K60

用Python模拟登陆

前言 最近在研究模拟登陆,看了很多教程,发现基本上都是只教怎么处理后就能登陆成功,没有讲解怎样得到处理的方法。经过的一天的研究,把模拟登陆基本上弄清楚了,下面就把过程详细说明。...弄清楚所需的数据 首先我们在Chrome浏览器中打开登陆界面,然后Ctrl+shift+i开启开发者工具,在开发者工具的Network选项里找到Preserve log并勾选,然后登录你的。...由于登陆的时候需要向服务器输送数据所以我们限定搜索范围,去找Method为POST的这时你会找到login.php?...我们只需要找到这几个数据就可以模拟登录到,那么怎么找到这些数据呢?接着往下看… 获取servertime,nonce等数据 在登录页面里打开开发者工具,清除Network里的数据。...wvr=5&lf=reg"}}); 提取你自己的uniqueid值放入下列网址中get得到你的主页信息。

1.3K90
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    使用python实现新浪登陆

    抓包分析 首先打开charles,记录从打开浏览器到新浪登陆成功的全部http请求 打开新浪,等待页面加载完成后,输入账号密码点击登陆,charles停止抓包,关闭浏览器。...找到登陆的POST请求https://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.19) ? 登陆POST请求 ?...理论上我们只需要能完整的提交这个表单就能实现新浪登陆。但是如果进行试验的话,会发现将该表单完整复制之后使用requests进行post提交是无法登陆的,所以可以断定其中某些字段是通过动态获取。...由于新浪的首页内容太多太杂 我们将上文中拿到的登陆post请求https://login.sina.com.cn/sso/login.php?...登陆页面 打开F12,对登陆按钮进行定位,根据前后台交互的方式可以知道后台应该是通过中某一个内容判断用户点击了登陆按钮,在Source中的js代码部分检索的type:submit。 ?

    82540

    使用python模拟登陆腾讯

    由于业务需要,研究了一下腾讯登陆,下面分享一些经验给大家: 标题写的是腾讯登陆,其实也可以隐身到腾讯旗下多个产品的登陆,比如QQ空间,webQQ等,想到这儿大伙是不是很激动呢?...下面我以Python为例: 分析登录过程 登录过程需要抓包,我是用的HttpWatch,大体步骤如下 第一步 手动登陆,抓包,记录登录过程 当输入完账号后想服务器请求验证码 等级登陆按钮后将登录信息发送至认证服务器...,实现第一次认证 服务器返回登陆成功信息,其中包含最终URL 第二次认证,获取腾讯的cookie 第二步 伪造登录过程 获取验证码 根据验证码计算出加密后的密码以及其他信息,发送GET请求至认证服务器...action和login_sig action参数可以乱填,和登陆没关系 login_sig提取自登陆页面,需要在登陆时发送!

    96320

    登陆爬取用户影响力

    下面的操作针对于 m.weibo.cn : 这里要实现的是对用户的影响力抓取,我本文以广电时评为例。 点击查看,里面的数据会更多一点。...未登陆时: 这里是需要用户登陆之后才可以查看的, 所以为了实现我们的需求,我们开始模拟登陆。...首先来到移动端的登陆页面 然后选择使用账号密码登陆 先输入一个错误的账号来查看一下登陆的接口 错误的账号返回了retcode 查看下 Formdata 当然请求头也不能忘记 有了这些信息之后...如果需要获取指定的影响力。...我们可以通过接口 先访问用户api,获取用户主页的cid uid = 'ID' user_api = 'https://m.weibo.cn/api/container/getIndex?

    29020

    登陆新浪&批量下载收藏内容

    作者:wklken 来源: http://blog.csdn.net/wklken/article/details/7884529 今天开新浪,才发现收藏已然有2000+了,足足104页,貌似需要整理下了...我们关注的: 1.正文+评论内容 2.图片 3.视频链接 用Python实现 思路: 1.脚本模拟登陆新浪,保存cookie 2.有了cookie信息后,访问收藏页面url 3.从第一页开始,逐步访问...,直到最后,脚本中进行了两步处理 A.直接下载网页(下载到本地,当然,要看的时候需要联网,因为js,图片神马的,都还在) B.解析出需要的内容,目前只是存下来,还没有处理 后续会用lxml...(困了,明后天接着写) 模拟登陆博采用是http://www.douban.com/note/201767245/ 里面很详细,直接拉来用了 步骤: 1.进入自己的,右侧,收藏,进入收藏页面 http...其中,带序号的,只能连网时点击打开有效 tmpcontent是包含所有内容信息,但目前还没有处理(还没想好提取成什么格式,容后再说) ? 附上脚本 ? ?

    1.5K60

    Python模拟登陆万能法-|知乎

    Python模拟登陆让不少人伤透脑筋,今天奉上一种万能登陆方法。你无须精通HTML,甚至也无须精通Python,但却能让你成功的进行模拟登陆。...本文讲的是登陆所有网站的一种方法,并不局限于与知乎,仅用其作为例子来讲解。 用到的库有“selenium”和“requests”。...文章前面列出了步骤与代码,后面补充了登陆与知乎的实例。 文章最后给出了一个懒人的方法。想要走捷径的朋友直接看第四部知乎登陆。该方法适用于登陆所有网站,仅用知乎作为实例以方便讲解。...第三部:模拟登陆 import requests from selenium import webdriver chromePath = r'浏览器存放位置' wd = webdriver.Chrome...3.登陆是被要求输入验证码怎么办?有时登陆会被要求输入验证码,这个时候我们可以加一行手动输入验证码的代码。

    6.2K42

    Java网络爬虫抓取新浪个人记录

    接下来就是新浪的抓取,一般的http访问新浪网站得到的html都是很简略的,因为新浪主页是用js动态生成的并且要进过多次的http请求与验证才能访问成功,所以为了数据抓取的简便,我们走一个后门...,也就是访问新浪的手机端,weibo.cn进行抓取,但随之而来的一个问题是,新浪的访问不管哪一端都需要强制的登陆验证,所以我们需要在http请求的时候附带一个cookie进行用户验证。...WebController的ja包与selenium的jar包 下载地址:http://download.csdn.net/detail/u013407099/9409372 利用Selenium获取登陆新浪...weibo.cn的cookie(WeiboCN.java) 利用WebCollector和获取的cookie爬取新浪并抽取数据(WeiboCrawler.java) WeiboCN.java import...; /** * 利用Selenium获取登陆新浪weibo.cn的cookie * @author hu */ public class WeiboCN { /** *

    50040

    爬虫开源项目汇总大全

    - [SinaSpider][1] - 基于scrapy和redis的分布式微爬虫。SinaSpider主要爬取新浪的个人信息、数据、关注和粉丝。...此项目实现将单机的新浪爬虫重构成分布式爬虫。 ?...获取新浪1000w用户的基本信息和每个爬取用户最近发表的50条,使用python编写,多进程爬取,将数据存储在了mongodb中。...- [weibo_crawler][5]-基于Python、BeautifulSoup、mysql搜索结果爬取工具。本工具使用模拟登录来实现搜索结果的爬取。 ?...- [SinaMicroblog_Creeper-Spider_VerificationCode][7]-新浪爬虫,获得每个用户和关注的,粉丝的用户id存入xml文件中,BFS,可以模拟登陆,模拟登陆中的验证码会抓取下来让用户输入

    1.2K80

    springboot实现第三方登陆----登录

    三方登录之登陆 准备工作 注册开放平台 注册地址: https://open.weibo.com/ 之后选择网站接入填写对应信息 图片 基本信息照的这个填写: 图片 高级信息是你内网穿透的地址...client_id=你的appkey&response_type=code&redirect_uri=你的回调地址 (请求你的时候会在你的回调地址后加一个code参数,这个参数你需要获取一下) 主要两个参数...org.springframework.web.bind.annotation.RequestMapping; import org.springframework.web.bind.annotation.ResponseBody; import java.util.HashMap...; import java.util.Map; /** * @author 小哥 */ @Controller public class LoginHandler { @RequestMapping...client_id=你的appkey&response_type=code&redirect_uri=你的回调地址">登录 这只是一个简单的demo,具体的业务大家可以根据需求去编写

    33020

    基于Java爬取数据(一) 主页正文列表数据

    爬虫背景最近有这方面的需求,于是就研究了一下通过Java爬取数据,由于本人是后端Java开发,因此没有研究其他爬取数据的方法,比如通过Python爬取数据。...大家感兴趣的可以自行查找基于Python爬取数据的方法。...在爬取数据之前,先声明一下,本人爬取的数据仅用于测试Java爬取数据的可行性,并不会用于其他非正当地方,另外,爬取的数据也都是每个人都可以通过博客户端正常看到的,不存在爬取隐秘数据的情况。...爬取数据整个爬取数据操作我们需要用到两个 jar 包 hutool-all 、 fastjson ,那么我们需要首先在项目 pom.xml 文件中引入这两个 jar 包<!...;import java.text.SimpleDateFormat;import java.util.Date;import java.util.Objects;public class DemoWeiBo

    23210

    超详细的Python实现模拟登陆,小白都能懂

    最近由于需要一直在研究的爬虫,第一步便是模拟登陆,从开始摸索到走通模拟登陆这条路其实还是挺艰难的,需要一定的经验,为了让朋友们以后少走点弯路,这里我把我的分析过程和代码都附上来。...第一步:预登陆。 现在、空间等大型网站在输入用户名后基本都会做编码或者加密处理,这里在用户名输入框输入我的账号,通过抓包工具可以看到服务器会返回一段字符串: ?...第一种方式如果是遇到调整了登陆加密算法,就必须改加密代码,第二种方式和第三种方式不存在这个问题。...但是有点坑啊,这里还需要有一步,就是图一所示的类似 ? ,这一步会将请求重定向,返回当前账号的登陆信息,如下图: ? 那么问题来了,怎么获取上面的请求地址呢。...可能有的老手觉得我写得很啰嗦,但其实很多新手可能都不知道这些细节,所以我把我在分析新浪模拟登陆的过程全写了出来。 另外,除了这种方式,本文提到的另外两种方式也有实现。

    88620

    基于Java爬取数据(三) 主页用户数据

    上一篇文章简单讲述了基于Java爬取数据(二),那么这篇将讲述如何基于 Java 爬取主页用户数据。...数据分析在开始爬取主页用户数据之前,我们先对之前基于Java爬取数据(一)中的主页正文列表数据进行分析,看是否可以从中获取到主页用户数据。...首先还是按照基于Java爬取数据(一)中的方式获取主页正文列表数据内容这样操作的目的主要是为了验证你代码中的登录信息cookies是否已经过期,防止误导后面爬取主页用户数据时爬取不到的原因分析。...爬取数据这里我们重新创建一个 main 函数来单独的获取主页用户数据, DemoWeiBoInfo.java,整个类的代码比较简单,直接可以获取主页用户数据内容,最终执行的结果如图DemoWeiBoInfo.java..."); }}那么到这里,基于Java 爬取用户主页数据的任务就实现了,后续还会继续讲解获取正文内容图片、视频等相关内容,敬请关注。

    20020

    基于Java爬取数据(五) 补充正文列表图片 or 视频 内容

    在通过对正文内容中的图片 or 视频内容进行分析后,图片 or 视频 链接是可以直接通过 Java 代码下载或者转存的,那么这样就可以补充我们在 【基于Java爬取数据(一) 主页正文列表数据...在开始进行主页正文列表数据 补充 图片 or 视频内容之前,先来分析一下获取到的正文列表数据的内容。...含图片正文 以及 含视频正文 的数据格式基本的分析及对比就结束了,下面开始在 获取正文列表内容 DemoWeiBo 的 main 方法中补充这一块内容的获取。...,补充正文内容列表 获取 图片 or 视频的操作就完成了,改造后的 DemoWeiBo.java 代码完整版如下package com.ruoyi.web.controller.demo.controller...写在最后到这里,关于爬取数据的整体操作就都完成了,主要包括了主页列表数据、用户主页数据、长文本、正文内容的图片 or 视频内容以及列表内容的转存等操作,感兴趣的可以尝试吧。

    19510

    小白用Python | 超详细的Python实现新浪模拟登陆

    最近由于需要一直在研究的爬虫,第一步便是模拟登陆,从开始摸索到走通模拟登陆这条路其实还是挺艰难的,需要一定的经验,为了让朋友们以后少走点弯路,这里我把我的分析过程和代码都附上来。...现在、空间等大型网站在输入用户名后基本都会做编码或者加密处理,这里在用户名输入框输入我的账号,通过抓包工具可以看到服务器会返回一段字符串: 这一步就是预登陆过程,同学们可以自己试试。...第一种方式如果是遇到调整了登陆加密算法,就必须改加密代码,第二种方式和第三种方式不存在这个问题。...但是有点坑啊,这里还需要有一步,就是图一所示的类似 http://passport.weibo.com/wbs... , 这一步会将请求重定向,返回当前账号的登陆信息,如下图: 那么问题来了,怎么获取上面的请求地址呢...可能有的老手觉得我写得很啰嗦,但其实很多新手可能都不知道这些细节,所以我把我在分析新浪模拟登陆的过程全写了出来。另外,除了这种方式,本文提到的另外两种方式也有实现。

    1.1K90
    领券