首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Java网络爬虫抓取新浪个人记录

接下来就是新浪的抓取,一般的http访问新浪网站得到的html都是很简略的,因为新浪主页是用js动态生成的并且要进过多次的http请求与验证才能访问成功,所以为了数据抓取的简便,我们走一个后门...,也就是访问新浪的手机端,weibo.cn进行抓取,但随之而来的一个问题是,新浪的访问不管哪一端都需要强制的登陆验证,所以我们需要在http请求的时候附带一个cookie进行用户验证。...weibo.cn的cookie(WeiboCN.java) 利用WebCollector和获取的cookie爬取新浪并抽取数据(WeiboCrawler.java) WeiboCN.java import...; /** * 利用Selenium获取登陆新浪weibo.cn的cookie * @author hu */ public class WeiboCN { /** *...获取新浪的cookie,这个方法针对weibo.cn有效,对weibo.com无效 * weibo.cn以明文形式传输数据,请使用小号 * @param username 新浪用户名

48840
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    基于Java爬取数据(一) 主页正文列表数据

    爬虫背景最近有这方面的需求,于是就研究了一下通过Java爬取数据,由于本人是后端Java开发,因此没有研究其他爬取数据的方法,比如通过Python爬取数据。...在爬取数据之前,先声明一下,本人爬取的数据仅用于测试Java爬取数据的可行性,并不会用于其他非正当地方,另外,爬取的数据也都是每个人都可以通过博客户端正常看到的,不存在爬取隐秘数据的情况。...URL 中的参数 page 代表当前爬取的是第几页数据,因此代码中进行了字符占位,方便后续的分页数据的替换爬取数据时,必须要为请求 URL 添加 Header 信息 ,增加请求头 Cookie ,...,到这里我们爬取数据就完成了,整个代码逻辑比较清晰,后续对于爬取到的数据的处理可以根据具体的业务需求。...到这里可能有人会觉得从浏览器拿出登录后的 Cookie 操作显得不太高级,且比较笨拙,想要通过代码模拟登录从而获取 Cookie,这里个人给出的建议是目前的登录逻辑安全性较高,需要短信验证且有动态图验证

    22610

    基于Java爬取数据(三) 主页用户数据

    上一篇文章简单讲述了基于Java爬取数据(二),那么这篇将讲述如何基于 Java 爬取主页用户数据。...数据分析在开始爬取主页用户数据之前,我们先对之前基于Java爬取数据(一)中的主页正文列表数据进行分析,看是否可以从中获取到主页用户数据。...首先还是按照基于Java爬取数据(一)中的方式获取主页正文列表数据内容这样操作的目的主要是为了验证你代码中的登录信息cookies是否已经过期,防止误导后面爬取主页用户数据时爬取不到的原因分析。...uid=1686546714 浏览器请求中的 响应 内容,可以看到我们需要的主页用户信息都有的到这里,关于如何获取主页用户数据的数据分析就结束了,那么下面我们开始来写代码实现获取对应的主页用户数据...爬取数据这里我们重新创建一个 main 函数来单独的获取主页用户数据, DemoWeiBoInfo.java,整个类的代码比较简单,直接可以获取主页用户数据内容,最终执行的结果如图DemoWeiBoInfo.java

    18820

    redis+php实现(一)注册与登录功能详解

    本文实例讲述了redis+php实现注册与登录功能。...分享给大家供大家参考,具体如下: (一)、功能概况 用户账号注册 用户登录 发布 添加好友(粉丝) 推送 冷数据写入mysql数据库 (二)、redis数据结构设计 这节分享用户注册与登录...zhangshan set user:userid:1:password 1212121212 set user:username:zhangshan:userid 1 发布表:post...注册代码: include("function.php"); //用户表单提交数据接收 $username = I('username'); $password = I('password'); $pwd...:userid",$userid); header("location:home.php"); 登录代码: include("function.php"); //如果用户已经登录调整到列表页面 if

    88231

    基于Java爬取数据(五) 补充正文列表图片 or 视频 内容

    在通过对正文内容中的图片 or 视频内容进行分析后,图片 or 视频 链接是可以直接通过 Java 代码下载或者转存的,那么这样就可以补充我们在 【基于Java爬取数据(一) 主页正文列表数据...,首先给导出实体类 ExcelData 增加如下字段然后在获取正文内容列表 main 方法中增加如下代码,这里需要注意的是 pic_ids 和 pic_infos 是配套出现的, pic_ids 的值...就是 pic_infos 子对象的 key关于 pic_infos 的子对象包括多种 宽高 尺寸的图片链接地址,你可以根据自己的需要选择不同宽高的图片进行转存最后补充的转存正文图片的代码如下下面再来看获取视频操作...media_info 对象内的以下几种清晰度的视频,或者也可以选择 media_info 对象内的 playback_list ,里面是 四种清晰度的视频选择,你可以选择其中一种或者多种清晰度的视频链接最终补充获取正文视频内容的代码如下到这里...,补充正文内容列表 获取 图片 or 视频的操作就完成了,改造后的 DemoWeiBo.java 代码完整版如下package com.ruoyi.web.controller.demo.controller

    19010

    Java实现QQ登录和登录

    前言 个人网站最近增加了评论功能,为了方便用户不用注册就可以评论,对接了 QQ 和这 2 大常用软件的一键登录,总的来说其实都挺简单的,可能会有一点小坑,但不算多,完整记录下来方便后来人快速对接...其实这个并不用我们特别操心,就以登录为例,用户登录成功之后会回调一个code 给我们,然后我们再拿code去那换取accessToken,如果这个code是用户乱填的,那这一关肯定过不了,所以,...随意发、删、加关注等等,很危险。...注意事项 接口都有频率限制,不过一般不会超过; 需做好错误兼容; 直接返回的uid,可以根据这个uid直达用户主页 https://weibo.com/u/xxxxx ,所以可以把用户头像链接到这里...; 其实也有现成的js-sdk,可以根据自己实际需要选择是否使用; 的接口是https,并且是post,需要注意; 相关链接 开放平台:open.weibo.com/ 登录授权机制:open.weibo.com

    2.7K10

    Java实现QQ登录和登录

    前言 个人网站最近增加了评论功能,为了方便用户不用注册就可以评论,对接了 QQ 和这 2 大常用软件的一键登录,总的来说其实都挺简单的,可能会有一点小坑,但不算多,完整记录下来方便后来人快速对接。...,都已经登录了还让用户注册,什么鬼!...随意发、删、加关注等等,很危险。...注意事项 接口都有频率限制,不过一般不会超过; 需做好错误兼容; 直接返回的uid,可以根据这个uid直达用户主页 https://weibo.com/u/xxxxx ,所以可以把用户头像链接到这里...; 其实也有现成的js-sdk,可以根据自己实际需要选择是否使用; 的接口是https,并且是post,需要注意; 相关链接 开放平台:open.weibo.com/ 登录授权机制:

    4.2K20

    Java实现QQ登录和登录

    前言 个人网站最近增加了评论功能,为了方便用户不用注册就可以评论,对接了 QQ 和这 2 大常用软件的一键登录,总的来说其实都挺简单的,可能会有一点小坑,但不算多,完整记录下来方便后来人快速对接。...其实这个并不用我们特别操心,就以登录为例,用户登录成功之后会回调一个code 给我们,然后我们再拿code去那换取accessToken,如果这个code是用户乱填的,那这一关肯定过不了,所以,...随意发、删、加关注等等,很危险。...注意事项 接口都有频率限制,不过一般不会超过; 需做好错误兼容; 直接返回的uid,可以根据这个uid直达用户主页 https://weibo.com/u/xxxxx ,所以可以把用户头像链接到这里...; 其实也有现成的js-sdk,可以根据自己实际需要选择是否使用; 的接口是https,并且是post,需要注意; 相关链接 开放平台:open.weibo.com/ 登录授权机制:open.weibo.com

    3K10

    Python调用API获取内容

    一:获取app-key 和 app-secret     使用自己的账号登录开放平台,在开放中心下“创建应用”创建一个应用,应用信息那些随便填,填写完毕后,不需要提交审核,需要的只是那个app-key...在“开放平台”的“管理中心”找到刚才创建的应用,点开这个应用,点开左边“应用信息”栏,会看见“App key”和“App Secret”的字样,这两个东西是要在后面程序中使用的。...三:安装 python SDK 有两种安装方式: 1:http://github.liaoxuefeng.com/sinaweibopy/下载新浪SDK 2:python有个简单的安装方式:直接在命令行下键入...: sudo pip install sinaweibopy 四:实例验证,获取当前登录用户及其所关注(授权)用户的最新 这里需要注意的是在浏览器弹出一个页面,要先点击“授权”(这里进行的OAuth...以下为我的关注用户的: ? ? ? ? 拿上边代码为例,这里我们获取的信息有: ?

    3.7K41

    【开放源代码搜索用户爬虫

    保证阅读体验,文中广告已关闭~ 超级方便的用户信息爬虫 是根据用户 Uid 来抓取公开的用户信息,但是很多时候,我们可能只知道这个用户的名字,并不知道 Uid,本次开放的爬虫就是完成从用户名到...主要抓取逻辑如下,可以像 不写一行,自动生成爬虫代码 文章里说的那样自动生成该部分代码。 def getUidByName(name): # https://s.weibo.com/user?...dfAddUserLink('test.csv', user_name_column='user_name') 代码地址在: https://github.com/Python3Spiders/WeiboSuperSpider...最后依旧是话题爬虫的日常更新,修复了群里朋友提出的若干问题,提升了稳定性。可以去 2021 新版话题爬虫发布 获取最新的话题爬虫。

    1.1K20
    领券