首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Java网络爬虫抓取新浪个人记录

接下来就是新浪的抓取,一般的http访问新浪网站得到的html都是很简略的,因为新浪主页是用js动态生成的并且要进过多次的http请求与验证才能访问成功,所以为了数据抓取的简便,我们走一个后门...,也就是访问新浪的手机端,weibo.cn进行抓取,但随之而来的一个问题是,新浪的访问不管哪一端都需要强制的登陆验证,所以我们需要在http请求的时候附带一个cookie进行用户验证。...weibo.cn的cookie(WeiboCN.java) 利用WebCollector和获取的cookie爬取新浪并抽取数据(WeiboCrawler.java) WeiboCN.java import...; /** * 利用Selenium获取登陆新浪weibo.cn的cookie * @author hu */ public class WeiboCN { /** *...获取新浪的cookie,这个方法针对weibo.cn有效,对weibo.com无效 * weibo.cn以明文形式传输数据,请使用小号 * @param username 新浪用户名

48340

个人主题建站首选秀模板,仿新浪官网

很久之前就想弄这个仿的模板了,但是时间一直不允许,这不抽空弄出来了,主题简单明了,后台设置简单,无需复杂操作,比起以往的CMS主题要简单的多,太适合做个人博客的网站了,当然这不太适合技术和科技播主们...,毕竟这款娱乐元素居多,可以设置独立的背景图,列表卡片(要知道,这些功能只有会员才能设置)把你上你喜欢的卡片和背景抠出来,复制地址到相关接口就性了。...主题更新日志:(10/08) 删除国庆皮肤。 主题更新日志:(09/30) 增加国庆皮肤(优先使用国庆皮肤)。 修复部分CSS代码。...卡片背景图(对应)分类列表右侧图片,看图: 这个图片,你可以直接复制新浪的地址,然后粘贴在背景图接口,保存就行了。...前台显示: 蓝天白云,是挺好看的,这个最好都采用新浪的套装图片,直接复制粘贴就OK啦,其他设置都是基础了,没有什么难度。

3.5K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    基于Java爬取数据(一) 主页正文列表数据

    爬虫背景最近有这方面的需求,于是就研究了一下通过Java爬取数据,由于本人是后端Java开发,因此没有研究其他爬取数据的方法,比如通过Python爬取数据。...在爬取数据之前,先声明一下,本人爬取的数据仅用于测试Java爬取数据的可行性,并不会用于其他非正当地方,另外,爬取的数据也都是每个人都可以通过博客户端正常看到的,不存在爬取隐秘数据的情况。...Cookie ,这里个人建议使用登录账号后从浏览器拿出的 Cookie,可以获取当前登录账号关注过的用户发布的所有数据。...关于有效期,百度搜索关于登录账号后的 Cookie 有效期是 30天,个人实测了一次,大概十几天后失效,由于中途可能会有其他影响,不一定准确。有时间的大家也可以测一下。...到这里可能有人会觉得从浏览器拿出登录后的 Cookie 操作显得不太高级,且比较笨拙,想要通过代码模拟登录从而获取 Cookie,这里个人给出的建议是目前的登录逻辑安全性较高,需要短信验证且有动态图验证

    20710

    基于Java爬取数据(三) 主页用户数据

    上一篇文章简单讲述了基于Java爬取数据(二),那么这篇将讲述如何基于 Java 爬取主页用户数据。...数据分析在开始爬取主页用户数据之前,我们先对之前基于Java爬取数据(一)中的主页正文列表数据进行分析,看是否可以从中获取到主页用户数据。...首先还是按照基于Java爬取数据(一)中的方式获取主页正文列表数据内容这样操作的目的主要是为了验证你代码中的登录信息cookies是否已经过期,防止误导后面爬取主页用户数据时爬取不到的原因分析。...爬取数据这里我们重新创建一个 main 函数来单独的获取主页用户数据, DemoWeiBoInfo.java,整个类的代码比较简单,直接可以获取主页用户数据内容,最终执行的结果如图DemoWeiBoInfo.java..."); }}那么到这里,基于Java 爬取用户主页数据的任务就实现了,后续还会继续讲解获取正文内容图片、视频等相关内容,敬请关注。

    15720

    基于Java爬取数据(五) 补充正文列表图片 or 视频 内容

    在通过对正文内容中的图片 or 视频内容进行分析后,图片 or 视频 链接是可以直接通过 Java 代码下载或者转存的,那么这样就可以补充我们在 【基于Java爬取数据(一) 主页正文列表数据...在开始进行主页正文列表数据 补充 图片 or 视频内容之前,先来分析一下获取到的正文列表数据的内容。...含图片正文 以及 含视频正文 的数据格式基本的分析及对比就结束了,下面开始在 获取正文列表内容 DemoWeiBo 的 main 方法中补充这一块内容的获取。...,补充正文内容列表 获取 图片 or 视频的操作就完成了,改造后的 DemoWeiBo.java 代码完整版如下package com.ruoyi.web.controller.demo.controller...写在最后到这里,关于爬取数据的整体操作就都完成了,主要包括了主页列表数据、用户主页数据、长文本、正文内容的图片 or 视频内容以及列表内容的转存等操作,感兴趣的可以尝试吧。

    9410

    Java实现QQ登录和登录

    前言 个人网站最近增加了评论功能,为了方便用户不用注册就可以评论,对接了 QQ 和这 2 大常用软件的一键登录,总的来说其实都挺简单的,可能会有一点小坑,但不算多,完整记录下来方便后来人快速对接...,对接第三方登录的关键就是如何确定用户是合法登录,如果确定这次登录的和上次登录的是同一个人并且不是假冒的。...随意发、删、加关注等等,很危险。...注意事项 接口都有频率限制,不过一般不会超过; 需做好错误兼容; 直接返回的uid,可以根据这个uid直达用户主页 https://weibo.com/u/xxxxx ,所以可以把用户头像链接到这里...; 其实也有现成的js-sdk,可以根据自己实际需要选择是否使用; 的接口是https,并且是post,需要注意; 相关链接 开放平台:open.weibo.com/ 登录授权机制:open.weibo.com

    2.7K10

    Java实现QQ登录和登录

    前言 个人网站最近增加了评论功能,为了方便用户不用注册就可以评论,对接了 QQ 和这 2 大常用软件的一键登录,总的来说其实都挺简单的,可能会有一点小坑,但不算多,完整记录下来方便后来人快速对接。...,对接第三方登录的关键就是如何确定用户是合法登录,如果确定这次登录的和上次登录的是同一个人并且不是假冒的。...随意发、删、加关注等等,很危险。...注意事项 接口都有频率限制,不过一般不会超过; 需做好错误兼容; 直接返回的uid,可以根据这个uid直达用户主页 https://weibo.com/u/xxxxx ,所以可以把用户头像链接到这里...; 其实也有现成的js-sdk,可以根据自己实际需要选择是否使用; 的接口是https,并且是post,需要注意; 相关链接 开放平台:open.weibo.com/ 登录授权机制:

    4.2K20

    Java实现QQ登录和登录

    前言 个人网站最近增加了评论功能,为了方便用户不用注册就可以评论,对接了 QQ 和这 2 大常用软件的一键登录,总的来说其实都挺简单的,可能会有一点小坑,但不算多,完整记录下来方便后来人快速对接。...,对接第三方登录的关键就是如何确定用户是合法登录,如果确定这次登录的和上次登录的是同一个人并且不是假冒的。...随意发、删、加关注等等,很危险。...注意事项 接口都有频率限制,不过一般不会超过; 需做好错误兼容; 直接返回的uid,可以根据这个uid直达用户主页 https://weibo.com/u/xxxxx ,所以可以把用户头像链接到这里...; 其实也有现成的js-sdk,可以根据自己实际需要选择是否使用; 的接口是https,并且是post,需要注意; 相关链接 开放平台:open.weibo.com/ 登录授权机制:open.weibo.com

    3K10

    Python调用API获取内容

    一:获取app-key 和 app-secret     使用自己的账号登录开放平台,在开放中心下“创建应用”创建一个应用,应用信息那些随便填,填写完毕后,不需要提交审核,需要的只是那个app-key...在“开放平台”的“管理中心”找到刚才创建的应用,点开这个应用,点开左边“应用信息”栏,会看见“App key”和“App Secret”的字样,这两个东西是要在后面程序中使用的。...三:安装 python SDK 有两种安装方式: 1:http://github.liaoxuefeng.com/sinaweibopy/下载新浪SDK 2:python有个简单的安装方式:直接在命令行下键入...: sudo pip install sinaweibopy 四:实例验证,获取当前登录用户及其所关注(授权)用户的最新 这里需要注意的是在浏览器弹出一个页面,要先点击“授权”(这里进行的OAuth...以下为我的关注用户的: ? ? ? ? 拿上边代码为例,这里我们获取的信息有: ?

    3.7K41

    情绪分析

    使用node.js爬虫每天从「新浪」上爬取一定数量的。主要实现登录,抓取发布,抓取关注人和粉丝的功能,暂时把数据存放在MongoDB中。...weibo_crawler 第一部分是准备数据,随机爬取50w左右的用户,然后每天爬取他们前一天发布的作为本项目的数据源。...由于新浪对爬虫有限制,因此爬取用户的时候采用定时器的方式。 由于只有登录了才能获取某个用户的个人信息和关注粉丝信息,而爬虫的难点就在于用户登录。...对抓取失败的,Retry 5次 2. 放弃非人类 什么是非人类呢?...我在抓取一个人的关注列表的时候发现 原来「北京」并不是一个用户,而是一个话题,打开「北京」页面发现它的Dom结构与普通用户的Dom结构并不相同,于是果断放弃非人类。

    1.3K10

    再谈备份

    h5 https://m.weibo.cn/ ,这个扩展也是基于h5接口来备份的。...之前文章 一键备份并导出生成PDF,顺便用Python分析账号数据 分析过李健的词云图,他的关键词为音乐,北京,朋友,歌手,电影,居然还提到了周杰伦。 ?...每个月转发评论点赞总数图,可以看到2016-2018年的数据是高峰期。 ? 原创和转发数据比例。 ? 李健发的工具主要为pc网页和iPad。 ?...麋鹿工具箱 如果你不想哪天被人挖坟,可以将批量删除、设置仅自己可见、仅好友可见,这里推荐一个工具麋鹿工具箱。...开始扫描你的多的话可能慢点。 ? ? 选择时间段,可以对删除,恢复公开,仅自己可见,仅粉丝可见,仅好友圈可见。 ?

    1.7K31

    python模拟新浪登陆功能(新浪爬虫)

    (Python) PC 登录新浪时, 在客户端用js预先对用户名、密码都进行了加密, 而且在POST之前会GET 一组参数,这也将作为POST_DATA 的一部分。...由于要用的一部分数据用API获取不方便, 所以还是要自己写个小爬虫, 模拟登录是必不可少的。琢磨了一下这个东西,最终登录成功。...接下来再请求这个URL,这样就成功登录到了。 记得要提前build 缓存。 下面是完整代码(没加注释,凑合看吧): #!...很多豆友反馈有模拟登录新浪抓取数据的需求,其实对于一般的数据获取,如用户信息、内容等,使用开放平台API是更明智的选择:速度更快,而且节省许多网页处理的功夫。...熟悉Web的朋友只要定期维护模拟登录的代码就可以一直成功登录。如果不那么熟悉的话,其实可以采用更naive的思路来解决:直接将Cookie发送给新浪以实现模拟登录。

    3.2K60
    领券