首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >微信公众号爬虫 微信公众号爬虫

微信公众号爬虫 微信公众号爬虫

作者头像
尾尾部落
发布于 2018-09-04 05:49:54
发布于 2018-09-04 05:49:54
9K00
代码可运行
举报
文章被收录于专栏:尾尾部落尾尾部落
运行总次数:0
代码可运行

微信公众号爬虫

微信团队于2017-06-06发布更新:

“ 对所有公众号开放,在图文消息正文中插入自己帐号和其他公众号已群发文章链接的能力。” 那么,利用这个接口,我们就可以爬取指定公众号的文章链接了

文章参考:静觅

准备工具:一个订阅号,安装selenium

爬取步骤: 1. get_cookie.py用selenium登陆,获取cookie,其中你需要勾选“记住”选项,还需要微信扫描二维码,确定顺利登陆

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# -*- coding:utf-8 -*-
from selenium import webdriver
import io
import time
import json
from pprint import pprint

post = {}

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument("user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36")
driver = webdriver.Chrome('/Users/weiweiwang/code/financialNews/chromedriver',chrome_options=chrome_options)
driver.get('https://mp.weixin.qq.com/')
time.sleep(2)
driver.find_element_by_xpath("./*//input[@name='account']").clear()
driver.find_element_by_xpath("./*//input[@name='account']").send_keys('你的账号')
driver.find_element_by_xpath("./*//input[@name='password']").clear()
driver.find_element_by_xpath("./*//input[@name='password']").send_keys('你的密码')
# 在自动输完密码之后记得点一下记住我
time.sleep(5)
driver.find_element_by_xpath("./*//a[@class='btn_login']").click()
# 拿手机扫二维码!
time.sleep(15)
driver.get('https://mp.weixin.qq.com/')
cookie_items = driver.get_cookies()
for cookie_item in cookie_items:
    post[cookie_item['name']] = cookie_item['value']
cookie_str = json.dumps(post)
with io.open('cookie.txt', 'w+') as f:
    f.write(cookie_str.decode('utf-8'))
  1. get_url.py获取你需要的公众号的历史文章链接
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# -*- coding:utf-8 -*-
import requests
import io
import redis
import json
import re
import random
import time

gzlist = ['yq_Butler']


url = 'https://mp.weixin.qq.com'
header = {
    "HOST": "mp.weixin.qq.com",
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36"
    }

with io.open('cookie.txt', 'r') as f:
    cookie = f.read()
cookies = json.loads(cookie)
response = requests.get(url=url, cookies=cookies)
token = re.findall(r'token=(\d+)', str(response.url))[0]
for query in gzlist:
    query_id = {
        'action': 'search_biz',
        'token' : token,
        'lang': 'zh_CN',
        'f': 'json',
        'ajax': '1',
        'random': random.random(),
        'query': query,
        'begin': '0',
        'count': '5',
    }
    search_url = 'https://mp.weixin.qq.com/cgi-bin/searchbiz?'
    search_response = requests.get(search_url, cookies=cookies, headers=header, params=query_id)
    lists = search_response.json().get('list')[0]
    fakeid = lists.get('fakeid')
    query_id_data = {
        'token': token,
        'lang': 'zh_CN',
        'f': 'json',
        'ajax': '1',
        'random': random.random(),
        'action': 'list_ex',
        'begin': '0',
        'count': '5',
        'query': '',
        'fakeid': fakeid,
        'type': '9'
    }
    appmsg_url = 'https://mp.weixin.qq.com/cgi-bin/appmsg?'
    appmsg_response = requests.get(appmsg_url, cookies=cookies, headers=header, params=query_id_data)
    max_num = appmsg_response.json().get('app_msg_cnt')
    num = int(int(max_num) / 5)
    begin = 0
    while num + 1 > 0 :
        query_id_data = {
            'token': token,
            'lang': 'zh_CN',
            'f': 'json',
            'ajax': '1',
            'random': random.random(),
            'action': 'list_ex',
            'begin': '{}'.format(str(begin)),
            'count': '5',
            'query': '',
            'fakeid': fakeid,
            'type': '9'
        }
        print('翻页###################',begin)
        query_fakeid_response = requests.get(appmsg_url, cookies=cookies, headers=header, params=query_id_data)
        fakeid_list = query_fakeid_response.json().get('app_msg_list')
        for item in fakeid_list:
            print(item.get('link'))
        num -= 1
        begin = int(begin)
        begin+=5
        time.sleep(2)

所有代码见 github

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
银河麒麟V10使用Docker方式部署应用
2、中间件包括 Nginx、Redis、Mysql、Rabbitmq、MongoDB
oec2003
2024/04/16
3.1K0
银河麒麟V10使用Docker方式部署应用
CentOS7基本环境搭建&开箱即用环境下载
为了节省空间,直接使用Minimal 阿里源下载:http://mirrors.aliyun.com/centos/7/isos/x86_64/ 网盘下载: 链接:https://pan.baidu.com/s/1nPbDW6whaUKGQZLdzNlN8A 提取码:wp88
不愿意做鱼的小鲸鱼
2022/09/26
1.1K0
CentOS7基本环境搭建&开箱即用环境下载
linux 基础学习编译安装php+my
    CentOS6.9 x86 - 64 最小化安装 配置好网络 用户 使用Xshell登录
py3study
2020/01/09
4500
麒麟系统V10 SP2 编译安装 Zabbix 6.0.8 +MySQL 8.0.30 + PHP 7.4.30
初始化密码登录MySQL后只能执行修改密码的操作,其它任何操作是不能执行的,使用以下命令修改密码
Kevin song
2022/11/19
3.3K0
麒麟系统V10 SP2  编译安装  Zabbix 6.0.8  +MySQL 8.0.30 + PHP 7.4.30
在RHEL系统上通过源码安装GITLAB
  Gitlab有著名的一键安装包,点一下脚本自动会帮你装ruby、Redis、Postgresql、Gitlab好方便,而且还会帮你解决Sidekiq无限消耗资源定期重启。有这么多优点为毛还要从源码安装Gitlab。1.CE版本无法使用Mysql库来存储用户数据 2.能了解他的工作机理和细节呗。
海哥@开发
2022/04/04
7360
麒麟系统V10 SP2 编译安装Nginx
vim /usr/lib/systemd/system/nginx.service
Kevin song
2022/11/19
3.5K0
麒麟系统V10 SP2 编译安装Nginx
麒麟系统V10 SP2 Kickstart UEFI PXE 多系统安装
PXE(Pre-boot Execution Environment,预启动执行环境)是由Intel公司开发的网络启动技术,工作于Client/Server的网络模式,支持工作站通过网络从远端服务器下载映像,并由此支持通过网络启动操作系统,在启动过程中,终端要求服务器分配IP地址,再用TFTP(trivialfile transfer protocol)或MTFTP(multicasttrivial file transfer protocol)协议下载一个启动软件包到本机内存中执行,由这个启动软件包完成终端基本软件设置,从而引导预先安装在服务器中的终端操作系统。
Kevin song
2022/11/19
5.9K0
麒麟系统V10 SP2  Kickstart UEFI PXE 多系统安装
ARM架构麒麟系统下,使用docker部署安装LAMP环境
Kylin操作系统是一个中国自主知识产权操作系统,是国家高技术研究发展计划(863计划)的重大成果之一,是以国防科技大学为主导,与中软、联想等单位联合设计和开发的基于Linux的系统,可支持多种微处理器和多种计算机体系结构,具有高性能、高可用性和高安全性,并与Linux应用二进制兼容的国产中文服务器操作系统。
KunkkaWu
2024/06/03
9810
(linux-x86)RabbitMQ面向消息的中间件安装
RabbitMQ是实现了高级消息队列协议(AMQP)的开源消息代理软件(亦称)。RabbitMQ服务器是用Erlang语言编写的,而集群和故障转移是构建在开放电信平台框架上的。所有主要的编程语言均有与代理接口通讯的客户端库。
QGS
2023/11/09
2730
Linux 服务器环境搭建
官网下载地址:https://www.oracle.com/java/technologies/downloads
默存
2024/03/22
3650
Linux 服务器环境搭建
python+ngnix+ffmpeg+
安装python cd /opt yum install cmake gcc gcc-c++ gtk+-devel gimp-devel gimp-devel-tools gimp-help-browser zlib-devel libtiff-devel libjpeg-devel libpng-devel gstreamer-devel libavc1394-devel libraw1394-devel libdc1394-devel jasper-devel jasper-utils swig pyt
py3study
2020/01/08
1.1K0
应用服务器安装手册
环境准备 fdisk -l mkfs.ext4 /dev/vdb mount -t ext4 /dev/vdb /data yum update yum -y install gcc gcc-c++ autoconf automake libtool make openssl openssl-devel pcre-devel libxml2-devel libcurl-devel libicu-devel openldap openldap-devel libjpeg libjpeg-devel libpn
用户7657330
2020/08/14
1.8K0
centos7 之 python3,virtualenvwrapper, git, nginx, redis 源码安装
yum -y install gcc gcc-c++ python36-devel mysql-devel
卓越笔记
2023/02/17
4130
centos7 之 python3,virtualenvwrapper, git, nginx, redis 源码安装
linux升级python2.7,安装p
1,在192.168.0.65装python2.7和PIP     #ssh 192.168.0.65         升级到python2.7     #cd /usr/local     #wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz         # tar zxvf Python-2.7.10.tgz     # cd Python-2.7.10     # mkdir /usr/local/Python2.7   
py3study
2020/01/07
1.3K0
python学习笔记1——安装pytho
centos和ubuntu的python2.7的安装方法参考:http://daixuan.blog.51cto.com/5426657/1767325
py3study
2020/01/07
3930
测试环境搭建与部署
随着测试行业的整体发展,测试人员所要掌握的技能已经不局限于单纯的软件测试方面,而是更多的趋向于开发、运维、安全等等的方向。其中测试环境的搭建与部署也承担着部分运维方面的工作职责。
wangmcn
2022/07/26
9290
Centos的python2和3,pip2和3安装
在/usr/bin中有python、python2、python2.7三个ln,是对应版本的python。
静默加载
2020/05/29
7170
麒麟系统V10 SP2 编译安装PHP 7.4.30
yum -y install libtool sqlite-devel bzip2 bzip2-devel libcurl libcurl-devel libjpeg libjpeg-devel libpng libpng-devel freetype freetype-devel gmp gmp-devel readline readline-devel libxslt libxslt-devel
Kevin song
2022/11/19
3.2K0
麒麟系统V10 SP2 编译安装PHP 7.4.30
Linux编译安装Nginx1.16.1稳定版
centos 7 源码方式安装nginx(1.16.1) + ssl + 阿里证书配置
taixingyiji
2022/07/25
9410
Linux编译安装Nginx1.16.1稳定版
centos环境的python、scrapy部署
(下载地址:https://www.python.org/ftp/python/2.7.6/Python-2.7.6.tgz) Centos6.5系统自带python2.6.6,需要升级到Python2.7 安装库文件:yum install zlib-devel openssl-devel sqlite-devel 下载:wget https://www.python.org/ftp/python/2.7.6/Python-2.7.6.tgz 解压:tar zxvf Python-2.7.6.tgz 安装:
周小董
2019/03/25
1.2K0
centos环境的python、scrapy部署
相关推荐
银河麒麟V10使用Docker方式部署应用
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验