前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Python爬取惠农网苹果数据,看看新鲜的水果价格如何

Python爬取惠农网苹果数据,看看新鲜的水果价格如何

作者头像
松鼠爱吃饼干
发布于 2020-11-11 02:51:30
发布于 2020-11-11 02:51:30
94700
代码可运行
举报
文章被收录于专栏:Python分享Python分享
运行总次数:0
代码可运行

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

本次目标

爬取惠农网信息

受害者地址

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://www.cnhnb.com/

环境

Python3.6

pycharm

爬虫代码

导入工具

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import requests
import parsel
import csv
import time

请求头

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
headers = {
    'Cookie': 'deviceIdRenew=1; Hm_lvt_91cf34f62b9bedb16460ca36cf192f4c=1604579356,1604659451; deviceId=d1dd5b9-d191-406b-971d-391916a0e; sessionId=S_0KH64T2IHLHSO77N; lmvid=b24dcd0ad2a8f0b783f248c7ff2675a8; lmvid.sig=w1UBnTUKSDq-GfAlx6TyR_K7SjyujGIlF-1kRjTrOAI; hnUserTicket=b80e6b3a-38a3-432c-816d-aeb0376228bd; hnUserId=870048250; Hm_lpvt_91cf34f62b9bedb16460ca36cf192f4c=1604659904',
    'Host': 'www.cnhnb.com',
    'Referer': 'https://www.cnhnb.com/supply/pingguo/',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
}

解析网站、爬取数据

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def get_page_url(page_url, page_id):
    response_2 = requests.get(url=page_url, headers=headers)
    selector_2 = parsel.Selector(response_2.text)
    num_id = selector_2.css('#__layout > div > div > div > div > ul > li:nth-child(1) > a::attr(href)').get().split('/')[2]
    title = selector_2.css('.proinfo-title::text').get().strip()    # 标题
    update_time = selector_2.css('.update-time::text').get().strip('更新时间:')   # 更新时间
    price = selector_2.css('.priceTxt .orange .fs30::text').get().strip() + '元'     # 价格
    ads = selector_2.css('div:nth-child(5) > span.fs14.gray6::text').get()      # 发货地址
    get_phone_url = 'https://gateway.cnhnb.com/banana/im/operate/wechatcall'
    data = {
        'businessType': '1',
        'sourceFrom': '2',
        'ticket': '"b80e6b3a-38a3-432c-816d-aeb0376228bd"',
        'userId': '{}'.format(num_id),
    }
    head = {
        'authority': 'gateway.cnhnb.com',
        'method': 'POST',
        'path': '/banana/im/operate/wechatcall',
        'scheme': 'https',
        'accept': 'application/json, text/plain, */*',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'zh-CN,zh;q=0.9',
        'cache-control': 'no-cache',
        'content-length': '98',
        'content-type': 'application/json',
        'origin': 'https://www.cnhnb.com',
        'pragma': 'no-cache',
        'referer': 'https://www.cnhnb.com/gongying/{}/'.format(page_id),
        # 'Cookie': 'deviceIdRenew=1; Hm_lvt_91cf34f62b9bedb16460ca36cf192f4c=1604579356,1604659451; deviceId=d1dd5b9-d191-406b-971d-391916a0e; sessionId=S_0KH64T2IHLHSO77N; lmvid=b24dcd0ad2a8f0b783f248c7ff2675a8; lmvid.sig=w1UBnTUKSDq-GfAlx6TyR_K7SjyujGIlF-1kRjTrOAI; hnUserTicket=b80e6b3a-38a3-432c-816d-aeb0376228bd; hnUserId=870048250; Hm_lpvt_91cf34f62b9bedb16460ca36cf192f4c=1604659904',
        'sec-fetch-dest': 'empty',
        'sec-fetch-mode': 'cors',
        'sec-fetch-site': 'same-site',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
        'x-b3-traceid': '0KH64WG5WL1GXPNG',
        'x-client-appid': '5',
        'x-client-id': 'c10e4e9a-5e19-4ba2-a934-c8c5c56680f5',
        'x-client-nonce': '62f080cd-ad30-4590-b362-b1c9e660a8d5',
        'x-client-page': '/gongying/{}/'.format(page_id),
        'x-client-sid': 'S_0KH64W0GT18JX07L',
        'x-client-ticket': 'b80e6b3a-38a3-432c-816d-aeb0376228bd',
        'x-client-time': '1604659611092',
        'x-hn-job': 'If you see these message, I hope you dont hack us, I hope you can join us! Please visit https://www.cnhnkj.com/job.html',
    }
    response_3 = requests.post(url=get_phone_url, json=data, headers=head)
    html_data = response_3.json()
    if html_data['errorCode'] == 0:
        dit = {
            '标题': title,
            '更新时间': update_time,
            '价格': price,
            '发货地址': ads,
            '联系方式': html_data['data']['messageTitle']
        }
        csv_writer.writerow(dit)
        print(dit)
    else:
        dit = {
            '标题': title,
            '更新时间': update_time,
            '价格': price,
            '发货地址': ads,
            '联系方式': '商家设置防打扰'
        }
        csv_writer.writerow(dit)
        print(dit)

保存数据

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
f = open('惠农网信息.csv', mode='a', encoding='utf-8-sig', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['标题', '更新时间', '价格', '发货地址', '联系方式'])
csv_writer.writeheader()

效果图

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 松鼠爱吃饼干 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
[eslint配置和rule规则解释
ESLint 是一个ECMAScript/JavaScript 语法规则和代码风格的检查工具,它的目标是保证代码的一致性和避免错误。
用户4792657
2022/07/06
3.1K0
ESLint配置信息完整版
##ESLint配置信息完整版 #####说明: "no-undef": 0,和"no-undef": 'off',一样,表示关闭该功能 "no-undef": 1, 表示仅提示 "no-undef": 2, 表示报错 ####配置信息(来自网络) “no-alert”: 0,//禁止使用alert confirm prompt “no-array-constructor”: 2,//禁止使用数组构造器 “no-bitwise”: 0,//禁止使用按位运算符 “no-caller”: 1,//禁止使用a
从入门到进错门
2019/06/21
2.4K0
Eslint规则说明
"no-alert": 0,//禁止使用alert confirm prompt "no-array-constructor": 2,//禁止使用数组构造器 "no-bitwise": 0,//禁止使用按位运算符 "no-caller": 1,//禁止使用arguments.caller或arguments.callee "no-catch-shadow": 2,//禁止catch子句参数与外部作用域变量同名 "no-class-assign": 2,//禁止给类赋值 "no-cond-assign":
2021/11/08
2.7K0
手把手教你在vue-cli3中配置eslint
vue-cli3按照官网教程配置搭建后,发现每次编译,eslint都抛出错误 error: Expected indentation of 4 spaces but found 0 (indent) at src\views\User.vue:26:1: 1 error found. 1 error potentially fixable with the `--fix` option. You may use special comments to disable some warnin
前端老鸟
2019/09/12
4.7K0
关于eslint
ESLint 是一个用来识别 ECMAScript/JavaScript 并且按照规则给出报告的代码检测工具,是一个用来检查代码的工具。
xyzzz
2020/12/21
3.1K0
Eslint使用入门指南
ESLint最初是由Nicholas C. Zakas 于2013年6月创建的开源项目。它的目标是提供一个插件化的javascript代码检测工具。
Snine
2022/02/21
2.2K0
vscode中支持vue-cli3构建的项目eslint对vue文件的检测
在vue-cli中为了能让vscode能提示.vue文件中的js代码,我们引入了eslint-plugin-html这个eslint插件(使用方法参考VSCode环境下配置ESLint 对Vue单文件的检测) 最近开始使用vue-cli3构建项目,主要目的是为了简化项目代码结构和提高编译性能。当我们使用以前的方案去实现vscode对.vue文件的eslint检测时却发现始终无法识别,而且提示以下内容
fastmock
2022/07/13
1.2K0
React 开发常用 eslint + Prettier vscode 配置方案
要知道 eslint 和 Prettier 所做的事情都是基于编辑器支持的,所以我们做的所有的事情基本都是做给编辑器看的,配置的所有参数配置也是为了编辑器配置的。
fastmock
2022/07/13
3.4K0
鸿蒙高质量代码静态检测200条一
龙儿筝
2024/11/19
1380
鸿蒙高质量代码静态检测200条一
Vue3学习笔记(八)—— Vite、ESLint
Vite(法语意为 "快速的",发音 /vit/,发音同 "veet")是一种新型前端构建工具,能够显著提升前端开发体验。它主要由两部分组成:
张果
2023/02/03
13.7K0
ESLint静态代码检查
ESLint是一个用来识别 ECMAScript 并且按照规则给出报告的代码检测工具,使用它可以避免低级错误和统一代码的风格。如果每次在代码提交之前都进行一次eslint代码检查,就不会因为某个字段未定义为undefined或null这样的错误而导致服务崩溃,可以有效的控制项目代码的质量。
xiangzhihong
2022/11/30
2.2K0
ESlint规范下编码真的这么难嘛?
ESlint规范附带了一些默认规则,并要求严格执行,否则将会报错 .那如何在ESlint的严格规范下,自由编码
用户9914333
2022/07/21
3890
代码提交检查
husky主要是触发钩子函数的,lint-staged主要是检查,eslint则是约束工具
w候人兮猗
2020/06/24
3.7K0
JavaScript Standard Style(JS Standard 代码风格规则详解)
现在所有流行的代码压缩器都是通过 AST 压缩,因此它们在处理没有分号的 JavaScript 代码时没有问题(因为 JavaScript 不是必须使用分号)。
FungLeo
2019/05/26
2.8K0
鸿蒙高质量代码静态检测200条四
龙儿筝
2024/11/19
1320
鸿蒙高质量代码静态检测200条四
前端代码规范(es6,eslint,vue)
为每个 HTML 页面的第一行添加标准模式(standard mode)的声明,这样能够确保在每个浏览器中拥有一致的展现。
山河木马
2019/03/05
6.1K0
前端代码规范(es6,eslint,vue)
花十分钟的时间武装你的代码库
当我们的代码库有很多人维护时,经常会出现代码风格不一致或者代码质量不过关,提交信息杂乱的情况,当然啦,即使是一个人的代码库,有的时候,自己写代码时不太注意细节,也会出现风格不一致的情况。
刘小夕
2020/08/17
2.6K0
前端工程化之 commitlint + husky 实现 git 提交规范化
对于编程语言进行「语法、书写」校验,能有效「归并」不同开发者的「不同风格」,还能检验出一些语法错误。
小鑫
2022/05/11
3.6K0
前端培训二:前端代码规范
尽量遵循 HTML 标准和语义,但是不要以牺牲实用性为代价。任何时候都要尽量使用最少的标签并保持最小的复杂度。
Yuyy
2022/06/28
1.1K0
SwiftLint 规则
| identifier | opt-in | correctable | enabled in your config ----------------------+ | 以下是可选规则, 需要额外添加 | attributes | yes | no | no Attributes 针对类和func重启一行, 针对变量在同一行 | closure_end_i
星宇大前端
2020/04/21
2.2K0
相关推荐
[eslint配置和rule规则解释
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验