Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >云上部署Python3爬虫--以腾讯云+Ubuntu为例

云上部署Python3爬虫--以腾讯云+Ubuntu为例

作者头像
benny
发布于 2018-07-26 06:47:51
发布于 2018-07-26 06:47:51
1.7K00
代码可运行
举报
运行总次数:0
代码可运行

阅读文本大概需要 2 分钟。

提示


以鄙人在GitHub上的辣鸡代码为例, 其他Scrapy的项目操作类似, 本文同样适用于不使用云服务器的情形(排除掉前期准备部分即可).

前期准备


(也可以到腾讯云开发者实验室体验)

1. 购买云服务器

选择一家云服务厂商, 购买云服务器, 目前国内主流服务均有提供学生版

如果第一次购买, 可以戳这个链接

https://cloud.tencent.com/redirect.php?redirect=1010&cps_key=e042d9552c4c0be2cd377436ca42ee62

2. 下载Xshell, 使用ssh连接服务器

Xshell学生和家用是免费的, 下载地址http://www.netsarang.com/download/free_license.html

下载安装完成后,使用系统分配的公网IP, 系统用户名和对应密码连接服务器.

在Github上克隆代码


代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
git clone https://github.com/FesonX/JobCrawler.git

安装相关依赖


1. 安装Python3

项目使用Python3.6, 可以使用以下连接安装, 将文中的3.5改为3.6即可.

ubuntu14.04安装python3.5并且将其设置为python3默认启动

(https://blog.csdn.net/fireflychh/article/details/78195778)

2. 使用virtualenv(也可以使用Anaconda或Pycharm管理)

Virtualenv允许多版本Python同时在电脑上共存, 安装完Python3及pip后 终端键入

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 安装
pip3 install virtualenv
# 创建虚拟环境
virtualenv spider-env
# 激活虚拟环境
source spider-env/bin/activate
# 退出
deactivate
3. 安装库依赖

因为Scrapy依赖Python.h,在安装库依赖前在终端键入

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
sudo apt-get install libpython3.6-dev

然后安装依赖, 如果失败, 请逐条尝试

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 在JobCrawler/JobCrawler目录下
pip install -r requirements.txt
4. 安装MongoDB

参照以下连接安装 MongoDB Community Edition

(https://docs.mongodb.com/manual/administration/install-community/)

运行爬虫


终端cd到项目根目录, 键入

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# -o job.csv为可选参数, 加入则输出到指定文件中
scrapy crawl jobCrawler -o job.csv

扩展: 使爬虫开机运行


使爬虫在系统开机时自动运行, 对于许多系统来说,最简单 (如果不是最好的)的方式是使用rc.local文件 具体实现方式就交由你自己用搜索引擎探索啦


欢迎点击查看原文关注我的腾讯云社区账号

入门小白, 欢迎大家指出错误, 技术交流

今日作者: 光光同学_

不爱看电影的摄影师不是好的程序员

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-06-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序员的碎碎念 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
云上部署Python3爬虫--以腾讯云+Ubuntu为例
Xshell学生和家用是免费的, 下载地址http://www.netsarang.com/download/free_license.html
FesonX
2018/06/07
2.4K0
服务器上部署scrapy爬虫项目
爬爬们,如果你已经开始部署项目了,那么你肯定也已经写好了完整的爬虫项目,恭喜你,你很优秀! **今天忙了小半天的服务器部署,跟大家分享一些心得~
py3study
2020/01/02
1.3K0
drf项目部署到腾讯云
在购买了腾讯云服务器成功之后,腾讯云的站内信会将系统的登录名:Ubuntu,以及登录初始密码发给你。
玩蛇的胖纸
2019/07/01
4.7K0
drf项目部署到腾讯云
python3 部署
前几天去听了北京python-conf,老师们都在宣传python3的各种好处,和自力讨论之后,决定把自己的小项目都升级到python3。其实代码改起来还好,因为都是比较小的项目,问题主要卡在部署。我使用的云服务器都是ubuntu14.04的,上面默认的python3是3.4版本,而我本地的是3.6.3版本。虽然目前没问题,但为将来起见,以及为了让本地开发和线上的python版本尽量一致,故尝试在服务器上也用3.6.3的版本。
py3study
2020/01/06
6370
Django线上部署教程:腾讯云+Ubuntu+Django+Uwsgi
终于将Django成功部署到了腾讯云上,也实现了HTTPS的功能。现将步骤方法,部署环境一一列举如下,方便日后查看。
用户2416682
2019/09/27
2.9K0
Django线上部署教程:腾讯云+Ubuntu+Django+Uwsgi
腾讯云GPU服务器部署Ai绘画Stable Diffusion 小白可用
一、服务器购买 本人本地是个win10的PC 安装了 显示GPU 算力不够,升级配置也需要钱 云服务商的选择上,很普通,大家随意选择腾讯云/移动云....都可以。我是之前用的腾讯云,在腾讯云上抢的GP
用户2878251
2023/04/15
5.7K0
Linux爬虫系统从开始到部署成功全流程
做过爬虫的都知道,很多公司都会有自己的专属技术人员以及服务器,通常情况下再部署爬虫前,首先要将准备好的inux服务器进行环境部署,并且要安装必要的爬虫技术栈,一切环境部署差不多了再去部署爬虫代码。下面就是我整理的一个真实案例,可以一起看看我从准到部署完成的具体流程。
华科云商小徐
2025/06/13
1140
小白学 Scrapy 爬虫系列之一:准备实验机器
编程派
2017/05/25
1.5K0
小白学 Scrapy 爬虫系列之一:准备实验机器
如何解决Python包依赖问题
以简洁高效(指编程较为高效, 而不是运行速度)出名的Python, 在包依赖问题上有时候让人挠头.
FesonX
2018/05/30
4.3K1
如何解决Python包依赖问题
使用腾讯云配置小程序Python开发环境
之所以选腾讯云的原因很简单,那就是便宜,选用成都区,最低配置每月只需29¥。在 腾讯云 官网注册登录就可以直接购买服务器了。服务器系统我选择的是 ubuntu。
goodspeed
2020/12/22
7.8K0
使用腾讯云配置小程序Python开发环境
django2+uwsgi+nginx上线部署到服务器Ubuntu16.04(最新最详细版)
1.前期准备 1.打开Terminal终端,执行以下命令,将项目所需要的依赖包,都记录到一个文件内备用。 pip freeze >requirements.txt 2.将项目文件夹→右键→添加压缩文件
玩蛇的胖纸
2018/07/04
1.7K0
腾讯云双十一活动:腾讯云轻量应用服务器快速搭建Python开发环境指南
双十一不仅仅是购物狂欢节,对于希望享受高性能云服务的企业和开发者而言,更是入手腾讯云产品的绝佳时机!然而,面对琳琅满目的产品与各种优惠活动,如何才能买到性价比最高的产品?本文将为你深入剖析腾讯云双十一的优惠机制,教你如何用最少的预算获取最佳的云服务配置,助你在年末冲刺中脱颖而出。
一键难忘
2024/11/10
6711
腾讯云双十一活动:腾讯云轻量应用服务器快速搭建Python开发环境指南
使用Flask在服务器实现一个API接口。
主要涉及到Python3、MySQL、Flask、Nginx、uwsgi这几个东西。
小F
2020/10/09
2K0
使用Flask在服务器实现一个API接口。
【Lighthouse教程】网页内容抓取入门
网页内容抓取(Web Scraping)是指通过网页抓取工具(即Web Crawler,亦称网页爬虫)对指定网页进行设定行为的自动访问,并进行数据分析提取、最终持久化至电子表格/数据库等存储的过程。此类工作对于科学研究、推荐系统设计、大数据挖掘分析、人工智能、商业分析等多类应用领域都是不可或缺的关键步骤。
溪歪歪
2020/06/15
7.1K5
【Lighthouse教程】网页内容抓取入门
Django+nginx+uwsgi部署教程(centos7+ubuntu16.4)
项目部署教程 在线教育平台项目演示地址 1.1.原理介绍 django  一个基于python的开源web框架 uwsgi  一是一个web服务器,也可以当做中间件 nginx 常用高性能代理服务器 wsgi.py django项目携带的一个wsgi接口文件 nginx Nginx是一个Http和反向代理服务器 什么是反向代理服务器呢? 正向的就是由浏览器主动的想代理服务器发出请求,经代理服务器做出处理后再转给目标服务器 反向的就是不管浏览器同不同意,请求都会经过代理服务器处理再发给目标服务器 这其中
zhang_derek
2018/04/24
1.4K0
Django+nginx+uwsgi部署教程(centos7+ubuntu16.4)
腾讯云Linux服务器搭建一个WordPress博客
看到网络上很多人买了腾讯云服务器后却不知道怎么搭建WordPress博客,看了一下腾讯云出的WordPress教程,我觉得对新手来说难度还是太大了,所以就根据自己的建站经历写了一篇,本文采用腾讯云服务器CVM+宝塔管理面板+WordPress的方式搭建,力求简单易懂,希望能帮助到需要的朋友们。
用户5907306
2019/08/08
7.9K0
腾讯云Linux服务器搭建一个WordPress博客
(20211206更新)ubuntu18.04 安装Python3.8.3、jupyter notebook远程连接配置、虚拟环境搭建。及torch、tensorflow成功下载[通俗易懂]
但是吧,后续的pip install 会出现异常, 报错内容subprocess.CalledProcessError: Command ‘(‘lsb_release’, ‘-a’)’ 然后会看到有的会说将什么文件复制到什么地方。然后将系统的python文件夹中的所有py36 改为py38 。确实在某些操作上是行得通,但是在后续的折腾过程中还是出现了各种问题。所以现在抛弃这种了。 当然,可能也有看到有些博主会让你们进行优先级的选择,如下图所示这样的对吧
全栈程序员站长
2022/09/10
1.8K0
(20211206更新)ubuntu18.04 安装Python3.8.3、jupyter notebook远程连接配置、虚拟环境搭建。及torch、tensorflow成功下载[通俗易懂]
Python3爬虫学习.md
(1) urllib 简单的爬取指定网站 (2) Scrapy 爬虫框架 (3) BeautifulSoup 爬虫解析
全栈工程师修炼指南
2020/10/23
8580
Python3爬虫学习.md
用 Python 写你的第一个爬虫:小白也能轻松搞定数据抓取(超详细包含最新所有Python爬虫库的教程)
用 Python 写你的第一个爬虫:小白也能轻松搞定数据抓取(超详细包含最新所有Python爬虫库的教程)
猫头虎
2025/06/02
2.1K0
用 Python 写你的第一个爬虫:小白也能轻松搞定数据抓取(超详细包含最新所有Python爬虫库的教程)
Centos安装python3并使用Nginx+Gunicorn+virtualenv+supervisor来部署django项目
安装必要工具 yum-utils ,它的功能是管理repository及扩展包的工具 (主要是针对repository)
緣來
2018/09/18
2.2K0
Centos安装python3并使用Nginx+Gunicorn+virtualenv+supervisor来部署django项目
推荐阅读
相关推荐
云上部署Python3爬虫--以腾讯云+Ubuntu为例
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验