腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
0
回答
为什么用xpath提取数据
保存
到数据库会带有<span class="title">xxxx</span>这样的html标签?
、
、
、
、
我的本意是只想
爬
取
xxxxx,为何标签也被
爬
取了呢
图片
浏览 60
提问于2023-08-23
1
回答
你好 可以把您那个
爬
取
二手房价信息的那些个源代码发我一份不?
、
、
Scrapy
爬
取
二手房信息+可视化数据分析 谢谢
浏览 95
提问于2021-12-30
1
回答
如何用python
爬
取
数据
并
保存
到excel?
利用python
爬
取
豆瓣电影排行榜(https://movie.douban.com/chart)的数据
并
保存
到excel中。用相同代码
爬
取
网页豆瓣top250的数据可以
爬
取到excel中,但将网址及相关信息改为网页豆瓣电影排行榜中的信息时便无法
爬
取
,也找不出问题所在。以下
图片
为完整代码。
浏览 335
提问于2021-01-09
0
回答
scrapy
怎么实现自定
爬
取
深度?
、
我想实现对一个网址的
图片
进行下载,然后对该网址里面所有a标签里面的链接的
图片
进行下载,以此类推,这是我写的代码,求教大佬怎么做到在spider里用循环实现自定义深度啊import
scrapy
name = 'test_spider' url = i
浏览 243
提问于2020-04-13
2
回答
请问一下页面上的
图片
,怎样获取它的URL呢?
、
浏览 362
提问于2020-10-26
2
回答
Scrapy
没有拿起我的url
、
、
我有一个破烂的代码,应该能够采取电话和地址从一个网页中的表格: name="People"2017-02-15 20:14:26 [
scrapy
.utils.log] INFO:
Scrapy
1.3.2 started (bot', '
scrapy
.extensions.lo
浏览 0
提问于2017-02-16
得票数 0
2
回答
抓取网页信息的内部链接
、
我正在尝试
爬
取
页面这是我的代码片段:from
scrapy
.contrib.spiders import CrawlSpider, Rule class IT(
sc
浏览 20
提问于2017-08-21
得票数 1
2
回答
scrapy
菜鸟:教程。运行
scrapy
crawl dmoz时出错
、
但是当我在startproject文件夹中运行"
scrapy
crawl dmoz“时,我得到了以下错误消息:2012-04-24 18:12:56-0400 [
scrapy
] INFO:
Scrapy
0.14.0.2841 started (bot: dmoz) 2012-04-24 18:12:56-0400 [
scrapy
"c:\Python27\lib\site-packages\
s
浏览 1
提问于2012-04-25
得票数 3
1
回答
用刮伤下载整页
、
、
、
、
我要
爬
一个网站。获取它的一些页面,并将它们与所有CSS文件和图像一起存储。就像在浏览器中
保存
页面一样。我尝试过selenium,但是使用selenium,我只能
保存
html不完整的页面,所以不可能用selenium来实现这一点。 我想知道我能用
Scrapy
做这个吗?如果不可能使用
Scrapy
,我还能使用什么?
浏览 0
提问于2018-10-18
得票数 1
回答已采纳
3
回答
我怎样才能停止一个粗糙的CrawlSpider,然后从它中断的地方恢复?
、
我希望能够停止它,
保存
当前状态,并在以后恢复它,而不必重新开始。有没有办法在
Scrapy
框架中实现这一点?
浏览 0
提问于2011-09-06
得票数 13
回答已采纳
2
回答
无法在
scrapy
中创建json文件
、
、
、
我正在尝试将废弃数据
保存
到json文件中。我已经使用
scrapy
从web上删除了数据。import json name = 'quotes' }, f)
浏览 0
提问于2018-07-05
得票数 0
1
回答
Scrapy
和XPath从亚马逊提取评论
、
、
我对python和
scrapy
比较陌生,对于我正在尝试解决的问题,我需要一些帮助。我正在尝试
爬
取
亚马逊,并提取用户的评论,为特定的产品使用
scrapy
和XPath。
浏览 1
提问于2012-04-16
得票数 1
回答已采纳
1
回答
怎样在不使用API的前提下
爬
取
Twitter数据?
、
、
、
、
由于现在Twitter API 数据
爬
取
付费,所以我想在不使用Twitter API的情况下使用python
爬
取到特定关键词的Twitter数据或者Reddit数据,有什么好办法吗?
浏览 549
提问于2024-01-06
1
回答
Scrapy
如何
保存
爬
网状态?
、
我能够
保存
我的抓取状态,并且
Scrapy
成功地从我切断的地方继续。每次重新启动爬行器时,我都保持start_urls不变,即每次重新启动爬行器时,提供的start_urls的顺序和列表都是恒定的。我已经看到,requests.seen
保存
的看起来像是访问过的URL的散列值。从
Scrapy
代码中,我确信它是用来过滤重复项的。但我不确定spider.state或requests.queue做了什么来帮助
保存
状态或重新启动
爬
网。
浏览 0
提问于2019-07-04
得票数 0
2
回答
保存
Web
爬
网结果(
Scrapy
)
、
、
我已经编写了一个似乎运行正常的爬虫,但我不确定如何
保存
它正在收集的数据。from
scrapy
.spider import BaseSpiderfrom
scrapy
.contrib.linkextractors.sgmlimport SgmlLinkExtractor from
浏览 0
提问于2013-11-02
得票数 1
1
回答
Nutch API建议
、
、
我目前的需求相对简单:我需要一个能够将数据
保存
到磁盘的爬虫程序,并且我需要它能够仅重新
爬
取
站点的更新资源,
并
跳过已经
爬
取
的部分。有没有人有在Java中直接使用Nutch代码的经验,而不是通过命令行。我想从简单开始:创建一个爬虫(或类似的),最低限度地配置它
并
启动它,没有任何花哨的东西。有没有这方面的例子,或者我应该看看的资源?
浏览 0
提问于2010-12-03
得票数 6
回答已采纳
1
回答
尝试让
Scrapy
在Windows中使用Pycharm
、
、
、
我正在迁移到Windows,
并
希望让
Scrapy
与Pycharm一起工作。我尝试添加以下内容:以及更改- /Library/Python/2.7/site-packages/
scrapy
/cmdline.py我的输出如下所示- from
scrapy
import cmdline cmdline.execute("
scrapy</em
浏览 0
提问于2017-11-16
得票数 0
1
回答
如何处理UUIDS?
、
、
、
我读取这些数据,获取URL,抓取它们,并用随机生成的UUID
保存
抓取的数据。这对于第一轮爬行来说是很好的。我想要做的是看看哪些东西已经被
爬
取
,
并
更新它们,而不是添加新的记录。另外,这并不是读取URL
并
查看URL是否已被
爬
取
,因为公司可能会更改其URL,甚至更改其名称。那么如何生成这些UUID呢?
并
确保它们以某种方式链接到相同的对象,这样我就可以更新对象(记录),而不是在数据库和搜索结果中有
浏览 1
提问于2017-09-21
得票数 0
1
回答
关于正则表达式的问题?
、
、
、
、
图片
哪位大神可以教教我应该怎么改正则表达式才可以匹配我想要的数据
浏览 117
提问于2023-09-27
2
回答
如何使用crawl命令运行
scrapy
项目
、
我是
Scrapy
的新手,我正在浏览
Scrapy
教程。我已经能够使用windows7创建我的项目。我的
scrapy
安装在如下路径中: C:\Program Files\python2.7\scripts.我通过
scrapy
crawl项目源构建了一个名为元的项目,但当我尝试通过
scrapy
crawl元运行该项目时,出现了一个错误:“未知命令
爬
网”。我尝试在“C:\Program Files\python2.7\scipts\yuan\
scrapy
crawl yuan,
浏览 5
提问于2015-03-24
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Scrapy 爬虫(3):爬取数据不保存,就是耍流氓
scrapy爬取漫画
Scrapy爬虫(4)爬取豆瓣电影Top250图片
Scrapy爬取并简单分析知网中国专利数据
scrapy爬取豆瓣热门电影
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券