如果我们有使用python scrapy的凭据，如何抓取一个有登录的网页？

如果我们有使用Python Scrapy的凭据，可以通过以下步骤来抓取一个有登录的网页：

导入必要的库和模块：

import scrapy
from scrapy.http import FormRequest

创建一个Spider类，并设置登录URL和目标网页URL：

class LoginSpider(scrapy.Spider):
    name = 'login_spider'
    start_urls = ['https://example.com/login', 'https://example.com/target_page']

在Spider类中定义登录表单的提交方法：

    def parse(self, response):
        return FormRequest.from_response(
            response,
            formdata={'username': 'your_username', 'password': 'your_password'},
            callback=self.after_login
        )

定义登录成功后的回调方法，用于处理登录后的操作：

    def after_login(self, response):
        # 在这里可以编写登录成功后的操作，如继续抓取目标网页的数据
        # 可以使用XPath或CSS选择器来提取数据
        data = response.xpath('//div[@class="data"]/text()').get()
        yield {'data': data}

在命令行中运行Spider：

scrapy crawl login_spider

这样，Scrapy将会模拟登录并抓取目标网页的数据。需要注意的是，以上代码仅为示例，实际应用中需要根据网页的具体情况进行相应的调整。

推荐的腾讯云相关产品：腾讯云云服务器（ECS）、腾讯云容器服务（TKE）、腾讯云数据库（TencentDB）等。您可以通过访问腾讯云官网（https://cloud.tencent.com/）了解更多关于这些产品的详细信息。

在批处理文件中使用scrapy crawl命令时继续批处理脚本命令

、、

我使用scrapy从网页抓取信息。我已经写了爬虫代码，它工作得很好。我还有一些其他的python代码文件来优化抓取的数据。总而言之，我有一个批处理文件，我首先在其中使用"Scrapy Crawl“命令，然后运行我的python文件来优化抓取的信息。问题是，批处理脚本在"Scrapy Crawl“命令的末尾停止，并且不会继续执行批处理文件中后面的行。我该如何解决这个问题？批处理文件的内容： CD "spiders_folder" scrapy crawl mySpider -o outputData.json -t json python refineDat

浏览 1提问于2013-05-09得票数 1

回答已采纳

1回答

如何在scrapy中登录后重定向

、

我正在写一个scrapy程序登录从网站抓取相同的数据。据我所知，它似乎是正确登录的，但当它登录时，它会重定向到一个网页，我不希望它被刮伤。我需要它转到这个网页，https://www.starcitygames.com/myaccount/。如何让我的程序在登录后转到该页面？ import scrapy from ..items import NameItem class LoginSpider(scrapy.Spider): name = "LoginSpider" start_urls = ["https://www.starcitygames.

浏览 16提问于2019-06-20得票数 0

回答已采纳

1回答

如何在scrapy运行之前手动进行身份验证？

、

我想在登录之前抓取一个使用大量验证码挑战的网页(例如，超过20个挑战)。我如何登录，通过我解决验证码，用我的物理手，即不使用Selenium等，然后让web抓取运行。我试着在Scrapy文档、教程和网络搜索中找到做同样事情的代码，但什么也没找到。强制性的代码没有做我想问的事情，怎么做： import scrapy class BadSpider(scrapy.Spider): name = "bad" def start_requests(self): [...] def parse(self, response):

浏览 1提问于2019-06-10得票数 0

4回答

在Anaconda中安装包并在Python3中使用它

、、

我想为Windows上的Python安装一个名为"Scrapy“的库。开发人员建议使用Anaconda而不是Python3安装该包。但是，我可以在Python3中使用这个包吗?或者我需要使用Anaconda进行网页抓取吗？

浏览 55提问于2018-12-31得票数 1

1回答

如何在飞溅中模拟鼠标点击

、、

我正在抓取一个网页，，我需要点击一个按钮来访问一些数据，所以我试图模拟鼠标点击，但我对如何做到这一点感到困惑。我建议只刮JSON，因为这样会容易得多，但我真的不想刮它。我宁愿刮一个普通的网站。到目前为止，我还不知道该怎么做才能让它点击显示按钮，但这是我迄今为止最好的尝试。 import scrapy from scrapy.spiders import Spider from scrapy_splash import SplashRequest from ..items import NameItem class LoginSpider(scrapy.Spider): name =

浏览 0提问于2019-06-27得票数 0

回答已采纳

2回答

Delphi中的网页抓取

、

你知道Delphi的网页抓取库吗？就像美丽的汤或者Python的Scrapy？

浏览 1提问于2013-02-05得票数 4

回答已采纳

1回答

找不到命令'scrapy‘

、、、、

我正在尝试安装，这样我就可以写一个python程序来抓取网页，但我甚至还不能这样做，因为我需要抓取设置，所以我一直试图在我的shell中输入以下命令："scrapy startproject scrapy_javascript“，但得到以下错误："command ' scrapy‘not found”…我不知道哪里出了问题。我看了类似的问题，但没有帮助回答我的问题。我也在我下载的scrapy文件夹中。 📷

浏览 23提问于2019-05-09得票数 1

回答已采纳

2回答

Scrapy -如何抓取网站并将数据存储在Microsoft SQL Server数据库中？

、、、

我正在尝试从我们公司创建的网站中提取内容。我已经在MSSQL Server中为Scrapy数据创建了一个表。我还设置了Scrapy并配置了Python来抓取和提取网页数据。我的问题是，如何将Scrapy抓取的数据导出到本地MSSQL Server数据库中？这是Scrapy用于提取数据的代码： import scrapy class QuotesSpider(scrapy.Spider): name = "quotes" start_urls = [ 'http://quotes.toscrape.com/page/1/',

浏览 1提问于2017-04-07得票数 2

1回答

如何在一个python脚本中运行不同的scrapy项目

、、

全。我是Scrapy的新手，在同一个脚本中调用多个爬虫项目时遇到了一些困难。我有三个抓取项目，分别抓取不同的网页，并将数据存储到SQLite中。但是我不知道如何使用一个Python脚本来管理这些项目。以下是我尝试过的内容: 1.我在官方文档中看到使用了CrawlerProcess，但是这段代码不能通过管道将数据存储到SQLite中。示例代码如下： import scrapy from scrapy.crawler import CrawlerProcess class MySpider1(scrapy.Spider): # Your first spider definition

浏览 3提问于2016-04-21得票数 0

1回答

Python Scrapy不爬行网站

、、、

我对python很陌生，并试图通过一个小例子，但是我遇到了一些问题！我只能抓取第一个给定的网址，但我不能抓取超过一个网页的或整个网站的问题！请帮助我，或给我一些建议，我如何可以爬行整个网站或更多的网页，在一般情况下. 我所做的例子很简单..。我的items.py import scrapy class WikiItem(scrapy.Item): title = scrapy.Field() 我的wikip.py (蜘蛛) import scrapy from wiki.items import WikiItem class CrawlSpider(scrapy.S

浏览 4提问于2016-05-19得票数 0

1回答

抓取器正在获取相关链接。

、

我已经创建了一个使用scrapy.The爬虫爬虫的网站和抓取链接。**所使用的技术：**Python，Scrapy Error抓取相对urls，因为刮刀器无法抓取网页。我要爬虫只取无源网址。救命啊！！ import scrapy import os class MySpider(scrapy.Spider): name = 'feed_exporter_test' # this is equivalent to what you would set in settings.py file custom_settings = {

浏览 2提问于2021-06-29得票数 1

2回答

如何使用Scrapy创建Twitter爬虫？

、、

我试过使用Scrapy从Pinterest这样的网站上抓取数据，这些网站不需要登录会话进行数据抓取，但如何使用Scrapy抓取和爬行Twitter，因为要访问Twitter追随者和其他数据，我们需要首先登录。

浏览 0提问于2014-12-18得票数 2

4回答

在Scrapy中单击按钮

、、、

我正在使用Scrapy抓取网页。我需要的一些信息只有在您单击某个按钮时才会弹出(当然，单击后也会出现在HTML代码中)。我发现Scrapy可以处理表单(如登录)，如所示。但问题是没有表格可填，所以这并不是我所需要的。我如何才能简单地单击一个按钮，然后显示我需要的信息？我必须使用像mechanize或lxml这样的外部库吗？

浏览 0提问于2011-07-14得票数 62

回答已采纳

1回答

使用Scrapy通过身份验证的会话登录

、、

我正在用Python编写一个使用Scrapy的web抓取项目。作为参考，我计划的网站是。问题是登录阶段。通常，当我使用浏览器登录时，它应该将我重定向到： (发送SAML请求)。但是，在Scrapy中，我只能访问：。有人能帮我弄清楚为什么吗？非常感谢。

浏览 21提问于2022-05-01得票数 1

1回答

如何在每次爬网后阻止scrapy覆盖CSV导出文件

、

目前，我使用scrapy抓取一个网页的多个页面，并将数据导出到CSV文件。每天，爬行器都会遍历页面并保存数据；但是，它会覆盖前几天的数据。我想知道如何对管道进行编程，使其只在同一文件中从文件末尾开始写入CSV。通过这种方式，我可以将以前抓取的所有数据保存在一个位置。

浏览 0提问于2012-07-20得票数 0

1回答

如何使用Scrapy进行多页抓取？

、、、

#----\ #-----*-----\ #----/ \ \ #----\ \ #-----*-------- * <-- START #----/ / / #----\ / #-----*-----/ #----/ 这是一个我想用scrapy处理的网站的结构，其中*是一个页面，-表示链接。我想抓取#页的数据。我已经做了一个可以从一个页面抓取数据的抓取器。 import scrapy class MyItem(scrapy.Item): topic

浏览 2提问于2017-03-07得票数 1

1回答

如何使用Scrapy在页面中爬行？

、、

我使用Python和Scrapy来回答这个问题。我试图抓取网页A，它包含指向网页的链接列表-- B1、B2、B3、.每一个B页面都包含一个指向另一个页面的链接，C1、C2、C3、.，其中包含一个图像。所以，使用Scrapy，在伪代码中的思想是： links = getlinks(A) for link in links: B = getpage(link) C = getpage(B) image = getimage(C) 然而，当我试图在Scrapy中解析多个页面时，我遇到了一个问题。这是我的代码： def parse(self, response):

浏览 1提问于2013-06-10得票数 5

回答已采纳

1回答

为什么这个FormRequest不让我登录？

、、

完整的Python在这里，所以我可能会问一些痛苦的显而易见的问题，但是我已经搜索了这个站点，Scrapy文档，以及Google，我完全被困在这个问题上了。本质上，我想使用Scrapy的FormRequest将我登录到一个站点，这样我就可以从不同的页面中抓取和保存一些统计数据。问题是，提交表单后从站点收到的响应只会将我返回到主页(响应主体中没有任何登录错误通知)。我不知道我是怎么搞砸这个登录过程的。虽然它是一个弹出登录表单，但是我认为这不应该是一个问题，因为使用Firebug，我可以提取嵌入在网页中的表单的相关html代码(和xpath)。谢谢你的帮助。代码粘贴在下面(我替换了我的实际用户名

浏览 4提问于2015-06-29得票数 1

回答已采纳

2回答

如何将网站上的所有网页爬行到一定深度？

、、

我有一个网站，我想找到一个有关职位空缺信息的网页。通常只有一页有这样的信息。所以我开始爬行网站，我设法使所有的网页达到一定的深度。它起作用了。但它们被复制了很多次。而不是45页，我得到1000页。我知道原因。原因是每次我调用我的“解析”函数时，它都会在某个网页上解析所有的网页。所以当我进入一个新的网页时，它会抓取所有的网页，其中一些以前已经被抓取过了。 1)我试图从解析函数中生成"items=[]“列表，但得到了一些全局错误。我不知道如何得到一个独特的网页列表。当我有一个，我将能够选择正确的一个简单的url解析。2)我还试图在“解析”函数中有“请求”和“返回项”，但是我得到了语法错误:

浏览 4提问于2015-08-12得票数 1

回答已采纳

1回答

Scrapy screenshot网页从png到webp，不保存渲染的图像

、

抓取Scrapy屏幕截图网页，并在飞行中转换image.png到image.webp。图像占用大量内存，scrapy返回.png文件。我抓取了很多网页，所以我需要将其转换为image.webp，以减少磁盘消耗。

浏览 28提问于2021-03-03得票数 0

1回答

Scrapy用规则爬行所有链接吗？

、

代码来源：是python和scrapy的新手。我搜索递归蜘蛛并找到了这个。我有几个问题：接下来是怎么做的？它只是从页面中获取href链接并将其添加到请求队列中吗？抓取是从网页的哪一部分抓取的？下面的代码会刮掉网页上的所有链接吗？让我说我想从这个网站抓取和下载每一个文件我可能会这样做的方式是刮刮这个网站上的每一个链接，并检查URL的内容标题和下载，如果它是一个文件。这可行吗？抱歉，如果这是个糟糕的问题..。 from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.

浏览 0提问于2016-03-24得票数 0

1回答

如何修复cmdline执行错误？使用python抓取网页

、、、

我试图抓取一个网页，部分代码如下所示。但是我得到了错误。非常感谢你的帮助。我试图抓取一个网页，部分代码如下所示。但是我得到了错误。非常感谢你的帮助。 # -*- coding: utf-8 -*- import scrapy from scrapy import cmdline import re import pandas as pd import os from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import

浏览 30提问于2020-03-29得票数 0

4回答

如何在抓取的CrawlSpider中访问特定的start_url？

、、

我正在使用Scrapy，特别是Scrapy的CrawlSpider类来抓取包含某些关键字的web链接。我有一个相当长的start_urls列表，它从一个连接到Django项目的SQLite数据库中获取条目。我想将抓取的web链接保存在此数据库中。我有两个Django模型，一个用于起始http://example.com，一个用于抓取的网页链接，如http://example.com/website1，http://example.com/website2等。所有抓取的网页链接都是start_urls列表中的一个开始网址的子网站。 web链接模型与起始url模型具有多对一关系，即web链接模型

浏览 1提问于2012-05-15得票数 7

回答已采纳

2回答

从.asp文件获取数据

我的女朋友的任务是从一个网页上获取所有数据。该网页属于一家成人教育中心。要访问该网页，您必须先登录。url是一个.asp文件。她必须将数据放在Excel表格中。这些条目是学生姓名，号码，身份证号码，电话等。有数千个条目。仅HR学生就有70页的参赛作品。这一切都以表格的形式显示在网页上。可以进行复制和粘贴。我可以合理地处理Python openpyxl，我听说过web抓取，我相信Python可以做到这一点。我不知道.asp是什么。你能给我一些关于如何用Python获取数据的提示吗？我可以自动执行此任务吗？这是MySQL的案例吗？(我对此一无所知。)

浏览 13提问于2019-03-01得票数 0

2回答

如何用刮痕刮去交互式图表？

、、

我使用scrapy来抓取和抓取网页。我对如何刮这个感兴趣。如你所见，有几张图表。但是当我查看源代码时，即使在<script>标记中搜索，我也找不到点的值。如何用x作为小时，以y作为奇数值，如何刮取每个图表？简约版: 1.5.2

浏览 0提问于2019-04-16得票数 1

回答已采纳

1回答

已使用scrapy和pyquery登录到Stackoverflow，但无法进行进一步的抓取

、、

我目前正在学习使用scrapy进行web抓取，并尝试/学习各种登录stackoverflow的方法，然后提取一些问题来练习web抓取。我已经使用scrapy和pyquery成功登录到stackoverflow，使用的代码如下： import scrapy import requests import getpass from pyquery import PyQuery from scrapy import FormRequest from scrapy.utils.response import open_in_browser class QuoteSpider(scrapy.Spide

浏览 3提问于2020-10-13得票数 1

1回答

我在更新python网页时遇到问题(密码无效)

我有好几天没有更新我的网页了。我无法迁移到python27等。我无法使$./appcfg.py更新我的网页当我登录时，我得到了无效的密码。我可以在appspot.com上登录web引擎 Invalid username or password. 2014-11-04 13:05:54,237 ERROR appcfg.py:2417 An error occurred processing file '': HTTP Error 401: Unauthorized. Aborting. Error 401: --- begin server output ---

浏览 1提问于2014-11-04得票数 0

1回答

在PyQt4主循环中集成抓取/扭曲事件循环

、、、

我正在开发一个PyQt4工具，这是使用抓取网站抓取。我启动了一个新的进程多进程，以便从ui运行Scrapy爬行器。一切正常~ ui是阻塞的，Scrapy是抓取的。我希望有一个非阻塞的ui，尽管我希望在PyQt主循环中集成Twisted事件循环。有没有人知道如何尽可能简单地实现这一点？我不熟悉Scrapy / PyQt / Multiprocessing / Twisted。我用的是PyQt4，python2.7和Scrapy 0.12.0.2546的on buntu12.04盒子。提前谢谢。

浏览 2提问于2013-02-24得票数 1

回答已采纳

1回答

将在Scrapy中建立的会话cookie传递给Splash，以便在抓取js页面时使用

、、、

首先，我想说我是Scrapy的新手！我有一个网站，需要登录后才能用Scrapy刮任何数据。我将要抓取的数据是在登录后由JavaScript生成的。我已经能够成功地使用Scrapy登录。我的问题是，现在我已经登录并拥有必要的cookies来继续请求网站，当我在报告页面上调用SplashRequest时，如何将这些cookies传输到Splash，我想用Scrapy抓取这些cookie？我读过的文档对我来说很难理解，而且看起来太笼统了。我一直在寻找例子，但一无所获。我的思维过程是错误的，我应该使用Scrapy登录，然后将cookie传递给Splash，或者我应该完全通过Splash来做这件

浏览 26提问于2021-01-23得票数 0

回答已采纳

1回答

Scrapy不让我登录asp.net页面(ASPX)

、

嗨，我有问题让我的抓取蜘蛛脚本登录到aspx (asp.net)网站该脚本本应抓取一个网站的产品信息(这是一个供应商的网站，所以我们被允许这样做)，但无论什么原因，该脚本不能登录到网页使用下面的脚本，有一个用户名和密码字段以及一个图像按钮，但当脚本运行它根本不起作用，我们被重定向到主页…我相信这与页面的asp.net有关，显然我需要传递更多的信息，但我已经诚实地尝试了所有方法，我不知道下一步该做什么！我做错了什么？ import scrapy class LeedaB2BSpider(scrapy.Spider): name = 'leedab2b' s

浏览 10提问于2021-02-01得票数 0

回答已采纳

2回答

Scrapy搜索查询中的POST请求

、、、

我试图使用一个抓取蜘蛛爬行一个网站，使用一个FormRequest发送关键字到一个特定城市的网页上的搜索查询。看上去很直截了当，但我有麻烦了。Python非常新，很抱歉，如果有明显的东西，我忽略了。以下是我试图帮助我的三个主要站点:鼠标与Python 1；；Scrapy.org 3 来自我正在爬行的特定url的源代码：www.lkqpickyourpart.com\locations/LKQ_Self_Service_-_Gainesville-224/recents 从我找到的特定页面的来源：<input name="dnn$ctl01$txtSearch" type

浏览 4提问于2016-03-23得票数 4

回答已采纳

3回答

使用Scrapy抓取网页中的urls

、、

我使用scrapy从某些websites.The中提取数据的问题是我的蜘蛛只能抓取初始start_urls的网页，它不能抓取网页中的urls。我完全复制了同样的蜘蛛： from scrapy.spider import BaseSpider from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector from scrapy.http import Request from scrapy.util

浏览 2提问于2011-10-18得票数 1

回答已采纳

1回答

可以完全下载pdf文件吗？

、、、

我想从由爬虫抓取的pdf网页链接中下载许多pdf文件，但是当我在filespipeline中使用scrapy.Request(pdf_url)抓取pdf网页时，最终它下载了不完整的pdf文件。除了前几个文件(它们是完整的)之外，所有的pdf文件都是1KB的。我不得不使用requests.get(pdf_url, stream=True)完全下载所有的pdf文件，但它太慢了。我想知道scrapy filespipelines是否有类似的方法？

浏览 19提问于2019-07-11得票数 0

1回答

Python Scrapy -如何在抓取过程中重置连接？

、、

我在python3上使用scrapy，而我正在爬行的网站不允许通过蜘蛛登录他们的robots.txt文件。此外，在一些请求(32)之后，他们开始阻塞我想要访问的数据，要求登录。我需要抓取几千个页面，所以我想知道在scrappy中是否有一种方法可以在一些页面之后停止抓取，断开连接，等待几秒钟并重新连接。如果不是，那么处理我这种情况的最好方法是什么？

浏览 0提问于2018-02-10得票数 1

6回答

初学者学习Python屏幕抓取的最好方法

、、、、

这可能是很难回答的问题之一，但这里是：我不认为我自己是程序员--但我想:-)我学会了R，因为我厌倦了spss，也因为一个朋友介绍我接触了这种语言-所以我对编程逻辑并不完全陌生。现在我想学习python --主要是做屏幕抓取和文本分析，但也是为了用Pylons或Django编写webapp。那么:我应该如何开始学习使用python进行屏幕抓取呢？我开始通过，但我感觉到很多“魔法”正在发生--毕竟--我是在努力学习，而不仅仅是做。另一方面:没有理由重新发明轮子，如果Scrapy是屏幕抓取，就像Django是网页一样，那么它毕竟可能是值得直接跳到Scrapy的。你认为如何？哦-顺便说一下:

浏览 1提问于2010-12-02得票数 32

回答已采纳

2回答

使用scrapy和xpath抓取::before和::after之间的HTML元素

、、

我正在尝试用scrapy和xpath从python的网页中抓取一些链接，但是我想抓取的元素是介于：：they和::after之间的，所以xpath看不到它们，因为它们不存在于HTML中，而是用javascript动态创建的。有没有办法去掉这些元素呢？ ::before <div class="well-white">...</div> <div class="well-white">...</div> <div class="well-white">...</div> ::a

浏览 2提问于2018-09-12得票数 2

1回答

使用Scrapy抓取ajax页面

、、

我已经用Scrapy一个月了。我能够抓取和抓取几个网站(事实上我已经抓取了900个网站)，基于pipelines.Now给出的关键字，问题是当我们遇到javapages (ajax)时，抓取不能抓取。我正在尝试使用以下代码，并对抓取ajax页面进行适当的更改你们有没有用scrapy抓取javapages的好主意？第二个问题是，我面临的问题是scrapy无法抓取登录页面

浏览 2提问于2013-06-19得票数 0

回答已采纳

1回答

使用Python进行Web抓取，而无需加载整个页面

、、、

我刚用Python开始了几个web抓取项目。我目前使用lxml，Beautiful Soup和requests模块来抓取网页。我需要知道是否有任何方法可以只从网站获得我们需要的数据，而不是加载整个页面。requests模块执行GET请求并接收整个，bs4，lxml只过滤数据。我尝试过Selenium，但这也打开了浏览器，这不太适合工业项目。我对scrapy和splash一无所知。我也不是在寻找API key方法，它并不适用于所有地方。

浏览 28提问于2021-11-13得票数 0

回答已采纳

1回答

抓取我们当前所在网页的url

、、

我想知道我们是否能刮到我们目前所在网页的网址？例如，如果我想从scrapy.org中抓取数据，那么我可以定义规则来提取数据和页面中提供的链接。但是，我可以把url scrapy.org本身作为一个url从那个网页上刮下来吗？由于我们当前所在的url将不会在html文件中提及，那么有什么方法可以这样做吗？下面是我想要解决的问题：我正试着从网页上抓取工作描述。我想知道我们是否也可以提取到该页面的超链接。

浏览 1提问于2014-02-20得票数 0

回答已采纳

3回答

抓取/抓取包含特定文本的网站/网页，没有关于任何此类网站/网页的事先信息

、、、、

我用的是nutch和scrapy。它们需要种子URL才能爬行。这意味着，人们应该已经意识到包含正在搜索的文本的网站/网页。我的情况不同，我没有包含我正在搜索的文本的网站/网页的事先信息。所以我不能使用种子URL来被像nutch和scrapy这样的工具抓取。有没有一种方法可以抓取给定文本的网站/网页，而不需要知道任何可能包含该文本的网站/网页？

浏览 0提问于2016-01-20得票数 0

1回答

scrapy避免爬虫注销

、

我正在使用scrapy库来方便抓取网站。网站使用身份验证，我可以使用scrapy成功登录页面。该页面有一个URL，该URL将注销用户并销毁会话。如何确保scrapy在爬行时避免注销页面？

浏览 1提问于2013-07-11得票数 1

回答已采纳

1回答

webscrape我需要登录LinkedIn才能进行网络抓取(刮伤)

、、、

我目前正在为Linkedin创建一个网络刮刀，但是LinkedIn阻止我的机器人抓取数据，因为我没有登录到任何帐户。我的目标基本上是刮掉公司提供的任何工作机会，但我的问题主要是在代码的登录方面。我在Python3.x上使用scrapy和formrequest。因此，我在网上寻找解决方案，表单请求包似乎是我需要的答案。然而，经过几次尝试，它仍然不起作用。 import scrapy from scrapy.http import FormRequest from scrapy.utils.response import open_in_browser from ..items import

浏览 1提问于2019-05-27得票数 2

1回答

不定域数

、、、、

我正在抓取一个网页，每一页上都会有不确定数量的相关元素，我计划把它们放在自己的桌子上。但是，如何动态地创建scrapy.Field()元素来处理这个问题呢？或者你不需要还是？示例为了简单起见，假设我是在刮随机人物的个人资料页。有些人有宠物，有些人没有，有些人有很多宠物，有些人只是养了一只。我该怎么处理呢？如何根据需要动态创建尽可能多的pet字段？ name = scrapy.Field() age = scrapy.Field() height = scrapy.Field() pet = scrapy.Field() # pet1 = scrapy.Field() # pet2 = sc

浏览 0提问于2018-07-25得票数 0

1回答

如何在Scrapy项目中使用PyMongo MongoDB插入新记录时删除重复项

、、、、

在我的Scrapy项目中，我使用PyMongo将抓取的数据存储在MongoDB中。在以逐页的方式抓取网页时有重复的记录，我只想删除那些在插入到数据库中时具有相同名称的重复记录。请给我推荐最好的解决方案。下面是我用"pipelines.py"编写的代码。请指导我如何去除"process_item"方法中的重复项。我发现在互联网上很少有从数据库中删除重复项的查询，但我想要一个Python解决方案。 from pymongo import MongoClient from scrapy.conf import settings class MongoDBPipelin

浏览 13提问于2018-08-21得票数 1

1回答

如何将webkit与scrapy一起使用

、、

我需要用javascript抓取一个网页，看起来这个问题在的例子中已经解决了，代码使用webkit downloader类。我知道我需要调用process_request函数。我应该在请求中作为参数传递什么？我查看了scrapy文档，看看是否必须传递在scrapy中创建的请求对象，但这不起作用。另外，我知道爬行器对象将作为最后一个参数在process_request中传递。应该是哪个对象？对不起，我刚接触python，scrapy和webkit，所以可能会问questins，答案是显而易见的。

浏览 0提问于2012-10-28得票数 0

回答已采纳

3回答

什么是一个好的爬行速度？

、、

我正在抓取网页以创建一个搜索引擎，并且已经能够在1小时内使用Scrapy抓取近9300个页面。我想知道我还能提高多少，以及什么值被认为是“好”的爬行速度。

浏览 0提问于2018-03-26得票数 5

3回答

登录到页面，然后使用JSOUP解析html

、、、、

我目前有一个应用程序，它从用户那里获取用户名和密码，然后在webview上使用javascript命令登录并显示页面。我现在想避免使用网页视图，所以我计划使用jsoup来拉取页面的必要部分，并使用诸如文本视图之类的东西来呈现。那么，如何使用jsoup执行javascript来让用户登录，然后抓取html呢？

浏览 1提问于2014-05-16得票数 0

1回答

如何抓取角形JS网络应用程序？

、、、、

我正在尝试抓取一个网页应用程序，它的第一个障碍是登录，是建立在角度js。我使用scrapy和selenium来抓取网站，但是登录有一个问题。我有一个帖子，我在那里寻求帮助，，但我没有得到任何帮助。问题是，当我使用selenium(如下所示)读取body元素的innerHTML时，它给了我空白的响应。为什么会这样呢？是因为HTTPS还是因为其他权限问题？此外，如果有人可以帮助我如何使用刮伤和硒，同时登录和曲奇废网站。那会很有帮助的。 def crawl_url(url, run_headless=True): if run_headless: display = Dis

浏览 0提问于2015-06-23得票数 1

回答已采纳

1回答

如何从网站上抓取二级网页

、、、、

我想问你如何使用python + Beautiful soup或Scrapy来抓取网页，如果有2个级别的页面，一个简短的描述+一个到职位帖子完整细节的链接，那么它包含了例如招聘公告？我需要从招聘公告的标题中抓取数据，然后更深入地提取完整的描述，并将这些数据添加到数据库或文本文件中？问题是转到第二层，在那里完整的描述和获得完整的细节，包括图像链接，如果存在的话…有人这么做过吗？提前谢谢你。

浏览 0提问于2019-09-26得票数 1

2回答

使用用户名和密码从外部站点抓取数据

、、

我有一个有许多用户的应用程序，其中一些用户在外部网站上有一个我想要抓取的数据的帐户。此外部网站有一个由电子邮件/密码表单保护的成员区域。这会在提交时设置一些cookie(几个ASP )。然后，您可以打开所需的页面并获取外部站点为刚登录的用户保存的数据。外部站点没有API。我设想我的应用程序要求用户提供外部站点的凭据，代表他们登录并获取我们想要的数据。我该如何在Python中实现这一点呢?也就是说，我是否需要在Python提供的服务器上运行GUI web浏览器来处理cookie(我不希望这样做)？

浏览 2提问于2015-05-05得票数 0