如何修复cmdline执行错误？使用python抓取网页

文章/答案/技术大牛

发布

1回答

、、、

我试图抓取一个网页，部分代码如下所示。但是我得到了错误。非常感谢你的帮助。我试图抓取一个网页，部分代码如下所示。但是我得到了错误。非常感谢你的帮助。 # -*- coding: utf-8 -*-from scrapy import cmdlineimport pandas as pd File "/

浏览 30提问于2020-03-29得票数 0

1回答

我经常光顾许多图书馆。布鲁克林公共图书馆、皇后区公共图书馆、纽约公共图书馆和纽约州立大学图书馆。当我想要一本书时，我必须到所有4个在线目录中去搜索它。相反，我想编写一个程序，它将图书、作者、ISBN或其他关键字作为字符串，然后返回4个搜索结果，就像我手动访问每个目录站点一样。我认为这将被认为是一个网络爬虫。我很擅长遵循编程教程，当我知道我在找什么的时候，我会用谷歌搜索一些东西。我真的不知道从哪里开始，希望能得到一些建议。在进阶时谢谢。

浏览 2提问于2011-09-28得票数 1

回答已采纳

1回答

用cmdline抓取导入错误

、、、

最近，我安装了Scrapy，并在使用import和从scrapy.cmdline导入执行时收到了此错误。python如何寻找这些模块，我将如何解决这个问题？谢谢!> import scrapy File "<stdin>", line 1, in <module> File "C:\Python27\Scripts\

浏览 1提问于2014-07-01得票数 0

回答已采纳

1回答

尝试让Scrapy在Windows中使用Pycharm

、、、

我尝试添加以下内容：以及更改- /Library/Python/2.7/site-packages/scrapy/cmdline.py我的输出如下所示- from scrapy import cmdline 以及将"scriptp

浏览 0提问于2017-11-16得票数 0

4回答

程序化表单提交

、、、

我想要抓取网页的内容。内容是在填写并提交该网站上的表单后生成的。谁能给我指出正确的方向？

浏览 0提问于2008-12-26得票数 3

2回答

使用Python通过AJAX抓取网页

、、

我知道使用Python的Beautiful Soup抓取HTML的基础知识。但是，页面会进行AJAX调用，以获取球员上场时间的数据。(我使用firebug识别了网络调用)。我的问题是:有没有可能使用python来“抓取”这些信息？我需要什么工具，除了HTML我还应该知道什么？(我目前正在阅读有关JavaScript和AJAX的文章)。我为这个不明确的问题道歉，但我甚至不知道如何用谷歌搜索可能存在也可能不存在的工具。更新:几天后，我提出了一个在

浏览 0提问于2013-11-02得票数 0

1回答

使用Include？在Celerity屏幕抓取脚本中

、、

我使用to Celerity对网页进行屏幕抓取，并尝试抓取特定div类中的所有文本元素。我使用的以下代码行抛出了以下错误:参数类型错误的字符串(预期模块) (TypeError)谁能告诉我这个错误是什么意思，或者更重要的是如何修复我的代码行。

浏览 0提问于2010-12-23得票数 0

回答已采纳

1回答

Python 3-与网页交互的方式

、、

我有阅读和提取html源代码的经验(通过urllib.request)，但现在我想执行类似浏览器的操作(如填写表单，或从选项菜单中选择一个值)，然后，当然，像往常一样读取生成的html代码。我确实遇到了一些看起来很有前途的模块，但结果并不支持Python3。所以，我在这里要求提供一个库/模块的名称来完成所需的工作，或者指出标准库中的一个解决方案，如果它在那里，但我看不到它。

浏览 0提问于2012-12-09得票数 1

回答已采纳

1回答

Python -在空页面中绕过Beautifulsoup的“对象没有属性”错误

、、

为了提取我需要的文本，我能够在我的条件执行中使用Beautifulsoup的find_next_sibling来刮除大部分的网页。但是，对于一个特定的页面，网页是空的，因此Python报告了错误：由于空页似乎是由我计划抓取的页面列表中的错误生成的，而且我需要Python继续抓取，而不停止每个类似的实例，因此一

浏览 6提问于2015-10-29得票数 1

回答已采纳

1回答

Errno 32使用multiprocessing.Queue时出现管道断开错误

、、、

我正在尝试抓取一些网页，考虑到每个网页大约需要2秒，而我有20k个这样的网页，我决定使用multiprocessing库来创建几个进程来同时抓取这些网页。由于我不知道是需要抓取网页还是已经抓取了网页，因此我创建了一个带有multiprocessing.Manager.dict().的multiprocessing.Queue实例我有一个名为queueFill我尝试创建一个执行que

浏览 23提问于2018-07-29得票数 2

4回答

在批处理文件中使用scrapy crawl命令时继续批处理脚本命令

、、

我使用scrapy从网页抓取信息。我已经写了爬虫代码，它工作得很好。我还有一些其他的python代码文件来优化抓取的数据。总而言之，我有一个批处理文件，我首先在其中使用"Scrapy Crawl“命令，然后运行我的python文件来优化抓取的信息。问题是，批处理脚本在"Scrapy Crawl“命令的末尾停止，并且不会继续执行批处理文件中后面的行。我该如何解决这个问题？批处理文件的内容： CD &

浏览 1提问于2013-05-09得票数 1

回答已采纳

2回答

urllib2和wget返回HTTP403(禁止)，而浏览器返回OK

、、、、

我的浏览器可以访问一个网页，但是urllib2.urlopen() (Python)和wget都返回HTTP403(禁止)。有没有办法弄清楚到底发生了什么？我使用的是最原始的形式，比如urllib2.urlopen("http://test.com/test.php")，浏览器和wget都使用相同的url ()。

浏览 0提问于2012-12-03得票数 1

回答已采纳

2回答

无法运行Python的scrapy

、、

我不熟悉这个平台，也不熟悉Python抓取。我希望我的问题仍然是可以理解的，并且有人可以帮助我。抱歉，以防我说得不清楚...我安装了virtualenv和pip。当我现在想开始学习本教程时我得到以下错误消息： File "/Use

浏览 1提问于2013-05-20得票数 2

回答已采纳

1回答

HTML DOM基本抓取

、、、、

我试图从检查元素时出现的HTML DOM中获取特定的元素，但由于某些原因，这是在查看没有执行javascript的纯HTML代码。有什么想法吗？我做的唯一不同的事情就是这一行，以避免403错误。

浏览 0提问于2017-02-07得票数 0

3回答

如何让网络爬虫在后台抓取网页？

、

我目前正在开发一个网络爬虫在PHP中，它仍然是一个简单的，但我想知道的是，我怎样才能使我的爬虫在后台爬行页面，而不使用我的带宽，我必须使用一些cron作业，我想它自动存储在数据库中的数据。

浏览 2提问于2015-08-06得票数 0

5回答

如何使用Python将数据输入到网页以抓取结果输出？

、

我熟悉从网页抓取数据的BeautifulSoup和urllib2。但是，如果在返回我想要抓取的结果之前需要在页面中输入一个参数，该怎么办？我正在尝试使用这个网站获取两个地址之间的地理距离：我希望能够转到页面，输入两个地址，单击“显示”，然后提取“按乌鸦飞的距离”和“按陆路运输的距离”值，并将它们保存到字典中。有没有办法用Python把数据输入到网页中？

浏览 2提问于2011-08-13得票数 8

回答已采纳

1回答

如何使用环境变量为pytest配置VS代码

、、

下面是我设置launch.json的方法 { "request": "test", "console我也注意到错误 Could not load unit test config from launch.json

浏览 20提问于2020-10-29得票数 4

回答已采纳

2回答

滚动您自己的web爬虫来抓取一个有多个条目的特定网站。

、

什么样的语言能够处理编写自己的网页爬虫？但是如果我需要的话，我想有一个很好的理由去学习一门新的语言。这个想法是抓取一个有多个条目的特定网站，就像一个RSS提要，但是他们不提供该站点的RSS提要.

浏览 0提问于2011-08-02得票数 0

回答已采纳

1回答

如何避免在使用chrome selenium webdriver时出现超时错误

、、、

我已经使用selenium创建了多个python脚本，这些脚本将生成一个包含将近100,000行和25列的数据表的网页。此代码的一个示例是can be found here。然而，我一次又一次地收到这个错误消息。有没有办法修复代码，使我的网页可以继续下载，并允许我抓取它？任何帮助都是非常感谢的。

浏览 85提问于2020-04-18得票数 1

1回答

如何在找到的页面上抓取外部链接？

我使用了从他们的wiki安装nutch的示例。我能够轻松地抓取从dmoz中拉出的多个页面。但是，有没有配置可以抓取它在页面上找到的外部链接，或者将这些外部链接写入下一步要抓取的文件？什么是最好的方式来遵循一个网页上的链接，索引该网页以及与nutch？如果我通过python执行bin/nutch，我能找回它找到的所有外部链接，并创建一个新的爬网列表来再次运行吗？你怎么做？

浏览 1提问于2010-10-26得票数 2

回答已采纳

点击加载更多