腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
修复
cmdline
执行
错误
?
使用
python
抓取
网页
、
、
、
我试图
抓取
一个
网页
,部分代码如下所示。但是我得到了
错误
。非常感谢你的帮助。我试图
抓取
一个
网页
,部分代码如下所示。但是我得到了
错误
。非常感谢你的帮助。 # -*- coding: utf-8 -*-from scrapy import
cmdline
import pandas as pd File "/
浏览 30
提问于2020-03-29
得票数 0
1
回答
使用
一个搜索字符串搜索4个网站目录
、
我经常光顾许多图书馆。布鲁克林公共图书馆、皇后区公共图书馆、纽约公共图书馆和纽约州立大学图书馆。当我想要一本书时,我必须到所有4个在线目录中去搜索它。相反,我想编写一个程序,它将图书、作者、ISBN或其他关键字作为字符串,然后返回4个搜索结果,就像我手动访问每个目录站点一样。我认为这将被认为是一个网络爬虫。我很擅长遵循编程教程,当我知道我在找什么的时候,我会用谷歌搜索一些东西。我真的不知道从哪里开始,希望能得到一些建议。在进阶时谢谢。
浏览 2
提问于2011-09-28
得票数 1
回答已采纳
1
回答
用
cmdline
抓取
导入
错误
、
、
、
最近,我安装了Scrapy,并在
使用
import和从scrapy.
cmdline
导入
执行
时收到了此
错误
。
python
如何
寻找这些模块,我将
如何
解决这个问题?谢谢!> import scrapy File "<stdin>", line 1, in <module> File "C:\
Python
27\Scripts\
浏览 1
提问于2014-07-01
得票数 0
回答已采纳
1
回答
尝试让Scrapy在Windows中
使用
Pycharm
、
、
、
我尝试添加以下内容:以及更改- /Library/
Python
/2.7/site-packages/scrapy/
cmdline
.py我的输出如下所示- from scrapy import
cmdline
以及将"scriptp
浏览 0
提问于2017-11-16
得票数 0
4
回答
程序化表单提交
、
、
、
我想要
抓取
网页
的内容。内容是在填写并提交该网站上的表单后生成的。谁能给我指出正确的方向?
浏览 0
提问于2008-12-26
得票数 3
2
回答
使用
Python
通过AJAX
抓取
网页
、
、
我知道
使用
Python
的Beautiful Soup
抓取
HTML的基础知识。但是,页面会进行AJAX调用,以获取球员上场时间的数据。(我
使用
firebug识别了网络调用)。我的问题是:有没有可能
使用
python
来“
抓取
”这些信息?我需要什么工具,除了HTML我还应该知道什么?(我目前正在阅读有关JavaScript和AJAX的文章)。我为这个不明确的问题道歉,但我甚至不知道
如何
用谷歌搜索可能存在也可能不存在的工具。 更新:几天后,我提出了一个在
浏览 0
提问于2013-11-02
得票数 0
1
回答
使用
Include?在Celerity屏幕
抓取
脚本中
、
、
我
使用
to Celerity对
网页
进行屏幕
抓取
,并尝试
抓取
特定div类中的所有文本元素。我
使用
的以下代码行抛出了以下
错误
:参数类型
错误
的字符串(预期模块) (TypeError)谁能告诉我这个
错误
是什么意思,或者更重要的是
如何
修复
我的代码行。
浏览 0
提问于2010-12-23
得票数 0
回答已采纳
1
回答
Python
3-与
网页
交互的方式
、
、
我有阅读和提取html源代码的经验(通过urllib.request),但现在我想
执行
类似浏览器的操作(如填写表单,或从选项菜单中选择一个值),然后,当然,像往常一样读取生成的html代码。我确实遇到了一些看起来很有前途的模块,但结果并不支持
Python
3。所以,我在这里要求提供一个库/模块的名称来完成所需的工作,或者指出标准库中的一个解决方案,如果它在那里,但我看不到它。
浏览 0
提问于2012-12-09
得票数 1
回答已采纳
1
回答
Python
-在空页面中绕过Beautifulsoup的“对象没有属性”
错误
、
、
为了提取我需要的文本,我能够在我的条件
执行
中
使用
Beautifulsoup的find_next_sibling来刮除大部分的
网页
。但是,对于一个特定的页面,
网页
是空的,因此
Python
报告了
错误
: 由于空页似乎是由我计划
抓取
的页面列表中的
错误
生成的,而且我需要
Python
继续
抓取
,而不停止每个类似的实例,因此一
浏览 6
提问于2015-10-29
得票数 1
回答已采纳
1
回答
Errno 32
使用
multiprocessing.Queue时出现管道断开
错误
、
、
、
我正在尝试
抓取
一些
网页
,考虑到每个
网页
大约需要2秒,而我有20k个这样的
网页
,我决定
使用
multiprocessing库来创建几个进程来同时
抓取
这些
网页
。由于我不知道是需要
抓取
网页
还是已经
抓取
了
网页
,因此我创建了一个带有multiprocessing.Manager.dict().的multiprocessing.Queue实例我有一个名为queueFill我尝试创建一个
执行
que
浏览 23
提问于2018-07-29
得票数 2
4
回答
在批处理文件中
使用
scrapy crawl命令时继续批处理脚本命令
、
、
我
使用
scrapy从
网页
抓取
信息。我已经写了爬虫代码,它工作得很好。我还有一些其他的
python
代码文件来优化
抓取
的数据。总而言之,我有一个批处理文件,我首先在其中
使用
"Scrapy Crawl“命令,然后运行我的
python
文件来优化
抓取
的信息。问题是,批处理脚本在"Scrapy Crawl“命令的末尾停止,并且不会继续
执行
批处理文件中后面的行。我该
如何
解决这个问题?批处理文件的内容: CD &
浏览 1
提问于2013-05-09
得票数 1
回答已采纳
2
回答
urllib2和wget返回HTTP403(禁止),而浏览器返回OK
、
、
、
、
我的浏览器可以访问一个
网页
,但是urllib2.urlopen() (
Python
)和wget都返回HTTP403(禁止)。有没有办法弄清楚到底发生了什么?我
使用
的是最原始的形式,比如urllib2.urlopen("http://test.com/test.php"),浏览器和wget都
使用
相同的url ()。
浏览 0
提问于2012-12-03
得票数 1
回答已采纳
2
回答
无法运行
Python
的scrapy
、
、
我不熟悉这个平台,也不熟悉
Python
抓取
。我希望我的问题仍然是可以理解的,并且有人可以帮助我。抱歉,以防我说得不清楚...我安装了virtualenv和pip。当我现在想开始学习本教程时我得到以下
错误
消息: File "/Use
浏览 1
提问于2013-05-20
得票数 2
回答已采纳
1
回答
HTML DOM基本
抓取
、
、
、
、
我试图从检查元素时出现的HTML DOM中获取特定的元素,但由于某些原因,这是在查看没有
执行
javascript的纯HTML代码。有什么想法吗?我做的唯一不同的事情就是这一行,以避免403
错误
。
浏览 0
提问于2017-02-07
得票数 0
3
回答
如何
让网络爬虫在后台
抓取
网页
?
、
我目前正在开发一个网络爬虫在PHP中,它仍然是一个简单的,但我想知道的是,我怎样才能使我的爬虫在后台爬行页面,而不
使用
我的带宽,我必须
使用
一些cron作业,我想它自动存储在数据库中的数据。
浏览 2
提问于2015-08-06
得票数 0
5
回答
如何
使用
Python
将数据输入到
网页
以
抓取
结果输出?
、
我熟悉从
网页
抓取
数据的BeautifulSoup和urllib2。但是,如果在返回我想要
抓取
的结果之前需要在页面中输入一个参数,该怎么办?我正在尝试
使用
这个网站获取两个地址之间的地理距离: 我希望能够转到页面,输入两个地址,单击“显示”,然后提取“按乌鸦飞的距离”和“按陆路运输的距离”值,并将它们保存到字典中。有没有办法用
Python
把数据输入到
网页
中?
浏览 2
提问于2011-08-13
得票数 8
回答已采纳
1
回答
如何
使用
环境变量为pytest配置VS代码
、
、
下面是我设置launch.json的方法 { "request": "test", "console我也注意到
错误
Could not load unit test config from launch.json
浏览 20
提问于2020-10-29
得票数 4
回答已采纳
2
回答
滚动您自己的web爬虫来
抓取
一个有多个条目的特定网站。
、
什么样的语言能够处理编写自己的
网页
爬虫?但是如果我需要的话,我想有一个很好的理由去学习一门新的语言。这个想法是
抓取
一个有多个条目的特定网站,就像一个RSS提要,但是他们不提供该站点的RSS提要.
浏览 0
提问于2011-08-02
得票数 0
回答已采纳
1
回答
如何
避免在
使用
chrome selenium webdriver时出现超时
错误
、
、
、
我已经
使用
selenium创建了多个
python
脚本,这些脚本将生成一个包含将近100,000行和25列的数据表的
网页
。此代码的一个示例是can be found here。然而,我一次又一次地收到这个
错误
消息。有没有办法
修复
代码,使我的
网页
可以继续下载,并允许我
抓取
它? 任何帮助都是非常感谢的。
浏览 85
提问于2020-04-18
得票数 1
1
回答
如何
在找到的页面上
抓取
外部链接?
我
使用
了从他们的wiki安装nutch的示例。我能够轻松地
抓取
从dmoz中拉出的多个页面。但是,有没有配置可以
抓取
它在页面上找到的外部链接,或者将这些外部链接写入下一步要
抓取
的文件?什么是最好的方式来遵循一个
网页
上的链接,索引该
网页
以及与nutch?如果我通过
python
执行
bin/nutch,我能找回它找到的所有外部链接,并创建一个新的爬网列表来再次运行吗?你怎么做?
浏览 1
提问于2010-10-26
得票数 2
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券