腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何提取我的
爬虫
目前所站的网址?
、
、
我正在使用
python
中的scrapy框架制作一个web
爬虫
。其主要思想是,
爬虫
从页面中提取一些数据,如果数据符合某些条件,
爬虫
应该提取其当前所处的URL。是否有一些方法/函数可以
获得
当前的URL?
浏览 5
提问于2016-11-27
得票数 0
回答已采纳
3
回答
将数据从PHP脚本传递到
Python
Web Crawler
、
、
、
、
我有一个
python
爬虫
,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示
爬虫
获得
的数据。我将使用php/html作为接口。无论如何,用户界面需要某种类型的按钮来触发
爬虫
程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从php脚本发送到正在运行的
python
脚本?然后我在考虑使用一个共享文件,php在其中写入数据,
python
从中读取数据。但是,我需要一些方法来让
python</e
浏览 1
提问于2011-03-31
得票数 1
2
回答
Python
-如何使用BeautifulSoup瞄准另一个类中的类?
、
、
我正在学习如何用漂亮的汤和
Python
3创建一个
爬虫
,我遇到了一个问题,我想在一个网站上
获得
的数据有多个类,下面是一个例子: <a href="..." class="number"></a> <a href="..." class="numbe
浏览 6
提问于2015-08-17
得票数 1
回答已采纳
1
回答
从单个MongoDB队列获取信息的多个工作人员
、
、
、
、
我正在用
Python
构建一个web
爬虫
,使用MongoDB来存储一个队列,其中包含所有要爬行的URL。我将有几个独立的工人,将抓取URL。每当工作人员完成URL抓取时,它将在MongoDB集合"queue“中发出请求,以
获得
要爬行的新URL。我的问题是,既然会有多个
爬虫
,我如何确保两个
爬虫
器不会同时查询数据库并
获得
相同的URL来抓取? 非常感谢你的帮助
浏览 0
提问于2014-03-29
得票数 0
回答已采纳
2
回答
使用
python
提取网页上的URL列表的简单方法是什么?
、
我想创建一个简单的网络
爬虫
为乐趣。我需要网络
爬虫
来
获得
一个网页上的所有链接的列表。
python
库中有没有内置的函数可以让这一切变得更容易?感谢您提供的任何知识。
浏览 5
提问于2010-11-10
得票数 1
3
回答
高效网络
爬虫
的语言建议
、
、
、
我正在寻找一种语言来编写一个高效的网络
爬虫
。我所看重的东西:我试过node.
js
。
浏览 6
提问于2010-12-03
得票数 2
1
回答
如何在Linux终端上运行包含javascript内容的html文件?
、
、
我正在研究一个网站
爬虫
机器人,从中提取特定的信息。我至少需要在html文件上运行"on document ready“javascript函数,这样才能生成内容并
获得
它。我该
怎么
做呢?我看到一个叫"rhino“的命令,但它似乎只适用于.
js
文件,该文件是一个html文件。正如你可以猜到的,它里面包含html和
JS
。我们的计划是:下载html文件,编辑它们的"on document ready“
js
函数,获取输出,传递下一个,重复。
浏览 82
提问于2019-02-11
得票数 0
回答已采纳
1
回答
将Web Scraper/ Web Crawler移植到移动设备?
、
、
、
是否可以将网络爬行器/网络
爬虫
移植到智能手机等移动设备上?如果是这样,我会
怎么
做呢?
浏览 0
提问于2011-12-20
得票数 0
2
回答
python
爬虫
,这个问题要
怎么
解决?
、
浏览 276
提问于2022-01-11
1
回答
我需要饲料聚合器,建立在小规模的高性能编程语言web框架(需要建议)
、
、
、
我有不同的内容坐在不同的子领域,每一个在不同的框架和不同的数据库。 目前,我使用sqlite3实现了这一点,但我正在寻找其他(更高性能、更低占用空间)编程语言,希望它们能够更好地完成这项任务。
浏览 2
提问于2011-03-21
得票数 0
2
回答
有没有办法在
python
中抓取网页,让
爬虫
只抓取新的链接。
、
、
我想抓取一个网页(新闻),只
获得
最新的链接。我有一个
爬虫
代码,从一个网站
获得
所有的链接,需要2-3个小时来
获得
大约30000个链接,并在数据库中存储。如果下次运行
爬虫
程序时,我只想插入新的链接,该
怎么
办?我知道我可以在插入数据库之前做一个过滤器,但我希望
爬虫
只抓取新的链接,而不是再次抓取旧链接(基本上是整个网站)。有没有可能做这样的事情?
浏览 1
提问于2018-04-18
得票数 0
1
回答
“fullSetup”不是模块的已知成员“错误似乎没有引起它。
、
、
、
我正在尝试使用
Python
和Bash编写安装后脚本,并且在定义函数方面遇到了困难。以下是该程序的主要文件: while True: 我正在使用Neovim作为我的编辑,
浏览 2
提问于2021-01-13
得票数 1
1
回答
web
爬虫
如何构建URL目录以抓取所需内容
、
、
、
这是
怎么
回事? 哪里是学习更多关于网络
爬虫
的最好的地方?
浏览 2
提问于2018-10-11
得票数 1
2
回答
如何在爬行时绕过robots.txt
、
谁能告诉我,如果有任何方法可以忽略或绕过robots.txt爬行。有没有办法修改脚本,让它忽略robots.txt,继续抓取?User-agent: *Disallow:
浏览 3
提问于2015-01-21
得票数 1
2
回答
PHPCrawl可以用于抓取网站吗?与Scrapy有何不同?
、
、
、
、
它是基于
Python
的,因为我非常熟悉PHP,所以我寻找了替代方案。请建议我哪一个是最好的用来抓取网站。 谢谢
浏览 0
提问于2012-11-22
得票数 0
回答已采纳
3
回答
Python
- Twitter
爬虫
、
我想询问是否有任何方法可以让我的
爬虫
一直到页面底部,并等待页面加载(以便加载的帖子的html将被添加)。<html></html>标签将只显示当前存在的帖子,而我的
爬虫
程序将停止。u-dir"})[0].text post = item.find_all("p", {"class": "TweetTextSize TweetTextSize--normal
js
-tweet-text{"href": &q
浏览 1
提问于2017-05-30
得票数 1
1
回答
Crawler登录到gmail电子邮件帐户
、
我想写一个
爬虫
在Java中自动登录到gmail帐户。我的
爬虫
将
获得
登录Id和密码,并将登录到电子邮件帐户,并显示输出页面。我不清楚该
怎么
做。谁能告诉我如何编写
爬虫
登录到gmail电子邮件帐户?任何回应都将不胜感激。 提前谢谢。
浏览 2
提问于2010-08-27
得票数 1
3
回答
网络
爬虫
与Django前端的接口
、
、
第二:对此数据运行通宵批处理
python
脚本(文本分类)。about 建议我可以只用Django本身编写
爬虫
,但我不确定该
怎么
做。基本上--对于用Django或现有的
python
爬虫
编写我可以适应的
爬虫
有什么建议吗?或者我是否应该在第二步中加入“变成Django友好的东
浏览 0
提问于2009-06-09
得票数 2
3
回答
Mac OS -由于找不到nspr,无法安装
python
-spidermonkey
、
、
尝试在我的Mac OS上使用pip安装
python
-spidermonkey,但失败了,因为它缺少nspr:Downloading/unpacking
python
-spidermonkey Traceback/setup.py", line 186, in <module>
浏览 2
提问于2013-04-27
得票数 2
回答已采纳
2
回答
搜索引擎有没有可以抓取其他站点的构建块?
、
、
这些数据可以通过免费的分类服务和许多其他网站免费
获得
。对于构建这样的产品有什么建议吗?例如,如果我从许多地方
获得
结果,我是否需要“给予信任”,并将其链接到原始结果? 编辑:顺便说一下,我在前端使用的是带有
JS
的GWT,还没有决定后端的语言。PHP或
Python
。有什么想法?
浏览 6
提问于2009-06-18
得票数 1
回答已采纳
点击加载更多
相关
资讯
Python爬虫 获得淘宝商品评论
python爬虫:带你了解爬虫应当怎么做
学习Python爬虫怎么更换IP
(新版完结无密)Python 分布式爬虫与 JS 逆向进阶实战
Python爬虫是什么?零基础怎么学习Python?
热门
标签
更多标签
云服务器
ICP备案
云直播
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券