腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
抓取
数千
个
urls
、
、
、
我有一
个
抓取
urls
列表的函数,200k
个
urls
,花了很多时间,有没有办法加速这个过程?= BeautifulSoup(response.text,'html.parser') "do stuff.." ids是一
个
list
浏览 17
提问于2021-11-15
得票数 0
回答已采纳
1
回答
使用多线程的Asyncio请求
、
、
、
、
我有一
个
很大的公司列表,我正在调用一
个
REST API来获取每个公司的每日股价。详细信息存储在PostgreSQL数据库中。因为我的列表中有超过20万家公司,所以我创建了一
个
最多10
个
员工的ThreadPoolExecutor。其目的是以异步方式将每个公司id (compid)和日期范围内的两
个
连续日期传递给'fetch‘函数,从而加快整个数据收集过程。例如,对于compid = 1,应该正好有600
个
每日价格。但是,每次运行脚本时,我都会得到一
个
不同的结果,
浏览 18
提问于2020-03-04
得票数 0
回答已采纳
1
回答
下载
数千
个
urls
、
、
如你所知,我的服务每小时下载
数千
个
URL。其中一些URL来自相同的域。 为了使这个过程更快,我的应用程序包含100
个
线程。每个线程下载一
个
URL并处理它的内容。这将使被请求的web服务器感觉像是另一
个
请求信息的客户端。不好的一面是TOR is是公开的,一些服务器正在阻止这些is。因此,对于那些特定的服务器,解决方案将不起作用。
浏览 0
提问于2014-02-21
得票数 0
2
回答
抓取
数千
个
网页
、
、
我正在做一
个
需要cron在一次运行中
抓取
数千
个
网页的项目。我在谷歌上找到了很多链接,但找不到任何合适的解决方案。我使用过file_get_contents、cURL等,但脚本总是在两次执行之间失败。我也想每天
抓取
网页的数据。如果有人能为我的问题找到正确的解决方案,那将是一
个
很大的帮助。
浏览 0
提问于2014-02-12
得票数 0
1
回答
如何为列表中的每个URL创建列表/结果?
、
、
因此,我正在尝试从一
个
网站上
抓取
数千
个
网页。也就是说,一
个
域名和路径,以及
数千
个
参数。对于下面我给出的例子,'https://A.com'是我的域名。在本例中,我在['a', 'b', 'c']列表中有
数千
个
字符串形式的参数。所有这些页面都有相同的结构,我想从他们所有的页面相同的部分。scrapy.Spider): name =
浏览 10
提问于2021-05-04
得票数 0
1
回答
当我在debian上使用Python进行web
抓取
时,连接错误,超时。
、
、
、
、
我有一
个
网络
抓取
脚本,这是工作的
数千
个
链接。但有时我会收到连接错误、超时错误、错误的网关错误,而我的脚本只是停止。在这里,我的部分代码(在
urls
中,我有一
个
循环运行的链接): browser = webdriver.Firefox() browser.get(url) html = browser.page_s
浏览 1
提问于2017-09-20
得票数 2
回答已采纳
2
回答
rapidminer是否可以从
URLS
列表中提取xpath,而不是先保存HTML页面?
、
、
、
、
我想让程序从我用另一
个
程序生成的URL列表中
抓取
xpath匹配项。(与RapidMiner中的“爬网”操作符相比,它有更多的选项) 我看过Neil Mcguigan的以下教程:。但我试图
抓取
的网站有
数千
个
页面,我不想把它们都存储在我的pc上。而且网络爬虫缺乏关键功能,所以我无法使用它来达到目的。有没有一种方法可以让它读取
URLS
,然后从每个
URLS
中
抓取
xpath?
浏览 1
提问于2012-01-28
得票数 2
1
回答
PCollection中的项目数不会影响已分配的工作进程数
、
、
、
我有一
个
包含三
个
步骤的管道。在第一步中,它是接受PCollection中的5
个
urls
的ParDo。这5
个
项目中的每一
个
都会生成
数千
个
urls
并输出。所以第二步的输入是另一
个
PCollection,大小可以是100-400k。在最后一步中,每个url的
抓取
输出被保存到存储服务中。我注意到,从5
个
输入url中生成url列表的第一步分配了5
个
工作进程,并生成了一组新的
浏览 25
提问于2020-11-05
得票数 0
1
回答
在Python中
抓取
大量
urls
、
、
我有630,220
个
urls
需要打开和
抓取
。这些
urls
本身已经被
抓取
了,而且
抓取
它们要容易得多,因为每个
抓取
的页面将返回大约3500
个
urls
。为了
抓取
这630,220
个
urls
,我目前正在使用线程在Python中进行并行
抓取
。使用16
个
线程,
抓取
200
个
urls
需要51秒。因此,我需要44
浏览 4
提问于2016-11-17
得票数 0
2
回答
如何强制scrapy
抓取
重复的网址?
、
、
我正在学习,一
个
网络爬行框架。如何让Scrapy
抓取
重复的
urls
或已经
抓取
的
urls
?
浏览 1
提问于2014-04-17
得票数 25
回答已采纳
2
回答
Web刮刀在多处理时静默挂起
、
我正在
抓取
一
个
包含几十
个
基本
urls
的站点,这些
urls
最终链接到我解析的
数千
个
xml页面,转化为Pandas数据,并最终保存到SQLite数据库中。= [url1, url2, url3, ... ] results = pool.map(collect_xml_links, start_
urls
) url_list.exte
浏览 2
提问于2017-08-30
得票数 0
回答已采纳
1
回答
如何处理海量的web
抓取
请求
、
、
、
、
当我们的网页被许多客户
抓取
时,我们的服务器承受着巨大的压力。有时我们的网页是从许多不同的IP地址
抓取
的,这些IP地址不属于一些著名的蜘蛛,如Google,Bing。例如,我们有一些
urls
的模式为"“。此页面显示了有关手机的产品列表。单个搜索词的搜索结果有
数千
个
页面。所以缓存的命中率可能不是很高。因此,我想知道是否有其他解决方案来减轻我们服务器的压力。
浏览 2
提问于2018-12-09
得票数 1
2
回答
将file_get_contents与数组一起使用?
、
、
一
个
相当简单的场景;我有一
个
用户输入的url数组(可以是从1到1000+的任何数字),我想对所有的url执行file_get_contents();,然后如果可能的话,将所有这些都绑定/绑定到一
个
变量中
浏览 0
提问于2011-08-07
得票数 0
回答已采纳
1
回答
如何确保在我的Scrapy爬行器中解析每个URL
、
、
、
我尝试在美食博客上
抓取
食谱列表的每一页,
抓取
每一页上的食谱URL,然后将它们全部写入一
个
.txt文件。就我目前的代码而言,它可以正常工作,但只适用于start_requests方法中
urls
中列出的第一
个
网址。我已经添加了一
个
.log()来检查
urls
是否确实包含了我试图从其中
抓取
的所有正确的URL,当我在命令提示符中执行Scrapy时,我得到了以下确认: 2019-01-31 22:16:17 [recipesfwp_paged=%s" %
浏览 21
提问于2019-02-01
得票数 1
1
回答
如何从
数千
个
经过身份验证的
urls
中
抓取
相同的数据?
、
我需要从超过50000
个
不同的
urls
(....com0\?cid=1&aid=23&...)中
抓取
数据,只有“cid”和"aid“在变化。总是需要相同的数据字段,具有相同的选择器。你有什么建议吗?网页将SSO身份验证作为浏览器提示我正在考虑使用scrapy库,但之前没有使用scrapy的经验,这可能是一
个
遥不可及的目标。
浏览 9
提问于2020-05-15
得票数 0
3
回答
迭代地重新检查一
个
巨大的列表
我的计算机中保存了大约100,000
个
URL的列表。(这10万人很快就会增加到几百万人。)对于每个url,我会检查该网页并收集该页面上的所有其他url,但前提是每个额外的链接都不在我的大列表中。这里的问题是反复地将这个巨大的列表重新加载到内存中,这样我就可以始终拥有一
个
准确的列表。其中使用的内存量可能很快就会变得太多,更重要的是,重新加载列表之间所需的时间变得更长,这严重阻碍了项目的进度。一种格式是将所有链接包含在一
个
文本文件中,在这个文件中,我打开(Filetext).readlines()将其直接转换为一
个
列表。我保存
浏览 0
提问于2018-09-10
得票数 0
3
回答
通过mod重写创建
数千
个
urls
、
、
、
我正在编写一
个
网站,其中有很多用户存储在mysql_database中,其中每个用户都有一
个
ID和profilename (比如jim.Buon.1)等字段。我想要一
个
具有以下结构的url (它通过配置文件(例如,在www.mysite.com/jim.button.1上的一
个
mysql_select ): 现在我知道我可以用一
个
mod_rewrite_rule来完成这个任务,但是对于成千上万的用户,我会得到一
个
非常大的.htaccess文件。有什么方法可以做到这一点,比如在一
浏览 2
提问于2012-10-12
得票数 5
1
回答
使用nutch为所有内部网建立索引
、
我使用Nutch,我想索引内部网,但如何确保内部网上的所有内容都将被索引?
浏览 1
提问于2012-02-07
得票数 0
1
回答
当需要区域设置时,如何设置og:url?
、
、
我在一
个
网站上工作,其中需要将地区设置作为网址的一部分(例如)。
浏览 3
提问于2011-11-26
得票数 4
回答已采纳
2
回答
在网站中搜索特定的URL链接?
例如,如果我想要查看在我的网站上有多少次有一
个
名为oranges的页面的链接,我就会使用它。提前感谢你们所有的帮助。如果我需要更具体的东西,请告诉我!
浏览 1
提问于2012-03-08
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一个宝藏插件实现轻松抓取网页资源!
已有数千个加密货币项目夭折
恶意挖矿软件已经感染了数千个英国网站
青少年手机追踪应用暴露了数千个苹果帐户
Reddit Tippr的用户被黑客黑走数千个BCH
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券