腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用
BeautifulSoup
从
多个
页面
进行
多线程
文件
下载
的
网络
抓取
、
、
我想从下面的网站上用相同
的
html标签
从
多个
页面
上
抓取
多个
下载
按钮: https://data.jakarta.go.id/dataset/indeks-standar-pencemaran-udara-ispu-tahunindeks-standar-pencemaran-udara-ispu-tahun-2012 https://data.jakarta.go.id/dataset/in
浏览 22
提问于2021-06-24
得票数 1
回答已采纳
5
回答
Python中
的
多线程
爬虫真的可以提高速度吗?
、
、
我想用python写一个小
的
网络
爬虫。我开始研究将其编写为
多线程
脚本,一个线程
下载
池和一个池处理结果。由于有了GIL,它真的可以同时
下载
吗?GIL对
网络
爬虫有什么影响?会不会每个线程
从
套接字中提取一些数据,然后转到下一个线程,让它从套接字中提取一些数据,等等?谢谢!
浏览 4
提问于2010-05-14
得票数 10
回答已采纳
9
回答
BeautifulSoup
和Scrapy crawler有什么区别?
、
、
、
我想做一个网站,显示亚马逊和易趣产品价格
的
比较。其中哪一个会工作得更好?为什么?我对
BeautifulSoup
比较熟悉,但对Scrapy crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
1
回答
减少创建
BeautifulSoup
对象时
的
开销
、
我对
网络
抓取
和
使用
Python语言中
的
BeautifulSoup
库非常陌生,所以我遇到了这个问题:我必须
从
大量
的
网页中
下载
和
抓取
内容,
下载
它们不是问题,但是当我为每个
页面
创建一个
BeautifulSoup
对象(为了解析它)时,我
的
程序变得非常慢。我在问您,是否有一种方法可以减少这种开销,并且可能避免为我要分析
的
每个新
页面
创建一个
浏览 0
提问于2020-10-08
得票数 0
5
回答
如何
从
其他网站获取数据?
、
、
、
我想创建一个网站,
从
其他网站提取信息,并将它们打印到我
的
网站上,我正在
进行
研究,所以我想听取一些意见,这个项目的最佳解决方案是什么?我听说Python
使用
解析器可以做到这一点,我只是想知道我应该走哪条路,应该
使用
哪种语言?
浏览 1
提问于2013-06-14
得票数 4
2
回答
通过java中
的
FTP异步
下载
文件
、
、
、
我需要通过java
的
FTP
下载
多个
文件
。为此,我
使用
FTPClient编写了一段代码,该代码将
文件
逐个
下载
。我需要从服务器获取
文件
并
下载
到另一个
网络
。在编写了代码之后,我发现
下载
每个
文件
需要更多
的
时间,因为
文件
大小很大(超过10 as )。我决定
多线程
进程,即一次运行
多个
文件
。有人能帮我在<e
浏览 2
提问于2018-07-16
得票数 0
5
回答
正在寻找关于web
抓取
项目最佳实践
的
好教程
的
推荐吗?
、
、
、
、
我需要做一个相当广泛
的
项目,涉及
网络
抓取
,并正在考虑
使用
Hpricot或美丽
的
汤(即Ruby或Python)。有没有人看到过他们认为在这个主题上特别好
的
教程,可以帮助我
从
正确
的
角度开始这个项目?
浏览 0
提问于2009-03-26
得票数 4
3
回答
网络
刮擦冠状病毒互动图
、
、
、
、
我正在尝试
抓取
新冠肺炎
的
相关数据。我可以
从
网站上
下载
一些数据,例如,病例总数,但不能从交互式图表中
下载
数据。我通常通过在inspect element
页面
的'network‘中查找源代码来获取json
的
交互图。然而,我找不到交互式图形
的
“
网络
”来
抓取
。只是想说清楚。我不想
浏览 2
提问于2020-03-06
得票数 0
1
回答
Python web
抓取
: google搜索结果中
的
网站
、
、
、
、
Python
的
新手。我想从一个谷歌搜索
页面
从
多个
网站(例如100+)提取信息。我知道如何
从
google搜索中收集网站URL列表;我还知道如何在查看
页面
的HTML后对单个网站
进行
网络
抓取
。我
使用
Request和
BeautifulSoup
来完成这些任务。但是,我想知道如何
从
所有这些(100+ !)中提取关键信息。网站,而不必逐个查看它们
的
html。有没有办法自动找出网
浏览 18
提问于2021-03-31
得票数 1
2
回答
使用
Python在youtube中搜索打开第一个视频
、
、
、
我试了试,但不知道如何打开第一个视频。此代码在浏览器中打开搜索。 words = search.split() link += i + "+" webbrowser.open_new(link[:-1])
浏览 1
提问于2020-04-10
得票数 3
4
回答
如何用python
抓取
网站/将数据提取到数据库中?
、
我想建立一个
网络
应用程序,以帮助其他学生在我
的
大学制定他们
的
时间表。要做到这一点,我需要爬行主日程(一个巨大
的
html
页面
),以及链接到每个课程
的
详细描述到一个数据库,最好是在python中。我可以/应该
使用
哪些工具/库? 已经有很好
的
解决办法了吗?
浏览 5
提问于2011-12-01
得票数 12
回答已采纳
1
回答
使用
单个URL在
多个
页面
上刮取表
、
、
、
我正试着
从
Fangraphs中
抓取
数据。表格被分成21个
页面
,但所有
页面
都
使用
相同
的
url。我对webscraping (或者一般
的
python )非常陌生,但是Fangraphs没有公共API,所以
抓取
页面
似乎是我唯一
的
选择。我目前正在
使用
BeautifulSoup
来解析超文本标记语言代码,我能够
抓取
初始表,但那只包含前30个球员,但我想要整个球员池。两天<em
浏览 21
提问于2020-04-18
得票数 1
回答已采纳
1
回答
如何配置Scrapy以
使用
BeautifulSoup
解析器
、
、
、
我
使用
BeautifulSoup
的
默认html.parser
从
任何网页中提取数据,没有什么原因让我觉得它比
使用
XPATH/CSS选择器更灵活、更强大。在
抓取
之前,我学习了
使用
BeautifulSoup
进行
网络
抓取
。我想不出一种让Scrapy
使用
bs4作为解析器
的
方法。有可能吗?
浏览 2
提问于2019-08-18
得票数 0
回答已采纳
2
回答
Python
从
多个
页面
请求.get()?
、
、
、
我正在学习如何
使用
python
进行
网络
抓取
,我想知道是否可以
使用
requests.get()
抓取
两个
页面
,这样我就不必
进行
两个单独
的
调用和变量。例如:r2 = requests.get("page2") pg
浏览 0
提问于2017-06-03
得票数 2
2
回答
尝试
从
同一下拉菜单
下载
多个
文件
- Python Selenium Chromedriver
、
、
、
我在尝试
使用
Selenium Chromedriver
从
网站上
的
同一下拉菜单
下载
两个单独
的
文件
时遇到了问题。 我有代码来单击这两个链接,但它只确认第一个链接;第二个
文件
不会被
下载
。我知道,当我不
使用
webdriver时,我可以同时
进行
多个
下载
,所以可能问题是chromedriver一次只允许一个
下载
?我没有把握。我尝试在电子表格和shapefile点击之间添加一个
浏览 25
提问于2020-09-09
得票数 1
回答已采纳
5
回答
从
网站
下载
所有.pdf
文件
的
Python/Java脚本
、
、
、
我想知道是否可以编写一个脚本,以编程方式遍历网页并自动
下载
所有.pdf
文件
链接。在我开始尝试之前,我想知道这是否可能。 问候
浏览 5
提问于2014-02-15
得票数 12
回答已采纳
1
回答
使用
Python和
BeautifulSoup
抓取
多个
页面
-网站url不起作用
、
、
、
我
的
python代码成功地
从
https://www.groupeactual.eu/offre-emploi中
抓取
文本并将其保存到csv
文件
中。然而,在上面的网站上有
多个
页面
可用,我希望能够在其中刮。例如,
使用
上面的url,当我单击指向"page 2“
的
链接时,整个url会发生变化,但当我在代码中
使用
该url时,我会得到来自page 1
的
结果。 如何更改我
的
代
浏览 16
提问于2020-07-17
得票数 1
1
回答
使用
python
从
网站
下载
文件
、
我需要
下载
所有的
文件
从
()给定
的
网站。它有1995年到2017年
的
数据,每年都有需要
下载
的
文件
的
多个
链接。Th
文件
采用.pdf、.htm和.txt格式。我试着通过查看各种教程来
抓取
数据,但我需要做
的
与通常
的
web
抓取
教程不同。我
使用
了以下代码,但它没有达到我
的
目的。我是python
的<
浏览 0
提问于2017-05-26
得票数 1
2
回答
C++中
的
异步函数
、
、
、
、
现在,正在以同步方式执行来自队列
的
请求
的
消耗和适当函数
的
启动。我想要
的
是
使用
者线程
从
队列中弹出一个请求,并以异步方式启动适当
的
函数,以便
使用
者能够立即从队列中弹出下一个请求。我尝试过
的
一个解决方案是,
使用
者
从
队列中弹出一个请求,并创建一个boost::thread并在一个新线程中启动适当
的
函数。考虑到这一点,如果线程已经完成了它
的
处理并退出了,那么它不应该
浏览 1
提问于2013-01-21
得票数 1
回答已采纳
1
回答
用python
抓取
出现在单击中
的
表
、
、
、
、
我想从这个中
抓取
信息。我对
网络
抓取
很陌生,并且尝试过
使用
BeautifulSoup
来做这件事。换句话说:我直接
从
页面
中
抓取
的
HTML代码不包括我想要获得
的
表。 我对我
的
下一步感到有点困惑:我是应该
使用
selenium之类
的
东西,还是应该以更
浏览 1
提问于2017-09-10
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫实现多线程数据采集
网站建设完成后, 做seo必须知道的专业知识之--蜘蛛程序通道
使用多个Python库开发网页爬虫(一)
使用多个Python库开发网页爬虫(二)
马蜂窝数据被扒光,用Python 爬取网页信息 4 分钟就能搞定
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券