腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Python
使用
相同
的
起始
url
字符串
抓取
多个
网页
、
我正在尝试
使用
BeautifulSoup从alexaskillstore.com网站读取评论数据。为此,我将目标
url
指定为,其中Business-Leadership Series/后面的
字符串
随着所有不同技能
的
不同而不断变化。我想知道如何将正则表达式或类似的代码输入到我
的
输入
url
中,以便能够读取以开头
的
每个链接。
浏览 15
提问于2018-01-13
得票数 0
4
回答
如何在
抓取
的
CrawlSpider中访问特定
的
start_
url
?
、
、
我有两个Django模型,一个用于
起始
http://example.com,一个用于
抓取
的
网页
链接,如http://example.com/website1,http://example.com/website2所有
抓取
的
网页
链接都是start_urls列表中
的
一个开始网址
的
子网站。 web链接模型与
起始
url
模型具有多
浏览 1
提问于2012-05-15
得票数 7
回答已采纳
1
回答
爬行/刮取基于
网页
的
搜索表单
、
、
我想
抓取
/刮一个
网页
,它有一个表单,确切地说,下面是
URL
我
的
搜索
字符串
总是给出一个唯一
的
页面,所以结果计数不会成为一个问题。那里
的
搜索不会在
URL
上搜索(例如google包含要搜索
的
参数)。如何从
起始
页(如上)搜索并获得结果页? 请告诉我一些想法。我正在
使用
C#/.NET。
浏览 3
提问于2011-05-13
得票数 0
回答已采纳
3
回答
如何在
python
中并行
抓取
多个
html页面?
、
、
、
、
我正在用Django web框架用
Python
制作一个网络
抓取
应用程序。我需要用漂亮
的
汤库
抓取
多个
查询。下面是我写
的
代码
的
快照: r = requests.get(
url
) links= soup.find_all("a", {"class":"dev-li
浏览 0
提问于2017-05-29
得票数 2
1
回答
Web关键字搜索和计数器
、
、
以狗为例,如下所示:沿着第一个链接。沿着第二个链接。梗-219场比赛诸若此类。 我该如何去做,我需要用什么语言来写,以及这对我来说有多难(正如前面提到
的
,作为一个初学者)?
浏览 13
提问于2020-05-12
得票数 0
6
回答
如何给
抓取
URL
抓取
抓取
?
、
我想用刮擦来爬行
网页
。有办法从终端本身传递
起始
URL
吗?在中,可以给出蜘蛛
的
名称或
URL
,但是当我给出
url
时它会抛出一个错误: 文件"/usr/local/lib/
浏览 3
提问于2012-03-13
得票数 35
回答已采纳
3
回答
使用
一个字符两次
的
JavaScript正则表达式
、
、
、
所以我
使用
正则表达式从
字符串
中获取信息,问题是我需要在
字符串
中
的
/处启动和停止。var regexp = /\/(.*?)=(.*?)\//g; var match; while ((match= regexp.exec(
url
_h
浏览 2
提问于2012-06-03
得票数 1
回答已采纳
1
回答
抓取
aspx页面的
Python
代码是什么?
、
、
、
、
我
的
要求是将mcode传递给下面的web aspx查询,然后将结果
网页
打印到pdf。在上面的
url
中,唯一
的
变量是99999。因此,我
的
目标是每次传递mcode,然后将生成
的
aspx页面打印为pdf。请原谅我
的
简体语言,因为我对此还不熟悉。
浏览 2
提问于2020-03-18
得票数 0
1
回答
爬行数据,但
url
不会更改
、
、
、
我想
使用
python
从这个
网页
抓取
数据: 为到期日期和符号保留
相同
的
值,但对开始日期
的
所有值进行迭代。问题是
URL
对于所有组合都是
相同
的
,因此我无法获得我想要爬行
的
URL
列表。
浏览 0
提问于2018-06-22
得票数 0
回答已采纳
6
回答
如何
抓取
整个维基百科?
、
、
、
我意识到如果我将wikipedia.org作为
起始
网址,它将不会进一步爬行。 那么,如何
抓取
整个维基百科呢?有人能给我一些指导吗?我是否需要专门找到这些
URL
并放置
多个
起始
URL
?关于
使用
WebSphinx
的
API
的
教程,谁有好
的
网站
的
建议?
浏览 1
提问于2010-02-23
得票数 8
回答已采纳
3
回答
解码符号和散列
字符串
(|xa)等
、
、
其他答案中
的
解决方案在我尝试时不起作用,当我尝试这些方法时,
相同
的
字符串
输出。&am
浏览 4
提问于2016-07-20
得票数 7
回答已采纳
1
回答
从单个MongoDB队列获取信息
的
多个
工作人员
、
、
、
、
我正在用
Python
构建一个web爬虫,
使用
MongoDB来存储一个队列,其中包含所有要爬行
的
URL
。我将有几个独立
的
工人,将
抓取
URL
。每当工作人员完成
URL
抓取
时,它将在MongoDB集合"queue“中发出请求,以获得要爬行
的
新
URL
。我
的
问题是,既然会有
多个
爬虫,我如何确保两个爬虫器不会同时查询数据库并获得
相同
的</em
浏览 0
提问于2014-03-29
得票数 0
回答已采纳
3
回答
如何点击在href中有javascript:__doPostBack
的
链接?
、
、
我正在用
python
编写一个带有模块'mechanize‘
的
屏幕
抓取
器脚本,我想在一个在href中有javascript:__doPostBack
的
链接上
使用
mechanize.click_link()我相信我正在尝试解析
的
页面正在
使用
AJAX。>>> next_link.__class__.__name__>>> next_li
浏览 1
提问于2009-09-13
得票数 7
回答已采纳
1
回答
在满足特定条件时自动运行
python
脚本
我有一个
网页
抓取
脚本,它基本上是从一个网站上
抓取
一个故事(标题、描述/摘要和故事文本),通常在
多个
页面中,然后将其全部写到一个文本文件中。目前,我复制一个
url
并从PyCharm运行
python
脚本,它给出了我需要
的
结果。但是,我希望自动运行脚本部分,以便每当我复制包含特定文本(例如网站名称)
的
url
时,它就会自动输出文本文件,而无需每次复制
url
时运行脚本。
浏览 7
提问于2021-12-30
得票数 1
2
回答
BeautifulSoup不返回页面标题
、
、
、
我试着用Beautifulsoup4
python
模块通过web
抓取
来获取
网页
的
标题,它返回了一个
字符串
“无法接受!”作为标题,但是当我通过浏览器打开
网页
时,标题是不同
的
。我试着循环浏览链接列表和所有
网页
的
标题,但是它返回
的
字符串
是“不能接受
的
!”所有的链接。这里是
python
代码import requ
浏览 18
提问于2022-03-01
得票数 0
回答已采纳
6
回答
抓取
启用了Javascript
的
网站?
、
、
我正在尝试将信息
抓取
并提交到严重依赖Javascript来执行大部分操作
的
网站。当我在浏览器中禁用Javascript时,网站甚至无法工作。到目前为止,我一直在
使用
Mechanize,它在不需要Javascript
的
网站上工作。 有没有办法通过urllib2或类似的东西访问
使用
Javascript
的
网站?
浏览 0
提问于2010-07-29
得票数 17
2
回答
我需要关于如何加速网络
抓取
器
的
建议
、
、
、
我正在尝试从
网页
中提取数据,但我实现
的
这个方法似乎有点慢。我
使用
了time模块来缩小延迟
的
原因。requests.get(
url
)soup = BeautifulSoup(data.content)请求总是这么慢吗?雅虎
的
问题是限制来自他们服务器
的
请求吗?现在,从yahoo.com/finance上拉出一个股票价格大约需要2-5秒,请求是主要问题,有什么想法吗?
浏览 1
提问于2015-05-08
得票数 2
3
回答
我有12000个已知
的
URL
,用
Python
抓取
它们最快
的
方法是什么?
、
、
因此,我有一个从数据库中提取
的
URL
列表,我需要
抓取
和解析每个
URL
的
JSON响应。一些
URL
返回null,而其他
URL
返回发送到csv文件
的
信息。我目前
使用
的
是Scrapy,但它需要大约4个小时来
抓取
这12000个
URL
。我研究过像、和这样
的
东西,但我不确定它们是否适合我
的
用例,因为它们似乎是围绕着
抓取
网站上找到
的</
浏览 0
提问于2020-08-25
得票数 0
5
回答
在Chrome中以编程方式获取内存
使用
情况
、
、
、
、
如何在Google Chrome中以编程方式获取我
的
网站
的
内存
使用
量(JS和总内存)?我考虑过在Chrome扩展中
使用
未记录
的
HeapProfiler (参见)来做这件事,但我找不到一种方法来从中获取数据。 });}); 解析时,JS
浏览 6
提问于2013-08-27
得票数 28
6
回答
爬虫vs刮板
、
、
有人能在范围和功能方面区分爬虫和刮板吗?
浏览 0
提问于2010-07-09
得票数 71
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python网络爬虫抓取网页的含义和URL基本构成
Python网络爬虫:抓取网页的含义和URL基本构成
使用Python进行网页抓取的介绍
自学python爬虫二:如何正常操作urllib2通过指定的URL抓取网页内容
Python爬虫学习Scrapy之Spiders
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券