腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
1
回答
如何让我的angular js网站在搜索引擎上可抓取??
、
我想让我的angular js网站可被搜索引擎抓取。 我的网站没有被谷歌抓取??
浏览 1
提问于2016-02-14
得票数 0
1
回答
抓取问题(data-reactid)
、
、
、
、
我正在尝试抓取一个网站,并根据我提取的数据编辑一个电子表格。 我要抓取的网站是。 我对抓取没有太多的经验,但我的方法是在html标签中找到独特的属性,并用它来抓取我想要的东西。 所以对于这个网站,我的方法是首先抓取页面的URL列表,当你点击其中一个体验时,例如:, 其次,在这个列表中循环,每次都要抓取相关的属性。然而,我被困在了第一步,因为我遇到的不是简单的"a href“标签,而是"data-reactid”标签,这会让事情变得混乱。 我使用iMacros进行抓取,但我现在对Java语言相当在行,所以如果需要的话,我会学习用Java语言进行抓取(这似乎很有可能,因为iMacr
浏览 2
提问于2015-04-30
得票数 2
2
回答
关于从互联网上抓取/抓取/收集音频内容的最佳方法的建议/提示
、
、
、
、
实际上我要做的是弄清楚BEEMP3.COM是如何工作的。 由于网站的速度,我怀疑他们在现场抓取了其他网站/资源。他们可能使用某种类型的数据库(PostgreSQL或MySQL)来存储“结果”,然后只查询搜索条件。 我的问题是,你们认为他们是如何抓取或抓取mp3文件/内容的?他们必须有一些算法,以蜘蛛的互联网或使用谷歌的索引mp3技巧找到主机与原始的mp3文件。 如有任何意见、建议或想法,欢迎使用:)
浏览 2
提问于2010-12-15
得票数 2
回答已采纳
2
回答
搜索引擎的典型爬行深度
、
当一个网站被搜索引擎(google,bing等)抓取时,搜索引擎抓取一个网站的最大深度是多少?我所说的深度,是指从主页开始的跳数。 谢谢,
浏览 1
提问于2012-07-13
得票数 0
1
回答
Facebook共享调试器抓取主页URL,而不是Angular 6中给定的URL
、
、
Facebook共享调试器工具抓取了错误的页面。 我给了一个完整的网址与slug (指向我的网站上的个人网页),我希望它通过facebook分享按钮。它不是抓取我想要的页面,而是抓取我网站的主页。 我想让它刮掉https://example.com/slug 相反,它抓取了https://example.com 我已经使用以下代码更新了og:url的meta标记 this.meta.updateTag({ property: 'og:url', content: 'https://example.com/'+this.slug }
浏览 5
提问于2020-02-10
得票数 1
1
回答
通过PHP从其他站点抓取iframe视频
、
、
、
、
我想从其他网站抓取视频到我的网站(例如,从一个现场视频网站)。 如何从其他网站上抓取<iframe>视频?这个过程和抓取图片的过程一样吗? $html = file_get_contents('http://website.com/'); $dom = new domDocument; $dom->loadHTML($html); $dom->preserveWhiteSpace = false; $iframes = $dom->getElementsByTagName('frame'); foreach ($iframes as
浏览 7
提问于2014-10-31
得票数 1
1
回答
如何在python语言中使用selenium和chromedriver抓取此页面?
我正在尝试使用selenium和chromedriver从网站“”中抓取数据。当我运行代码时,chromedriver成功地输入了url,但无法加载页面,显示了一个空白页面。我尝试将目标网站切换到google.com,但抓取成功。我的结论是目标网站服务器检测到selenium并拒绝发送回数据。那么如何在Python语言中使用selenium和chromedriver从网站抓取数据呢?我是一个Python初学者,感谢您的帮助。下面是我的简单代码: from selenium import webdriver my_driver_path = r"C:\python chrome driv
浏览 0
提问于2020-05-29
得票数 0
2
回答
如何抓取一个网站只给定域网址与scrapy
、
、
、
我正在尝试使用scrapy抓取一个网站,但网站没有网站地图或页面索引。如何使用scrapy抓取网站的所有页面? 我只需要下载网站的所有页面,而不提取任何项目。我只需要在蜘蛛规则中设置关注所有链接吗?但我不知道scrapy是否会以这种方式避免复制urls。
浏览 0
提问于2013-01-06
得票数 5
回答已采纳
3
回答
如何让谷歌在我的服务器上读取每个站点?
、
我目前正在构建一个服务器来托管许多站点。我如何让谷歌不提交一个网站地图到谷歌为每个网站抓取每个网站?
浏览 0
提问于2011-11-08
得票数 4
回答已采纳
2
回答
使用机械化来检索网站的所有链接
、
、
、
如何使用Mechanize库查找网站上的所有链接? 我喜欢递归地解析内部链接,以便抓取一个网站的所有链接。
浏览 0
提问于2012-07-23
得票数 2
回答已采纳
1
回答
搜索整个Youtube的种子urls
、
、
我正试着用Apache Nutch抓取整个youtube.com。问题是我需要大量的种子urls来确保Youtube上几乎所有的urls都被抓取。但我找不到任何网站地图或youtube的网址列表。例如,要抓取apple.com,我可以提供苹果网站的静态地图的urls作为种子- 目前我唯一的种子是- https://www.youtube.com。我的regex-urlfilter.txt包含- +^https://www.youtube.com/?(watch\\?([^#\\&\\?]*).*)?$ 我尝试了像filetype:xml site:youtube.com这样的好搜索,
浏览 4
提问于2017-04-09
得票数 1
3
回答
google如何抓取页面
我只是好奇谷歌如何抓取一个页面,我有一点代码告诉我,如果谷歌机器人在我的网站上,它是在哪些页面上。 如果谷歌正在抓取一个页面,例如,/page.html在该页面中有链接,例如该网站的其他10个页面。 它是只为可能的索引添加page.html,因为它是它所在的页面,还是为了可能的索引而存储page.html上的所有链接?
浏览 0
提问于2013-05-07
得票数 0
2
回答
参与社交网络会提高页面排名吗?
、
嗨,我想知道是否参与社交网站,并把我的网站链接在那里增加反向链接。 而且搜索引擎也会抓取这些链接。 请给我提个建议?
浏览 10
提问于2010-09-07
得票数 1
回答已采纳
2
回答
使用单个Web爬虫以预定义的格式抓取多个带有附件的网站?
、
、
我有一份大概的清单。52个网站,这导致大约。150个我需要抓取的网页。基于我的无知和缺乏研究,我开始构建每个网页的爬虫,这开始变得难以完成和维护。 根据我到目前为止的分析,我已经知道我想在每个网页上抓取什么信息,很明显,这些网站都有自己的结构。在积极的一面,我注意到每个网站的网页在其网站结构中都有一些共性。我的百万美元的问题,有没有一个单一的技术或单一的网络爬虫,我可以用来抓取这些网站?我已经知道我想要的信息,这些网站很少在其网站结构方面进行更新,而且大多数网站都有需要下载的文档。 或者,有没有更好的解决方案,可以减少我需要构建的网络爬虫的数量?此外,这些网络爬虫将仅用于下载我针对的网站的新信
浏览 3
提问于2019-04-29
得票数 0
2
回答
如何抓取仅在单击“更多”按钮后才解锁的文本
、
、
我正试着从旅行顾问网站上获取评论。我成功地抓取了评论,但有些评论很长,并且部分显示,直到您单击“更多”按钮。 这是该网站的链接: 这是“更多”按钮的源代码: <span class= soup.findAll(attrs={"class": "entry"}): review = item.text.replace(',', '').replace('\n', ' ').encode('utf-8').strip() 这就是我从页面上抓取评论的方式 for item
浏览 26
提问于2017-01-24
得票数 0
回答已采纳
6
回答
要求facebook重新抓取URL
、
网站的og:图像最近发生了变化。该网站包含100多个页面,每个页面都包含各自的og:image。我如何请求或强制facebook重新抓取所有页面,以便更新图像?使用facebook调试器工具将是一项非常繁琐的任务。直到facebook重新抓取该网站,我将无法提交应用程序的集合。
浏览 0
提问于2013-05-03
得票数 18
回答已采纳
1
回答
抓取网站返回错误数据
、
我正在使用快速矿工从特定的数据抓取网站。问题是,如果我尝试频繁地抓取网站,它提供的数据是错误的。 如果我从其他IP地址看到相同的数据,它会显示与我在不同IP地址上抓取的数据不同的数据。 有什么解决方案可以克服这个问题吗?
浏览 0
提问于2012-10-19
得票数 0
1
回答
x-ray.js获取类属性并返回它
我正在使用x射线抓取工具来抓取一些有趣的网站,但我似乎不知道如何才能抓取class属性。 另外,你们知道这个模块的好方法吗?
浏览 0
提问于2016-11-10
得票数 0
2
回答
facebook无法抓取网站
、
、
我有一个网站 当我试图分享一篇博客文章时,我决定不显示og:标签,而是显示一个自动选择。 此外,当我试图使用facebook的评论发布一条消息时,我得到了一个警告:“Facebook的服务器无法抓取。” 尝试使用facebook图形调试器获取新的抓取信息 返回:“解析输入URL时出错,没有缓存数据,或者没有抓取数据。” 注意:经过一段时间后,似乎facebook爬虫确实抓取了我的网站( facebook需要几天时间才能抓取我的网站),然后一切都很好。(但仍有新帖子出现上述问题)
浏览 0
提问于2014-11-17
得票数 0
1
回答
无法从具有不同选项卡和日期的网站中抓取数据
、
我无法从下面的网站上获取数据。有没有任何方法,我们可以抓取数据的不同选项卡在网站上的一些天。 在R上也尝试了一些抓取,但似乎不起作用,因为数据范围需要更改,所以不确定如何解决?
浏览 11
提问于2019-07-05
得票数 1
回答已采纳
2
回答
有没有办法在python中抓取网页,让爬虫只抓取新的链接。
、
、
我想抓取一个网页(新闻),只获得最新的链接。我有一个爬虫代码,从一个网站获得所有的链接,需要2-3个小时来获得大约30000个链接,并在数据库中存储。如果下次运行爬虫程序时,我只想插入新的链接,该怎么办?我知道我可以在插入数据库之前做一个过滤器,但我希望爬虫只抓取新的链接,而不是再次抓取旧链接(基本上是整个网站)。有没有可能做这样的事情?
浏览 1
提问于2018-04-18
得票数 0
2
回答
如何使用php脚本抓取rss提要内容
、
我想从一个网站抓取RSS提要内容,并使用不同的过滤选项将其显示在我的网站中。 有没有人可以放一个php脚本,从那里抓取内容并显示
浏览 0
提问于2010-10-18
得票数 5
回答已采纳
3
回答
我应该否认来自爬虫网站的反向链接吗?
、
、
、
、
我分析了我的网站的反向链接概况,发现很多通过爬行网络生成数据的网站都指向我的网站。 我对这个特定的网站有特别的关注。 📷 这个网站抓取他们的内容,因为它的设计有很多指向我的网站的链接。 链接也没有标记为“不跟随”。检查其个人资料,它也似乎不是一个伟大的网站。 有什么建议,我应该否认这样的领域与反向链接吗?
浏览 0
提问于2016-12-06
得票数 1
2
回答
Nutch只抓取给定域中的几个链接
、
ubuntu 12.04的Nutch 1.9中出现问题。我正在尝试抓取一个网站上的链接。我已经给了seed.txt文件中的网站网址。除了http.agent.name (新建)属性和db.max.outlinks.per.page (-1)之外,我没有对默认配置进行任何更改。我正在使用以下命令进行爬行 crawl urls test -depth 3 Crawler应该抓取深度为3的所有可用链接。但当我运行以下linkdb命令时,只有5个链接可用。所有这五个链接都可以在主页上找到 nutch readlinkdb test/linkdb -dump myoutput/out1<br/&g
浏览 1
提问于2014-11-03
得票数 0
5
回答
Scrapy -如何识别已经抓取的urls
、
、
我每天都在用scrapy抓取一个新闻网站。如何限制scrapy抓取已抓取的URL。此外,在SgmlLinkExtractor上是否有明确的文档或示例。
浏览 1
提问于2010-10-06
得票数 15
2
回答
在rails中抓取数据时获取href页面中的内容?
、
、
我想从网站上抓取数据。在本网站中: HTML: <div> <ul> <li><a href="http://.../place1">Place1</a></li> <li><a href="http://.../place2">Place2</a></li> </ul> </div> 在“”中: <div> <p>Place 1</p> <img src=
浏览 0
提问于2018-03-19
得票数 0
2
回答
应用程序中爬行网站的最佳架构
、
、
、
我在一个产品上工作,我们需要一个功能,以爬行用户给定的网址,并发布他的单独的移动网站。在抓取过程中,我们希望抓取网站内容,CSS,图像和脚本。该产品过去做了更多的活动,如计划,一些营销活动等等。我想问的是- 完成此任务的最佳实践和开源框架是什么? 我们应该在应用程序本身中执行此操作,还是应该有另一个服务器来执行此活动(如果此活动需要加载)?请记住,我们有1“缺乏”的用户访问每月从网站发布他的移动网站,并约1-2k并发用户。 该应用程序是在Java和Java EE平台上构建的,使用Spring和Hibernate作为服务器端技术。
浏览 0
提问于2012-08-27
得票数 0
回答已采纳
1
回答
Chrome扩展webscraper.io -如何在选择“下一步”时进行分页
、
、
我正在尝试使用google chrome扩展来抓取一个网站的表格。在该扩展的教程中,记录了如何抓取具有不同页面的网站,例如,“页面1”、“页面2”和“页面3”,其中每个页面都直接链接到主页上。 然而,在的示例中,只有一个" next“按钮来访问下一个站点。如果我按照教程中的步骤为"next“页面创建一个链接,它将只考虑页面1和2。为每个页面创建"next”链接是不可行的,因为它们太多了。怎样才能让网络爬行器包含所有页面?有没有办法使用webscraper扩展来遍历页面? 我知道这个可能的副本:。然而,它并没有得到很好的接受,也没有包含任何有用的答案。
浏览 1
提问于2017-01-12
得票数 5
回答已采纳
3
回答
你如何找出一个大的网站链接/结构?
假设您正在重新设计一个现有的大型站点。首先要做的是弄清楚网站的结构,有多少链接,页面,子域名等等。 是否有一个工具可以用来抓取一个网站,并有一个容易理解的网站地图生成?
浏览 0
提问于2010-11-10
得票数 4
1
回答
php dom xpath从站点中的所有文件夹中提取所有链接
、
、
我已经在stackoverflow和网络上搜索过了,一定是这里漏掉了什么。我还没有找到我要找的东西。也许它叫别的什么..我有下面的代码,它将抓取第一个文件夹中的所有内容,但不会从其他文件夹中抓取其他项目。例如,它会抓取第一个/前面的所有内容,但如果你有一个站点mysite.com/ folder2 /,它就不会抓取folder2。一切都是联系在一起的。它也会向后移动。如果你把最长的链接放在网站的前面就会一直走到网站的前面。我不确定我错过了什么任何指针将是伟大的。该网站是一个joomla网站,我正试图废止。 <?php function storelink($web,$taken) { $
浏览 0
提问于2013-02-19
得票数 0
3
回答
使用Scrapy增量抓取网站
、
我是个爬虫新手,我想知道是否可以使用Scrapy来增量地爬行一个站点,比如CNBC.com?例如,如果今天我抓取了一个网站的所有页面,那么从明天开始,我只想收集新发布到这个网站上的页面,以避免抓取所有旧页面。 感谢您提供的任何信息。或对此进行输入。
浏览 0
提问于2016-05-18
得票数 3
2
回答
如何使用javascript添加的动态内容爬行webPage
、
我想有消息说Google机器人有能力理解我们的javascript代码。这意味着这是可能的,完全抓取一个网页,其中有延迟加载功能启用。我正在使用Apache来抓取网站,但我认为它没有能力在页面向下滚动时获取HTML页面中注入的URL。我看到很多网站都在为性能问题做延迟加载。那么,请有人解释一下,我如何在懒惰的加载下爬行HTML页面中的数据。(向下滚动页面)。
浏览 0
提问于2012-08-31
得票数 5
1
回答
LinkedIn抓取逻辑
、
、
谁能给我解释一下linkedIn grabber是如何工作的?我通过REST API分享了一条消息,在消息标题下面显示了一些额外的内容。我的结论是linkedin从我的网站抓取了这些内容(因为当我测试在本地服务器上发布的内容时,LinkedIn不能从那里抓取任何东西,所以很清楚),但是它是如何工作的呢? OpenGraph标签被设置为正确的值,但消息中的额外内容甚至不是来自主页。它看起来像是抓取了我网站的任意一块并发布了它。另外,图片与OG标签中的图片不匹配。 如果您能帮助我把这个问题弄清楚,我将不胜感激。
浏览 1
提问于2013-06-10
得票数 0
回答已采纳
2
回答
搜索机器人检测
、
、
有没有可能防止一个网站被任何抓取器抓取,同时允许搜索引擎解析你的内容。 仅仅检查用户代理并不是最好的选择,因为它很容易模拟它们。 JavaScript检查可能是(Google execute JS)的一个选项,但一个好的解析器也可以做到这一点。 有什么想法吗?
浏览 6
提问于2012-05-28
得票数 1
回答已采纳
2
回答
Scrapy -没有列表页面,但我知道每个项目页面的url
、
我正在使用Scrapy来抓取一个网站。我想要抓取的项目页面类似于:。其中x是从1到100的任意数字。因此,我有一个SgmlLinkExractor规则,并为类似的页面指定了一个回调函数。 该网站没有与所有项目的列表页面,所以我想以某种方式很好地抓取这些网址(从1到100)。这个叫的家伙似乎也有同样的问题,但是他想不出来。 有谁有解决方案吗?
浏览 0
提问于2011-05-17
得票数 0
2
回答
Nutch和Http POST身份验证?
、
我被困在需要抓取有表单帖子的网站的地方。Nutch不支持这一点。我如何解决这个问题,这样我才能使用Nutch抓取这些网站?有没有更好的解决方案?
浏览 2
提问于2012-07-06
得票数 1
回答已采纳
1
回答
Google报告说,新闻站点地图中的URL不在经过验证的新闻网站上
、
、
我有一个关于孟加拉语和英语的新闻网站。我已经做了谷歌新闻收录,它是被索引。但是搜索控制台显示了关于站点地图的两个错误。 📷 📷 您的站点地图位于一个不在Google数据库中的站点上。谷歌新闻只能接受我们抓取的网站的站点地图。如果你的网站被谷歌新闻抓取,请检查你的网站地图的网址是否与你的文章的网址相一致,因为它们出现在谷歌新闻上,包括任何领先的"www“。如果您希望将您的网站包含在Google新闻中,请与Google新闻支持小组联系。 我该怎么做才能解决这个问题?
浏览 0
提问于2018-02-02
得票数 1
4
回答
如何抓取我自己的网站?
我继承了一个旧的经典ASP网站进行修改。虽然没有事先要求,但我想删除一些旧的“孤立”页面。 由于某些原因,老开发人员决定创建文件的多个实例,而不是使用源代码管理(例如,index-t.asp, index-feb09.asp, index-menutest.asp)。 我想知道是否有人知道一个程序或网站,可以为我抓取我自己的网站?它可能需要能够抓取公共网站,因为有很多包含文件。另外,有些urls是相对的,有些是绝对的。
浏览 0
提问于2009-05-03
得票数 1
回答已采纳
2
回答
Google ajax爬行不像google那样使用fetch
、
、
、
我试着用“抓取作为谷歌”的果园网站进行测试,该网站有ajax内容。谷歌不应该用取代 (两个链接都有效)。当我使用fetch作为google访问我的测试版网站时,预览显示页面正在加载ajax内容,而不是静态内容。 我是不是遗漏了什么?
浏览 2
提问于2013-09-02
得票数 0
回答已采纳
1
回答
获取Google新闻中的网站
、
、
我开发了一个wordpress网站,在Yoast插件的帮助下,我创建了新闻站点地图XML。但是,当我将站点地图提交给谷歌网站管理员时,我会得到如下错误 您的站点地图位于一个不在Google数据库中的站点上。谷歌新闻只能接受我们抓取的网站的站点地图。如果你的网站被谷歌新闻抓取,请检查你的网站地图的网址是否与你的文章的网址相一致,因为它们出现在谷歌新闻上,包括任何领先的"www“。如果您希望将您的网站包含在Google新闻中,请与Google新闻支持小组联系。 它链接到此页。 该页面上没有要求将其包含在Google中的说明。 我需要知道在哪里请求包括,以便我的网站显示在谷歌新闻。
浏览 0
提问于2013-09-18
得票数 0
2
回答
有没有办法截取网站上每一个页面的截图?
、
、
、
、
我们有几个传统网站正在进行升级。这将是有用的,能够截图每一页,然后md5求和的结果为两个领域,然后测试是否所有的渲染匹配100%。 我不确定如何做到这一点-我们已经看到了cheerio,它可以抓取网站,但无法截图,以及nightwatch,它可以抓取屏幕截图,但不能抓取网站。有没有人有这样做的经验?
浏览 38
提问于2018-06-07
得票数 3
回答已采纳
2
回答
Nutch渐进式爬行
我是新来的纳奇,我正在做的POC与纳奇1.9。我只是想爬我自己的网站来建立一个搜索。我发现我做的第一次爬行只爬了一页。第二个爬行40页,第三个300页。增量减少,它总共爬行约400页。有谁知道为什么它不只是在网站的第一次运行的全部抓取?我使用了nutch教程(),并按照3.5节使用脚本运行。 我也发现多次运行,它不会抓取整个网站无论如何- GSA为同一网站带回900多页,nutch带回400。 谢谢 杰森
浏览 4
提问于2014-11-17
得票数 0
回答已采纳
1
回答
我的应用程序“爬行”网站并使用它们的信息合法吗?
、
我有一个应用程序的想法,但我不知道实现它是否合法。我可以“爬行”我的应用程序将从各种网站上使用的信息吗?对于这个问题,“爬行”是指解析出网站上的信息并将其存储在我自己的数据库中。这样,我就有了自己的服务器,其中包含我的应用程序运行所需的所有信息。 我认为抓取RSS订阅并没有什么违法的。但是,如果我想要获取信息的网站没有RSS提要怎么办?抓取那个网站合法吗?
浏览 1
提问于2012-02-13
得票数 2
回答已采纳
1
回答
从HTML中,有没有办法知道是哪个网页将我定向到了特定的网页(重定向之后)?
如果我已经抓取了一个网页的代码,有没有办法从它的HTML中知道哪些网站重定向到了那个页面?
浏览 0
提问于2020-01-17
得票数 0
1
回答
google爬虫的爬行策略
、
、
、
、
我想知道一些大型搜索引擎的重新爬网策略是如何工作的。例如,让我们考虑一下谷歌。我们知道google正在使用动态间隔来重新抓取每个网站。假设根据google dynamic interval,每10分钟就有100k个站点需要重新抓取。因此,这100000个网站的抓取过程应该在10分钟内完成。可能有两种可能的情况: 1)谷歌机器人将获取每个这些网站的第一页,然后在此页面中生成URL列表。对于每个URL,它将检查此url是否在之前获取。如果它是新的,它将获取新的页面。此过程将一直持续到爬网或特定深度阈值结束。 2) google bot将再次获取每个页面(无论是否已更新) 假设谷歌使用第一种策略,那
浏览 1
提问于2014-06-02
得票数 0
1
回答
按html标记值计算的刮取链接提取器
、
、
我使用抓取来抓取隐私政策,从它的主页抓取一个网站,我想智能地抓取包含特定关键字的页面中的特定链接(隐私、数据、保护等)。 我看到了scrapy的CrawlSpider和对象只允许这样做,但是,我希望不仅对已发现的链接应用正则表达式,而且还要应用到<a></a>标记中的文本 例如,为了更好地查明以下情况: <a href="http://example.com/legal">Check out our privacy policy</a> 其中,URL可能不是一个完美的匹配,但是HTML标记中的文本更有帮助。 我看到scrapy的L
浏览 0
提问于2019-06-05
得票数 0
回答已采纳
2
回答
我可以使用WGET生成一个网站的网站地图吗?
、
、
、
我需要一个脚本,可以蜘蛛的网站,并返回所有抓取的网页列表的纯文本或类似的格式;我将提交给搜索引擎作为网站地图。我可以使用WGET来生成一个网站的网站地图吗?或者有没有PHP脚本可以做同样的事情?
浏览 0
提问于2010-10-16
得票数 16
回答已采纳
1
回答
通过以下链接从新站点抓取数据
、
、
、
、
我想知道是否有任何示例或建议的解决方案来使用BeautifulSoup来抓取网站上的数据,该网站可以通过单击主页上的超链接来访问。 非常感谢!
浏览 4
提问于2020-06-22
得票数 0
1
回答
如何使用Python抓取特定的ASP.NET页面?
、
、
我想抓取一个ASP.NET网站,但是urls都是一样的,我如何使用python来抓取特定的页面呢? 这里是我想爬的网站: (我用的是美丽的汤,urllib和python 3) 我应该得到哪些信息来区分一个页面和另一个页面?
浏览 4
提问于2015-08-16
得票数 0
回答已采纳
1
回答
如何在Ruby on Rails中显示结果并仍在执行任务
、
、
我正在尝试实现一个使用Ruby on Rails的工具,它可以抓取网站并搜索超链接。有一个问题:如果网站有大量的链接,用户需要等待很长时间。 这可能是一个幼稚的问题:我如何显示结果(例如10个结果),而爬行过程仍在运行? 然后,用户单击“下一步”,它会显示接下来的10个链接,依此类推。
浏览 0
提问于2013-09-02
得票数 0
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python数据抓取(3)—抓取标题、时间及链接
抓取整个网站-免费抓取整个网站数据信息软件
什么是网站数据抓取
网站链接调整通知
24 小时抓取百万次,Anthropic AI 公司被指过度抓取网站数据
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券