网页抓取_用BeautifulSoup实现网页抓取/ Zomato网页抓取_网页抓取，提取网页表格 - 腾讯云开发者社区

我有一个网页网址列表需要抓取。是否有可能只抓取网页列表，而不是深入抓取它。如果我添加的url作为种子，它抓取完整的网站与完整的深度。

浏览 4提问于2012-08-10得票数 1

回答已采纳

2回答

在内存中浏览网页

、

他们是否有办法在没有任何浏览器的情况下，在抓取html之后执行网页javascript的加载事件。即我需要抓取网页内容通过javascript呈现例如bbc新闻网页的视频在页面加载后通过javacscript呈现，我对抓取视频链接和镜头描述感兴趣。

浏览 0提问于2012-06-27得票数 1

2回答

如何使用PHP Simple HTML DOM Parser用file_get_contents抓取flash视频和下载视频数据

、、、

我只是在寻找屏幕抓取包含flash视频的网页。在使用抓取网页时，我喜欢抓取嵌入的代码片段并下载视频数据。有人能帮上忙吗？参考可能的帮助：

浏览 0提问于2015-01-19得票数 1

3回答

HTML页面抓取

、、、

抓取具有AJAX/动态数据加载功能的网页的最佳方式是什么？例如:抓取一个网页，该网页加载了20张图片，但当用户向下滚动页面时，它会加载更多的图片(有点像Facebook)。在这种情况下，如何抓取所有图像，而不仅仅是前20个图像？

浏览 0提问于2012-12-06得票数 3

2回答

我正在尝试使用selenium从网页中抓取一些数据。我已经成功地让selenium在树莓派上无头工作，我可以连接到我试图抓取的网页，返回页面的标题，并返回我连接到的URL。我一直在看教程中关于如何抓取数据的示例，它们都是这样的： titles_element = browser.find_elements_by_xpath(“//a[@class=’text-bold’]”) 然而，我试图抓取的网页中的每一块数据都有相同的类名。举一个我试图抓取的第一位数据的例子，我试图得到wins的值是4：第二个示例是im尝试抓取的数据，在本例中为kill，值为559：我试图抓取的两个数字共享相同的

浏览 5提问于2021-03-16得票数 0

1回答

如何使用并行执行在google云中更快地运行函数？

、、、

我有一个网页抓取代码，它从30个网页抓取图像需要近2分钟，但如果我只抓取一个页面，它需要大约4秒，所以如果所有并行运行，我将只在4秒内得到结果

浏览 3提问于2019-06-13得票数 0

3回答

在抛出ASP.NET错误时抓取网页

、

当一个网页抛出一个“潜在的危险脚本”错误时，我正在尝试抓取它。每次我这样做，我得到一个服务器500，但我可以抓取一个正常的，可操作的页面。有没有一种方法可以在网页抛出错误的时候抓取它？谢谢

浏览 1提问于2009-04-29得票数 0

回答已采纳

1回答

如何抓取受登录保护的站点或页面？

、、

我想抓取一个网站，这是必要的访问，以查看网页。我可以爬客网页，但如何抓取登录保护网页？如果有人共享一些步骤来配置或跳过身份验证机制来使用storm爬虫爬行页面，那将是非常棒的。先谢谢你。

浏览 5提问于2021-04-12得票数 0

回答已采纳

1回答

Python WebScraping混淆

、、

我试图通过网页抓取一个超文本标记语言网页https://streamelements.com/logna/leaderboard，但我在火狐的inspect元素中看到的超文本标记语言代码与该网页的超文本标记语言源代码不同。像这样的网页抓取是有可能的吗?或者有没有一种方法可以通过inspect元素来获取代码？

浏览 16提问于2020-05-02得票数 0

回答已采纳

2回答

森林中的森林森林中的

在我的应用程序中，我使用scrape(string url)方法从网页中抓取链接。假设它每次都返回给我10个url。我想从每一个抓取的网址10个链接。长话短说： (第1步)转到网页并抓取10个链接 (步骤2)将步骤1中的每个链接转到网页并抓取10个链接 (步骤3)对于步骤2中的每个链接，转到网页并抓取10个链接。所以它会给我10 + 100 + 1000个链接= 1110。我当然可以这样做： List<string> links1 = new List<string>(); List<string> links2 = new List

浏览 0提问于2016-12-11得票数 1

1回答

用于抓取的Nutch正则表达式

、、

我正在使用Apache Nutch来抓取网页。当我搜索特定的名字时，我想抓取网页，例如，如果我搜索比尔盖茨，我想获得该搜索结果的结果链接。我有像这样的网址 www.mysite.com/search?name=bill+gates 但在爬行时，它不再显示要获取的url。实际上，它不会获取任何结果。有没有抓取该页面的选项？我在regex-urlfilter.txt中添加了接受所有内容的代码。我该如何抓取链接？提前谢谢。

浏览 1提问于2013-05-23得票数 0

回答已采纳

3回答

无法使用BeautifulSoup抓取数据

、、、

我正在使用Selenium登录到网页，并获得网页进行抓取，我能够获得该页面。我已经在html中搜索了我想要抓取的表。这就是： <table cellspacing="0" class=" tablehasmenu table hoverable sensors" id="table_devicesensortable"> 脚本是这样的： rawpage=driver.page_source #storing the webpage in variable souppage=BeautifulSoup(rawpage,'html

浏览 0提问于2018-02-21得票数 1

1回答

Scrapy screenshot网页从png到webp，不保存渲染的图像

、

抓取Scrapy屏幕截图网页，并在飞行中转换image.png到image.webp。图像占用大量内存，scrapy返回.png文件。我抓取了很多网页，所以我需要将其转换为image.webp，以减少磁盘消耗。

浏览 28提问于2021-03-03得票数 0

1回答

如何使用socket用python抓取网页

、、

我知道用urllib2抓取网页很简单，但是我想知道有没有使用套接字实现抓取网页功能的示例，我谷歌了很多，在里面我没有找到任何示例，有谁能帮上忙吗？

浏览 0提问于2013-01-03得票数 7

回答已采纳

2回答

使用ImportHTML和Google sheets进行web抓取

、、、

我正在尝试用Google sheet和ImportHTML (以及它的变种，如ImportXML和ImportData)从网页上抓取股票行情。它可以在一些网页上工作，但不能在其他网页上工作。我无法从其中导入数据的网页的一个例子是。我使用了以下代码：=IMPORTHTML("https://www.barchart.com/stocks/performance/price-change/advances","table",0)。有没有办法下载或抓取这些数据？

浏览 9提问于2020-06-15得票数 0

4回答

程序化表单提交

、、、

我想要抓取网页的内容。内容是在填写并提交该网站上的表单后生成的。我已经阅读了如何抓取最终结果内容/网页-但是如何以编程方式提交表单呢？我正在使用python，并且已经读到我可能需要获取表单的原始网页，解析它，获取表单参数，然后执行X？谁能给我指出正确的方向？

浏览 0提问于2008-12-26得票数 3

3回答

用Python对基于Javascript的网页进行屏幕抓取

、、、

我正在用Python开发一个屏幕抓取工具。但是，当我浏览网页的源代码时，我注意到大多数数据都是通过Javascript获得的。有什么想法，如何抓取基于javascript的网页？有没有用Python写的工具？谢谢

浏览 4提问于2011-11-18得票数 4

回答已采纳

1回答

通过map抓取在线地图中的信息

、、

我正在尝试从这个网页中的地图上抓取信息该网页上有利比里亚所有公立学校的信息/位置。基本上，我想要的是学校的位置，以及当你点击一所特定的学校时显示的信息。我以前用R做过网络抓取，但从网页的源代码中我找不到学校的位置。任何帮助都将不胜感激。

浏览 4提问于2016-06-28得票数 0

1回答

Python :如果满足特定条件，如何使用不同的抓取页面重复“bs4”循环？

、、

我正在尝试创建一个for循环，一旦它到达抓取的页面中的最后一个search_result属性，它将重复该循环，但会使用新抓取的网页的数据。在for循环到达最后一个属性后，它将在网页上查找链接，并对新抓取的网页重复该循环。我已经写了下面的代码，但循环不会重复从原始网页的链接中获得新的抓取页面。 import requests from bs4 import BeautifulSoup page = requests.get(URL, headers=headers) soup = BeautifulSoup(page, 'lxml') for search_result

浏览 7提问于2019-08-16得票数 1

回答已采纳

2回答

如何找出Nutch抓取了多少网页？

、

在Nutch抓取的末尾，是否有可能找到或确定Nutch实际抓取了多少网页？

浏览 5提问于2017-05-17得票数 1

1回答

有可能抓取黑暗的网页吗？

、、

到目前为止，我正在抓取来自不同来源的数据，比如实时流Twitter和Facebook，并将其存储在单独的DB中。在此之后，我使用这些大数据来了解用户的行为和其他类型的分析。我试图做的是相同的，但在黑暗的网页，我想抓取所有的网页，可以访问的TOR浏览器。我在几个博客里搜索过这样的东西，但我发现所有的博客都只是在爬行日志文件。有没有可能像我们使用社交媒体平台API那样，抓取黑暗的网页呢？

浏览 4提问于2017-02-17得票数 1

回答已采纳

2回答

如何将python抓取到excel中

、、

我想知道如何让python web抓取所有的结果到excel中。这并不是我不知道如何抓取网页，而是我不知道如何抓取excel。

浏览 2提问于2012-04-21得票数 2

1回答

验证来自cURL的完整响应

、、

有时，当使用多个并发连接和抓取我的PHP脚本中的cURL时，会返回不完整的网页。curl_getinfo()中有没有一些值可以让我知道一个网页是100%被抓取还是只有90%被抓取？返回页面的内容大小标题是返回内容的实际大小，还是整个页面的大小？如果是这样，我可以根据响应的实际大小检查content-size。谢谢!

浏览 0提问于2013-04-12得票数 0

回答已采纳

2回答

分隔<pre>标记内的文本

、、

我想尝试一些基本的网页抓取，但遇到了一个问题，因为我习惯了简单的td标签，在这种情况下，我有一个网页，它有以下前标签和所有的文本，这意味着它是有点棘手的抓取它。 <pre style="word-wrap: break-word; white-space: pre-wrap;"> 11111111 11111112 11111113 11111114 11111115 </pre> 对如何抓取每一行有什么建议吗？谢谢

浏览 0提问于2019-01-07得票数 3

1回答

在for循环中创建与列表元素同名的变量并将值分配给该变量

、、

这是我在这个页面上的第一个问题。我有一个列表，它可以帮助我在网络上搜索列表中的元素： list = ["web-page","web-page1", "web-page2"] 然后是Web抓取过程，它遍历要抓取的网页列表。我在这个过程中有代码，一个小的过程来清理每个网页的刮擦，并将这个结果连接成最终的数据帧。 result = pd.concat([characteristic1, characteristic2], axis=1, sort=False) result2 = pd.concat([result, characteristic

浏览 9提问于2020-07-03得票数 0

回答已采纳

3回答

抓取/抓取包含特定文本的网站/网页，没有关于任何此类网站/网页的事先信息

、、、、

我用的是nutch和scrapy。它们需要种子URL才能爬行。这意味着，人们应该已经意识到包含正在搜索的文本的网站/网页。我的情况不同，我没有包含我正在搜索的文本的网站/网页的事先信息。所以我不能使用种子URL来被像nutch和scrapy这样的工具抓取。有没有一种方法可以抓取给定文本的网站/网页，而不需要知道任何可能包含该文本的网站/网页？

浏览 0提问于2016-01-20得票数 0

1回答

如何避免爬取CGI生成的日历网页

、

我正在使用Nutch爬行一个大型网站。网页由CGI程序生成。大多数网页的URL都包含诸如?id=2323&title=foo之类的表达式。我想抓取这些网页，因为它们包含许多有用的信息。然而，我面临的一个问题是，这个网站有一个日历。也会生成一些类似日期的网页。这意味着纳奇将试图抓取一些无害的网页，如year=2030&month=12。这是非常愚蠢的。如何在Nutch中避免这样的陷阱？编写很多正则表达式？

浏览 1提问于2012-01-27得票数 0

回答已采纳

1回答

Node.js Facebook messenger机器人，使用Python Beautiful Soup进行网络抓取

、、、、

我正在构建一个facebook messenger机器人，它抓取一个短语出现的网页，并通知用户，如果有任何出现。我使用JavaScript，NodeJS和Heroku构建了一个基本的facebook messenger机器人，它将收到的消息回传给发送者。我想用Beautiful Soup来做网页抓取部分。是否可以将Node用于机器人，然后使用Python仅用于抓取部分？如果是这样，我该如何加入这两者呢？

浏览 1提问于2016-11-09得票数 0

1回答

Regex -仅从网页上的urllist中抓取根域

我想要的正则表达式代码只抓取.com域，没有任何子文件夹或.com之后的任何东西。例如:在包含urls列表的网页上，我想抓取和，但不想抓取或

浏览 5提问于2013-01-25得票数 0

4回答

如何从nutch获取html内容

有没有办法在nutch中获取每个网页的html内容，同时抓取网页？

浏览 1提问于2011-02-26得票数 6

2回答

抓取图像、整个Web页面并缓存它们

我正在开始一个项目，想知道图像中的人物和图像所在的整个网页之间的关系。我想抓取一些图像和他们的网页。我需要将抓取结果保存在本地磁盘中以供进一步分析。我想知道这个问题有没有开源的？

浏览 0提问于2010-06-16得票数 0

1回答

Bookmarklet在加载完成后执行某些操作

、

嗨，我正在用Chrome中的bookmarklet开发爬行程序。我想定期抓取网页和解析html页面。网页可以每隔5秒重新加载一次，但不会执行页面加载警报。以下是我的代码 window.addEventListener('DOMContentLoaded', function() { console.log("page loaded"); }); function happycode(){ alert('page loaded'); } setInterval(function(){ console.log(&

浏览 0提问于2020-03-07得票数 0

1回答

抓取时防止提示消息

、、

根据要求，我需要在一个网页的内容刮。为了实现这一点，我创建了一个windows应用程序，并在主窗体中添加了一个web浏览器控件。这样我就能看到报废的过程。我能够登录到该网页并导航到所需的网页。我还可以通过编程的方式双击网格单元格。但当前的问题是，当以编程方式双击网格单元格时，如果所需数据不可用，我会收到一条警告消息因此，抓取过程自然会中断，我们需要手动单击“确定”按钮来继续抓取过程。如何避免抓取过程中收到告警信息？

浏览 0提问于2013-05-30得票数 4

回答已采纳

1回答

需要使用node.js登录的网页抓取

、、、、

问题陈述：我有这个网页中的每个候选人都有一个链接，其中包含一些信息，我想抓取。因此，对于所有候选人，我必须单击链接并手动获取详细信息，这是一项繁琐的任务。我想自动化这请帮助我。候选人名单 ? 我的解决方案是：我认为要自动化这项任务，我应该编写一个脚本，它会单击每个链接并抓取数据。但我想知道如何抓取一个需要登录的网页。您看到的网页只能通过登录页面访问。如果除了这种方法之外，任何人有更好的解决方案来完成这项任务-请帮助。谢谢：)

浏览 18提问于2019-03-02得票数 0

回答已采纳

6回答

如何在Nutch中加速爬行

、

我正在尝试开发一个应用程序，在该应用程序中，我将在Nutch中为urls文件提供一组受约束的urls。我能够抓取这些urls，并通过读取数据段中的数据来获取它们的内容。我已经爬行给出了深度1，因为我没有办法关心网页中的外链或内链。我只需要urls文件中的网页内容。但是执行这种抓取需要时间。所以，建议我一个方法来减少抓取时间和提高抓取速度。我也不需要索引，因为我不关心搜索部分。有没有人有关于如何加速爬行的建议？

浏览 0提问于2011-02-02得票数 3

1回答

从网页中抓取数据

、

我试图从以下网页抓取数据，我需要一个表格格式的记分板。有人能帮我吗？我正在使用python3。我对网络抓取是个新手，对网页的内部原理不是很熟悉。提前感谢！我试着在urllib2中使用BeautifulSoup，等等，但是什么地方都没找到。

浏览 2提问于2019-11-01得票数 0

1回答

爬行有限制的网页

我有一个关于从网页抓取数据的问题。有些网站对请求有限制，在这种情况下我该如何抓取？

浏览 0提问于2017-07-27得票数 2

1回答

为没有"alt“属性的图像爬行和查找关键字

、、

我正在编写一个图像爬虫，它可以从网页中抓取图像。这是通过在网页上查找img标记来完成的。但最近我注意到，一些img标记中没有alt属性。有什么方法可以找到该特定图像的关键字吗？是否有任何预防措施来抓取这些网站的图像？

浏览 2提问于2015-08-29得票数 0

回答已采纳

1回答

Apache Nutch 2.1 -如何获取完整源代码

、、、

我正在尝试编写自己的Nutch插件来抓取网页。问题是，我需要识别是否有一些特殊的标签，例如在网页上。在官方文档中有一些说明，使用Document.getElementsByTagName("foo")可以做到这一点，但这对我不起作用。你有什么想法吗？我的第二个问题是，如果我识别了上面的标签，我想从这个网页上获得一些其他标签，其中标签被识别…有没有办法存储某个时刻被抓取的网页的完整源代码？谢谢，简。

浏览 2提问于2013-03-30得票数 1

回答已采纳

1回答

使用python pandas的Datareader获取雅虎财经的关键统计网页与默认的雅虎财经的历史价格网页

、、、

我正在尝试使用python的pandas库从雅虎财经中抓取数据，使用DataReader从熊猫中提取历史价格数据，但我也想从雅虎财经的关键统计网页中提取数据，比如“价格/账面比”。但我不确定如何修改DataReader来拉取历史价格以外的数据。我想使用pandas库来做我所有的网页抓取，pandas中有没有不同的函数可以让我为雅虎财经的不同网页拉取数据，或者修改DataReader函数来拉取其他数据？就像将所有内容都保存在HTML中？

浏览 0提问于2015-08-17得票数 0

1回答

R编程Web抓取

、

我试着从下面的链接中抓取网页，使用R编程中的R背心包。我抓取的链接是我的代码是： library("xml2") library("rvest") url<-read_html("http://dk.farnell.com/c/office-computer-networking-products/prl/results") tbls_ls <- url %>% html_nodes("table") %>% html_table(fill = TRUE)%>% gsub("^

浏览 13提问于2017-12-22得票数 1

1回答

使用crontab在AWS EC2上抓取数据:日志文件中缺少的输出

、、

我正在使用AWS EC2实例上的crontab从web上抓取大量数据。脚本抓取数千个网页，并在每个页面之后打印"webpageID完成“。因为我计划运行脚本，然后注销实例，所以我使用crontab上的以下命令将stdout输出保存到日志文件中： 0 19 26 10 * /home/ec2-user/scrape.sh &>> /home/ec2-user/output.log 该脚本在抓取了10,000个网页后崩溃，但出于某种原因，output.log在8,000个网页后停止打印"webpageID done“。output.log中的最后几行如下所示：

浏览 0提问于2019-10-27得票数 0

2回答

使用单个Web爬虫以预定义的格式抓取多个带有附件的网站？

、、

我有一份大概的清单。52个网站，这导致大约。150个我需要抓取的网页。基于我的无知和缺乏研究，我开始构建每个网页的爬虫，这开始变得难以完成和维护。根据我到目前为止的分析，我已经知道我想在每个网页上抓取什么信息，很明显，这些网站都有自己的结构。在积极的一面，我注意到每个网站的网页在其网站结构中都有一些共性。我的百万美元的问题，有没有一个单一的技术或单一的网络爬虫，我可以用来抓取这些网站？我已经知道我想要的信息，这些网站很少在其网站结构方面进行更新，而且大多数网站都有需要下载的文档。或者，有没有更好的解决方案，可以减少我需要构建的网络爬虫的数量？此外，这些网络爬虫将仅用于下载我针对的网站的新信

浏览 3提问于2019-04-29得票数 0

1回答

如何使用XPath在iOS上进行刮擦？

、、、、

我正在寻找关于如何在XPath平台上使用iOS的信息。在苹果文档中，我发现了关于XPath 的信息，XPath只能在macOS上使用。我的目标是通过XPath抓取网页，但是我找不到任何有关这方面的信息，而不是XPath，我使用HTMLKit。有没有一种使用XPath脚本在iOS平台上抓取网页的方法？

浏览 2提问于2021-04-22得票数 2

回答已采纳

1回答

如何在找到的页面上抓取外部链接？

我使用了从他们的wiki安装nutch的示例。我能够轻松地抓取从dmoz中拉出的多个页面。但是，有没有配置可以抓取它在页面上找到的外部链接，或者将这些外部链接写入下一步要抓取的文件？什么是最好的方式来遵循一个网页上的链接，索引该网页以及与nutch？如果我通过python执行bin/nutch，我能找回它找到的所有外部链接，并创建一个新的爬网列表来再次运行吗？你怎么做？

浏览 1提问于2010-10-26得票数 2

回答已采纳

1回答

用烧瓶和刮水器进行交互式刮擦

、、、

我正在使用烧瓶和抓取刮从网站的结果。在这里，烧瓶网页是能够获取输入URL被刮，然后开始爬行。在此之前，一切都很好。现在，我想让这个Flask网页以HTML标签(它包含一些要被抓取的项目的信息)作为输入，并且基于输入标签的结果应该被抓取。简单地说，用户可以决定哪些项目应该报废，即项目应该被选择dynamically.Provide我有一些想法，我如何传递这些标签来设置在项目类别中要刮的项目？

浏览 1提问于2015-08-18得票数 0

回答已采纳

1回答

使用内部滚动条滚动

、

我有一个网站，我正在抓取，需要滚动水平(到最右边)和垂直(到最底部)的一个网页上的表格。我使用的是Python3、Selenium和Chrome Driver。我可以抓取表格数据，但它只能抓取我网页上可见的内容。当我检查网页时，我找不到任何滚动信息。通过在线搜索，我看到了使用Selenium进行滚动的各种方法，甚至可以通过xpath查找，然后以这种方式进行滚动。到目前为止，我没有任何幸运的选择，但可能做错了。这是我尝试过的一个例子，但它不起作用： html=browser.find_element_by_xpath('/html/body/form/div[3]/div[2]/d

浏览 0提问于2019-10-26得票数 1

4回答

PHP :如何抓取XPath的内容和html标签？

、、、、

我正在尝试抓取一个网页，我想抓取div标记内的文本和所有HTML标记。该网页如下所示： <div class="class"> <p>A little paragraph</p> <a href="#"><img src="/test.jpg"/></a> <p>Another paragraph</p> <ul> <li>1</li> <li>2</li>

浏览 3提问于2015-05-10得票数 1

1回答