从c#获取网址的网页抓取

文章/答案/技术大牛

发布

1回答

我正在尝试抓取一个网站并从中获取一个URL，我正在使用htmlagilitypack和下面的代码：HtmlAgilityPack.HtmlDocumentvplayer_media']/video")) string whatever = link.OuterHtml;}//*

浏览 5提问于2017-07-02得票数 0

回答已采纳

1回答

我有一个问题，我不知道如何从新闻网页上获取新的新闻文章。我用python写了一个抓取器脚本，当我运行它时，它从源(今天发布的运行时间)获取所有新闻，并将它们保存到一个CSV文件中(我保存: URL，标题，日期，时间，图像URL，类别，内容)。最后，我想将这些结果写入我的数据库。但是使用这个脚本，我必须周期性地运行它(假设每10分钟运行一次)来检查是否有新发布的内容。这是实现这一点的编写方式吗？当新内容发布时，有没有更好的</e

浏览 0提问于2019-12-09得票数 0

1回答

从整个WebSite中提取所有URL

、、

我想抓取一个网站使用C#或VB.NET。我希望爬虫从网页中提取网址，我也希望爬虫遵循网址，以便我能够从网站中提取所有的网址。我该怎么写呢？

浏览 1提问于2011-04-06得票数 0

1回答

如何从ASP.NET获取网页的HTML内容

、、、、

我想从一个动态网页中抓取一些内容(它似乎是在MVC中开发的)。数据抓取逻辑是用超文本标记语言的敏捷性完成的，但现在的问题是，从浏览器请求网址时返回的超文本标记语言和从ASP.NET网页请求的网址的网页响应是不同的。浏览器响应主要包含我需要的动态数据(根据查询字符串中传递<em

浏览 3提问于2014-09-24得票数 7

1回答

用于抓取的Nutch正则表达式

、、

我正在使用Apache Nutch来抓取网页。当我搜索特定的名字时，我想抓取网页，例如，如果我搜索比尔盖茨，我想获得该搜索结果的结果链接。我有像这样的网址但在爬行时，它不再显示要获取的url。实际上，它不会获取任何结果。有没有抓取该页面的选项？我在regex-urlfilter.txt中添加了

浏览 1提问于2013-05-23得票数 0

回答已采纳

2回答

Pyhon -当代码运行时，从文本文件和循环导入URL

我做了一个代码，它很好用，可以登录网页，从网页上抓取我想要的信息，然后打印出来。事情是，我想循环它，因为我有更多的网页与相同的登录信息和信息，我想从它废弃。我有一个列表中的网页(有它在excel中，但可以使它成为一个纯文本文件，如果那更容易)。所以我想要做的是从列表中获取第一个网址，通过代码运行它，然后循环到顶部，在那里它获取

浏览 8提问于2019-03-05得票数 0

1回答

使用selenium python脚本从服务器获取图像帧

、、

我需要使用selenium模块从网络摄像头服务器中获取图像帧。知道吗？谢谢。致以问候。

浏览 6提问于2013-07-14得票数 0

回答已采纳

1回答

为什么我不能从网址上抓取？

、

BeautifulSoup(web.text) print (links.get("href")) 我试图从某个网页上获取链接，但无论我做什么，它都不会从/forums抓取，而只从minewind.com主页抓取。不管我要拿哪个网址。我正在使用一个类似于urllib的reques

浏览 2提问于2014-10-17得票数 0

回答已采纳

1回答

nutch:使用关键字搜索

、、

使用Nutch，我想抓取所有的网页，其中有ipod在他们的网址。+^http://([a-z0-9\-A-Z]*\.)*www.amazon.com/*ipod*

浏览 1提问于2011-10-29得票数 2

2回答

如何从网页中提取动态ajax内容

、、、、

我的要求是从网页中提取所需的内容。该页面有一个使用ajax填充的部分。当我在页面源代码中查看时，它没有显示使用ajax加载的内容。部分内容将根据选中的复选框进行更改。如果我们选择“印度”复选框，则该部分将显示印度的所有详细信息。页面源代码将只显示默认内容，而不显示使用ajax显示的内容。选中复选框后，我检查了页面源代码，但它仍然只显示默认值。如何获取该部分内容，

浏览 1提问于2012-08-24得票数 3

4回答

Selenium Webdriver的替代方案

、、

我使用C#和Python的Selenium Webdriver从网站获取数据元素，但web抓取的速度非常慢。抓取35000个数据表花了我大约1.5天的时间。使用Selenium Webdriver，我可以执行Javascript来获取Java元素。有没有一些库可以不需要像Webdriver这样的东西来在网页上执行Javascript来检索元素，并且能够点击元素？或者有没有比硒更快的

浏览 5提问于2015-04-16得票数 13

1回答

crawler4j用于抓取urls列表，而无需抓取整个网站

我有一个网页网址列表需要抓取。是否有可能只抓取网页列表，而不是深入抓取它。如果我添加的url作为种子，它抓取完整的网站与完整的深度。

浏览 4提问于2012-08-10得票数 1

回答已采纳

1回答

如何使用Python抓取受限制的网页

、

我想知道是否有任何方法可以用Python从受限制的网页中抓取html。我已经能够在一个网页上执行登录，但我想在登录后抓取另一个页面，但网址显示该页面的模式为：main_url/Restricted/Index.aspxfrom lxml impor

浏览 0提问于2019-10-02得票数 1

1回答

当我重新启动我的爬虫时，如何在最后的深度后恢复爬行？

、、

你好大家好，我正在做一个web应用程序，从一个特定的网站抓取大量的页面，我开始了我的crawler4j软件的无限深度和页面，但它突然停止，因为互联网连接。现在，我想继续爬行该网站，而不是获取我访问的网址之前，我认为我有最后的网页深度。注意:我想要一些方式，不检查我存储的网址，我将获取的网址，因为我不想发送很多请求到这个网站。

浏览 5提问于2018-11-20得票数 1

回答已采纳

1回答

为网络爬虫优化PHP CURL

、、、

我正在尝试用curl编写一个基于PHP的爬虫。我有20,000-30,000网址的数据库，我必须抓取。每次调用curl来获取网页大约需要4-5秒。我如何优化这一点并减少获取页面所需的时间？

浏览 0提问于2012-12-06得票数 0

回答已采纳

2回答

抓取背景-使用木偶操纵者的图像

、、

有没有人能解释一下我如何使用Puppeteer从网页上抓取背景图片？图像位于image-background类中，但其中没有存储任何内容。jpg URL位于如何抓取网址''？谢谢

浏览 1提问于2020-06-05得票数 0

6回答

网络抓取和网络抓取有什么不同？

、、

爬行和网络抓取有区别吗？如果有不同之处，为了收集一些网络数据来提供一个数据库，以便在定制的搜索引擎中使用，最好的方法是什么？

浏览 2提问于2010-12-02得票数 96

回答已采纳

1回答

有没有办法在亚马逊的新产品广告API中查找客户的所有评论？

、

在使用ecs.py时，我曾经能够通过像ecs.CustomerContentLookup(customerId, ResponseGroup='CustomerReviews')这样的查询获得客户的评论

浏览 1提问于2011-12-13得票数 1

1回答

从Flask路由开始scrapy

、、

我想建立一个爬虫，需要抓取网页的网址，并将结果返回给一个网页。现在，我从终端启动scrapy并将响应存储在一个文件中。当一些输入发布到Flask、处理并返回响应时，我如何启动爬虫？

浏览 1提问于2015-07-24得票数 5

1回答

使用Python和Request包抓取网页

、、、

我希望从一个网站上刮出一个特定的数字。在使用chrome进行检查时，我看到了我想要拉的以下div：这个类名在我看来很奇怪下面是我用来尝试拉出“2472.38”号的简单代码：import requests tree

浏览 6提问于2022-01-26得票数 0

点击加载更多