网站内容抓取_防网站内容抓取_防网站内容抓取工具 - 腾讯云开发者社区

我正在将内容源指定为内部非sharepoint网站但是，一个完整的爬网只能在网站的根目录下抓取22个页面(有100个)，除非我指定了‘自定义-指定页面深度和服务器跳数：’并将‘页面深度’和‘限制服务器跳数

浏览 0提问于2009-04-30得票数 0

1回答

如何限制Apache Nutch 2.3.1抓取故事内容而不是侧边栏

、、、、

我得抓取一些新闻网站。我已经在Hadoop 2.7.4和Hbase集群上安装了apache Nutch 2.3.1。我必须通过solr 6.6.1提供搜索。在抓取一些网站后，我观察到Nutch抓取页面中的所有内容。在新闻网站中，有包含最新或热门新闻等内容的侧栏。这些侧栏内容会随着时间的推移而变化。有没有办法让Nutch抓取主要故事内容，并避免这样的侧栏。

浏览 1提问于2017-11-08得票数 0

1回答

从数据小部件中获取数据，并没有检索任何值。

、、

我正在尝试使用rvest获取数据(也尝试使用XML和selectr)，但遇到以下问题时遇到了困难：<span data-widget="turboBinary_tradologic1_rate" class="widgetPlaceholder widgetRate rate-down">1226.45</span> (注意：rate-down和1226.45定期更新。)我想获取1226.45，但是当我运行我的代码(下面)时，它说那里没有存储的信息。这与它是一个小部件的事实有关吗？如能就如何

浏览 9提问于2017-02-15得票数 0

回答已采纳

3回答

下载解析HTML数据的说明

、、、

我正在开发一个iPhone应用程序，主要登录到第三方网站，并解析特定的信息，如日期和时间等超文本标记语言数据。然而，这显然很容易打破，如果网站更新他们的HTML模板，即使是最轻微的。我需要一种简单智能的方式，让我的应用程序从我自己的服务器上下载如何解析网站的“说明”。这样，如果HTML发生变化，我可以只更新服务器上的指令，而不是向苹果发送一个全新的应用程序更新。

浏览 0提问于2013-03-01得票数 0

2回答

Google为我的网站显示了错误的标题- robots.txt问题

、、

我已经建立了这个网站以及所有的东西，但是当我在google上输入"lissa mariage“时，它显示了这从罗马尼亚翻译过来的意思："pages_rss_title”。

浏览 0提问于2015-12-17得票数 4

1回答

从网站提取实时信息并将其放入Windows Phone 7应用程序中

、、、、

这些应用程序的总体想法是提取网站上可用的信息，并将其放到手机上，以便使其更加流线型等等。这个想法对我来说是完全陌生的。我以前写过解析应用程序和xml文件的程序，但从来没有从网站上剥离过信息。你可以看到这个网站有一个“实时信息”部分，在那里你可以选择你所在的车站，并了解下一班电车何时发车。比方说，我想写一个简单的Windows phone7应用程序，它只允许我选择一个车站，然后使用这个网站所做的相同的查询来找出下一班有轨电车何时发车-我想做的就是提取，例如，"5分钟“，并将其打印到屏幕上

浏览 0提问于2012-05-03得票数 1

回答已采纳

3回答

下载整个博客供脱机阅读/存档(不使用RSS提要)

如果没有一种简单的方法专门针对wordpress博客，那么对于一个好的通用网站下载工具有什么建议吗？

浏览 0提问于2011-09-03得票数 4

1回答

为什么我的Crawler会得到错误的HTML代码？

、

实际上，用jsoup库实现的爬虫代码可以工作，因为我的请求的结果是一些HTML代码，但是当我搜索一个明确写在网站上的单词时，没有找到它，因为一些div的来自于空的爬虫。然后我意识到，当您导航到网站并右键单击‘查看页面源’时，我得到了与相同的代码。当我将代码与进行比较时，右键单击“->”检查“”时，代码与“查看页面源”中的不同。我能做些什么来获得包含全部内容的HTML代码吗？请求网址：

浏览 0提问于2019-09-12得票数 1

回答已采纳

2回答

如何隐藏页面源代码中的实际内容

、、、

我试图做隐藏在页面源代码的实际内容。例如，如果用户通过浏览器访问第一个或第二个etc页面，用户可以看到不同的信息，但当用户访问第二个页面并单击鼠标右键转到页面来源时，用户只能看到第一个页面信息。我有很多这样做的网站。我想知道怎么做。我想避免人们刮我的网站。我希望在响应中避免实际的数据或信息。我的问题是，有可能做到这一点吗？如果有可能怎么办？请告诉我我是新来的网域。

浏览 0提问于2012-06-09得票数 0

回答已采纳

2回答

如何为SEO索引带选项卡的页

、、

其余的选项卡只能通过单击相应的选项卡才能看到；这些内容没有用AJAX加载，并且可以在页面加载时使用。但谷歌并没有对隐藏标签的内容进行索引。我想知道下面的方法是否会索引表内容。

浏览 0提问于2017-11-26得票数 1

1回答

网站通过移动端友好测试，未显示标签

、

几周前，我的网站通过了谷歌的移动端友好测试。然而，“移动友好”标签并没有出现在移动搜索结果中。这需要多长时间？谢谢!

浏览 0提问于2015-03-25得票数 0

4回答

抓取网站中的动态内容

、、

我需要从这个网站上抓取新闻公告，。公告似乎是动态生成的。它们不会出现在源代码中。我通常使用机械化，但我认为它不会工作。我能为此做些什么呢？我可以使用python或perl。

浏览 0提问于2011-11-30得票数 2

回答已采纳

4回答

无法从网站中抓取内容

、、、、

我试图从一个网站废弃一些内容，但下面的代码不工作(不显示任何输出)。我已经检查过类似的代码来从Wikipedia中抓取链接( xpaths肯定是不同的)，它工作得很好。所以我不明白为什么上面的代码不适用于其他URLs。我正在用Tidy清理HTML内容，所以我不认为xpath有问题，不是吗？

浏览 13提问于2011-05-29得票数 6

回答已采纳

1回答

当试图收集产品价格信息时，rvest web scraping返回一个空的数据帧。

、、、、

我正在尝试使用'rvest‘从：中提取产品价格。我使用以下代码：library(tidyverse) price &

浏览 7提问于2020-06-18得票数 2

回答已采纳

2回答

curl -从网站抓取大量内容

、

我很好奇是否有人对利用PHP/CURL (甚至是其他技术)从网站下载内容的最佳方法有什么建议。现在，我使用curl_multi一次处理10个请求，这对我有一些帮助。

浏览 0提问于2013-03-09得票数 2

回答已采纳

2回答

从无限滚动网站抓取内容

、、、

我试图在一个无限滚动的网页上擦拭链接。我只能获取第一个窗格上的链接。如何继续前进，以形成一个完整的清单上的所有链接。到目前为止，我的情况是-import requests html_content = requests.get(html).text soup = Beautifu

浏览 5提问于2020-02-15得票数 3

回答已采纳

2回答

是否需要为每个目标站点编写抓取器？

、、、、

我使用Python语言和BeautifulSoup来抓取存储。我想知道比价网站是如何从所有在线商店中抓取数据的？他们对不同的在线商店有不同的代码，还是有通用的代码？他们会研究每个在线商店的HTML模式吗？

浏览 40提问于2014-12-28得票数 7

回答已采纳

1回答

从网站页面中抓取内容

、

我遇到了一些问题，需要帮助。$html = file_get_contents('http://www.hidemyass.com/proxy-list/'); $body = $html; $xml = simplexml_load_string("<?xml version='1.0' encoding='utf-8'?><xml

浏览 0提问于2012-04-10得票数 1

回答已采纳

1回答