网络爬虫是什么_网络爬虫_网络爬虫建模 - 腾讯云开发者社区

、、、

许多数据库系统适合与网络爬虫一起工作，但是有没有专门为网络爬虫开发的数据库系统(在.net中)。我的经验告诉我，网络爬虫有许多部分和服务，每个部分都需要一些特定的功能。例如，要缓存网页，我们需要一些东西，比如sql server的。或者检查db中是否已经存在URL，最好的选择是。事实上，我有两个问题 1)与网络爬虫一起工作的最好的数据库系统是什么？ 2)是否有涵盖所有功能的数据库系统！

浏览 2提问于2011-07-05得票数 1

1回答

在C#中添加延迟的最佳方法

、

我目前正在建立一个网络爬虫，并希望增加一个延迟的请求，这样我就不会击中网络服务器硬。添加此延迟的最合适方法是什么？另外，爬虫的适当延迟量是多少？我在想.5-1秒。谢谢

浏览 2提问于2013-03-28得票数 0

回答已采纳

9回答

solr做网页抓取吗？

、

我对做网络爬虫很感兴趣。我在看solr。 solr是否做网络爬行，或者做网络爬行的步骤是什么？

浏览 0提问于2009-11-23得票数 18

2回答

索引在数据库中意味着什么？

、

“索引”是什么意思？它对网络爬虫有什么用处？

浏览 4提问于2010-08-18得票数 0

回答已采纳

3回答

如何在Django中处理网络爬虫？

、

由于网络爬虫在没有任何请求数据的情况下访问了我的网站的某些部分，我收到了很多发送到我的电子邮件中的错误，我想知道在Django中处理网络爬虫的最好方法是什么？当我遇到一个空的QueryDict时，我应该发出一个重定向吗？

浏览 0提问于2010-12-19得票数 2

回答已采纳

1回答

在spring boot中通过REST api处理提交的耗时任务的最佳方法

、、、、

我有一个春天启动网络项目，需要与网络爬虫系统的工作。我的爬虫服务在没有任何停机时间的情况下工作，每个爬虫请求可能有很长的处理时间。我想通过一个REST接口获取抓取的URL。我的web应用程序中的用户将URL列表提交给web应用程序，我想向他/她显示:您的请求已提交。完成此请求的爬网后，我希望更新web表单中的请求状态。实现此场景的最佳方法是什么？

浏览 32提问于2020-10-22得票数 1

1回答

当建立一个搜索引擎网站爬虫，它应该开始爬行整个互联网？

、

我试图建立一个搜索引擎，其中一个主要组成部分是一个网络爬虫，我被困在一点，在开始的时候，爬虫将开始爬行。它需要一个网页来爬行。第一个网页应该是什么？

浏览 8提问于2021-12-08得票数 1

4回答

什么是一个好的网络爬虫来下载HTML页面？

、

我正在寻找一个网络爬虫/蜘蛛下载个别页面。支持这一点的好产品(最好是免费的)是什么？

浏览 1提问于2011-10-18得票数 3

回答已采纳

7回答

哪些语言适合编写网络爬虫？

、、、

我有丰富的PHP经验，尽管我意识到PHP可能不是大型网络爬虫的最佳语言，因为进程不能无限运行。人们推荐的语言是什么？

浏览 1提问于2010-09-08得票数 3

回答已采纳

2回答

在网站和独立应用程序中使用Django框架

、

我计划为它写一个网络爬虫和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络爬虫使用与网站相同的MySQL后端(而不是让网络爬虫本身成为“网站”)。

浏览 1提问于2009-06-04得票数 1

回答已采纳

2回答

一个数组能容纳多少个字符串？

、、、

我正试着写一个网络爬虫。当我浏览一个大页面时，我的arraylist变量无法保存所有数据。它被抛到了异常之下。线程java.lang.StackOverflowError".中的异常" thread -0“ 保存这些urls的最佳方法是什么，因为我需要访问那些urls和子urls等等。我想保存到数据库或写入文件，但这些机制可能会减慢爬虫性能。

浏览 0提问于2015-11-19得票数 0

1回答

在Python方面经历了几年之后，我才知道它在web开发中的应用。我在Python中制作了一个电子邮件爬虫程序(基本上是一个使用其他几个功能的函数)，它帮助我在generate实习的公司。我的老板问我是否可以让我的python电子邮件爬虫进入一个网络应用程序，这样其他员工就可以通过我来抓取电子邮件，这样我就可以在更重要的事情上工作。是否有一些web应用程序框架可以用来将我的python电子邮件爬虫程序转换成一个简单的公司专用web应用程序？制作网络应用程序所需的时间范围是什么？我非常开放和渴望学习web应用程序开发，因此，任何帮助或建议将不胜感激。谢谢。

浏览 5提问于2015-07-08得票数 0

回答已采纳

3回答

Web爬虫-如何构建访问的url集？

、、、、

我已经在rabbitMQ上实现了一个分布式网络爬虫。除了访问的url集之外，一切几乎都完成了。我希望在不同的爬虫之间有某种共享的变量。此外，正如我一直读到的，这个url集的大小将是巨大的，应该存储在磁盘中。在分布式环境中存储、访问和共享访问过的urls列表的最佳方法是什么？

浏览 6提问于2017-04-29得票数 0

5回答

有哪些好的基于Ruby的网络爬虫？

、

我正在考虑写我自己的，但我想知道是否有好的网络爬虫在那里是用Ruby编写的。除了一个成熟的网络爬虫，任何可能有助于构建网络爬虫的gem都将是有用的。我知道这个问题的这一部分在几个地方被涉及到了，但是一个适用于构建网络爬虫的宝石列表也是一个很好的资源。

浏览 2提问于2011-02-13得票数 21

回答已采纳

1回答

Web Crawler的功能

、、

网络爬虫是否只从网页中返回提取的文本？例如，如果web服务器中也存储了一些pdf/doc文件。网络爬虫可以爬行它们并返回它们的内容吗？不管怎样，对于一个好的开源Java网络爬虫有什么建议呢？谢谢!

浏览 2提问于2011-06-26得票数 0

回答已采纳

2回答

网络爬虫是如何影响网站统计的？

网络爬虫(包括搜索引擎和非搜索引擎)会以什么方式影响网站统计(例如，在进行AB测试不同页面的变化时)？解决这些问题的方法是什么？例如：很多人在写网页爬虫时经常会删除自己的cookie并屏蔽他们的IP，所以每次抓取网站时，爬虫者都会以不同的用户身份出现吗？什么是启发式来识别某物是一个机器人？(我猜任何足够复杂的机器人都可能与真正的用户无法区分，如果它想要的话-这是正确的吗？) 为了澄清，基于以下评论:我也感兴趣的情况下，我的网站是具体的目标(可能是非法爬虫)。

浏览 3提问于2010-04-12得票数 1

回答已采纳

5回答

Googlebot是用哪种编程语言编写的(或任何其他高效的网络爬虫)？

、

有人知道谷歌机器人是用哪种编程语言编写的吗？或者，更普遍的是，高效的网络爬虫是用哪种语言编写的？我见过很多Java语言，但在我看来，它不是最适合开发网络爬虫的语言，因为它产生了太多的开销(尝试使用Heritrix网络爬虫，它非常重)。

浏览 0提问于2009-10-29得票数 1

回答已采纳

2回答

爬行时管理URL的常见方法是什么？

我正在尝试编写一个网络爬虫程序，但现在我想知道:存储所有urls的最佳方法是什么，这样爬虫就可以一起工作，但不会干扰。示例：爬虫1找到一个包含100个URL的页面。爬虫2找到一个没有任何URL的页面。爬虫1和2共享爬虫1发现的100个URL 我的想法(两种不同的方法) 让Crawler扫描页面寻找新的URL 将所有已找到的URL保存在由所有Queue实例共享的PriorityQueue( Crawler )中一旦Queue变得太大(例如，最大大小的80% )，就将URL外包给数据库让Crawler保存Analyzer，并在之后

浏览 5提问于2011-12-28得票数 0

回答已采纳

2回答

在MYSQL中删除非常非常相似的行

、

在PHPMYAdmin中，我正在运行一个网络爬虫。网络爬虫偶尔会拾取相同的urls。在网络爬虫中，它已经索引了数千个链接，我不想要重复的链接。有没有办法在SQL中删除相似的行(唯一的区别是id字段)

浏览 1提问于2012-08-17得票数 0

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

、、

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1提问于2010-07-27得票数 0

回答已采纳

2回答

识别访问网站中隐藏链接的用户

、、

最近，我把一些隐藏的链接，在一个网站，以诱捕网络爬虫。(使用CSS可见性隐藏样式，以避免用户访问它)。无论如何，我发现有很多HTTP请求引用了访问隐藏链接的浏览器。 E.g : "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31" 所以现在我的问题是： (1)这些是网络爬虫吗？不然还能是什么？ (2)他们是否恶意？ (3)有没有办法描述他们的行为？我在网上搜索，但找不到任何有价值的信息。请您给我提供一些资源，否则任何帮助将

浏览 0提问于2013-12-30得票数 1

回答已采纳

3回答

如何处理中多个线程的内存不足错误

、

我对编程相当陌生，并且正在为我在网络爬虫上的论文而工作。我已经提供了一个网络爬虫，但我发现它太慢，因为它是单线程。花了30分钟才爬上1000个网页。我试图创建多个线程来执行，同时使用20个线程运行1000个网页只需2分钟。但现在我遇到了“内存堆出”的错误。我确信我所做的是错误的，即为20个线程创建了一个 for 循环。在不给出错误的情况下多线程java爬行器的正确方法是什么？说到这一点，多线程是否解决了我的问题？

浏览 10提问于2009-07-18得票数 2

回答已采纳

1回答

运行网站爬虫

、

我正在用java编写一个网站爬虫，我想知道运行它最明智的方式是什么？换句话说，我是走标准的web应用程序路线，放入web服务器并使用某种类型的消息队列，还是忘记容器而将其作为独立的java应用程序运行？这不是一个真正的网络爬虫，因为它只关心x个网站，但我想不断循环通过这些网站(24小时)，以确保我有最新的内容。

浏览 0提问于2012-01-10得票数 0

回答已采纳

1回答

用于特定web爬虫的机器人元标记

、、、、

网络爬虫列表我想要什么 noimageindex (指数化-控制参数)只适用于googlebot (以下两个元标记代码)。其他所有爬虫(例如YandexBot，Baiduspider)都可以工作(下面是1:一个元标记代码)。的问题是：下面的代码对每个爬虫都有效吗？如果没有，最简单的方法是什么？是否需要我为每个爬行者分别写上mea标签？在编程方法中，有一个术语是覆盖性的，这就是为什么我要以这种方式细化(想要编写元标记)，但我不确定它是否有效？示例代码 1: <meta name="robots" content="index, follow" &

浏览 0提问于2021-02-25得票数 2

回答已采纳

3回答

用Java创建web索引器？

、、

我应该用Java写一个网络爬虫。爬行部分很容易，但索引部分很难。我需要能够查询索引器，并让它返回匹配(多个单词查询)。做这样的事情最好的数据结构是什么？

浏览 2提问于2009-12-02得票数 0

1回答

网络爬虫的典型礼貌因素？

、

对于网络爬虫来说，典型的礼貌因素是什么？除了始终遵守robot.txt "Disallow:“和非标准的"Crawl-delay:” 但是，如果站点没有指定明确的爬网延迟，那么默认值应该设置为什么呢？

浏览 4提问于2011-11-23得票数 7

回答已采纳

1回答

限制每秒ping主机名的次数

我正在写一个学习围棋的网络爬虫。我目前的实现使用10个go例程来获取网站，我想限制每秒可以命中主机名的次数。做这件事最好的(线程安全)方法是什么？

浏览 1提问于2016-10-01得票数 1

1回答

在angular universal中检测网站页面中的网络爬虫

、、、

我想要检测服务器端呈现的对我的页面的当前请求- ssr来自网络爬虫或普通用户。我想在网络爬虫中做一些事情，而不是当它是用户的时候。我想在网络爬虫访问页面以获取完整数据时运行ng-in-viewport。而不是在用户使用我的页面时运行。如何检测这个东西？

浏览 4提问于2019-10-22得票数 1

3回答

如何在ABOT C#网络爬虫中获取html输出页面？

、

我正在尝试用ABOT在c#.i中制作网络爬虫，我搜索了很多例子，并添加了ABOT网络爬虫。从那我只能得到日志输出而不是超文本标记语言页面输出。我想得到超文本标记语言页面输出only.because，超文本标记语言输出是超文本标记语言敏捷工具的输入。帮助我从ABOT网络爬虫在C#中获得超文本标记语言输出。谢谢。

浏览 4提问于2013-09-12得票数 5

1回答

如何阻止Web爬虫下载文件

、、

是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)？我应该创建一个PHP脚本，使用cookie跟踪访问者，特别是在下载3个文件后登录/注册的web爬虫。但我发现网络爬虫可以绕过cookie。有可能阻止网络爬虫吗？或者，在下载最多3个文件后，是否还有其他选项可以将文件隐藏在web爬虫上？我可以很容易地创建一个PHP脚本，使用cookie强制访问者登录/注册，但是web爬虫呢？顺便说一下，我用的是nginx和drupal CMS。如果这能帮上忙的话就给我这个信息。

浏览 0提问于2013-07-27得票数 1

2回答

如何使用asp.net mvc3和c#构建网络爬虫？

、、、、

我需要建立一个小的搜索引擎，如谷歌使用ASP.NET MVC3。对于这一个，我还需要建立网络爬虫，其中填充搜索引擎的数据。总而言之，我需要以下内容：如何使用Asp.net MVC3和C#构建网络爬虫。我开始建立一些基本的，但我需要一些指南，资源和书籍。使用这个网络爬虫，我轮询搜索引擎的数据，并使用Lucene.Net对数据应用索引。我需要建立小型搜索引擎，搜索由网络爬虫填充的数据。请任何人有任何想法或资源或书籍。请与我们分享。

浏览 8提问于2012-11-14得票数 2

2回答

Lucene爬虫(它需要建立lucene索引)

、、

我正在寻找Apache Lucene网络爬虫写在java，如果可能的话，或在任何其他语言。爬虫必须使用lucene并创建有效的lucene索引和文档文件，因此这就是nutch被排除的原因。有没有人知道这样的网络爬虫是否存在，如果答案是肯定的，我可以找到它。Tnx..。

浏览 0提问于2009-10-16得票数 1

回答已采纳

3回答

单页应用程序Web爬虫和SEO

、、、

我在前端使用框架将我的博客创建为单页面应用程序。为了进行查询，我在后端使用了rest API和Django。由于所有内容都是使用javascript代码呈现的，当爬虫访问我的博客时，它们看到的只是一个空页面。更重要的是，例如，每当我在社交媒体上分享帖子时，Facebook看到的只是一个空白页面，而不是帖子的内容和标题。我正在考虑查看用户代理，每当用户代理来自爬虫时，我都会将页面的渲染版本提供给它，但我在实现上述方法时遇到了问题。为网络爬虫创建一个在后台SEO友好的rest API和Django的单页应用程序的最佳实践是什么？

浏览 0提问于2017-08-16得票数 1

1回答

托管爬虫的最佳解决方案？

、、、

我有一个爬虫，爬行几个不同的领域为新的帖子/内容。总内容数为十万页，每天都有很多新的内容添加。因此，为了能够通过所有这些内容，我需要我的爬虫爬行24/7。目前，我将爬虫脚本托管在与爬虫添加内容的站点相同的服务器上，而且我只能在夜间运行cron作业来运行脚本，因为当我这样做时，网站基本上停止工作，因为脚本的加载。换句话说，一个非常糟糕的解决方案。所以基本上，我想知道对于这种解决方案，我的最佳选择是什么？是否有可能继续从同一主机运行爬虫，但在某种程度上平衡负载，以便脚本不会扼杀网站？我会找什么样的主机/服务器来托管爬虫？除了普通的网络主机，我还需要其他的规范吗？爬虫保存它爬行

浏览 3提问于2014-03-06得票数 10

回答已采纳

1回答

确定最佳线程数的最佳Java方法

、、

我正在编写一个爬虫，其中有一个工人线程的设置数量，处理网络IO和处理每个网页。但是，我不确定如何才能找到系统的最佳线程数。监控线程性能和具体测量抖动等因素的最佳方法是什么？

浏览 2提问于2013-04-22得票数 0

回答已采纳

9回答

在创建网络爬虫时，需要考虑哪些关键问题？

我今天刚开始考虑创建/定制一个网络爬虫，对网络爬虫/机器人礼仪知之甚少。我发现大部分关于礼仪的文章都显得过时和笨拙，所以我想从web开发人员社区获得一些最新的(和实用的)见解。我想使用爬虫通过“网络”的一个超级简单的目的-“标记的网站XYZ满足条件ABC?” 这给我带来了很多问题，但我认为我首先需要回答的两个主要问题是：从一开始就感觉有点“不确定”--这类事情可以接受吗？爬虫应该采取什么具体的考虑来不让人心烦？

浏览 17提问于2008-08-28得票数 11

回答已采纳

2回答

良好的网络爬虫“礼仪”指南

我正在构建一个搜索引擎(为了好玩)，我突然意识到，我的小项目可能会通过点击广告和各种各样的问题来制造麻烦。那么，好的网络爬虫“礼仪”的指南是什么呢？脑海中浮现的东西：遵守Robot.txt指令将同时请求的数量限制在同一域中不跟踪广告链接？阻止爬虫点击广告-这个在我的脑海中特别此刻.如何阻止我的机器人“点击”广告？如果它直接进入广告中的url，它是否被算为点击？

浏览 1提问于2009-06-09得票数 3

回答已采纳

1回答

Rails会为网络爬虫和机器人创建会话吗？

我想知道会话是否是由网络爬虫和机器人请求的页面创建的。我使用MySQL作为会话存储，并希望防止网络爬虫和机器人的请求创建不必要的会话条目。

浏览 0提问于2011-04-03得票数 3

1回答

使用javascript URL数组的网络爬虫？

、、

我让用户输入他们想要抓取最新更新的URL列表。我对Java很熟悉，所以我试着用Java做一个网络爬虫，但我不太明白如何把这个数组从javascript转换成Java。为了能够抓取数组中的每个URL，最兼容的语言是什么？

浏览 3提问于2016-01-17得票数 0

1回答

如何从同一网站的多个网页中发现公共信息块？

、

这是网络爬虫中的一个模式识别任务。传统的爬虫获取整个页面的数据。如果有任何方法可以让爬虫变得有点智能，就像只是识别和捕获信息部分。

浏览 0提问于2015-05-29得票数 0

1回答

将Snort IDS与Webcrawler结合使用

、、、

我完全是Snort IDS软件和IDS概念的新手，我需要知道是否可以使用Snort来检测隐形-恶意-网络爬虫！换句话说，我可以定义snort规则来检测恶意网络爬虫吗?!！

浏览 4提问于2014-09-13得票数 0

2回答

groovy和grails中的Web爬虫每天都要爬行

、、

我需要实现一个网络爬虫爬行到一个网站，以获得数据每天。做这件事最好的方法是什么？我是否应该写一个groovy脚本，并让它每天重复？如果我使用脚本，我就不能使用域类。有什么建议吗？

浏览 2提问于2012-12-01得票数 1

1回答

如何使用网络爬虫从flv文件中提取内容？

、、、

我的要求是从flv文件中提取文本和音频。请建议我如何使用任何网络爬虫来实现这一点。如果这是不可能与网络爬虫，请建议我任何其他工具。谢谢你

浏览 0提问于2013-05-14得票数 0

回答已采纳

6回答

如何识别网络爬虫？

、

我怎样才能过滤掉网络爬虫等非人类的点击。我使用maxmind.com向IP请求城市。这并不是很便宜，如果我必须支付所有的点击，包括网络爬虫，机器人等。

浏览 3提问于2011-12-07得票数 33

回答已采纳

1回答

如何在.log文件中查找所有网络爬虫

、

我需要帮助。我需要找出如何找到.log文件中的所有网络爬虫。我不知道该找什么。我知道网络爬虫会做一些特定的事情，但是我找不到用java编程的好方法。谢谢

浏览 0提问于2014-01-20得票数 0

1回答

网络爬虫会存储Cookie吗？

、

我目前正在创建一个脚本，将强制我的访问者在下载3个文件后注册/登录。我计划使用cookie来跟踪下载量。此外，我想防止内容农业从糟糕的网络爬虫。我不知道网络爬虫是否也可以像普通访问者一样存储cookie，这样我就可以阻止他们下载我的文件超过3次。如果不支持cookies的网络爬虫仍然可以下载我的文件超过3次，有没有其他方法来跟踪他们的访问量？

浏览 1提问于2013-07-29得票数 1

1回答

使用google搜索设备api创建抄袭检测器

我希望设计一个应用程序，可以检测抄袭(基于网络)在所有格式使用谷歌搜索引擎API。这样的应用程序需要哪些资源。基本上，用户可以上传一个文件，然后根据网络上的各种格式对该文件进行检查。我读到有网络爬虫，但我们到底如何使用它们。谷歌搜索设备API是正确的方法吗？另外，我以前没有使用过Google API，那么最好的开始方式是什么？非常感谢

浏览 0提问于2012-07-03得票数 0

1回答

Web爬虫在网站上执行任务

网络爬虫能被编程来做以下工作吗？转到使用联机工具扫描指定的网站返回结果奖金问题..。是否可以安排每天一次自动完成此任务？自动编程蜘蛛这样做是违法的还是什么的？如果您能提供任何信息，我们将不胜感激。谢谢!

浏览 6提问于2016-07-12得票数 0

回答已采纳

4回答

有已知的网络爬虫列表吗？

、、、

我正在尝试获取web服务器上某些文件的准确下载编号。我看了看用户代理，其中一些显然是机器人或网络爬虫，但许多我不确定，他们可能是也可能不是网络爬虫，它们导致了许多下载，所以对我来说知道这一点很重要。是否有一些已知的网络爬虫的列表和一些文档，如用户代理，IP，行为等？我对官方的不感兴趣，比如谷歌的，雅虎的，或者微软的，这些通常都是很好的表现和自我证明。

浏览 0提问于2009-11-14得票数 17

回答已采纳

1回答