网络爬虫的应用_网络爬虫应用领域_网络爬虫 - 腾讯云开发者社区

如果我想写一个多线程爬虫，我想知道哪个是最好的best服务提供商。Appengine，ec2.... Appengine java显然有一些限制..此外，一个免费将是伟大的，因为我只是测试应用程序。

浏览 2提问于2009-12-17得票数 0

2回答

如何使用asp.net mvc3和c#构建网络爬虫？

、、、、

我需要建立一个小的搜索引擎，如谷歌使用ASP.NET MVC3。对于这一个，我还需要建立网络爬虫，其中填充搜索引擎的数据。总而言之，我需要以下内容：如何使用Asp.net MVC3和C#构建网络爬虫。我开始建立一些基本的，但我需要一些指南，资源和书籍。使用这个网络爬虫，我轮询搜索引擎的数据，并使用Lucene.Net对数据应用索引。我需要建立小型搜索引擎，搜索由网络爬虫<

浏览 8提问于2012-11-14得票数 2

2回答

浏览器限制会影响网页爬虫吗？

、、

我正在使用普通模式和不推荐的浏览器模式创建站点，如果有人进入www.mysite.com，他的用户代理就会出现这样的情况： if (Request.Browser.IsMobileDeviceRequest.Browser.Version) < 9) return Redirect("/h"); return View(); 问题

浏览 0提问于2013-02-21得票数 0

回答已采纳

1回答

在spring boot中通过REST api处理提交的耗时任务的最佳方法

、、、、

我有一个春天启动网络项目，需要与网络爬虫系统的工作。我的爬虫服务在没有任何停机时间的情况下工作，每个爬虫请求可能有很长的处理时间。我想通过一个REST接口获取抓取的URL。我的web应用程序中的用户将URL列表提交给web应用程序，我想向他/她显示:您的请求已提交。完成此请求的爬网后，我希望更新web

浏览 32提问于2020-10-22得票数 1

1回答

我正在寻找一个web应用程序，它可以以与搜索引擎非常相似的方式从网络上收集数据，但它不会将结果作为标题和摘要的列表，而是将结果转储到一个表中，试图从其内部索引中的页面中提取元数据。(很久以前，谷歌有一个叫做Google Squared的网络应用程序。今天还有其他类似的工具吗？我记得这是非常有用的，令人惊讶的直觉--虽然不是完美的，但对于非程序员来说，它是一个非常棒的工具，可以快速地创建相当复杂的查询

浏览 0提问于2023-02-07得票数 2

2回答

如何阻止不同的web爬虫访问基于java的web应用程序？

、、

我正在开发一个基于struts2的web应用程序，希望阻止web爬虫访问我的应用程序。

浏览 0提问于2014-11-27得票数 0

4回答

如何在Python中每隔十分钟执行一个程序一整天

、、

我正在工作的网络爬虫应用程序下载股票价格每十分钟。我能够提取引用，但我不确定如何安排它在一整天每十分钟运行一次。请给我建议要么是时间循环的东西，要么是网络爬虫应用程序本身的解决方案。我需要一个在Windows上工作的解决方案。

浏览 1提问于2015-03-05得票数 2

2回答

使用Web Crawler爬行Web数据

、

我想使用一个网络爬虫和抓取一个特定的网站。该网站是一个学习管理系统，许多学生在这里上传他们的作业，项目演示文稿等。我的问题是，我可以使用网络爬虫下载已经上传到学习管理系统中的文件吗？用户可以使用我的应用程序作为搜索引擎。爬虫能做到这点吗？我知道webeater (用Java编写的Crawler )

浏览 1提问于2011-03-30得票数 1

回答已采纳

1回答

web爬虫是否读取HTTP标头？

、、、

我拥有一个网址缩短服务，我想要检测我收到的请求是否来自网络爬虫。作为对请求的响应，我发送了一个HTTP头302，它将请求者重定向到原始链接。我在想，我可以为响应提供一个看不见的链接，这样机器人也会向我发送对该页面的请求，但普通用户不会。这是基于这样的假设:即使机器人读取报头并进行重定向，它们仍然会扫描页面并向其中找到的链接发送请求。假设是正确的吗？如果不是，我也可以通过Javascript重定向它们，但这不是重定向的标准方式(我想)。

浏览 1提问于2014-02-08得票数 0

1回答

爬取白页的可能解决方案

、

我正处于一个我必须编写的程序的开始阶段，该程序将从我拥有的大型数据库中提取用户，并将其与任何类似于Whitepages电话簿的内容进行比较。这样做的原因是为了用更新的相关联系信息更新存储在我的数据库中的任何旧联系信息。到目前为止，我只接触过Whitepages Pro，它提供了一个API，允许我对他们的数据库运行一些查询，并返回我认为是最新的信息。我可以访问用户的电话号码、姓名和地址，因此最初的想法

浏览 1提问于2015-05-01得票数 0

1回答

将我的Python电子邮件爬行器转换为Web应用程序的框架

在Python方面经历了几年之后，我才知道它在web开发中的应用。我在Python中制作了一个电子邮件爬虫程序(基本上是一个使用其他几个功能的函数)，它帮助我在generate实习的公司。我的老板问我是否可以让我的python电子邮件爬虫进入一个网络应用程序，这样其他员工就可以通过我来抓取电子邮件，这样我就可以在更重要的事情上工作。是否有一些web应用程序框架可以用来将我的

浏览 5提问于2015-07-08得票数 0

回答已采纳

1回答

java--跟踪运行java应用程序时所使用的带宽和其他参数的库/方法

、

我正在努力创建一个Java的网络爬虫。爬虫访问网站，使用JDBC访问/存储数据库中的数据，还将文件存储在本地或云存储上。作为爬行的一部分，我想记录爬虫使用的确切细节--Number of sites visited (HTTP+HTTPS)Number of bytes of data stored+accessed in cloud st

浏览 1提问于2012-06-28得票数 0

回答已采纳

1回答

有一个流行的工具来抓取网络数据吗？

、

我正在做信息提取的工作，我需要一个工具从网页上抓取数据，windows中有流行的工具吗？

浏览 7提问于2009-12-14得票数 0

1回答

什么是无效的HTTP_HOST头？

、、、、

我已经实现了Django相对新的允许主机设置，它的目的是防止攻击者提交带有假header的请求。我在EC2上托管我的站点，对于设置/维护服务器相对来说还是比较新的，所以我的问题是这里到底发生了什么，以及管理这些无效的最佳方法是什么，我假设是恶意请求？

浏览 0提问于2013-10-31得票数 2

回答已采纳

2回答

在网站和独立应用程序中使用Django框架

、

我计划为它写一个网络爬虫和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络爬虫使用与网站相同的MySQL后端(而不是让网络爬虫本身成为“网站”)。

浏览 1提问于2009-06-04得票数 1

回答已采纳

1回答

向远程MySQL提供数据的模式

、、

我想从社区中听到一个很好的模式来解决下面的问题。我有一个“无所不包”的服务器，它是were服务器，mysql，爬虫服务器。由于使用监视工具的两三周时间，我发现当我的爬虫运行时，我的平均负载总是超过5(一个4核心服务器，可以一直使用到4.00作为负载)。所以，我有另一台服务器，我想把我的爬虫移到那里。我的问题是。一旦我在我的爬虫服务器中爬行数据，我必须插入我的数据

浏览 2提问于2011-05-01得票数 0

1回答

Facebook Linter / Open Graph截取URL路径

、、、、

我一直在网上和StackOverflow上寻找答案，但我没有找到完全适用于我的情况的案例。我使用Facebook Linter来调试FB抓取我的meta标签的方式。如果我在一个简单的About页面上使用它，它可以提取所有内容，特别是og:url元标记。当我抓取正常的内容页面时，问题就开始了。尽管我已经三次检查了我的标记格式是否正确，但FB Linter将URI从URL中删除，因此它报告og:url标记只有域名electionstats.com/！请

浏览 3提问于2011-10-10得票数 0

回答已采纳

2回答

使用用户登录从其他网站导入用户帐户数据

、、、

这些网站要求用户提供他们的凭据以登录到各自的网站，然后导入帐户详细信息。LivingSocial和其他交易网站不提供对用户帐户的应用编程接口访问。到目前为止，我能够发现网络爬虫/蜘蛛可以用来从网页上删除数据。但我不确定网络爬虫在我们需要用户登录并且页面urls是加密的，或者至少是动态生

浏览 4提问于2011-09-09得票数 0

回答已采纳

2回答

建立一个自定义的网页爬虫的最佳方法，以便在URL中找到带有任意文本的站点？

、

我想找到所有的网站，其中有关键字‘冲浪波’在他们的地址，非常简单！但是，没有使用任何搜索引擎，这意味着，编写一个纯网络爬虫。我想，我要面对的问题是：我说的对吗？我不想使用搜索引擎，因为它们限制了结果的数量。

浏览 8提问于2010-09-26得票数 0

回答已采纳

5回答

有哪些好的基于Ruby的网络爬虫？

、

我正在考虑写我自己的，但我想知道是否有好的网络爬虫在那里是用Ruby编写的。除了一个成熟的网络爬虫，任何可能有助于构建网络爬虫的gem都将是有用的。我知道这个问题的这一部分在几个地方被涉及到了，但是一个适用于构建网络爬虫的宝石列表也是一个很好的资源。

浏览 2提问于2011-02-13得票数 21

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如果要编写多线程爬行器，应选择哪个web服务提供商

如何使用asp.net mvc3和c#构建网络爬虫？

浏览器限制会影响网页爬虫吗？

在spring boot中通过REST api处理提交的耗时任务的最佳方法

搜索引擎，它根据非结构化数据创建有关主题的信息表。

如何阻止不同的web爬虫访问基于java的web应用程序？

如何在Python中每隔十分钟执行一个程序一整天

使用Web Crawler爬行Web数据

web爬虫是否读取HTTP标头？

爬取白页的可能解决方案

将我的Python电子邮件爬行器转换为Web应用程序的框架

java--跟踪运行java应用程序时所使用的带宽和其他参数的库/方法

有一个流行的工具来抓取网络数据吗？

什么是无效的HTTP_HOST头？

在网站和独立应用程序中使用Django框架

向远程MySQL提供数据的模式

Facebook Linter / Open Graph截取URL路径

使用用户登录从其他网站导入用户帐户数据

建立一个自定义的网页爬虫的最佳方法，以便在URL中找到带有任意文本的站点？

有哪些好的基于Ruby的网络爬虫？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐