网络爬虫建模_网络爬虫_网络爬虫 js - 腾讯云开发者社区

、、

return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图，它也会限制对网络爬虫的访问吗

浏览 0提问于2013-02-21得票数 0

回答已采纳

1回答

搜索引擎，它根据非结构化数据创建有关主题的信息表。

、、、

我正在寻找一个web应用程序，它可以以与搜索引擎非常相似的方式从网络上收集数据，但它不会将结果作为标题和摘要的列表，而是将结果转储到一个表中，试图从其内部索引中的页面中提取元数据。(很久以前，谷歌有一个叫做Google Squared的网络应用程序。今天还有其他类似的工具吗？这是维基百科页面中的相关描述: Google从整个网络中提取结构化数据，并以类似电子表格的格式显示其结果。每个搜索查询返回一个搜索结果表，其中有自己的一组列--与搜索主题相关联的公共属性。

浏览 0提问于2023-02-07得票数 2

5回答

如何将动态站点转换为可从CD演示的静态站点？

、、

有没有人对爬虫有什么好的建议，可以处理像链接清理，flash，一些ajax，css等等？我知道机会很小，但我认为在我开始编写自己的工具之前，我应该在这里抛出这个问题。

浏览 3提问于2008-09-22得票数 9

回答已采纳

2回答

在网站和独立应用程序中使用Django框架

、

我计划为它写一个网络爬虫和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络爬虫使用与网站相同的MySQL后端(而不是让网络爬虫本身成为“网站”)。

浏览 1提问于2009-06-04得票数 1

回答已采纳

1回答

爬取白页的可能解决方案

、

我正处于一个我必须编写的程序的开始阶段，该程序将从我拥有的大型数据库中提取用户，并将其与任何类似于Whitepages电话簿的内容进行比较。这样做的原因是为了用更新的相关联系信息更新存储在我的数据库中的任何旧联系信息。到目前为止，我只接触过Whitepages Pro，它提供了一个API，允许我对他们的数据库运行一些查询，并返回我认为是最新的信息。我可以访问用户的电话号码、姓名和地址，因此最初的想法是将旧的电话号码+姓名与更新的数据库进行比较，以更正旧的数据。我的问题是，对于我的问题，这看起来是一个好的解决方案吗？Whitepages似乎是我唯一可以使用的工具(它确实花费了300美元，但如果它

浏览 1提问于2015-05-01得票数 0

5回答

有哪些好的基于Ruby的网络爬虫？

、

我正在考虑写我自己的，但我想知道是否有好的网络爬虫在那里是用Ruby编写的。除了一个成熟的网络爬虫，任何可能有助于构建网络爬虫的gem都将是有用的。我知道这个问题的这一部分在几个地方被涉及到了，但是一个适用于构建网络爬虫的宝石列表也是一个很好的资源。

浏览 2提问于2011-02-13得票数 21

回答已采纳

1回答

Facebook Linter / Open Graph截取URL路径

、、、、

我一直在网上和StackOverflow上寻找答案，但我没有找到完全适用于我的情况的案例。我使用Facebook Linter来调试FB抓取我的meta标签的方式。如果我在一个简单的About页面上使用它，它可以提取所有内容，特别是og:url元标记。当我抓取正常的内容页面时，问题就开始了。尽管我已经三次检查了我的标记格式是否正确，但FB Linter将URI从URL中删除，因此它报告og:url标记只有域名electionstats.com/！页面上实际存在的og:url标记如下所示：我怀疑这是FB缓存页面的问题，因为在我的About页面上，我进行了快速代码更改，更

浏览 3提问于2011-10-10得票数 0

回答已采纳

1回答

文件-启用模块elasticsearch后的问题

错误实例/beat.go:1015退出:未能启动爬虫:创建模块重新加载程序失败:无法为文件集创建模块注册表:为文件集elasticsearch/审核获取配置错误:错误解释输入的模板:模板:文本:在<.paths>：range不能迭代/opt/aaa-<.paths>_audit.json退出:失败启动爬虫:创建模块重新加载程序失败:无法为文件集创建模块注册表:为文件集获取配置:获取文件集elasticsearch

浏览 3提问于2022-02-17得票数 0

1回答

胶爬虫无法使用snappy压缩json文件分类和创建表。

、、、、

我还有一个Glue Crawler，它使用那个桶创建模式。但是，爬虫将表分类为未知表。它无法检测到文件确实是json。根据下面的文档，Glue爬虫提供了带有JSON文件的快速压缩，但我无法实现。

浏览 7提问于2022-09-29得票数 0

1回答

Web Crawler的功能

、、

网络爬虫是否只从网页中返回提取的文本？例如，如果web服务器中也存储了一些pdf/doc文件。网络爬虫可以爬行它们并返回它们的内容吗？不管怎样，对于一个好的开源Java网络爬虫有什么建议呢？谢谢!

浏览 2提问于2011-06-26得票数 0

回答已采纳

1回答

React / JSX生成的HTML元素对Google Web爬虫是不可见的吗？

、、、、

我最近读了一篇文章，关于用JavaScript创建的HTML元素是如何不被Googlebot / Google爬虫拾取的。我即将开始学习React，其中一个原因是你可以创建模板文件和组件，这样就可以很容易地复制页眉和页脚等常见功能，以保持代码干燥。但我担心的是，如果我这样做，React / JSX生成的HTML实际上不会被网络爬虫跟踪，因此它基本上是不可见的，这将产生大量潜在的负面影响，尤其是劣质的SEO。

浏览 10提问于2017-12-19得票数 0

5回答

Googlebot是用哪种编程语言编写的(或任何其他高效的网络爬虫)？

、

或者，更普遍的是，高效的网络爬虫是用哪种语言编写的？我见过很多Java语言，但在我看来，它不是最适合开发网络爬虫的语言，因为它产生了太多的开销(尝试使用Heritrix网络爬虫，它非常重)。

浏览 0提问于2009-10-29得票数 1

回答已采纳

2回答

建立一个自定义的网页爬虫的最佳方法，以便在URL中找到带有任意文本的站点？

、

但是，没有使用任何搜索引擎，这意味着，编写一个纯网络爬虫。--很明显，它永远不会停下来运行.它甚至在碰到我想要的东西之前会遇到很多“垃圾”站点。

浏览 8提问于2010-09-26得票数 0

回答已采纳

2回答

在MYSQL中删除非常非常相似的行

、

在PHPMYAdmin中，我正在运行一个网络爬虫。网络爬虫偶尔会拾取相同的urls。在网络爬虫中，它已经索引了数千个链接，我不想要重复的链接。有没有办法在SQL中删除相似的行(唯一的区别是id字段)

浏览 1提问于2012-08-17得票数 0

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

、、

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1提问于2010-07-27得票数 0

回答已采纳

1回答

失败爬行器的scrappy状态页面

、

我做了一个蜘蛛来抓取新闻，下面是代码handle_httpstatus_list = [404, 500]allowed_domains = ['abctvnepal.com.np'] 'http://www.abctvnepal.com.np', if response.status in self.handle_httpstatus_lis

浏览 1提问于2014-06-26得票数 0

3回答