c语言写网页爬虫_c语言写一个爬虫软件_爬虫代码c语言 - 腾讯云开发者社区

、、

我想抓取一个网站使用C#或VB.NET。我希望爬虫从网页中提取网址，我也希望爬虫遵循网址，以便我能够从网站中提取所有的网址。我该怎么写呢？

浏览 1提问于2011-04-06得票数 0

2回答

如何知道html页面的语言？

我正在创建一个从网站下载网页文档的爬虫，并将网页内容存储在数据库中。我不能设法找出哪种语言是一个特定的网页，以便我可以决定是否将其存储在数据库中。

浏览 1提问于2019-03-19得票数 1

1回答

我正在尝试将一个标准的html网页传输到Joomla！不育系。我将使用Scrapy，一个Python网络爬虫来抓取和解析旧的网页。有没有办法(最好是用Python语言)写一个脚本把3000+页面转换成Joomla的mySQL数据库？保留旧的样式/css不是优先考虑的问题。加分的答案可以做到这一点，同时保持旧的网址。一个有用的答案将看起来像“这是不可能的”或“这是可能的，但你需要使用X，其中X是一种语言、工具或其他帮助器”。

浏览 0提问于2012-05-08得票数 0

回答已采纳

1回答

Robots.txt:允许除根目录之外的所有内容

、

我有一个站点，它的根目录是，任何到的流量都被重定向到。在网站管理员工具中，我将站点添加为，但我只在/blog目录和其他静态页面上获取谷歌。对吗？有人能验证一下这是否会达到我想要达到的目的吗？Allow: /$

浏览 1提问于2015-11-18得票数 0

回答已采纳

2回答

我能把这个放在哪里？

、、

我正在寻找一个VPS或专用，可以有一个网络爬虫整天运行。它会收集数据，然后将其添加到一些网站。我的预算是每月20-60美元。

浏览 0提问于2010-11-16得票数 0

3回答

非常简单的C++网络爬虫/蜘蛛？

、

我试图在C++中做一个非常简单的网页爬虫/蜘蛛应用程序。我一直在使用谷歌搜索一个简单的，以了解这个概念。我发现了这个：然而，这是复杂的理解对我来说，因为我开始学习C++大约一个月前。

浏览 15提问于2010-11-25得票数 22

回答已采纳

3回答

如何在ABOT C#网络爬虫中获取html输出页面？

、

我正在尝试用ABOT在c#.i中制作网络爬虫，我搜索了很多例子，并添加了ABOT网络爬虫。从那我只能得到日志输出而不是超文本标记语言页面输出。我想得到超文本标记语言页面输出only.because，超文本标记语言输出是超文本标记语言敏捷工具的输入。帮助我从ABOT网络爬虫在C#中获得超文本标记语言输出。谢谢。

浏览 4提问于2013-09-12得票数 5

3回答

C++网络爬虫

、、、

我正在尝试并尝试制作一个最小的网络爬虫。我在很高的层次上理解了整个过程。那么进入下一层细节，程序如何“连接”到不同的网站来提取HTML？谢谢!

浏览 1提问于2012-07-01得票数 0

回答已采纳

2回答

编写linux服务的最佳语言

、

我想要创建一个爬虫扫描一个单一的网页，并给我一封电子邮件，以防有什么问题在页面上(该页面持有一些web服务器的状态/下降)。此外，C/C++不是一个选项。

浏览 0提问于2013-02-05得票数 0

回答已采纳

5回答

如何将动态站点转换为可从CD演示的静态站点？

、、

有没有人对爬虫有什么好的建议，可以处理像链接清理，flash，一些ajax，css等等？我知道机会很小，但我认为在我开始编写自己的工具之前，我应该在这里抛出这个问题。

浏览 3提问于2008-09-22得票数 9

回答已采纳

1回答

最有效的语言来创建一个非常快的网络爬虫？

我需要快速扫描不同的网页。我应该使用哪种语言来创建一个高效的网络爬虫？

浏览 1提问于2014-02-19得票数 0

2回答

搜索引擎会索引DOM生成的HTML吗？

、、、、

内容和渲染输出会被Google和其他搜索引擎索引吗？<script>html += '<head>';html += '<title>This Is The Stacked Overflown Network</title>'; html

浏览 0提问于2013-07-13得票数 2

2回答

木偶人爬行器大规模爬行

、、

我们正在使用Puppeteer编写一个网络爬虫。我们写的木偶爬虫执行和爬行网站的网址没有问题的网页，如约1,500 - 5,000，但是，当我们执行的网站超过5,000，如果它在中间由于一些错误或崩溃而中断，那么它需要重新开始。如果出现任何错误，如何使基于Puppeteer的网络爬虫从爬行的最后状态恢复？在Puppeteer中有没有内置的函数？如何让这个木偶手无头的chrome web爬行通过一个队列系统？

浏览 14提问于2020-12-05得票数 2

1回答

C# -用网页爬虫下载网站ajax页面

、、

我用c# (使用Microsoft WebCrawler)编写了一个简单的网络爬虫项目，它可以下载特定站点的内容。正如Marcom建议的那样，我从我的网页爬虫和网页浏览器上看到了小提琴的响应。当我的网页爬虫导航到网页时，他会在与网页相反的一个仿真器上接收假信息。有线索吗？

浏览 1提问于2011-03-11得票数 0

2回答

如何抓取特定语言的网页

、

我试图收集所有可用的文本信息(尽可能多)从网页乌兹别克语(为我的研究)。做这件事最好的方法是什么？我找到了通用爬虫，但不确定是否容易提取特定的语言文本。

浏览 2提问于2019-04-05得票数 1

2回答

网络爬虫是如何影响网站统计的？

网络爬虫(包括搜索引擎和非搜索引擎)会以什么方式影响网站统计(例如，在进行AB测试不同页面的变化时)？解决这些问题的方法是什么？例如：什么是启发式来识别某物是一个机器人？为了澄清，基于以下评论:我也感兴趣的情况下，我的网站是具体的目标(可能是非法爬虫)。

浏览 3提问于2010-04-12得票数 1

回答已采纳

2回答

如何在Web浏览器中禁用网站URL？

、、、、

这个问题，当我在互联网上搜索，并得到的结果在javascript代码，但我想要的c#代码。谢谢

浏览 6提问于2014-12-06得票数 1

8回答

如何使用Nokogiri美工打印HTML？

、、、

我用Ruby语言编写了一个网络爬虫，我正在使用Nokogiri::HTML来解析页面。我需要把页面打印出来，当我在IRB中闲逛的时候，我注意到了一个pretty_print方法。我的爬虫正在缓存网页的HTML，并将其写入我的本地计算机上的文件。我想要“漂亮打印”的HTML，以便它看起来很好和适当的格式时，我这样做。

浏览 1提问于2009-12-14得票数 28

回答已采纳

1回答