python和c爬虫 - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

使用scrapy python的.net框架

、、、

可以在Python 框架中使用.NET框架从不同的站点抓取数据吗？我正在做我的最后一年的项目，在这个项目中，我想使用C#作为前端语言，并使用Python来抓取数据。

浏览 0提问于2014-05-07得票数 4

3回答

有没有人知道更多关于谷歌网络爬虫(又称GoogleBot)的细节？我很好奇它是用什么写的(我自己做了几个爬虫，现在正准备做另一个)，以及它是否能解析图像之类的东西。我假设它是这样做的，b/c images.google.com中的图像都被调整了大小。如果它都是用Python编写的，如果他们使用自己的库来做大多数事情，包括html/image/pdf解析，我也不会感到惊讶。也许他们不会这样做。也许它们都是用C/C++编写的。提前谢谢你-

浏览 1提问于2010-04-14得票数 0

回答已采纳

3回答

非常简单的C++网络爬虫/蜘蛛？

、

我试图在C++中做一个非常简单的网页爬虫/蜘蛛应用程序。我一直在使用谷歌搜索一个简单的，以了解这个概念。我发现了这个：然而，这是复杂的理解对我来说，因为我开始学习C++大约一个月前。

浏览 15提问于2010-11-25得票数 22

回答已采纳

1回答

我怎么能强制停止我的爬虫得到一个特定的网址抓取最后一次？

、、、、

我正在制作一个爬虫来找出最近添加的youtube视频，当我的爬虫到达旧视频(在前一个转弯中爬行)时，我想停止爬虫。我使用的不是scrapy和漂亮的汤，我使用的是python库。请给我推荐任何选项

浏览 9提问于2017-06-27得票数 0

1回答

分布在不同地理位置的爬虫

、、

我需要创建一个爬虫与客户端在每个台式机和一个中央服务器，其中的数据是索引。有没有可能在Nutch中创建这样的爬虫？还有没有别的选择。基于Python的爬虫会更好。

浏览 2提问于2011-07-04得票数 0

回答已采纳

1回答

有一个流行的工具来抓取网络数据吗？

、

我正在做信息提取的工作，我需要一个工具从网页上抓取数据，windows中有流行的工具吗？

浏览 7提问于2009-12-14得票数 0

2回答

如何将新的URL传递给Scrapy Crawler

、、、、

我想让一个抓取爬虫在芹菜任务工人内部不断运行，可能使用。或者，正如所建议的，这个想法是使用爬虫程序来查询返回XML响应的外部API。一旦爬虫程序开始运行，我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫，而是希望爬虫无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时，都必须派生

浏览 0提问于2013-05-23得票数 2

1回答

Python-Selenium爬虫冻结，特别是在无头模式下(不可复制的bug)

、、、、

我构建了一个爬虫，它获取用户输入的产品列表的产品信息。有时，爬虫会结冰，特别是如果产品列表很长，如果爬虫在无头模式下运行的话。因为这是一个不可复制的错误，我不认为我能修复它，但有没有办法检测爬虫已经冻结，然后再试一次？费利佩

浏览 2提问于2019-05-21得票数 1

1回答

如何轻松地在远程github分支和本地分支/文件夹之间切换？

、、、

我用Python2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持Python 3，这种转换必须在1 go内完成。我只能在Python 3爬虫做好部署准备之后才能开始使用。现在，由于“所有操作都必须保持活动状态”，我需要一个单独的Python 3爬虫的远程分支。这个分支可以称为Remote-B。我手动创建了这个分支，所以整个存储库现在有两个分支: Master(Remote-A)和Python3爬虫(Remote-B)，

浏览 3提问于2019-09-10得票数 0

回答已采纳

2回答

有效地搜索大量URL列表

、、、

我正在建立一个网络爬虫，它必须爬行数百个网站。我的爬虫保存了一个已经爬行的urls列表。每当爬虫要爬行一个新页面时，它首先搜索已经爬行的url列表，如果已经列出了，则爬虫跳到下一个url，以此类推。爬虫目前是用Python编写的。但我将把它移植到C++或其他更好的语言中。

浏览 5提问于2016-06-23得票数 0

回答已采纳

1回答

弹性豆杆不运行的克隆约伯

、、、、

我在一个弹力豆茎应用程序上有一个抓取器，我可以像这样运行SSH：我想帮我安排一个任务来处理这个问题。Cron won't r

浏览 0提问于2015-04-13得票数 0

5回答

Python中的多线程爬虫真的可以提高速度吗？

、、

我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本，一个线程下载池和一个池处理结果。由于有了GIL，它真的可以同时下载吗？GIL对网络爬虫有什么影响？基本上我想问的是，用python做一个多线程爬虫真的比单线程能给我带来更多的性能吗？谢谢!

浏览 4提问于2010-05-14得票数 10

回答已采纳

1回答

将我的Python电子邮件爬行器转换为Web应用程序的框架

在Python方面经历了几年之后，我才知道它在web开发中的应用。我在Python中制作了一个电子邮件爬虫程序(基本上是一个使用其他几个功能的函数)，它帮助我在generate实习的公司。我的老板问我是否可以让我的python电子邮件爬虫进入一个网络应用程序，这样其他员工就可以通过我来抓取电子邮件，这样我就可以在更重要的事情上工作。是否有一些web应用程序框架可以用来将我的python电子邮件爬虫程序转换成一个简单的公司专用web应用程序？制作网络应用程序所需的时间范围

浏览 5提问于2015-07-08得票数 0

回答已采纳

5回答

如何将动态站点转换为可从CD演示的静态站点？

、、

有没有人对爬虫有什么好的建议，可以处理像链接清理，flash，一些ajax，css等等？我知道机会很小，但我认为在我开始编写自己的工具之前，我应该在这里抛出这个问题。

浏览 3提问于2008-09-22得票数 9

回答已采纳

3回答

C++网络爬虫

、、、

我正在尝试并尝试制作一个最小的网络爬虫。我在很高的层次上理解了整个过程。那么进入下一层细节，程序如何“连接”到不同的网站来提取HTML？谢谢!

浏览 1提问于2012-07-01得票数 0

回答已采纳

1回答

如何用基于Python的Crawler机器连接Django？

、、

好日子，朋友们如果有人知道我可以参考的资源，你们能分享一下吗？谢谢

浏览 2提问于2019-10-11得票数 0

回答已采纳

1回答

使用Qt作为纯终端应用的Web爬虫

、、

我在GUI环境中使用Qt创建了一个用于特定任务的简单web爬虫。现在，我想将它自动化(使用cron)，并使用纯非GUI环境所必需的。我试图将代码移植到一个非GUI应用程序，但没有成功。如果不可能，如何使用Qt为非GUI应用程序编写web爬虫程序？我熟悉Qt (当然不是专家)，如果可能的话，我想使用它根据的说法，我可以在终端上运行我的网络爬虫，但是

浏览 0提问于2012-09-20得票数 1

1回答

什么工具或语言，或者我如何才能建立像谷歌新闻的网站

我必须建立一个网站，我需要爬行过滤，或者你可以说阅读50个网站管理员。然后阅读这些网站后，我需要过滤新闻e，例如与梅赛德斯奔驰相关的新闻，然后我需要显示在该网站上参考原始来源。目前，我知道PHP，可以在其中建立复杂的网站。但是我不知道如何阅读其他网站。我不知道如何继续，我的意思是，在尝试制作网站之前，我需要学习哪些东西。或者我可以直接潜入这个网站。

浏览 2提问于2010-09-13得票数 0

回答已采纳

1回答

将具有动态生成名称的DynamoDB表导出到S3

、、

我将时间序列数据存储在每日生成的DynamoDB表()中。这些表的命名惯例是"timeseries_ 2019-12-20 "，其中2019-12-20为当前日期。我想以CSV格式将前一天表发送到S3桶。推荐的方法是什么？我在看AWS Glue，但不知道如何让它每天找到新的表名。也许有云观察事件的lambda函数会更好？DynamoDB表的大小不大，存储了几百个数字。

浏览 4提问于2019-12-21得票数 0

回答已采纳

1回答

定期运行python程序作为防火墙中的后台服务。

、、

我的网站的一个设计特点是爬行和显示从另一个网站分析的数据(例如，股票价格的变化)。我已经有了负责解析数据的python爬虫，但是我不知道如何(在后台)在firebase中执行服务器的这个python爬虫(或者根本不可能)？下面是我的系统的示例用法用户可以从数据库中看到网站变更的摘要。我想到的一个选择是在本地机器上运行爬虫，并使用REST将解

浏览 0提问于2018-01-25得票数 3

点击加载更多

使用scrapy python的.net框架

谷歌机器人信息？

非常简单的C++网络爬虫/蜘蛛？

我怎么能强制停止我的爬虫得到一个特定的网址抓取最后一次？

分布在不同地理位置的爬虫

有一个流行的工具来抓取网络数据吗？

如何将新的URL传递给Scrapy Crawler

Python-Selenium爬虫冻结，特别是在无头模式下(不可复制的bug)

如何轻松地在远程github分支和本地分支/文件夹之间切换？

有效地搜索大量URL列表

弹性豆杆不运行的克隆约伯

Python中的多线程爬虫真的可以提高速度吗？

将我的Python电子邮件爬行器转换为Web应用程序的框架

如何将动态站点转换为可从CD演示的静态站点？

C++网络爬虫

如何用基于Python的Crawler机器连接Django？

使用Qt作为纯终端应用的Web爬虫

什么工具或语言，或者我如何才能建立像谷歌新闻的网站

将具有动态生成名称的DynamoDB表导出到S3

定期运行python程序作为防火墙中的后台服务。

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐