云服务器上运行爬虫_云服务器上运行爬虫程序_云服务器上爬虫 - 腾讯云开发者社区

我在云主机上运行了一个scrapy爬虫，这个爬虫可以一直运行，假如我没有停止爬虫就和主机断开了连接，是不是除了关机就没有办法停止爬虫了？

浏览 391提问于2018-01-27

1回答

定期运行python程序作为防火墙中的后台服务。

、、

只要开始使用firebase + react就可以建立一个网站。我的网站的一个设计特点是爬行和显示从另一个网站分析的数据(例如，股票价格的变化)。我已经有了负责解析数据的python爬虫，但是我不知道如何(在后台)在firebase中执行服务器的这个python爬虫(或者根本不可能)？下面是我的系统的示例用法用户登录和订阅网站/数据他们很感兴趣我的爬虫将每1小时解析该网站并将数据更新到数据库。用户可以从数据库中看到网站变更的摘要。我想到的一个选择是在本地机器上运行爬虫，并使用REST将解析的数据更新到firebase数据库。然而，这似乎是一种非常低效/天真的方法，

浏览 0提问于2018-01-25得票数 3

1回答

为什么我的两个云服务器在dht crawler上的行为不同？

、、、、

我在Bittorrent Protocol的基础上用java写了一个分布式哈希表torrents爬虫。它在1c2g1m的云服务器A上工作得很好，我从那里得到了一些torrents。然后我买了另一个云服务器B，叫做Lighthouse。B为1c2g5m，限制为1000g。但是我的爬虫在B上不起作用，我无法获得任何响应，例如find_node响应。我使用linux nc测试了B的udp发送和接收。没有问题。我还使用这两台服务器互相发送和接收udp数据包。也没问题。另一件奇怪的事情是，我在B上收到了一些在bep_0051中定义的sample_infohashes请求，ip是127.0.0.1

浏览 42提问于2021-03-22得票数 1

0回答

远程服务器无法访问本机redis？

、、、

将爬虫部署到腾讯云服务器后，云服务器一直无法访问本机的redis。本机的redis已经开启远程访问。 360截图-8277578.jpg

浏览 298提问于2019-05-22

1回答

403在Heroku上使用python请求抓取网站时出现禁止错误

、、、、

我编写了一个爬虫脚本，将post请求发送到"sci-hub.do“，并将其设置为在Heroku上运行。但当它尝试发送post或get请求时，我得到的大多是403禁止消息。奇怪的是，只有当这个脚本在Heroku云上运行时才会发生这种情况，当我在我的PC上运行它时，一切都很好，我得到了200状态代码。我尝试过使用会话，但它不起作用。我还检查了该网站的robots.txt，并将User-Agent头设置为"Twitterbot/1.0“，但仍然失败。我做错了什么？为什么只有在Heroku上运行脚本时才会发生这种情况。我非常确定and服务器正在将我的脚本检测为爬虫机器人，并试

浏览 13提问于2021-01-28得票数 0

1回答

如何将scrapyd部署到网络

、、、

我目前有一个scrapyd实例，并在我的机器上本地运行。此scrapyd实例需要在我的雇主网络上的其他PC上可用。我读过关于刮刮云()和其他基于云的服务的文章。然而，我更愿意在我们的网络上托管scrapyd，因为我构建的爬虫从我们服务器上存储的csv文件中提取数据。我搜索了scrapyd文档()，了解了如何安装和运行scrapyd。我也喜欢将scrapy项目上传到scrapyd并运行特定的爬行器。我需要采取哪些步骤才能使我的scrapyd实例可供网络上的其他计算机使用？我们所有的PC和服务器都运行在windows操作系统上答案不需要是具体的一步一步指南。我只是想找个人给我指明正确的方向，

浏览 13提问于2017-02-03得票数 0

回答已采纳

1回答

如何以编程方式更改Azure Cloud服务或VM的IP地址？

、、、

背景。我有一个服务，是爬一个合作伙伴的网站。他们的网站通过IP地址阻止“机器人一样”的行为。他们不控制自己的服务器，所以他们希望我经常改变我的爬虫的IP地址(例如每分钟)。爬虫目前正在以Azure服务的形式运行。所以我的问题是。如何以编程方式更改Azure服务器的IP地址？我可以用代理..。但是这个站点是在SSL上运行的，所以我不确定这是一个选项。我可以用VPN连接..。但我不确定是否可以通过编程方式从云服务/VM中拨号VPN？我使用的是C#/.NET。终于来了。我试图做一个VIP交换，这实际上给了我一个新的IP在几秒钟内。但不幸的是，这只在将表单转换为生产阶段时才起作用。如果没有分阶

浏览 0提问于2013-08-18得票数 2

回答已采纳

1回答

托管爬虫的最佳解决方案？

、、、

我有一个爬虫，爬行几个不同的领域为新的帖子/内容。总内容数为十万页，每天都有很多新的内容添加。因此，为了能够通过所有这些内容，我需要我的爬虫爬行24/7。目前，我将爬虫脚本托管在与爬虫添加内容的站点相同的服务器上，而且我只能在夜间运行cron作业来运行脚本，因为当我这样做时，网站基本上停止工作，因为脚本的加载。换句话说，一个非常糟糕的解决方案。所以基本上，我想知道对于这种解决方案，我的最佳选择是什么？是否有可能继续从同一主机运行爬虫，但在某种程度上平衡负载，以便脚本不会扼杀网站？我会找什么样的主机/服务器来托管爬虫？除了普通的网络主机，我还需要其他的规范吗？爬虫保存它爬行

浏览 3提问于2014-03-06得票数 10

回答已采纳

1回答

CPU优化服务器还是内存优化服务器？

、

我有一个用Go写的爬虫，我想从我的电脑移到云服务器上。因此，我正在寻找一个云服务，我看到大多数液滴，实例等.有内存和cpu优化的解决方案。如果我的剧本：大量使用Go的并发特性每秒打几千个http电话在for循环中进行许多简单的add/mul/sub操作，这些循环通过数组循环。读取存储在内存中的全局变量

浏览 0提问于2022-09-04得票数 0

2回答

关于腾讯云服务器乱码的问题？

、

腾讯云Centos7.1 64位系统。我在本地win8环境下用java写了个小爬虫程序，没什么问题，但将程序部到服务器上就发生了乱码，我的编码设置就是网页源代码的编码。求帮助。。核心的代码：String encoding="UTF-8";

浏览 851提问于2016-03-17

1回答

使用自定义资源Lambda运行Crawler

、、、、

我正在尝试使用云构造来创建和调用AWS Glue爬虫。爬虫的创建部分(作为目标的发电机数据库)在lambda函数中。我如何使用云形成来实现所有这些？例如，从s3中存在的cod创建λ函数，在创建lambda函数后，应该触发它来创建爬虫程序，然后应该调用爬虫程序来创建目标表。我希望所有这些都是云的形成。参考链接：Is it possible to trigger a lambda on creation from CloudFormation template

浏览 21提问于2019-09-17得票数 0

1回答

如何在Heroku云上部署Scrapy spider

、、、

我在scrapy中开发了几个爬虫&我想在Heroku云上测试它们。有没有人知道如何在Heroku云上部署Scrapy spider？

浏览 1提问于2012-10-08得票数 11

回答已采纳

1回答

在服务器之间共享列表的适当方式

、

我有许多网络爬虫运行在不同的服务器上。我希望这些爬虫共享他们已经爬行的每个网址的指纹。我可以通过让每个爬虫检查SQL服务器中的finderprint来做到这一点。但是--有没有更合适的方法呢？我只是在寻找一个集合中的包含项。SQL server似乎有点过头了。我在ubuntu上运行。

浏览 2提问于2014-06-03得票数 0

1回答

各位用腾讯云上海站的是不是在百度站长里出这个错误了：？

服务器错误：爬虫发起抓取，httpcode返回码是5XX ====我的好几个站都这样了，以前百度能正常抓取的，但是最近突然不行了，是什么问题啊？大家的腾讯云服务器有这个问题吗？

浏览 193提问于2016-04-26

1回答

是什么阻碍了我的PHP脚本？

、、、

我们有一个PHP爬虫运行在我们的web服务器上。crawler运行时，没有cpu、内存或网络带宽峰值。一切都很正常。但是我们的网站(也是PHP)，托管在同一台服务器上，停止响应。基本上，爬虫会阻止任何其他php脚本运行。编辑： ** fsockopen用于将文件下载到crawler！**

浏览 3提问于2010-05-11得票数 0

1回答

你如何确保它确实与谷歌云酒吧/潜艇一起工作？

、、

我目前正在做一个分布式爬行服务。在做这件事的时候，我有一些需要解决的问题。首先，让我们解释爬虫是如何工作的，以及需要解决的问题。爬虫需要保存每个特定站点上的每个公告板上的所有帖子。要做到这一点，它会自动发现爬行目标，并将几条消息发布到pub/sub。其信息是： { "boardName"：“测试”，"targetDate"："2020-01-05“} 当发出相应的消息时，将触发云运行函数，并爬行与给定的json对应的数据。但是，如果发布相同的重复消息，则会出现重复数据，因为相同的数据将被爬行。当同样的消息出现时，我怎么能忽略其他消息呢？此外，对

浏览 3提问于2022-03-23得票数 0

1回答

从单独的python脚本运行爬行器

、

我想知道从另一个python脚本运行爬虫的最好方法是什么。我的scrapy项目由4个不同的爬虫组成，它们都创建了帮助其他蜘蛛工作的文件，其中一些必须读取一些文件才能工作。这部分已经完成了，但是是单独的(独立于控制台运行爬行器)。例如，我如何才能做这样的事情？ if (productToSearchIsBlue): #Make one spider crawl else: #Make another spider crawl 我的最终计划是将完整的程序上传到云上，并让它自动运行，这能做到吗？我找到了这个问题的一些答案，但它们太老了，可能是另一个版本的scrapy。

浏览 8提问于2019-02-05得票数 0

回答已采纳

1回答

AWS和Python线程可伸缩性

、、

我在本地服务器上运行了一个使用库编写的服务。可以把它想象成一种网络爬虫。它使用50个线程。我想把它部署在云上，并向上扩展，这样它就可以使用更多的线程。简单地说，我有两个：带有URL的Qinput和带有页面内容的Qoutput。线程从Qinput中挑选URL，获取网页内容并将其放到Qoutput中问:我只需将线程数量增加到500、5000或50,000，AWS + Python就可以处理它了吗？在AWS上移植多线程服务时，我应该期待服务无缝运行，还是应该注意一些“标准”设计缺陷？我知道，尽管它在这里不是问题，因为线程的主要任务是在爬行/抓取页面时调用解释器外部

浏览 1提问于2013-01-09得票数 0

回答已采纳

1回答

在Linux服务器上使用Selenium运行Scrapy Web Crawler

、、、、

我用scrapy和selenium(python)开发了一个网络爬虫。它可以在我的本地成功运行。我很好奇，我可以把我的整个爬虫项目上传到我的linux服务器上，然后像在本地一样运行吗？只有一个问题是在我的本地，当程序运行时，它会打开浏览器，模仿人类的动作，但在linux服务器上，就像你知道的，我们没有浏览器可以打开。所以我们可以这样做吗？

浏览 1提问于2016-02-26得票数 0

1回答

使用副本辅助服务器运行DSpace

在前面有负载均衡器的多台服务器上运行DSpace会有什么问题吗？我想将连接从收割机和爬虫转移到辅助服务器，以减少主服务器上的负载，而辅助服务器具有数据库的只读副本作为后端。否则，实现如何处理来自收割机和网络爬虫/机器人的通信，而不会对DSpace的用户体验和性能产生负面影响？

浏览 3提问于2022-10-07得票数 0

1回答

AWS雅典娜从GLUE Crawler输入从S3创建的表返回零记录

、、、

我已经阅读了问题的答案还有的问题按建议我给Glue爬虫提供了S3中的文件夹路径，而不是文件名。I已删除并重新创建了爬虫但这没什么用我的案子：来自s3存储中csv的示例数据：云监视日志显示成功创建了胶水表：模式结构如下所示： Sizekey 333匹配csv数据大小：但是当我运行雅典娜查询时，我得到的结果是：只返回列，不返回记录。扫描数据:0 KB 有人知道为什么胶水爬虫不能转换数据吗？谢谢!

浏览 1提问于2019-12-12得票数 2

回答已采纳

1回答

我可以使用Firebase函数& Firestore作为缓存服务器吗？

、、、

我想做一个Android应用程序。它使用一些rest。( Rest不是我的，外部第三方服务器)，但是提供者限制api，每秒20个请求。就我而言，它太短了。所以我想在后端缓存数据。我想让我的后端使用Firebase。防火墙云功能应该始终运行，它请求rest而不是用户(每秒20个请求) 它将响应存储在Fi还原或实时数据库(Firebase)中。第二步没有问题。但我不知道step1是否有可能。通常，云函数被用作触发器。但在我的例子中，我想像爬虫一样使用它。它应该总是在没有任何触发的情况下运行。我知道这不是免费的，而是为了有偿服务。有可能吗？我错过了什么吗？

浏览 4提问于2017-12-13得票数 0

0回答

如何加速海外服务器的响应？tx的CDN看了一下，1tb要100软妹币?

、、、、

实验室牛马一枚，被拉来干爬虫的协同部署，还得抓取数据反馈给中台，结果被腾讯云新加坡丢包75延迟500狠狠的上了一课，开发调试都困难，有无大佬提供加速思路？一时半会不敢找导师，最近刚找他报销服务器费用???

浏览 23提问于2024-03-26

1回答

用的这个代码，点击下载后出错能帮忙看下吗？

、、、

python爬虫--不限平台歌曲下载（收费也可） - 云+社区 - 腾讯云 (tencent.com) image.png

浏览 172提问于2022-05-26

1回答

Microsoft SharePoint Search -忽略页面部分

、

我正在使用微软SharePoint搜索(MOSS)来搜索网站上的所有页面。我的问题是，当你搜索一个出现在网站页眉、页脚、菜单或标签云部分的单词时，该单词将出现在每一页上，因此搜索服务器会为你带来该搜索项的结果列表:网站上的每一页。理想情况下，我希望告诉搜索服务器忽略其搜索索引中的某些HTML部分。似乎描述了我的问题，一个人说：“如果用户代理是搜索服务器，为什么不隐藏网站的那些部分。这种方法的问题是，我隐藏的大部分部分都包含到其他页面(菜单和标签云)的链接，因此爬虫将陷入死胡同，爬行不会太远。有人对如何解决这个问题有什么建议吗？

浏览 0提问于2009-11-19得票数 0

回答已采纳

2回答

我应该在标签云页面中添加元"noindex，no追随者“吗？

、、

我在我的网站上有一个巨大的标签云，我试图优化它的搜索引擎爬虫，以避免关键词填充的惩罚。根据您的经验，将noindex或nofollow添加到标记云页面可能会产生一些Seo结果？是否有一些最佳实践来正确地编码一个包含数百个内部链接的巨大标记云？

浏览 0提问于2011-10-03得票数 1

回答已采纳

1回答

AttributeError: DataSourceNoCloud对象没有属性“vendordata2_raw”

上一次无人参与的升级返回了服务“云-init”的错误。我从"journalctl -u cloud-init“复制错误： br 16 06:39:29 alestis cloud-init一千一百八十七：AttributeError：'DataSourceNoCloud‘对象没有属性'vendordata2_raw’abr 16 :39:29 alestis cloud-init一千一百八十七：DataSourceNoCloud abr 16 06:39:29 alestis systemd1：cloud-init.service:主进程退出，code=exited，s

浏览 0提问于2021-04-16得票数 0

1回答

向远程MySQL提供数据的模式

、、

我想从社区中听到一个很好的模式来解决下面的问题。我有一个“无所不包”的服务器，它是were服务器，mysql，爬虫服务器。由于使用监视工具的两三周时间，我发现当我的爬虫运行时，我的平均负载总是超过5(一个4核心服务器，可以一直使用到4.00作为负载)。所以，我有另一台服务器，我想把我的爬虫移到那里。我的问题是。一旦我在我的爬虫服务器中爬行数据，我必须插入我的数据库。我不想打开远程连接并将其插入数据库中，因为我更喜欢使用Rails框架，顺便说一句，我使用rails，以便更容易地创建所有关系，等等。有待解决的问题：服务器，有爬行的数据(一堆csv文件)，我希望将它移动到远程服务器，并使用ra

浏览 2提问于2011-05-01得票数 0

1回答

什么是这么大的“网络互联网从APAC到中国的母线”？

、

我在Google平台上运行了大约20台服务器。这个月才过去7天，我突然为“从APAC到中国2,471.65 GB的谷歌计算网络网际网路大会”收取了546.76美元。而且它还在增加。起初，我没有提供像any服务器或任何服务中国作为发布，最有可能的VM实例作为cron或爬虫服务器。此外，我还检查了网络“均衡化”，这意味着输出，我认为，我们的服务器在谷歌云平台，但我找不到任何输出像这样庞大的流量2,471.65 GB。所以这个巨大的输出流量对我来说是很奇怪的。所以我想知道 1、交通费用是多少？我受到中国的攻击了吗？ 2 .如何确定向中国发送多个流量的服务器？ 3、我是否必须支付谷歌的全部费用

浏览 11提问于2015-07-08得票数 3

2回答

crawler实例

、

我正在构建一个大规模的网络爬虫，多少个实例是最佳的爬行时，在专用的网络服务器上运行时，位于互联网服务器场。

浏览 0提问于2009-06-21得票数 0

回答已采纳

1回答

在ubuntu的后台运行时，爬虫停止。

、

我使用具有无限循环的python制作了一个简单的爬虫，所以它不能停止。随机延迟17 ~ 30，这个爬虫爬行相同的一个页面，并找到'href‘链接，定期更新，并存储到Mysql。我使用了Ubuntu服务器。因为我使用了Linux命令 $ nohup python crawer.py & 这个爬虫是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但爬虫突然停止了。第二天我再试一次。而且效果很好！有什么问题吗？这是关于网页的块吗？或者nohup命令有限制时间？非常感谢。

浏览 1提问于2014-05-20得票数 0

回答已采纳

1回答

这有可能在App中使用SOCKS代理吗？

、

必须构建某种云托管的爬虫应用程序，并且怀疑GAE是否支持通过SOCKS代理请求？

浏览 2提问于2013-12-11得票数 0

回答已采纳

2回答

亚马逊Web服务对个人服务器的定价是否合理？

我目前在家里的一台备用电脑上安装了一台Linux、Apache、MySQL、PHP、Postfix web服务器，我正在尝试将其转移到Amazon Web Services上。它就像个人web服务器一样简单，我主要用它来做PHP开发的个人实验，我有一个博客，它托管我的电子邮件，另外我在服务器上做一些C++开发，并运行一些小的可执行和联网的个人应用程序。服务器真正看到的唯一流量是我(每天)，加上一些网络爬虫，以及偶尔从谷歌搜索中点击的流量。将我的服务器转移到Amazon Web Services是否合理？还是亚马逊Web服务专门针对更大规模的服务器？我期望为这个托管支付的最便宜的费用是多少？

浏览 0提问于2012-10-23得票数 15

回答已采纳

1回答

java--跟踪运行java应用程序时所使用的带宽和其他参数的库/方法

、

我正在努力创建一个Java的网络爬虫。爬虫访问网站，使用JDBC访问/存储数据库中的数据，还将文件存储在本地或云存储上。作为爬行的一部分，我想记录爬虫使用的确切细节-- 参数，如-- Number of sites visited (HTTP+HTTPS) Number of bytes of data received over one run of the crawler Number of bytes of data sent over one run of the crawler Number of rows updated/inserted/deleted/selected via

浏览 1提问于2012-06-28得票数 0

回答已采纳

1回答

在angular universal中检测网站页面中的网络爬虫

、、、

我想要检测服务器端呈现的对我的页面的当前请求- ssr来自网络爬虫或普通用户。我想在网络爬虫中做一些事情，而不是当它是用户的时候。我想在网络爬虫访问页面以获取完整数据时运行ng-in-viewport。而不是在用户使用我的页面时运行。如何检测这个东西？

浏览 4提问于2019-10-22得票数 1

2回答

如何追踪记忆尖峰？

、、

我有一个运行在rackspace云上的应用程序(ubuntu10.04)。由于某种原因，在过去的三个晚上里，记忆一直在加速，然后稳定了大约7个小时，直到最终消失。它似乎从午夜开始，一直持续到早上7点(忽略图表上的时间-) 📷 从穆宁图表来看，mysql中似乎没有任何活动增加，以太网流量在这段时间内似乎也没有增加(这似乎否定了类似于机器人或爬虫的东西)。 linux可以使用哪些工具来解决类似的问题？

浏览 0提问于2010-08-12得票数 8

1回答

在本地模式下运行风暴爬行器，不依赖于动物园管理员，nimbus

、、

我在mysql中存储urls，在lucene .I中存储索引数据，在使用tomcat的多台机器上运行风暴爬虫作为应用服务器。我真的需要动物园管理员，尼姆和风暴来在服务器之间分发urls(从mysql)吗？

浏览 0提问于2018-09-12得票数 0

回答已采纳

5回答

如何在本地服务器上安装CloudFoundry

我知道CF是为一个微服务应用程序的统一视图在多个云服务上运行的。但是，我想在我的CentOS本地服务器上安装并运行云铸造。在其他wourds中，我希望在一个运行CF的服务器上设置我的私有“云”，作为一个基于微服务的应用程序容器。如何在本地服务器上安装CF，以便在本地服务器上部署一些用于教育目的的微服务，用于微服务乒乓测试？

浏览 8提问于2016-04-13得票数 15

2回答

AWS:动态分配和关联新的IP地址到EC2实例？

、、、

我在一个AWS托管服务器上运行一些web爬行作业。爬虫从eCommerce网站抓取数据，但最近爬虫从网站中获得“超时错误”。根据我的IP地址，该网站可能限制了我的访问频率。分配一个新的弹性IP地址可以解决这个问题，但不会持续很长时间。我的问题是:我是否可以使用任何服务来自动和动态地分配和关联新的IP到我的实例？谢谢!

浏览 4提问于2014-04-08得票数 9

回答已采纳

1回答

Facebook请求出错失败

、、

我正在使用facebookAPI登录系统创建应用程序。我想把我的应用程序公之于众。当我添加应用程序隐私策略URL()时，引发了此错误。 “为了与Facebook平台兼容，您必须提交一个有效的隐私策略URL。请求失败:无法连接服务器:检查the服务器是否正在运行，并且没有防火墙阻止Facebook的爬虫。” 当然，我的服务器正在运行，我无法理解“检查没有防火墙阻止Facebook的爬虫”

浏览 1提问于2018-04-07得票数 0

回答已采纳

1回答

我可以在哪里下载google云数据存储的离线文档？

有没有比使用网络爬虫更好的方式下载google云数据存储文档以供离线查看？我还没有找到任何东西！谢谢!

浏览 0提问于2013-05-24得票数 0

回答已采纳

1回答

从云函数重定向到Firebase托管？

、、、、

所以我有以下想法:为了使我的SPA SEO友好，我想在服务器端检查它是否是一个网络爬虫(基于标题)，如果是，我想用Puppeeteer呈现页面并返回它。否则，我希望它作为一个普通的SPA应用程序。我正在使用Firebase托管，并希望通过Firebase云函数来实现。问题是，我不知道如何正常地从函数中提供构建的React文件。我能以某种方式将其重定向回Firebase主机吗？谢谢!

浏览 4提问于2020-06-24得票数 1

1回答

如何在Heroku上连续运行和托管Node.js脚本？

、

我目前想部署一个网站排名API，为此，我需要一个网络爬虫。事情是，我想让网络爬虫运行24/7，以便它可以不断更新网站。但是，对于Heroku这样的服务，一个小时后服务器就停止了。所以我所有的爬行过程都消失了，我不得不重新审视。我如何宿主一个总是在Heroku上活动的Node.js脚本。如果不可能，我还能做些什么呢？

浏览 0提问于2021-01-21得票数 1

回答已采纳

1回答

亚马逊云计算中的虚拟化实现

、、

我是云计算的初学者，在亚马逊上读过一些关于云计算的文档。我有一个关于Xen和在Amazon web服务中实现虚拟化的艺术的问题。正如我们所知，云计算为部署应用程序提供了弹性和可扩展性。当我们将一个云应用程序部署到亚马逊时，我们的应用程序的用户数量已经增加，我认为亚马逊会自动生成一个新的虚拟服务器来处理用户请求。最初，云应用程序在一台虚拟服务器上运行，现在它在两台虚拟服务器上运行。有人知道一个应用程序如何在Amazon上的两个虚拟服务器上运行吗？它如何同步数据，CPU资源的使用，...？亚马逊有没有任何文档指出这个问题和虚拟化实现？谢谢

浏览 3提问于2013-01-25得票数 0

1回答

从informatica云在远程服务器上运行后处理命令

、、、

我在informatica云上运行一个作业。它从服务器(远程)获取一个文件，并将数据转储到salesforce中。我想在informatica作业完成后，在远程服务器上的源文件上运行informatica云的后处理命令。有可能吗？

浏览 3提问于2015-12-23得票数 0

回答已采纳

2回答

适用于GAE的Python Headless浏览器

、、

我正在尝试在Google Appengine上使用带有webapp2的Angular.js客户端。为了解决SEO问题，我们的想法是使用无头浏览器来运行javascript服务器端，并将生成的html提供给爬虫程序。有没有运行在谷歌应用引擎上的python无头浏览器？

浏览 1提问于2013-01-18得票数 7

回答已采纳

1回答

我能用我的另一个核心广播一笔交易吗？

我的服务器核心运行在不同地区的云服务器上，一台运行在我的本地计算机上。我不知道为什么我的geth核心(本地计算机)不能跟上最新的块，它总是延迟大约10w块。但是我在云服务器上的核心是同步最新的块。有时我想从我的本地计算机发送一个事务，它将返回关于余额不正确的提示(余额没有同步到最新的块)。那么，如何使用json通过我的其他云服务器广播事务呢？我不想把我的密钥存储发送到我的云服务器。谢谢。

浏览 0提问于2018-04-09得票数 1

1回答

如何计算出使用mult_curl进行并行下载的最佳数量？

、

我运行了一个爬虫程序，不断地下载一堆网站。带宽不是问题。是否有并行下载的标准最大值？或者有一种方法可以计算出我可以下载多少urls，而不会威胁到服务器的正常运行时间？编辑:我指的是我的服务器上的资源使用情况。下载列表旨在减轻远程服务器的负载。

浏览 2提问于2011-02-10得票数 0

回答已采纳

1回答

无法从外部连接到在google云上运行的快照应用程序

、、、

我正试着在谷歌云上运行我的project。服务器使用运行在http://0.0.0.0:8000上的quickHttpServe。我已经ssh到我的云实例中，克隆我的存储库，安装堆栈，构建项目，并能够在云实例上运行它。它在我的本地机器上运行良好，能够从http://localhost:8000上的服务器接收html文件，但不能在http://<my cloud instance external ip>:8000上接收。我希望能够访问http://<my cloud instance external ip>:8000，当我在本地机器上运行它时，它是如何工作的，并

浏览 13提问于2019-01-17得票数 0

回答已采纳

1回答

配置Web.Config (ASP.NET)以将web爬网程序重定向到另一页

、、、、

我有一个使用AngularJS的网站在IIS服务器上运行。由于网站的所有信息都是通过AJAX请求的，社交媒体爬虫无法解析这些数据。因此，为了防止社交媒体显示空表情，例如：{{helloWorld}}，我尝试将一些社交媒体爬虫重定向到我的web应用程序中的特定部分，该部分可以为社交媒体爬虫预先呈现页面。我已经使用一个Apache .htaccess文件成功地做到了这一点： RewriteCond %{HTTP_USER_AGENT} (facebookexternalhit|Facebot|Twitterbot) RewriteRule ^(.*)$ http://myapp.com/prer

浏览 0提问于2017-12-09得票数 0