腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
1
回答
如何使用Headless Chrome和Python登录webgape?
、
、
、
如何使用Headless Chrome登录网页(填写并提交登录/通过表单标签)。我用Python3,BeautifulSoup和无头浏览器做了一个网络爬虫,但现在我需要先登录,我不知道怎么做。
浏览 17
提问于2020-02-05
得票数 0
2
回答
如何使用Python在需要Google帐户登录的网站上进行web爬行?
、
我是Python的新手,我想使用Python来抓取几个需要Google帐号登录的网站。例如,我想爬一个网站xxx.appspot.com,我需要登录我的谷歌帐户访问它,因为这个数据库需要验证,我是授权人员。 当我做这样的事情: content=urllib.urlopen(target_url).read() 当然,我得到的“内容”只是一个登录页面。如何实现代码,以便爬虫在实际爬行之前可以在Google帐户中签名。
浏览 1
提问于2013-12-18
得票数 2
回答已采纳
1
回答
无法使用Selenium登录
、
、
我使用Selenium +Python2.7堆栈。 我想登录到论坛,并为学术研究目的而抓取文章数据。我正在使用以下代码来填写登录表单: username = browser.find_element_by_xpath("//input[@id='navbar_username']") username.clear() username.send_keys("####") password = browser.find_element_by_xpath("//input[@id='navbar_pas
浏览 1
提问于2017-01-08
得票数 1
回答已采纳
1
回答
定期运行python程序作为防火墙中的后台服务。
、
、
只要开始使用firebase + react就可以建立一个网站。我的网站的一个设计特点是爬行和显示从另一个网站分析的数据(例如,股票价格的变化)。我已经有了负责解析数据的python爬虫,但是我不知道如何(在后台)在firebase中执行服务器的这个python爬虫(或者根本不可能)? 下面是我的系统的示例用法 用户登录和订阅网站/数据他们很感兴趣 我的爬虫将每1小时解析该网站并将数据更新到数据库。 用户可以从数据库中看到网站变更的摘要。 我想到的一个选择是在本地机器上运行爬虫,并使用REST将解析的数据更新到firebase数据库。然而,这似乎是一种非常低效/天真的方法,
浏览 0
提问于2018-01-25
得票数 3
1
回答
编写可与任何服务器保持登录状态的crawler
、
、
、
、
我正在写一个爬虫。一旦爬虫登录到一个网站,我想使爬虫“停留-始终登录”。我该怎么做呢?客户端(如浏览器、爬虫等)使服务器遵守此规则吗?当服务器在一天内允许有限的登录时,可能会出现这种情况。
浏览 0
提问于2009-11-26
得票数 0
回答已采纳
1
回答
建立与web应用程序的会话以进行爬网
、
、
、
我计划用Python语言编写一个使用Requests和PyQuery的网站爬虫。 然而,我的目标网站需要我登录到我的帐户。使用请求,我是否可以与服务器建立会话(使用我的站点凭据),并使用此会话爬行我只有在登录时才能访问的站点? 我希望这个问题是清楚的,谢谢。
浏览 2
提问于2013-05-02
得票数 1
3
回答
如何使爬虫能够访问封闭(私有)的wiki?
、
、
我需要向爬虫提供访问私有维基的权限。 维基对所有匿名用户关闭-你必须登录才能看到内容,但我需要提供一个单一的爬虫(由用户代理字符串和单一IP标识)完全访问,以便内容可以被索引。它是一个内部爬虫,所以只有在成功登录后才能访问它的资源。 对于如何启用对单个客户端(而不是用户,因为爬虫无法登录到wiki)的访问,有什么建议吗?
浏览 2
提问于2011-01-27
得票数 0
回答已采纳
1
回答
如果一个网络爬虫得到一个404错误,它会不会索引该网址?
、
、
、
、
假设我有一页page.example.com/page。在我的(python)服务器中,只有在登录时才能获得html服务,这可以在page.example.com/login上完成。如果您没有登录,服务器将以404错误进行响应。 这是否意味着网页爬虫将无法索引此页面?或者,更准确地说,他们不会索引它,因为它“不存在”。
浏览 0
提问于2019-11-26
得票数 2
回答已采纳
1
回答
Crawler登录到gmail电子邮件帐户
、
我想写一个爬虫在Java中自动登录到gmail帐户。我的爬虫将获得登录Id和密码,并将登录到电子邮件帐户,并显示输出页面。我不清楚该怎么做。我曾尝试使用HTTP客户端将一些数据发布到博客,因此我熟悉它的基本GET和post方法。 谁能告诉我如何编写爬虫登录到gmail电子邮件帐户?任何回应都将不胜感激。 提前谢谢。
浏览 2
提问于2010-08-27
得票数 1
1
回答
如何阻止Web爬虫下载文件
、
、
是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)? 我应该创建一个PHP脚本,使用cookie跟踪访问者,特别是在下载3个文件后登录/注册的web爬虫。但我发现网络爬虫可以绕过cookie。 有可能阻止网络爬虫吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web爬虫上? 我可以很容易地创建一个PHP脚本,使用cookie强制访问者登录/注册,但是web爬虫呢? 顺便说一下,我用的是nginx和drupal CMS。如果这能帮上忙的话就给我这个信息。
浏览 0
提问于2013-07-27
得票数 1
1
回答
如何设置支持一系列动态URL的AdSense爬虫登录?
、
、
我有一个网站,主要功能动态内容。每一段动态内容都有自己的网址,如"www.example.com/page/\*/\*“ 我遇到的问题是,其中许多页面都需要用户登录。我读过关于AdSense爬虫登录的文章,并试图实现它。但是,我发现没有提到通配符或URL的正则表达式。据我所知,AdSense爬虫登录只支持静态URL。 是否有任何方法来设置支持一系列动态URL的AdSense爬虫登录?
浏览 0
提问于2015-02-03
得票数 3
1
回答
无法远程登录到scrapy
、
我有个爬虫跑了几天了。我想暂停爬虫,以便在系统上执行其他操作。Scrapy文档说,这可以使用telnet控制台完成,但我无法登录到telnet控制台。以下是系统中运行的进程: [root@xxx tmp]# telnet localhost 6073 Trying 127.0.0.1... telnet: connect to address 127.0.0.1: Connection refused [root@xxx tmp]# ps aux | grep scrapy root 5504 0.0 0.0 110400 860 pts/1 S+ 04:31
浏览 1
提问于2015-09-24
得票数 1
1
回答
使用让WinInet共享会话/cookie
、
、
我想要的是: 1)使用Internet Explorer登录页面 2)让我的软件使用WinInet API爬行站点,重用相同的cookie/会话(也就是说,爬虫是“登录”的) 我尝试使用INDY构建自己的登录,虽然会话cookie登录运行良好,但现在许多网站使用了一种更加复杂的登录机制,将客户端和服务器端的内容结合在一起进行初始登录。 ..。 我相信,例如,WordPress、ASP.Net等使用客户端/AJAX的东西,以及哈希/时间/用户代理代码/检查等,是因为30秒后,我可以从自己的爬虫程序发送完全相同的headers,就像登录时使用的FireFox一样,但是它不能工作。 (将其与基于会话
浏览 4
提问于2013-02-19
得票数 5
1
回答
如何以编程方式使用浏览器cookie
、
、
、
、
我有一个自动登录和抓取网站的爬虫,但由于登录被更改,它不再工作。 我想知道,我是否可以将浏览器cookie (也就是我手动登录)提供给我的HTTP请求?在原则上有没有什么特别的错误,不能让它工作?如何查找与网站相关的浏览器cookie? 如果它可以工作,我如何获得“原始”cookie字符串,我可以坚持到我的HTTP请求? 我是这个领域的新手,所以请原谅我那些愚蠢的问题。我可以使用PYthon或Java
浏览 4
提问于2012-11-29
得票数 0
回答已采纳
1
回答
以编程方式登录Python web crawler
、
、
、
我正在尝试做一个网络爬虫,将登录到学校网站使用我的凭证,然后爬行网站的某些部分。我正在使用这里提供的Beautiful Soup Python库: http://www.crummy.com/software/BeautifulSoup/bs4/doc/ 我可以获得用户名和密码字段的正确源代码,但我不知道如何提供它们。此外,我在提交它们时也遇到了同样的问题。我有“提交”按钮的源代码刮,但我不知道如何请求登录。 谢谢,
浏览 5
提问于2013-01-09
得票数 1
回答已采纳
1
回答
ASP.NET MVC AntiForgeryToken和AdSense Crawler登录
、
、
、
、
我有一个网站的内容服务后的登录。我想添加谷歌AdSense到受保护的页面,但谷歌声称,AdSense爬虫将需要自己的登录来执行正确的爬行。。 因此,我为爬虫设置了用户名/密码,将POST参数放入谷歌的设置页面,但随后意识到这在我的登录配置中是行不通的,因为ASP.NET MVC使用AntiForgeryToken来防止跨站点攻击。当我的网站专门禁止跨站点登录时,我如何设置AdSense爬行器的登录?
浏览 2
提问于2015-08-07
得票数 1
回答已采纳
1
回答
爬行Anywhere+Solr+ Tomcat:无法访问爬虫管理
、
、
、
问题更新:谢谢您的更新。 我正在尝试在任何地方实现爬行,以抓取文档文件文件夹。 我遵循了中指定的指令 安装了tomcat和Apache web服务器。 因此,我试图登录到爬虫::http/爬虫。 但我得到的信息是 在此服务器上找不到请求的URL /crawler。 Apache/2.0.64 (Win32)本地主机端口80服务器 而对于://ip:8180/爬行它提供: <error> <errno>1</errno> <errmsg>Missing action</errmsg> </error> 谁能告诉我错过
浏览 2
提问于2013-12-02
得票数 0
回答已采纳
1
回答
重新登录到Scraped网站以恢复Scrapy工作
、
有没有办法让爬虫在恢复之前暂停的抓取作业时登录到网站? 编辑:为了澄清,我的问题实际上是关于Scrapy爬虫,而不是一般的cookie。也许一个更好的问题是,当Scrapy爬虫在作业目录中被冻结后复活时,是否有任何方法被调用。
浏览 0
提问于2012-05-09
得票数 1
2
回答
无法使用python crawler登录outlook web应用程序
、
、
、
、
您好,我正在尝试使用python网络爬虫登录到一个outlook网络应用程序,但我无法通过登录页面。据我所知,该站点将重定向到get请求并设置一个cookie;即OutlookSession。然后post请求转到具有此cookie的同一个url,这就是我使用requests.Session()的原因。这是我的代码: import requests URL = "https://mail.guc.edu.eg/owa" username = "username" password = "password" s = requests.Sessi
浏览 2
提问于2018-02-10
得票数 0
1
回答
抓取需要身份验证的网站
我该如何编写一个简单的脚本(在cURL/python/ruby/bash/perl/java中)来登录到并统计我每天收到的消息数量? 输出将类似于: 1/21/2011 1 messages 1/22/2011 0 messages 1/23/2011 2 messages 1/24/2011 1 messages 主要的问题是我以前从来没有写过网络爬虫。我不知道如何以编程方式登录到okcupid这样的站点。如何在加载不同页面时保持身份验证?等等。 一旦我访问了原始的HTML,我就可以通过regex和map等来访问了。
浏览 1
提问于2011-01-25
得票数 4
2
回答
Scrapy -使用scrapy可以登录到https网站吗
、
、
、
、
我正在尝试使一个网络爬虫,将登录到一个https网站使用我的凭据,然后爬行网站的某些部分。我正在使用python中的Scrapty,但我不能百分之百确定这是否可能,因为在网站上我没有看到任何关于https的东西,只看到了以下内容: *cookies and session handling *HTTP compression *HTTP authentication *HTTP cache 如果,那么有什么想法作为如何开始呢?
浏览 1
提问于2013-06-26
得票数 0
3
回答
将数据从PHP脚本传递到Python Web Crawler
、
、
、
、
我有一个python爬虫,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示爬虫获得的数据。我将使用php/html作为接口。无论如何,用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从php脚本发送到正在运行的python脚本?我在考虑标准输入/输出,但找不到一种方法可以做到这一点(从一个进程写入另一个进程stdin)。然后我在考虑使用一个共享文件,php在其中写入数据,python从中读取数据。但是,我需要一些方法来让python脚本知道,新数据已经写入文件,以及让php脚本知道爬虫何
浏览 1
提问于2011-03-31
得票数 1
1
回答
PuppeteerCrawler:面向多个用户的登录和抓取
、
、
、
我使用Apify和PuppeteerCrawler为多个用户抓取页面。我必须登录每个用户到系统和刮5页,然后注销,并继续与下一个用户。 什么是最好的方法--为每个用户调用爬虫,或者只调用一次爬虫,并让它处理登录/注销? 我正在从扩展这个示例,并在Apify云中运行它。现在,我正在修改request.userData对象,向它添加一个标签" login“,这样登录情况可以在一开始就得到处理。登录后,要刮掉的相关5页将排队。
浏览 0
提问于2019-09-06
得票数 0
1
回答
如何轻松地在远程github分支和本地分支/文件夹之间切换?
、
、
、
会发生什么事? 我用Python2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持Python 3,这种转换必须在1 go内完成。我只能在Python 3爬虫做好部署准备之后才能开始使用。我不能一次部署一个爬虫。 我做了什么/我有什么? 我目前有一个远程分支,它是主分支。让我们称之为遥控器-A。这就是容纳所有爬行器的分支,它们每天都会被执行。这个分支必须继续运作。 对于远程分支,我有本地文件夹/分支,修复错误并创建新的。让我们把它叫做Local.,从主人那里,我推拉。 现在,由于“所有操作都必须保持活动状态”,我需要一个单独的Python 3爬虫的远程分支。这个分支可以称为Rem
浏览 3
提问于2019-09-10
得票数 0
回答已采纳
1
回答
如果我为我的python脚本做了一个简单的gui,它会影响它的效率吗?
、
、
嗨,我想做一个网页爬虫,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加代码的gui会使我的网络爬虫效率降低吗? 我需要爬虫尽可能高效,能够尽可能快地处理数据。为这个Python脚本制作一个gui,会不会妨碍web爬虫的性能?
浏览 3
提问于2015-01-27
得票数 0
回答已采纳
1
回答
我怎么能强制停止我的爬虫得到一个特定的网址抓取最后一次?
、
、
、
、
我正在制作一个爬虫来找出最近添加的youtube视频,当我的爬虫到达旧视频(在前一个转弯中爬行)时,我想停止爬虫。我使用的不是scrapy和漂亮的汤,我使用的是python库。请给我推荐任何选项
浏览 9
提问于2017-06-27
得票数 0
1
回答
在ubuntu的后台运行时,爬虫停止。
、
我使用具有无限循环的python制作了一个简单的爬虫,所以它不能停止。随机延迟17 ~ 30,这个爬虫爬行相同的一个页面,并找到'href‘链接,定期更新,并存储到Mysql。我使用了Ubuntu服务器。因为我使用了Linux命令 $ nohup python crawer.py & 这个爬虫是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但爬虫突然停止了。第二天我再试一次。而且效果很好!有什么问题吗?这是关于网页的块吗?或者nohup命令有限制时间?非常感谢。
浏览 1
提问于2014-05-20
得票数 0
回答已采纳
1
回答
如何提取我的爬虫目前所站的网址?
、
、
我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是,爬虫从页面中提取一些数据,如果数据符合某些条件,爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL? 谢谢。
浏览 5
提问于2016-11-27
得票数 0
回答已采纳
2
回答
使用用户登录从其他网站导入用户帐户数据
、
、
、
和从和其他日常交易网站访问用户帐户及其日常交易。这些网站要求用户提供他们的凭据以登录到各自的网站,然后导入帐户详细信息。LivingSocial和其他交易网站不提供对用户帐户的应用编程接口访问。 我也想这样访问其他网站,并从那里导入数据。但是我找不到和从Groupon和LivingSocial等导入数据的后端进程。 到目前为止,我能够发现网络爬虫/蜘蛛可以用来从网页上删除数据。但我不确定网络爬虫在我们需要用户登录并且页面urls是加密的,或者至少是动态生成的urls的情况下是否有用。 请帮助我,并建议我做这件事的方法。如果爬虫是这个问题的解决方案,请提供一些我可以在我的.net应用程序中使用的
浏览 4
提问于2011-09-09
得票数 0
回答已采纳
1
回答
用HTTPS urls索引和爬行数据
、
我的网站是公开的(用户可以在没有登录的情况下查看)+私有的(用户必须登录才能使用)。 所以我的问题是,谷歌爬虫应该如何知道我的网站是私有的(带有https的URL)。此外,我还想抓取该内容,并用HTTPS索引我的所有ULR。 是否有任何可供选择的支持谷歌网站管理员工具的HTTPS网址。如果有一个选项可以支持这些URL,那么我想知道Google爬虫将如何访问我的网页内容而不登录。所以大家可以提前分享你的想法和感谢。
浏览 1
提问于2014-05-05
得票数 0
1
回答
分布在不同地理位置的爬虫
、
、
我在不同的地理位置有几台台式机。我需要创建一个爬虫与客户端在每个台式机和一个中央服务器,其中的数据是索引。有没有可能在Nutch中创建这样的爬虫?还有没有别的选择。基于Python的爬虫会更好。
浏览 2
提问于2011-07-04
得票数 0
回答已采纳
1
回答
Web Crawler的常用输出格式
需要将现有应用程序连接到社交媒体监控。爬虫的常见输出格式是什么?它会是XML,JSON吗?或者它会根据爬虫的不同而不同,例如: Python,Java?
浏览 0
提问于2012-08-20
得票数 0
回答已采纳
2
回答
网络爬虫-忽略Robots.txt文件?
、
、
、
一些服务器具有robots.txt文件,以阻止web爬虫在其网站中爬行。有没有办法让网络爬虫忽略robots.txt文件?我正在为python使用Mechanize。
浏览 1
提问于2011-12-05
得票数 14
回答已采纳
2
回答
对于蟒蛇爬虫,我应该使用无限循环还是cron作业?
、
、
我用python编写了一个爬虫,它可以访问60多个网站,解析HTML,并将数据保存到数据库。 现在,我正在使用cron作业,每15分钟运行一次爬虫。问题是,我无法知道爬虫要花多少时间才能完成(有时可能需要超过15分钟),如果已经在运行,我不想再运行另一个爬虫。 我一直在想,我是否最好使用一个无限循环,并使爬虫成为一个永久运行的进程(但是如何确保爬虫不会失败并退出呢?以及如何在每次退出时重新启动?)。 哪一个更有效率?无限循环还是cron作业?
浏览 7
提问于2021-05-14
得票数 0
1
回答
将我的Python电子邮件爬行器转换为Web应用程序的框架
在Python方面经历了几年之后,我才知道它在web开发中的应用。我在Python中制作了一个电子邮件爬虫程序(基本上是一个使用其他几个功能的函数),它帮助我在generate实习的公司。我的老板问我是否可以让我的python电子邮件爬虫进入一个网络应用程序,这样其他员工就可以通过我来抓取电子邮件,这样我就可以在更重要的事情上工作。 是否有一些web应用程序框架可以用来将我的python电子邮件爬虫程序转换成一个简单的公司专用web应用程序?制作网络应用程序所需的时间范围是什么? 我非常开放和渴望学习web应用程序开发,因此,任何帮助或建议将不胜感激。谢谢。
浏览 5
提问于2015-07-08
得票数 0
回答已采纳
1
回答
Scrapy:在调用之间保存cookie
、
、
有没有办法在抓取爬虫的调用之间保存cookie?目的-网站需要登录,然后通过cookie维护会话。我宁愿重用会话,也不愿每次重新登录。
浏览 3
提问于2015-07-27
得票数 2
回答已采纳
2
回答
如何将新的URL传递给Scrapy Crawler
、
、
、
、
我想让一个抓取爬虫在芹菜任务工人内部不断运行,可能使用。或者,正如所建议的,这个想法是使用爬虫程序来查询返回XML响应的外部API。我希望将我想要查询的URL (或查询参数并让crawler构建URL)传递给crawler,crawler将进行URL调用,并将提取的项返回给我。一旦爬虫程序开始运行,我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫,而是希望爬虫无所事事地等待URL爬行。 我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时,都必须派生和拆卸一个新的进程,因
浏览 0
提问于2013-05-23
得票数 2
5
回答
Python中的多线程爬虫真的可以提高速度吗?
、
、
我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本,一个线程下载池和一个池处理结果。由于有了GIL,它真的可以同时下载吗?GIL对网络爬虫有什么影响?会不会每个线程从套接字中提取一些数据,然后转到下一个线程,让它从套接字中提取一些数据,等等? 基本上我想问的是,用python做一个多线程爬虫真的比单线程能给我带来更多的性能吗? 谢谢!
浏览 4
提问于2010-05-14
得票数 10
回答已采纳
1
回答
保护泽西2 Rest API
、
、
、
、
我正在使用泽西2构建一个way爬虫(类似于 \ SAAS),其他开发人员应该能够以安全的方式使用这个API (发出请求->获得一个JSON响应)。 以下是流程: 用户可以访问应用程序网站(注册/登录)。 在登录/注册之后,他应该会看到一个带有API_KEY和API_SECRET的面板。 现在,他可以使用这个API_SECRET来访问API,从而访问爬虫。 瓦特适合这样做吗?是否有更好/更简单的解决办法?
浏览 5
提问于2015-10-23
得票数 0
回答已采纳
1
回答
Python站点爬虫,使用Scrapy保存文件
、
、
、
我正在尝试编写一个爬虫,它将接受某个搜索条目,并保存一大堆与结果相关的.CSV文件。 我已经让爬虫登录了,解析了我需要的所有html数据,现在我要做的就是弄清楚如何保存我需要的文件。 因此,搜索返回如下的链接 然后在web浏览器中提示您保存相关的.csv文件。我如何写我的爬虫能够加载这个页面和下载文件?或者,有没有一种方法可以捕获指向信息的静态链接?
浏览 0
提问于2011-08-19
得票数 2
1
回答
Python-Selenium爬虫冻结,特别是在无头模式下(不可复制的bug)
、
、
、
、
我构建了一个爬虫,它获取用户输入的产品列表的产品信息。有时,爬虫会结冰,特别是如果产品列表很长,如果爬虫在无头模式下运行的话。 这个bug似乎是随机的,也是不可复制的,这让我认为它是由被爬行的网站的资源利用引起的。 因为这是一个不可复制的错误,我不认为我能修复它,但有没有办法检测爬虫已经冻结,然后再试一次? 下面是关于爬虫和bug的一些信息: 爬虫是使用Selenium和Python构建的。 这个错误发生在不同的网站和产品上。 该错误发生在“正常”模式,但更多发生在无头模式。 谢谢! 费利佩
浏览 2
提问于2019-05-21
得票数 1
1
回答
如何有效地运行python web爬虫
、
、
、
我有一个python爬虫,它获取信息并将其放入SQL中。现在我也有了php页面,它从SQL读取这个信息,并表示它。问题是:为了让爬虫程序工作,我的电脑必须全天候工作。我有一台简单的家用电脑--所以这是个问题。是否有一种不同的方式运行网络爬虫?还是我必须在我的电脑上运行?
浏览 1
提问于2015-12-08
得票数 0
回答已采纳
1
回答
网络爬虫会存储Cookie吗?
、
我目前正在创建一个脚本,将强制我的访问者在下载3个文件后注册/登录。我计划使用cookie来跟踪下载量。 此外,我想防止内容农业从糟糕的网络爬虫。我不知道网络爬虫是否也可以像普通访问者一样存储cookie,这样我就可以阻止他们下载我的文件超过3次。 如果不支持cookies的网络爬虫仍然可以下载我的文件超过3次,有没有其他方法来跟踪他们的访问量?
浏览 1
提问于2013-07-29
得票数 1
3
回答
如何在Scrapy中的同一进程中运行多个爬行器
、
、
我是Python & Scrapy的初学者。我刚刚创建了一个带有多个爬虫的Scrapy项目,在运行"scrapy crawl ..“它只运行第一个爬虫。 如何在同一进程中运行所有爬行器? 提前谢谢。
浏览 0
提问于2014-04-11
得票数 2
1
回答
将默认表属性分配给爬虫创建的表
我试图将表属性分配给用爬虫创建的表。 这样做的目的是让所有使用爬虫创建的表具有相同的默认属性(加上它们通常拥有的属性)。 我检查了爬虫创建界面中的选项,但没有看到这样的选项。在创建表之后创建一个python boto3脚本来修改表属性值,这是我唯一想到的事情。 如果这在默认的爬虫功能中是不可能的,那么将表属性附加到使用某个爬虫创建的每个表上的可行方法是什么? 编辑:一个可能的解决方案是创建一个lambda函数,检查胶水表中是否存在自定义参数,如果没有创建它们。
浏览 2
提问于2021-01-20
得票数 0
回答已采纳
1
回答
在性能方面,为什么facebook不一次加载所有的JS文件?
、
登录后,我查看了facebook中的html代码,他们似乎对JS文件做了很多请求(根据firebug,多达20个)。 所以,虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件),但我的问题是更通用的网站和网络爬虫的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响网络爬虫(googlebot和朋友)吗? 我想提高性能,加载“稍后需要”的内容(text/js/css)似乎是个好主意,但如果爬虫不能使用(当然是内容),就不是一个好主意。 谢谢!
浏览 2
提问于2013-03-18
得票数 3
2
回答
基于AWS的粘性负载平衡
、
、
、
我刚刚为几个例子设置了一个AWS负载均衡器,因为搜索引擎爬虫正在摧毁这个站点(它有数百万页)。网站的部分内容允许您登录,因此我选择: 启用应用程序生成的Cookie粘性 一切都很好。 我现在想知道这将如何影响我的搜索引擎优化和爬虫。当我选择粘性负载平衡时,这是否意味着一个爬虫将被卡在一个服务器上,从而击败负载均衡器中的点? 如有任何建议,将不胜感激。
浏览 0
提问于2012-07-01
得票数 2
回答已采纳
2
回答
在使用Scrapy进行身份验证登录会话后使用Selenium
、
、
、
环顾四周,似乎如果你通过Scrapy登录到一个网站,如果你试图在爬虫中使用Selenium,认证的登录会话不会转移。有没有办法把这个会话转移到Selenium上?或者我必须用Selenium重新登录网站吗? 谢谢!
浏览 1
提问于2016-07-15
得票数 3
3
回答
网络爬虫与Django前端的接口
、
、
我试着做三件事。 第一:抓取和存档,至少每天,一组预定义的站点。 第二:对此数据运行通宵批处理python脚本(文本分类)。 第三:向用户公开一个基于Django的前端,让他们搜索抓取的数据。 我一直在使用Apache Nutch/Lucene,但当我可以使用另一个爬虫引擎时,让它与Django很好地配合似乎太难了。 about 建议我可以只用Django本身编写爬虫,但我不确定该怎么做。 基本上--对于用Django或现有的python爬虫编写我可以适应的爬虫有什么建议吗?或者我是否应该在第二步中加入“变成Django友好的东西”,并编写一些胶水代码?或者,最后,我应该完全放弃Django吗
浏览 0
提问于2009-06-09
得票数 2
2
回答
Elasticsearch HTTP API或python API
、
、
、
、
我是一个实时分布式搜索引擎elasticsearch的新手,但我想问一个技术问题。 我已经编写了一个python模块爬虫,它可以解析网页并使用本机信息创建JSON对象。我的模块爬虫的下一步是使用elasticsearch存储本机信息。 真正的问题如下所示。哪种技术更适合我的场合?elasticsearch python API还是用于弹性搜索的RESTful API (elasticsearch-py)?
浏览 4
提问于2015-12-01
得票数 1
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫-百度模拟登录(二)
讲讲Python爬虫绕过登录的小技巧
python知乎爬虫,模拟登录,自动保存获取答案
Python爬虫:学习Selenium并使用Selenium模拟登录知乎
利用Python实现简单的网站模拟登录!爬虫必会技能!
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券