Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >什么是网络爬虫?

什么是网络爬虫?

原创
作者头像
太后
发布于 2022-07-01 08:34:34
发布于 2022-07-01 08:34:34
1.3K0
举报
文章被收录于专栏:短信接收服务短信接收服务

什么是网络爬虫

网络爬虫是一种在 Internet 上运行自动化任务的软件应用程序。与人类互联网活动相比,网络爬虫运行的任务通常很简单,并且执行速度要快得多。

有些机器人是合法的——例如,Googlebot 是 Google 用来抓取互联网并将其编入索引以进行搜索的应用程序。其他机器人是恶意的——例如,用于自动扫描网站以查找软件漏洞并执行简单攻击模式的机器人。

什么是僵尸网络

有许多类型的恶意软件会感染最终用户设备,目的是将它们纳入僵尸网络。任何被感染的设备都会开始与控制端通信,并且可以在攻击者的中央控制下执行自动化活动。

许多威胁行为者积极参与构建大型僵尸网络,其中最大的僵尸网络跨越数百万台计算机。通常,僵尸网络可以自行发展,例如使用受感染的设备发送垃圾邮件,从而感染更多机器。

僵尸网络所有者将它们用于大规模恶意活动,通常是分布式拒绝服务 (DDoS) 攻击。僵尸网络也可用于任何其他恶意机器人活动,例如垃圾邮件机器人或社交机器人。

网络爬虫类型

Internet 上活跃的爬虫程序有很多种,包括合法的和恶意的。下面是几个常见的例子。

搜索引擎爬虫

搜索引擎爬虫,也称为网络蜘蛛、索引擎蜘蛛或爬虫,通过跟踪超链接浏览网络,目的是检索和索引网络内容。蜘蛛下载 HTML 和其他资源,例如 CSS、JavaScript 和图像,并使用它们来处理站点内容。

如果您有大量网页,您可以将 robots.txt 文件放在您的网络服务器的根目录中,并向机器人提供说明,指定它们可以抓取您网站的哪些部分以及频率。

scrape 机器人

Scraper 是从网站读取数据的机器人,目的是离线保存数据并使其能够重复使用。这可能采取抓取网页的全部内容或抓取网页部分内容以获取特定数据的格式,例如电子商务网站上产品的名称和价格,博客上的文章。

网页抓取是一个灰色地带——在某些情况下,抓取是合法的,并且可能会得到网站所有者的许可。在其他情况下,scrape 开发者可能会违反网站使用条款,或者更糟糕的是——利用抓取来窃取敏感或受版权保护的内容。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
网络罪犯:互联网丛林中的捕猎者
作者 Rabbit_Run 概述 任何使用互联网的人都身处危险之中,不分你年龄几何,不管你在网络上喜欢做什么。网络罪犯能够部署一个强大的军火库,瞄准任何可能的目标,下至学生上至已退休的老人,追踪他们是否登录到社交网络、是否浏览最新的头条或者是否观看喜欢的视频。而互联网骗子试图访问我们的网银、个人数据以及计算系统资源。简而言之,只要有利可图,他们都想得到。 在互联网上,我们要面临复杂多样的攻击:用户可能成为类似Gimeno或Foreign的勒索软件的受害者, 也可能沦为Andromeda僵尸网络的一部分,也
FB客服
2018/02/05
1.6K0
网络罪犯:互联网丛林中的捕猎者
爬虫协议 Tobots
Robots 协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过 Robots 协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。robots.txt 是搜索引擎访问网站的时候要查看的第一个文件。
丹枫无迹
2019/09/11
7730
SiteLock最新报告显示:针对网站的攻击激增,平均每天有63起
根据SiteLock于本周一发布的最新分析报告显示,在过去的几个月里,针对网站的攻击活动数量出现了大幅增加。 SiteLock的网站安全内部报告是基于对超过630万个网站进行分析之后所得出的结果,分析
FB客服
2018/02/27
8140
SiteLock最新报告显示:针对网站的攻击激增,平均每天有63起
爬虫的"盗亦有道"-Robots协议
网络爬虫的君子协议 执着 网络爬虫的尺寸 小规模,数量小,爬去速度不敏感,requests库 中规模,数据规模较大,爬取速度敏感scrapy库 大规模,搜索引擎,爬取速度关键定制开发 爬取网页 玩转网
若与
2018/04/25
2.1K0
爬虫的"盗亦有道"-Robots协议
如何保护您的企业网站免受网络威胁
若你把保护你公司网站免受网络威胁视为浪费时间,那你仅仅只是不知道这种疏忽会给你带来什么损失。
约书亚
2018/07/19
9700
2019年搜索引擎蜘蛛爬虫名称最新整理总汇
一般我们的网站能在百度等搜索引擎上搜到,说明该搜索引擎的爬虫爬到了我们的网站并且被搜索引擎收录。
德顺
2019/11/13
6K0
2019年搜索引擎蜘蛛爬虫名称最新整理总汇
你真的了解网络爬虫吗?
Google 与 Yahoo 等网站的背后,都有一个强大的网页收集程序,可以将全世界的网页通通抓回去储存以便提供搜寻之用,这个程式就称为 "爬虫 (Crawler)",也有人索性称为蜘蛛 (Spide
Python中文社区
2018/01/31
1.3K0
你真的了解网络爬虫吗?
SEO基础知识:了解robots.txt
robots.txt 是一个文本文件,放置在网站的根目录下。它就像一份说明书,告诉搜索引擎的爬虫(也叫机器人)哪些页面可以访问,哪些页面不能访问。简单来说,它就是用来控制搜索引擎如何抓取和索引你网站内容的。
MinChess
2024/11/13
4510
Robots协议探究:如何好好利用爬虫提高网站权重
站长们通常希望百度、Google 这样的大型搜索引擎来抓取网站内容,但又很厌恶其他来路不明的网络爬虫抓取自己的信息。
德顺
2019/11/13
1.6K0
Robots协议探究:如何好好利用爬虫提高网站权重
优化SPA:使得网站对SEO更友好
「传统网页开发模式」,网站内容(html)都是采用服务端渲染(SSR)的方式产出的。这样做,方便「爬虫」能够定位到网站内容。这个过程就是:爬虫发现你的网站内容,并且将其展现在大众面前。
前端柒八九
2022/08/25
2.7K0
优化SPA:使得网站对SEO更友好
网络爬虫和相关工具
网络爬虫(web crawler),以前经常称之为网络蜘蛛(spider),是按照一定的规则自动浏览万维网并获取信息的机器人程序(或脚本),曾经被广泛的应用于互联网搜索引擎。使用过互联网和浏览器的人都知道,网页中除了供用户阅读的文字信息之外,还包含一些超链接。网络爬虫系统正是通过网页中的超链接信息不断获得网络上的其它页面。正因如此,网络数据采集的过程就像一个爬虫或者蜘蛛在网络上漫游,所以才被形象的称为网络爬虫或者网络蜘蛛。
用户8442333
2021/05/21
3700
Robots.txt 协议详解及使用说明
Robots协议,也称为爬虫协议、机器人协议等,其全称为“网络爬虫排除标准(Robots Exclusion Protocol)”。网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。也既是Robots的用法有两种,一种是告诉搜索引擎哪些页面你不能抓(默认其他的就可以抓);一种是告诉搜索引擎你只能抓取哪些页面(默认其他的不可以抓)。
大江小浪
2018/07/24
1.7K0
Robots.txt 协议详解及使用说明
社交平台上的桃色陷阱:僵尸网络SIREN侵袭Twitter
近年来,越来越多的恶意攻击者盯上了各大社交媒体。这些社交平台由于使用便捷、可扩展性强、自动化程度高,受众面广泛等特性,为攻击者发起僵尸网络攻击提供了得天独厚的条件。 这里的僵尸网络指的是由中央控制台控制的社交平台账户集合。这些账户均由机器控制,而非真实人类所有。这些机器账户能够形成僵尸网络,发送恶意链接,例如钓鱼广告、恶意软件、勒索软件、欺诈调查、垃圾邮件、对受害者账户进行劫持控制的恶意应用程序以及点击即收费的垃圾邮件网站等等。 自今年2月起,ZeroFOX威胁研究团队调查了一个Twitter上名为SIRE
FB客服
2018/02/28
1.8K0
社交平台上的桃色陷阱:僵尸网络SIREN侵袭Twitter
robots.txt详解[通俗易懂]
robots.txt 文件规定了搜索引擎抓取工具可以访问网站上的哪些网址,并不禁止搜索引擎将某个网页纳入索引。如果想禁止索引(收录),可以用noindex,或者给网页设置输入密码才能访问(因为如果其他网页通过使用说明性文字指向某个网页,Google 在不访问这个网页的情况下仍能将其网址编入索引/收录这个网页)。
全栈程序员站长
2022/08/14
2.9K0
robots.txt详解[通俗易懂]
网络工程师必备!掌握这10种DNS攻击类型
参考链接:https://cybersecuritynews.com/dns-attacks/
ICT系统集成阿祥
2024/12/03
1260
网络工程师必备!掌握这10种DNS攻击类型
Nginx访问日志中UserAgent的一些参考建议
前言 网络上存在各种各样的爬虫与蜘蛛,有的是对网站有帮助的,譬如说:百度(Baiduspider)、谷歌(Googlebot)、Bing(bingbot)等等,但是也有一些纯粹是垃圾爬虫,不但本身对网站毫无帮助,还大幅损耗服务器资源,如:BLEXBot、AhrefsBot、MJ12bot、hubspot、opensiteexplorer、leiki、webmeup 等,所以我们可以通过UserAgent信息来屏蔽垃圾爬虫 nginx配置 将指定的userAgent返回403 if($http_user_a
一朵灼灼华
2022/08/05
1.5K0
网络安全术语中英对照
一种网络攻击,使用复杂的技术持续对目标政府和公司进行网络间谍活动或其他恶意活动。通常由具有丰富专业知识和大量资源的对手进行-通常与民族国家参与者相关。
会长君
2023/04/25
9840
AI in WAF︱腾讯云网站管家 WAF:爬虫 Bot 程序管理方案
案例是说明一件事情最有力的辅证 某大型生活服务类站点被爆简历数据被恶意爬虫泄露; 某二次元文化社区站点原创内容被恶意爬虫遭侵权; 航空公司被爬虫恶意低价抢票; 外卖平台用户数据泄露; 恶意爬虫 Bot
腾讯云安全
2018/08/01
10.7K0
网络攻击是如何运作的—一份完整的列表 ( 2 )
作者:PAUL CUCU 译者:java达人 来源:https://heimdalsecurity.com/blog/cyber-attack/(点击阅读原文前往) 译文最后将介绍本人安全强迫症 技术攻击 这类攻击通常针对网络基础设施,如数据库、DNS、过时的软件及其他类似的技术。 恶意广告 恶意广告指通过网络广告传播恶意软件,攻击者既可以用恶意代码感染已经存在的合法广告,也可以放置自己受病毒感染的广告。 恶意广告对恶意黑客来说是非常有利的,因为他不需要担心如何传播恶意软件。广告网络做了所有的艰苦工作,使
java达人
2018/01/31
2.1K0
网络攻击是如何运作的—一份完整的列表 ( 2 )
揭秘仙女座僵尸网络:高级网络攻击的深层分析与后门策略
仙女座僵尸网络(Andromeda Botnet)是一个历史悠久且影响范围广泛的大型犯罪网络。
公众号图幻未来
2023/12/28
7340
揭秘仙女座僵尸网络:高级网络攻击的深层分析与后门策略
相关推荐
网络罪犯:互联网丛林中的捕猎者
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档