前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >回家的低价票难抢?注意!可能是被“爬虫”吃了

回家的低价票难抢?注意!可能是被“爬虫”吃了

作者头像
企鹅号小编
发布于 2018-01-23 08:14:15
发布于 2018-01-23 08:14:15
9270
举报
文章被收录于专栏:企鹅号快讯企鹅号快讯

不到两个月,2018年春节要来了。

“今年我得早下手,抢张回家的低价机票。”在北京打工的小王对科技日报记者说,由于老家在云南,春节机票太贵,他都选择坐两天两夜的火车回去,长途跋涉,苦不堪言。

然而,就在小王摩拳擦掌,准备使出“洪荒之力”抢张便宜机票时,看到网上曝出这样一则消息:航空公司放出的低价机票,80%以上被票务公司的“爬虫”抢走,普通用户很少能买到。

小王傻眼了,“爬虫”究竟是什么鬼?它又是怎么抢机票的?难道就没有办法治理吗?

借助超链接信息抓取网页

“‘爬虫’技术是实现网页信息采集的关键技术之一,通俗来说,‘爬虫’就是一段用来批量、自动化采集网站数据的程序,几乎不需要人工干预。”北京理工大学网络科学与技术研究院副教授闫怀志告诉科技日报记者。

闫怀志介绍,“爬虫”又称网页“蜘蛛”、网络机器人,它是一种按照一定规则自动抓取网页信息的程序或者脚本,通常驻留在服务器上。在Web网页中,既包含可供用户阅读的文字、图片等信息,还包含一些超链接信息。网络“爬虫”正是借助这些超链接信息来不断抓取网络上的其他网页。

“这种信息采集过程很像一个爬虫或蜘蛛在网络上漫游,网络‘爬虫’或网页‘蜘蛛’因此得名。”闫怀志说,“爬虫”最早应用在搜索引擎领域,比如谷歌、百度、搜狗等搜索引擎工具每天需要抓取互联网上数百亿的网页,它们需要借助庞大的“爬虫”集群来实现搜索功能。

当前,“爬虫”已被广泛用于电子商务、互联网金融等诸多领域。比如,“爬虫”可以抓取航空公司官网的机票价格,发现低价或紧俏机票后,“爬虫”可以利用虚假客源的真实身份信息实现抢先预订。再有,很多互联网浏览器都推出了自己的抢票插件,以高订票成功率来推广浏览器。

根据抓取任务和目标的不同,网络“爬虫”可大致分为批量型、增量型和垂直型。批量型“爬虫”的抓取范围和目标较为明确,可以是网页的设定数量,也可以是消耗时间的设定。增量型“爬虫”主要用于持续抓取更新的网页,以适应网页的不断变化。垂直型“爬虫”主要是用于特定主题内容或特定行业的网页。

“爬虫”究竟是如何抢票的

此前,在线票务服务公司携程的“反爬虫”专家在技术分享中透露,某网站的一个页面,每分钟的浏览量是1.2万,真实用户只有500个,“爬虫”流量占比为95.8%。

采访中,很多业内人士也表示,即使在“爬虫”活动的淡季,虚假流量也占到订票网站总流量的50%,高峰期更是在90%以上。

那么,“爬虫”究竟是如何实现抢票的呢?对此,闫怀志解释,主要是机票代理公司利用“爬虫”技术,不断抓取航空公司售票官网网页信息,如果发现该航空公司有低价票放出,“爬虫”即刻利用虚假客源身份进行批量预定但不实际支付,以达到抢占低价票源的目的。由于“爬虫”的效率远远超过正常的手动操作,导致通过正常操作几乎无法抢到票。

随后,机票代理公司会通过其自身销售渠道(包括公司网站、在线旅行社、客户电话订购等)找到真正的客源,在航空公司允许的账期内,退订此前使用虚假客源身份预定的低价票,然后使用真实身份信息进行订购,最后实现该低价票的加价转售。

如果未在航空公司规定的账期内找到真正客源,机票代理公司会在订单失效前再追加虚假身份订单,继续“霸占”该低价票,如此反复,直至找到真正客源售出为止。

“上面的操作流程就构成了完整的机票销售链条。在这个过程中,航空公司售票系统允许在账期内反复订、退票的规定为机票代理公司利用‘爬虫’抢票并加价获利提供便利。这种抢票方式,被称为技术‘黄牛’。”闫怀志强调。

的确,有业内人士表示,这些“爬虫”流量消耗了大量的机器资源,却不产生任何消费,这是每个公司最痛恨的东西。但是,因为怕误伤真实用户,各家公司的“反爬虫”策略做得非常谨慎。

采用一定手段“爬虫”可防可控

任何事情都有两面,“爬虫”技术也不例外。

在闫怀志看来,“爬虫”既可为正常的数据批量获取提供有效的技术手段,也可被恶意使用以获取不当利益。如果“爬虫”技术被不正当利用,就会带来一定的危害。

首先,威胁数据安全。航空公司售票网站数据被恶意爬取,数据可能会被机票代理公司恶意利用,而且还存在被同业竞争对手获取的风险。

其次,导致系统性能下降,影响用户体验。“爬虫”大量的抓取请求会导致航空公司售票网站服务器资源负载上升、性能下降,网站响应变慢甚至无法提供服务,对用户搜索和交易体验造成负面影响。但由于存在巨大的灰色利益空间,同时“反爬虫”技术在与“爬虫”对抗中作用有限,使得这种显失公平的“作弊”方式成为扰乱机票市场秩序的技术“顽疾”。

“从技术角度来看,阻击‘爬虫’可以通过网站流量统计系统和服务器访问日志分析系统。”闫怀志说,通过流量统计和日志分析,如果发现单个IP访问、单个session访问、User-Agent信息超出设定的正常频度阈值,则判定该访问为恶意“爬虫”所为,将该“爬虫”的IP列入黑名单以拒绝其后续访问。

再就是设置各种访问验证环节。比如,在可疑IP访问时,返回验证页面,要求访问者通过填写验证码、选取验证图片或者字符等方式实现验证。如果是恶意“爬虫”爬取,显然很难完成上述验证操作,进而可以封锁该“爬虫”的访问,防止其恶意爬取信息。

互联网空间不能有“灰色地带”

当前,云计算大数据等为代表的新一代信息技术处在高速发展阶段。

“上述新技术如果被非法或者不当应用,则会产生严重的危害。互联网空间安全需要建立健全完善的保护体系,绝不能‘裸奔’。”闫怀志说。

2017年6月1日,我国网络安全法正式实施,明确了各方在网络安全保障中的权利与责任。这是中国网络空间治理和法制建设从量变到质变的重要里程碑,这部法律作为依法治网、化解网络风险的法律重器,成为我国互联网在法治轨道上健康运行的重要保障。

然而,目前对于高科技“黄牛”倒票行为,尚未有明确规定,使得恶意爬取信息并不当获利行为处在法律法规监管的“灰色地带”。

闫怀志介绍,国际上,针对“爬虫”应用,专门制订了Robots协议(即“爬虫”协议、网络机器人协议等)。该协议全称为“网络爬虫排除标准”,网站可通过该协议告知“爬虫”可以爬取哪些页面及其信息,不能爬取哪些页面及其信息。该协议作为网站和“爬虫”的沟通方式,用来规范“爬虫”行为,限制不正当竞争。

作为国际互联网界通行的道德规范,该协议的原则是:“爬虫”及搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;网站有义务保护其使用者的个人信息和隐私不被侵犯。这就规定了爬取者和被爬取者双方的权利和义务。

一位不愿具名的法律专家也表示,“反爬虫”不仅要依靠技术防范和业界自律,还应该通过完善管理和法律法规手段来约束这种行为,尤其是法律手段才能彰显惩治力和震慑力。航空公司也要完善账期管理,不给“爬虫”抢票提供机会。(记者付丽丽)

本文来自企鹅号 - 资讯天快报媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 资讯天快报媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
“爬虫”程序吃掉低价机票 高科技“黄牛”怎么破?
央广网北京12月27日消息(记者赵珂)据经济之声《天下公司》报道,2018年的春节已经离我们不远了。有消费者反映,自己希望能抢到一张回家的低价机票,但却在网上看到有报道说:航空公司放出的低价机票,80%以上都被票务公司的“爬虫”抢走,普通用户很少能买到。  “爬虫”到底是什么?它又是怎么抢机票的呢?据技术专家解释,通俗来说,“爬虫”又称网页“蜘蛛”、网络机器人,是一段用来批量、自动化采集网站数据的程序。这种信息采集过程很像一个爬虫或蜘蛛在网络上漫游,网络‘爬虫’或网页‘蜘蛛’因此得名。  “爬虫”最早应用在
企鹅号小编
2018/01/24
1.3K0
什么是“爬虫”技术?导致你买不到特价机票的原因
企鹅号小编
2017/12/29
2.2K0
爬虫风险业务防控实战 | 国际航班上,小“票代”在疯狂倒卖高价票
顶象防御云业务安全情报中心监测发现,某航空国际航班,遭遇恶意网络爬虫的持续攻击。高峰时期,B2C网站恶意网络爬虫的访问量达84%,严重占用网络带宽。此外,小“票代”还进行航班票价的倒卖,直接影响乘客正常查询和购票。
顶象技术
2023/06/28
3090
爬虫风险业务防控实战 | 国际航班上,小“票代”在疯狂倒卖高价票
恶意爬虫让机票价格暴涨 每年或致航空公司损失十多亿元
十一假期来临前,在北京市宣布公共卫生应急响应级别调至二级后。多家OTA网站当日数据显示:消息公布的1个小时内,北京出发的机票预订量较上一时段暴涨15倍,北京进出港机票成交量比前一天同时段增长超500%,北京至成都、昆明、重庆、上海、杭州、长沙等航线价格快速上涨,部分热门航线机票的价格甚至上涨6倍。
问题先森
2020/09/04
5830
恶意爬虫让机票价格暴涨 每年或致航空公司损失十多亿元
AI in WAF︱腾讯云网站管家 WAF:爬虫 Bot 程序管理方案
案例是说明一件事情最有力的辅证 某大型生活服务类站点被爆简历数据被恶意爬虫泄露; 某二次元文化社区站点原创内容被恶意爬虫遭侵权; 航空公司被爬虫恶意低价抢票; 外卖平台用户数据泄露; 恶意爬虫 Bot
腾讯云安全
2018/08/01
10.7K0
2018春节抢票攻略:不仅仅是12306微信小程序启用
一年一度的春运“抢票大赛”已于近日正式拉开帷幕,据了解,今年春运将于2月1日开始。近日,国家发改委等11个部门在北京召开全国春运电视电话会议进行工作部署,带来诸多好消息:遏制部分网站的恶意抢票行为,“复兴号”继续扩围、高速公路小客车免费通行、试点返空临客票价优惠、严惩失信行为保障旅途安全等。
疯狂的小程序
2018/01/23
1.2K0
爬虫与反爬虫技术简介
互联网的大数据时代的来临,网络爬虫也成了互联网中一个重要行业,它是一种自动获取网页数据信息的爬虫程序,是网站搜索引擎的重要组成部分。通过爬虫,可以获取自己想要的相关数据信息,让爬虫协助自己的工作,进而降低成本,提高业务成功率和提高业务效率。
2020labs小助手
2022/09/20
9100
使用爬虫你一定要了解这几个真相!
在大数据时代,网络信息的快速增长,数据也成为了众多企业的一种新型战略资源。所以,爬虫技术正好做为获取这种信息的主要手段,因此,它被广泛用于数据收集、用户行为分析等场景。
民工哥
2024/01/18
2600
使用爬虫你一定要了解这几个真相!
因买不到票,17 岁少年攻击航空系统,瘫痪四个小时,5000余万用户受影响:判 4 年
受疫情影响,一些国际航线机票紧缺,有的航线花高价也是一票难求,官网订票、APP购票、找黄牛抢票,能想到的方法都用了,可还是买不到票,怎么办? 因为买不到回国机票,一气之下,身处境外的17岁少年小陈竟多次、持续攻击某航空公司计算机系统,致使该航空公司对外服务网络全面瘫痪近四小时,5000余万用户受到影响! 广州日报记者今日从广州白云法院了解到,小陈因犯破坏计算机信息系统罪,被判处有期徒刑4年。 买不到回国机票,他找黑客攻击航空公司系统 2020年6月初,17岁的小陈因疫情影响被强制留滞在国外疫情重区,因在境外
云头条
2022/03/18
3460
「经验」爬虫在工作中的实战应用『理论篇』
解决痛点:很多同学对于爬虫会有一些疑惑,小火龙希望用简单的语言向你说明爬虫的基本原理,以及如何通过一段简单的代码实现,帮助你尽快上手,文章聚焦于爬虫初学者。
小火龙说数据
2022/06/30
3800
「经验」爬虫在工作中的实战应用『理论篇』
搭售风波背后,在线机票被服务费禁锢
国庆长假期间,OTA平台机票搭售风波在经过大半年发酵后,被演员韩雪的一条微博给推向高潮。携程随即对产品进行整改。新的机票预订通道被区分为极速预订和普通预订,普通预订没有默认勾选,但用户要观看5秒的广告
罗超频道
2018/04/25
8620
搭售风波背后,在线机票被服务费禁锢
旅游行业数字化电子商务平台转型解决方案
中国旅游电子商务网站出现于1996年,以互联网为载体,将传统旅游资源的整合,进一步的提高资源的利用和减低运营成本,以实现旅游企业的最优资源配置。虽然我国的旅游电商出现时间稍晚,但是近年来,我国旅游业发展迅猛,产业规模持续扩大,产品体系日益完善,市场秩序不断优化,旅游产业呈现井喷之势,基本呈现稳步上升的趋势。
数商云网络科技
2022/04/02
1K0
旅游行业数字化电子商务平台转型解决方案
【01】-思路讲述和准备工具-如何制作抢电影票,门票,演唱会门票软件-一个抢票软件的开发思路和逻辑-如何用python开发-优雅草央千澈
第一、抢票软件的合法性存在争议,使用不当可能触犯法律。下面是对抢票软件的相关分析:
卓伊凡
2025/01/04
1740
网络爬虫法律条文或出台:你的程序合法吗?
2018年10月20日,一篇《独家|估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章一出世便走红网络。文中称百亿体量的马蜂窝,其中2100万条“真实点评”中有1800万条是通过机器人从大众点评和携程等竞争对手抄袭而来。通过语义分析、数据挖掘,发现了7454个抄袭账号,平均每个账号抄袭搬运了数千条点评,合计抄袭572万条餐饮点评和1221万条酒店点评,占官网声称点评数85%。
IT阅读排行榜
2019/07/09
8.2K0
网络爬虫法律条文或出台:你的程序合法吗?
别费劲抢火车票了!有了这款小程序,白菜价就能买到飞机票
机票价格越来越平民化,有时候折算下来,甚至比火车还要便宜。因而,乘飞机出游也成了许多人的选择。
知晓君
2018/07/26
5760
程序员春运抢票的正确姿势!
这意味着,本周日开始,中国一年一度的人口大迁徙之春运的抢票活动将逐渐步入高潮。而在这个一票难求的春运期间,作为技术宅、男友力爆棚、孝心十足的你,或许给自己、给女朋友、给长辈最感人的告白,不再是一句我爱你,而是这张回家的票给你。那么问题来了,即使是身处互联网行业的你,又如何能抢到票?
AI科技大本营
2019/01/02
1.5K0
网络爬虫是什么?
互联网诞生之初,是为了让人们更容易的分享数据、交流通讯。互联网是桥梁,连接了世界各地的人们。网站的点击、浏览都是人为的,与你聊天的也是活生生的人。然而,随着技术的发展,人们对数据的渴望,出现了各种网络机器人,这个时候,你不知道屏幕那端跟你聊天的是一个人还是一条狗,你也不知道你网站的浏览量是人点击出来的,还是机器爬出来的。
一墨编程学习
2019/05/14
1.4K0
爬虫学习(一)
The happiness of this life depends less on what befalls you than the way in which you take it.
小闫同学啊
2019/07/18
1.6K0
爬虫学习(一)
一文带你了解Python爬虫(一)——基本原理介绍
1. 企业生产的用户数据: 大型互联网公司有海量用户,所以他们积累数据有天然的优势。有数据意识的中小型企业,也开始积累的数据。 2. 数据管理咨询公司: 通常这样的公司有很庞大的数据采集团队,一般会通过市场调研、问卷调查、固定的样本检测, 和各行各业的公司进行合作、专家对话(数据积累很多年了,最后得出科研结果)来采集数据。 3. 政府/机构提供的公开数据: 政府通过各地政府统计上报的数据进行合并;机构都是权威的第三方网站。 4. 第三方数据平台购买数据: 通过各个数据交易平台来购买各行各业需要的数据,根据获取难度不同,价格也会不同。 5. 爬虫爬取数据: 如果市场上没有我们需要的数据,或者价格太高不愿意买, 那么就可以招/做一个爬虫工程师,从互联网上定向采集数据。
诡途
2020/10/16
4.1K0
C#爬虫知识介绍
爬虫(Web Crawler)是指使用程序自动获取互联网上的信息和数据的一种技术手段。它通常从一个起始网址出发,按照一定的规则递归地遍历网页,并将有用的信息提取出来,然后存储到本地或者数据库中,以供后续分析和使用。爬虫的本质是通过程序模拟了人类在互联网上的浏览、搜索行为,把互联网上的信息主动拉取到自己的数据库中,从而实现全网数据的自动化采集和处理。
明志德道
2023/10/21
4170
C#爬虫知识介绍
推荐阅读
相关推荐
“爬虫”程序吃掉低价机票 高科技“黄牛”怎么破?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档