Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >丢弃 or 保留?——大数据之异常数据

丢弃 or 保留?——大数据之异常数据

作者头像
IT阅读排行榜
发布于 2018-08-16 07:47:37
发布于 2018-08-16 07:47:37
5880
举报
文章被收录于专栏:华章科技华章科技
有人认为在处理大数据时忽略各种异常数据是最好的做法,为此他们创建了复杂的过滤程序,来舍弃那些异常的信息。在处理特定类型的数据时,这可能算是较为稳妥的做法,因为异常往往会导致结果的不准确。但实践证明,在某些时候和某些特定的情景中,异常数据要比其他的数据更有价值。对此,我们应该认识到的是“在没有进一步分析的情况下,丢弃数据的做法是不正确的”。

举例来说,在以数据加密为标准做法并且需要实时进行访问记录和数据检查的高端网络安全领域,识别并认定符合数据非特征运动的特征(即通过发现异常来检测安全问题)是至关重要的步骤。上述思想可以应用于从金融审计到科学探究再到检测网络威胁等领域,在这些领域,发现和识别非正常现象才是服务的关键。

大数据的世界里,“异常数据”可能只是一个条目,在数百万的数据量中,这一个条目可能并不值得注意。但是,在对流量、访问和数据流进行分析时,这一个条目就可能具有无法估量的价值,并可能成为获取证据的关键信息。在计算机安全领域,发现异常具有特别重大的意义。但是很多的数据学家都不愿意为研究异常处理而占用其他任务的资源。

事实上,异常现象很可能是某种趋势的前兆。以网上购物为例,许多购买趋势在一开始就是早期产品使用者们创造的一种孤立异常现象;但这些产品随后可能成为时尚并最终成为顶级的产品。这种类型的信息(即早期趋势)可能带来销售周期的破与立。在这个方面,没有任何实例比华尔街更有说服力,在这个市场中任何异常的股票交易,都可能带来不可预料的恐慌和疯狂,而这一切可能只是源自从一堆大数据中发现的几个小事件。

通常情况下,只要数据集的规模足够大,异常现象就总会随之出现。某些领域中对异常价值的体现更具有意义,社交网络就是其中之一,在这个领域有大量的帖子、tweet信息和更新被投入大数据和分析程序,相关的企业会查看客户情绪等信息并以平行的方式对比在众多不同类型的时间序列中发现的异常现象,其中所涉及的思想就是类似的异常模式可能会出现在不同的维度中。

零售购物便是其中的一个典型案例。某些人群可能会在一年中相对固定地在Safeway、Trader Joe's或Whole Foods购买生活用品,但在年终他们会前往百思买和Toys“R”Us进行假日购物并引致相关商户年终预期销售量的增长。而苹果之类的公司则可能在一年中的大部分时间均维持较为平均的表现,但一旦新的手机产品发布,它们在全球的客户总会不约而同地为了这一金属与玻璃构成的工艺品而甘愿排队采购。

在需要与其他数据元素区分开来的重要数据中,上述信息就如海底针一般的存在。在一年中,苹果专卖店有约300天在临时购买模式(或利润率)方面都与典型的电子产品零售商均没有什么区别,但是一旦发生某个能引发两个或三个年度大事件的异常情况(例如新产品发布),这个异常就成为了苹果商店和其他电子零售商之间的最大区别。为了能专注于真正具有特异性的事件,我们可以使用各行业中常见的趋势来抵消可以预期的季节性变化。

在Twitter数据方面,不同维度之间通常有很大的差异。哈希标签通常与短暂或不规则现象相关,与之相比某个大国的用户所发布的大量tweet信息则具有规律性。由于在这种维度内部相似性更高的情况,我们应该对每个维度进行分开处理。按维度使用算法有助于在标签和用户名(而非位置和时区)成为最主要的异常来源的情况下做出判断,因为前述情况表明相关各群组中的项目之间几乎没有任何相似性。

鉴于异常的数量巨大,找出其中的意义是一项极为艰巨的任务,这也导致了以下问题:是什么导致了正常的流量中出现异常暴增的情况?有哪些领域与此相关?这是否与URL缩短器和Twitter直播视频流服务有关?按照异常情况的多少来排序的看法不够精细且有诸多限制;异常之间的联系通常存在于维度之中以及各维度之间的区域。各种算法可以共同产生强大的协同效应,但我们可能需要采用某种类聚过程才能发现其中的规律。

——本文摘自《智能数据时代:企业大数据战略与实战》

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-06-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【数据】 大数据在零售业中的五个用例
随着零售业持续加速扩张,商户们也急于寻找大数据在零售业中的最佳用例。 根据财经网站Kiplinger报道,2017年,光是零售业销售额就有望增长3.5%,电子商务则持续大幅迈进,预期增幅15%。从日志文档、交易信息,到传感器数据和社交媒体指标——这些新的数据来源为零售机构带来了新的机遇,助其在一个日益扩张的行业领域内,实现空前的价值与竞争优势。 零售商要在内部提供有利条件,使人们可以“快准狠”地做出决策。要达到这一目标,唯一的途径就是将大数据利用起来,制定最好的计划与决策,更加深入地了解顾客,并挖掘隐藏趋势
陆勤_数据人网
2018/04/18
1.3K0
【数据】 大数据在零售业中的五个用例
你知道吗?消费者正在重返实体店
埃森哲最新的调查发现,消费者中出现了“重返实体店”的迹象,未来计划更多通过实体店进行购物的消费者比例从一年前的18%攀升至26%。这一趋势不仅发生在中国,在美国等成熟市场愈加明显。 调查发现,93%的
用户1756920
2018/06/20
3690
线下大数据才是“大蓝海”,但几乎还是处女地,破局之法何在?
在大数据市场,占了不到20%份额的线上数据成了兵家争夺之地,而线下数据这一大块蛋糕还在等待更多玩家的参与。 近几年来,“大数据”的概念被炒的越来越热,据相关数据显示,全球大数据市场规模在2016年达到了1802亿元,预计2017年将增至2211亿元。与此相对的,国内市场还有着极大的增长潜力,根据数据,2016年国内大数据市场的规模仅仅只有23.6亿元。 当前,因为云服务、人工智能以及虚拟现实等应用和技术的发展,“大数据”的重要性愈加凸显。比如人工智能技术和产品应用,在这之中,深度学习算法是AI产品能够实现“
镁客网
2018/05/29
3970
盘点全球2015年大数据发展大事记
对于大数据来说,2015 年是动荡的一年:其数据和分析所具有的改变世界的潜力则继续散发耀眼的光芒,鼓舞着我们前行;同时,这一年中也经历了很多发展的低潮,这就像是一次次的警告,或许某一天大数据就不再具有
灯塔大数据
2018/04/10
1.3K0
盘点全球2015年大数据发展大事记
【数据分析】大数据机制下银行客户的情绪分析和行为预测
大数据的概念早已风靡全球,怎么应用、怎么落地也都是众说纷纭,好不热闹。单就银行来说,利用大数据来对客户的情绪进行分析,然后对客户可能的购买意向进行预测,是当前可以从大数据浪潮的诱人前景里淘到的真金。 大数据概念的兴起似乎还是昨天的事,但托这个高速发展时代的福,我们已经可以看到很多成熟的大数据应用工具了。在很短的时间内,我们就能在茫茫的数据海洋中精确定位、分析,并拿到自己想要的结果。当然,这些技术的进步并非由银行推动,大型零售商、网上商城和各种门类的技术公司才是大数据的主导者,只不过,经过他们的探索之后,大数
陆勤_数据人网
2018/02/27
2K0
【大数据分析报告】大数据+机器学习将成为大部分企业的标配
导读:SoftServe是全球领先的技术解决方案提供商,近日发布了自己的Big-Data-Analytics-Report,研究显示62%的大中型公司希望在未来的两年内能将机器学习用于商业分析。今年四月,Vanson Bourne为SoftServe进行了这项研究,调查了多个行业的决策者对大数据技术中的风险、挑战和机遇的看法。 该数据显示,大数据分析技术尽管相对较新,仍然有86%的公司运用了大数据系统。此外,大中型公司认为大数据分析是必须的,并且接受基于大数据分析的新技术。   调查对象被问到,与传统系统
钱塘数据
2018/03/05
9620
【大数据分析报告】大数据+机器学习将成为大部分企业的标配
盘点 ▏12项要闻回顾2015年全球大数据发展的起起落落
对于大数据来说,2015 年是动荡的一年:其数据和分析所具有的改变世界的潜力则继续散发耀眼的光芒,鼓舞着我们前行;同时,这一年中也经历了很多发展的低潮,这就像是一次次的警告,或许某一天大数据就不再具有改变世界的力量了。因此让我们一起来回顾一下今年最重要或者最具价值的相关新闻,一起回味这一年大数据发展所经历的起起落落。
IT阅读排行榜
2018/08/14
3040
高管人员对大数据现状的看法
本文在新版《DZone大数据指南:数据科学和高级分析》中提供。获取更具洞察力的文章,行业统计数据,以及更多资讯!
用户1433327
2018/06/04
9355
大数据烽火起狼烟
大话新零售 每周乱更新 上回书咱们说到,商超型新零售亦实亦虚的特点,没有影响的可以翻翻上周的文章,这回咱们说一说数据。 要知道,想要做好新零售,数据是基础,从各大App的模块,到纯新零售的项目,哪一项都需要数据的支持。 “商务部流通产业促进中心”在今年9月发布的《走进零售新时代——深度解读新零售》一文提到我国目前很多零售企业进入通过场景服务运营商提供整套“互联网+”的解决方案,实现Wi-Fi 覆盖和 i-Beacon 应用进行场景定位,并通过近场感应终端、传感器等技术,实现对消费者购物轨迹的全流程追踪的
企鹅号小编
2018/03/02
8180
大数据烽火起狼烟
零售业应用大数据分析的六大挑战
零售业是最传统的买卖双方互动平台。早在电子商务和移动商务崛起前,零售商们就以别出心裁的产品陈列,极具竞争力的价格和有效的销售技巧吸引了众多买家。随着科技的发展,现代技术正逐渐渗透进传统零售业。
iCDO互联网数据官
2018/12/07
1.3K0
日本零售O2O七大模式分析,大数据分析是未来的关键
在网购问题上,日本人还是比较保守,据调查称,只有20%的顾客乐意单纯在网上购物,78%的还要去实体店确认商品。这一点看,我们就开放多了。 在日本,电子商务、全渠道、O2O等等,发展的历史都不长。与美国
小莹莹
2018/04/20
1.2K0
日本零售O2O七大模式分析,大数据分析是未来的关键
后大数据时代,穿越吧,IT客!
【摘要】“随着科技不断发展,我们逐渐被海量数据淹没了。大数据对整个人类社会提出了全新的挑战,也为我们利用数据洞察推动社会变革提供了无限的可能。谁又能预测,未来大数据将如何改变我们的生活?” IT客以这段话结束了演讲,在一片掌声中走出了“2013年大数据高峰论坛”的会场。他混迹技术圈已久,很少为了某个新技术或者新趋势兴奋不已,但却对近几年兴起的大数据浪潮充满了期待,每每谈到这个话题就口若悬河。 这一夜,IT客睡得很沉,做了一个很长的梦。梦中,他穿越到了后大数据时代的北京,在这里,最新科技已经完全改变了人
CDA数据分析师
2018/02/05
6090
【推荐】更多数据……巨多数据……大数据!
如果你所在的企业正在利用大数据支撑运营型分析工作,本章讲的正是这时你需要掌握和了解的那些关乎大数据的重要趋势。过去的许多年间,企业积累的数据越来越多。尤其是到了近几年,数据累积的节奏开始加速。今天,数据格式往往呈现新颖化的趋势,分析手段往往呈现多样化的趋势。大数据正是在这个趋势上打的标签,它带来的是更大的数据挑战,更多的数据源,以及不同的数据格式。 当一家企业开始思考大数据,并且思考大数据将如何影响企业的业务分析流程时,它必须高瞻远瞩地思考很多概念。本章讲述了我们经常会遇到的那些花样繁多的大数据炒作热点,需
小莹莹
2018/04/20
8980
【推荐】更多数据……巨多数据……大数据!
大数据在在线零售商的六大应用
点击标题下「大数据文摘」可快捷关注 大数据文摘翻译 作者:GAGAN MEHRA 来源:Practicalecommerce 翻译:郭芳菲 校对:Lynda 转载请保留 在“走进电子商务大数据”
大数据文摘
2018/05/22
6290
生鲜新零售异军突起,科技才是核心驱动
10月19日,阿里巴巴宣布2018“天猫双11购物狂欢节”启动,今年天猫双11将会有400座城市和全球18万家品牌全面参与,线上线下将首次形成联动,天猫、淘宝、盒马、饿了么、口碑等全面集结,这表明新零售已进入深水区,而生鲜新零售已成为新零售桥头堡。
罗超频道
2018/11/23
8730
大数据能干嘛?
信息量的膨胀化——数据越来越庞大,民用的容量单位MB(兆)、GB(吉)已发展到常用TB(太)甚至是PB(1000个T)来丈量。过去常用的“信息爆炸”、“海里数据”等词汇也不能满足这个发展中的新现象。 大数据一说首先被全球各大IT企业所重视,这些企业基于自身的商业目标,对大数据做了各种解释,一条共识是:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。” 从这一个侧面表明,大数据带来的挑战在于它的实时处理,而数据本身也从结构性数据转向了非结构性数据的变化,例如现代人每天用手机拍
陆勤_数据人网
2018/02/26
8170
大数据没用?5个通过大数据分析提升客户体验的方式
在互联时代,拥有一个大数据战略来收集、存储、组织和分析广泛客户数据的踪迹,对于及时开展个性化客户交互至关重要。幸运的是,通过采用正确的技术、基础设施和分析功能来全面释放这一数据的潜力,实现与互联客户的更深入交流,绝非空想。 以下这五种使用大数据分析的途径将能够帮助您提升互联客户体验: 1. 找到“隐藏的”大数据见解,更全面地了解客户。 在大数据的初期,从电子邮件和网站点击收集到的见解帮助企业重塑了营销计划,启动了新的活动,并带来了更加个性化的体验。但所有这些优势通常采用产品推荐的形式完成。 现在,新的数据类
CDA数据分析师
2018/02/11
1.2K0
新零售为何会快速崛起?大数据技术早已融入我们的生活……
2018年是新零售业爆发的一年。我相信每个人都有同样的感受。便利店比以前多了。它们几乎随处可见。他们还觉得一两个月没去过超市。有时他们会在街上看到新的零售模式。
大数据风风
2019/02/13
5060
新零售为何会快速崛起?大数据技术早已融入我们的生活……
7-Eleven实例:大数据+心理学分析在新零售中的应用
7-Eleven的创始人铃木敏文认为,新零售的本质是“以消费者为中心”的商业思维,其目的是通过数据驱动、关联协同、场景构建等手段,将消费者和商品之间的关系重构,以满足消费者的需求和期望。7-Eleven在供应链管理、商品管理、服务体验等方面都体现了对“新零售”的深入理解和实践。
挖掘大数据
2018/01/03
1.3K0
7-Eleven实例:大数据+心理学分析在新零售中的应用
【学习】大数据成熟度模型
经常有客户问:从业务角度说,大数据究竟离我们有多远?大数据的最终目标是什么?企业使用大数据作为业务催化器,与其他手段的区别和联系是什么?大数据如何助力于业务价值创造? 为了回答这类问题,有人提出了“大数据成熟度模型”。[与前次的《大数据故事地图》一样,它的来源是EMC(就是去IOE的那个E)。] 企业采用大数据及先进分析技术来创造竞争优势时,采用了各不相同的节奏。有的企业比较小心翼翼,因为它们不清楚方向、启动方法及大数据旅程中哪些技术创新是合适的。有的企业则更加激进,勇于把大数据分析技术集成到现有的业务
小莹莹
2018/04/19
1.7K0
【学习】大数据成熟度模型
推荐阅读
相关推荐
【数据】 大数据在零售业中的五个用例
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档