Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >丢弃 or 保留?——大数据之异常数据

丢弃 or 保留?——大数据之异常数据

作者头像
IT阅读排行榜
发布于 2018-08-16 07:47:37
发布于 2018-08-16 07:47:37
5880
举报
文章被收录于专栏:华章科技华章科技
有人认为在处理大数据时忽略各种异常数据是最好的做法,为此他们创建了复杂的过滤程序,来舍弃那些异常的信息。在处理特定类型的数据时,这可能算是较为稳妥的做法,因为异常往往会导致结果的不准确。但实践证明,在某些时候和某些特定的情景中,异常数据要比其他的数据更有价值。对此,我们应该认识到的是“在没有进一步分析的情况下,丢弃数据的做法是不正确的”。

举例来说,在以数据加密为标准做法并且需要实时进行访问记录和数据检查的高端网络安全领域,识别并认定符合数据非特征运动的特征(即通过发现异常来检测安全问题)是至关重要的步骤。上述思想可以应用于从金融审计到科学探究再到检测网络威胁等领域,在这些领域,发现和识别非正常现象才是服务的关键。

在大数据的世界里,“异常数据”可能只是一个条目,在数百万的数据量中,这一个条目可能并不值得注意。但是,在对流量、访问和数据流进行分析时,这一个条目就可能具有无法估量的价值,并可能成为获取证据的关键信息。在计算机安全领域,发现异常具有特别重大的意义。但是很多的数据学家都不愿意为研究异常处理而占用其他任务的资源。

事实上,异常现象很可能是某种趋势的前兆。以网上购物为例,许多购买趋势在一开始就是早期产品使用者们创造的一种孤立异常现象;但这些产品随后可能成为时尚并最终成为顶级的产品。这种类型的信息(即早期趋势)可能带来销售周期的破与立。在这个方面,没有任何实例比华尔街更有说服力,在这个市场中任何异常的股票交易,都可能带来不可预料的恐慌和疯狂,而这一切可能只是源自从一堆大数据中发现的几个小事件。

通常情况下,只要数据集的规模足够大,异常现象就总会随之出现。某些领域中对异常价值的体现更具有意义,社交网络就是其中之一,在这个领域有大量的帖子、tweet信息和更新被投入大数据和分析程序,相关的企业会查看客户情绪等信息并以平行的方式对比在众多不同类型的时间序列中发现的异常现象,其中所涉及的思想就是类似的异常模式可能会出现在不同的维度中。

零售购物便是其中的一个典型案例。某些人群可能会在一年中相对固定地在Safeway、Trader Joe's或Whole Foods购买生活用品,但在年终他们会前往百思买和Toys“R”Us进行假日购物并引致相关商户年终预期销售量的增长。而苹果之类的公司则可能在一年中的大部分时间均维持较为平均的表现,但一旦新的手机产品发布,它们在全球的客户总会不约而同地为了这一金属与玻璃构成的工艺品而甘愿排队采购。

在需要与其他数据元素区分开来的重要数据中,上述信息就如海底针一般的存在。在一年中,苹果专卖店有约300天在临时购买模式(或利润率)方面都与典型的电子产品零售商均没有什么区别,但是一旦发生某个能引发两个或三个年度大事件的异常情况(例如新产品发布),这个异常就成为了苹果商店和其他电子零售商之间的最大区别。为了能专注于真正具有特异性的事件,我们可以使用各行业中常见的趋势来抵消可以预期的季节性变化。

在Twitter数据方面,不同维度之间通常有很大的差异。哈希标签通常与短暂或不规则现象相关,与之相比某个大国的用户所发布的大量tweet信息则具有规律性。由于在这种维度内部相似性更高的情况,我们应该对每个维度进行分开处理。按维度使用算法有助于在标签和用户名(而非位置和时区)成为最主要的异常来源的情况下做出判断,因为前述情况表明相关各群组中的项目之间几乎没有任何相似性。

鉴于异常的数量巨大,找出其中的意义是一项极为艰巨的任务,这也导致了以下问题:是什么导致了正常的流量中出现异常暴增的情况?有哪些领域与此相关?这是否与URL缩短器和Twitter直播视频流服务有关?按照异常情况的多少来排序的看法不够精细且有诸多限制;异常之间的联系通常存在于维度之中以及各维度之间的区域。各种算法可以共同产生强大的协同效应,但我们可能需要采用某种类聚过程才能发现其中的规律。

——本文摘自《智能数据时代:企业大数据战略与实战》

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-06-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
给你tcga数据库过万病人的原始测序数据你可以做什么
大家应该是都知道,TCGA数据库是目前最综合最全面的癌症病人相关组学数据库,包括:
生信技能树
2020/04/26
1.2K0
给你tcga数据库过万病人的原始测序数据你可以做什么
tRFdb-tsRNA数据库爬虫下载fa序列
目前大多数的tsRNA数据库基本上都没有提供数据下载的接口,比如 tRFdb:http://genome.bioch.virginia.edu/trfdb/
生信菜鸟团
2023/09/09
4691
tRFdb-tsRNA数据库爬虫下载fa序列
最基本的生信套路换了miRNA也能发6分+
大家好!今天跟大家分享的是2020年12月发表在Genomics(IF = 6.205)上的文章。文章利用了从TCGA数据库中搜集的头颈部鳞状细胞癌(HNSCC)RNA测序数据和miRNA测序数据进行了综合分析,通过与临床数据结合,利用Cox回归分析,得到了7个与HNSCC相关的标志性miRNA,确定为用于头颈部鳞状细胞癌预后的新型miRNA标志物。
百味科研芝士
2021/01/06
1.7K0
通过R包cgdsr链接cbioportal来探索TCGA等公共数据
其中MSKCC的就是cBioPortal,主页在:https://www.cbioportal.org/
生信技能树
2022/07/26
1K0
通过R包cgdsr链接cbioportal来探索TCGA等公共数据
TCGA免疫浸润评价数据库
对于RNA-seq的数据,之前我们的分析方法只是局限于单个基因之间的整合分析,最多也就是做一下富集这样的聚类分析。前段时间随着肿瘤免疫的热度,也有人试着开始利用RNA-seq这样的数据来评价患者的免疫情况。
医学数据库百科
2020/07/14
1.8K0
人类蛋白免疫组化表达数据库
我们在进行基因的蛋白表达检测的时候,通常的方法是进行western blot以及免疫组化进行检测的。对于这两个实验都是需要提前买抗体进行检测的,但是抗体又贵,如果一个基因检测的结果不好的话,那有可能就要浪费这个抗体了。所以今天就来介绍一个,在很多癌症当中做了很多基因的免疫组化的数据库: The Human Protein Atlas (https://www.proteinatlas.org/)
医学数据库百科
2020/07/16
3.5K0
人类蛋白免疫组化表达数据库
爆肝整理肿瘤生信数据库(收藏贴一)
小编为大家爆肝整理了近百个数据库!共分10大类。今天小编先为大家分享前5类。 在整理的过程中,小编发现一些虽然是以前经常被大家推荐使用的数据库,但却已不再维护了,早已不能正常使用了,这种数据库小编也已经贴心的帮大家过滤掉了。那就快来看看有没有你需要的吧!
作图丫
2022/03/29
4.1K0
爆肝整理肿瘤生信数据库(收藏贴一)
TCGA数据库:miRNA数据下载与整理
关于miRNA的基础知识可参考文章:医学科研实验基础知识笔记(十一):非编码RNA。
DoubleHelix
2020/05/16
8.2K0
文献解读|circAGFG1通过miR-195-5p调控CCNE1的表达促进三阴性乳腺癌的发展
通过高通量测序和后续的功能验证,挖掘出三阴性乳腺癌中的一个ceRNA调控功能网络,网址如下
生信修炼手册
2019/12/19
7510
文献解读|circAGFG1通过miR-195-5p调控CCNE1的表达促进三阴性乳腺癌的发展
基因组变异对于 ceRNA 调控影响的数据库
lncRNA(long non coding RNA)发挥功能的方式,目前研究最多的还是ceRNA 的功能。经典的ceRNA调控网络是通过 lncRNA-miRNA-mRNA 来构建的。这个研究思路,相对来说已经很成熟了,如果要在这个方面研究的话,其实再加一些变化可能更好一些,毕竟成熟的思路就代表创新性少一些,而如果要加变化的话,由于 ceRNA 调控的原始还是序列的结合,所以最直接能加的还是看基因组变异对于ceRNA 调控的影响。所以这次给大家推荐一个基因组变异对于ceRNA调控影响的数据库:LnCeVar
医学数据库百科
2020/07/27
5670
Oncomine数据库已终止服务!万文长篇含泪总结常用医学公共数据库【建议收藏】
在肿瘤研究中,Oncomine是非常重要的样本数据库,它整合了GEO、TCGA和已发表的文献来源的RNA和DNA-seq数据,是目前世界上最大的癌基因芯片数据库和整合数据挖掘平台,且自带分析和统计功能,旨在挖掘癌症基因信息。
用户6317549
2022/04/09
19.1K0
Oncomine数据库已终止服务!万文长篇含泪总结常用医学公共数据库【建议收藏】
m6A调节因子在肾透明细胞中的基因特征和预后价值:一项使用TCGA数据库的回顾性研究
真核生物RNA可以携带100多种化学修饰,其中RNA甲基化修饰约占60%,而N6-甲基腺嘌呤(m6A)在甲基化修饰中最为普遍,占有率高达80%。从2017年至今,RNA m6A研究热度不减,已有7篇在《Nature》、2篇在《Cell》、2篇在《Cancer cell》上发表。
用户1359560
2019/04/17
2K0
m6A调节因子在肾透明细胞中的基因特征和预后价值:一项使用TCGA数据库的回顾性研究
miRNAseq数据分析这么多年了它的流程也没有固定
那个时候举例使用的是bowtie2软件比对miRNA的reads到miRBase里面的miRNA序列文件,以及hg38参考基因组,两个策略。后来也看了看很多公司报告,发现大多集中于下游分析,就是拿到了miRNA表达矩阵后的,包括差异分析,靶基因等等。如下所示:
生信技能树
2020/05/14
2.1K0
miRNAseq数据分析这么多年了它的流程也没有固定
文献翻译Identification of potential cancer-related pseudogenes in lung adenocarcinoma based on ceRNA h...
假基因最初被认为是由于在进化过程中失活基因突变而导致的非功能性基因组。然而最近有研究证明假基因远非沉默,通过体内microRNA海绵的功能调节蛋白质编码基因的表达。我们的研究目的是提出一种综合系统生物学方法,以基于竞争性内源RNA(ceRNA)假说鉴定疾病假基因。在这里,我们将我们的方法应用于来自TCGA的肺腺癌(LUAD)RNASeq数据并鉴定了33个候选假基因。我们描述了候选假基因的特征并进行了功能富集。通过分析邻近基因,我们发现这些假基因被肿瘤基因包围并可能涉及肿瘤通路。此外,DNA甲基化分析表明21种假基因与其竞争性mRNA共甲基化。在共甲基化网络中,我们发现了6个差异表达的假基因,我们将其称为潜在的LUAD相关假基因。我们进一步揭示3个ceRNA三联体(miR-21-5p-NKAPP1-PRDM11,miR-29c-3p-MSTO2P-EZH2和miR-29c-3p-RPLP0P2-EZH2),其高风险组与预后不良有关LUAD,可被视为潜在的预后特征。此外,通过整合microRNA的目标信息,我们还为潜在的小分子药物的发现提供了新的视角。这项工作可能有助于癌症研究,并作为未来努力的基础,以了解假基因的作用,开发新的生物标志物和提高肿瘤生物学的知识。
用户1359560
2018/08/27
5100
基于单细胞测序的转录因子调控网络预测数据库
基因转录的过程当中,基因由DNA转录成mRNA的过程受到很多因素的调控。其中就包括了转录因子的调控。转录因子调控的一个主要的过程是转录因子和基因启动子区进行结合进而来对其表达进行调控。由于每个转录因子都有自己的固定的识别序列,所以基于特定的识别序列,我们就可以了解每个转录因子都可能调控哪些基因。随着测序数据的发展,我们也可以通过cihp-seq来准确的了解转录因子的结合区域。同时可以通过RNA-seq来分析转录因子和结合基因之间是否存在共表达关系。之前的转录因子预测的数据库其实都是基于上面的原理来进行构建的。最近,随着单细胞测序数据的增多,我们也可以在单个细胞当中研究不同系统的调控情况。所以今天就给大家介绍一个纳入了单细胞测序数据的一个可以预测基因调控网络的数据库:GRNs[http://www.grndb.com/]
医学数据库百科
2022/05/17
9000
基于单细胞测序的转录因子调控网络预测数据库
【收藏版】常用肿瘤相关数据库(非常详细,非常全面)
传统化疗是对抗癌症的常见方法,但它会攻击全身,造成不必要的副作用,如脱发,恶心和疲劳。 靶向治疗选择性地杀死癌细胞而不影响健康组织。靶向药物开发将成为治疗癌症的重要手段。 肿瘤的生物信息学数据库对肿瘤基础研究的发展、临床治疗水平提供具有重要作用。
生信交流平台
2022/09/21
3.5K0
【收藏版】常用肿瘤相关数据库(非常详细,非常全面)
TCGA、ICGC、GTEx 数据库都是啥?
我们在进行数据库介绍,尤其是肿瘤相关数据库的时候,经常会提到说这个使用了 TCGA/GTEx 数据库的数据,那么这两个数据库到底是什么呢?为什么会有用这两个数据库呢?另外呢,由于最近ICGC提的也比较多,所以这里也就做一下简单的介绍。
医学数据库百科
2020/07/16
5.1K0
癌症样本全转录组数据的融合基因鉴定
前几期转录组周更学习分享了lncRNA和mRNA联合分析的一般套路和鉴定新lncRNA的基本流程,接下来的两周我会带大家一起学习之前一位老师对癌症样本全转录组数据进行融合基因和变异鉴定的推文 老程的全转录组,解决遇到的各种问题
生信菜鸟团
2023/09/09
9790
癌症样本全转录组数据的融合基因鉴定
GEPIA:点点鼠标就能分析TCGA数据
随着公共数据库的建立和开放,越来越多的研究者可以接触到测序数据,非常适合我们这种“三无”研究者(无课题,无经费,无文章)运用公共数据找点事情干,可以是另辟蹊径从某个独特的视角重新分析已有的数据发发文章,也可以在没钱做测序的情况下看看自己研究的基因在别人的数据里是什么样子,积攒一些研究基础。不过想玩转生信大数据,面前总是隔着一座计算机编程的高山,门槛太高让众多小白望而却步。
微点
2019/05/07
3.5K1
就想把表达矩阵区分成为蛋白编码基因和非编码有这么难吗?
考核题的文章里面是自己测了8个TNBC病人的转录组然后分析,这里借助TCGA数据库,所以可以复现。我这里想展现的主要是TCGA的数据下载和基因的ID转换,分类,的理解。
生信技能树
2019/09/24
4K0
就想把表达矩阵区分成为蛋白编码基因和非编码有这么难吗?
推荐阅读
相关推荐
给你tcga数据库过万病人的原始测序数据你可以做什么
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档