本文是个人在从零搭建部门数据及运营平台的过程中的笔记。随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。
大数据平台通过将所有数据整合起来,充分分析与挖掘数据的内在价值,为业务部门提供数据平台,数据产品与数据服务。大数据平台接入的数据中可能包括很多用户的隐私和敏感信息,如用户在酒店的入住纪录,用户支付信息等,这些数据存在可能泄漏的风险。大数据平台一般通过用户认证,权限管理以及数据加密等技术保证数据的安全,但是这并不能完全从技术上保证数据的安全。严格的来说,任何有权限访问用户数据的人员,如ETL工程师或是数据分析人员等,均有可能导致数据泄漏的风险。另一方面,没有访问用户数据权限的人员,也可能有对该数据进行分析挖掘的需求,数据的访问约束大大限制的充分挖掘数据价值的范围。数据脱敏通过对数据进行脱敏,在保证数据可用性的同时,也在一定范围内保证恶意攻击者无法将数据与具体用户关联到一起,从而保证用户数据的隐私性。数据脱敏方案作为大数据平台整体数据安全解决方案的重要组成部分,是构建安全可靠的大数据平台必不可少的功能特性。本文首先分析了数据泄露可能带来的风险,然后详细介绍了数据脱敏技术的理论基础与常用算法,最后介绍了一个基于大数据平台的数据脱敏解决方案。
波克科技股份有限公司(以下简称“波克城市”)成立于 2010 年,立足于精品休闲游戏的全球化研发、发行,旗下拥有《爆炒江湖》《我是航天员》《猫咪公寓》等精品休闲游戏,连续五年入选中国互联网百强。目前,波克游戏积极探索和发展“游戏+”模式,努力构建以游戏产业为核心、多产业交融发展的互联网新生态。
国家 2035 远景规划提出要加快全面数字化转型的步伐,而“大数据平台”是数字化转型的基础技术之一。经过六年多的探索和实践,微众银行打造了一套在金融领域“自主可控”的开源大数据平台。对于任何企业来说,建立和维护一个大数据平台都不是一件容易的事情,而建设一个有特色的、完整易用的大数据平台,显然更是一件技术难度极高的事情。InfoQ 采访了微众银行 WeDataSphere 主创团队,希望他们的实践经验能给大家带来一些启发和思考。
Apache Kylin 在 2014 年 10 月开源并加入 Apache 软件基金会的孵化器,一年后从孵化器毕业成为 Apache 顶级项目。从第一天起,Kylin 的标语是「Extreme OLAP Engine for Big Data」。五年来,Kylin 已经成为了大数据版图中一个不可或缺的角色,帮助了全球上千家企业进行高效的大数据分析。
数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据 的可靠保护。这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。
当前大数据团队没有一个统一的操作权限控制和管理平台,对于分析师在服务器上的权限,目前都是给予对应分析节点的EC2机器账号,且为了方便操作和管理都是给予的管理员权限,因此安全性风险较大;对于数据开发者,主要通过分配IAM控制AWS的操作权限;对于team的所有人都是通过分配aws的ak,sk在本地进行操作赋权;随着数据平台的不断的丰富和完善,需要在各组件之上做认证,鉴权和审计等管理,数据权限管理平台主要是为了统一所有人的操作权限而设计。开源权限组件apache ranger和apache sentry存在以下问题:
金融科技&大数据产品推荐:BIGDAF——专业的Hadoop大数据安全防火墙
后web2.0时代,互联网、物联网每天都在生产大量数据,人们对于这些庞大数据资源的价值渴求,使得“大数据”的概念得以问世。如果说“数据”是支撑未来核心技术的基础“原材料”,那么“大数据”正在演变成一种战略资源,当“用户需求导向”成为企业共识,大数据的收集、挖掘和分析开始支撑企业的业务运转、营销策略乃至战略方向,数据成为企业愈加珍视的宝贵资产。 目前,建设有大数据平台的企业不在少数,对比传统数据库,大数据平台数据大量集中,且蕴含更高价值,其安全建设要求明显更高。然而,由于大数据平台使用非结构化数据库类型,以及
在大数据平台建设初期,安全也许并不是被重点关注的一环。大数据平台的定位主要是服务数据开发人员,提高数据开发效率,提供便捷的开发流程,有效支持数仓建设。大数据平台的用户都是公司内部人员。数据本身的安全性已经由公司层面的网络及物理机房的隔离来得到保证。那么数据平台建设过程中,需要考虑哪些安全性方面的问题?
面对复杂的大数据安全环境,需要从四个层面综合考虑以建立全方位的大数据安全体系:边界安全、访问控制和授权、数据保护、审计和监控。如下图所示:
今天随着移动互联网、物联网、大数据、AI等技术的快速发展,数据已成为所有这些技术背后最重要,也是最具价值的“资产”,同时数据也是每一个商业决策的基石,越来越多的企业选择数字化转型,但数据驱动增长然充满挑战,企业数据孤岛严重、数据一致性难以保证、数据资产沉淀数据分散难以共用、数据分析项目上线经历数月,报表查询响应慢难以应对瞬息万变的市场环境,成本问题在数据量呈指数增长的前提下难以控制,因此在大数据的背景下,如何从海量的超大规模数据中快速获取有价值的信息,已经成为新时代的挑战。
本文已收录于Github仓库:《大数据成神之路》 地址:https://github.com/wangzhiwubigdata/God-Of-BigData
1.Access Controller coprocessor实现的ACL权限控制;
技术最终为业务服务,没必要一定要追求先进性,各个企业应根据自己的实际情况去选择自己的技术路径。 它不一定具有通用性,但从一定程度讲,这个架构可能比BAT的架构更适应大多数企业的情况,毕竟,大多数企业,数据没到那个份上,也不可能完全自研,商业和开源的结合可能更好一点,权当抛砖引玉。 大数据平台架构的层次划分没啥标准,以前笔者曾经做过大数据应用规划,也是非常纠结,因为应用的分类也是横纵交错,后来还是觉得体现一个“能用”原则,清晰且容易理解,能指导建设,这里将大数据平台划分为“五横一纵”。
大数据已不再是一个单纯的热门词汇了,随着技术的发展大数据已在企业、政府、金融、医疗、电信等领域得到了广泛的部署和应用,并通过持续不断的发展,大数据也已在各领域产生了明显的应用价值。 企业已开始热衷于利用大数据技术收集和存储海量数据,并对其进行分析。企业所收集的数据量也呈指数级增长,包括交易数据、位置数据、用户交互数据、物流数据、供应链数据、企业经营数据、硬件监控数据、应用日志数据等。由于这些海量数据中包含大量企业或个人的敏感信息,数据安全和隐私保护的问题逐渐突显出来。而这些问题由于大数据的三大主要特性而
笔者认为数据中台不应该是一个单纯的系统或者是一个软件工具,而应该是一套架构、一套数据流转模式。
在业务增涨过程中,每个企业不知不觉积累积累了一些数据。无论数据是多是少,企业都希望让“数据说话”,通过对数据的采集、存储、分析、计算最终提供对业务有价值信息。
自建开源大数据平台会随着企业数据的增长遇到:性能慢、扩容周期长、平台稳定性差、运维难、投入成本高等问题。在这里我们将从 EMR 的简介、EMR与自建Hadoop对比优势、自建迁移上云的实践案例来介绍 EMR 是如何解决这些问题的。
作者 | 宋文欣 以 Hadoop 为中心的大数据生态系统从 2006 年开源以来,一直是大部分公司构建大数据平台的选择,但这种传统选择随着人们的深入使用,出现的问题也越来越多,比如:数据开发迭代速度不够快、集群资源利用效率过低、新的开发工具集成非常复杂等。这些问题已经成为困扰企业数字化转型加速迭代和升级的主要障碍。 而传统大数据平台通常是以 Hadoop 为中心的大数据生态技术。一个 Hadoop 集群包含 HDFS 分布式文件系统和以 Yarn 为调度系统的 MapReduce 计算框架。围绕 H
吴怡燃, 京东大数据平台高级技术专家,擅长大数据平台的资源管理与调度系统的开发与建设。目前专注于以万台分布式调度系统及深度学习平台的开发与建设。
做大数据有几年了,这些年耳濡目染了一些大数据管理平台的使用,但是或多或少使用起来,都不怎么方便,所以决定自己来实现一个简单的大数据平台
本文介绍了大数据分析平台在电网公司中的应用场景、分析模型和主要功能,通过具体案例展示了如何通过大数据分析技术提升电网公司的业务效率和智能化水平。
上篇文章《漫谈大数据平台架构》(阅读原文查看)大家应该对大数据平台有了一个整体架构上的理解和认识,作为姊妹篇,本篇着重讲解大数据平台安全风险与建设。
大数据平台的基本功能和数据的导入导出对SQL任务、NoSQL任务、机器学习、批处理任务的支持
9月9日,由腾讯安全联合北京城市大数据研究院有限公司、中安威士(北京)科技有限公司、闪捷信息科技有限公司、北京三未信安科技有限公司、杭州世平信息科技有限公司等生态合作伙伴,共同举办的《政务大数据平台数据安全体系建设指南》(以下简称《指南》)发布会在线上举办。
在大数据平台中,有海量数据存储,通畅在采集数据过程中敏感数据有意或者无意的进入大数据平台中,数据安全管理非常重要。我们不希望一些敏感数据被他人访问,希望可以按照一种规则给部分人访问权限,以防止数据泄露,针对数据安全管理可以使用Apache Ranger实现。
现在各种新名词层出不穷,顶层的有数字城市、智慧地球、智慧城市、城市大脑;企业层面的有数字化转型、互联网经济,数字经济、数字平台; 平台层面的有物联网,云计算,大数据,5G,人工智能,机器智能,深度学习,知识图谱;技术层面的有数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等,总之是你方唱罢他登场,各种概念满天飞…
Kafka 是当下热门的消息队列中间件,它可以实时地处理海量数据,具备高吞吐、低延时等特性及可靠的消息异步传递机制,可以很好地解决不同系统间数据的交流和传递问题。
诺亚控股有限公司以“诺亚财富”为品牌,源起于中国,是首家在港美两地上市的中国独立财富管理机构,首家开创了财富管理和资产管理的双轮驱动业务模式,同时也是国内首家获得标准普尔“投资级”评级的财富管理公司,公司业务涵盖财富管理、资产管理和其他业务。诺亚数据智能部门负责公司大数据体系框架建设,主要工作是支撑日常的BI分析,数据看板,人群画像,自助分析等场景。
大数据在政务当中的应用对于提高问题解决的效率可谓大有帮助,但政务大数据平台的应用开发远不止提高问题解决效率这么简单。当然,作为大数据平台应用的开发者来说,我们要做的是还是从底层的技术层面做好解决方案。关于政务大数据平台的解决方案此前有分享过智慧人社的和城市智慧停车的大数据平台解决方案,本篇给大家分享一个新的政务大数据平台管理案例——大快搜索的城市数据运河政务大数据管理运营平台。
本篇内容将通过三个部分来介绍工商银行实时大数据平台建设历程及展望。 一、工行实时大数据平台建设历程 二、工行实时大数据平台建设思路 三、展望
随着信息技术发展,教育领域中的学习方式、教学模式、教学内容均已发生重大变革,以云计算、人工智能、物联网、大数据等技术的结合,“智慧教育”的需求也变的紧迫,需要围绕“智慧教育”而产生的产品和解决方案也在迅猛发展。
腾讯业务产品线众多,拥有海量的活跃用户,每天线上产生的数据超乎想象,必然会成为数据大户,为了保证公司各业务产品能够使用更丰富优质的数据服务,腾讯的大数据平台做了那些工作?具备哪些能力?记者采访到了腾讯数据平台总经理蒋杰先生,他将给大家揭秘腾讯的大数据平台! 建设专业数据平台、持续提升处理能力、贴身满足业务需求、挖掘创造数据价值———蒋杰(腾讯大数据团队使命) CSDN: 首先还是请蒋总介绍一下自己和你的职业生涯。 蒋杰:我是蒋杰,目前是腾讯数据平台部的负责人。我的第一份工作其实并非在互联网行业,而是在传
自助分析平台是构建在大数据平台之上的,依托于大数据平台的数据研发能力,通过统一的数据服务,实现对数据查询、分析的统一管理,为企业业务分析提供高效的数据决策支持,同时也避免数据工程师陷入繁杂的提数需求中。自助分析平台是有计算机基础的业务人员能够快速上手的前端产品,既要有大数据的处理性能,有需要有简单好用的可视化分析能力,只有让业务人员能够快速掌握使用方法,和公司的业务结合起来,自助分析平台才有价值。其实,一直以来,各大公司的数据分析平台都只有一个目标——干掉Excel。
TSINGSEE青犀视频开发的国标GB28181协议视频智能分析平台EasyGBS已经兼容了采集-存储-展示-告警这四大模块的内容处理,能够为大数据平台的搭建提供视频能力上的支持。EasyGBS并不依赖于特定的大数据平台,可以灵活接入不同的大数据平台并且支持第三方系统直接从消息队列中消费数据做进一步的二次系统开发。
大部分电商大数据平台系统企业在实践项目的时候,并不会把大部分主力资源将品牌能力沉淀成自身的产品和平台,例如很多可以实现共用的大数据服务没有实现真正意义上的服务化、产品化,以致于很多产品总是在执行重复的动作。我们知道目前的大数据中台系统技术带来的不仅仅是数据量的火箭式增长,更重要的是利于大数据网站系统管理能力提升,所以传统的大数据平台建设已经无法满足用户需求。数据中台系统架构体量、产业规模以及云计算高速发展轻松降低基础设施成本,进一步创造企业盈利是大数据平台所关心的重点问题。通过本文我们来简单了解下:企业为什么要搭建大数据中台系统,什么叫大数据中台架构,数据中台系统架构基本构成和如何提升电商大数据平台功能管理。
*本文原创作者:mcvoodoo,本文属FreeBuf原创奖励计划,转载请联系help@freebuf.com 随着大数据的发展,从银行到P2P再到保险、证券等,越来越多的金融企业开始建设自己的大数据平台。传统上对于数据的管理,金融界是有经验的。 但在当前以Hadoop为基础的大数据平台,接触数据的人更多,数据使用的更频繁,数据的内外交互实时,数据种类更复杂,对安全带来了更严峻的挑战。 从金融业态上来说,包括征信、消费金融、P2P、众筹、互联网银行、互联网保险等金融企业,都会需要大数据平台来支撑业务需要。
4月12日,在腾讯分享日的大数据分论坛上,腾讯首次对外展现了自己的大数据平台,受到外界的普遍关注,后续,我们将持续为大家分享腾讯大数据的方方面面。本篇为综述篇,针对整体情况做概要性的介绍,后续将会有更详细的离线计算、实时计算、数据实时采集以及大数据应用产品等系列文章输出,绝对干货,敬请期待。 腾讯业务产品线众多,拥有海量的活跃用户,每天线上产生的数据超乎想象,必然会成为数据大户。特别是随着传统业务增长放缓,以及移动互联网时代的精细化运营,对于大数据分析和挖掘的重视程度高于以往任何时
据统计表明,全球的数据量每过两年翻一番,不知道什么时候开始,“大数据”已经成了我们经常挂在嘴边的词。随着大数据时代的来临,数据无疑是企业和用户最为重要和宝贵的数字资产,那么安全体系的建设尤为重要和关键,而其中数据安全和隐私保护则是安全体系的重中之重。
引言: 大数据时代,业界各巨头都在投入重兵打造自己的大数据平台,分析挖掘蕴藏在数据金矿中的价值。在腾讯,数平承建了公司级大数据平台,我们的测试团队也有幸一起搭上了大数据的航母。这是一种机遇,更是一种挑战。因为大数据平台的技术复杂度、机器规模、容量、发展速度等都远非传统的后台系统可比,以前积累的测试方法和建设的工具平台很多并不适用于大数据测试,业界也没有很成熟的方法可以借鉴。这就需要我们在测试思路和方法上主动探索、大胆创新,过程中难免有弯路和挫折,但我们的成长和收获更多。 本文旨在介绍测试团队
移动互联时代大浪淘沙,「数据」亦主沉浮。各家公司在追逐产品不断完善的同时,也都在累积各自的用户数据反哺产品。而随着数据的不断累积庞大也容易带来一些难以用老旧方法解决的问题,这些问题驱使着企业的大数据体系迭代演进,也再次把「大数据技术」推向高潮。
image.png 大数据,这个词越来越热,很多人都在谈大数据,其实很多张口闭口大数据的人,或许都不知道数据是如何产生、传递、存储、运算到应用的。其实我一直感觉大数据这个东西有时候真的不是一般企业可以玩的溜的,特别是随着传统业务增长放缓,以及移动互联网时代的精细化运营,对于大数据分析和挖掘的重视程度高于以往任何时候,如何从大数据中获取高价值,已经成为大家关心的焦点问题。 腾讯业务产品线众多,拥有海量的活跃用户,每天线上产生的数据超乎想象,必然会成为数据大户,为了保证公司各业务产品能够使用更丰富优质的数据
我们公司主要从事平台技术开发和建设方面,工作的重点方向主要在解决用户在数据治理中的各种问题,让用户能更高效地管理自己的数据,进而产生更大的价值,比如如何整合现有功能流程,节省用户使用成本;增加新平台不断调研,丰富平台功能;新平台功能、性能改造,从而满足用户大规模使用需求;根据业务实际需求,输出相应的解决方案等。今天分享的内容主要是从数据库内核到大数据平台底层技术开发,分享网易数据科学中心多年的大数据建设经验。
1,大数据平台——是指服务于大数据计算或存储的平台,包括大数据的计算集群(hive、spark、flink、storm等等)和存储集群(如hadoop、hbase等等)。 2,大数据平台涉及的元数据——由大数据作业的业务逻辑直接读写处理的业务数据,都不是元数据,除此之外的数据都是元数据。例如数据表的schema信息、任务之间的血缘关系、任务的权限映射关系、数据的业务属性、数据占用的磁盘空间等等。
数据猿导读 恒丰银行针对商业银行在风险、营销、科技运维、内控管理方面对实时数据处理能力的需求,基于实时流处理相关技术,构建全行统一的实时流处理平台,有力支撑了相关应用的建设,取得了良好的经济效益和社会效益。 📷 本篇案例为数据猿推出的大型“金融大数据主题策划”活动(查看详情)第一部分的系列案例/征文;感谢 恒丰银行 的投递 作为整体活动的第二部分,2017年6月29日,由数据猿主办,上海金融行业信息协会、互联网普惠金融研究院联合主办,中国信息通信研究院、大数据发展促进委员会、上海大数据联盟
电力大数据平台拥有数据采集、数据存储、数据加工处理、数据分析挖掘、数据管控、平台管控、安装部署等功能,但是平台在组件融合、权限控制、对外接口封装等方面还存在不足, 不能够满足企业未来不同类型的大数据应用。
自我介绍下,我是微众银行大数据平台的工程师:周可,今天给大家分享一下 Nebula Graph 在微众银行 WeDataSphere 的实践情况。
领取专属 10元无门槛券
手把手带您无忧上云