Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数据工程师的没落

数据工程师的没落

作者头像
大数据文摘
发布于 2018-05-24 09:05:18
发布于 2018-05-24 09:05:18
7450
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘作品

作者:Maxime Beauchemin

编译:阮雪妮,笪洁琼,Aileen

这个行业的辛酸,也许只有数据工程师们自己能懂。

本文是几个月前大数据文摘推送的一篇文章《数据工程师的崛起》的后续 。那是最近一篇尝试定义数据工程和描述数据工程师这一新职位与数据科学领域以往和现在的职位之间的联系的文章。如果对数据工程师这个职位不了解的读者,可以参考这篇文章《数据科学行业的8个关键角色:职责与技能》了解数据科学行业职责分类。

在这篇文章中我打算揭露使数据工程师寸步难行的挑战和风险,并列举这一领域在经历其“青春期”时所面临的阻力。The downfall of data engineer.

尽管这篇文章的标题有点标题党,内容很悲观,但请牢记,我对数据工程非常有信心——我只是需要一个和我之前的文章对比强烈的标题。理解并揭露这一职位正面临的逆境是寻找解决方案的第一步。

同时提请读者注意的是这里陈述的所有观点都是我个人的,并且是基于我在与很多来自硅谷的数据科学团队的人们交流时所做的了解。这些观点并不是我老板的想法,与我现在的职位也没有之间的联系。

工作内容无聊 & 项目之间内容切换

编写和维护数据抽取、转换和加载(Extract Transform and Load,ETL)真的很无聊。绝大多数ETL工作需要花很长时间来执行,而错误和问题更容易在运行时出现,或是运行后才可以认定。由于开发时间对执行时间的比率较低,要做到高效就要同时周旋于多重管线之间,同时,这也就意味着需要进行大量的内容切换。在你的五个正在运行的“大数据项目”的其中之一完成之前,你不得不恢复到数小时前的大脑状态并设计下一个循环。这些取决于你有多依赖于咖啡因,距离上一个循环已经过了多久,以及你能做有多细致周到,你也许不能成功地在你的短时记忆中恢复全部的上下文语境。这将导致出现愚蠢的系统性错误,又要浪费数小时去纠正。

如果迭代周期之间的空闲时间以小时计算时,你会觉得夜以继日地工作更有效果 :晚上11点半花上5-10分钟的额外工作能够为你明天节约2- 4小时。这就可能会导致工作与生活之间的不平衡,很不健康。

寻求共识

不论你是否认为老派的数据仓库概念正在消逝,达成一致的维度和指标的追求依旧像以往一样具有重要意义。我们中的大部分人依旧能时不时地听到人们说“单一数据源”。数据仓库需要反映商业,而商业应该明确它认为这些分析怎么样。冲突的命名方式和不同命名空间或“数据集市Data Mart”中不一致的数据是有问题的。如果你想在决策支持上建立信任,你至少需要一致性以及准确性。在分析过程中的数据生成方包含数百人的现代大组织中,寻求共识在当下不是完全不可能,不过也是具有挑战性的。

过去人们用贬义词“数据孤岛”来指代与分散在平台上或引用不兼容的异质性分析相关的问题。数据孤岛在项目开始时便自然而然地大量产生,随着收购的进行,团队也不可避免地流动。使用如主数据管理(MDM)、数据集成(data integration)和厉害的数据仓库项目等增强共识的方法来解决这些问题是商业智能(现为数据工程)团队的职责。现如今,在现代快节奏的公司里,孤岛问题疯狂地不成比例增长。在这里你可以用“暗物质”这个词来描述正在发生的混乱的扩张后果。随着大量不那么合格的人们参与进来,管道网将很快变得混乱、不一致,并成为一种浪费。如果数据工程师是“数据仓库的图书管理员”,他们可能会觉得他们的工作就像在一个巨大的回收厂里分类出版物。

在仪表盘的生命周期以周计算的世界里,共识成为了几乎赶不上商业焦点的改变和切换速度的后台进程。传统主义者建议创立一个数据管理制和所有制的项目,但在特定的规模和速度下,这些努力只是一种微薄的力量,并不能与正在发生的扩张相匹配。

变革管理

由于有用的数据集被广泛使用,并且是通过会导致庞大复杂的有向非循环图(DAGs)的方法获得的,变化的逻辑或源数据可能会打破下游结构,和/或使其变得无效。下游结点比如派生数据集、报告、仪表盘、服务项目和机器学习模型便可能需要被改变来反映上游的变化。通常来说,数据传输线附近的元数据是不完整的或被掩藏在代码中,只有极少数人有能力耐心阅读。上游的变化将不可避免地以错综复杂的方式打破下游实体或使其无效。取决于你的机构如何权衡稳定性与精确性,这种变化可能是十分可怕的,并可能导致管道堵塞。如果数据工程师的工作目标是稳定性,他们很快就会认识到不打破任何东西的最好方法就是不改变任何东西。

由于管道通常是巨大且昂贵的,适当的单元测试集成测试应当在某种程度上达到均衡。问题在于:利用抽样数据和试运行,你能确认的只有这么多。如果你认为一个单一环境的混乱程度已经超出了你能处理的范畴,那么在使用到了不同的复杂代码和数据的开发和生产环境时,请努力保持理智。凭我个人的经验,在大数据的世界里,很难找到体面地开发或测试环境。在很多情况下,你能找到的最好的就是一些人们用来支持任何他们认为合适但还未公开的进程的空间“沙盒(Sandbox)”。

数据工程已经错过了“devops运动”这只大船。devops是一种重视“软件开发人员(Dev)”和“IT运维技术人员(Ops)”之间沟通合作的文化、运动或惯例。 并且现代工程师很少受益于devops运动带来的理智和安心。他们没登上这艘大船不是因为他们没出现,而是因为船票对于他们的货物来说太昂贵了。

整个团队中最不利的角色

现代团队发展得很快,不管你的机构是工程驱动、项目管理驱动或是设计驱动,也不管它是否把自己想成是数据驱动的,数据工程师并不会起太大的驱动作用。你得把数据工程想成是基础设施的角色,是一种人们认为理所当然的东西。只有当它坏了或者是没有达到人们的预期时,它才会受到人们的关注。

如果团队人员中有数据工程师,他的工作可能是帮助数据科学家和分析师收集他们需要的数据。如果需要的数据不能在数据仓库的结构化部分得到,分析师可能会查找一些原始数据来做出短期的解决方案。此时数据工程师就需要适当地处理数据并最终把这些数据加入仓库中。很多情况下答案必须及时给出,因而当新的维度和指标被填充到数据仓库中时,它们早已是过时的新闻了,所有人都已经忘了这件事儿了。数据分析师会因其洞察力而获得荣誉,而其他所有人都可能会质疑把这一部分新信息并入数据仓库这一缓慢的后台进程是否还有必要。

虽然“冲击/影响力(impact)”——这暗示着速度与改变——是员工在其业绩评估中最希望看到的词,数据工程却被谴责为几乎没有短期影响的缓慢的后台进程。数据工程师离那些能产生积极影响的形象还有些距离。

维护蔓延

维护蔓延(Operational Creep)对那些需要维持他们自己搭建的系统的职业来说是一个残酷的事实。质量监控团队在很大程度上被“你建立的系统你自己维护”的格言取代了,并且这个领域的大部分人都支持这个观点。这被认为是一种能够适当地使工程师意识到累积的技术债务并对其负责的方法。

由于数据工程通常伴随着相当高的维护负担,维护蔓延缓慢这现象出现得很快,并且它整垮工程师的速度比你的招募速度还要快。确实,现代工具使人们变得更高效,但这无疑只是指机器帮助管道建造者能在同时使更多的“飞碟”能旋转起来而已。

此外,维护蔓延蔓延会导致更高的员工流动率,而这最终会导致低质量、不一致且不可维护的混乱。

是否是真正的软件工程师?

这个领域的人们应该听到过关于数据工程师是否是“真正的软件工程师”,或是某种不同类别的工程师的争论。在某些机构中这一职位是不同的,并且可能有不同(更低)的工资级别。随机观测的结果显示,数据工程师中拥有计算机科学学位的比率显著低于整个软件工程领域中拥有计算机科学学位的工程师的比率。

由于本文所述的原因,这一职位的名声可能在恶性循环的传播中变坏。

别急——希望还是有的!

别着急退出。各公司一致认为数据是核心竞争优势,并且他们在数据分析上的投入也比以往更多。“数据成熟度”以一个可预见的曲线形式增长并最终使人们意识到数据工程的极端重要性。在你阅读这篇的文章的同时,成百上千的公司正在他们的长期数据策略上加倍投入并投资于数据工程。这个职位很有活力,且正在发展,并有着美好前景。

随着许多公司在他们的数据的投资回报率(ROI)上停滞不前,同时感受到了“数据运算高峰”的挫败感,创新必然会出现以解决本文所描述的痛点,并最终开创数据工程的新纪元。

也许有人会说未来可能的方向是"去专门化"。如果合适的工具出现,也许简单的任务可交付给信息工作者。也许和品质监控(Q/A)团队经历的一样,软件工程职能将是更复杂的工作任务。同时随着持续输送技术和方法的不断出现,工程师们也会被解放出来。

无论如何,适当的工具和方法能够决定一个职位未来的道路。我有信心它们能够解决。这是这篇文章所表达的担忧的大部分根源。

本文作者正在构思下一篇名为“下一代,数据感知ETL”的博文。在这篇文章中他将提出一个以可达性和可维护性为核心的新框架的构思。这个尚未建造的框架有一系列很强的限制条件,但反过来它也会为达成最好的实现提供很强的保障。敬请期待!

原文链接:https://medium.com/@maximebeauchemin/the-downfall-of-the-data-engineer-5bfb701e5d6b

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-09-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
数据工程师的崛起
大数据文摘作品,转载要求见文末 作者 | Maxime Beauchemin 编译团队 | Yawei Xia,邱猛,赖小娟,张礼俊 2011的时候年我以商业智能工程师的身份加入脸书(Facebook),但在13年离开时我的职位却是数据工程师。这期间我并没有升职也没有被调到一个新职位上,我只是意识到我们的工作已经超越了传统商业智能的范畴,并且我们为自己创造的这个角色属于一个全新的领域。 由于我的团队处在这种转变的最前沿,我们正在培养新的技能、新的做事风格、开发新工具,并基本放弃了旧有的方法。我们是这个领
大数据文摘
2018/05/25
8000
独家 | Zero-ETL, ChatGPT以及数据工程的未来
最近最重要的例子是Snowflake和Databricks,它们颠覆了数据库的概念,开创了现代数据堆栈时代。
数据派THU
2023/08/08
3210
独家 | Zero-ETL, ChatGPT以及数据工程的未来
数据工程师的未来
Apache Airflow 和 Apache Superset 的创建者 Maxime Beauchemin 写了一篇文章讨论数据工程师的未来,其中讲述了他对数据工程师的现状的认知和未来发展的猜测,可供大家参考。
哒呵呵
2021/11/02
6010
新工具爆发式增长,数据工程师的未来在哪?
当前,数据工程是一个令人兴奋的主题,这是有原因的。自出现以来,数据工程领域的发展脚步就从未放缓。新技术和 新概念 最近出现得特别快。2022 年年底就快到了,现在是时候回过头来评估下数据工程当前的状态了。
深度学习与Python
2022/11/28
3380
新工具爆发式增长,数据工程师的未来在哪?
如何构建一个高效的数据科学部门
大数据文摘作品,转载需授权 选文:薛菲 翻译:薛菲,小丛,Aileen,冯丽丽 ◆ ◆ ◆ 译者注 ETL - Extract Transform Load 抽取 转换加载,代表从源数据清洗加工到数据仓库的过程。 这篇文章在Hacker News转载后产生很热烈的讨论,主要是从工程师的角度来看问题,讨论了很多有关人员管理和团队分工等一些很现实的问题。不是所有人都同意文中的观点和解决方案,也有很多人写出了自己的经历来佐证作者的想法。争议主要在于ETL工程师的工作价值以及不同职责间的分工问题。 “您的团队和
大数据文摘
2018/05/24
3810
【数据仓库】现代数据仓库坏了吗?
The modern data warehouse architecture creates problems across many layers. Image courtesy of Chad Sanderson.
架构师研究会
2022/09/26
1.9K0
【数据仓库】现代数据仓库坏了吗?
数据工程师和数据科学家有什么不同
我们最近在Reddit上做了问答活动。有个最常见的问题是数据科学家和数据工程师之间的区别。因此,我们想在这个主题上下写一篇文章来深入探讨下这个话题。
AI研习社
2019/05/13
4100
数据工程师和数据科学家有什么不同
年前干货 | 数据工程师必备的学习资源(附链接)
导读:本文首先详细介绍了数据工程的职责、与数据科学家之间的差别以及其不同的工作角色,然后重点列出了很多与核心技能相关的的优秀学习资源,最后介绍行业内认可度较高的3种数据工程认证。
Python数据科学
2019/07/19
1.1K0
如何区分理解数据科学家与机器学习工程师
数据科学家Vs机器学习工程师 原文: What are machine learning engineers来源: https://tech.co/12-ways-advantage-big-data-2017-05 品觉导读: 真正让“数据科学”发挥出了强大威力的,是在人们意识到,数据不仅止于精算统计、商业智能和数据仓库的时候。将数据人和其他部门(软件开发、营销、管理、人力资源)隔离开来的筒仓被打破后,数据科学才真正彰显出了自己的独特之处。这门学科的中心思想,便是数据适用于万事万物。 在任何应用中
小莹莹
2018/04/24
5920
如何区分理解数据科学家与机器学习工程师
2022年的五个大数据发展趋势
2021年,我们看到围绕现代数据栈的兴起出现了相当大的加速效应。我们现在有一个海啸般的通讯、影响者、投资者、专门的网站、会议和活动来宣扬它。围绕现代数据栈的概念(尽管仍处于早期阶段)与云中数据工具的爆炸性增长紧密相连。云计算带来了一种新的基础设施模式,它将帮助我们快速地、程序化地、按需地建立这些数据栈,使用像Kubernetes这样的云原生技术、像Terraform这样的基础设施即代码以及DevOps的云计算最佳实践。因此,基础设施成为构建和实施现代数据栈的一个关键因素。
大数据老哥
2022/02/17
8050
2022年的五个大数据发展趋势
身为一名数据科学家“过来人”,我为什么更建议你去做软件工程师
在数据最火的时候,数据科学家被称为21世纪最性感的工作,一时进入了全民数据科学的时代。数据科学的价值虽然有目共睹,但不是每个公司都有条件来实现数据驱动的商业愿景,每个公司的数据基础设施水平层次不齐,有些远达不到数据科学家可以大展拳脚的水平。
大数据文摘
2020/05/19
3840
身为一名数据科学家“过来人”,我为什么更建议你去做软件工程师
80%的 AI 项目将因数据工程师太少而失败!
近期,一份来自RAND研究机构的报告引发了业界广泛关注:高达80%的AI项目以失败告终,这个比例整整是普通IT项目失败率的两倍。
ToB行业头条
2025/01/20
1570
80%的 AI 项目将因数据工程师太少而失败!
开发 | 一张图看懂数据科学家、数据工程师和软件工程师之间的区别
大家都知道,这三种角色各有不同定位,也知道他们之间有许多一致的地方,但是否能讲明白这其中的区别呢? 国外 ETL 服务商 Stitch 的 CEO Jake Stein,近日对这个话题进行了总结。他还绘制了一张工具图,来呈现他们在日常工具使用上的不同。对于新手,也可以通过这张图来看典型的“数据科学家”、“数据工程师”和“软件工程师”都要掌握哪些工具。 Jake Stein:随着数据的爆炸式增长,对数据处理的专家技能需求也随之井喷。这带来的结果之一,是更精细的分工。对于数据管理工作的核心角色:数据科学家、数据
AI科技评论
2018/03/12
1.5K0
开发 | 一张图看懂数据科学家、数据工程师和软件工程师之间的区别
数据科学家、数据分析师、数据挖掘工程师、数据工程师,你分的清楚吗?
数据科学家(Data scientist)的叫法来自国外,广义上它是对从事数据分析和数据挖掘从业人员的一个泛称,它只是一个头衔,并不是一个职位。狭义上,数据科学家一般是指行业里面的领军人物和顶尖科学人才,如百度前首席数据科学家吴恩达。 在人才市场上我们通常可以看到的是后三个职位(数据分析师、数据挖掘工程师、数据工程师),接下里我们就区分一下这几个职位的相同点和不同点。首先看下企业对这三个职位的要求和描述。 职位和能力 下面是阿里对这3个职位的要求和描述: 数据分析师 岗位描述: 1、独立负责业务数
小莹莹
2018/04/19
2.1K0
数据科学家、数据分析师、数据挖掘工程师、数据工程师,你分的清楚吗?
小白上路?工程师转型?应届毕业生?三种“圈外人”的数据科学入行指南
本文作者深受其害,这些繁多的资料使得不少有抱负的准数据科学家很困惑,到底如何分配时间到他们想进入的领域。
大数据文摘
2018/12/27
4500
数据科学家、机器学习工程师与普通的软件工程师有什么不同
揭秘机器学习工程师 一个致力于创造数据产品,运用数据科学于生产的新兴职业 作者: Ben Lorica & Mike Loukides 译者: 何冰心 近十年来,“数据科学”和“数据科学家”备受争论。对于哪些人可以被称为是“数据科学家”,争论不休,我们最后达成一致:只要取得数据科学相关学位、认证的研究数据的,不论是在大学还是从在线课程,我们都称之为数据科学家。统计数据是枯燥单一的,是非自然的,只有各种各样的数据才使得世界丰富多彩。那么,如何去分析多样的数据呢?数据科学家便应需求而生。 数据科学领域飞速发展
用户1737318
2018/07/20
9120
再谈谈工程师
昨天去参加了一个公司内的 expo,大致就是以团队为单位组织起来,做广告,招呼各种工程师去看,有团队介绍,产品介绍,技术介绍;有披萨、啤酒和零食;也有一些填方格的活动供参与和纪念衫可以领取。我们组也大张旗鼓地伴着各种搞笑的口号和宣传材料上阵了。挺有趣的一件事情,也是很有工程师文化的事情。
四火
2022/07/19
2710
数据科学家VS数据工程师,真的是一山不容二虎?
原作者 Karlijn Willems 编译 CDA 编译团队 本文为 CDA 数据分析师原创作品,转载需授权 数据科学是一个蓬勃发展的产业,相关大数据的职业也成为热门,给人才发展带来带来了很多机会。
CDA数据分析师
2018/02/26
7550
数据科学家VS数据工程师,真的是一山不容二虎?
过去我们把CRISP-DM的经念歪了
多年以来我参与实施了多个数据仓库、企业报表、管理驾驶舱、数据治理等数据类型的项目,一直以来数据领域都是传统的套装软件,中心化的数据管理占据主导,但是从2014年的大数据规划项目至今,我发现世界不一样了。
凯哥
2020/01/17
7770
过去我们把CRISP-DM的经念歪了
【数据架构】数据网格与 Data Fabric:了解差异
Data Mesh Vs. Data Fabric: Understanding the Differences
架构师研究会
2022/07/29
7020
【数据架构】数据网格与 Data Fabric:了解差异
推荐阅读
相关推荐
数据工程师的崛起
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档