数据科学家会失业吗?
本文最初发表在 InfoWorld,经 InfoWorld 授权,InfoQ 中文站翻译并分享。
AutoML 正在准备把开发人员变成数据科学家,反之亦然。本文阐述了 AutoML 将如何从根本上改进数据科学,使之变得更好。
我们所知的数据科学家的角色在下一个十年将与现在有很大的不同,但是别担心,没有人预测数据科学家会失业,他们只不过是换了工作而已。
数据科学家们不会有问题的:据美国劳工统计局(Bureau of Labor Statistics,BLS)的数据显示,到 2029 年,这一角色仍将以高于平均水平的速度增长。但是,技术的进步将使数据科学家的职责以及商业分析的整体方式发生重大变化。而AutoML 工具将引领这场革命,它将帮助机器学习管道从原始数据到可用模型实现自动化。
十年后,数据科学家将会拥有完全不同的技能和工具,但是他们的作用仍然保持不变:他们作为有信心、有能力的技术指导者,能够理解复杂的数据以解决问题。
直到最近,机器学习算法和过程几乎完全是更传统的数据科学角色的领域:那些受过正规教育、拥有高等学历,或者在大型科技公司工作的人。在机器学习开发领域的每个环节,数据科学家都扮演着重要的角色。
但是,随着时间的推移,他们的角色将变得更具协作性和战略性。有了像 AutoML 这样的工具,数据科学家能够集中精力指导组织通过数据来解决业务问题,从而实现一些更学术的技能自动化。
从许多方面来说,这是因为 AutoML 使机器学习付诸实践的努力民主化了。不同的供应商,从初创企业到云计算超大型公司,都推出了足够容易的解决方案,让开发者可以使用和实验,并且没有很大的教育或经验障碍。
类似的,一些 AutoML 应用程序也非常直观和简单,非技术人员可以尝试为自己部门中的问题创建解决方案,从而在本组织内部创造出各种各样的“公民数据科学家”。
要探究这些类型的工具为开发人员和数据科学家解锁新技能的可能性,我们首先要了解数据科学的现状,因为它与机器学习开发有关。如果将它放在一个成熟度的尺度上来看,是最容易理解的。
规模较小的组织和企业,其负责数字化转型的角色比较传统(即没有受过传统训练的数据科学家),通常属于这种规模的这一端。目前,他们是开箱即用的机器学习应用的最大客户,而这些应用更多的是面向那些不熟悉机器学习复杂性的受众。
这些应用程序的示例包括 Amazon Web Services 的 Amazon Comprehend、Amazon Lex 和 Amazon Forecast,以及 Microsoft Azure 的 Azure Speech Services 和 Azure Language Understanding(LUIS)。这些工具通常足以让萌芽中的数据科学家迈出机器学习的第一步,并引导他们的组织进一步走向成熟。
拥有大型但相对常见的数据集的组织——想想客户交易数据或营销电子邮件指标——在使用机器学习解决问题时需要更多的灵活性。使用 AutoML 吧。AutoML 将手动进行机器学习工作流程的步骤(数据发现、探索性数据分析、超参数调整等)浓缩成一个可配置的栈中。
这些应用程序的例子包括Amazon SageMaker AutoPilot或Google Cloud AutoML。十年后的数据科学家无疑需要熟悉这些工具。就像一个精通多种编程语言的开发人员一样,数据科学家也需要精通多种 AutoML 环境,才能被视为顶尖人才。
最大的企业规模的企业和财富 500 强企业是目前开发大多数先进和专有的机器学习应用的地方。这些组织中的数据科学家是大型团队的一部分,他们利用大量的公司历史数据完善机器学习算法,并从头开始构建这些应用程序。像这样的定制应用只有在拥有相当多的资源和人才的情况下才有可能实现,这也是为什么回报和风险如此之大的原因。
手动式机器学习解决方案的一个例子是,从一个空白的 Jupyter Notebook 开始,手动导入数据,然后手动进行从探索性数据分析到模型调整的每一步。这通常是通过使用Scikit-learn、TensorFlow、PyTorch等开源机器学习框架编写自定义代码来实现的。这种方法需要高度的经验和直觉,但可以产生的结果往往比交钥匙的机器学习服务和 AutoML 都要好。
像 AutoML 这样的工具将在未来 10 年改变数据科学的角色和责任。AutoML 承担了数据科学家从头开始开发机器学习的重担,而是将机器学习技术的可能性直接交到其他问题解决者手中。有了腾出的时间专注于他们所知道的——数据和输入本身——十年后,数据科学家将为他们的组织提供更有价值的指导。
作者介绍:
Eric Miller 在 Rackspace 担任技术战略高级总监,他在 Amazon Partner Network(APN,Amazon 合作伙伴网络)生态系统的实践构建方面拥有良好的业绩记录。作为一名在企业 IT 领域拥有 20 年成功经验的技术领导者,Eric 领导了多项 AWS 和解决方案架构项目,包括 AWS Well Architected Framework(WAF)评估合作伙伴计划、适用于 Windows Server 的 Amazon EC2 AWS 服务交付计划,以及为数十亿美元的组织进行各种 AWS 重写。
原文链接:
https://www.infoworld.com/article/3596894/todays-data-science-roles-wont-exist-in-10-years.htm
领取专属 10元无门槛券
私享最新 技术干货