作者:Rosaria Silipo翻译:尤杨校对:赵茹萱 本文约2600字,建议阅读10分钟最好的数据科学家将不再是能更快地编写代码的人,而是能更好地指导数据科学项目的组装。
标签:人工智能、低代码、数据科学、Editors Pick、Knime
在过去六个月中,我无数次听到了这样的问题:“数据科学已经死了吗?”
Hal Gatewood在 Unsplash的照片
现在有了人工智能,是否仍然值得训练自己的机器学习模型? 现在有了人工智能,是否仍然值得学习Python? 现在有了人工智能,KNIME还有生意吗? 现在有了人工智能,是否仍然需要数据科学?或者我们应该宣布它已经死了? 现在有了人工智能,我们是否仍然需要数据科学家?
我还想在这长串问题中加上我的个人疑问:现在有了人工智能,我们是否仍然需要平面设计师?
这些问题都很好,只是有点戏剧化。
1. 生成式人工智能已经成熟
你可以要求生成式人工智能生成一个图像等,然后它就会生成。你可能不喜欢,你可以对其进行调整,但它会生成。或者你可以要求生成式人工智能围绕主题 X 写一首诗,然后它就会生成。专业诗人可能不喜欢,但对于在朋友间晚餐上的诗歌比赛来说,它已经足够好了。你还可以要求它给圣诞老人写一封信,或者写一封关于产品 Y 不起作用的投诉信。在这两种情况下,它都会成功。
图 1. 使用LLMs和人工智能节点创建一个对话agent并与之交互的KNIME工作流。
是的,GenAI可以生成文字或图像,完全可以胜任日常任务。但是,它足够专业吗?它能写一本有意义的书或一个电影的情节吗?如果你准确地告诉它要写什么,如何展开,它也许可以;但对于真正的专业工作来说,它可能还不够好。不过,它可能正适合那些不太专业的人。
2. AI可以编写Python代码
人工智能几乎可以完美地编写Python代码。这难道不奇妙吗?编码的时间少了,我们就有更多的时间来思考该实现什么。
你读过Dennis Ganzaroli关于1812年拿破仑在俄罗斯战役中的Minard图表的帖子吗(https://medium.com/low-code-for-advanced-data-science/recreating-minards-greatest-ever-chart-with-knime-s-k-ai-and-python-f75e86117e51)?好吧,他有了数据,并决定通过KNIME分析平台(https://www.knime.com/knime-analytics-platform?utm_source=medium&utm_medium=organic&utm_term=Roberto&utm_content=blog&utm_campaign=com_journal)提供的 Python 节点用Python将其可视化。
从5.1版本开始,KNIME分析平台在其框架中集成了一些Gen Al功能,也被称为KNIME Al或简称K-Al。特别是所有的Python节点,都在配置对话框中提供了一个K-Al聊天机器人,工作流构建者可以在这里咨询如何编写他需要的特定Python代码。
Dennis基本上是在和K-人工智能闲聊,要求它写出可视化Minard数据的Python代码。虽然第一次尝试并不令人满意,但他不断地通过K-人工智能的进一步建议进行改进,并将其包含在草稿代码中。在这里,K-人工智能 —— KNIME的人工智能代理完全没有借助Dennis编写Python代码的能力,而完成了所有工作,。
注意。请记住,K-人工智能是KNIME的扩展,必须在安装KNIME Analytics Platform Core后单独安装。还请记住,要能够查询K-人工智能,您需要使用KNIME Community Hub上的免费账户登录。
图2. K-人工智能在 KNIME分析平台中 Python 节点配置对话框中的实际应用。
3. 人工智能可以创建 KNIME 工作流
K-人工智能可以创建 KNIME 工作流。
图3. K-人工智能 在 KNIME分析平台中的运行示例。请注意顶部的“Q&A”和“Build”模式。
自从5.1版以来,KNIME分析平台在其框架中集成了一些Gen 人工智能 功能,称为 K-人工智能,以帮助用户构建工作流。如果已安装了 K-人工智能 扩展,在KNIME分析平台工作台左侧从顶部数起的第四个选项卡将导航至 K-人工智能 聊天区域。在这里,用户可以与 K-人工智能 进行交流以获得建议(“Q&A”选项)或构建工作流(“Build”选项)。Vittorio Haardt 的这篇文章(https://www.knime.com/blog/use-ai-to-automate-spreadsheet-work/)教你什么是 LLMs,以及 K-人工智能 如何在组装工作流中帮你节省时间。
K-Al在构建KNIME工作流方面不如编写Python代码那么专业,但它的工作流构建技能正在快速提高,一个版本接着一个版本。
4. 数据科学家还能做什么?
所有这些新的人工智能功能听起来有点令人不知所措,让我们想知道我们还有什么事情可以做。特别是作为数据科学家、模型训练者、Python 程序员、KNIME 工作流构建者,我们还剩下什么事情要做呢?
首先,人工智能能够但不会自己构建事物,不会训练模型,不会编写 Python 脚本,也不会构建 KNIME 工作流。它需要被告知要做什么和如何做。在 Dennis Ganzaroli 的文章(https://medium.com/low-code-for-advanced-data-science/recreating-minards-greatest-ever-chart-with-knime-s-k-ai-and-python-f75e86117e51)中,作者必须提出任务,然后不断进行改进,直到结果符合预期。即使在使用人工智能作为支持时,项目所有者仍然需要在后续步骤中描述整个过程:要构建什么、如何构建、从哪些数据中构建等等。
其次,人工智能不会检查正确性。评估人工智能提供的结果是否正确不是其任务的一部分。人工智能仍然需要专家进行正确性检查:对数据科学的正确性和业务合理性进行检查。为此,我们需要一位熟练的终端用户,他知道必须实现什么以及如何实现。
如果结果不正确或不符合提示的任务,最终用户需要通过更好的提示进行改进,或者手动添加缺失的部分。这就直接引出了第三点:Al模型的微调。现在出现了微调人工智能模型的新趋势。为此,你绝对需要数据科学家。
继续讨论由人工智能生成的图像与平面设计师的相似性,人工智能可以生成各种图像。然而,只有平面设计师最终可以验证图像质量并在需要时提供帮助改进。最近,我看到了太多丑陋的图像,当人们告诉我这些图像是 Al 生成的时候,它们并没有得到改善。能用 Al 生成图像并不能使你成为一名图形设计师,而能够纠正和改进它们才是。
5. 我们还需要数据科学家吗?
根据以上所有内容,我们不再需要纯粹的实施者。特别是对于基本任务,人工智能会变得越来越好,会使纯实施者的需求减少。然而,我们仍然需要了解数据科学过程及其数学要求、知道如何纠正和引导人工智能努力方向并且知道如何解释人工智能生成结果的专业人士。实际上,我们正在从创建、训练模型转向消费和完善它们。
简而言之,我们仍然需要数据科学家。不过,在未来,这个角色可能会发生变化。它将更加关注算法和数据科学过程,而不是编程。在此基础上,低代码工具将使整个过程的实现变得更加平易近人和更快速。我们将需要更多掌握算法数学、善于沟通并擅长引导和纠正人工智能以达到期望结果的综合型数据科学家。
6. 数据科学是否已经死了?
最好的数据科学家将不再是能更快地编写代码的人,而是能更好地指导数据科学项目的组装,同时考虑数据整合、数据质量、数据历史、机器学习算法、结果解释和过程的正确性。
我们会需要更多的通才吗?可能,在数据科学项目的初始阶段,我们会需要更多的通才来更多地从事流程工作。然而,我们仍然需要专家级的数据科学家来审查和纠正人工智能输出。就像平面设计师一样,数据科学家将利用人工智能提供的解决方案更快地实现,但仍然需要保持警惕,确保人工智能提供的解决方案的质量。