首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【干货】作为数据专业人士,我们真正需要什么,AI 又如何提供帮助

【干货】作为数据专业人士,我们真正需要什么,AI 又如何提供帮助

作者头像
万能数据的小草
发布2025-06-12 11:44:14
发布2025-06-12 11:44:14
760
举报
文章被收录于专栏:万能的小草万能的小草

万能搜短剧

生命不息,运动不止,做个爱折腾的人吧!持续探索新事物

420篇原创内容

公众号

以下是译后的 Markdown 内容:

作为数据专业人士,我们真正需要什么,AI 又如何提供帮助

在之前的文章中,我探索并比较了许多 AI 工具,例如 Google 的数据科学代理、ChatGPT 与 Claude 与 Gemini 在数据分析中的对比、DeepSeek V3 等等。然而,这仅仅是可用于数据科学的 AI 工具的一个小部分。仅举我在工作中使用的一些例子:

  • OpenAI API:我用它来对客户反馈进行分类和总结,并找出产品痛点(参见我的教程文章)。
  • ChatGPT 和 Gemini:它们帮助我起草 Slack 消息和电子邮件,撰写分析报告,甚至撰写绩效评估。
  • Glean AI:我使用 Glean AI 快速查找内部文档和通信中的答案。
  • Cursor 和 Copilot:我喜欢按下 Tab 键快速自动完成代码和注释。
  • Hex Magic:我在工作中使用 Hex 进行协作数据笔记本。他们还提供了一个名为 Hex Magic 的功能,通过对话式 AI 编写代码和修复错误。
  • Snowflake Cortex:Cortex AI 允许用户调用 LLM 端点,使用 Snowflake 中的数据构建 RAG 和文本到 SQL 服务。

我相信你可以在此基础上列出更多工具,而且每天都有新的 AI 工具推出。目前几乎不可能获得一份完整的清单。因此,在本文中,我想退一步,专注于一个更大的问题:作为数据专业人士,我们真正需要什么,AI 又如何提供帮助

在下面的部分中,我将重点关注两个主要方向——消除低价值任务和加速高价值工作。

由 ChatGPT 生成的图像
由 ChatGPT 生成的图像

由 ChatGPT 生成的图像

1. 消除低价值任务

我成为一名数据科学家是因为我真正喜欢从复杂的数据中发现商业洞察,并推动商业决策。然而,在这个行业工作了七年多之后,我不得不承认,并非所有工作都像我所希望的那样令人兴奋。在进行高级分析或构建机器学习模型之前,不可避免地有许多低价值的工作流程——在许多情况下,这是因为我们没有合适的工具来为利益相关者提供自助分析。让我们看看当前的状态和理想状态:

当前状态:我们充当数据解释者和守门人(有时是“SQL 猴子”)

  • 简单的数据提取请求每周都会通过 Slack 发给我和我的团队,例如:“上个月的 GMV 是多少?”“你能提取出符合这些标准的客户名单吗?”“你能帮我填写我明天要展示的幻灯片中的这个数字吗?”
  • BI 工具并不支持自助用例。我们采用了 Looker 和 Tableau 等 BI 工具,以便利益相关者可以轻松地探索数据并监控指标。但现实情况是,简单性和自助性之间总是存在权衡。有时我们会让仪表板易于理解,只包含几个指标,但它们只能满足少数用例。与此同时,如果我们让工具具有高度可定制性,能够自由探索指标和底层数据,利益相关者可能会觉得该工具令人困惑,缺乏使用它的信心,最坏的情况下,数据被错误地提取和解释。
  • 文档稀少或过时。这是一种常见的情况,但可能是由不同原因造成的——也许我们行动迅速,专注于交付结果,或者没有建立良好的数据文档和治理政策。因此,部落知识成为数据团队以外人员使用数据的瓶颈。

理想状态:赋能利益相关者自助服务,以减少低价值工作

  • 利益相关者可以轻松且自信地进行简单的数据提取并回答基本数据问题。
  • 数据团队花费较少的时间在重复性报告或一次性基础查询上。
  • 仪表板易于发现、解释和采取行动,无需手把手指导。

那么,为了更接近理想状态,AI 在这里可以发挥什么作用呢?从我观察到的情况来看,AI 工具正在朝着以下常见方向发展,以缩小这一差距:

1. 使用自然语言查询数据(文本到 SQL):降低技术门槛的一种方法是允许利益相关者使用自然语言查询数据。在业界有许多文本到 SQL 的努力:

  • 例如,Snowflake 是一家在 文本到 SQL 模型 方面取得许多进展的公司,并开始将其产品整合这一功能。
  • 许多公司(包括我的公司)也探索了内部文本到 SQL 的解决方案。例如,Uber 分享了他们与 Uber 的 QueryGPT 的旅程,以使数据查询对运营团队更加易于访问。这篇文章详细解释了 Uber 如何设计用于查询生成的多智能体架构。同时,它也揭示了这一领域的主要挑战,包括准确理解用户意图、处理大型表结构以及避免生成错误信息等。
  • 诚实地讲,要让文本到 SQL 正常工作,门槛非常高,因为查询必须准确无误——即使工具失败一次,也可能破坏信任,最终利益相关者还是会回到你这里来验证查询(然后你需要重新阅读+重写查询,这几乎会增加一倍的工作量 😁)。它对数据库的文档完善性和数据清洁性也有严格的前提条件。到目前为止,我还没有找到一个能够完美运行的文本到 SQL 模型或工具。我只在查询非常小部分且文档完善的、针对特定和标准化用例的核心数据集时,看到它有可能实现,但很难扩展到所有可用数据和不同的业务场景。
  • 但当然,鉴于在这一领域的大量投资和人工智能的快速发展,我相信我们会越来越接近准确且可扩展的文本到 SQL 解决方案。

2. 基于聊天的 BI 助手:另一个改善利益相关者使用 BI 工具体验的常见领域是基于聊天的 BI 助手。这实际上比文本到 SQL 又进了一步——它不是根据用户提示生成 SQL 查询,而是以可视化加文字总结的格式进行响应。

  • Looker 中的 Gemini 就是一个例子。Looker 归谷歌所有,因此他们将 Gemini 整合进去是很自然的事情。Looker 构建 AI 功能的另一个优势是数据字段已经在 LookML 语义层中进行了文档化,定义了常见的连接,并在仪表板中内置了流行的指标。因此,它有很多可供学习的优质数据。Gemini 允许用户调整 Looker 仪表板,询问有关数据的问题,甚至为对话式分析构建自定义数据代理。尽管根据我有限的实验体验,该工具经常超时,有时甚至无法回答简单问题。如果你有不同的体验并成功使用了它,请告诉我……
  • Tableau 也推出了一个类似的功能,Tableau AI。我自己还没有使用过,但从演示来看,它帮助数据团队使用自然语言快速准备数据并制作仪表板,并将数据洞察总结到“Tableau Pulse”中,以便利益相关者能够轻松发现指标变化和异常趋势。
  • 与文本到 SQL 的挑战类似,准确性始终是聊天式 BI 助手的首要问题。他们生成的可视化是否可靠?他们是否了解指标和仪表板背后的业务背景,从而正确解释它们🤔?如果你对这些问题没有信心,你可能不会放心让利益相关者使用它们。

3. 数据目录工具:AI 还可以帮助解决数据文档稀少或过时的问题。

  • 在一次内部黑客松中,我记得我们数据工程师的一个项目是使用 LLM 增加表文档的覆盖范围。AI 能够读取代码库,并在大多数情况下以高准确率描述列,因此它可以帮助快速改进文档,只需少量人工验证和调整。
  • 同样,当我的团队创建新表时,我们开始让 Cursor 写表文档 YAML 文件,以节省我们的时间并获得高质量的输出。
  • 还有许多数据目录和治理工具已经整合了 AI。当我搜索“AI 数据目录”时,我看到了 Atlan、Alation、Collibra、Informatica 等数据目录工具的标志(免责声明:我没有使用过它们中的任何一个)。这显然是一个行业趋势。

2. 加速高价值工作

既然我们已经讨论了 AI 如何帮助消除低价值任务,让我们来探讨它如何加速高价值数据项目。在这里,高价值工作指的是结合技术卓越和业务背景的数据项目,并通过跨职能协作产生有意义的影响。例如,深入了解产品使用模式并导致产品变更的深入分析,或者用于识别流失风险客户的流失预测模型,并由此产生防止客户流失的举措。让我们比较一下当前状态和理想未来:

当前状态:日常工作中存在生产力瓶颈

  • 探索性数据分析(EDA)耗时。这一步对于初步了解数据至关重要,但进行所有单变量和多变量分析可能需要很长时间。
  • 编码和调试的时间损失。坦白讲——没有人能记住所有 numpy 和 pandas 的语法以及 sklearn 模型参数。我们在编码时总是需要查阅文档。
  • 丰富的非结构化数据未充分利用。业务每天都会从调查、支持工单和评论中产生大量文本数据。但如何可扩展地提取洞察仍然是一个挑战。

理想状态:数据科学家专注于深度思考,而不是语法

  • 编写代码时不再需要中断去查阅语法。
  • 分析师花更多时间解释结果,而不是处理数据。
  • 非结构化数据不再是障碍,可以快速分析。

看到理想状态,我相信你已经想到了一些 AI 工具的候选者。让我们看看 AI 如何影响或已经在产生差异:

1. AI 编码和调试助手。我认为这是迄今为止任何编写代码的人都最广泛采用的 AI 工具类型。我们已经看到它不断迭代。

  • 当像 ChatGPT 和 Claude 这样的 LLM 聊天机器人问世时,工程师们意识到他们可以直接将语法问题或错误信息抛给聊天机器人,得到高准确率的答案。这仍然是编码工作流程中的一个中断,但比点击十几个 StackOverflow 标签要好得多——这已经感觉像是上个世纪的事情了。
  • 后来,我们看到越来越多的集成 AI 编码工具出现——GitHub Copilot 和 Cursor 与你的代码编辑器集成,并可以读取你的代码库,主动在你的 IDE 内建议代码补全和调试问题。
  • 正如我在开头简要提到的,像 Snowflake 和 Hex 这样的数据工具也开始嵌入 AI 编码助手,帮助数据分析师和数据科学家轻松编写代码。

2. 用于 EDA 和分析的 AI。这与我之前提到的基于聊天的 BI 助手工具有些相似,但它们的目标更为雄心勃勃——它们从原始数据集开始,旨在自动化整个分析周期,包括数据清理、预处理、探索性分析,有时甚至包括建模。这些工具通常被宣传为“取代数据分析师”(但它们真的能做到吗?)。

  • Google 数据科学代理是一个非常令人印象深刻的新工具,可以通过简单的提示生成一个完整的 Jupyter Notebook。我最近写了一篇文章,展示了它可以做什么以及它不能做什么。简而言之,它可以基于可定制的执行计划快速生成一个结构良好且功能正常的 Jupyter Notebook。然而,它缺乏根据后续问题修改 Jupyter Notebook 的能力,仍然需要具备扎实数据科学知识的人来审核方法并进行手动迭代,并且需要清晰的数据问题陈述以及干净且文档完善的数据集。因此,我将其视为一个很棒的工具,可以为我们节省一些启动代码的时间,而不是威胁我们的工作。
  • ChatGPT 的数据分析师工具也可以归入这一类别。它允许用户上传数据集并与之聊天以完成分析,生成可视化并回答问题。你可以在这里找到我之前讨论其功能的文章。它也面临类似的挑战,作为 EDA 助手比取代数据分析师表现得更好。

3. 易用且可扩展的 NLP 能力。LLM 擅长对话。因此,今天有了 LLM,NLP 变得指数级地更容易。

  • 我的公司每年都会举办一次内部黑客松。我记得三年前的黑客松项目是尝试使用 BERT 和其他传统主题建模方法来分析 NPS 调查回复,这很有趣,但老实说,很难使其准确且对业务有意义。然后在两年前的黑客松中,我们尝试使用 OpenAI API 对相同的反馈数据进行分类和总结——它就像魔法一样有效,因为你可以通过一次 API 调用完成高准确率的主题建模、情感分析和反馈分类,并且输出内容很好地符合我们的业务背景,基于系统提示。我们后来建立了一个内部管道,轻松扩展到调查回复、支持工单、销售电话、用户研究笔记等文本数据,并且它已经成为集中化的客户反馈中心,为我们的产品路线图提供了信息。你可以在 这篇技术博客 中了解更多。
  • 还有许多新公司正在构建封装的 AI 客户反馈分析工具、产品评论分析工具、客户服务助手工具等。这些想法都是一样的——利用 LLM 理解文本上下文并进行对话的优势,创建专门的 AI 代理用于文本分析。

结论

很容易陷入追逐最新 AI 工具的热潮。但归根结底,最重要的是利用 AI 消除阻碍我们前进的因素,加速推动我们前进的事物。关键是要保持务实:采用今天有效的方法,对新兴事物保持好奇心,永远不要忘记数据科学的核心目的——通过更好的理解推动更好的决策。

万能搜短剧

生命不息,运动不止,做个爱折腾的人吧!持续探索新事物

420篇原创内容

公众号

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 万能数据的小草 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 作为数据专业人士,我们真正需要什么,AI 又如何提供帮助
    • 1. 消除低价值任务
    • 2. 加速高价值工作
    • 结论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档