首页
学习
活动
专区
圈层
工具
发布

深度拆解DataFlow和DataFlex,AI终于来到Data-Centric时代

Data-CentricAI:从模型崇拜到数据为王,他正在拆解AI新范式。

@数科星球DigitalPlanet原创

作者丨苑晶

编辑丨大兔

近几年,AI行业的发展日新月异。

2023年大模型兴起时,行业比拼的是模型参数和架构,流行“模型够大,一切都不是问题”的观念。

然而三年后的今天,风向已悄然转变。

人们普遍认识到,若无高质量数据,再强大的模型也如同“巧妇难为无米之炊”。大模型面临的性能瓶颈、错误回答及落地难题,其根源往往在于数据。

于是,“Data-CentricAI”(以数据为中心的人工智能)这一新理念逐渐成为行业共识。

其核心是将重心从模型彻底移至数据,通过系统性地优化与打磨数据来提升AI的整体能力。

近日,数科星球DigitalPlanet与国内该领域的核心研究者、北京大学博士梁昊进行了一次深度对话。

作为DataFlow、DataFlex等开源项目的研发负责人,梁昊博士深入阐释了Data-CentricAI的核心理念、行业演变及落地实践。

01

什么是Data-CentricAI?

在探讨Data-CentricAI之前,需先理解AI行业思路的深刻转变。

AI发展可划分为两个时代。

第一个是持续十余年的“Model-CentricAI”(以模型为中心)时代。

在此阶段,业界默认“模型决定一切”。由于早期数据量小、质量参差不齐,大家认为只要模型设计足够精巧,便能从有限数据中“榨出”足够能力。

这好比厨师能用普通食材做出好菜。因此,当时的研究精力集中于模型架构创新,罕有人系统性地思考如何优化数据本身。

2020年后,随着GPT-3、GPT-4等大模型的涌现,模型参数飙升至千亿级别,旧有思路难以为继。

他打了个比方:“以前的小模型如同小锅炒菜,食材差些尚可应付。如今的大模型好比超级大锅,食材(数据)的数量、质量与新鲜度直接决定了最终成品的优劣。厨师手艺再高,也无法用烂菜叶子炒出山珍海味。”

大模型的核心逻辑是从海量数据中学习,其对数据的依赖性随规模扩大而剧增。数据由此从“配角”转变为“主角”,模型则成为“载体”。

于是,第二个时代——“Data-CentricAI”应运而生。

他为其下了直白的定义:不再将模型视为解决问题的核心,而是将数据置于首位。通过系统性地收集、清洗、优化、合成高质量数据,让模型从中学习真知,最终提升AI的性能、安全性与实用性。

简言之,即“好数据,养好模型”。

有人可能会将过去的“数据清洗、标注”与之混淆。

其实这二者有本质区别。

过去的数据处理是“被动应付”,仅在模型出问题时进行零散、碎片化的处理,缺乏统一标准和系统流程。

而Data-CentricAI是“主动布局”,从一开始就将数据视为核心竞争力,研究数据的全生命周期(收集、清洗、去重、标注、增强、合成、筛选、适配),旨在构建一套完整的、可持续供给高质量数据的数据体系,支撑模型的长期进化。

归根结底,Data-CentricAI并非否定模型,而是回归学习本质:优质的学习材料(数据)是学有所成的前提。

这也解释了为何近年来业界越发认识到,大模型的竞争最终将转向数据质量与治理能力的比拼。

Data-CentricAI正在重塑AI行业的底层逻辑。

02

从“抢网络语料”到“造智能数据”

回顾2023年底刚踏入该领域时,梁昊博士描述,当时行业对数据的认知相对简单,认为网络上海量公开语料“足够使用”。

核心动作是“抢”——爬取一切可得的文本内容,简单清洗后即用于训练,信奉“量取胜”的原则。

那时,系统性研究数据优化(Data-CentricAI)的团队寥寥无几,数据工作常被视为“脏活累活”。

然而短短三年,至2026年的今天,行业认知已发生180度转变,呈现两大核心趋势:

趋势一:从“依赖网络语料”转向“大规模使用合成数据”。

网络高质量语料已近枯竭,剩余部分多属低质、重复或错误内容,用之训练会损害模型性能,导致“幻觉”。

合成数据(即通过AI技术人工“创造”的高质量数据,如生成数学题、专业问答、逻辑推理数据)成为破局关键。

其优势在于可控、高质量、理论上无限量,可针对性地生成满足特定需求的数据。

目前,合成数据在训练数据中的占比日益提升,已成为行业共识。

趋势二:从“人工清洗数据”转向“Agent驱动自动化的数据工作流”。

过去的数据处理依赖“人海战术”,效率低、成本高、易出错。

随着Agent(能自主编排和执行任务的智能体)技术的成熟,自动化数据工作流正成为主流。

如今,一个Agent可完成过去数十甚至上百人的工作量,在几天内完成以往需数月的任务,且标准统一、质量稳定、成本大降。

Agent驱动的数据工作流已成为Data-CentricAI的核心研究方向与未来行业标配。

如今,行业共识已彻底改变,从最初的不解到如今各大厂商与科研团队纷纷重点布局数据领域。

展望未来,合成数据与Agent自动化将继续深化发展,数据竞争将更侧重于“好”而不仅是“多”,高质量、低成本的数据生产能力将成为AI竞争的关键优势。

03

DataFlow与DataFlex:Data-CentricAI的核心工具链

理解理念与趋势后,如何实操?梁昊博士主导的开源项目DataFlow和DataFlex提供了答案。

它们旨在解决行业核心痛点:让普通团队也能低成本、高效地处理与生成高质量训练数据。

两个项目分工明确、相辅相成:

DataFlow:数据准备的“万能工厂”。

它是一个自动化数据处理流水线,能够解析、清洗、去重、纠错、提取并合成来自PDF、网页、图片、表格等多种来源的原始数据,最终输出可直接用于训练的高质量数据(如问答对、推理数据)。

示例:处理数学教材PDF时,DataFlow可自动识别并匹配题目与答案,输出标准化问答数据,分钟级完成,零错误,替代了传统人工数天且易出错的工作。

其他应用:自动治理企业杂乱文档构建知识库;清洗网络爬取语料;批量合成特定领域数据。

DataFlex:数据训练的“智能管家”。

它负责将DataFlow准备好的数据,高效、精准地“喂”给模型。

其核心在于根据模型训练状态,动态进行数据筛选、排序与分配(如初期喂简单数据打基础,中期增加难度,后期强化高质量数据),实现“因材施教”,从而提升训练效率与效果,避免过拟合。

历时一年多,这两个项目已成为国内Data-CentricAI领域最受欢迎的开源工具之一。

DataFlow在GitHub上已获超4200个Star,在全球同类项目中排名第二,且荣获ICMLSeePhy、智源LIC挑战赛等多个顶级赛事冠军。

DataFlex则作为知名开源项目LLaMA-Factory官方的数据处理模块,与其深度结合,扩大了其影响范围。

更重要的是,它们已从科研工具走向产业落地,赋能包括智谱科技、深势科技、腾讯等在内的多家企业,覆盖教育、互联网、汽车等多个行业。

教育:用DataFlow提取教材题目,生成题库。

互联网:用DataFlow清洗预训练数据,合成推理数据。

汽车:这是一个典型案例。

2025年11月,中国一汽、上海算法创新研究院、OpenDCAI社区基于DataFlow与MyScaleAI数据库合作构建汽车行业AI数据基座。

汽车行业积累了大量非结构化、碎片化的技术文档、实验报告、车联网数据等。通过DataFlow实现:

自动化数据治理:自动解析各类非结构化文档,提取关键信息,构建统一知识库。

领域数据集构建:清洗、优化传感器、驾驶行为等数据,合成智能驾驶、智能座舱专用训练数据。

全链路赋能:实现了从原始数据到训练价值的高效转化,为智能化转型提供了核心数据支撑。

此外,Data-CentricAI在金融(处理风控、交易数据)、医疗(处理病历、文献)等行业也展现出巨大价值。

梁昊博士总结道:“Data-CentricAI的核心价值,在于将数据从‘沉睡的资产’转化为‘可用的价值’。它是连接各行业海量数据与AI赋能需求的桥梁,正助力解决实际痛点,推动产业升级,未来将成为实体产业智能化转型的标配。”

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OhkCmUIxzPNx6vs8eW7REr4g0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券