Xiaopeng Ye, Roi Rodríguez, Huawei
October 9, 2024
这份名为《Pushing the value of AI and Big Data in the Cloud》的文档由华为技术专家撰写,发布于2024年10月,系统地阐述了人工智能(AI)与大数据在云计算环境中的发展趋势、核心要素、市场格局、技术架构以及华为在其中的战略布局。
一、宏观趋势与市场数据
全球AI云服务市场:2024年预计超过 300亿美元,2028年预计增长至 600-800亿美元。
全球数据量:2025年将突破 180泽字节(Zettabytes)。
全球数据交易市场:2022年约10亿美元,2030年将达 50亿美元。
数据货币化现状:全球仅2%的公司真正实现了数据变现,大型企业(38%)领先于中小企业。 二、AI与大数据解决方案的核心要素
核心要素 | 说明 |
---|---|
数据质量 | 高质量、干净、相关、标注良好的数据是成功AI模型的基础。 |
AI模型 | 模型复杂性与性能依赖于数据质量与基础设施支持。 |
计算能力与可扩展基础设施 | 必须支持大规模数据处理与实时分析,云平台提供弹性扩展能力。 |
AI 解决方案的落地效果依赖三大核心要素,三者相互支撑、缺一不可:
数据质量:是 AI 训练与验证的基础,需满足清洁、相关、正确标注三大要求。数据存储采用差异化方案:
数据湖:灵活存储原始数据(如非结构化的音频、视频),适配多类型数据场景。
传统数据仓库:仅适用于结构化数据,更适合标准化的数据分析需求。
AI 模型:选择适配业务场景的模型与算法是关键,并非 “越复杂越好”—— 文档明确指出 “复杂模型的性能依赖于数据质量和现有基础设施”,低质量数据会导致模型 “无效复杂”。
计算力与可扩展基础设施:需具备支撑大规模数据集处理、复杂模型运行的能力,核心目标是实现实时数据处理与 analytics(分析),避免因算力不足导致 AI 应用延迟。 2023-2024 年 AI 领域资本热度高,同时 “数据授权” 成为 AI 企业获取训练数据的核心途径:
Reddit 与 Google:Google 成为 Reddit 的 AI 内容授权客户,年费用约 **$6000 万 **,数据授权成为 RedditIPO 前的重要业务增长点(Reddit CEO 称其为 “新潜在业务”)。
OpenAI 与 Axel Springer:OpenAI 支付 “数千万美元”,获得 Axel Springer 旗下《Politico》《Business Insider》等新闻内容使用权,用于优化 ChatGPT 的新闻类回答生成能力。
Apple 与 Shutterstock:Apple 较竞争对手晚入局 AI 数据授权,签署协议从 Shutterstock 获取图像类 AI 训练数据,补足自身数据短板。
Shutterstock:2023 年 AI 授权业务收入达 **$1.04 亿 **,成为其第二增长曲线,验证了 “数据授权” 的商业可行性。 尽管数据量呈指数增长,但全球企业的数据价值挖掘能力存在显著差异:
整体变现率极低:全球仅2% 的企业实现数据 monetization,大量数据处于 “沉睡状态”,未转化为营收或效率提升动力。
大企业与中小企业(SMEs)的差距:
大型企业:约38% 的大型企业已落地数据变现策略,主要集中在金融、电信、零售三大行业 —— 通过 AI 与先进分析技术,将数据转化为客户画像、风险预测等增值服务,数据驱动成为核心竞争优势。
中小企业:正逐步尝试数据变现,增长动力来自云基解决方案(降低技术门槛)与可及性工具(如轻量化分析平台),当前重点是 “提升运营效率”“优化客户 engagement(参与度)”,预计未来 3-5 年将显著扩大策略应用范围。 AI 模型性能发挥的核心制约因素是什么?企业在解决该问题时面临的最大挑战是什么?
核心制约因素是数据质量与配套基础设施—— 文档明确指出 “复杂模型的性能依赖于数据质量和现有基础设施”,即使模型架构先进,若训练数据存在 “不清洁、标注错误、与业务无关” 等问题,或基础设施无法支撑大规模计算,模型性能会大幅受限(如预测准确率低、运行延迟高)。
企业面临的最大挑战是高质量数据短缺 + 数据变现能力不足:一方面,全球普遍存在 “高质量标注数据稀缺” 问题,数据清洁、标注的成本与技术门槛高;另一方面,仅 2% 企业实现数据变现,大量数据未被转化为 “可用的训练资源”,形成 “数据多但能用的少” 的矛盾,尤其中小企业因技术能力有限,更难突破该瓶颈。
三、全球数据治理格局
地区 | 治理策略 |
---|---|
欧盟 | 强调隐私保护与结构化治理,代表法规:GDPR、数据法案、数据治理法案。 |
美国 | 以企业创新为主导,辅以政府监管,代表法规:NAIIA、CLOUD法案。 |
中国 | 政府主导,数据管理与国家战略融合,代表法规:PIPL、网络安全法、AI战略。 |
三大区域的策略差异直接决定跨国企业 AI 部署的 “合规成本、数据来源、应用场景”:
对欧盟业务:需严格遵守 GDPR 等合规要求,如数据收集需用户明确授权、数据跨境传输需符合 “充分性认定”,合规成本高,但优势是用户信任度高,适合部署医疗、个人服务等 “高隐私敏感度” AI 应用;
对美国业务:受联邦监管少,数据流通效率高(如可通过 http://data.gov 获取开放数据),适合快速迭代 AI 技术(如大模型训练),但需应对加州 CCPA 等州级监管差异,且数据安全审查(如 Cloud Act)可能影响跨境数据使用;
对中国业务:需符合 PIPL 与网络安全法,数据分类分级管理(如敏感数据本地化存储),且 AI 应用需对齐国家战略(如智能制造、智慧城市),但受益于国家算力基础设施支持(如昇腾集群),在产业级 AI 落地(如工业质检 AI)上更具优势。
跨国企业需采用 “区域定制化策略”,而非 “全球统一方案”,例如在欧盟侧重隐私合规,在中国侧重数据本地化与行业适配。
公司 | 2023年收入 | 市场份额(2024 Q1) | AI云服务占比 |
---|---|---|---|
AWS | 908亿美元 | 32% | 10-15% |
微软Azure | 550亿美元 | 23% | 15-20% |
320亿美元 | 10% | 15% | |
阿里云 | 120亿美元 | 5% | 10% |
华为云 | 40亿美元 | 2% | 8% |
华为云在中国市场排名第二,在拉美市场增长最快(YoY > 160%),已服务3400+付费客户。
兼容Hadoop、Spark、Flink、Presto等主流开源生态。
支持 Serverless架构、容器化部署、AI融合。
首个支持跨AZ高可用的大数据服务。
场景类型 | 技术组合 | 特点与挑战 | 解决方案优势 |
---|---|---|---|
离线分析 | Spark/Hive + OBS | PB级数据、低时效性 | 高可扩展性,支持复杂调度 |
实时分析 | Kafka + Flink + HBase | 毫秒级延迟、数据量大 | 实时响应、缓存机制 |
交互式分析 | Presto/DLI + OBS | 3秒内响应、高并发 | 低延迟、支持第三方BI工具 |
一站式IDE平台:无需切换工具即可完成数据仓库构建。
跨服务编排:统一管理MRS、DWS、DLI等服务。
可视化调度:拖拽式任务编排,支持百万级任务调度。
AI与大数据的核心瓶颈已从“算力”转向“数据质量与治理”。
云平台将成为AI模型训练、部署、迭代的核心基础设施。
华为云通过全栈智能数据湖、全球化部署、行业深耕,正在构建差异化竞争力。
本文分享自 Dance with GenAI 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!