首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >华为白皮书:推动AI和大数据在云端的价值

华为白皮书:推动AI和大数据在云端的价值

作者头像
AIGC部落
发布2025-09-30 15:02:43
发布2025-09-30 15:02:43
1370
举报
文章被收录于专栏:Dance with GenAIDance with GenAI

Xiaopeng Ye, Roi Rodríguez, Huawei

October 9, 2024

这份名为《Pushing the value of AI and Big Data in the Cloud》的文档由华为技术专家撰写,发布于2024年10月,系统地阐述了人工智能(AI)与大数据在云计算环境中的发展趋势、核心要素、市场格局、技术架构以及华为在其中的战略布局。

一、宏观趋势与市场数据

  1. 市场规模

全球AI云服务市场:2024年预计超过 300亿美元,2028年预计增长至 600-800亿美元。

全球数据量:2025年将突破 180泽字节(Zettabytes)。

全球数据交易市场:2022年约10亿美元,2030年将达 50亿美元。

数据货币化现状:全球仅2%的公司真正实现了数据变现,大型企业(38%)领先于中小企业。 二、AI与大数据解决方案的核心要素

核心要素

说明

数据质量

高质量、干净、相关、标注良好的数据是成功AI模型的基础。

AI模型

模型复杂性与性能依赖于数据质量与基础设施支持。

计算能力与可扩展基础设施

必须支持大规模数据处理与实时分析,云平台提供弹性扩展能力。

AI 解决方案的落地效果依赖三大核心要素,三者相互支撑、缺一不可:

数据质量:是 AI 训练与验证的基础,需满足清洁、相关、正确标注三大要求。数据存储采用差异化方案:

数据湖:灵活存储原始数据(如非结构化的音频、视频),适配多类型数据场景。

传统数据仓库:仅适用于结构化数据,更适合标准化的数据分析需求。

AI 模型:选择适配业务场景的模型与算法是关键,并非 “越复杂越好”—— 文档明确指出 “复杂模型的性能依赖于数据质量和现有基础设施”,低质量数据会导致模型 “无效复杂”。

计算力与可扩展基础设施:需具备支撑大规模数据集处理、复杂模型运行的能力,核心目标是实现实时数据处理与 analytics(分析),避免因算力不足导致 AI 应用延迟。 2023-2024 年 AI 领域资本热度高,同时 “数据授权” 成为 AI 企业获取训练数据的核心途径:

Reddit 与 Google:Google 成为 Reddit 的 AI 内容授权客户,年费用约 **$6000 万 **,数据授权成为 RedditIPO 前的重要业务增长点(Reddit CEO 称其为 “新潜在业务”)。

OpenAI 与 Axel Springer:OpenAI 支付 “数千万美元”,获得 Axel Springer 旗下《Politico》《Business Insider》等新闻内容使用权,用于优化 ChatGPT 的新闻类回答生成能力。

Apple 与 Shutterstock:Apple 较竞争对手晚入局 AI 数据授权,签署协议从 Shutterstock 获取图像类 AI 训练数据,补足自身数据短板。

Shutterstock:2023 年 AI 授权业务收入达 **$1.04 亿 **,成为其第二增长曲线,验证了 “数据授权” 的商业可行性。 尽管数据量呈指数增长,但全球企业的数据价值挖掘能力存在显著差异:

整体变现率极低:全球仅2% 的企业实现数据 monetization,大量数据处于 “沉睡状态”,未转化为营收或效率提升动力。

大企业与中小企业(SMEs)的差距:

大型企业:约38% 的大型企业已落地数据变现策略,主要集中在金融、电信、零售三大行业 —— 通过 AI 与先进分析技术,将数据转化为客户画像、风险预测等增值服务,数据驱动成为核心竞争优势。

中小企业:正逐步尝试数据变现,增长动力来自云基解决方案(降低技术门槛)与可及性工具(如轻量化分析平台),当前重点是 “提升运营效率”“优化客户 engagement(参与度)”,预计未来 3-5 年将显著扩大策略应用范围。 AI 模型性能发挥的核心制约因素是什么?企业在解决该问题时面临的最大挑战是什么?

核心制约因素是数据质量与配套基础设施—— 文档明确指出 “复杂模型的性能依赖于数据质量和现有基础设施”,即使模型架构先进,若训练数据存在 “不清洁、标注错误、与业务无关” 等问题,或基础设施无法支撑大规模计算,模型性能会大幅受限(如预测准确率低、运行延迟高)。

企业面临的最大挑战是高质量数据短缺 + 数据变现能力不足:一方面,全球普遍存在 “高质量标注数据稀缺” 问题,数据清洁、标注的成本与技术门槛高;另一方面,仅 2% 企业实现数据变现,大量数据未被转化为 “可用的训练资源”,形成 “数据多但能用的少” 的矛盾,尤其中小企业因技术能力有限,更难突破该瓶颈。

三、全球数据治理格局

地区

治理策略

欧盟

强调隐私保护与结构化治理,代表法规:GDPR、数据法案、数据治理法案。

美国

以企业创新为主导,辅以政府监管,代表法规:NAIIA、CLOUD法案。

中国

政府主导,数据管理与国家战略融合,代表法规:PIPL、网络安全法、AI战略。

三大区域的策略差异直接决定跨国企业 AI 部署的 “合规成本、数据来源、应用场景”:

对欧盟业务:需严格遵守 GDPR 等合规要求,如数据收集需用户明确授权、数据跨境传输需符合 “充分性认定”,合规成本高,但优势是用户信任度高,适合部署医疗、个人服务等 “高隐私敏感度” AI 应用;

对美国业务:受联邦监管少,数据流通效率高(如可通过 http://data.gov 获取开放数据),适合快速迭代 AI 技术(如大模型训练),但需应对加州 CCPA 等州级监管差异,且数据安全审查(如 Cloud Act)可能影响跨境数据使用;

对中国业务:需符合 PIPL 与网络安全法,数据分类分级管理(如敏感数据本地化存储),且 AI 应用需对齐国家战略(如智能制造、智慧城市),但受益于国家算力基础设施支持(如昇腾集群),在产业级 AI 落地(如工业质检 AI)上更具优势。

跨国企业需采用 “区域定制化策略”,而非 “全球统一方案”,例如在欧盟侧重隐私合规,在中国侧重数据本地化与行业适配。

四、云市场格局(2024年数据)

公司

2023年收入

市场份额(2024 Q1)

AI云服务占比

AWS

908亿美元

32%

10-15%

微软Azure

550亿美元

23%

15-20%

Google

320亿美元

10%

15%

阿里云

120亿美元

5%

10%

华为云

40亿美元

2%

8%

华为云在中国市场排名第二,在拉美市场增长最快(YoY > 160%),已服务3400+付费客户。

五、华为云技术架构与服务全景

  1. 全球基础设施 27个区域65个可用区(AZ)2800+ CDN节点。 覆盖中国、亚太、拉美、非洲、欧洲等地。
  1. 全栈数据湖服务 支持全生命周期:从数据采集、存储、处理、分析到治理与可视化。 全数据类型:文本、图像、音频、视频、时序数据。 计算-存储解耦:提高资源利用率与弹性扩展能力。
  2. 开源兼容与核心优势

兼容Hadoop、Spark、Flink、Presto等主流开源生态。

支持 Serverless架构容器化部署AI融合

首个支持跨AZ高可用的大数据服务

六、典型应用场景与解决方案

场景类型

技术组合

特点与挑战

解决方案优势

离线分析

Spark/Hive + OBS

PB级数据、低时效性

高可扩展性,支持复杂调度

实时分析

Kafka + Flink + HBase

毫秒级延迟、数据量大

实时响应、缓存机制

交互式分析

Presto/DLI + OBS

3秒内响应、高并发

低延迟、支持第三方BI工具

七、数据湖工厂(DLF)平台

一站式IDE平台:无需切换工具即可完成数据仓库构建。

跨服务编排:统一管理MRS、DWS、DLI等服务。

可视化调度:拖拽式任务编排,支持百万级任务调度。

八、结论与展望

AI与大数据的核心瓶颈已从“算力”转向“数据质量与治理”

云平台将成为AI模型训练、部署、迭代的核心基础设施

华为云通过全栈智能数据湖、全球化部署、行业深耕,正在构建差异化竞争力

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Dance with GenAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 四、云市场格局(2024年数据)
  • 五、华为云技术架构与服务全景
  • 六、典型应用场景与解决方案
  • 七、数据湖工厂(DLF)平台
  • 八、结论与展望
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档