Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >腾讯云COS Data Lake在AIGC和自动驾驶技术领域的最新解决方案

腾讯云COS Data Lake在AIGC和自动驾驶技术领域的最新解决方案

作者头像
云存储
发布于 2024-03-30 06:24:03
发布于 2024-03-30 06:24:03
2350
举报
文章被收录于专栏:腾讯云存储腾讯云存储
3月7日,焉知汽车电子与软件生态合作科技节,在上海丽昂豪生大酒店三楼拉开帷幕。腾讯云存储资深解决方案架构师王登宇作为嘉宾受邀出席峰会,在当天上午的主论坛“数智融合 智驾未来”发表主题演讲,分享并探讨了腾讯云COS Data Lake在AIGC和自动驾驶技术领域的最新进展和方案。

在当今快速发展的人工智能领域,数据作为AI模型训练的基石,其处理和存储方式对模型的性能有着决定性影响。特别是在AIGC和自动驾驶技术的研发中,对数据处理的要求更是严苛。

腾讯云针对AIGC领域提供了全生命周期的数据存储与处理解决方案,覆盖模型训练、内容审核到数据智理的全流程。这一解决方案的核心在于其能够通过一站式的存储和数据处理服务,极大地提高了模型训练效率。腾讯云的对象存储COS、GooseFS产品系列和数据万象等产品,为数据集上云、模型训练、推理应用到内容智理中的数据存储提供了强大的支持,实现了高效、低成本的数据管理方案。

在自动驾驶技术的发展中,数据的采集、存储、标注等环节对于感知训练、仿真和评测至关重要。腾讯云GooseFS产品系列,为自动驾驶模型训练提供了高性能的数据存储和加速服务。这一解决方案通过优化数据的读取和写入性能,特别是在处理PB量级的训练数据时,显著提升了训练效率。

COS Date Lake 向智能数据湖演进

腾讯云COS Data Lake结合了数据加速和AI能力,从支持传统的数据分析和ML业务,向智能数据湖演进。通过数据湖的智能数据处理和AI大模型对数据的多模态特征提取,我们可以更加有效地处理大规模的数据,提高数据分析和机器学习业务的效率。

在智能数据湖中,腾讯云利用AI技术进行数据融合和分析,提高了数据处理的效率和质量。通过AI大模型对数据的多模态特征提取,腾讯云数据湖进一步增强了大数据处理、智能检索和数据资产管理能力。这种方法可以帮助企业更好地理解和利用其数据资产,更快地发现和利用数据中的价值,并为AIGC和自动驾驶业务提供更多的高质量数据支持。

腾讯云COS Date Lake Architecture

腾讯云COS数据湖是一个高效、可扩展的数据存储和数据处理服务平台,在COS对象存储基础上,提供数据存储、数据接入、数据加速和数据智理服务。

1. 数据存储:腾讯云COS对象存储是数据湖的基础,提供海量低成本、持久化存储能力。它是一个可扩展的对象存储系统,旨在满足企业的大数据存储需求。COS对象存储提供了多种存储类型,如标准存储、低频存储、归档存储和深度归档存储,使所有用户都能使用具备高扩展性、低成本、可靠和安全的数据存储服务。

2. 数据接入:通过MSP数据迁移和全球加速网络,提供数据入湖服务。MSP数据迁移可以支持各种数据源迁移到COS对象存储。全球加速服务借助腾讯全局流量调度的负载均衡系统,智能路由解析用户请求,选择最优网络访问链路,实现请求就近接入,将用户请求就近接入腾讯云核心机房,并通过稳定可靠的内网传输加速,帮助用户在全球各地快速访问存储桶,提高数据入湖效率和用户体验。

3. 数据加速:数据加速服务是数据湖的核心,从计算端到存储端提供了丰富的数据加速产品,包括GooseFS系列产品、元数据加速和COS加速等。这些加速服务提供了丰富的访问协议,来对接各种计算平台,提升计算平台的效率。

- GooseFS-Cache:提供计算端的数据缓存加速服务,利用计算端RAM、NVME SSD资源构建全局分布式缓存,提供高可靠、高可用、弹性的数据湖加速能力。通过POSIX、HDFS等多种访问协议,加速海量数据分析、机器学习、人工智能等业务访问数据的性能,为上层计算应用提供统一的命名空间,方便用户在不同的业务之间自由流转数据。

- GooseFS-X:是一款托管的高性能分布式文件系统,具备高可用性和弹性扩展能力,为高性能计算业务提供极高性能和极低时延。通过与COS对象存储之间的数据流动能力,可以直接从COS加载数据,以便计算节点能高速访问缓存到 GooseFS-X 的数据;同时GooseFS-X将产生的计算结果数据沉降到 COS,实现持久化、低成本存储,方便用户灵活管理冷、热数据。

- GooseFS-Lite:是一款轻量级的客户端工具,提供POSIX语义访问COS对象存储的能力。通过POSIX语义将COS对象存储桶挂载到计算节点,像使用本地文件系统一样直接操作对象存储中的Objects。

4. 数据智理:数据智理是腾讯云存储提供的综合数据管理解决方案,涵盖内容审核和智能检索两大核心功能。内容审核部分利用人工智能技术对文本、图片、视频等内容进行实时审核,识别违规内容,确保平台内容的合规性和安全性。通过自动化审核和定制化策略,用户可以快速准确地识别潜在安全隐患,保障数据安全。智能检索方面,腾讯云提供了高效的数据管理和检索服务。通过建立特征库,系统实现对数据的智能化管理和检索,帮助用户更快速、准确地获取所需数据,提高工作效率。支持多种检索形态如文本、图片和视频,并提供秒级检索能力,用户可以轻松接入系统,快速获取检测结果,及时处理数据。

COS Date Lake在AIGC和自动驾驶场景解决方案

AIGC存储解决方案:

腾讯云AIGC存储解决方案旨在提供一体化的存储解决方案,以满足AIGC业务对数据处理和合规安全的需求。通过统一存储、结合GooseFS产品系列和数据万象内容审核等功能,实现了数据的高效预处理、训练效率提升和数据合规安全保障。

统一存储,降低成本,促进数据流动

在AIGC训练过程中,将所有数据统一存储在COS Data Lake中,有助于数据生命周期管理,降低存储成本,并方便数据在多个计算平台之间自由流动。这种统一存储的方式简化了数据管理流程,提高了数据的可访问性和可用性,同时降低了维护成本。

GooseFS产品系列数据加速,提升训练效率

- 数据预处理阶段:通过将数据集缓存到GooseFS-Cache中,可以加速数据预处理效率。这种缓存机制可以减少数据读取时间,提高数据处理效率,从而加速整个训练流程。

- 训练阶段:利用GooseFS-Cache缓存训练数据集到GPU集群上,可以加速训练数据集的读取。同时,将训练过程中产生的Checkpoints写入高吞吐的GooseFS-X中,可以缩短训练集群因生成Checkpoint而暂停的时间,进一步提高训练效率。

- 推理阶段:在推理过程中,GooseFS-Cache可以在多个区域缓存模型,从而大幅提升模型的加载效率。这种缓存机制可以减少模型加载时间,提高推理效率,应对推理集群规模大、分布广的情况,有效解决模型加载吞吐瓶颈的问题。

数据万象内容审核,保障AIGC生产内容的合规和安全

- 便捷的接入:数据万象提供一体化的存储内容合规安全方案,使增量数据一键开启审核成为可能,大大降低了开发成本。

- 精准的模型:数据万象针对AIGC场景审核策略进行专项调优和底层模型的定制开发,确保审核模型的精准性和有效性。这种定制化的模型开发可以更好地适应AIGC业务的特殊需求,提供更高效的内容审核服务。

- 更高的性能:根据存储数据智能地调度处理集群,近存储侧的处理能力提供更优的数据传输时延和更低的成本。

自动驾驶存储解决方案

在自动驾驶场景中,模型训练的重要性不言而喻,主要涉及三个关键环节:数据预处理、感知训练和仿真。这些环节在自动驾驶系统中扮演着至关重要的角色,影响着车辆的智能决策和行驶安全。

在数据预处理阶段,采集到的车辆路况原始数据通过COS/S3标准接口上传至COS数据湖后,需要经过一系列处理步骤,包括数据清洗、脱敏、抽帧和标注等,以生成可用于训练的数据集。在这一过程中,利用GooseFS-Cache缓存原始数据可以有效加速数据读取性能,提升数据预处理的效率。

感知训练阶段是业务的核心部分,在这个阶段,将GooseFS-Cache部署到GPU训练集群,利用GPU节点上的NVME SSD作为缓存介质构建分布式缓存系统,用来缓存训练数据集,并通过POSIX接口与训练平台对接,显著提升训练过程中的IO性能。定期生成的模型Checkpoint存储到GooseFS-X高性能并行文件系统中,GooseFS-X提供了强大的写入吞吐能力,满足上千卡GPU同时写入的需求,从而缩短模型训练暂停时间,提高训练效率。

在仿真阶段,仿真平台需要通过POSIX接口大量一次性读取仿真数据。这些仿真数据存储在COS数据湖中,GooseFS-Lite提供了轻量级的POSIX协议转换服务,以满足仿真平台通过POSIX协议从COS数据湖读取仿真数据的需求。这种架构设计使得仿真平台能够高效地访问大量数据,为自动驾驶系统的仿真测试提供了可靠的支持。

保障AIGC内容安全,定义智能存储新范式

AIGC内容审核解决方案:

腾讯云AIGC内容审核解决方案是腾讯云基于人工智能技术和大数据分析构建的一套内容审核系统,旨在帮助企业有效应对内容安全合规挑战。该解决方案涵盖了内容输入审核、内容生产审核和内容存储审核等多个环节,通过智能化的审核机制和高效的审核流程,为用户提供全面、精准的内容审核服务。

在内容输入审核方面,可以对用户上传的文本、图片、视频等内容进行实时审核,识别和过滤出涉黄、暴恐、违禁等风险内容,有效防范不良信息传播。通过自动化审核和定制化审核策略,可以快速准确地识别出潜在的安全隐患,保障平台内容的合规性。

在内容生产审核方面,可以对模型生成的内容进行智能审核,确保内容合规性。通过AIGC大模型的训练和微调,结合人工审核和自动化审核技术,可以有效识别出虚假信息、低俗内容等,提升内容生产的质量和可信度。

在内容存储审核方面,支持一键扫描审核历史数据、内网获取数据等功能,帮助用户快速发现和处理存储中的违规内容,保障数据安全和合规性。用户还可以根据不同的数据场景自定义审核策略,灵活应对各类内容审核需求,降低业务风险,提升内容安全水平。

总的来说,腾讯云AIGC内容审核解决方案通过结合人工智能技术和大数据分析,为企业提供了一套全面、高效的内容审核机制,帮助用户构建安全、可靠的内容生态环境,提升内容管理的效率和质量。

腾讯云存储智能检索解决方案:

腾讯云存储智能检索解决方案是腾讯云为满足用户对大规模数据存储和智能检索需求而推出的一项创新性解决方案。该解决方案结合了腾讯云强大的存储基础设施和人工智能技术,旨在提供高效、智能的数据管理和检索服务,帮助用户更好地利用和管理海量数据。

在方案中,建立特征库是其中的关键功能之一。通过万象图文大模型对图像、文本和视频等数据进行智能处理和特征提取,系统能够建立高效的特征库,实现对数据的智能化管理和检索。这种智能化的特征库构建使用户能够更快速、准确地检索到所需的数据,提高工作效率和数据利用率。

腾讯云存储智能检索解决方案支持多种检索形态,包括文本检索、图片检索和视频检索等,满足用户对不同类型数据的检索需求。用户可以通过万象API/SDK访问方式轻松接入系统,实现便捷的数据检索操作。

结语

腾讯云COS Data Lake通过对数据加速和AI能力的巧妙结合,提供数据存储、数据接入、数据加速和数据智理服务,构成了一个完整而强大的体系,为企业提供了高效、智能的一体化存储解决方案。这不仅助力AIGC和自动驾驶业务更好地处理和利用大规模数据,也为加速企业数字化转型提供更多可能性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云存储 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AIGC数据处理与存储解决方案
2023年数智中国AIGC科技周· AI云智上海专场在普陀区召开。活动以“智能涌现”、“算力突围”、“超越现实”三大篇章开启,第一篇章以“智能涌现”开幕、重塑数实融合终极愿景;第二篇章“算力突围”,以AI为引擎,以计算为基石,构筑数字底座;第三篇章“超越现实”,引领“空间计算”新时代,进入“虚实相生”新阶段。
云存储
2023/08/28
1K0
AIGC数据处理与存储解决方案
腾讯云数据湖赋能AIGC多模态大模型
近日,腾讯云存储解决方案总监温涛受邀在2024数据基础设施技术峰会-“智算中心技术创新论坛”分享了腾讯云的数据智能生态创新之路,剖析腾讯云数据湖在赋能AIGC多模态大模型方面的应用实践。
云存储
2024/05/24
5950
腾讯云数据湖赋能AIGC多模态大模型
腾讯云升级多个云存储解决方案 以智能化存储助力企业增长
9月6日,在腾讯数字生态大会腾讯云储存专场上,腾讯云升级多个存储解决方案:Data Platform 数据平台解决方案重磅发布,数据加速器 GooseFS、数据处理平台数据万象、日志服务 CLS、高性能并行文件存储 CFS Turbo 等多产品全新升级,能够为企业在 AI 时代提供更安全、高效的数据基础服务。
云存储
2024/09/11
3260
腾讯云升级多个云存储解决方案 以智能化存储助力企业增长
2023全球分布式云大会:AIGC数据处理与存储解决方案
GDCC 分 布 式 云 云智相生 GDCC 2023 4月20日,2023全球分布式云大会·北京站正式召开。作为本次AIGC数智中国科技周的重要组成部分之一,大会以“云智相生”为主题,着眼于分布式云和人工智能,以分布式云促进人工智能发展,以人工智能降低分布式云上云和用云门槛,为构建数智中国夯实基础设施和技术底座。 本次大会,全球分布式云联盟携手腾讯云等海内外云计算领军企业和运营商,共同开启分布式云智能化新纪元。 腾讯云 王登宇 在上午举办的分布式领袖论坛上,腾讯云存储专家架构师 王登宇发表了题为《
云存储
2023/04/25
1.2K0
2023全球分布式云大会:AIGC数据处理与存储解决方案
腾讯云叶嘉梁:大模型驱动的腾讯云储存应用创新与底层优化 | 智见
“伴随着 AI 应用而来的是,数据迎来爆发式增长,大模型本身更依赖于数据积淀,即无数据不 AI。”
云存储
2025/04/11
1430
腾讯云叶嘉梁:大模型驱动的腾讯云储存应用创新与底层优化 | 智见
腾讯云存储—自动驾驶与AIGC数据存储与管理之道
腾讯云存储首席技术专家 温涛 受邀在6月2日由焉知汽车主办的第三届焉知智能电动汽车年会“ADAS与智能驾驶论坛”中分享自动驾驶和AIGC场景下的存储解决方案,下面让我们一起回顾下温涛的精彩演讲:
云存储
2023/06/15
1K0
腾讯云存储—自动驾驶与AIGC数据存储与管理之道
焉知汽车电子与软件生态合作科技节精彩预告
3月7日,焉知汽车电子与软件生态合作科技节将于上海丽昂豪生大酒店三楼拉开帷幕。腾讯云作为嘉宾将出席峰会,并在当天上午的主论坛“数智融合 智驾未来”发表主题演讲,分享探讨腾讯云在AIGC和自动驾驶技术领域的最新进展和应用,敬请关注。
云存储
2024/03/07
2200
焉知汽车电子与软件生态合作科技节精彩预告
深度解读AIGC存储解决方案
5月26日,2023数据基础设施技术峰会在苏州举办,腾讯云首席存储技术专家温涛受邀出席并分享了腾讯云领先的存储技术在AIGC场景中的应用,通过对AIGC业务流程和场景的提炼,从内容生成、内容审核和内容智理三要素介绍了如何智能的存储和管理数据。下面我们一起回顾下温涛的精彩分享。
云存储
2023/06/15
1.4K0
深度解读AIGC存储解决方案
喜报!腾讯云存储荣获2024年度分布式存储产品金奖
2024年11月8日,由 DOIT 传媒主办,中国计算机学会信息存储专委会、武汉光电国家研究中心和百易存储研究院支持的“2024中国数据与存储峰会”在北京召开。本次峰会以“智数据 · AI 未来”为主题,汇聚了全球领先的数据存储企业代表、专家学者及行业用户,共同探讨了数据存储领域的最新技术进展、市场趋势和应用案例。
云存储
2025/02/10
1180
喜报!腾讯云存储荣获2024年度分布式存储产品金奖
云原生分布式存储的架构创新及商业价值
全球分布式云大会是分布式云技术和商业交流的旗舰级平台,2023全球分布式云大会·北京站将于6月28日-29日正式召开,本次大会以“云智筑基”为主题,探究人工智能(AI)在大模型全新的发展风口,构建新型泛在算力网络的趋势,如何利用分布式云、分布式数据库、分布式存储、边缘云等构建新型算力网络,打造更强大的数字经济价值引擎。
云存储
2023/08/03
5190
云原生分布式存储的架构创新及商业价值
数据湖存储在大模型中的应用
9月5日,浪潮信息新产品“互联网+AIGC”行业巡展在深圳举行。本次巡展以“智算 开新局·创新机”为主题,腾讯云存储受邀分享数据湖存储在大模型中的应用,并在展区对腾讯云存储解决方案进行了全面的展示,引来众多参会者围观。
云存储
2023/11/01
1K0
数据湖存储在大模型中的应用
AI 与数据的智能融合丨大模型时代下的存储系统
WOT 全球技术创新大会2024·北京站于 6 月 22 日圆满落幕。本届大会以“智启新纪,慧创万物”为主题,邀请到 60+ 位不同行业的专家,聚焦 AIGC、领导力、研发效能、架构演进、大数据等热门技术话题进行分享。
云存储
2024/07/03
5080
AI 与数据的智能融合丨大模型时代下的存储系统
AIGC 场景下存储与数据管理的挑战与应对
10月28日,"寻宝 AI 时代——OSC 源创会苏州站暨 Techo TVP 技术沙龙"在苏州圆满落幕。腾讯云存储专家解决方案架构师屠伟新带来《AIGC 场景下存储与数据管理的挑战与应对》主题分享。下面我们一起来学习回顾一下AIGC场景下的存储解决方案。
云存储
2023/12/02
3370
AIGC 场景下存储与数据管理的挑战与应对
腾讯云 Data Platform — AI 与机器人时代的数据存储与管理解决方案
腾讯云存储通过推出 Data Platform 框架性解决方案,结合对象存储 COS、智能检索 MetaInsight、数据万象 CI 和数据加速器 GooseFS 2.0 等关键组件,满足 AI 与机器人时代对存储的五大核心需求,引领云存储技术创新,助力企业高效利用数据。
云存储
2025/04/18
1350
腾讯云 Data Platform — AI 与机器人时代的数据存储与管理解决方案
COS数据湖存储引领大数据存储和自动驾驶存储发展趋势
数据是企业的核心资产,随着数据规模的快速增长,企业对存储功能和性能的要求也在不断增加。对云厂商和企业用户来说,如何在提升业务性能的同时降低成本是一巨大挑战。11月26日在QCon大会上,腾讯云数据湖存储研发负责人严俊明和技术专家程力受邀分享了数据湖存储的关键技术,并分享了数据湖存储在大数据及自动驾驶场景下的落地实践,助力用户业务降本增效。 下面,让我们一起回顾下两位老师的精彩演讲内容👇 数据湖是一种可拓展的技术架构,将数据存储、计算、分析、AI等能力集成整合为一款多元化的解决方案,从数据中挖掘价值;支持
云存储
2022/12/15
1.3K0
COS数据湖存储引领大数据存储和自动驾驶存储发展趋势
腾讯云存储,第一!
当时买存储服务器的速度,根本赶不上用户增长,所以用户每天最多上传 800 万张图片。
小腾资讯君
2024/01/12
6720
腾讯云存储,第一!
腾讯云 AI 存储解决方案持续升级,为 AI 全业务场景提供全面支持
其中,GooseFS 2.0为 AI 场景深度优化,提供 GBps 单链接性能,数据访问性能逼近硬件资源极限;文件存储 CFS Turbo 打通多云数据形成端到端的解决方案,提升 AI 场景运转效率;数据万象、企业网盘、日志服务等存储产品与 DeepSeek 大模型深度集成,帮助企业应对 AI 时代数据井喷下的成本和性能压力。
云存储
2025/04/04
1550
腾讯云 AI 存储解决方案持续升级,为 AI 全业务场景提供全面支持
数据万象 | AIGC 存储内容安全解决方案
AIGC(人工智能生产内容) 已经成为与PGC(专业生产内容)、UGC(用户生产内容)并驾齐驱的内容生产方式。由于 AI 的特性,AIGC在创意、个性化、生产效率等方面具有独特的优势,这些优势可以使得高质量的内容制作更简单,但也会帮助恶意份子更高效地炮制违法违规内容。数据万象从 AIGC 的输入、生产、存储全方面介入,发布了《AIGC 存储内容安全解决方案》,帮助各开发者及时发现风险信息,降低业务安全风险。 2022年,ChatGPT的推出,使 AIGC 这个名词进入了大众的视野。Stable Diffu
云存储
2023/06/07
1.6K0
数据万象 | AIGC 存储内容安全解决方案
这届存储,为大模型而生!
据测算,数据存储约占大模型训练整体工程量的20-30%。随着更多AIGC的产生,这个比例还在继续提升。
小腾资讯君
2024/04/08
2960
这届存储,为大模型而生!
参会邀约 | 腾讯云存储在 AI 和机器人时代下的技术方案创新
温涛,腾讯云存储解决方案总监。十多年分布式云存储技术和产品化经验。作为技术领头人,从事过网络、安全、存储等多个领域的技术工作。目前作为腾讯首席云存储专家,负责腾讯云存储的解决方案规划、设计和商业化落地工作。
云存储
2025/04/09
1510
参会邀约 | 腾讯云存储在 AI 和机器人时代下的技术方案创新
推荐阅读
相关推荐
AIGC数据处理与存储解决方案
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档