腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
返回腾讯云官网
AI
人工智能
专栏成员
举报
4
文章
1107
阅读量
3
订阅数
订阅专栏
申请加入专栏
全部文章(4)
高性能(4)
网络通信(3)
人工智能(2)
aigc(2)
网络(2)
网络传输协议(2)
高性能计算(1)
存储(1)
云计算(1)
通信(1)
网络协议(1)
搜索文章
搜索
搜索
关闭
NCCL与RDMA和MPI基本框架源码分析
高性能
通信
网络通信
人工智能
aigc
verbs:宽松排序内存区域,添加一个标志以允许创建宽松排序内存区域。 通过此类 MR 的访问可以通过允许系统对某些访问重新排序来提高性能。 由于宽松排序是一种优化,因此不支持它的驱动程序可以简单地忽略它。 可选的 MR 访问位范围是根据内核匹配部分定义的,其第一个条目将为 IBV_ACCESS_RELAXED_ORDERING。 如果应用程序使用可选范围中的一位,则库会将其屏蔽掉,以防内核不支持“MR 可选模式”, IBV_ACCESS_RELAXED_ORDERING 此设置允许 NIC 放宽在网络和目标内存区域之间传输数据的顺序。放宽排序允许网络发起的写入(例如传入消息发送或 RDMA 写入操作)以任意顺序到达内存。这可以提高某些应用程序的性能。但是,放宽排序具有以下影响:不再保证 RDMA 写入后写入消息的顺序。(发送消息仍将按顺序匹配已发布的接收缓冲区。)针对同一内存区域的背靠背网络写入使该区域处于未知状态。放宽排序不会改变完成语义,例如数据可见性。也就是说,完成仍然确保所有数据都是可见的,包括来自先前传输的数据。放宽排序的操作也不会绕过原子操作
晓兵
2025-02-06
109
2
FALCON:使用离线和在线学习实现快速准确的多路径调度
网络协议
高性能
网络
网络传输协议
网络通信
FALCON: Fast Accurate Learning Network Conditions (快速精准学习网络状况)
晓兵
2024-11-24
238
0
即将推出的超级以太网联盟(UEC)规范概述和动机
网络通信
高性能计算
高性能
网络
网络传输协议
网络对于高效且经济地训练 AI 模型越来越重要。大型语言模型 (LLM)(例如 GPT-3、Chinchilla 和 PALM)以及推荐系统(例如 DLRM 和 DHEN)在数千个 GPU 的集群上进行训练。训练包括频繁的计算和通信阶段,其中训练的下一阶段的启动取决于整个 GPU 套件的通信阶段的完成。最后到达的消息决定了所有 GPU 的进度。此尾部延迟(以通信阶段最后一条消息的到达时间为衡量标准)是系统性能的关键指标。大型模型的参数数量、嵌入表条目和上下文缓冲区的字数的大小持续增加。例如,在 2020 年,GPT-3 是最先进的,拥有 1750 亿个参数。最近,GPT-4 模型宣布拥有预计一万亿个参数,而 DLRM 拥有数万亿个参数,预计还会增长。这些越来越大的模型需要越来越大的集群进行训练,并在网络上传递更大的消息。当网络性能不佳时,这些昂贵的集群就无法得到充分利用。连接这些计算资源的网络必须尽可能高效且经济高效。高性能计算 (HPC) 作业同样要求很高,而且在规模和高效利用分布式计算资源方面,HPC 和 AI 的需求越来越趋同。虽然 AI 工作负载通常极其耗费带宽,但 HPC 还包括对延迟更敏感的工作负载。
晓兵
2024-11-24
545
0
AI中的数据存储
人工智能
存储
云计算
aigc
高性能
RAG (Retrieval-Augmented Generation): 检索增强生成(RAG)是指对大型语言模型输出进行优化,使其能够在生成响应之前引用训练数据来源之外的权威知识库。大型语言模型(LLM)用海量数据进行训练,使用数十亿个参数为回答问题、翻译语言和完成句子等任务生成原始输出。在 LLM 本就强大的功能基础上,RAG 将其扩展为能访问特定领域或组织的内部知识库,所有这些都无需重新训练模型。这是一种经济高效地改进 LLM 输出的方法,让它在各种情境下都能保持相关性、准确性和实用性
晓兵
2024-09-17
215
0
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档