大语言模型，算力共享-腾讯云开发者社区

开发者社区

文档建议反馈控制台

腾讯云架构师技术同盟

文章/答案/技术大牛

发布

大语言模型，算力共享

大语言模型和算力共享

专栏成员

52

文章

12644

阅读量

16

订阅数

大型概念模型（LCM）：句子嵌入空间：SONAR嵌入空间

腾讯技术创作特训营S11#重启人生

“Large Concept Models: Language Modeling in a Sentence Representation Space” 介绍了一种新的语言模型架构——大型概念模型（LCM），它在句子表示空间中进行建模，有别于传统的基于词元（token）的语言模型。

2025-01-13

1250

RAG技术：是将知识库的文档和问题共同输入到LLM中

腾讯技术创作特训营S11#重启人生

RAG技术是先从知识库中检索出与问题相关的文档片段，然后将这些检索到的**文档片段与问题**一起输入到LLM中进行回答。具体过程如下：

2025-01-12

2800

TextGrad的原理及实现：根据文本进行梯度下降，主要是在提示词工程

腾讯技术创作特训营S11#重启人生

TextGrad把LLM的应用视为一个**计算图**，自然语言充当了实现不同组件间“梯度”传递的媒介。它借助从**语言模型的输出向所有可能的早期组件进行反向传播文本反馈的方式**，来对各种系统内的各类变量进行优化。

2025-01-09

2640

TextGrad不仅用于提示词工程还可用于其他场景

腾讯技术创作特训营S11#重启人生

TextGrad不专门用于提示词工程。虽然它在提示词工程方面有很好的应用效果，但它的功能和应用场景远不止于此，具体如下：

2025-01-09

1510

联邦学习中数据集不均问题怎么解决

腾讯技术创作特训营S11#重启人生

- 尽管数据集的范围是0 - 2，但可以通过一些简单的数学变换来扩充数据。例如，对于数值型数据，可以对每个数据点进行微小的随机扰动。如果数据是整数，可以在原始数据的基础上加上或减去一个小的整数（如 - 1、0、1），这样可以在不改变数据本质特征的情况下增加数据的多样性。

2025-01-08

1590

大型语言模型（LLM）中的tokens是什么

腾讯技术创作特训营S11#重启人生

在大型语言模型（LLM）中，tokens是文本处理的基本单位，它可以是**一个单词、一个字符、一个标点符号，或者是一个特殊的标记**。以下是关于tokens的详细介绍及举例：

2025-01-08

4380

PEFT 技术及简单举例

腾讯技术创作特训营S11#重启人生

PEFT（Parameter Efficient Fine-Tuning，参数高效微调）是一种用于优化大型预训练模型微调的技术，旨在提高模型在新任务上的性能，同时减少微调参数的数量和计算复杂度。

2025-01-07

1770

MOE怎样划分不同专家

腾讯技术创作特训营S11#重启人生

- **随机划分**：将FFN中的神经元随机地均匀划分为多个子集，每个子集独立组成一个专家。例如在LLaMA-MoE模型的构建中，采用**非重叠随机拆分法**，将FFN层中的中间神经元均匀分割成**多个子集，每个子集对应一个专家网络**。

2025-01-06

1190

模型并行、数据并行、流水线并行以及混合并行的适用场景、优劣

腾讯技术创作特训营S11#重启人生

- **适用场景**：**适用于模型规模相对较小，能够在单个计算设备（如 GPU）上完整运行**，但训练数据量巨大的情况。例如在大规模图像分类任务中，常见的卷积神经网络模型（如 ResNet、VGG 等）在处理大规模图像数据集（如 ImageNet 或更大规模的自定义数据集）时，数据并行能有效利用多个计算设备加速训练。

2025-01-05

1330

流水线并行在推理过程中优势与实质

腾讯技术创作特训营S11#重启人生

- **提高计算资源利用率**：流水线并行可以将模型的不同部分分配到不同的计算单元（如 GPU）上，使这些计算单元能够同时工作。例如，对于一个具有多个层的神经网络模型，将前几层放在一个 GPU 上，中间几层放在另一个 GPU 上，后几层放在第三个 GPU 上。在推理时，数据可以依次在这些 GPU 上流动进行处理，减少了单个计算单元的空闲时间，充分利用了多个计算单元的计算能力，提高了整体的计算吞吐量。

2025-01-04

1270

主机和边缘设备实现分布式LLM推理

腾讯技术创作特训营S11#重启人生

在自己家庭中通过主机和边缘设备实现分布式LLM推理具有一定的可行性和挑战性。其优势在于能保护隐私、降低成本、可定制化等，但也存在硬件性能有限、网络带宽不足、配置复杂等问题.以下是一些相关的公司和项目：

2024-12-25

1890

前向和反向传播计算量差异；梯度计算和矩阵运算之间的计算量差异

腾讯技术创作特训营S10

今日推荐：大数据传输中的二进制加密方案文章链接：https://cloud.tencent.com/developer/article/2465816这篇文章深入浅出地探讨了数据加密技术，包括对称加密、非对称加密和哈希算法，并通过实际代码示例展示了AES加密的实现过程。同时，文章还讨论了数据传输中的安全性问题，提出了不依赖加密算法的数据传输安全方案

2024-11-27

1600

大模型的并行计算：多头切片技术；降低显存占用的机制

腾讯技术创作特训营S10

文章链接：https://cloud.tencent.com/developer/article/2465816

2024-11-16

1520

大模型参数大小，占用多少字节，验证环节需要多少算力；“100B Token，支持8K上下文”是什么意思；Llama模型；

腾讯技术创作特训营S10

推荐文章：深入探索MyBatis-Plus：高效实现字段模糊查询的秘诀-腾讯云开发者社区-腾讯云

2024-11-11

1.1K0

关于联邦学习每个参与者的每次epoch结果是否需要聚合；联邦学习流程

腾讯技术创作特训营S9

在联邦学习的典型流程中，每个参与者（也称为客户端或设备）会在本地数据集上执行多个epoch的训练。在每个epoch结束后，参与者会计算本地模型的更新（例如，权重更新）。这些本地更新随后被发送到中央服务器（也称为聚合器或协调器）。

2024-10-04

2520

联邦学习中的模型异构：知识蒸馏

腾讯技术创作特训营S9

想象一下，在联邦学习的广阔舞台上，每个参与者都拥有自己独特的“武器”——不同的模型结构和训练方法。这就是模型异构！它可能源于卷积神经网络CNN与递归神经网络RNN的激烈对决，也可能源于学习率大小的微妙差异，甚至可能源于数据预处理方法的独特选择。

2024-10-03

5530

大语言模型（LLM）的子模块拆拆分进行联邦学习；大语言模型按照多头（Multi-Head）拆分进行联邦学习

腾讯技术创作特训营S9

大语言模型（LLM）的子模块拆分进行联邦学习，主要涉及到将大模型的不同部分或功能模块在多个客户端或设备上进行分布式训练，同时保护数据隐私并提升模型性能。以下是一种可能的方式及简单示例：

2024-10-02

2110

揭秘联邦学习与知识蒸馏：医疗诊断领域的隐私保护新策略

腾讯技术创作特训营S9

你是否曾想过，在保护患者隐私的同时，多家医疗机构能否共同提升医疗诊断模型的准确性？联邦学习（Federated Learning），这一新兴的机器学习技术，正悄然改变着这一切。

2024-10-01

2910

算力共享系统中数据平面和控制平面

腾讯技术创作特训营S9

在算力共享系统中，数据平面和控制平面是两个关键组成部分，它们各自承担着不同的角色和功能。以下是对这两个平面的详细说明，并通过一个算力共享系统的例子来进一步阐述。

2024-09-29

3720

揭秘大模型背后的神秘力量：算力、数据与算法的“黄金三角”

腾讯技术创作特训营S9

在人工智能的浩瀚星空中，大模型犹如一颗璀璨的新星，引领着技术的前沿。但你是否好奇，是什么让这颗新星如此耀眼？今天，就让我们一起揭开大模型背后的神秘面纱，探索那支撑其辉煌成就的“黄金三角”——算力、数据与高性能算法。

2024-09-27

9320

点击加载更多

社区活动

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·干货材料·成员作品最新动态