前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >主机和边缘设备实现分布式LLM推理

主机和边缘设备实现分布式LLM推理

原创
作者头像
zhangjiqun
发布2024-12-25 12:38:49
发布2024-12-25 12:38:49
1900
举报

## 主机和边缘设备实现分布式LLM推理

在自己家庭中通过主机和边缘设备实现分布式LLM推理具有一定的可行性和挑战性。其优势在于能保护隐私、降低成本、可定制化等,但也存在硬件性能有限、网络带宽不足、配置复杂等问题.以下是一些相关的公司和项目:

### 公司

- **PPIO派欧云**:2024年7月推出派欧算力**云推理加速引擎**,通过自研**算法和构建分布式算力基础设施**,使**LLM推理性能提升10倍,综合成本降低90%以上**,可适配和优化多个开源大模型,并提供**容器化的推理基础设施,满足模型定制和私有部署需求.**

- **Aethir**:专注于人工智能和云游戏领域的去中心化云基础设施提供商,与TensorOpera合作,为其提供全球最大的**去中心化GPU云基础设施,支持大规模LLM训练.**

-

## TensorOpera是一个大型的生成式AI平台

专注于大型语言模型**训练和生成式AI.**以下是相关举例:

- **模型训练**:TensorOpera推出的TensorOpera Fox-1模型,是在Aethir的高质量Nvidia H100 GPU集群上开发训练的。该模型基于16亿个参数,采用三阶段课程在3万亿个标记上进行训练,比Google的Gemma2b等类似模型深度深78%,并在GSM8k和MMLU等标准LLM基准测试中超越了竞争对手.

- **平台功能**:TensorOpera的Nexus AI平台整合了Aethir的GPU资源,开发者可通过该平台无缝进行**模型部署和服务、微调和训练等各种**AI功能 .

- **合作案例**:TensorOpera与高通合作,在高通Cloud AI 100驱动的TensorOpera人工智能平台上运行开源SDXL端点,开发人员能借此构建、部署和扩展生成式人工智能应用程序,其高通Cloud AI 100的公共端点定价仅为Nvidia A100上SDXL的一半.

## 项目

- **llm-swarm**:可帮助开发者在Slurm集群中部署和管理可扩展的开放LLM推理端点,并与Hugging Face Hub上的Inference Endpoints无缝集成,利用Slurm集群集成和Inference Engine整合等关键组件,实现自动负载均衡,提高GPU资源利用率.

- **Distributed Llama**:允许在**多个设备上运行LLM模型,使用张量并行性,并针对同步所需的少量数据进行了优化,区分了根节点和工作节点**,可在所有设备上拆分RAM使用,目前仅支持CPU推理.

- **Byzer-LLM**:基于Ray架构的开源项目,涵盖大语言模型全生命周期管理,其采用分布式计算框架,支持在**多GPU或分布式环境中运行,能降低资源需**求,可应用于自然语言处理、在线服务、科研研究等场景.

- **Exo**:一个Python框架,用于基于**mlx、tinygrad等推理引擎的Llama3**等大型模型的分布式推理,支持动态模型分区、自动设备发现、p2p设备连接架构,可在自己的设备上运行**8b、70b和405b**参数模型.

- **Cake**:一个Rust框架,用于基于**candle的Llama3**等大模型的分布式推理,能通过将消费类硬件重新利用设备的异构集群,运行大型模型,可将转换器模块分片到多个设备上进行推理.

- **Pluto and Charon**:由**中山大学等机构提出的时间和内存高效的协作边缘AI框架,可实现个人LLM的微调**,通过算法和系统协同设计,打破个人LLM微调的资源瓶颈,提高训练效率.

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档