首页
学习
活动
专区
圈层
工具
发布
首页标签GPU 云服务器

#GPU 云服务器

极致并行计算能力,专业计算加速服务

大模型分布式训练并行策略详解,租赁多机集群训练提速实操

用户12553867

百亿、千亿参数大模型无法在单张显卡完成完整训练,分布式并行训练成为行业标准工程方案。自研机房搭建多机集群存在硬件采购、机房运维、算力闲置成本高三大痛点,国内多数...

2310

RAG 知识库部署算力需求测算,中小型项目 GPU 租赁配置规划

用户12512581

完整 RAG 业务分为三大算力消耗单元,中小型项目无分布式集群架构,算力瓶颈集中在单卡 / 双卡节点,各模块资源占用存在独立测算指标:

9510

合法云服务滥用型钓鱼攻击机理与防御体系研究 —— 以 Google AppSheet 钓鱼事件为例

芦笛

中国互联网络信息中心 | 工程师 (已认证)

2026 年 5 月,卡巴斯基安全团队披露新型网络钓鱼攻击活动:攻击者借助 Google 官方低代码平台 AppSheet 发送钓鱼邮件,发件地址为合法域名no...

18410

如何在GPU云主机上搭建AI开发环境

用户12512581

本地设备显存不足、算力有限、硬件迭代成本高,是制约AI模型训练、微调、推理开发的核心问题。GPU云主机凭借弹性算力、高显存配置、免硬件运维的特性,成为个人开发者...

17310

Python开发效率升级:适配AI场景的镜像平台优选指南

用户12512581

2026年AI开发、数据分析、后端工程领域,Python依赖包冲突为高频技术问题。行业开发数据显示,超72%的Python项目报错源于依赖版本不匹配、包重复安装...

13710

记录一次 vLLM 服务卡在模型加载的排查过程

goodgood_live

这次记录的是一台云主机上的 GPU 测试机问题:模型权重放在 NAS,服务用 Docker 跑 vLLM。容器能启动,端口也能看到,但接口一直没有 ready,...

18410

轻量 GPU 测试机 vLLM 镜像拉取失败排查记录

goodgood_live

记录一个小问题:我在一台轻量 GPU 测试机上复现 vLLM 服务,docker compose up -d 没有进入业务启动阶段,镜像下载先超时了。

13200

云服务滥用型 Facebook 钓鱼攻击机理与防御体系研究

芦笛

中国互联网络信息中心 | 工程师 (已认证)

当前网络钓鱼攻击正从传统伪造域名转向滥用合法云服务基础设施,攻击者借助 Google AppSheet、Netlify、Telegram 构建高隐蔽、高可信、高...

22810

vLLM 服务扩容卡在 ImagePullBackOff 的排查记录

goodgood_live

一开始我还准备看模型目录和 RuntimeClass,后来发现这一步还没到模型加载。当前卡点就是镜像拉取。

15010
领券