首页
学习
活动
专区
圈层
工具
发布
首页标签大模型部署

#大模型部署

缓存、批处理、降级:压住大模型 API 账单的三板斧实战复盘

用户3993654

第一季度我们的大模型 API 账单环比涨了 70%,而业务量只涨了 30%——多出来的 40%,全是工程上的浪费。花了一个月做调用侧治理,账单回落到比治理前低两...

300

qKnow智能体构建平台专业版插件中心架构重构设计预告:三层一体化设计与全生命周期管理

吴同

随着平台客户规模持续扩大、插件类型日益丰富,现有插件管理模块在功能深度、信息组织与扩展性方面已难以承载后续业务演进需求。

800

缓存、批处理、降级:压住大模型 API 账单的三板斧实战复盘

用户3993654

第一季度我们的大模型 API 账单环比涨了 70%,而业务量只涨了 30%——多出来的 40%,全是工程上的浪费。花了一个月做调用侧治理,账单回落到比治理前低两...

200

2026毕业季残酷真相:不会用AI Agent的人,正在被“一人公司”淘汰

jack.yang

2026年6月,又一批千万级规模的毕业生涌入就业市场。但与往年不同的是,今年的求职者在面试桌对面遇到的,往往不再是庞大的HR团队或部门主管,而是一个个看似单薄、...

2610

AI Agent泄露客户数据?Dify安全网关实测:2026年企业上AI的最后一条红线

jack.yang

2026年,AI Agent已从概念验证走向核心业务深水区。然而,随着Agent自主决策能力的指数级增长,传统API网关与静态数据防泄漏(DLP)策略在面对“非...

2110

Gemini插件工程指南:从Extensions到Agent工作流扩展实践

霖川

大模型的价值拐点,早已从“参数规模的内卷”转移到了“外部工具链的集成”。当开发者试图将 Gemini 2.5 Pro 从单纯的“对话引擎”升级为能执行复杂业务的...

2110

主流并行策略选型+集群实操:低成本租赁大模型训练提速方案

用户12553867

当前7B-175B参数主流大模型单机显存、算力无法满足全量预训练需求,行业通用解决方案为多机分布式并行训练。自研自建GPU/NPU集群存在硬件采购周期45-90...

2710

Mac本地模型接入MLX怎么测

用户3825620

这次更新真正解决的麻烦,是 Mac 用户本地跑大模型时经常遇到的三件事:回答慢、内存吃紧、输出质量不稳定。本地模型运行工具这次在 Apple Silicon 上...

2910

ChatGPT怎么使用?2026从入门到精通实操指南

霖川

本文面向刚接触 ChatGPT 或一直停留在"问一句答一句"阶段的用户,结合 2026 年 6 月最新版本的核心能力,系统拆解从注册上手到深度使用的完整路径。 ...

10310

如何评价月之暗面新发布并开源 Kimi K2.7 Code 编程大模型?

鱼片粥来碗豆腐

上周五深夜,正当我坐在电脑前,对着手里一个历史遗留的分布式事务系统架构抓耳挠腮的时候,科技圈的一条消息瞬间把我们技术群给炸醒了。

13400

Token治理:正在成为企业AI建设的新基础设施

用户12501872

如果说过去两年企业关注的是"如何接入大模型",那么现在越来越多企业开始面对另一个现实问题:

500

周一上线|瑞幸把咖啡做进 CLI,Fable 5 短暂登场,Stonk Rider 骑上 K 线图

七牛开发者

这期的「周一上线」有点像“AI 工具继续长手长脚”和“社区整活继续上强度”一起上线。

14410
领券