
2025年8月5日,OpenAI 正式发布了 GPT-OSS-120B 和 GPT-OSS-20B 两款开源语言模型,这标志着自 GPT-2 以来,OpenAI 首次向社群开放大型语言模型的完整权重。这一决定不仅展现了 OpenAI 对开源生态的重新审视,更预示着人工智能发展模式的深刻变革。
技术突破与架构创新
GPT-OSS 系列模型在技术架构上体现了 OpenAI 的最新研究成果。两个模型都采用了专家混合(MoE)架构,这一设计显著降低了推论时的运算开销。具体而言,GPT-OSS-120B 拥有1170亿总参数,但每个 token 仅启动51亿参数;而 GPT-OSS-20B 虽然总参数为210亿,但启动参数仅为36亿。这种稀疏启动的设计使得模型在保持强大效能的同时,大幅降低了运行成本。
在注意力机制方面,两个模型都采用了交替的密集和局部带状稀疏注意力模式,结合分组多查询注意力(分组大小为8),有效提升了推论和存储器效率。值得注意的是,这些模型原生支援128k的上下文长度,并使用旋转位置嵌入(RoPE)进行位置编码,展现了在长文本处理方面的优势。
从效能表现来看,GPT-OSS-120B 在核心推理基准测试中与 OpenAI O1-mini 模型几乎持平,同时能在单个80GB GPU上高效运行。更令人惊喜的是,GPT-OSS-20B 在常见基准测试中达到了与 O1mini 相似的结果,却可以在仅配备16GB存储器的边缘装置上运行。这种硬件友好性使得高质量的AI推论能够真正走向一般开发者和中小企业。

在实际应用能力方面,两个模型在工具使用、少样本函式呼叫、以及链式思维推理等方面表现突出。特别是在 Tau-Bench 智慧代理评估套件和 HealthBench 测试中,它们甚至超越了包括 OpenAI O1 和 GPT-4o 在内的专有模型。这种表现证明了开源模型完全有能力在关键应用场景中与闭源方案竞争。

开源策略的深远影响
OpenAI 选择开源 GPT-OSS 系列模型,背后蕴含着多层次的策略考量。首先,这一举措直接回应了业界对AI技术透明度和可控性的呼声。在Apache 2.0授权条款下发布的模型允许开发者进行自由修改和商业化使用,这为建构多样化的AI应用生态奠定了基础。
更为重要的是,GPT-OSS 模型的发布体现了 OpenAI 对AI安全的全新思考。与传统的闭源模型不同,GPT-OSS 提供了完整的思维链(CoT)过程,这使得研究人员和开发者能够深入理解模型的推理过程。OpenAI 明确表示,他们在训练过程中未对模型的 CoT 进行任何直接监督,这种设计理念为监测模型的不当行为、欺骗和滥用提供了可能。
在安全性方面,OpenAI 采用了创新的「最坏情况微调」评估方法。透过在专门的生物学和网络安全资料上对模型进行恶意微调,模拟攻击者可能采用的手段,研究团队发现即使经过广泛的恶意微调,这些模型仍无法达到其「防范准备框架」所定义的高能力水平。这一发现为开源模型的安全性提供了重要的实证支撑。
对于广大开发者而言,GPT-OSS 的开源意味着前所未有的自主权。企业可以在本地部署模型,确保资料隐私和安全;研究机构可以基于这些模型进行深度客制化和学术研究;新创公司则无需承担昂贵的API呼叫费用即可获得世界级的AI能力。这种模式的转变有望加速AI技术在各行各业的落地应用。
NVIDIA 的生态赋能
在 GPT-OSS 模型的部署和最佳化方面,NVIDIA 展现出了卓越的技术支援能力。透过 TensorRT-LLM 框架,NVIDIA 为 GPT-OSS 系列模型提供了高效的推论最佳化方案。这套工具不仅支援模型的自动最佳化,还能够根据不同的GPU架构产生专门的推论引擎。

TensorRT-LLM 的Python API设计体现了易用性和高效能的完美结合。开发者只需几行程式码即可从Hugging Face下载模型权重,系统会自动为特定的GPU架构建构最佳化引擎。对于 GPT-OSS-20B 模型,在配备至少20GB VRAM的NVIDIA GPU上,开发者可以轻松实现高效能推论。推荐的硬件包括NVIDIA Hopper(如H100、H200)、NVIDIA Blackwell(如B100、B200)以及最新的RTX 50系列GPU。
NVIDIA 还透过预建构的Docker容器简化了部署流程。透过 NVIDIA NGC 平台,开发者可以快速获取包含所有相依性的容器映像,大大降低了环境设定的复杂性。这种标准化的部署方案确保了模型在不同硬件环境中的一致性表现。
更值得关注的是,TensorRT-LLM 支援多种量化技术,如 INT8 和 FP8 量化,这些技术能够在保持模型精度的同时显著减小模型规模并加速推论过程。对于资源受限的硬件环境,这些最佳化技术尤为重要。结合 NVIDIA 的硬件优势,开发者可以在从资料中心到边缘装置的全场景中部署 GPT-OSS 模型。
在生产环境部署方面,NVIDIA 还提供了 Dynamo 平台支援,实现了强大、可扩展的多模型服务架构。这种企业级的部署方案为 GPT-OSS 模型的商业化应用提供了可靠保障。
结语
GPT-OSS 的发布标志着 AI 发展进入了一个新阶段,开源模型与闭源模型的效能差距正在快速缩小。这一转变将推动 AI 技术的民主化进程,让更多组织和个人能够参与 AI 创新。
然而,开放性也带来了新的挑战,包括如何确保负责任使用、维护安全性,以及建立有效的治理机制。OpenAI 透过举办红队测试挑战赛等方式,展现了开放协作解决安全问题的新模式。
欢迎您关注NVIDIA DGX Spark同款产品——