12 月,OpenAI 首席执行官萨姆·奥特曼宣布拉响「红色警报」,将调配更多内部资源以加速改进 ChatGPT。在当前白热化的 AI 模型竞赛中,作为行业内屈...
Transformer的"二次方注意力瓶颈"的问题是老生常谈了。这个瓶颈到底卡在哪实际工程里怎么绕过去?本文从一个具体问题出发,介绍Mosaic这套多轴注意力分...
JAX跑得快的技巧其实很简单:通过组合变换让XLA能看到大块连续的计算,比如说批处理、融合、分片,让每一步在单设备或多设备同步时都像一个干净的kernel。
就在上周,人工智能团队DeepSeek AI正式发布全新多模态模型 DeepSeek-OCR。
随着蛋白质数据库规模的快速增长,对更快、更敏感的同源性搜索工具的需求愈发迫切。研究人员开发了 GPU 加速版 MMseqs2 (MMseqs2-GPU),在单一...
在AI大模型浪潮席卷各行各业的当下,大语言模型(LLM)推理的性能、扩展性与资源利用率,已成为企业落地过程中的核心痛点。回顾互联网后端架构的演进历程,我们不难发...
过去 15-20 年间,传统的化学信息学工具逐渐难以跟上现代分子发现的需求。造成这一趋势的原因主要有三点:
由于博主需要训练模型,因此找了一些算力租赁平台,很多平台的单卡资源都没有了,但发现“xx云”还有余量,因此直接买了。买完才发现上当了!原来还可以这样套路。
近日,刚刚 IPO 的国产 GPU 公司沐曦股份,完成了自上市后的首个重大技术发布。
这就是摩尔线程最新 AI 计算卡 S5000,单卡跑满血 DeepSeek 大模型的成绩。
过去几年里,GPU 几乎成为所有技术团队的“硬通货”。高端 GPU 不仅价格贵,而且很难购买到。以 A100 为代表的数据中心级 GPU 在市场上长期维持在 1...
近年来,全球 AI 算力规模按接近指数级的幅度增长,GPU 已然是整个数据中心的绝对主角,而 CPU 一般被认为只是承担数据预处理、任务调度和通信协同的次要部分...
Scikit-Learn 1.8.0 更新引入了实验性的 Array API 支持。这意味着 CuPy 数组或 PyTorch 张量现在可以直接在 Scikit...
平安夜的硅谷并不平静。当所有人都在享受节日气氛时,英伟达悄然放出重磅消息:以200亿美元现金与AI芯片初创公司Groq达成交易。
I/O指数据在计算核心与外部设备间的传输过程。传统I/O架构由CPU主导,但随着计算重心转向GPU,存储I/O性能与GPU算力的差距日益凸显。GPU计算性能每代...
然而,一旦涉及高性能计算(HPC)或数据密集型作业,Java 的托管运行时与垃圾回收开销会在满足现代应用的低延迟与高吞吐需求上带来挑战,尤其是那些涉及实时分析、...
本文作为Meta AI网络架构系列第五篇,深度剖析Meta为支撑Llama 4训练构建的10万卡级分布式AI集群:物理层依托 ATSW汇聚层、76个正交平面与...
OCP 2025惊天变局!Oracle、OpenAI、Meta和Anthropic等吉瓦级(GW)数据中心建设如火如荼,吉瓦(GW)级GPU买家“新阳谋”——...
当AI模型的参数量跨越万亿和训练集群的规模迈向数万GPU时,连接它们的网络便从幕后英雄变成了性能的“主战场”。传统网络方案在如此巨大的“数据洪流”面前遇到了前所...