暂无搜索历史
它仅用320亿参数,便与目前公认的开源最强6710亿参数的满血版DeepSeek-R1(370亿被激活)相媲美。
近日,智源研究院联合多所高校开发了多模态向量模型BGE-VL,进一步扩充了原有生态体系。BGE-VL在图文检索、组合图像检索等主要多模态检索任务中均取得了最佳效...
近年来,随着扩散模型的发展,风格迁移技术在文本引导的图像生成任务中取得了显著突破。
就在刚刚,我们在未经监督微调的2B模型上,见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」!
时隔一个半月,星火X1在数学能力上大幅跃升,仅以70B参数规模,便追平了o1和DeepSeek-R1。
就在刚刚,芯片代工巨头台积电计划在美国投资1000亿美元,这超过了公司之前宣布的一项650亿美元投资。
用户已经习惯于将大模型如ChatGPT、Llama-3-chat等当作聊天对象,然而在用户和聊天助手的会话中,有的用户提示(例如一些命令或请求)不能在一轮会话中...
一大早,AI大神Karpathy发出质疑,「目前存在一种评估危机,我真的不知道现在该看哪些指标了」。
最近,Hugging Face发布了一个「超大规模训练手册」,教我们如何在GPU集群上训练LLM。
DeepSeek R1与OpenAI o系列模型的爆发,掀起了人工智能领域的新一轮浪潮。
「下一个token预测」(next token prediction,NTP)是大语言模型(LLMs)不断取得突破的核心技术。
GPT-4.5令人失望的表现,再次印证了Ilya这句话的含金量:预训练已经达到极限,推理Scaling才是未来有希望的范式。
Deep Research(深度研究)是继「Operator」之后,OpenAI推出的第二个智能体,利用模型的推理能力,综合分析浩瀚的互联网信息,从而完成复杂的...
划重点:今天起,GPT-4.5会向所有ChatGPT Pro版用户开放,包括网页端、移动端和桌面端。另外所有付费开发者也能使用了。
「我们人类不能持续呵护机器人、为他们修理损坏的部件或调整性能的负担。机器人需要学会‘照顾’自己,才能真正发挥作用。这就是自我建模技术如此重要的原因。」
大型语言模型的「推理能力」现在成了NLP皇冠上的明珠,其核心难题在于「缺乏高质量训练数据」,标注数据需要领域专家,成本非常高昂且难以扩展;现有高等数学论文和定理...
近日,来自斯坦福和普林斯顿的研究者发现,DeepSeek-R1已经能生成自定义CUDA内核了,而且还在一众推理模型中,直接拿下了TOP 1!
出人意料的是,英伟达2025财年第四季度,情况一片大好,并未受DeepSeek影响!甚至,还连创三大纪录。
低成本加速度计凭借体积小、易集成、可穿戴及量产化优势,在工业自动化、医疗监测和消费电子等领域广泛应用,但其精度受限、噪声显著且量程范围狭窄的问题严重制约了高动态...
随着科技浪潮的奔涌向前,人工智能(AI)已从前沿概念深度融入社会经济的方方面面,成为推动产业变革与创新发展的核心力量。
暂未填写公司和职称
暂未填写学校和专业
暂未填写个人网址