暂无搜索历史
训练大型语言模型不是一个单一的过程,相反,它是一个多层的训练过程组合,每个过程都有其独特的作用,并对模型的性能做出贡献。
大规模语言模型(LLMs)已经彻底改变了自然语言处理领域,并催生了多种应用。尽管在大规模网络数据上的预训练为这些模型奠定了基础,但研究界现在越来越多地将焦点转向...
LLM 在许多生成任务上表现出色。然而,直到最近,它们还在解决需要推理的复杂问题上举步维艰。例如,它们很难处理需要多步推理的谜题或数学问题。
LLM 用于推理的时候就是不断基于前面的所有 token 生成下一个 token。
这篇论文主要关注 检索增强型生成(Retrieval-Augmented Generation, RAG) 在 混合检索 场景中的挑战,特别是 查询重写(que...
今天,我们精挑细选 6 款最具代表性的 RAG 知识库文档处理工具,从技术架构、功能特性、适用场景、优劣势等多个维度对比,帮你找到最适合的解决方案!💡🔥
今天是DeepSeek开源周的第五天,官方开源了一种高性能分布式文件系统Fire-Flyer File System,简称3FS,目的是解决人工智能训练和推理工...
今天是DeepSeek开源周的第四天,官方开源了一种新型并行计算优化策略——DualPipe。 其实大家阅读过Deepseek-V3技术报告的同学,对这个技术并...
今天是DeepSeek开源周的第三天,继FlashMLA和DeepEP之后,DeepSeek开源了DeepGEMM库。作为一个专注于FP8精度通用矩阵乘法的高性...
今天DeepSeek开源周第二天,开放了DeepEP仓库,属实看了下源码,和昨天FlashMLA一样,C++权重(包括CUDA)还是占据了绝对部分,作为调包侠的...
今天DeepSeek开源周第一天,开放了FlashMLA仓库,1小时内星标1.6k!
Ilya Sutskever(前 OpenAI 联合创始人兼首席科学家)曾在在召开的 NeurIPS 会议上表示,大模型的预训练已经走到了尽头。 而 Noam ...
首先,我们将 RAG 工作流程分为三个部分,以增强我们对 RAG 的理解,并优化每个部分以提高整体性能:
MLA主要通过优化KV-cache来减少显存占用,从而提升推理性能。直接抛出这个结论可能不太好理解。首先我们来看下,对于生成模型,一个完整的推理阶段是什么样的,...
在自然语言处理领域,长上下文建模对下一代大语言模型至关重要,其应用场景广泛,如深度推理、代码生成、多轮对话等。然而,标准注意力机制计算复杂度高,当处理长序列时,...
2025年初,中国推出了具有开创性且高性价比的「大型语言模型」(Large Language Model — LLM)DeepSeek-R1,引发了AI的巨大变...
大型语言模型(LLM)是一种生成式人工智能技术,在过去两年中获得了极大的关注。然而,当我们将LLM应用于实际场景时,仍然面临知识局限性和“幻觉”问题。检索增强生...
增强生成 (RAG) 是塑造应用生成式 AI 格局的关键技术。Lewis 等人在其开创性论文中提出了一个新概念面向知识密集型 NLP 任务的检索增强生成之后,R...
DeepSeek-R1 从其基础模型 DeepSeek-V3-Base 继承了 128K 上下文长度。最初,DeepSeek-V3 使用 4K 上下文长度进行预...
由huggingface组建,目前刚上线2周,发布了最新进展open-r1/update-1,在MATH-500任务上接近deepseek的指标,可以在open...