发布

自然语言处理

自然语言处理、大模型以及RAG相关技术,技术交流请加微信1185918903
专栏成员
530
文章
562067
阅读量
59
订阅数
HuggingFace 又出新教程啦!手把手教你构建DeepSeek-R1推理模型
LLM 在许多生成任务上表现出色。然而,直到最近,它们还在解决需要推理的复杂问题上举步维艰。例如,它们很难处理需要多步推理的谜题或数学问题。
致Great
2025-03-05
820
图解KV Cache:解锁LLM推理效率的关键
LLM 用于推理的时候就是不断基于前面的所有 token 生成下一个 token。
致Great
2025-03-04
750
LevelRAG:突破查询重写瓶颈,提升混合检索效果
这篇论文主要关注 检索增强型生成(Retrieval-Augmented Generation, RAG) 在 混合检索 场景中的挑战,特别是 查询重写(query rewriting) 与 密集检索器(dense retriever) 之间的紧密耦合带来的问题。
致Great
2025-03-03
940
6 大 RAG 知识库PDF文档处理神器对比,谁才是你的最佳选择?
今天,我们精挑细选 6 款最具代表性的 RAG 知识库文档处理工具,从技术架构、功能特性、适用场景、优劣势等多个维度对比,帮你找到最适合的解决方案!💡🔥
致Great
2025-03-02
3530
DeepSeek开源周 Day05:从3FS盘点分布式文件存储系统
今天是DeepSeek开源周的第五天,官方开源了一种高性能分布式文件系统Fire-Flyer File System,简称3FS,目的是解决人工智能训练和推理工作负载的挑战。
致Great
2025-03-01
4570
DeepSeek开源周 Day04:从DualPipe聊聊大模型分布式训练的并行策略
今天是DeepSeek开源周的第四天,官方开源了一种新型并行计算优化策略——DualPipe。 其实大家阅读过Deepseek-V3技术报告的同学,对这个技术并不陌生。
致Great
2025-02-28
1720
DeepSeek开源周 Day03:从DeepGEMM看大模型算力提速的矩阵乘法
今天是DeepSeek开源周的第三天,继FlashMLA和DeepEP之后,DeepSeek开源了DeepGEMM库。作为一个专注于FP8精度通用矩阵乘法的高性能库,DeepGEMM在提供极致性能的同时保持了令人惊讶的代码简洁性。
致Great
2025-02-27
1310
DeepSeek开源周 Day02:从DeepEP开源趋势重新审视大模型Infra
今天DeepSeek开源周第二天,开放了DeepEP仓库,属实看了下源码,和昨天FlashMLA一样,C++权重(包括CUDA)还是占据了绝对部分,作为调包侠的我,看到之后望而却步,想看原理或者实现也是完全看不懂了!
致Great
2025-02-26
1370
DeepSeek开源周 Day01:从FlashMLA背后原理回顾KV Cache
今天DeepSeek开源周第一天,开放了FlashMLA仓库,1小时内星标1.6k!
致Great
2025-02-25
2000
关于Grok3和DeepSeek背后苦涩教训引发的思考
Ilya Sutskever(前 OpenAI 联合创始人兼首席科学家)曾在在召开的 NeurIPS 会议上表示,大模型的预训练已经走到了尽头。 而 Noam Brown(OpenAI 研究员,曾带领团队开发出在德州扑克中战胜职业选手的 AI 系统 Pluribus)在关于 OpenAI O1 发布的采访中提到,提升 Test-Time Compute 是提升大模型答案质量的关键。2024 年的圣诞节前夕,一片节日气氛下,湾区的硅谷 AI 大佬、机构和投资者们正在深入探讨从 “Scaling Learning” 向 “Scaling Search” 转变的路径。而这一切的思考,都可以追溯到 Rich Sutton(强化学习领域的奠基人之一)在 2019 年发表的经典短文 The Bitter Lesson (苦涩的教训)。
致Great
2025-02-24
1150
从零开始优化 RAG 流程的终极指南,解决检索增强生成的核心挑战
首先,我们将 RAG 工作流程分为三个部分,以增强我们对 RAG 的理解,并优化每个部分以提高整体性能:
致Great
2025-02-22
1680
注意力机制进化史:从MHA到MoBA,新一代注意力机制的极限突破!
MLA主要通过优化KV-cache来减少显存占用,从而提升推理性能。直接抛出这个结论可能不太好理解。首先我们来看下,对于生成模型,一个完整的推理阶段是什么样的,推理性能上有什么问题。这部分内容主要来自:
致Great
2025-02-21
2500
硬件对齐+原生训练!DeepSeek NSA打造高效稀疏Attention
在自然语言处理领域,长上下文建模对下一代大语言模型至关重要,其应用场景广泛,如深度推理、代码生成、多轮对话等。然而,标准注意力机制计算复杂度高,当处理长序列时,计算成本剧增,成为模型发展的瓶颈。以解码64k长度上下文为例,softmax注意力计算的延迟占总延迟的70 - 80%,这凸显了寻求高效注意力机制的紧迫性。
致Great
2025-02-21
1410
大语言模型简史:从Transformer(2017)到DeepSeek-R1(2025)的进化之路
2025年初,中国推出了具有开创性且高性价比的「大型语言模型」(Large Language Model — LLM)DeepSeek-R1,引发了AI的巨大变革。本文回顾了LLM的发展历程,起点是2017年革命性的Transformer架构,该架构通过「自注意力机制」(Self-Attention)彻底重塑了自然语言处理。到2018年,BERT和GPT等模型崭露头角,显著提升了上下文理解和文本生成能力。2020年,拥有1750亿参数的GPT-3展示了卓越的「少样本」和「零样本」学习能力。然而,「幻觉」问题 — —即生成内容与事实不符,甚至出现「一本正经地胡说八道」的现象 — — 成为了一个关键挑战。2022年,OpenAI通过开发「对话式」的ChatGPT应对这一问题,采用了「监督微调」(SFT)和「基于人类反馈的强化学习」(RLHF)。到2023年,像GPT-4这样的「多模态模型」整合了文本、图像和音频处理能力,使LLM能够以更接近人类的「听」、「说」、「看」能力。近期推出的OpenAI-o1和DeepSeek-R1「推理模型」(Reasoning Model)在复杂问题解决方面取得突破,赋予LLM更接近人类「系统2思维」的深度推理能力,标志着人工智能在模拟人类思维模式上迈出了重要一步。此外,DeepSeek-R1模型以其「超成本效益」和「开源」设计挑战了AI领域的传统规范,推动了先进LLL的普及,并促进了各行业的创新。
致Great
2025-02-17
2680
怎么知道效果提升了?7个用于改进RAG系统的检索指标
大型语言模型(LLM)是一种生成式人工智能技术,在过去两年中获得了极大的关注。然而,当我们将LLM应用于实际场景时,仍然面临知识局限性和“幻觉”问题。检索增强生成(RAG)通过为LLM提供额外的记忆和上下文来解决这些问题。在2024年,RAG已成为应用生成式AI领域最受欢迎的技术之一。事实上,可以假设任何基于LLM的应用程序都以某种方式使用了RAG。
致Great
2025-02-17
1420
RAG科普文!检索增强生成的技术全景解析
增强生成 (RAG) 是塑造应用生成式 AI 格局的关键技术。Lewis 等人在其开创性论文中提出了一个新概念面向知识密集型 NLP 任务的检索增强生成之后,RAG 迅速成为基石,提高了大型语言模型 (LLM) 输出的可靠性和可信度。
致Great
2025-02-15
3940
一文深入了解DeepSeek-R1:模型架构
DeepSeek-R1 从其基础模型 DeepSeek-V3-Base 继承了 128K 上下文长度。最初,DeepSeek-V3 使用 4K 上下文长度进行预训练。然后,利用 YaRN 技术,两阶段上下文长度扩展首先将其增加到 32K,然后增加到 128K。
致Great
2025-02-14
5670
DeepSeek-R1复现方案梳理
由huggingface组建,目前刚上线2周,发布了最新进展open-r1/update-1,在MATH-500任务上接近deepseek的指标,可以在open-r1/open-r1-eval-leaderboard查看指标的排行榜。
致Great
2025-02-13
2700
DeepSeek 背后的数学原理:深入探究群体相对策略优化 (GRPO)
群体相对策略优化 (GRPO,Group Relative Policy Optimization) 是一种强化学习 (RL) 算法,专门用于增强大型语言模型 (LLM) 中的推理能力。与严重依赖外部评估模型(价值函数)指导学习的传统 RL 方法不同,GRPO 通过评估彼此相关的响应组来优化模型。这种方法可以提高训练效率,使 GRPO 成为需要复杂问题解决和长链思维的推理任务的理想选择。
致Great
2025-02-12
1K0
RbFT:针对RAG中检索缺陷的鲁棒性微调
这篇论文旨在提高大型语言模型(LLMs)在检索增强型生成(Retrieval-Augmented Generation, RAG)系统中对检索缺陷的鲁棒性。具体来说,论文关注以下几个关键问题:
致Great
2025-02-11
1100
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档