作为一个内容创作者、知识工作者,我的日常离不开笔记。Notion、Obsidian、Evernote……我几乎用遍了市面上的主流工具。但随着 AI 的崛起,我开...
在 AI 时代,没有 AI 加持的软件似乎很难拿的出手,就像一款手机,现在如果没有 AI 加持的话,似乎很难让消费者满意。
我知道有些 AI IDE 在使用大模型时有开关来限制所提交的问题是否可以用于训练大模型,但似乎并不是所有的 AI IDE 都这样,甚至有些都不愿意告诉用户自己使...
从表格可以看出,传统的密集模型(如Llama-70B)生成每个token的计算量大约是小型模型(如Llama-7B)的10倍 1。而采用MoE架构的模型(如Mi...
模型规模扩展策略的演进反映了大语言模型技术的不断成熟,从简单的参数增加到架构创新和效率优化,GPT系列模型的发展历程为未来大模型技术指明了方向。
2018年,Google发布的BERT(Bidirectional Encoder Representations from Transformers)模型彻底...
大语言模型(Large Language Model,简称LLM)是指通过在海量文本数据上训练的神经网络模型,具备理解和生成人类语言的能力。与传统自然语言处理模...
Whisper的技术演进路径清晰可见:从最初的基础模型,到支持更复杂场景的增强版,再到2025年实现的"方言级"ASR转写能力。特别是在2025年,Whispe...
在自然语言处理(NLP)领域,高质量的标注数据是构建高性能模型的基础。然而,获取大量准确标注的数据往往面临成本高昂、耗时漫长、覆盖度不足等挑战。2025年,随着...
主题建模(Topic Modeling)是自然语言处理(NLP)领域的核心技术之一,旨在从大量非结构化文本中自动发现潜在的主题结构和语义模式。随着大语言模型的崛...
自然语言处理(NLP)领域的快速发展带来了丰富多样的任务和模型,但如何客观、准确地评估这些模型的性能却成为了一个持续挑战。与传统的分类任务不同,NLP中的生成式...
随着研究的深入,T5生态系统不断发展壮大,从最初的基础模型扩展到多模态模型、领域特定模型、可持续模型等多种变体。2025年的最新进展表明,T5模型正朝着更高效、...
BERT的核心设计理念是"双向Transformer编码器",这与之前的语言模型(如GPT系列)有本质区别。传统的自回归语言模型(如GPT)只能从左到右或从右到...
Transformer架构自2017年Google发表的论文《Attention Is All You Need》中提出以来,彻底改变了深度学习特别是自然语言处...
在深度学习的发展历程中,注意力机制(Attention Mechanism)扮演着越来越重要的角色,特别是在自然语言处理(NLP)、计算机视觉(CV)和语音识别...
将注意力机制与LSTM结合,可以使模型更加关注序列中的重要部分,提高模型性能。注意力机制允许模型在处理当前位置时,动态地关注序列中的其他位置。
在这一节中,我们将介绍如何使用Python实现GloVe模型。由于完整实现GloVe模型涉及到构建共现矩阵、训练优化等多个步骤,我们将使用现有的库来简化实现过程...
Word2Vec包含两种主要模型架构:连续词袋模型(Continuous Bag of Words, CBOW)和跳字模型(Skip-Gram)。
在自然语言处理(NLP)领域,如何将非结构化的文本数据转换为计算机可以处理的数值形式,是一个基础性的关键问题。词袋模型(Bag of Words, BoW)作为...
随着大语言模型(LLM)的普及,预处理阶段的重要性再次被学术界和工业界重视。与早期深度学习模型不同,现代LLM虽然具备一定的原始文本处理能力,但经过精心设计的预...