暂无搜索历史
DeepResearch是一种AI驱动的智能研究工具,旨在解决复杂、知识密集型的研究任务。其核心功能包括:
LlamaIndex 是一个强大的框架,专门用于构建基于LLM的数据应用。它的主要目标是帮助开发者创建能够与私有数据交互的LLM应用。
近年来,大型语言模型 (LLM) 在自然语言处理领域取得了显著的进展,展现出强大的文本生成能力。然而,LLM 仍然存在一些局限性,例如容易产生“幻觉”(生成不准...
DeepSeek 是一款由中国人工智能初创公司 DeepSeek 开发的大型语言模型 (LLM),于 2025 年 1 月发布,迅速成为全球人工智能领域的一匹黑...
大模型(Large Language Models, LLMs)是人工智能领域的重要突破,特别是在自然语言处理(NLP)中。这些模型通过处理数十亿参数,能够理解...
我们首先要了解的是seq2seq(Sequence-to-Sequence)模型。它最早由Google在2014年的一篇论文中提出,是第一个真正意义上的端到端的...
在生成摘要时,我们可能会遇到重复生成某些词或短语的问题。coverage机制就是为了解决这个问题而设计的,它通过记录已经关注过的源文本部分,来避免重复关注和生成...
Flash Attention 是一种针对 Transformer 模型中注意力机制的优化实现,旨在提高计算效率和内存利用率。随着大模型的普及,Flash At...
DeepSpeed是一个开源工具库,旨在通过系统优化和压缩技术加速大规模模型的推理和训练过程。
检索增强生成(Retrieval-Augmented Generation, RAG)是一种结合了检索机制和生成模型的先进技术,旨在提高自然语言处理系统的准确性...
Fine-Tuning属于一种迁移学习方式,在自然语言处理(NLP)中,Fine-Tuning是用于将预训练的语言模型适应于特定任务或领域。Fine-Tunin...
🤗机器翻译是自然语言处理领域中的一个重要任务,其中Transformer模型其强大的表征能力和并行计算能力,成为机器翻译的主流模型。
Transformer 是一种基于**自注意力机制(Self-Attention)**的深度学习模型,最初由 Vaswani 等人在 2017 年的论文《Att...
FastText 是由 Facebook AI Research (FAIR) 开发的一款高效文本处理工具包,主要用于文本分类和词向量表示。
BERT(Bidirectional Encoder Representations from Transformers)是Google在2018年提出的一种预...
这里由于归一化值比较乱,就大概赋值为新的attn_scores_softmax了。
需要三个指定的输入Q(query), K(key), V(value), 然后通过计算公式得到注意力的结果, 这个结果代表query在key和value作用下的...
LangChain作为一个新兴的框架,旨在简化大模型应用的开发过程。它提供了一套工具和接口,帮助开发者将大模型无缝集成到各种应用场景中。通过LangChain,...
🤗Transformer是一种神经网络架构,核心思想是利用自注意力机制来捕捉序列中元素之间的关系。从而避免了传统RNN难以处理长序列依赖的问题。
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写个人网址