暂无搜索历史
随着大语言模型(LLM)参数规模突破千亿级别,传统全参数微调已变得不切实际。以GPT-3 175B为例,单次微调需要数百GB显存,这催生了参数高效微调技术(PE...
在Transformer架构中,注意力计算的时间和内存复杂度与序列长度的平方成正比,这成为大语言模型处理长上下文的主要瓶颈。传统注意力机制需要将大小为 $O(N...
近年来,随着 Transformer 架构的崛起,大语言模型的参数量呈现指数级增长。从 GPT-3 的 1750 亿参数到最新的万亿级模型,这种增长带来了性能的...
智识试题通AI好帮手是一款专为教育机构、企业、教师打造的单题精准识别工具。支持各类题型文本快速提取,无需手动录入,大幅提升试题整理、题库搭建效率。
春节作为中国最重要的传统节日,承载着团圆、陪伴与期盼的核心情感。但随着城市化进程加快、跨区域就业常态化,独居青年、异地过年打工人、海外华人等群体的 “孤独过年”...
自监督学习在近年的突破揭示了一个令人着迷的现象:随着模型规模的增大,智能能力并非线性增长,而是在特定临界点发生相变式跃迁。这种相变现象在语言模型、视觉表征和多模...
当前,GPT-4、LLaMA等百亿甚至万亿参数大模型在各类任务上展现出卓越性能,但巨大的计算开销和内存占用严重限制了其实际部署。单一优化技术往往只能在特定维度带...
近年来,多模态大模型如CLIP、DALL-E、Flamingo等展现出了令人惊叹的涌现能力——它们不仅能够分别处理视觉和语言信息,更重要的是能够在不同模态间建立...
当前的大型语言模型在感知和生成能力上取得了令人瞩目的成就,但它们的推理过程仍然是一个不透明的“黑箱”。这种黑箱特性带来了三大关键问题:可解释性缺失、逻辑推理薄弱...
随着大语言模型(LLMs)参数量突破万亿级别,传统的可解释性方法面临根本性挑战。早期基于"回路分析"(Circuit Analysis)的方法尝试在Transf...
随着大规模语言模型(LLMs)如GPT-4、LLaMA等在实际应用中的广泛部署,一个关键挑战日益凸显:如何高效、精准地更新这些模型内部存储的知识?传统的全量微调...
在算法公平性研究的核心,存在着一个深刻的数学悖论:我们能否同时实现统计上的机会均等和完美的概率校准?2016年,Kleinberg等人从理论上证明了,在某些条件...
在现实世界的机器学习部署中,一个长期存在的挑战是模型在面对与训练数据分布不同的样本时的行为不可预测性。这种分布外(Out-of-Distribution, OO...
在人工智能决策日益影响人类生活的今天,模型可解释性已从"锦上添花"变为"不可或缺"。然而,当前最流行的Shapley值解释方法正面临深刻的数学危机——其核心公理...
在人工智能系统日益渗透我们生活的今天,AI对齐问题——即如何确保AI系统的目标与人类价值观保持一致——已成为该领域最紧迫的挑战之一。传统方法往往将人类价值观视为...
在大语言模型(LLM)时代,推理阶段的计算效率已成为制约其广泛应用的关键瓶颈。传统的自回归解码方式虽然简单可靠,但其串行生成特性严重限制了推理速度。投机解码(S...
神经架构搜索(NAS)作为自动化机器学习的重要分支,近年来在深度学习领域引起了广泛关注。在众多NAS方法中,可微分架构搜索(DARTS)因其高效性而备受推崇。然...
在自监督学习的革命浪潮中,掩码图像建模(Masked Image Modeling, MIM)已然成为计算机视觉领域最具影响力的预训练范式之一。从自然语言处理中...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市