点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.DreamDiffusion: Generating High-Quality Images from Brain EEG Signals
标题:DreamDiffusion:从大脑脑电图信号生成高质量图像
作者:Yunpeng Bai, Xintao Wang, Yanpei Cao, Yixiao Ge, Chun Yuan, Ying Shan
文章链接:https://arxiv.org/abs/2306.16934
摘要:
本文介绍了 DreamDiffusion,这是一种直接从大脑脑电图 (EEG) 信号生成高质量图像的新方法,无需将思想转化为文本。DreamDiffusion 利用预训练的文本到图像模型,并采用时间掩蔽信号建模来预训练 EEG 编码器,以实现有效且稳健的 EEG 表示。此外,该方法还利用 CLIP 图像编码器提供额外的监督,以更好地将 EEG、文本和图像嵌入与有限的 EEG-图像对对齐。总体而言,所提出的方法克服了使用脑电信号进行图像生成的挑战,例如噪声、信息有限和个体差异,并取得了有希望的结果。定量和定性结果证明了所提出方法的有效性,是朝着便携式和低成本“思想到图像”迈出的重要一步,在神经科学和计算机视觉方面具有潜在的应用。
2.Generate Anything Anywhere in Any Scene
标题:在任何场景中的任何地方生成任何内容
作者:Yuheng Li, Haotian Liu, Yangming Wen, Yong Jae Lee
文章链接:https://arxiv.org/abs//2306.17154
项目代码:https://yuheng-li.github.io/PACGen/
摘要:
文本到图像的扩散模型由于其在不同领域的广泛适用性而引起了人们的极大兴趣。然而,为个性化对象生成创建可控模型仍然存在挑战。在本文中,我们首先识别现有个性化生成模型中的纠缠问题,然后提出一种直接有效的数据增强训练策略,引导扩散模型仅关注对象身份。通过插入预先训练的可控扩散模型中的即插即用适配器层,我们的模型获得了控制每个生成的个性化对象的位置和大小的能力。在推理过程中,我们提出了一种区域引导采样技术来保持生成图像的质量和保真度。我们的方法为个性化对象实现了相当或更高的保真度,产生了强大的、多功能的、可控的文本到图像扩散模型,能够生成逼真和个性化的图像。我们的方法展示了各种应用的巨大潜力,例如艺术、娱乐和广告设计。
Subjects: cs.CL
3.FLuRKA: Fast fused Low-Rank & Kernel Attention
标题:FLuRKA:快速融合低阶和内核注意力
作者:Ahan Gupta, Yueming Yuan, Yanqi Zhou, Charith Mendis
文章链接:https://arxiv.org/abs/2306.15799
摘要:
自 Transformer 架构诞生以来,许多高效的近似自注意力技术已经变得流行。这些技术的两个流行类别是低秩方法和内核方法。这些方法中的每一种都有其自身的优点。我们观察到这些优势相互补充,并利用这些协同作用来融合低秩和内核方法,产生一类新的转换器:FLuRKA(快速低秩和内核注意)。与这些近似技术相比,FLuRKA 提供了相当大的性能提升,并且质量很高。我们从理论上和实证上评估了 FLuRKA 的运行时性能和质量。我们的运行时分析假设了各种参数配置,其中 FLuRKA 表现出加速,并且我们的准确性分析限制了 FLuRKA 相对于完全注意力的误差。我们实例化了三个 FLuRKA 变体,其经验加速分别比低秩方法和核方法高达 3.3 倍和 1.7 倍。这意味着比全注意力模型的速度提高了 30 倍。就模型质量而言,在 wiki 文本 103 上进行预训练后,FLuRKA 可以匹配 GLUE 上低秩方法和核方法的准确性。在固定时间预算上进行预训练时,FLuRKA 比具有完整模型的模型产生更好的困惑度分数。注意力。
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat
点击卡片,关注「AiCharm」公众号
喜欢的话,请给我个在看吧!