暂无搜索历史
文章链接:https://arxiv.org/abs/2603.28767 项目链接:https://gen-searcher.vercel.app/ 代码链...
复旦大学与阶跃星辰最新研究开源,聚焦人脸的细粒度表情编辑,把表情编辑真正做出了 PhotoShop 编辑的感觉!
现有双向架构的多镜头视频生成方法存在两大局限:一是缺乏交互性,需要预先提供所有提示,无法在生成过程中动态调整叙事;二是推理延迟高,难以实现实时生成。
项目页:https://soul-ailab.github.io/soulx-liveact/ 代码仓库:https://github.com/Soul-AIL...
视觉自回归(AR)生成模型在图像生成方面的性能显著落后于扩散模型。研究人员发现其核心瓶颈在于生成器-分词器之间存在不一致性。具体表现为:
GitHub: https://github.com/PKU-YuanGroup/Helios 项目主页: https://pku-yuangroup.gith...
作者:该工作出自华为小艺香港研究团队,该团队长期聚焦视觉生成、理解与Agent相关领域。
当前所有部署的 AI 智能体都在不断产生交互数据(动作 后的下一状态 ),但现有的智能体强化学习系统却将这些数据白白丢弃,或仅用作下一轮预测的上下文。这导致了...
开源代码 (GitHub) :https://github.com/OpenGVLab/InternVL-U
文章链接:https://arxiv.org/pdf/2602.01756 Git链接:https://github.com/PicoTrex/Mind-Br...
论文地址:https://arxiv.org/abs/2510.02253 项目代码:https://github.com/Edennnnnnnnnn/Drag...
在实时数字人赛道,开发者们曾长期面临一个困扰:追求高画质就需要具备昂贵的 H800 集群,追求低成本就得忍受“面瘫”和画面崩坏。
本文介绍清华大学智能驾驶课题组(iDLab)在 IEEE ITSC 2025(最佳学生论文奖提名)发表的最新研究成果《Distributional Soft A...
作者单位:复旦大学、阶跃星辰、HKU MMLab, University of Queensland
在视觉自回归(AR)模型狂奔的今天,我们似乎已经习惯了将 Tokenizer 和生成器当作完美的黑盒组合。然而,回归事物的本质,我们必须直面一个“房间里的大象”...
SkyReels-V4 能够生成最高达 1080p、32 FPS、15 秒的带同步音频的电影级多镜头视频。在 Artificial Analysis 的文本到视...
文章链接: https://arxiv.org/abs/2509.21278 git链接: https://github.com/ZhumingLian/SH...
很多AI 海报生成默认从一句 prompt 出发(Text-to-Poster)。但在真实设计流程里,更常见的起点其实是一张参考图/旧海报/产品主视觉:你希望在...
论文链接:https://openreview.net/forum?id=JGkZgEEjiM
解决了当前DLM受限于AR遗留架构和优化框架,导致无法突破“因果瓶颈”(Causal Bottleneck)、推理效率低、缺乏全局结构化思维以及难以实现复杂逻辑...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市