暂无搜索历史
论文链接:https://arxiv.org/pdf/2512.23568 项目链接:https://github.com/jiaosiyuu/ThinkGen...
论文链接:https://arxiv.org/pdf/2512.22096 开源代码:https://github.com/stdstu12/YUME 工程...
图1 KlingAvatar 2.0生成生动、保持身份的数字人类,具备精准的摄像头控制、丰富的情感表达、高质量的动作以及精准的面部-唇部和音频同步。它实现了音频...
文章链接:https://arxiv.org/pdf/2512.11715 Project Page: https://weichow23.github.io...
论文地址:https://arxiv.org/pdf/2512.16900 项目主页:https://francis-rings.github.io/Flas...
在视频生成领域,如何精准地按照人类指令编辑视频一直是个难题。现有的方法要么依赖复杂的 Mask(掩码)导致无法统一模型,要么虽然统一但缺乏空间定位能力,导致编辑...
论文链接:https://arxiv.org/pdf/2512.16776 体验链接:https://app.klingai.com/global/omni/n...
文章链接:https://arxiv.org/pdf/2512.16093 代码链接: https://github.com/thu-ml/TurboDiff...
本工作考虑语言条件下的机器人操作任务。对于每个具身智能体,任务定义了动作 、观测 (视觉输入)、语言指令 以及机器人的本体感知 ,其中 分别表示动作空间、观...
论文链接:https://arxiv.org/pdf/2512.14614 项目链接:https://3d-models.hunyuan.tencent.com...
论文链接:https://arxiv.org/pdf/2512.11749 代码链接:https://github.com/KlingTeam/SVG-T2I ...
现在的文生图模型(SD, Flux等)在做局部替换时表现出色,但在涉及非刚性形变(如物体破碎、融化)或时间推理(如“一小时后”、“煮熟后”)的任务时,往往力不从...
论文链接:https://arxiv.org/pdf/2512.08765 项目链接:https://github.com/ali-vilab/Wan-Move
本文第一作者Tianyang Han是美团MeiGen团队的算法研究科学家,主要研究方向是图像生成和多模态大语言模型。
UnityVideo 在单个 Diffusion Transformer 中统一了视频生成和多模态理解。如图 3 所示,该模型通过共享的 DiT 主干网络 处...
文章链接:https://arxiv.org/abs/2511.23475 开源链接:https://github.com/HKUST-C4G/AnyTalk...
项目链接:https://tuna-ai.org/ 文章链接:https://arxiv.org/pdf/2512.02014 Huggingface: h...
项目链接:https://hunyuan-gamecraft-2.github.io/ 论文链接:https://arxiv.org/pdf/2511.234...
本文采用自回归文生图模型验证RubricRL框架有效性,该框架同样适用于扩散模型。本节首先介绍RubricRL整体架构,随后详述基于量规的奖励设计、RL训练方法...
论文链接:https://arxiv.org/pdf/2511.20635 项目链接:https://kr1sjfu.github.io/iMontage-we...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市