这是【码农突围】的第 479 篇原创分享
作者 l 突围的鱼
来源 l 码农突围(ID:smartyuge)
纵观国内玩家,已有超15家企业推出了视频生成工具,既包括百度、阿里、腾讯、字节等6家巨头,也包括爱诗科技、生数科技、智象未来等9家创企。
此前传出腾讯杰出科学家、腾讯混元大模型技术负责人之一刘威,目前已经从腾讯离职。
今年 5 月,刘威以混元大模型技术负责人之一的身份,出席 InfoQ 举办的 AICon 全球人工智能开发与应用大会并发表了《腾讯混元大模型技术和应用实践》的主题演讲。今年 9 月,他还在 2024 外滩新媒体年会上发表了题为《生成式 AI 的发展与腾讯混元大模型的实践》的主旨演讲。
最近腾讯Sora版本发布,看来没有受到影响。AIGC,文生视频是最复杂的,也是所以大模型厂商最后才发布。
高质量视频生成,包括文本到视频(T2V)、图像到视频(I2V)和视频到视频(V2V)生成,在内容创作和世界模拟中具有重要意义,帮助人们以全新的方式表达其内在创造力,并用于建模和理解世界。像SORA这样的模型在生成高分辨率、更自然的运动、更好地对齐视觉与语言以及提高可控性,特别是在长视频序列方面,取得了显著进展。这些改进得益于模型架构的演变,从UNet转向了更具可扩展性和参数丰富的DiT模型,伴随着大规模数据扩展和优化的训练策略。然而,尽管基于DiT的闭源和开源模型不断涌现,针对其能力和局限性的全面研究仍然缺乏。此外,由于快速发展的技术,现有的基准测试难以充分涵盖类似SORA的模型,并认识到其重要的进展。此外,评估指标常常难以与人类偏好对齐。
学术界去年提出基础DiT架构,混元DiT在此之上进一步升级,有更强语义编码,针对更长、更复杂的文本能理解得更准确,原生中英双语支持,尺寸更易扩展。
腾讯混元已面向社会全面开放,企业级用户或开发者可通过腾讯云使用腾讯混元大模型,个人用户可通过网页端与小程序体现腾讯混元的能力。
官网:http://dit.hunyuan.tencent.com/
代码:https://github.com/Tencent/HunyuanDiT
模型:https://huggingface.co/Tencent-Hunyuan/HunyuanDi
论文:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf