最近,在 github 看到了一个名为 FramePack 的图生视频项目,基于预测神经网络结构,可以在资源有限的设备上生成高质量的视频。它通过将上下文压缩成固定长度,使得生成任务的工作量与视频长度无关,从而实现高效且资源友好的视频生成。
FramePack 是由开源作者 lllyasviel 开发的一种基于“下一帧预测”(Next-Frame Prediction)的神经网络结构。它通过逐步生成下一帧内容,实现高质量视频的连续输出。与传统的视频扩散模型不同,FramePack 并不受视频长度限制,能够在资源有限的设备上处理成千上万帧的视频生成任务。
为了让更多人能够体验这一前沿技术,FramePack 对硬件的要求相对亲民:
设备 | 生成速度(单帧) |
---|---|
RTX 4090(桌面端) | 1.5~2.5 秒/帧(优化后) |
RTX 3070 Ti / 3060 笔记本 | 6~10 秒/帧 |
如果你发现生成速度远慢于以上数据,建议检查是否启用了正确的注意力优化模块(如 Flash Attention、SageAttention)。
FramePack 提供了 Windows 和 Linux 两个平台的支持,安装步骤如下:
update.bat
更新到最新版本run.bat
启动程序⚠️ 注意:务必运行 update.bat,否则可能使用旧版存在 bug 的代码
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
pip install -r requirements.txt
python demo_gradio.py
Gradio 界面支持多种参数配置,包括 --share
(生成公网访问链接)、--port
(指定端口)等,方便本地调试或远程部署。
FramePack 提供了一个简洁直观的图形界面(GUI),帮助用户快速上手:
由于 FramePack 是逐帧或逐段生成的模型,视频会随着每一步推理越来越长。你可以看到进度条实时显示当前生成进度,并通过预览窗口观察即将生成的内容。
🎯 小贴士:刚启动时可能会有些许延迟,这是由于 GPU 需要一定的“热身”时间,稍等片刻即可恢复正常速度。
复制此 prompt:
The girl dances gracefully, with clear movements, full of charm.
复制此 prompt:
The girl suddenly took out a sign that said “cute” using right hand
复制此 prompt:
The girl skateboarding, repeating the endless spinning and dancing and jumping on a skateboard, with clear movements, full of charm.
当一台万元级工作站就能运行 13B 参数视频大模型,内容生产的民主化进程又向前迈进了一大步。可以让大家在普通家用笔记本上就可以部署图生视频模型,无论对于独立创作者还是企业用户,FramePack 都提供了前所未有的生产力工具。
FramePack 项目地址:https://github.com/lllyasviel/FramePack?tab=readme-ov-file
想要获取 FramePack windows 系统下安装包得同学可以直接在我的公众号发送 1005,即可获取 windows 系统下得安装包。
👨💻欢迎关注我的公众号「程序员wayn」,技术成长社群正招募热爱coding的你,加入我们,一起深入探讨技术、分享经验、共同成长!