首页
学习
活动
专区
圈层
工具
发布

#视频

LTX-2有意思了 Comfyui爆显存 这个整合包CPU跑只要5G显存

疯狂的KK

LTX2目前已经杀疯了,他能火,那就会推动其他的开源模型进行跟进更新,比如WAN2.X,比如前段时间发布的秒级出视频震惊!单张RTX 5090秒出高清视频,清华...

5300

别让碎片化信息透支你的时间:如何用AI构建结构化知识库?

疯狂的KK

在学习领域,我们也面临类似的问题:B站、小红书、小宇宙等平台充斥着高质量的音视频干货,但由于这些信息是非结构化的,普通人很难高效提取其中的逻辑,导致收藏夹里堆满...

600

探秘腾讯混元大模型:技术架构、核心能力与实战应用

九日大大

Hunyuan-Video是目前开源社区中最先进的中文视频生成模型之一3。它采用图像-视频联合训练策略,确保模型既能理解静态画面,也能捕捉动态变化。该模型的关键...

6500

用好AI大模型和工具的两个底层逻辑-归纳和演绎,抽象和泛化

人月聊IT

那还有一类大模型工具,类似于我们画图的Midjourney,类似于做视频的Sora,或者是我最近用得比较多的Google的NotebookLM AI笔记,这一类...

1500

提示词技巧分享:一劳永逸版!

腾讯云开发者

首先你需要打开:Gemini 3.0 Pro(其他能识别图片视频、联网搜索的AI模型也行,但是可能效果没那么好)。跟它对话, 把我写好的这一整段话全部复制进去给...

2700

Python3 LLM 入门级高星 GitHub 项目选题与爆火全流程指南

玄同765

很多用户需要根据文字描述生成视频(如短视频、教学视频、广告视频),或者需要剪辑视频(如剪切、合并、添加背景音乐),或者需要生成视频字幕,但不想付费给 Runwa...

1700

DeepMind发布SIMA 2!打通「感知-推理-行动-反思」闭环

新智元

游戏领域的进步,一直是可被视为迈向通用人工智能的前奏,从棋类到多人合作的即时战略游戏,例如星际争霸。

3910

你敢信?微信里藏了个“私人笔记”,能发长视频、做攻略、还防偷窥!后悔没早知道!

程序那些事儿

嘿,微信重度用户们!你们是不是觉得,微信除了聊天、支付、看公众号,就没别的“大招”了?

6310

自回归最新SOTA!百度VideoAR:首个视频VAR框架,推理步数减少10倍,比肩扩散模型

AI生成未来

图2 视频增强现实的整体框架。给定文本提示时,视频帧首先通过多尺度因果3D分词器压缩成一系列时空标记。每个帧由多尺度的残差映射表示,这些映射通过带有分块因果掩蔽...

4110

硬刚谷歌Veo3!快手Klear统一多任务音视频联合生成:创新单塔架构,口型语音完美同步

AI生成未来

图 1 Klear,这是一个统一的音视频生成框架,它可以在联合和单模态设置中提供高保真度、强大的语义和时间对齐以及可靠的指令遵循,并具有强大的 OOD 泛化能力...

3110

一个人就是一支整编剧组!首个“统一导演”模型发布:字节UniMAGE,让脑洞原地变大片

AI生成未来

论文链接:https://arxiv.org/pdf/2512.23222 项目链接:https://kebii.github.io/UniMAGE/

3010

全栈视觉生成器杀到!上交&快手&南洋理工最新VINO:图像视频生成+编辑一网打尽

AI生成未来

论文链接:https://arxiv.org/abs/2601.02358 代码链接:https://github.com/SOTAMak1r/VINO-cod...

4110

“不是...而是...”刷屏的一年,我读内容的快乐被AI偷走了。

数字生命卡兹克

然后我就点开了一个播放量很高的万字拆解视频,这个UP主出的超级快,基本属于剧集更新之后,他一天出一个万字拆解的40分钟视频。

4210

复刻“黑客帝国”子弹时间!SpaceTimePilot:视频变可操控4D游戏,倒放/变速/运镜随你掌控

AI生成未来

论文链接:https://arxiv.org/pdf/2512.25075 项目链接:https://zheninghuang.github.io/Space-...

4610

首个亚秒启动的14B“数字人”开源!效率飙23倍!SoulX-LiveTalk:32FPS让对话丝滑如真人

AI生成未来

标准DMD无法解决长视频中误差累积或身份漂移的问题。受Self-Forcing++的启发,本文引入了自校正双向蒸馏,其中包含一个多步回顾性自校正机制,以明确模拟...

10810

口型匹配、身份保持全面SOTA!清华&可灵X-Dub:抛弃修复思维,用“编辑”实现精准同步!

AI生成未来

图1:超越了mask-inpainting,X-Dub将视觉配音重新定义为丰富的上下文、全参照的视频对视频剪辑,即使在有遮挡和动态光照的挑战场景中,也能实现精准...

4410

凯哥 丨 止损按钮: 按下去是一种能力

凯哥

季逸超(Peak)在办公室里,手边是一杯早就凉透的咖啡。电脑屏幕上是他们刚训练 做出来的产品指标,漂亮得像年终总结:抽取、检索、召回、精度,样样都能讲故事。

5010

《Nature》亲授!10个万能提示词,AI带你3步读完1000篇论文

用户11203141

首先,是处理那些“看不见”的知识。现在很多高质量的前沿观点,其实是在播客访谈或者学术讲座视频里。以前,我们得边听边记,效率极低。现在,多模态AI工具可以直接把音...

12110

做科研不会用Gemini 3?小心被同行甩开几条街

用户11203141

有人已经用AI工具把文献综述的进度拉快了两三倍,有人还在手动一篇篇地看PDF,每天熬到凌晨两三点。差距,好像就是从会不会用新一代的AI工具开始的。 这让我想起去...

8810

即梦AI的七面镜子:我低估了AI理解电影的速度

科技旋涡

画面的“闪烁”和“抖动”曾是AI视频的原罪,它在过去无时无刻不在提醒观者——这只是一项不成熟的技术产物。以致于之前的AI视频作品,很难让人真正沉浸其中。

5710
领券