某中心推出的Veo 3可以根据文本提示生成带有音频的视频。音频内容可以是对话、画外音、音效和音乐。
首先了解基础知识。精心设计的提示语是生成优质视频的关键。在提示语中用平实的语言描述得越具体,Veo 3就越容易理解并生成你想要的视频。
尝试在提示语中包含以下视觉元素:
你还需要包含音频元素,下文将更详细地介绍。
以下是一个基本提示语与详细提示语的示例对比:
第二个提示语包含了结构性元素,以引导Veo 3朝着我们试图创建的场景发展。
<video controls><source src="basic\_prompt\_video.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
基本提示生成视频
<video controls><source src="detailed\_prompt\_video.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
详细提示生成视频
如果你熟悉像Midjourney或Flux这样的模型,你会知道运行相同的提示语几次(即使用不同的种子)会得到相当程度的变化。
Veo 3则不同。对于相同的提示语,即使是相当简单的提示,Veo 3也会输出非常相似的结果。你可能会看到相同长相的人穿着相同的衣服,出现在相似的地方。如果你生成的输出有轻微错误,比如连贯性或音频故障,这非常有用——你可以运行不同的种子来获得你想要的结果。但如果你处于探索模式,希望看到各种可能性,那么多次运行相同的提示语是在浪费资金。
在下面的示例中,我们用不同的种子运行了两次提示语“一个女人在笑”。注意她看起来一模一样,穿着相同的衣服,以相同的方式笑,房间也一样,她甚至戴着相同的耳环。一个模型能如此一致是不寻常的。
<video controls><source src="first\_video.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
第一个视频
<video controls><source src="second\_video.mp4" type="video/mp4">你的浏览器不支持视频标签。</视频>
第二个视频
如果你还不确定自己想要什么,可以从几个大体不同的提示语开始。如果你知道想要某些元素,那么就对那些元素进行具体描述。
在这个视频中,我们可以明显做的是开始尝试描述:
以下是几个例子:
通常,在使用没有起始帧或场景成分的视频模型时,角色一致性很难保持。这些功能即将在Veo 3中推出。
与此同时,由于相似的提示语会产生相似的角色,如果你在多次生成中保持角色详细提示描述的一致性,通常会得到一个长相相同的人。这意味着你可以保留一个角色描述列表,并在不同的提示语中逐字重复它们:
John,一个40多岁的男人,棕色短发,穿着蓝色夹克和眼镜,看起来若有所思。
这些描述越独特和具体,Veo 3在单独生成的场景之间保持视觉连续性的效果就越好。创建具有确切措辞的角色参考表以确保一致性。
<video controls><source src="john\_video1.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
John视频示例1
<video controls><source src="john\_video2.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
John视频示例2
由于Veo 3会为每个视频生成音频,你也需要为你想要听到的音频进行提示。考虑以下元素:
你用Veo 3创建的角色可以非常生动。他们会说话、讲笑话、打手势,有时还能表演。但如果你想让他们说话,你需要进行提示。
你可以用两种不同的方式提示对话:
这两种方式都会生成一个男人说话的视频,第一种会使用你要求的确切词语,第二种会让模型决定如何表达,在这种情况下,模型会为你决定一个名字。
如果你明确要表达的内容,尽量保持对话简短。内容应该能在约8秒内说完。
如果你试图塞入太多内容,最终可能会导致角色说话速度过快。如果你要求他们说的太少,可能会得到尴尬的沉默或角色说出无意义的AI胡言乱语(如下面的第二个例子)。没有明确的指导,模型将无法编造它需要的所有词语。
<video controls><source src="long\_dialogue.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
对话过长示例
<video controls><source src="short\_dialogue.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
对话过短示例
如果你不擅长写对话,隐含的对话提示会有所帮助。你也可以转录你喜欢的输出,以便在以后的提示中使用。
在这里,我们让Veo 3创建一个单口喜剧演员在音乐节上讲笑话的视频,首先我们让Veo 3决定笑话内容。第二个视频我们让Veo 3尝试讲出我们在提示语中放入的笑话。
<video controls><source src="implicit\_joke.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
隐含笑话提示
<video controls><source src="explicit\_joke.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
明确笑话提示
你可以尝试的一些提示语,看看Veo 3在对话方面的多样性:
有时你会发现模型发音不正确。处理这个问题最简单的方法是按发音拼写单词。在开头的例子中,我们的播客主持人说:
Read on to get fofr and Shridar’s guidance on making videos
但为了得到我们名字的正确发音,我们不得不将提示语改为:
Read on to get foh-fur’s and Shreedar’s guidance on making videos
当你提示多个角色之间的对话时,有时会发现Veo 3会混淆谁说了什么。当角色描述相似,并且对Veo 3来说哪个角色是哪个模糊不清时,这种情况很常见。
尽量在你的提示语中明确谁在说话:
Veo 3肯定是在大量带有硬编码字幕的视频上训练的,因为在输出中经常看到拼写错误和不正确的字幕。它们经常毁掉一次生成,但有几种简单的方法可以避免它们:
如果你没有在视频中定义你想听到的背景音频,那么Veo 3需要自己推断,通常这没问题,但有时会出错。现场演播室观众是一种常见的幻觉。有时这是你想要的,比如虚假的情景喜剧。但通常额外的笑声与场景不匹配。Veo 3甚至在制作上面的例子时也这样做过,以下是一个不合适的演播室观众毁掉一次生成的例子:
<video controls><source src="unwanted\_audience.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
不需要的演播室观众背景笑声示例
避免这种情况最简单的方法是明确提示你期望听到的音频。在本例中,我们通过添加“远处乐队的声音、嘈杂的人群、繁忙节日场地的环境背景”来修正生成,以获得输出中正确的感觉。
就像视频的其他部分一样,如果你想要场景中有音乐,你需要在提示语中包含它。
同样,你可以明确描述你想听到的音乐的类型、风格和情绪。或者你可以更模糊一些,让Veo 3决定。
开箱即用的Veo 3通常会生成看起来制作精良的实景视频,比如流畅的专业演示、商业广告或音乐视频。
如果你想让它偏离这种风格,你需要在提示语中包含一个风格。以下是Veo 3知道如何生成的一些风格示例,提示语是:
以风格名称风格:一个留着胡子的男人穿着法兰绒衬衫和破旧的牛仔裤,盘腿坐在闪烁的篝火旁,琥珀色的火光在安静森林空地上撒满松针的地面上投下柔和、舞动的阴影。在他对面,就在火光边缘之外,站着一只巨大的灰熊,平静而静止,它的皮毛映照着温暖的光芒,眼睛反射着火焰,带着诡异的智慧。两人握手,就像老朋友一样。
你会注意到,不仅视频的外观发生了变化,角色移动和互动的方式也发生了变化。
在每一个示例中,音频保持非常相似,我们没有对音频进行不同的提示,它在不同风格之间变化不大。
<video controls><source src="original\_style.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
原始风格
<video controls><source src="lego\_style.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
乐高风格
<video controls><source src="claymation\_style.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
黏土动画风格
<video controls><source src="southpark\_style.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
南方公园风格
<video controls><source src="pixar\_style.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
皮克斯动画风格
<video controls><source src="8bit\_style.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
8位复古风格
<video controls><source src="graphic\_novel\_style.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
图画小说风格
<video controls><source src="origami\_style.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
折纸风格
<video controls><source src="simpsons\_style.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
辛普森一家风格
<video controls><source src="blueprint\_style.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
蓝图风格
<video controls><source src="anime\_style.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
动漫风格
<video controls><source src="marble\_style.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
大理石风格
正如你所料,就像其他视频模型一样,Veo 3对常见的摄像机运动提示反应良好。使用以下这些术语,你可以控制视频中的动作:
<video controls><source src="zoom\_in.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
变焦推进
<video controls><source src="zoom\_out.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
变焦拉出
<video controls><source src="pan\_left\_right.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
左右摇摄
<video controls><source src="dolly\_shot.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
推拉镜头
Veo 3在制作看起来真实的自拍视频方面出奇地好。发现某些短语似乎能持续解锁这种行为。
以“一段自拍视频,内容是...”开头比仅仅描述一个拿着相机的人效果要好得多。
让手臂可见是保持真实感的关键。大猩猩的例子很好地展示了这一点:“将相机举在一臂远的地方。他长长的、有力的手臂在画面中清晰可见。”正是这一点让它看起来像真正的自拍,而不是特写镜头。
自然的眼神移动也有很大帮助。东京的例子展示了这一点:“偶尔看向相机,然后转身指向有趣的摊位。”这种自然的扫视行为比直接盯着相机效果更好。
以下是两个展示其工作原理的例子:
<video controls><source src="tokyo\_vlogger.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
东京旅行博主自拍
<video controls><source src="gorilla\_selfie.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
大猩猩自拍
东京例子还表明:添加“图像略有颗粒感,看起来非常像胶片”似乎能将输出推离那种过于干净的AI外观。最终感觉更像是用手机实际拍摄的东西。
目前Veo 3本身不支持竖屏视频,只支持16:9的横屏。但是,你可以使用像Luma的Reframe Video这样的模型,获取一个横屏视频并进行外绘。
Reframe video允许你传入任何视频(最长30秒),并将其外绘为指定纵横比的新视频。所有输出将为720p。
<video controls><source src="reframed\_vertical.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
一个被重新框定为9:16竖屏视频的Veo 3视频
Veo 3对竖屏视频的原生支持即将推出。
Veo 3擅长模拟逼真的物理效果,在应用不同风格的同时保持适当的运动和交互。该模型保留了物体的自然运动,确保即使转化为不同的艺术风格,坠落、弹跳和流体运动等基于物理的动画也保持物理准确性。
<video controls><source src="physics\_lego.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
乐高风格物理
<video controls><source src="physics\_origami.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
折纸风格物理
<video controls><source src="physics\_chrome.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
铬金风格物理
<video controls><source src="physics\_paint.mp4" type="video/mp4">你的浏览器不支持视频标签。</video>
油漆风格物理
默认情况下,Veo 3输出1280p x 720p的视频。建议使用Topaz Lab的Video Upscaler将视频提升至4k分辨率和每秒60帧。
平淡的视频和出色的视频之间的区别在于你的提示语。使用Veo 3时,你不仅仅是在描述发生了什么,你是在导演一个场景。高质量的视频将融合主体、背景、动作、摄像机工作、音频和情绪。像电影制作人一样思考,Veo 3将跟随你的引导。
最后一个提示语示例:
一个播客节目,一个女人穿着灰色毛衣,深棕色凌乱的头发盘成发髻,发丝勾勒着脸庞。她在一个有粉红色和金色向上照明的房间里。无字幕。她在做结束语,对着麦克风说话时直视镜头(无字幕!):这就是我们指南的结尾,希望你觉得有用。欢迎在Replicate上尝试Veo 3,别忘了在X上关注我们。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。