13.5 大语言模型文生视频能力评测
为什么需要评测视频质量
在基于大语言模型的文生视频技术中,视频质量评测的重要性不言而喻。这种技术涉及到将文本信息转化为视觉元素,然后再将这些元素合成为视频。在这个过程中,视频质量的好坏直接影响到最终的输出结果,也就是视频的观看体验。
首先,视频质量的好坏会直接影响到观众的观看体验。高质量的视频可以提供清晰的图像和流畅的动画,使观众能够更好地理解和享受视频内容。相反,低质量的视频可能会有模糊的图像、卡顿的动画和不同步的音频,这会降低观众的观看体验,甚至可能使观众放弃观看。
其次,视频质量也会影响到信息的传递。在基于大语言模型的文生视频中,视频是将文本信息转化为视觉信息的重要方式。如果视频质量低,可能会影响到信息的清晰度和准确性,从而影响到观众的理解和接受。
最后,视频质量也是视频制作和发布的重要考量因素。对于视频制作人来说,他们需要通过评测视频质量来优化视频制作过程,提高视频质量。对于视频发布平台来说,他们需要通过评测视频质量来选择和推荐视频,提高用户满意度。
因此,评测视频质量是非常重要的。通过评测视频质量,我们可以了解视频的优点和缺点,优化视频制作和发布过程,提高观众的观看体验和满意度。
视频质量评测的挑战和问题
虽然视频质量评测非常重要,但是它也面临着一些挑战和问题。
首先,视频质量的定义和标准是一个挑战。视频质量可能包括图像质量、动画流畅度、音频同步性等多个方面,每个方面都有多个可能的评测指标。例如,图像质量可能包括清晰度、色彩准确性和噪声等指标,动画流畅度可能包括帧率、延迟和卡顿等指标,音频同步性可能包括音视频同步误差和音频延迟等指标。因此,如何定义和选择评测指标是一个挑战。
其次,视频质量的评测方法是一个问题。目前,视频质量的评测主要有主观评测和客观评测两种方法。主观评测是通过人的观感来评测视频质量,它可以提供直观和准确的评测结果,但是它需要大量的人力和时间,且结果可能受到个人偏好和环境因素的影响。客观评测是通过计算机算法来评测视频质量,它可以快速和自动地进行评测,但是它需要复杂的算法和大量的计算资源,且结果可能受到算法和模型的限制。
再者,基于大语言模型的文生视频技术的特性也带来了一些特殊的挑战。例如,如何准确地将文本信息转化为视觉元素,如何有效地将这些元素合成为视频,如何处理和优化大语言模型的输出结果等。
最后,视频质量的优化和改进是一个挑战。评测视频质量的目的是为了优化和改进视频质量。然而,视频质量的优化和改进需要对视频制作和发布过程进行深入的理解和分析,需要结合多种技术和方法,这是一个复杂和困难的任务。
总的来说,视频质量评测是一个重要但是复杂的任务。我们需要深入理解和研究视频质量的定义、评测方法和优化策略,以应对这些挑战和问题。
例如,我们可以通过研究和比较不同的评测指标,来定义一个全面和准确的视频质量标准。我们可以通过开发和优化评测算法,来提高客观评测的准确性和效率。我们可以通过分析和理解大语言模型的工作原理,来优化文生视频的生成过程。我们可以通过实验和反馈,来改进视频质量的优化策略。
此外,我们还可以借鉴其他领域的经验和技术,来帮助我们进行视频质量评测。例如,我们可以借鉴图像处理和计算机视觉领域的技术,来评测和优化图像质量。我们可以借鉴机器学习和深度学习领域的技术,来自动化和优化评测过程。我们可以借鉴用户体验和服务质量领域的技术,来评测和改进观众的观看体验。
总的来说,视频质量评测是一个重要但是复杂的任务。它需要我们深入理解和研究视频质量的定义、评测方法和优化策略,需要我们结合多种技术和方法,需要我们不断地实验和反馈。只有这样,我们才能有效地评测视频质量,提高视频的观看体验和满意度,推动基于大语言模型的文生视频技术的发展。
VBench[13]是一个全面的视频生成模型评测套件,它的设计目标是为视频生成模型提供一个多维度、与人类感知对齐、富有洞察力的评估。
图13-30 VBench评测流程
以下是VBench评测流程的介绍,参见图13-30:
(1) 评估维度套件(Evaluation Dimension Suite):VBench将视频生成质量分解为多个定义明确的维度,以便于进行细粒度和客观的评估。这些维度包括视频质量(如主题一致性、背景一致性、时间闪烁等)和视频条件一致性(如语义、风格等),详细评估维度清单参见图13-31。
图13-31 VBench生成视频质量评估维度
(2) 提示套件(Prompt Suite):针对每个评估维度和每个内容类别,VBench设计了专门的提示(prompts)作为测试案例。这些提示用于引导视频生成模型产生特定的输出。
(3) 生成视频(Generated Videos):使用一组视频生成模型,根据提示套件生成视频。这些视频将用于后续的评估和比较。
(4) 评估方法套件(Evaluation Method Suite):对于每个评估维度,VBench设计了特定的评估方法或指定的流程来进行自动客观评估。这些方法可能包括计算特征相似性、美学质量预测、成像质量评估等。
(5) 人类偏好注释(Human Preference Annotation):VBench收集了人类对生成视频的偏好注释,以验证评估方法与人类感知的一致性。这些注释也可用于未来调整生成和评估模型,以提高与人类感知的一致性。
(6) 多维度和多类别评估:VBench不仅在多维度上评估T2V(文本到视频)模型,还跨不同内容类别进行评估,以揭示模型在不同内容类型中的不同能力。
(7) 实验和洞察(Experiments and Insights):VBench通过实验提供了对视频生成模型在不同维度和类别上的表现的深入洞察。这些洞察有助于理解现有模型的优势和劣势,并指导未来视频生成模型的架构和训练设计。
(8) 开源和社区参与:VBench计划开源其评估维度套件、评估方法套件、提示套件、生成的视频和人类偏好注释数据集。同时,鼓励更多的视频生成模型参与到VBench挑战中,以推动视频生成领域的发展。
(9) 结果可视化:VBench将评估结果以图表的形式进行可视化,如雷达图,清晰地展示不同模型在各个维度上的表现。
视频质量是评估视频生成模型时考虑的一个重要方面,它主要关注视频本身的观感质量,而不考虑与文本提示的一致性。视频质量被进一步细分为两个独立的方面:“时间质量”(Temporal Quality)和“帧质量”(Frame-Wise Quality)。
(1) 时间质量(Temporal Quality)
时间质量关注的是视频帧之间的一致性和动态效果,具体包括以下几个维度:
(2) 帧质量(Frame-Wise Quality)
帧质量关注的是不考虑时间质量情况下,每个单独帧的质量,具体包括:
(3) 评估方法
对于上述每个维度,VBench 设计了专门的评估方法,这些方法使用精心设计的计算方式或指定的流程来实现自动客观评估。例如:
视频条件一致性关注的是视频内容是否与用户提供的条件(例如文本提示)保持一致。这一类别主要分为两个方面:“语义”(Semantics)和“风格”(Style),每个方面又进一步细分为更具体的维度。
(1) 语义(Semantics)
语义维度评估视频内容是否符合文本提示中描述的实体类型及其属性,具体包括:
(2) 风格(Style)
风格维度评估视频在视觉上是否符合用户请求的风格,具体包括:
(3) 评估方法
对于上述每个维度,VBench 设计了专门的评估方法,这些方法使用特定的工具和技术来实现自动客观评估。例如:
VBench作为一个视频生成模型的评测套件,虽然在多维度评估和与人类感知对齐方面具有显著优势,但仍存在一些局限性。以下是VBench可能面临的一些限制:
SuperCLUE-Video[14]是为中文视频生成模型设计的评测基准,旨在提供标准化的测试流程和评估指标,帮助研究人员和开发者更好地评估和比较不同模型的性能。
SuperCLUE-Video文生视频的评测指标体系,参见图13-32:
图13-32 SuperCLUE-Video 文生视频评测体系
(1) 视频感官质量评估: 包括外观一致性、画面稳定性、认知一致性、动态真实性和流畅性。
(2) 文本与视频对齐: 包括对象一致性、要素完整性、特征准确性、程度区分和时空表现。
(3) 物理真实性模拟: 包括流体动力表现、光影效果和交互仿真度。
(4) 中文原生场景支持: 包括语言逻辑理解、语义完整表现和文化元素呈现。
在本章,我们首先以ChatGPT和AIGC文生图为例,讲解如何将大模型应用到我们前面章节介绍的AI模型测试中。然后我们系统介绍了大语言模型的三种能力的评测,包括:基础能力评测、文生图能力评测以及文生视频能力评测。针对每种能力,我们详细介绍了常见的评测标准及其各自的局限性。
大模型的技术更新速度令人瞩目,从2018年的GPT-1到2020年的GPT-3,模型的参数量从1.1亿个增长到了1750亿个,2年的时间内增长了1000多倍。而2023年发布的GPT4据悉已达到了万亿级别的参数。
在中国,2023~2024年也迎来的“百模大战”的时代,基础大模型不断推出,比如:百度的“文心”大模型,阿里的“通义”大模型,腾讯的“混元”大模型,华为的“盘古”大模型,以及来自清华的ChatGLM等。
在单模态通用大模型的基础上,各个行业的垂直大模型也在不断涌现,如:教育大模型、工业大模型、医疗大模型、金融大模型、代码大模型等。同时,多模态大模型正成为当前大模型的最新的演进方向。
相信这些大模型的发展,会给AIGC的发展提供更大的基础动力。这种快速的发展为研究者和开发者提供了无尽的可能性,但同时也带来了巨大的挑战。因为技术更新快,需要我们不断学习新的知识和技能,以跟上这个领域的发展步伐。我们需要抓住这个领域的快速发展带来的机遇,同时也要面对并解决伴随而来的挑战。只有这样,我们才能推动大模型的技术不断前进,实现其在更多领域的应用。
[1] ControlNet:https://github.com/lllyasviel/ControlNet
[2] Text2Video:https://github.com/Picsart-AI-Research/Text2Video-Zero
[3] Sora: https://openai.com/index/sora/
[4] Magic3D:https://research.nvidia.com/labs/dir/magic3d/
[5] Text2Room:https://lukashoel.github.io/text-to-room/
[6] HELM:https://crfm.stanford.edu/helm/classic/latest/
[7] SuperCLUE:https://www.cluebenchmarks.com/superclue.html
[8]HPS:https://arxiv.org/abs/2306.09341
[9]TIFA:https://arxiv.org/abs/2303.11897
[10]PickScore:https://arxiv.org/abs/2305.01569
[11]LLMScore:https://arxiv.org/abs/2305.11116
[12]SuperCLUE-Image:https://www.cluebenchmarks.com/superclue_image.html
[13] VBench: https://vchitect.github.io/VBench-project/
[14]SuperCLUE-Video:https://www.cluebenchmarks.com/superclue_video.html