前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >13.4 大语言模型文生图能力评测

13.4 大语言模型文生图能力评测

作者头像
bettermanlu
发布于 2025-04-07 06:29:11
发布于 2025-04-07 06:29:11
1100
举报

本节内容摘自本人编著的<<人工智能-计算机视觉算法测试与应用指南>>,目前已在微信读书、京东读书等平台上架。

13.4 大语言模型文生图能力评测

大模型的文生图能力,不仅推动了创意产业的创新,还在教育、医疗、娱乐等多个领域展现出广泛的应用前景。通过将自然语言处理与计算机视觉相结合,这些模型能够理解文本内容并生成相应的图像,极大地丰富了人机交互的方式。

本节将深入探讨大模型在文生图能力方面的评测方法与标准。本节会介绍几种常见的大模型评估方法,并介绍其评估原理以及评估步骤,同时也会介绍一些不同评估方法的优缺点,让大家能够更加全面的了解这些评估方法。

13.4.1 HPS

13.4.2 TIFA

13.4.3 PickScore

13.4.4 LLMScore

13.4.5 SuperCLUE-Image

SuperCLUE-Image[12]主要从以下几个维度评估模型的能力,参见图13-29。

图13-29 SuperCLUE-Image评测基准

对于图像质量的评测,分别考虑了构图、光彩、细节处理、用户体验、分辨率、锐度和结构合理性,其中:

构图:评价图像的整体布局和视觉吸引力

光彩:评价图像色彩的对比度和和谐程度

细节处理:评价图像的细节清晰度和表现力

用户体验:评价观众的视觉感受与情感共鸣

分辨率:评价图像整体的清晰度

锐度:评价图像边缘的清晰度

结构合理性:评价图像中元素的布局与逻辑关系

对于图文一致性,主要是考虑了文本含义、单轮交互、多轮交互、语言理解、逻辑连贯性和中文语言环境,其中:

文本含义:评价生成的图像与输入的文本之间的一致性

单轮交互:评价单次输入与输出的匹配程度

多轮交互:评价在多次输入中保持一致性的能力

语言理解:评价对输出图像对输入文本的理解深度

逻辑连贯性:评价输出图像内容的逻辑关系

中文语言环境:评价输出图像对中文语境的适应能力

对于内容创造,主要是从组合元素、创造不可能、风格独特性、简单生成和复杂生成的维度进行评价,其中:

组合元素:评价图像中元素的组合方式

创造不可能:评价图像超出常规的创意表现

风格独特性:评价图像的艺术风格表现

简单生成:评价大模型根据简单提示词生成图片的能力

复杂生成:评价大模型根据复杂提示词生成图片的能力

最后是在效率方面对大模型进行评估,分别从生成速度和资源使用进行评价,其中:

生成速度:评估大模型生成图片的速度

资源使用:评估大模型生成图片时使用的资源

通过从这些维度的综合评估使得 SuperCLUE-Image 能够提供对生成模型的深入分析和理解。

SuperCLUE-Image在对文本生成图像模型进行评估时需要先构建专用测评集,测评集的构建方法如下:

  1. 参考现有prompt
  2. 中文prompt撰写
  3. 测试
  4. 修改并确定中文prompt

构建完测评集之后,接下来就是对模型进行评估,其步骤如下:

  1. 获得中文prompt
  2. 依据评估标准
  3. 使用评分规则
  4. 进行细粒度打分

本节主要探讨了文本到图像(Text-to-Image)大模型的多种评估方法,包括SuperCLUE、HPS、TIFA、PickScore和LLMScore。每种方法在原理、评价步骤及其优缺点方面具有独特的特点。

  1. SuperCLUE 通过综合人类评分,评估生成图像与文本之间的相似度,尽管其结果受主观性影响,但能有效捕捉细微差别。
  2. HPS 采用层次化评分系统,评估多个维度,如内容和风格,提供详细反馈,但评估过程较为复杂,可能影响效率。
  3. TIFA 使用视觉问答的方式,关注图像与文本的语义关系,能够捕捉对齐细节,但依赖于问题质量,可能导致偏差。
  4. PickScore 通过比较生成图像与备选图像,采用简单直观的选择方式,尽管易于实施,但结果可能受到个人偏好的影响。
  5. LLMScore 利用大语言模型分析图像与提示的匹配程度,适合自动化评估,然而其准确性可能受训练数据的影响。

综上所述,这些评估方法提供了多元化的视角,帮助研究人员更全面地理解和优化文生图大模型的性能。通过综合运用这些方法,可以推动该领域的进一步发展。

13.7 参考文献

[1] ControlNet:https://github.com/lllyasviel/ControlNet

[2] Text2Video:https://github.com/Picsart-AI-Research/Text2Video-Zero

[3] Sora: https://openai.com/index/sora/

[4] Magic3D:https://research.nvidia.com/labs/dir/magic3d/

[5] Text2Room:https://lukashoel.github.io/text-to-room/

[6] HELM:https://crfm.stanford.edu/helm/classic/latest/

[7] SuperCLUE:https://www.cluebenchmarks.com/superclue.html

[8]HPS:https://arxiv.org/abs/2306.09341

[9]TIFA:https://arxiv.org/abs/2303.11897

[10]PickScore:https://arxiv.org/abs/2305.01569

[11]LLMScore:https://arxiv.org/abs/2305.11116

[12]SuperCLUE-Image:https://www.cluebenchmarks.com/superclue_image.html

[13] VBench: https://vchitect.github.io/VBench-project/

[14]SuperCLUE-Video:https://www.cluebenchmarks.com/superclue_video.html

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MasterLU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档