我在看博客的时候发现Imagen提出了一个新的评价指标的,但是公众号都只是提了一嘴没有详细说明,我为此又专门回去看了一下论文。那不如把看到的直接写一下,方便那些只想了解一下Imagen,看公众号对评价指标描述不清楚,又对评价指标很感兴趣的人。
先说一下。DrawBench这个指标用的是人工评价。Imagen等text to image模型做的是:你给他一句话,他给你生成图片。所以这个评价指标基本组成就是一些文本提示句子,测评模型的时候把句子给模型,看看模型能生成什么样的图,然后再把这些图让人来评价一下生成的好不好
DrawBench是Imagen的作者提出的一个benchmark,目的是对图像到文本(text to image)生成做一个细粒度的评估。其中包含11个类别,大约200个文本提示。
因为你是做文本到图像的生成的,是给模型输入一个句子提示,模型给你输出图片,所以这个评价指标包含的内容是200多个文本提示。
从上图我们可以知道评价的11个类别涵盖了方方面面。
这只是几个例子,完整的可以看这里:DrawBench Prompts - Google
作者认为文本提示的规模足够大了,因为200个提示完全可以从各方面测试模型的生成能力。200个也足够小,因为这个评价指标是使用人工评价,太多了会累死人的。
评估过程是对每个类别进行独立的人工评估。对于每个文本提示,测评人员都会收到两组图片,一组来自A模型,一组来自B模型。每组图片都含有8张模型生成的图片,不是选出最好的生成结果,是模型生成啥就直接拿出来。测评人员会被问两个问题:
这两个问题可以评估图像的保真度以及图像和文本的对齐情况。
对于每个问题,测评人员只能回答三选一回答:
最后是把每个类别25个测评人员的打分相加起来,总共是用了25×11=72525 \times 11 = 72525×11=725个测评人员。这些数据不做后期处理,后期处理比如过滤掉乱打分的测评人员。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。