在构建使用深度学习的人脸识别模型时,需要构建一个训练集Train Set、画廊集Gallery Set和探针集Probe Set来评估模型的性能。
在本教程中,将介绍这三个集合。
训练集通常用于训练模型,并通常被分为三个部分。
例如:这里的数据是整个训练集,它将被分割为训练集、验证集和测试集。
train set
对于训练集、验证集和测试集,应该按照以下方式使用它们:
例如,对于分类问题,在训练模型时每隔 25 steps计算一次验证集和测试集的准确率。验证集的最佳准确率为98%,在4000 steps时测试集的最佳准确率为96%。即使在5000步时测试集的准确率为98%,模型的准确率仍然是96%。
假设有一个包含 500 人的黑名单,可以使用每个人的一张、两张或更多张人脸照片来构建这个黑名单。
例如,可能选择使用每个人的两张人脸照片来构建这个黑名单,这样这个黑名单将包含 1,000 个条目。
Gallery set
这个黑名单就是一个画廊集(gallery set),你将使用一个模型来判断一个人是否在这个黑名单中。很容易理解,我们不能使用图像集中的数据来训练模型。
Probe set 也不能用于训练模型。它通常包括两个部分:
第一部分: 画廊集中的数据。
例如,探针集和画廊集中都有 250 个人,然而,他们的人脸图像是不同的。模型应该通过他的人脸图像识别判断探针集中的一个人是否也在画廊集中。
第二部分:不在画廊集中的数据。
如上面提到的黑名单,模型应该判断一个不在黑名单中的人确实不在黑名单中。
如果一个人在黑名单中,模型无法在黑名单中找到他,这表明模型出错,这种情况被称为虚警率(False Rejection Rate,FRR)。 如果一个人不在黑名单中,但是模型通过他的人脸图像找到了一个相似的人,并假设他是一个不可靠的人,模型这种结果也是错误的,这种情况被称为虚警率(False Acceptance Rate,FAR)。
在论文《The CAS-PEAL large-scale Chinese face database and baseline evaluations》中,定义了训练集、画廊集和测试集,它们分别是:
在计算机视觉人脸识别中,gallery set(画廊集)和probe set(探测集)是两个重要的概念。
在人脸识别任务中,使用 gallery set 中的已知身份图像作为参考,通过比对 probe set 中的待识别图像与 gallery set 中的图像相似度来进行身份验证或识别。通过建立 gallery set 和 probe set 的对应关系,可以通过人脸特征的匹配来进行人脸识别。
总结来说,gallery set 是已知身份的人脸图像集合,而 probe set 是待识别的人脸图像集合。它们在人脸识别中起到了关键的作用,用于推断和验证人脸的身份。