汤晓鸥论文为什么香港中文大学汤晓鸥教授团队的人脸识别技术能够击败人类?

2018-02-10

字体:

大中小

浏览:

文章简介：比较幸运的是,已经有这么一个拥有各种不同人脸的标准数据库--Labelled Faces.它拥有超过13,000张不同人脸的图片,它们是从网络上收集的6000个不同的公众人物.更重要的是,每个人都拥有不止一张人脸图片.当然也存在其他的人脸数据库,但是Labelled faces目前是计算机科学家们所公认的最具参考价值的测试数据集.面部识别的任务是去比较两张不同的图片,然后判断他们是否是同一个人.人类在这个数据库上的表现可以达到97.53%的准确度.但是没有任何一个计算机算法能够达到这个成绩.直到

比较幸运的是,已经有这么一个拥有各种不同人脸的标准数据库——Labelled Faces。它拥有超过13,000张不同人脸的图片,它们是从网络上收集的6000个不同的公众人物。更重要的是,每个人都拥有不止一张人脸图片。

当然也存在其他的人脸数据库,但是Labelled faces目前是计算机科学家们所公认的最具参考价值的测试数据集。

面部识别的任务是去比较两张不同的图片,然后判断他们是否是同一个人。

人类在这个数据库上的表现可以达到97.53%的准确度。但是没有任何一个计算机算法能够达到这个成绩。

直到这个新算法的出现。新的算法依照5点图片特征,把每张脸图规格化成一个的像素图,这些特征分别是:两只眼睛、鼻子和嘴角的位置。

然后,算法把每张图片划分成重叠的25*25像素的区域,并用一个数学向量来描述每一个区域的基本特征。做完了这些,就可以比较两张图片的相似度了。

但是首先需要知道的是到底要比较什么。这个时候就需要用到训练数据集了。一般的方法是使用一个独立的数据集来训练算法,然后用同一个数据集中的图片来测试算法。

但是当算法面对训练集中完全不同的两张图片的时候,经常都会识别失败。“当图片的分布发生改变的时候,这种训练方法就一点都不好了。”汤晓鸥教授说到。

相反,他们用四个拥有不同图片的,完全不同的数据集来测试“高斯”算法。举个例子,其中一个数据集是著名的Multi-PIE数据库,它包含了 337个不同的物体,从15种不同的角度,在19种不同的光照情况下,分别拍摄4组图片。另一个数据库叫做Life Photes包含400个不同的人物,每个人物拥有10张图片。