英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
使用智能手机摄像头的拥挤教室学生出勤系统
摘要
在许多教育机构中,关注学生的出勤是一个主要问题。在拥挤的教室中,手动管理出勤表十分麻烦。在本文中,我们提出并评估了可在拥挤的教室中使用的学生自动考勤系统的通用方法,该系统中的登录图像是通过智能手机相机拍摄的。我们发布了一个真实的完整注释的图像数据集,数据中的图像是在15周内拍摄的,共25个课时,有大约70名学生。对10种基于学习和手工特征的人脸面部识别算法通过一种协议进行评估,该协议考虑了图库中每个对象使用的人脸图像的数量。在我们的实验中,最好的方法是FaceNet,这是一种基于深度学习功能的方法,在每个受试者只录入一幅图像的情况下,准确率达到95%左右。我们相信基于人脸识别的学生自动考勤系统可以用来为老师和学生节省时间,并防止学生虚假考勤。
1.介绍
对于许多教育机构来说,关注学生出勤情况是一个主要问题。对于人满为患的教室说,手工管理考勤表是费力而又繁琐的。根据我们的经验,在70个学生的教室中为完成这项任务所花费的时间约为4分钟,即在整个学期中,总的投入时间可能会比一堂80分钟的讲座的时间更长。我们相信一个基于人脸识别的自动学生考勤系统可以用来为老师和学生节省时间,并防止虚假考勤。该系统可以成为下一代智能教室的一部分,以改善教室的教学和学生学习体验。
在人脸识别中,任务是将图像中出现的对象识别为唯一的个体。过去十年以来,我们见证了人脸识别算法的巨大进步。一些在过去可能被认为是科幻小说的应用,现在已经变成了现实。但是很明显,人脸识别在处理更有挑战性的图像时,比如在不受约束的环境下拍摄的人脸,如通过远程相机获取的人脸图像,还远远不够完美。尽管计算机视觉的创新方法已经改善了现有技术水平,但在许多应用中,低质量图像中获得的性能仍然不能令人满意。这是一个学生考勤系统在拥挤的教室人脸识别的例子,如图1所示,在学生密集的教室中,人满为患的面部识别就是这种情况。在本文中,我们提出了一种可在拥挤(和小型)教室中使用的学生人脸自动考勤系统。在这个应用程序中,在注册阶段(每个学生的面部图像被获取和相应的ID被注册)之后,例如,教师可以使用他/她的智能手机拍摄教室的一张或几张照片,以捕获在场的所有学生。所提出的算法检测图片中的面孔并识别哪些学生在场或不在,以便记录班级的出勤情况。本文的主要贡献如下:
- 智能手机在十五周内拍摄的全注释教室图像数据集,其中包含25个课堂中的67名学生的教室图像。一个示例如图1所示。
- 一种基于己知深度学习模型的简单方法,该模型用Python实现,可用作学生出勤系统。
- 一种评估协议,该协议考虑了图库中每个对象的面部图像数量,以计算25个课堂的平均准确度。
- 比较该任务中的十种不同的面部识别方法。
所有注册图像,课堂图像,裁剪的图像,提取的描述符和代码都可以在我们的网页上找到。
图1:学生考勤系统结果。
图1展示了学生考勤系统结果:在本例的25个课堂中,所选的学生在5个课堂中不存在(请参见上图右图的黑色正方形),即出勤率20/25=80.0%。在中间的图像中,显示了3月29日的会议,在教室的最后一行中已识别出该学生(请参见上图左图中放大的方格)。在这些实验中,使用智能手机相机获取图像。
本文的其余部分安排如下:在第2部分中,对低质量图像和学生出勤系统中人脸识别的文献综述进行了介绍。在第3部分中,将对所提出的方法进行更详细的说明。在第4部分中,给出了实验结果和实现方法。最后,在第5部分中,提供了结束语。
2.相关工作
在本节中,文献综述集中介绍低质量图像和学生出勤系统中的人脸识别。
2.1.低质量图像中的人脸识别
在过去的十年中,人脸识别算法已经转向处理不受约束的情况。近年来,我们通过使用数百万张人脸图像训练的复杂深度神经网络体系结构,在人脸识别方面取得了巨大的进步。在本节中,关注的重点是低质量图像中的人脸识别。可以很明显看到,图像质量下降,如模糊,会影响基于深度学习的面部识别算法的性能。图像增强或考虑训练数据集中的退化样本可能会得到更好的深度学习模型。为了解决低质量图像中的人脸识别问题,一个简单的方法是从低质量图像中估计出高质量的图像,然后对高质量的人脸图像进行正常的人脸识别。该过程涉及模糊图像的图像恢复技术和低分辨率图像的超分辨率技术。图像恢复技术有盲反卷积、非盲反卷积、全变分正则化方法和Tikhonov正则化。除此之外,还有更多基于图像不受模糊影响的特征的直接方法,如在空间域和频域处理图像。然而,对于严重的模糊,恢复水平还不够令人满意。相反,超分辨率技术,即所谓的低分辨率人脸图像的人脸超分,试图从低分辨率的人脸图像中估算出高分辨率的人脸图像。我们可以识别基于稀疏表示的技术、面向补丁的策略和深度学习特征等。不幸的是,当输入图像的分辨率很低,例如小于22times;15像素时,这些方法无法获得高质量的人脸图像的充分构建。近年来,人们提出了一些不遵循上述简单方法的新方法。其中一些尝试同时计算超分辨率和特征提取来进行人脸识别,以测量人脸图像的低频和高频。一些方法是从调整人脸图像的大小格式来提取特征。还有一种方法是构建一个共同的特征空间(称为特征间空间)来匹配低分辨率特征。尽管这些创新的方法已经提高了技术水平,但在诸如取证和视频监控等许多应用中,低质量图像的表现仍然令人不满意。
在最近三年中,已经开发出了基于深度学习的低质量人脸图像的新方法:[57]中,提出了部分耦合网络用于无监督的超分辨率预训练。通过对不同的数据集进行微调以实现特定领域的超分辨率和同时识别。在[27] [28]中,提出了一种注意模型,在训练过程中通过模糊不同百分比的图像来转移网络的注意,用于性别识别。在[41]中,提出了三种模糊处理技术来恢复由于镶嵌(或像素化)和模糊处理而退化的面部图像。在[6]中,提出了一种多任务深度模型来同时学习人脸超分辨率和人脸界标定位。人脸超分辨率子网是使用生成对抗网络(GAN)进行训练。在[26]中,受到传统小波在不同层次上描述图像的背景和纹理信息的启发,提出了一种深度结构。在[8]中,提出了一种包含粗超分辨率网络的网络来恢复粗高分辨率图像。这是第一个利用人脸几何先端到端训练和测试的深度人脸超分辨率网络。在[10]中,提出了一种使用 Resnet-based non-maxpooling 体系结构对人脸图像进行去模糊的去模糊网络。在[64]中,提出了一种基于上采样网络和判别网络的面部幻觉方法。在[51]中,利用面部的全局语义先验来恢复模糊的人脸图像。在所有这些方法中,我们看到当应对更具挑战性的事物(例如在不受限制的环境中拍摄的面孔,监视,取证等)时,计算机人脸识别性能还远远不够完美。
在本节介绍的文献综述中,我们得出结论,寻找技术来改善低质量图像中的人脸识别是一个重要的当代研究课题。如图1所示,一个非常具有挑战性的应用程序是使用智能手机摄像头在拥挤的教室中管理学生出勤记录。
2.2.学生出勤系统
在文献中,有一些作品报道了学生考勤系统。表1列出了它们(自2012年以来)的摘要。下面将讨论最相关的问题。在[46]中,提出了一种基于特征人脸的人脸识别方法,适用于15名学生的教室。在这种方法中,测试图像是单个的人脸图像,而不是整个教室的图像,也就是说,不需要人脸检测。在[38]中,不仅学生被认出,他们的行为(如进入或离开教室)也被认出。实验在一个有9名学生的教室里进行,在[31]中,一个带鱼眼镜头的观察摄像头被安装在教室的天花板上,用来检测学生的位置,另一个摄像头则通过平移/倾斜/变焦的方式指向选定的座位。在[49]中,提出了一种基于深度学习的方法。训练模型的大小足够小,可以安装在简单的微处理器中。该方法在使用高分辨率反射式摄像机的小教室中取得了很好的效果。在[9]中,提出了一种基于LBP和SVM的教室入口人脸识别方法。在查询的图片中,很少有学生出现,并且图片的分辨率是100times;100。在[52]中,给出了受控和不受控环境之间的比较。结果不出所料,不受控制的环境容易出错。在[22]中,实验在不同的光照下进行。他们得出的结论是,图像质量越高,识别的准确性就越高。
在所有这些方法中,用于估计准确性的评价方案都不够清晰,无法重现。这意味着,课程的数量,每个受试者登记的面部图像的数量,注册和测试之间的天数等都没有明确的报告。看起来,许多这种识别实验都是在一次实验中拍摄的图像上进行的。此外,查询图像中出现的对象不超过20个,在许多情况下不超过10个。此外,数据集和实现的代码不是公开的,也就是说,不可能与提出的方法进行比较。值得注意的是,考勤系统必须在很长一段时间内使用(有时是一个学期或一年),因此注册的人脸图像和查询的人脸图像在时间上可能存在显著差异,如图1所示的数据集所示。因此,需要数据和协议,包括更现实的场景和更多的会议以设计一个功能健全的考勤系统。
3.提议方法
在这项工作中,我们解释了提出的学生出勤系统算法,如图2所示,包括五个步骤:
- 注册;
- 教室图像捕获;
- 面部检测和描述;
- 查询数据库;
- 匹配算法。
它们将在以下五个小节中进一步被详细介绍(每个步骤一个小节和一个图2中的图像):
图2:建议的方法
图2展示了建议的方法(见章节3.1-3.5):(1)注册。(2)捕捉会话镜像。(3)人脸检测及描述。(4)查询数据库。(5)匹配算法。
3.1.注册
参与者的注册是学生考勤系统的第一步。在此步骤中,采集并存储教室中每个对象的生物特征信息。如图2面板1所示,我们通过存储面部图像,图像描述(描述符)和对象的ID来构建注册数据库,最后使用注册受试者提供的身份信息(例如姓名或ID号)构建。描述符是元素的判别向量,例如,对于VGG-face模型,d=4.096。注册的信息对于识别是十分必要的。在认知阶段,属于相同/不同对象的人脸图像可能具有相似/不同矢量。因此,欧几里得距离或余弦相似可以用来匹配图像面。在我们的工作中,我们要求每个学生通过电子邮件发给老师一张自拍照。通常,识别系统只需要一张人脸图像,但是在我们的实验中,由于坐在教室最后一排的学生的人脸图像质量较低(请参见图1),通过向图库添加更多人脸图像可以提高系统的准确性。新的人脸图像可以是在教室检测到并手动添加到数据库中的那些图像。
在登记数据库中,有n个对象。在我们的实验中,n=67。因此,当i =0,...,nminus;1时,注册学生的ID将是一个数字i。通过人脸检测算法检测到的入组彩色人脸图像定义为Xij, j =1...ni,其中ni为对象i的入组人脸图像个数。相应的描述定义为:
其中是用于根据需要调整图像大小并从脸部图像中提取描述符(d个元素的列向量)的函数,为了使用余弦相似度,函数f返回规范为1的描述符。 因此,通过与标准化标量积(角度的余弦)相对应的简单点积来计算相似度。 在我们的案例中,所有已注册的面部图像{Xij}都具有相同的尺寸:165times;120像素。可以使用双三次插值法更改原始面部图像的大小。
3.2.课堂图像捕获
每一节课,我们都会拍摄几张教室的照片,以捕捉所有在教室里的学生。捕获是一个协作的过程,因为在场的学生希望被考勤系统的认出。要求学生看着镜头,做出中性表情。如果教室足够小,则只需要一张图像,但是,在我们的教室中,摄像机的视角无法覆盖整个教室,因此,我们不得不拍摄如图2面板2所示的几幅图像。为此,我们使用了分辨率为4.032times;3.024像素且没有闪光灯的智能手机(iPhone-8,iOS 11.2.6)。彩色图像以HEIC格式存储,并使用iMazing HEIC Converter1.06以97%的质量转换为PNG格式。每个转换后的图像大约存储在10MB的文件中。
对于p=1...M和q=1...mp,我们将每个捕获的课堂图像定义为Spq,其中M是课堂数(在我们的示例中,M=25个课堂),mp是捕获的图像数在会议上表2给出了每个课堂的图像数量。总共捕获了153张图像,平均每个课堂有6.1张图片。所有的课堂图像都是在105天(15周)内捕获的。连续课堂之间的天数tp 1minus;tp,平均为4.4天(对应每周两次课堂,但有一些例外)。参加人数表2中以Sp给出了每个课堂中存在的平均数,平均而言,每个课堂中有51个对象。
3.3.人脸检测与描述
在每个图像课堂中,定义课堂图像Spq(即课堂p的图像q)中检测到的人脸数量为npq。将Spq图像中检测到的人脸存储为Y
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[259413],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。