英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
公共垃圾网:面向公共垃圾分类的
深度学习框架
Ming Zeng, Xiangzhe Lu, Wenkang Xu, Tongxi Zhou, Yinbo Liu
天津大学电气与信息工程学院机器人与自动化系统研究所,天津300072,中国,电子邮件:zengming@tju.edu.cn
摘要:智能垃圾分类是垃圾无害、减少、回收处理的重要技术。本文提出了一种基于卷积神经网络架构的公共垃圾分类算法,即公共垃圾网。该算法是一种多任务分类算法,其中一个任务是识别四大类生活垃圾,另一个任务实现对10个子类别垃圾的识别。 两个分类任务相互关联,联合损失函数有助于提高垃圾识别的准确性。考虑到现有的垃圾数据集类别不完整且数量较少,我们构建了一个新的公共垃圾数据集,包括10个子类和总共10624幅图像。为了获得更好的性能,进行了骨干优化选择,数据增强,学习速率优化,标签平滑等系统研究,最终优化模型的准确率达到96.35%。
关键词:垃圾分类,公共垃圾数据集,多任务学习,数据增强
1介绍
根据中国环境保护工业协会(CAEPI)的统计数据,中国约三分之二的大城市被不断扩大的,占地5亿平方米的垃圾场包围,每年造成超过300亿的经济损失。大量的垃圾给城市的垃圾处理设施带来了巨大的压力。因此,对生活垃圾智能分类的研究将有助于开发先进的生活垃圾处理技术和设备。
对象分类是计算机视觉的基本任务。传统的对象图像分类算法的过程主要包括两个步骤:特征提取和分类。每个步骤都有大量的可选方法(例如尺度不变特征变换算法[1],方向梯度直方图[2],用于特征提取的局部二值模式[3],支持向量机[4],贝叶斯分类器,用于分类的随机森林[5]),不同的选择可能导致不同的性能。显然,获得最优组合算法是复杂且耗时的。此外,由于人为的特征的表示能力有限,在大多数情况下我们无法得到满意的分类结果。
近年来,由于深度学习的进步,对象分类能力已经得到了显著的提高,卷积神经网络(CNNs)已被证明是处理复杂视觉任务的有效体系结构。由Krizhevsky等人提出的AlexNet模型[7]在大规模图像识别方面取得了巨大成功,并以超过第二名10.9个百分点赢得了2012年ILSRVC(图像网络大规模视觉识别挑战)的比赛。2014年,谷歌网[8]和VGG[9]在图像网络比赛中分别获得了第一名和第二名。此后,Sergey等人提出的批量归一化(BN) [10],有效缓解了梯度消失问题。残差网络[11]和密集卷积神经网络[12]通过跳跃连接解决了模型性能的退化问题。 与以前的网络性能相比,精度和速度都有了很大的提高。此后,Xie等人提出了ResNeXt[13],不仅减少了参数的数量,而且进一步提高了性能。最近,谷歌提出了一种利用网络架构搜索(NAS)技术获得的高效网络[14]新模型,大大提高了性能。
随着近年来深度学习技术的飞速发展,各种基于深度学习的垃圾分类算法得到了积极的探索。2013年,Razali等人[15]提出了一种基于Elman神经网络体系结构的垃圾图像分类方法。2016年,Sakr等人[16]提出了一种基于AlexNet框架的垃圾图像分类算法。2017年,Yang等人[17]使用包含六类垃圾(即玻璃、纸张、纸板、塑料、金属、其他)的垃圾网数据集比较了两种分类方法(即基于支持向量机的和卷积神经网络的模型)的性能。基于卷积神经网络的模型在垃圾网的准确率仅为63%。后来,在2018年,Bircanoğlu等人[18]设计了回收网算法,进一步将垃圾网的验证准确率提高到81%。2019年,Ozkaya等人[19]在垃圾网上使用谷歌网和支持向量机的组合框架得到了97.86%的最先进的准确率。
尽管有现有的贡献,垃圾分类仍然是一个未解决的具有挑战性的问题,特别是对于变形垃圾分类。大规模的垃圾图像数据集的缺乏是影响垃圾分类算法研究的关键因素。目前,最大的公共垃圾数据集是由斯坦福大学的Yang等人[17]构建的垃圾网。然而,垃圾网的图像总数仅为2527幅,包括六类,即玻璃、纸张、纸板、塑料、金属和其他垃圾。显然,它不能满足大规模训练和测试数据对设计最先进的基于深度学习的垃圾分类算法的要求。为了填补这一空白,我们建立了一个新的公共垃圾数据集,其中包括四个主要类别,10个子类别和10624幅图像。
本文提出了一种基于卷积神经网络的多任务垃圾分类架构,称为公共垃圾网。一项任务是对四大类进行分类,另一项任务是识别10个子类别。 两个分类任务相互关联,联合损失函数有助于提高垃圾识别的准确性。此外,在使用了数据增强、学习速率优化调整和标签平滑等几个有效技巧后,我们的公共垃圾网在新的大规模公共垃圾数据集上达到了最先进的96.35%的准确度。
本文的提醒组织如下。 在第二节中,我们介绍了如何构造一个新的公共垃圾数据集。 然后,第三节简要介绍了几种最先进的卷积神经网络图像分类体系结构和一些有用的网络训练技巧。第四节提供了各种优化策略的定量比较结果,并在第五节中给出了结论。
2公共垃圾数据集构建
虽然斯坦福大学的垃圾网数据集可以用来评估垃圾分类算法的性能,但数据集中的图像数量很少,很难获得客观的结果。针对上述问题,我们构建了一个新的大规模公共垃圾数据集。 图1展示了垃圾图像采集系统。
图1:垃圾图像采集系统
我们利用Unity作为开发环境来开发支持Windows、MacOS和Linux系统的图像采集软件。Unity使用C#编程语言,其中WebCamTexture类可以用来调用外部摄像机并通过GUI控件显示结果。此外,添加了类别选择按钮以保存不同类型废物的图像。每个垃圾被放置在一个作为背景的灰色板上,上方安装了一个摄像头。相机捕捉垃圾图像的分辨率为960times;900。在收集过程中,我们模仿现实场景。具体来说,每个垃圾都被自由地放置在板上并从不同的角度拍摄了几张照片。此外,对于金属罐、饮料瓶和纸盒等废物,我们以不同的方式挤压和扭曲它们。
我们总共收集了10624幅图像进行分类算法评估。在新的数据集中,垃圾图像分为10个子类别,即厨房垃圾、可回收塑料、不可回收塑料、可回收纸、不可回收纸、金属、电子、玻璃、纺织品和危险材料。可回收垃圾的主要类别包括五个子类别,即可回收塑料、可回收纸张、金属、电子产品和玻璃。其他废物的主要类别包括三个子类别,即不可回收塑料、不可回收纸张和纺织品。因此,主要类别的数量为四个。关于新数据集的详细统计信息如表1所示。
3方法
3.1网络体系结构
2015年,He等人[11]引入了深度残差学习框架即ResNet,并在ILSVRC 2015分类竞赛中获得第一名。该模型增加了跳跃连接来创建残差映射,这缓解了在训练更深的网络时消失梯度问题。2017年,Huang等人[12]提出了密集卷积网络即DenseNet,它以向前反馈方式将每个层连接到所有后续层。不同通道中的特征之间的连接鼓励特征重用,因此在不降低准确度的情况下,参数的数量大大减少。同年Xie等人[13]提出了一种高度模块化的卷积网络体系结构即ResNeXt,其中具有相同拓扑的一组转换聚合在每个块中。经验证据表明,增加基数(变换集的大小)能够提高分类精度的性能。2019年,Tan等人提出的有效网络[14]利用简单而有效的分量系数对网络宽度、深度和分辨率三个维度进行均匀缩放,进一步减少了网络参数并提高了识别精度。
目前,中国大多数城市采用“四分类”标准进行垃圾分类,即厨余垃圾、危险废物、可回收材料和其他废物。为了实现细粒度垃圾分类,一些主要类别被进一步划分为几个子类别。例如,可回收材料的主要类别分为五个子类别,即可回收塑料、可回收纸张、金属、电子产品和玻璃。考虑到公共垃圾分类的具体场景,提出了一种基于卷积神经网络的双任务分类算法——公共垃圾网。该模型不仅可以识别四大类垃圾,而且还可以分类10种废物子类别。公共垃圾网的网络架构如图3。
首先将初始垃圾图像送入网络,然后使用优化骨干提取层次特征。最后,将特征映射输入到两个分类分支中:一个用于主要类别分类,另一个用于子类别分类。两个分类任务相互关联,联合损失函数有助于提高垃圾识别的准确性。我们设置了加权惩罚因子alpha;并融合两个分支的交叉熵损失如下所示:
lloss = alpha;times; lsub_loss (1 minus; alpha;) times;lmain_loss (1)
其中, lsub_loss是子类别分类的交叉熵损失, lmain_loss表示主要类别分类的交叉熵损失。 我们设置alpha;lt;0.5来增加对主要类别识别错误的处罚。
主要类别 |
子类别 |
子类别数量 |
主要类别数量 |
厨余废物 |
厨余废物 |
246 |
246 |
可回收 |
可回收塑料 |
2606 |
6450 |
可回收纸张 |
1803 |
||
电子产品 |
147 |
||
金属 |
1599 |
||
玻璃 |
295 |
||
其他废物 |
不可回收纸张 |
1081 |
3349 |
不可回收塑料 |
2077 |
||
纺织品 |
191 |
||
危险废物 |
危险物质 |
179 |
179 |
表1:垃圾数据集的统计信息
图2:每个子类别的示例图像
3.2数据增强
对于深度卷积神经网络,虽然批量归一化和残差跳跃连接的策略可以减少网络的梯度消失,使网络收敛,但当数据集的大小较小时,深度卷积神经网络仍然存在严重的过拟合问题。
数据增强是扩展数据集并使数据集尽可能多样化的有效方法。使用数据增强可以有效地降低网络过拟合的程度,使训练模型具有更强的泛化能力。
公共垃圾网的实现采用了一系列的图像增强操作。在将图像输入神经网络之前,将图像随机水平或垂直翻转。然后我们将以一定的角度随机旋转,并在一定的距离上随机移动图像的中心。最后进行中心裁剪操作,擦除图像边缘部分无用像素。
随机擦除用于擦除裁剪后的图像。我们随机选择图像的一部分,然后用随机高斯正则化值替换该区域的像素。随机擦除是一种降低公共垃圾网对特定数据集的过拟合程度,提高模型精度的更有效的方法。
3.3学习速率优化
在卷积神经网络训练过程中,优化器的选择是使算法得到更好的最小值的关键因素。有许多流行的优化器,如SGD[20],AdaGrad[21],Adam[22]等。其中,Adam被广泛应用于实际的深度学习网络训练过程中。可自适应地实现阶段退火并动态调整网络学习速率。
在初始训练过程中,网络的梯度通常很大。学习速率设置过大,容易导致梯度爆炸问题。因此,在初始训练过程中,我们必须将学习速率设置为一个较小的值。经过一定的训练时间后,学习速率可适当调整加大。在网络训练的结束时期,学习速率需要降低到一个相对小的数值,这样网络才能达到更好的收敛效果。Loshchilov等人[23]提出了一种预热的动态学习速率,这是一种动态学习速率调整策略。
本文在预热学习速率调整策略思想的激励下,利用基于预热的余弦学习速率与Adam优化器的组合来训练公共垃圾网,使网络收敛到更好的最小值。
图3:公共垃圾网的网络架构
在网络训练的初始阶段(热身过程),学习速率从零线性增加到初始学习速率。
(2)
(3)
其中,lr为调整后的学习速率,lrinit表示初始学习速率,s为训练过程中的全局步骤,sl表示热身训练步骤总数,b为热身时期总数,n表示训练数据集图像总数,b为批量大小。
学习速率达到初始学习率lrinit后,按照初始学习速率训练h步,然后按照以下等式(4)逐步降低学习速率。
(4)
其中S是训练步骤的最大值。
3.4标签平滑
在监督学习中,数据的标记信息往往不完全正确。错误标记的样本数据会对识别精度产生一定的负面影响。利用标签平滑策略给标签信息一定的容错率,可以有效提高网络的泛化能力,提高测试的准确性。
标签平滑策略的基本思想是减少网络对标签的依赖,这是一种正则化策略。实现这种策略的基本方法是对输入图像按照一定的规则调整标签,最后,一幅图像调整后的标签具有ε的概率是初始标签,1-
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[259926],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。