英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
基于轻量级拼接卷积网络
摘要
水表自动抄表是智能城市应用的实际需求之一,由于成本高,用新的嵌入式水表代替旧的机械水表是不可行的。近年来,基于图像识别的抄表方法成为研究热点,然而,物联网环境中的光照、遮挡、能量和计算消耗给这些方法带来了挑战,因此本文设计并实现了一个智能水表抄表系统来处理此问题。具体来说,我们首先提出了一种新的轻量级拼接卷积网络来识别仪表编号,通过拼接一定数量的1times;1和3times;3大小的内核,然后通过理论分析证明了我们网络的优越性。其次,我们在分布式云平台上实现了能够处理海量实时数据的原型。基于此系统,该系统可以工业提供服务。最后,我们将实际数据集用于验证系统的性能,实验结果表明,与标准卷积网络相比,所提出的轻量级拼接卷积网络可减少近10倍计算量,7倍模型空间,节省3倍运行时间。
1、介绍
世界越来越期待适应和使用新技术来提高生活质量,减少人类活动和消费模式对环境的影响。水表自动抄表是智慧城市应用的实际需求之一,政府可以实时监控用水量,大大节约用水公司的人工成本。然而,没有数据上传功能的老式水表是几十年来输水系统中最常见的设备,在可预见的未来是无法被电子表取代的。在文献[2]中提出的水表写抄数字号方法中,水表抄写数字号的方法可以归纳为人工抄写,基于传感器的方法,基于图像识别技术的方法。
人工抄写需要人工来读取和记录水表数字,这是浪费人力成本,特别值得一提的是,一名抄表人员每天估计会上万台的水表。抄表员抄错号码的情况会实时存在,这会给用户和水务公司造成经济损失和纠纷。因此给水表上添加数据上传模块是实现水表读数的重要进展,但是更换过程中需要拆卸和安装水表,城市中大量的旧设备使这项工程更加麻烦和费力。近年来,基于图像识别技术的方法开始成为研究热点。相对于水表内部的独立模块的安装,这些方法只需要在水表表面放置一个摄像头即可。然后,这些方法会拍下仪表的图像并识别数字,并将这些数据记录传送到服务端[4]。显然这些方法更加灵活,更易于实施,物力成本相对较低。
基于图像识别技术的方法有两种解决方案,第一类是OpenCV图像识别技术[5],[6]。这些方法已经能够识别一些物体,如数字、图像物体轮廓等,并能够完成图像处理任务中简单、实用的任务。然而,在面对诸如水表识别等工业应用时,强光、弱光、遮挡、不完全性等外部因素往往带来较差的效果。另一种识别仪表号的方法是基于深度神经网络的方法。早期基于DNN的技术称为基于分割的方法[7],[8],通常包括两个步骤:字符分割和识别,如bisacco等。[8]首先使用包围盒来确定数字在图像中的位置,然后使用卷积神经网络(CNN)来识别目标。最近的基于DNN的方法被称为无分割方法[9],[10],它们利用递归神经网络(RNN)在不固定目标位置的情况下识别图像中的数字。尽管基于DNN的方法在数字识别任务中取得了良好的性能,但仍存在一些挑战阻碍,妨碍在工业环境中的应用。例如,一个水务公司开始了每月抄表的任务。从一开始,大量的数据就会流入到识别系统中,这就启发我们设计出速度快、计算量低、更灵活的方法。
为了解决鲁棒性和计算消耗问题,本文设计并实现了基于分布式云平台的智能抄表系统。首先,我们提出了一种新型的轻量级拼接卷积网络来识别米数,通过拼接一定数量的1 times; 1和3 times; 3大小的核来简化3 times; 3的卷积数,以减少整个卷积参数和网络的计算消耗。因此,我们的模型可以在终端高速处理大量的仪表图像。其次,我们构建了一个基于分布式平台的工业样机,其中数据感知层使用摄像头捕捉水表上的读数。传输层使用多个通信设备(WIFI或4G)将数据传输到功能层进行阅读识别。系统的功能层基于云平台,计算和存储在云平台上以分布式的方式进行。最后,我们使用真实数据集来验证系统的性能。实验结果表明,与标准卷积核相比,我们提出的轻量级拼接卷积网络可以减少近10倍计算量,7倍模型空间,节省3倍运行时间,因此结果也证明了该系统的工业应用是可行的。
综上所述,我们在本文中的主要贡献如下:
bull;我们提出鲁棒性和高速拼接卷积网络来识别数字,通过拼接一定数量的1 times; 1和3 times; 3大小的核来简化标准的3 times; 3卷积。然后通过理论分析证明了所提出的网络模型的优越性。
bull;我们构建了智慧城市自动抄表的原型,可以基于分布式云平台处理海量实时水表图像。
本文的其余部分组织如下:
第二部分简要回顾了相关工作,第三部分详细介绍了轻量级拼接卷积网络模型。第四部分介绍了实验和结果,第五部分给出了实验和结果,第六部分是本文的结束语。
2、相关的工作
作为智慧城市应用的实际需求,水表自动抄表系统[11]-[14]日益增多。读入水表号有两种方法。测量水流量的第一种方法是设计和实现嵌入式水表。在文献[15]中,作者通过感知水表内部旋转耦合磁体产生的磁通量线,自动获取水流量信息。文献[16]实现了一种自动抄表装置,该装置有一个具有自动增益控制的光学传感器。文献[17]介绍了一种采用编码技术的自动抄表系统,该系统更容易实现工业化。然而,目前城市中仍存在大量陈旧的机械式水表。安装新型嵌入式仪表需要对旧设备进行重新更新或重新安装,造成大量人力物力的消耗,因此大量的旧设备使得更换项目的方法是不可行。
第二种方法是用相机捕捉水表图像,然后利用图像识别技术读取水表编号。文献[18]提出了一种有效的基于数字字符特征的二次识别方法。文献[19]利用神经网络对图像中的数字实现了水表的自动识别。然而,上述方法多基于字符行检测。当数字之间的距离很大时,这些方法的性能很差。为了克服字符型的假设,研究人员提出了基于字符型的图像语义分割方法[20],[21]。通过语义分割技术,可以将图像描述为不同类型的像素点。有了这些特征,不同的数字可以很容易地分类。Long等人[22]提出了FCN网络,利用全卷积网络提取特征进行pixel2pixel图像分割。在[22]的基础上,BiSeNet[21]构建了两通道模型,其中空间路径负责提取浅层信息,上下文路径负责提取深度语义信息。ICNet[20]主要将分割任务划分为多个分辨率。在ICNet中,低分辨率输出在经过分类层之前被送到高分辨率网络进行特征融合。文献[23]提出了一种深度卷积神经网络(CNN),可以将图像处理提升到一个更高的水平。
考虑到水表读数到数字符号的转换需要多个额外的步骤,基于图像语义分割的方法不是最佳选择。目前,目标检测模型引起了研究人员的关注,该模型能够一步识别出仪表编号。Redmon等人[24]提出了一种基于图像全局信息的快速端到端检测方法进行预测。Liu等人[25]提出了一种图像多尺度融合方法,可以有效地解决图像中各种大小目标的检测问题。RFBNet[26]提出了一种新型的感受野模块,通过使用对应不同射频大小的不同卷积核的多分支池,使检测模型更快、更准确。Liu等首先使用NMS[27]对目标进行过滤,然后对0到9的数字进行分类。在工业领域,谷歌的开源OCR算法tesseractocr[28]和百度AI开放平台数字识别接口均可用于水表读数的识别。
3、方法
在本节中,我们将介绍智能水表抄表系统的核心方法。首先,我们将对水表图像的读取进行描述和挑战。然后,给出了轻量化拼接卷积网络的细节。
A.水表图像及其挑战
为了研究水表读数,我们构建了一个图像数据集,由摄像机在现实环境中捕捉。图1显示了四个带有滚轴式读数的老式水表。在本文中,所有的解决方案我们想要讨论和解决的是基于旧辊式的读数。我们面临的挑战和困难可以概括为:
bull;水表表面由摄像头拍摄,有外部光、强光、弱光、甚至角度,会对后续工作造成潜在的干扰。
bull;在水表表面的数字区域,也会有图像中其他块的影响,如水表型号,功率号,以及其他文字对水表的影响。
bull;由于机械施工的原则,当需要读取一个仪表编号,如图1底部有一个间隙和两个同一地区的数字,这将困扰计算模型的识别,导致误判或遗漏判断。
基于上述情况,我们收集了不同场景的数据,并加入干扰,以提高归一化能力。
图1 滚轴式数字水表
B.轻量级拼接卷积网络
本节将详细介绍轻量级拼接卷积网络,包括骨干网、拼接卷积和无序组合拼接。如图2所示,抄表模型的体系结构是端到端。该方法的网络结构由不同的卷积阶段组成,分别是显式的特征提取和下采样,每个阶段的操作都由所提出的拼接卷积模块来完成。
1)骨干网
我们使用[29]中的一个网络作为骨干网络,其中一个标准的卷积层以D作为输入DH times;DW times;DM 特征图F并产生DH times;DW times;DM feature map, feature map G和DW是一个方形输入特征图的空间高度和宽度DM是输入通道数(输入深度)DG 是正方形输出特征图的空间宽度和高度,DN 是输出通道数(输出深度)。
标准卷积层参数化为卷积核K,大小为DK times; DK times; DM times; DN,其中DK为假设核空间维数为方,DM输入通道数和D N是前面定义的输出通道的数量。
标准卷积的输出特征映射与步长1和填充相关,计算如下:
那么标准卷积的计算为:
图2 提出的水表识别网络结构
然而,在深度可分卷积中,mth输入通道作用于MTH深度卷积核,产生输出特征图。然后立即使用1times;1 协同进化核提高维度。因此,有标准卷积的计算方法,深度可分卷积的运算如下:
通过比较深度可分卷积与传统标准卷积的计算公式约简(R)为:
可以看出,使用这种卷积方法,可以减少浮点运算,降低整体网络参数。
在卷积网络中,总体目标损失函数是识别中定位损失(loc)和自信损失(conf)的加权和,这意味着比图像分类多了一个分支回归函数。在[25]中,研究人员让x pij={1,0}作为将第i个默认框与第j个p类地面真值框相匹配的指标。根据上面的匹配策略,我们可以得到sum;i xpijge;1。损失函数的执行方式如下:
其中N是匹配的默认框的数量,如果N = 0,则设置丢失为0。定位损耗为预测框(l)和接地真值框(g)参数之间的平滑L1损耗[30]。
(2)拼接卷积
众所周知,选择合适的卷积核可以大大提高CNN算法的效率。使用深度可分卷积和群卷积可以合理地减少3times;3卷积的计算工作量[31],[32]。在本文中,我们设计了一种新的卷积运算,称为拼接卷积,它可以使用不同大小的卷积核,如1times;1和3times;3的卷积核一起形成一个独立的卷积核。这种核的优点是它进一步减少了3times;3卷积核带来的计算复杂度,而不是完全由1times;1卷积核计算,从而不会丢失一定的信息量。图3显示了拼接卷积与其他卷积之间的主要区别。标准的3 times; 3卷积核是通过将每个维的卷积核加到feature map上的像素上来计算的,输出的维数取决于有多少个卷积核。深度可分卷积就是卷积核的不同维数负责feature map的不同维数,最终输出维数等于输入维数。在拼接卷积中,我们构造了一个轻量级的模块。在这个模块中,当我们利用特征映射进行拼接卷积,对特征映射的每一维分别进行分组。有些作用于3 times; 3大小的核,有些作用于1times;1大小的核。因此,本文提出的拼接卷积进一步减小了整个卷积核和网络计算参数。
图3 不同的卷积核
图4。左:带批范数和ReLU的深度可分离卷积层。右:使用batchnorm, ReLU和concat拼接卷积层。
(3)不同卷积的计算分析
在本节中,我们将从理论上讨论减少拟议拼接卷积和其他卷积之间计算工作量的能力。
a.与深度可分卷积的比较
图4对比了深度可分卷积和拼接卷积。显然,拼接卷积将M个通道分为A和B两个通道,其中M = A B,我们设置它们的比例为1:1。通道以3times;3尺寸的内核运行,复位B通道以1times;1尺寸的内核运行。在batchnorm和ReLU之后,分离的通道联系在一起,成为M大小的通道。同时,深度可分卷积是一个串行过程。
将1times;1到3times;3的卷积以1:1的比例进行,在拼接卷积中计算代价如下:
与深度可分卷积相比,总的计算量约简如下:
显然,我们的拼接卷积参数小于深度可分卷积。
b.与GroupConv比较
群卷积最早出现在AlexNet[23]中,是为了解决存储空间不足的问题。深度可分卷积是群卷积的一种特殊情况。在群卷积中,将分组的个数定义为输入信道,那么,释放卷积就变成了深度可分离卷积。显然,深度可分卷积的计算参数的数量将小于或等于群卷积的数量。由式8可知,我们的拼接卷积比群卷积的参数量小。
<str
剩余内容已隐藏,支付完成后下载完整资料</str
资料编号:[590342],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。