英语原文共 12 页
可控离散余弦变换
摘要
在图像压缩中, 当图像块包含任意形状的不连续性,经典的基于块的可分离变换往往效率低下。为此原因,包含方向信息的变换是吸引人的选择。在本文中,对于这个问题,我们提出了一种新方法——可以在任何选择的方向上操纵的离散余弦变换(DCT),即。这种变换,叫做可操纵的DCT(SDCT),允许以灵活的方式旋转对基矢量,并实现方向性的精确匹配,在每个图像块中,实现提高的编码效率。该SDCT的最佳旋转角度可以表示为解合适的率失真问题。我们建议迭代搜索此类解决方案的方法,并且我们开发了一个完全成熟的图像编码器实际上比较我们其他技术具有竞争变革。分析和数值结果证明SDCT优于DCT和最先进的技术的方向变换。
索引术语 - 图像压缩,DCT,图形信号处理,RD优化
1.引言
在图像和视频压缩,二维离散余弦变换(2D-DCT)其众所周知的能量压实特性非常受欢迎[1],[2]。该应用两个可分离的1D-DCT变换获得2D-DCT,分别沿垂直和水平方向形成。因此,它在压缩图像方面非常有效,其中水平或垂直边缘占主导地位[3]。然而,当块包含显着的方向性形状和任意形状的不连续性2D-DCT压力效率较低[4]。
为了克服这个问题,各种方法和解决方案已经开发[5],其中大部分都包含在修改中2D-DCT的两个部分以便结合方向信息[3],[6] - [9]。在[3]中是第一次尝试提出了定向DCT(DDCT)。它包含在一个可分离的第一个1D-DCT可以跟随方向的变换除垂直或水平之外;那么系数在第一步中由所有方向变换产生的重新排列,以便可以应用第二个变换那些彼此最佳对齐的系数。后来,其他作品也遵循这种方法。在[6]中,作者已经为第一次改造引入了新的方向并且有了提出了一种新的锯齿形扫描方法。在[7]中,有人指出不应用第二阶段DCT,或仅应用它在第一次变换期间产生的DC系数[8]。在[9]中,DDCT [3]使用各向异性局部基础进行了改进支持,选择最佳基础利用二叉树词典的结构。
然而,这些方法有几个问题。 特别是,它们需要各种长度的1D-DCT,其中一些是很短,并不总是2的倍数; 而且,第二个DCT可能并不总是应用于系数类似的交流频率[10]。 在我们的测试中,我们也注意到了当块的尺寸增加时DDCT的性能下降。
在DCT中引入方向性的另一种方法有已在[11]中提出,其中定向主要操作已经推出了基于提升的DCT。 通过这种方式,类似DCT的提升变换可以应用于任何方向,但它跨越块边界以便应用方向适应。
在帧内视频编码的具体情况下,另一种情况方法已被研究:通过方向预测和相应的数据依赖转变构建了变换。在[12]中,依赖于模式的方向变换来自Karhunen-Loegrave;ve变换,使用来自训练视频数据的预测残差。各种后续工作都有增强[12]利用对称性来减少所需的变换矩阵的数量[13] - [15]。为进一步改善表现,其他几种模式已经提出了相关的方向变换作为模式相关的稀疏变换[16]和速率 - 失真优化变换[17]。 另一个数据依赖方向变换称为稀疏正交变换已在[18]和[19]中提出。 在这种情况下,图像使用图像梯度对块进行分类。 然后,
通过最小化a来优化每个类的变换训练设定近似成本。这些方法的一个常见的问题是必须处理训练集才能获得转换对于给定的类是最佳的,因此转换始终取决于所使用的训练集。
在过去几年中,一种新的图像和方法视频编码已经出现,即在图上进行变换。
可以将图像视为图形,其中每个像素是一个图的节点和边描述连通性像素之间的关系,例如,在相似性方面[20],它是可以在这个域上定义一个名为图像的变换傅立叶变换[20]。由于图表表示,相应的变换是“意识到”图像不连续
这是低调的,以尽量减少高频系数和最大化能量压缩。不同的连接模式导致不同的图形转换形式。在图像应用程序中,图形的结构经常是一个4连接的网格图,其中每个像素都连接到它最近的4个邻居。这种结构有很强的联系用DCT,因为图形变换了一个统一的4连接的网格图可以等于DCT。基于块已经提出了使用图傅立叶变换的方法在[4],[21]和[22]中,但对于非片段光滑的自然图像他们报告的结果并不令人满意。为了残留编码的具体情况,使用图表的几种方法最近提出了基于方法的方法。一个新颖的图表 已经提出了用于帧内视频编码的基于方法在[23]中,它引入了一个新的广义图傅里叶针对帧内预测残差优化的变换。代替,在[24]中,作者提出了一种基于块的提升变换帧内预测视频编码的图表。而且,在[25]中图表用于帧间预测视频编码的基础方法已经介绍,作者设计了一套简化的图表模板捕获的基本统计特征帧间预测残差块。但是,主要之一基于图形的压缩技术的缺点在于表示和编码图表所需的成本,可能超过边缘自适应提供的编码增益转变。出于这个原因,一些基于图形的压缩最近需要小开销的方法发展[26],[27];他们相对于DCT的表现很有竞争力,但对于计算成本构造变换矩阵价格是高。
在我们之前的工作[28]中,我们已经提出了一个新的定向变换的框架。 从图表开始网格图的变换,我们设计了一个新的变换,称为可操纵DCTSDCT),可通过以下方式获得将2D-DCT基础旋转一个给定的角度图像块。
在本文中,我们分析了更广泛的发现问题每个2D-DCT基础的最佳旋转集图像块。特别是,我们考虑一下[28]每个频率的角度,可以提供更侧面的代价更紧凑的代表性要传输的信息。可以从分析权衡RD透视。我们首先将问题归结为最小化一个RD功能。最小值提供最佳数量每个块的旋转角度以及角度值。问题是适当的(全球最小存在),但是它是非凸的,因此找到全局最小值是棘手的。在这种情况下,人们可以设想的最佳可行策略迭代交替最小化,允许到达一个当地最小或马鞍。这是我们第一次的基础提出的算法,通过交替命名为可操纵DCT最小化(SDCT-AM)。如果适当初始化,事实证明,SDCT-AM是在RD方面总是优于DCT。我们也有研究了定义和传输角度的其他策略分配,以减少角度的传输成本,并建议细分为可编码的子带作为二叉树。这是我们第二个提议的关键想法算法,名为SDCT-BT,显着降低了辅助信息量。而且,在[28] SDCT中性能仅根据能量压缩进行评估,在本文中,我们开发了一个完全成熟的图像编码器将提出的技术与其他竞争技术进行比较变换。
本文的结构如下。在第二节中我们定义提出的变换,从图变换开始。 后来在第三节中,我们以RD优化问题的方式来表示我们的问题,并定义最佳旋转。在第四节中,我们介绍了SDCT-AM和SDCT-BT算法。 第五节致力于实验测试,
我们将我们的方法与2D-DCT和方向进行比较方法。 最后,在第六节中,我们得出了一些结论。
2.SDCT
2.1初步措施
我们首先回顾一下图形信号处理的一些元素,特别是图像傅立叶变换的概念及其与DCT的关系。
我们将无向图表示为,其中是顶点集合和是边缘集合。特定两个图和,令是和的乘积图。 假设和。 然后和在中有并且只有满足下列条件之一[29]:a)和; b)和。
对于任何图形与,我们定义了邻接矩阵,其中是节点和之间的边缘,否则。在本文中,我们考虑没有自循环的无向图,也就是说,是对称的并且具有零对角线。
任何信号可以与图与相关联; 每个分量是与顶点相关联。在上,我们定义了所谓的的傅里叶变换[20]如下:
,
其中是矩阵,其列是特征矢量 的向量。 可以很容易地从中检索出来反转:。
人们还可以将一些现有的变换重铸为图形傅里叶变换特定拓扑。 一个例子是1D-DCT与图傅里叶变换之间的等价性路径图的形式。 我们将路径图P N定义为图形具有个顶点和线拓扑。众所周知,的特征向量等于1D-DCT的基矢(更确切地说是DCT-2)[31]。具体地,1D-DCT具有个基向量被定义为
,
鉴于上述公式中的特征值的多样性总是如此等于第一个公式,1D-DCT基础是唯一的特征基础,因此信号的图形傅立叶变换由路径图表示的等效于1D-DCT转变。现在让我们考虑两个路径图的乘积图。 如果两个路径图具有相同的顶点数,它们的乘积图是方形网格个顶点的图形。 它已被证明是基础2D-DCT的向量形成的本征基[32]。此外,产品图的拉普拉斯算子的频谱取决于两个发电机图的频谱如下定理所示。
2.2 特征值的多重性分析
利用前一段中的结果,我们构建了一个可以向任何方向定向的新变换。使用定理1和前面两个等式,我们可以计算的特征值和特征向量。
,
其中是对应于的的本征向量并且是对应于的特征向量。 从(3开始很明显,存在一些重复的特征值对称性:,且。 而且,通过直截了当的计算,有可能证明这一点特征值具有代数多重性和对应的所有特征值。因此,在的光谱中,只有个特征值
代数多重性等于1,除了之外的所有其他都具有代数多重性2.它是重要的是要强调即使当时,我们仍然认为和是线性无关的,因为Kronecker产品不是可交换的。 因此,地理度量多重性等于代数多重性。 这个表示对应于的本征空间的维数这些特征值大于1。证明了以下内容主张。
命题1:2D-DCT不是唯一的本征基础对于方形网格图的拉普拉斯算子。在下图中,表示了n = 8的2D-DCT基础矩阵形式; 例如,我们以红色突出显示具有特征值的相应两个特征向量多重性2:我们可以看到它们明显相关彼此,因为它们代表相同的频率,一个在水平方向和另一个垂直方向。
3.最佳旋转
在上一节中,我们展示了一个新的转换可以导出旋转列的DCT矩阵。 本节的目的是确定该集合在合适的标准下的最佳旋转角度。
因为我们的最终目标是高效压缩,稀疏变换系数的向量很有价值。 我们现在说明我们可以找到分析地提供最稀疏系数的旋转代表。 设是原始的(矢量化)图像块。 给定特征值为几何多重性2及其相应的特征向量对于给定块,和对应的DCT系数可表示为
如果我们将这对特征向量旋转一个角度
此旋转提供最稀疏的表示:它完全是使系数无效。 这显然是有利的,它提供了的图像的无损编码系数而不是。 尽管如此,自解码器还应该知道旋转角度来恢复图像,要传输的值的总数结果是相同的。对于这种动机,一个不太稀疏的解决方案(即,较小的零系数的数量)或非精确稀疏的解(即,许多系数接近于零,但非正好为零),如果涉及较少的轮换,则在RD术语中可能更可取角。
在变量和转数量和价值的最佳选择角度可以自然地作为一个RD问题。
4.建议算法
在本节中,我们将对于SDCT介绍所提出的算法SDCT-AM和SDCT-BT寻求最佳旋转集。在上一节中,我们已经定义了RD 优化问题(11)并观察到了全局解决方案。由于全局非凸性,很难找到。 然而,这个问题在个人数学上是易于处理的变量,正如我们将要展示的,和交替最小化实现部分最优(即局部最小值或鞍点)。 这是基础SDCT-AM。
4.1交替最小化:SDCT-AM
假设固定,则评估是直接得出的。 我们有因此,我们可以为每个组件解决一个单独的零件,其解决方案由
其中,对于任何,和表示投射到Q c和的量化运算符具有阈值的硬阈值运算符,定义为当时,或者当 时。
4.2用于角度结构的二叉树:SDCT-BT
SDCT-AM(算法IV-A)被证明是部分的RD功能J的最佳值,这是最好的结果,由于非凸性,人们可以期望实现这个问题。 在下面我们提出一个替代方案算法称为SDCT-BT,它可以减小角度信息成本,允许更多的自由选择旋转角度。基于二叉树的构造描述角度子带划分,SDCT-BT不能从最小化问题的角度进行理论分析,但是通过实验证明表现良好。
在说明SDCT-BT之前,我们在此指定方法和不再被认为是分离的变量
因为在这种情况下是量化的矢量通过执行SDCT获得的变换系数:每个我们修改的时间,我们自动设置其中表示上的量化操作。因此,我们将仅使用变量,并相应地使用将使用来表示成本函数。
此外,与在速率定义上略有不同。对于,我们使用实际比特率,而是由我们说明的角度选择程序在下面确定的。
SDCT-BT的角度设定如下。 我们从单个角度值,比如一个子带,我们迭代地决定分割成不同的子带是否方便。具体来说,我们强制将每个子带划分为
如果这减少了(备用对),则两个长度相等的子带向量包含在最后一组中),如下图所示。关于分割子带的决定是通过执行来实现的对所有可能的角进行穷举搜索并选择最小化; 如果这样得到的小于目前的成本,接受拆分,并且。我们继续进行,或者当达到最大子带数时直到无法获得更多改进。
SDCT-BT在算法2中进行了总结。可以推断出从下图中,对于每个接受的分割,我们使用2个额外的比特发出信号。
4.3基于可操纵DCT的图像编解码器
使用SDCT-AM和SDCT-BT时,我们需要进行编码三种不同类型的信息:变换系数,旋转角度和子带细分。 编码变换系数,我们执行均匀量化然后我们使用自适应编码量化系数位平面算术编码。
为了编码旋转角度,我们修正了量化角度的水平,均匀设置在中SDCT-AM和SDCT-BT。 然后,我们使用位传输每个旋转角度。 我们不执行任何操作角度上的压缩,如其分布,如在中观察到的那样我们的测试,没有明显的可压缩性。 为了提高压缩性能,作为我们未来的工作可以考虑非均匀角度量化。
关于子带细分,如上所述两个拟议的算法呈现两种不同的编码方法在本节的前一部分。 SDCT-AM要求位,其中是数字子带。
5.实验结果
在本节中,我们评估了提出了SDCT-AM和SDCT-BT方法并对它们进行了比较到最先进的方向变换。 我们执行客观比较计算PSNR和主观比较评估SSIM指数[39]。 在结束时部分,我们还提出了一些考虑和在HEVC标准中关于未来
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。