英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
一种新的CDMA NoC并行CODEC技术
Jian Wang,Member, IEEE,
Shize Guo, Zhe Chen,Yubai Li, and Zhonghai Lu,Senior Member, IEEE
IEEE TRANSACTIONS ON INDUSTRIAL ELECTRONICS, VOL. 65, NO. 8, AUGUST 2018
摘要
码分多址(CDMA)片上网络(NoC)已经被提出用于多核系统,因为其在通信信道上的数据传输并行性。因此,编码器 - 解码器(CODEC)模块对CDMA NoC的性能影响很大,近年来引起了越来越多的关注。在本文中,我们提出了一种新的CDMA NoC并行CODEC技术。一般来说,我们的新型并行(NPC)编解码器通过使用几个简单的逻辑电路,在面积和功耗方面具有很小的损失,可以并行执行编码/解码过程,从而减少数据传输延迟。为了揭示我们的片上通信方法的好处,我们将我们的NPC应用于CDMA NoC并进行大量实验。从结果中,我们可以发现,我们的方法优于现有的并行编解码器,如基于沃尔什的并行编解码器(WPC)和过载并行编解码器(OPC)。具体来说,它改善了通信延迟的临界点(WPC为7.3%,OPC为13.5%),将数据包延迟抖动降低了约17.3%(相对于WPC)和71.6%(相对于OPC),并将能效提高了41.2 %(相对于WPC)和59.2%(相对于OPC)。
关键词:码分多址(CDMA),编码器 - 解码器(CODEC),能效,片上网络(NoC)
介绍
现在的电子设备几乎遍布工业和信息系统。为了满足对系统效率和服务质量日益增加的要求,越来越多的电子设备利用多核处理器来提高其处理能力。例如,Mellanox公司推出的72核CPU TILE-Gx72广泛用于许多工业仪器中,以支持高速PCIe接口。Kalray公司的MPPA2-256 CPU被许多数据中心采用来加速数据加密。英特尔至强融核处理器系列通常集成到工作站中以服务于各种机器学习应用程序。
图1.三种常见的NoC拓扑,其中多个流共享一个物理链路。(a)环形,(b)星形和(c)网格
对于这些多核处理器,片上网络(NoC)已成为支持核心间数据交换的可扩展主流通信基础架构,并极大地影响系统性能。图1给出了三种常见的NoC拓扑结构,即环形,星形和网格,以及NoC中的一些数据流。显然,当多个流需要相同的物理链路时,如图1所示,它们可能导致冲突降低NoC通信性能。为此,许多电路交换技术被引入到NoC中以解决由链路共享引起的瓶颈问题,如空分多址(SDMA),时分多址(TDMA),ical网络,码分多址(CDMA)等。在本文中,我们关注最近推出的CDMA NoC,因为它们能够在单个链路上进行并行通信。
另一方面,随着纳米技术的发展,芯片越来越受到功率和热量的限制。这促使我们改进CDMA NoC的设计,从而可以优化芯片性能以及功率和能效。为了实现这一目标,我们调查了现有的CDMA NoC,发现顺序编码器 - 解码器(CODEC)虽然易于实现,但存在一些固有的缺陷,如长传输延迟和高功耗,限制了NoC性能,在下面详细解释:
1) 长传输延迟:CODEC模块中的每个编码器都使用扩展码字将原始位编码为多个位,以便来自不同编码器的编码数据彼此正交。在顺序编解码器中,该编码过程以逐位的方式执行,因此它消耗了p个周期,这是扩展码字的长度,取决于CODEC。因此,通过顺序编解码器传输数据非常耗时。
2)高功耗:CODEC功耗与其逻辑复杂度有关。在顺序编解码器中,一些复杂的模块被使用并导致高功耗。例如,在顺序编解码器的控制平面中,包含多个计数器的位同步模块对于保证编码数据之间的正交性是必不可少的。在数据平面中,每个解码器至少需要一个累加器进行数据解扩。这些资源消耗逻辑电路在面积和功耗方面带来了巨大的损失。
为了克服顺序编解码器的这些弱点,我们提出了一种新的并行编解码器技术,它使用一些简单的逻辑电路来并行实现编码/解码过程,并在面积,功耗和延迟等方面获得良好的性能。本文组织如下。在第二节中,我们讨论相关的工作。在第三节中,我们介绍了CDMA NoC的初步情况,提出了我们新的并行编解码器,并讨论了它与现有技术相比的优势。最后,我们在第四部分进行了大量实验来评估我们的方法,并在第五部分结束了我们的工作。
相关研究进展
现有的研究涉及CDMA NoC的各个方面,如拓扑,CODEC和链路等。
拓扑结构:Lee et al提出了一个网状星CDMA NoC,其中一个广播CDMA交换机被插入到网络中心,以支持单播和多播功能。此方法消除了热点问题,并将跳数减少了60%。在中,艾哈迈德等人。提出了一种基于星型分层拓扑的CDMA NoC。与以前的CDMA NoC相比,其面积,延迟和功耗分别降低了24.2%,40%和25%。Vamshi等人在寄存器传输级(RTL)实现基于环的GALS NoC。综合结果保证超过1.6 Gbps的数据吞吐量优于32位环形总线。
编解码器:在编解码器设计领域,许多作品着重于如何降低芯片功耗和面积成本。例如,Wang等人讨论GALS CODEC的实现。与点对点NoC相比,他们的CDMA NoC将面积和能源成本分别降低了16%和21%。Badry等人提出了一种改进CDMA NoC性能的优化编码器体系结构。例如,与CDMA NoC相比,实现该设计所需的总功耗减少了54.8%。此外,Wang等人。设计了一种基于标准的(SB)编码/解码方法,提高了扩展码字的利用率。这种方法同样可以节省高达67.46%的节能和81.24%的面积。Khaled等人。提出了一种称为聚合CDMA(ACDMA)的新型CDMA编码/解码方案,其将所有数据位编码成单个CDMA信道,并消除了一些复制编码/解码逻辑电路。与以前的编解码器相比,该方法的面积减少了60.5%,功耗减少了55%。
为了减少CODEC传输延迟,还讨论了一些并行编码/解码方法。例如,哈克等人。说明如何通过复制基于Walsh的编码和解码逻辑电路来实现并行编解码器架构,并提出一种动态码字分配方法以便可行地使用短扩展码。性能分析表明,与顺序CDMA NoC相比,这种方法实现了显着降低的数据包延迟,并且系统复杂性有所增加。艾哈迈德等人为NoC提供了一种并行过载技术,它支持CDMA和TDMA两种模式,并增强了通信信道的容量。与串行编解码器相比,并行重载方法尽管耗费更多的功耗和逻辑资源,但实现了高出N倍的带宽。
Vijayakumaran等人讨论如何将无线链路插入CDMA NoC。因此,具有额外无线链路的CDMA NoC消耗更少的能量消耗,用于针对有线CDMA NoC的数据传输。Ghany等人提出了一种基于CDMA技术的长距离无线链路,与有线NoC相比,NoC的延迟,功耗和吞吐量性能分别提高了16%,11%和28%。类似于无线链路,光子链路也可以使CDMA NoC受益,并且最近引起了很多关注。
上述所有作品都对CDMA NoC做出了重大贡献。在本文中,我们的重点是设计一种新的并行编解码器,其消耗的逻辑电路简单,面积和功耗都很小。它可以应用于CDMA NoC以实现高性能通信。
并行编解码器设计
我们首先在CDMA NoC和两个现有的并行编解码器中引入路由器体系结构。然后,我们提出我们的新并行(NPC)CODEC技术,并将其与现有方法进行比较。
A.CDMA NoC和路由器
图2. CDMA NoC和路由器概述
图2给出了CDMA NoC和路由器的概述。正如我们在本图左侧可以看到的那样,数据源包含一个CDMA发送器,它将来自网络接口的数据包进行分发,数据接收器利用CDMA接收器从NoC的数据包中提取原始数据。当数据从源端传输到接收端时,它将体验一个或多个CDMA路由器。如图右侧所示,CDMA路由器由三部分组成:输入缓冲区,路由器控制器和编解码器。在输入缓冲区中,每个输入端口都会将即将到来的数据包传送到其相应的虚拟通道(VC),这些虚拟通道通常由先进先出(FIFO)实现。当分组的报头字段到达FIFO报头时,路由计算(RC)模块根据分组目的地和路由算法(例如源路由)产生请求下一跳的信息。然后,所有请求都要求切换和占用下游VC。 VC分配器(VA)决定如何将下游路由器的VC分配给这些请求,并且与VA并行工作的交换分配器(SA)决定输入缓冲器中的哪些分组可以在下一个周期中馈送到CODEC。
负责数据传输的CODEC模块分为两个子模块:编码和解码。编码模块从FIFO报头扩展授权的数据包并将编码的数据混合在一起。然后,包含来自不同FIFO的多个信息包的混合数据被广播到所有连接的下游路由器。解码模块包含多个解码器,每个解码器接收来自相应上游路由器的混合数据,并恢复原始数据以实现路由和流量控制。请注意,编码和解码模块内部有两个平面。一个是响应数据传输的数据平面,另一个是控制平面,决定数据平面何时以及如何工作。
图3.两个现有的并行编解码器(a)基于沃尔什的并行编解码器(WPC)(b)超载并行编解码器(OPC)
图3(a)和(b)分别示出了两种现有的CODEC架构,即基于沃尔什的并行编解码器(WPC)和过载并行编解码器(OPC)。
1) WPC:从图3(a)可以看出,WPC首先使用异或运算来扩展输入数据。为了对扩展码字(S码)中的所有比特并行执行该操作,使用p个XOR门。这里p是S代码的长度,它应该大于输入端口n的数量,
沃尔什码的近似属性。然后,一个m位加法器混合来自相同尺寸的并行编码器的所有编码数据。请注意,m =Atilde;-logn |由于与扩展操作相同的原因,m位加法器被复制了p次。最后,WPC通过使用demux-accumulate-比较模块来检索原始数据。在这一步中,根据解扩码字(DS-code)的值,混合数据被发送到两个累加器中的一个,通常称为正累加器和负累加器。如果DS码位为“1”,则混合数据累积到正极部分,否则累积到负极部分。比较两个累加器后,比较器(CMP)模块输出解码后的数据。结果是“1”,如果正累加器的值较大,否则为“0”。
2) OPC:如图3(b)所示,OPC方法具有类似于WPC的并行编码体系结构。但是,在加法器模块中,OPC使用流水线加法器将所有编码数据混合在一起。流水线加法器包含多个寄存器,一个寄存器在一个阶段,用于存储中间计算结果。与m位加法器相比,该流水线加法器减少了加法器模块的关键路径并降低了有线资源的成本。而且,不是在解码过程中使用解复用累加比较,而是使用OPC解码器进行加法或减法混合数据码片根据解扩码位的值,然后通过使用基于树的并行加法器计算总和结果。在这种方法中,和结果的符号位表示解码数据位,其中正号解码为“1”,负号解码为“0”。
B.新的并行编解码器
在我们以前的工作中,我们开发了一个SB CODEC来提高扩展码字的利用率,并且它在降低CDMA NoC的逻辑复杂度方面显示出有前途的优点。然而,这个SB CODEC仍然是按顺序架构组织的,因此受到了第一部分指出的弱点的困扰。为了解决这个问题,我们在本节中设计了一个并行CODEC架构。我们首先简要介绍我们的SB SB CODEC,然后根据SB编码/解码技术推导出我们的并行CODEC架构。
1) SB Sequential CODEC:
不同输入端口的原始数据分别与扩展码(在编码器中)进行“与”运算,然后这些编码数据通过XOR运算(在加法器中)混合在一起。在解码器中,通过在数据总量和相应的解扩码之间进行AND操作来检索比特序列。经过简单的这些位的积累,可以重建原始数据。请注意,除SCT和DCT外,控制平面还包含三个其他模块,即位同步(BS),编码器计数器(EC)和解码器计数器(DC)。 EC和DC计算在一个编码/解码操作中已经使用扩展/解扩码字中的多少比特。 BS模块保持来自不同编码器的编码数据的正交性。这三个模块对于顺序编解码器是必不可少的,但可以在并行编解码器中删除,如下一节所述。
在这个连续的编解码器中,所有操作(扩展,混合和解扩)都是按位执行的。对于所有子图,x轴表示时间,y轴表示比特值。正如我们所看到的,从I1将一个原始位值“1”扩展为三个周期,并用三位扩展码字“100”进行编码。同时,原始位“acirc;euro;”从I2#39;0#39;与另一个码字#39;010#39;执行相同的操作,#39;#39;与#39;100#39;正交。“由于每个AND操作需要一个周期,因此编码器会消耗三个周期。然后,编码数据,I1的“100”和I2的“000”在加法器中混合在一起,随后,原始比特可以从解码器中的混合数据中分别恢复。
2) 并行编解码器设计:现在我们来介绍我们的并行编解码器的工作原理。
在第一步,对于每个编码器,我们使用多个并行AND门,一个门用于一个扩展位,以替代单个AND门。因此,并行扩展操作可以在一个时钟周期内完成。为了保持与顺序编码器相同的输出顺序,并联编码器中的所有与门均连接到并串行(P2S)模块。然后,在每个解码器中,我们使用一个串并行(S2P)模块,然后是多个并行“与”门,以取代解码器中的原始与门。另外,多操作数(AMO)在标记为“ ”,由纯粹的组合逻辑电路实现,取代了单输入单输出(SISO)累加器。
在第二步中,我们将P2S模块,加法器和S2P模块作为一个整体,并使用多个异或门进行替换。因此,一个平行加法器,其中每个异或门用于混合来自相同尺寸的编码器的所有编码数据。请注意,并行加法器具有与P2S加法器S2P模块相同的功能,但完成该功能所需的时间较少。现在,我们获得了一个并行编解码器架构,其中扩展,加入和解扩操作并行工作,而不是串行(逐位)。因此,CODEC延迟比以前短得多。而且,并行编码器确保来自不同编码器的编码数据总是彼此正交。因此,BS模块不再需要并且可以被移除。
在第三步,我们进一步简化了并
全文共7367字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[11930],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。