英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
基础神经科学
用图形处理单元(GPU)加速大规模神经电路映射数据分析
榆林市, Alexander V. Veidenbaum, Alex Nicolau, 许祥民
亮点概述
- 我们描述了使用GPU技术进行大规模神经科学数据处理。
- GPU应用程序专注于基于神经电路映射的数据分析。
- 据我们所知,这是这个神经科学领域的第一次示范。
- GPU计算允许在保持数据精度同时提高速度。
摘要
背景:现代神经科学研究需要计算能力。 诸如使用激光扫描光刺激(LSPS)的神经电路映射研究产生大量数据,并且需要密集计算以进行事后处理和分析。
新方法:在这里,我们报告了用最新的GPU计算技术加速实验数据处理的经济高效的台式计算机系统的设计和实现。 具有GPU启用功能的新版Matlab软件用于开发在Nvidia GPU上运行的程序,以利用其并行计算能力。
结果:我们在基准测试和实际应用中评估了我们系统的中央处理器(CPU)和支持GPU的计算性能。 实验结果表明,根据计算任务,模拟数据和实际LSPS实验数据的GPU-CPU协同处理明显优于多核CPU,速度高达22倍。 此外,我们还介绍了GPU与CPU计算之间的数值精度比较,以验证GPU计算的精度。 此外,我们还展示了如何有效地调整GPU以改善商业图像处理软件(如Adobe Photoshop)的性能。
与现有方法的比较:据我们所知,这是GPU在神经电路映射和基于电生理学的数据处理中的首次应用演示。
结论:通过GPU启用计算,可以提高我们处理来自神经电路映射研究的大规模数据集的能力,从而在保持数据精度的同时提高处理速度。
关键词
数据分析GPU ,并行处理神经电路映射CPU
- 介绍
基于计算机的资源可以极大地促进神经科学研究。 神经科学家要求更多的计算能力电路映射研究,研究人员可能会诉诸昂贵的解决方案,如群集和超级计算机的大规模计算任务。 由于图形处理单元(GPU)计算技术的最新进展,今天的GPU所做的工作远不止于原先预期的图形渲染,而且GPU可以为基于CPU的解决方案提供廉价而计算能力强大的替代方案(Baladron 等人,2012; Nageswaran 等人,2009).
CPU专门用于优化串行操作,同时包含用于多种类型任务的各种子电路,例如协调并发软件进程,预测分支,处理高优先级中断以及管理高速缓冲存储器流量。 但是,其串行处理本质限制了其执行密集型并行计算的能力。 相比之下,最新一代的GPU具有流式多处理器,并可充当强大的大规模并行协处理器。 然而,以相对适中的成本支付这种电力的价格是GPU在其组织中是非常规的,特别是与主CPU的通信带宽以及能够高效地并行执行的操作类型受到高度限制。 映射给定应用程序以便在GPU上执行有效(快速)执行通常非常困难。 无论如何,由于他们的承诺,科学家和工程师已经开始重新探索GPU的各种应用的能力,从天体物理学和生物医学研究到各种应用,最近硬件和集成编程接口的进步使Nvidia的Compute Unied Device Architecture(CUDA) )平台。 在一个定制设计的系统中,GPU加速的应用程序可以将其计算密集的任务分割成多个线程,并可由数千个GPU核心进一步处理。 此外,最近添加的双精度浮点运算单元使GPU能够产生精确的结果,以满足最严格的计算要求。
在神经科学领域,GPU计算已成功用于计算机密集型任务,包括神经网络的大规模建模和仿真,高速成像和实时重建(Baladron 等人,2012; 方和李, 2013; Nageswaran 等人,2009; 托梅尔等人,2012; 威尔逊2011; 杨 等人,2011). 然而,根据我们的最佳知识,没有或很少有研究涉及用于神经电路映射数据分析的GPU计算,而体外大规模神经电路映射实验弗兰卡 等人, 2012; 库尔曼 等人,2013; 牧羊人等人,2005; Xu 等人,2010) 和体内(Nauhaus 等人,2008, 2009; 大木 等人,2005) 在短时间内产生大量数据,这需要巨大的计算能力进行事后处理和分析。 在桌面计算机系统中利用GPU启用计算的能力为单个神经科学研究实验室提供了一个充分且具有成本效益的解决方案,该实验室无法访问或无法访问高性能计算中心。 为了促进GPU在神经科学研究中的更广泛应用,本文首先介绍如何组装具有GPU功能的台式计算机系统,并提供详细的硬件和软件信息。 然后,我们比较基准测试和实际应用中CPU和GPU启用的计算性能。 我们特别提出了一种在Matlab中使用GPU来实现加速处理大量神经电路映射数据的方法。 最后,我们提供GPU和CPU计算之间的数值精度分析,以验证GPU计算的精度。
2.材料和方法
在本节中,我们将描述启用GPU的桌面计算机系统的配置和组装。 我们还介绍了我们的数据采集和相关分析,以及用于优化数据组织的算法,利用内存层次结构和集成GPU计算的详细信息。
2.1系统组件
我们的系统由英特尔i7-3930K CPU和Nvidia Tesla K20c GPU(图1)。 CPU有六个共享一个12 MB三级缓存的物理内核。它与32 GB系统内存以49.64 GB/s的带宽进行通信。请注意CPU的内存带宽在不同的记忆时钟有所不同。 GPU拥有2496个物理内核,集群在13个流式多处理器(SMX)中,它们共享1.5 MB二级缓存,并与具有208 GB/s带宽的5 GB图形内存进行通信。系统内存和GPU通过PCI-E 2.0 16总线连接,每路传输速度为8GB/s。请参见表2A用于详细比较规格。
对于这种定制的台式计算机系统,我们选择了组件(请参阅表格1)在保持成本在合理范围内的同时使性能最大化。该CPU来自英特尔的高性能产品线。我们已经仔细超频,并且使用GPUBench进行测试(见下文),CPU性能提高了25-29%。使用的RAM也是信誉良好的制造商的高时钟版本,以匹配超频CPU。整个系统由7个风扇冷却,CPU由闭环液体冷却器冷却。 这种强烈的冷却是必要的,因为过热会触发CPU中的保护机制,导致性能降低,计算精度降低甚至芯片退化。 主板应支持两个PCIE x16 2.0并发运行的图形卡。 包括重型冷却和通风系统在内的所有部件都需要全尺寸的塔架箱。 整个计算机系统需要运行48小时的密集计算任务才能证明其稳定性,并且最高记录的CPU核心温度需要低于此值75◦C,英特尔文档推荐。
整个系统最终的成本(按照表格1)大约是7500美元,而特斯拉K20c GPU虽然由NVidia捐赠,但在系统组装完成之后市场价值为3500美元。
图1.我们定制的台式计算机系统中的中央处理器(CPU)和图形处理单元(GPU)的体系结构。 我们使用Intel i7-3930K(6核心)的CPU和Nvidia Tesla K20c(2496核心)的GPU。 双箭头表示计算的内存传输。 高速缓存与系统内存(即RAM)之间,GPU内核与视频RAM(VRAM)之间以及VRAM与系统内存之间的传输速度分别为49.64 GB / s,208 GB / s和8 GB / s 。
2.2系统组装
一般的计算机组装已经在许多现有的指南(例如,http://www.gskill.us/forum/showthread。 PHPDelta;T= 10512)。 在基座上组装基本组件并在塔外进行单独测试是一种很好的做法。 在最初的测试之后,我们现在可以将每个组件都纳入案例。 尽管组件的布局与指定的塔架和主板相匹配,但重要的是将组件之间的连接电缆以无缠结的方式布线。 确定CPU液冷散热器和空气流向的位置同样重要。 环境凉爽的空气需要由机箱底部的风扇吸取,并在硬盘,GPU,CPU散热器和RAM中传输时应加热。 放置在塔架顶部和后部的冷却风扇将热空气从箱体中抽出。 进风扇前部的灰尘有助于减少内部组件上的灰尘积聚。 请参阅补充图。 1和2(附录C)为我们的最终组装系统的图像。 系统组装完成后,我们建议对系统进行超频以提高性能。 最后,测试自定义组装系统的稳定性非常重要。Internet上免费提供了许多工具,常见的选择包括英特尔刻录测试,Linx,prime95和Memtest。
必要的软件包括用于支持GPU计算的操作系统软件,驱动程序软件,Matlab(Mathworks,Natick,MA)和CUDA软件开发套件(SDK)。 我们使用Windows 8 64,因为它的用户量很大,并且更好地支持固态硬盘。 安装Windows 8后,建议运行嵌入式系统评估测试,以确保操作系统(OS)能够充分评估硬件性能。 没有这样的测试,操作系统可能会使用默认的性能指标,限制硬件功能。 主板,显卡和Tesla卡的驱动程序可以在制造商的网站上下载,并且应该特别针对您的组件选择。 我们使用系统监控软件Aida64(http://www.aida64.com/)跟踪系统状态。 它提供了CPU和GPU温度,电压,散热性能和其他参数的监控数据。 该软件具有安全操作机制,可在发现任何过热情况时发出警报并使计算机进入待机模式。
我们使用Matlab软件(版本r2013b)作为GPU计算平台,因为该软件通常用于神经科学研究,新版本包含最新的并行计算工具箱以及许多支持GPU的功能。 为了使Matlab能够访问Tesla卡,来自Nvidia网站的CUDA驱动程序(https://developer.nvidia.com/cuda-downloads)已被下载并安装。 使用GPUBench(由Matlab的Parallel Computing团队提供)执行简单的基准测试,以确保每个硬件组件运行时不会出现意外的节流。
表格1我们的桌面计算机系统中使用的CPU和GPU的结构组件和一般计算功能。
组件 |
模型 |
价格,每个($) |
注意 |
硬盘 |
三星840 Pro |
218 |
两个单元处于RAID 0模式 |
母板 |
华硕Rampage IV极致 |
439 |
|
中央处理器 |
英特尔i7-3930k |
499 |
运行在4.5 GHz |
CPU散热器 |
海盗船H100i闭环液体冷却器 |
105.99 |
|
系统内存 |
G.SKILL 32 GB四通道DDR3 |
300 |
运行于2.133 GHz |
显卡 |
华硕GTX 680 A455-0686 |
520 |
|
CUDA卡 |
Nvidia Tesla K20c |
3500 |
|
案件 |
酷冷至尊HAF X RC-942-KKN1 |
200 |
|
功率 |
海盗船AX1200i |
320 |
|
键盘/鼠标 |
罗技MK520组合 |
41.99 |
|
监控 |
华硕PB278Q 2711 |
649 |
|
扬声器 |
创意T10 |
40 |
|
操作系统 |
Windows 8 Pro x64 |
149 |
2.3GPU计算加速处理实验数据
与神经网络建模和仿真中大多数以前的神经科学应用不同,这种定制系统旨在在需要密集计算的实际实验数据分析中使用GPU并行计算。 我们开发并应用了基于光刺激的贴图局部皮质电路连通性分析技术。 特别地,激光扫描光刺激(LSPS)与活细胞脑片切片制备中的全细胞记录相结合,可以将突触前输入源的区域分布高分辨率地映射到单个神经元图2)。由于突触后神经元同时记录突触前神经元簇在许多不同位置的光刺激,LSPS方法提供了兴奋性或抑制性输入的空间分布的量化测量。
先前已经描述了我们的激光扫描光刺激系统的实验程序和设计(库尔曼 等人, 2013; 施 等人, 201
全文共19189字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[17126],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。