自计算机诞生以来,计算过程一直以处理器为中心,存储与计算就是分离的。然而,在记忆内存和计算之间穿梭传输大量数据,会在能耗、处理带宽和速度方面付出高昂的代价。这在新兴的和先进的实时 AI 应用(如脸部识别、物体检测和行为监控等)中,尤其明显,只因这些应用需要快速获取海量数据。
近日,美国 IBM研究实验室(IBM Research)Dharmendra S. Modha,Filipp Akopyan等,在Science上发文,仿生了有机大脑,并优化了无机硅。报道了一种神经推理架构NorthPole,即通过移除片外存储器,将计算与芯片存储器融合在一起,并在外部显示为有源存储芯片,从而模糊了存储与计算的界限。NorthPole是一种低精度、大规模并行、高密度互连、高能效的空间计算架构,具有协同优化、高利用率的编程模型。在ResNet50基准图像分类网络上,相较于12纳米技术工艺的图形处理器graphics processing unit(GPU),NorthPole实现了每瓦特每秒帧数frames per second (FPS)能量指标高达25倍,每晶体管每秒帧数FPS空间指标高出5倍,以及延迟时间指标低22倍。Yolo-v4检测网络也报告了类似结果。NorthPole性能优于所有流行的架构,甚至是那些使用更先进技术流程的架构。Neural inference at the frontier of energy, space, and time。图1. 接近计算和活动内存的内存:处理器内存组织决定了片上数据通路和使用模型。
图2.NorthPole架构与实现。
图3. 利用相邻核心之间网络连接,NorthPole支持类似于Cortex拓扑空间计算模型。
图4. 在ResNet50 能量、空间和时间指标上,NorthPole优于流行的架构,具有最先进的推理精度。
在全球范围内,人类每天处理和发送的数据量是惊人的。然而,所涉及的能量成本却很高,并且亟需设计节能设备。该项研究,描述了一种具有神经网络启发架构的芯片,称为NorthPole,与其他类似架构相比,实现了更高性能、能效和面积效率。该项芯片的关键特性之一是认识到,对于几乎所有类型的计算,对存储器访问与逻辑处理具有同样重要的作用。与模拟内存计算不同,这种纯数字系统,可根据需要定制位精度,从而优化功耗。https://www.science.org/doi/10.1126/science.adh1174DOI: 10.1126/science.adh1174声明:仅代表译者个人观点,小编水平有限,如有不当之处,请在下方留言指正!