Creators Connect

十次方 follow

@kv12660102

Followers0

Blogs16

Video0

Comments0

12-10-2019

十次方:针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片

在2016年8月,处理器大厂英特尔并购AI技术新创公司Nervana Systems之后,各界都在关注后续将推出的AI运算芯片。


2017年10月,英特尔宣布年底将会推出第一颗针对神经网络处理的矽芯片,称为Intel Nervana Neural Network Processor(NNP),其研发代号为Lake Crest。当时他们也规划多个世代Nervana NNP的发展流程,希望能针对AI模型的处理提供更高的效能,以及更强大的扩展性,预计在2020年将AI效能提升至现行产品的100倍。


这款芯片有哪些不凡之处?根据英特尔所言,NNP是该公司根据AI应用需求所全部重新设计的深度学习ASIC芯片,透过这套专门针对深度学习所建构的运算架构,它能支援所有深度学习指令集,具有各种需要的使用弹性,能让核心硬件元件提供最大运算效率。


在2018年5月举行的Intel AI DevCon大会上,英特尔宣布即将推出第一套商业化的NNP产品,称为Nervana NNP-L1000(研发代号为Spring Crest),上市时间会是2019年,根据他们的预期,Nervana NNP-L1000比起第一代NNP(Lake Crest),能提供3到4倍的机器学习训练效能。


到了今年1月,英特尔在美国消费电子展(CES)期间,宣布推出另一颗用于AI推论处理的NNP芯片,称为Nervana Neural Network Processor for Inference(NNP-I),在这套产品的研发上,英特尔也和Facebook合作。


3月召开的OCP Global Summit大会上,我们也看到英特尔透露NNP的近况,预告今年将会推出分别用于训练与推论的产品,并提及NNP-L1000将推出遵循OAM(OCP Accelerator Module)外形设计的规格,采用夹层模组(Mezzanine Module)的型态。
同时,他们也在OCP大会上,介绍了NNP-L1000用于单机箱、多机箱,以及多机箱多机柜的高可用性机箱管理架构(HCM)。


下一个相关的消息是在7月揭晓,他们在中国北京举行的百度AI开发者大会期间,宣布与百度公司合作研发用于AI训练的NNP芯片,称为Neural Network Processor for Training(NNP-T)。


隔月举行的Hot Chips 2019大会上,英特尔对于即将推出的NNP芯片揭露更多细节,他们明确列出Nervana神经网络处理器的两条主要产品线:NNP-T和NNP-I,前者用于深度学习的模型训练,后者则是用于资料中心工作负载的深度学习推论处理,里面采用了英特尔的10奈米制程技术,以及Ice Lake微架构的运算核心。


而NNP-T和NNP-I相关产品正式亮相的时间,则是在11月12日于美国旧金山举行的2019 Intel AI Summit大会,英特尔公开展示这两款特制的ASIC芯片,机型名称分别为NNP-T1000与NNP-I1000,而且,他们宣布Facebook和百度均已采用这两款产品。


以NNP-T而言,最多可内建24个张量处理丛集(Tensor Processing Clusters,TPC),以便执行深度学习训练的作业。每个TPC会运用一种特别的计数格式,当中会结合16位元脑浮点(bfloat16)与32位元浮点(FP32)。而这种基于张量的bfloat16架构,可以支援多种深度学习指令,以便更有效率地运用硬件元件。


同时,每个NNP-T处理器,还拥有16个双向高速的芯片对芯片连结信道(Inter-Chip Links,ICLs),能在安装多张运算加速卡时,不论是在单一系统、单一机柜(跨多台服务器),或是跨多个机柜组成单个Pod时,均可获得近乎线性扩展的处理规模。


在架构上,用户可以在单台服务器上,使用8张加速卡,支援多个深度学习训练系统,建构一组AI训练用的Pod。它能支援多种连接方式,环状拓朴、混合式立方网状网络拓朴(Hybrid Cube Mesh),以及完全连结,以便对应不同的资料吞吐量与延迟度要求。


根据英特尔的内部测试,在一座安装32张NNP-T加速卡的机柜当中,执行ResNet-50和BERT的深度学习训练时,所获得的规模扩展可达到95%(竞争厂商的产品只有73%,但英特尔并未写明与何种产品相比)。此外,不论是使用8张加速卡或32张加速卡,资料传输率均可维持相同速度,不因搭配数量更多的加速卡而影响效能。


在产品形式上,NNP-T提供2种外形,分别是PCIe接口卡NNP-T 1300,以及OAM夹层卡NNP-T 1400,可安装在服务器当中,也能支援跨服务器之间的运算流量处理,英特尔也提供跨机柜的Pod参考设计,以支援云端服务规模的应用需求,而这样的作法,能让用户以芯片对芯片、机箱对机箱、机柜对机柜的串连方式,建置超大型深度学习训练系统,而且当中不需要交换器来衔接。


英特尔也在Intel AI Summit大会现场,实机展示以10座机柜组合而成的服务器系统。巧的是,Supermicro也在本周举行的SC大会发布了新闻稿,里面也秀出10柜NNP-T Pod的产品照片,或许英特尔在自家活动当中所展示的设备,就是出自Supermicro之手。


另一款NNP-I,则是专为执行密集、多模态的推论处理所设计,具有高效能的运算效能、支援可程序化控制等特色,并且诉求具有较低耗电与建置成本。这里面采用了完全整合电压调节技术(FIVR),能让系统单芯片(SoC)运用不同的功率包络(power envelopes)实现动态电源管理,达到能源效率最佳化。


在这颗处理器的裸晶当中,也配置了英特尔架构的运算核心,包含AVX与VNNI指令集,能支援高阶可程序化应用,让从事AI工作的人员面对新一代的资料模型时,也能因为采用NNP-I而具有足够的最佳化效能。


架构上,英特尔目前推出的NNP-I处理器是第一代产品,称为NNP I-1000(代号为Spring Hill),里面采用12个推论运算引擎(Inference Compute Engines,ICE),以及2颗英特尔CPU核心(IA Core),兼具可程序化能力与最佳化吞吐效能,具有支援不同计数方式的弹性,提供混合精度的计算力,可执行低精度的应用,达到近乎即时的运算效能,并能因应不同应用下的程序码快速移植需求。


NNP-I的裸晶当中也配置了大量的SRAM内存,以及1颗同调(coherent)的网络单芯片(NoC)。基于这样的设计而成的Cache Coherency Fabric,可善用多个内存阶层架构,支援资料快速共享与重复使用,减少不必要的内存存取作业,而能提供低延迟的操作模式,如此一来,也促使NNP I-1000在执行深度学习推论处理时,具有更好的每瓦效能(根据英特尔在Hot Chips大会发布的资料来看,可达到每瓦4.8 TOPS)。


在产品的应用形式上,NNP-I可部署在资料中心或是网络边际的位置,英特尔提供相当多种外形,以支援大规模的推论运算部署,目前有M.2、PCIe接口卡。不过,值得注意的是,英特尔也在Intel AI Summit大会主题演讲的简报,秀出有EDSFF的外形,而在大会现场,我们的记者翁芊儒则拍摄到M.2、E1.L、E1.S等3种外观。


NNP I-1000的另一大卖点是其运算效能,英特尔也公布他们效能测试的比较结果,若以搭载Nvidia T4的服务器(Supermicro 6049GP-TRT,4U机箱、安装20张Nvidia T4)为基准,搭载32台EDSFF形式的NNP I-1000的1U服务器(英特尔并未公布设备厂牌与机型),可提供更高的运算密度(3.7倍)。


若要将NNP- I用于云端原生的环境,英特尔表示,他们将提供一套完整的解决方案软件堆叠架构,透过他们释出的Kubernetes装置外挂与管理接口,使其能够支援Docker容器、Kubernetes调度指挥系统,以及无服务器架构,能用于容器即服务(CaaS)与功能即服务(FaaS)的云端服务模式。


产品资讯
Intel Nervana NNP系列
●原厂:Intel(02)6622-0000
●建议售价:厂商未提供
●机型系列与用途:NNP-T系列用于深度学习训练,NNP-I系列用于深度学习推论
●外形与细部机型:NNP-T 1300为双槽PCIe接口卡,NNP-T 1400为OAM夹层卡,NNP I-1100为M.2模组,NNP I-1300为PCIe接口卡
●功耗:NNP-T 1300为300瓦,NNP-T 1400为375瓦,NNP I-1100为12瓦,NNP I-1300为75瓦
【注:规格与价格由厂商提供,因时有异动,正确资讯请洽厂商】


租服务器请联系十次方,平台提供服务器租赁服务!
本文来源: https://www.10cifang.com/news/3461.html

©2025 16J.com. All rights reserved.