元富配资-又一颗芯片,挑战GPU

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

股票操盘 /

你的位置:元富配资 > 股票操盘 > 又一颗芯片,挑战GPU
又一颗芯片,挑战GPU
发布日期:2024-10-06 13:46    点击次数:146

(原标题:又一颗芯片,挑战GPU)

若是您但愿不错通常碰头,宽容标星储藏哦~

摘录

关于一个30亿参数的LLM,一个带有16个IBM AIU NorthPole处理器的考虑原型推理斥地提供了纷乱的28,356token/秒的系统隐隐量和低于1 ms /token(每用户)延长,而16个NorthPole卡在一个紧凑的2U外形上仅铺张672 W。专注于低延长和高能效,当NorthPole (12 nm)与一套GPU (7 / 5 / 4 nm)在多样功耗下进行比较时,在最低的GPU延长下,NorthPole提供72.7个更好的能效盘算(token/s/ W),同期提供更好的延长。

先容

大型谈话模子(LLMs)如故在不同的AI任务中取得了显赫的性能基准,举例通过提供代码建议来协助编程,在圭表化测试中发扬出色,以及匡助著述,博客,图像和视频的内容创建。

在LLMs的大限度部署中,相当是在东说念主工智能的大限度部署中,出现了两个主要且相互突破的挑战,即:动力铺张和反应延长。

当先,由于LLM在磨砺和推理方面齐需要无数的动力资源,因此需要一个可执续的未来诡计基础设施来结束其高效和平庸的部署。跟着数据中心碳足迹的扩大,以及它们越来越受到动力甘休,数据中心的动力恶果变得越来越迫切。凭证宇宙经济论坛的申诉:

“现在,数据中心环境碳足迹主要分红两部分:磨砺占20%,推理占80%。跟着东说念主工智能模子在不同界限的发展,对推理过火环境足迹的需求将会升级。”

其次,好多应用法子,如互动对话和自主职责流,需要尽头低的延长。在给定诡计架构内,镌汰延长不错通过镌汰隐隐量来结束,但这会导致能效下落。借用一句经典的系统格言进行改述:

“隐隐量问题不错通过资金治理,而延长问题则更为复杂,因为光速是固定的。”(改述自[10],将“带宽”替换为“隐隐量”。)

GPU不错通过使用较小的批量大小来结束更低的延长,但代价是隐隐量和能效的下落。此外,GPU分片通过在多个GPU上使用数据并行性来减少延长,但一样放置了能效。不论是否分片,GPU似乎齐遭遇了延长下限的硬性甘休。GPU在能效与延长之间的量度如图1所示。

图1:NorthPole(12 nm)在能量和系统延长盘算上相干于面前伊始进的GPU(7 / 5 / 4 nm)的性能,其中系统延长是每个用户所资格的总延长。在最低的GPU延长(H100,点P2)时,NorthPole提供了72.7倍的更好能效盘算(tokens / second / W)。在最好的GPU能效盘算(L4,点P1)时,NorthPole则提供了46.9倍更低的延长。

因此,本文所探讨的一个重要考虑问题是若何同期结束低延长与高能效这两个相互突破的见地。

NorthPole是一个推理加快器芯片和软件生态系统,从第一性旨趣共同想象,为神经会聚推理提供不凡的恶果。尽管NorthPole并不是有益为LLM想象的,但令东说念主诧异的是,本文知道了新式NorthPole架构不错结束低延长、高能效的LLM推理(图1、图2和表1)。

表 I:性能测量收尾

测量了NorthPole和GPU系统的性能,按每卡诡计。关于每个盘算,#闪现越低越好,而"闪现越高越好。关于NorthPole 16卡斥地,功耗按每卡测量,总系统隐隐量按16张卡进行辩认。NorthPole延长通过扫数16张卡进行测量。P1、P2、P3、P4分别指代图1和图2中象征的点,闪现最高GPU能效盘算、最低举座GPU延长、最高GPU空间盘算和最愚顽效GPU延长。

本文的主要考虑收尾如下:

关于一个参数目为30亿的大型谈话模子(LLM),其模子结构源自IBM Granite-8B-Code-Base模子,并与Llama 3 8B和Mistral 7B[14]保执一致,本文展示了一种配备16个NorthPole处理器的考虑原型推理斥地。

在十足性能方面,该斥地提供28,356 tokens/sec的系统隐隐量,单用户延长低于1毫秒,同期在2U机型下,16个NorthPole卡的功耗为672瓦。

在相对性能方面,将12纳米的NorthPole与一系列GPU(分别为7 / 5 / 5 / 4纳米的A100 / L4 / L40S / H100)在不同功耗下进行比较,不错从图2(a)和图2(c)中看出:在最低的GPU延长(点P2)时,NorthPole提供了72.7倍更好的能效盘算(tokens / second / W)和15.9倍更好的空间盘算(tokens / second / transistor),同期延长仍低于2.5倍;在最好GPU能效盘算(点P1)时,NorthPole提供了46.9倍更低的延长和2.1倍更好的空间盘算,同期仍提供2.2倍更好的能效盘算;在最好GPU空间盘算(点P3)时,NorthPole提供了20.3倍更低的延长和5.3倍更好的能效盘算,同期仍提供1.4倍更好的空间盘算。

相当是,当将12纳米的NorthPole与5纳米的L4 GPU进行可比功耗比较时,从图2(e)中不错看出,在最高的L4隐隐量(低于50毫秒每token,点P1)时,NorthPole提供了46.9倍更低的延长,同期隐隐量提高了1.3倍;而在最低的L4延长(点P4)时,NorthPole提供了36.0倍更高的隐隐量(tokens / second / card),同期延长仍低于5.1倍。

图2:(a)–(d)面板显现了12纳米的NorthPole在能效、空间和系统延长盘算上相干于面前伊始进的GPU(7 / 5 / 4纳米)的性能,其中系统延长是每个用户所资格的总延长。

面板(a)与图1交流,增多了点P3的标注。面板(a)和(c)使用单个GPU,而面板(b)和(d)使用分移时期,这可能镌汰延长,但仅以放置能效和空间恶果为代价。在最低的GPU延长(H100,点P2)时,NorthPole提供了72.7倍更好的能效盘算(tokens / second / W)和15.9倍更好的空间盘算(tokens / second / transistor),同期延长仍低于2.5倍;在最好GPU能效盘算(L4,点P1)时,NorthPole提供了46.9倍更低的延长和2.1倍更好的空间盘算,同期仍提供2.2倍更好的能效盘算;在最好GPU空间盘算(A100,点P3)时,NorthPole提供了20.3倍更低的延长和5.3倍更好的能效盘算,同期仍提供1.4倍更好的空间盘算。

面板(e)显现了12纳米的NorthPole在隐隐量(tokens / second / card)和系统延长盘算上相干于5纳米的L4 GPU的性能。在最低的L4延长(点P4)时,NorthPole提供了36.0倍更高的隐隐量;在最高的L4隐隐量(低于50毫秒每token,点P1)时,NorthPole提供了46.9倍更低的延长。用于诡计每个能效盘算的GPU功耗见表I。由于莫得可用的仪器来测量不同批量大小的内容功耗,因此对扫数批量大小使用交流的功率,这可能会低估能效盘算,但定性的收尾仍然设立。

NorthPole架构

如图3所示,NorthPole处理器给与12纳米工艺时期制造,领有220亿个晶体管,面积为795平日毫米。其架构受到大脑的启发,经过针对硅的优化,源于十个互补的想象公理,涵盖诡计、存储、通讯和次第,使NorthPole在圭表AI推理任务中显赫特殊其他架构,即使是与更先进工艺时期制造的处理器比较也发扬优异。

相干NorthPole架构的详实公理,请参见[11],[12]。简而言之,NorthPole将256个模块化中枢陈列在16×16的二维阵列中。每个中枢包含一个向量-矩阵乘法器(VMM),在INT8、INT4和INT2精度下,每个中枢每个周期分别扩充2048、4096和8192次操作。中枢诡计还包括一个4路、32切片的FP16向量单元和一个32切片的激活函数单元。中枢阵列悉数有192 MB的SRAM,每个中枢配备0.75 MB的SRAM。片上存储器与诡计单元和次第逻辑精细耦合,中枢存储器与诡计之间的总带宽为13 TB/s。此外,每个中枢齐有4096根导线在水和睦垂直标的交叉,用于通过四个专用片上会聚(NoCs)传递参数、指示、激活值和部分和。为了退避停顿,片上帧缓冲区配备32 MB的SRAM,将输入和输出数据的片外通讯与中枢阵列的片上诡计解耦。

图3:NorthPole处理器:硅片(左),裸片(中),封装模块(右)。

斥地

NorthPole如故在一个PCIe Gen3 × 8卡中进行了原型想象,如图4所示,其中16个卡装置在一台现成的2U奇迹器中,构成了一个考虑原型推理斥地,如图5所示。该奇迹器包含两颗Intel Xeon Gold 6438M处理器,每颗处理器具有32个中枢和60 MB缓存,主频为2.2 GHz。系统还配备了512 GB的4800 MHz DDR5内存。每个奇迹器处理器赓续有两条PCIe Gen5 × 16总线,提供悉数256 GB/s的PCIe带宽(双向)。这四条总线通过PCIe桥接器推广至系统的16个PCIe插槽,每个插槽上齐装置了一个NorthPole卡。这16个NorthPole卡最大使用可用的256 GB/s PCIe带宽的一半。

图4:NorthPole PCIe卡。

图5:考虑原型斥地的判辨视图,展示了16个NorthPole PCIe卡的装置。NorthPole卡不错通过圭表的PCIe端点模子与主机进行通讯,或者通过每个卡上的附加硬件功能径直、愈加高效地相互通讯。

该系统运行Red Hat Enterprise 8.9,NorthPole使用内置的VFIO内核驱动,以便用户空间的软件约略照看硬件。系统使用IOMMU进行地址诊疗照看,并启用斥地阻遏和杜撰化等安全功能,股票投资以便使用杜撰机或容器时期运行应用法子。

每个NorthPole卡通过驻留在每个卡上的DMA引擎继承和传输数据。这些DMA引擎孤苦职责,不错以多种方式同期继承和传输张量。第一种方法是圭表的PCIe端点模子,主机法子通过DMA引擎从主机内存中读取输入,并在诡计完成后将张量写回主机内存。第二种方法诳骗每个卡上的附加硬件功能,使NorthPole卡不错通过PCIe径直相互通讯,而无需进行主机内存之间的传输或在运行时进行额外的软件照看。通过径直的NorthPole间通讯,不错使更大的模子高出多个NorthPole芯片,同期减少通讯延长和由纯软件照看系统辖来的支拨。

将LLMs映射到NorthPole斥地

映射LLMs的政策,如图6所示,受到了三个重要不雅察的启发。当先,关于充足大的模子,通盘变换器层不错使用INT4面容的权重、激活值和KV缓存完全适配在单个NorthPole芯片的内存中(“w4a4”),而输出层则不错适配在两个芯片上。其次,若是权重和KV缓存完全驻留在芯片上,运行时只需在层间传输袖珍镶嵌张量,这在PCIe Gen3 × 8的带宽范围内。第三,不错通过在现成奇迹器中装置16个NorthPole PCIe卡,任性拼装原型NorthPole斥地。

这暗意了一种政策,将每个变换器层映射到各自的NorthPole卡上,给与GPipe作风的活水线并行性,并将输出层跨两个NorthPole卡拆分,使用张量并行性,通过PCIe Gen3 × 8将层之间的镶嵌张量发送。在推理历程中,一个用户肯求的小批量(举例N个肯求)被分红M个相等的微批量,并通过16个NorthPole卡进行活水线处理。

固然活水线并行性已在LLMs磨砺中得到诳骗(莫得延长甘休),但在推理中的使用受限于减少每个活水线阶段的幽闲时期或活水线气泡所需的大小批量。举例,有考虑发现,高效磨砺条款微批量数M大要是活水线阶段数的四倍。小批量大小N受到以下成分的甘休:(a)系统所需的每个token延长,以及(b)用于存储通盘小批量的KV缓存的可用内存。低延长诡计和13 TB/s的片上内存带宽使NorthPole约略结束极低的每个token延长,因此选拔N时的甘休成分是用于在芯片上存储通盘KV缓存的内存。此外,咱们发现微批量数M就是活水线阶段数足以使活水线幽闲时期可忽略不计。

在本文申诉的实际中,咱们选拔了N = 28的小批量大小,分为M = 14个相等的微批量,从而使每个NorthPole卡诡计的微批量大小为2。咱们在如斯小的批量大小下进行高效诡计的架构想象选拔是结束图1和表I中所示恶果的重要。

LLM模子与磨砺方法

A

LLM模子

用于测试咱们系统的模子基于开源的IBM Granite-8B-Code-Base模子,这是一个具有80亿参数的变换器解码器,包含36个变换器层,荫藏层大小为4096,FFN中间层大小为14,336,珍爱力头数为32,使用分组查询珍爱力(GQA)的键值头数为8,股票配资网站排名词汇表大小为49,152。为了顺应带有16个NorthPole卡的单个奇迹器,咱们使用了该模子的30亿参数版块,包含14个变换器层和一个输出层,量化为w4a4精度,但其他结构保执不变。

值得珍爱的是,这种模子设置在每层的基础上与Llama 3 8B[13]和Mistral 7B[14]相匹配,仅在层数、模子词汇表大小和使用的磨砺数据上有所不同。

B

完全精度准确性的磨砺

为了在量化后恢还原始模子的任务准确性,给与了以下法子来创建模子权重。当先,基于116种谈话的1万亿个代码token,从新脱手磨砺一个基线模子,使用全FP16精度,校服[4]的配方。接下来,对基线模子的输出层权重和输入,以及SiLU激活进行了INT8量化,而扫数其他权重、线性层输入和矩阵乘法输入则进行了INT4量化。临了,通过对来自磨砺数据的Python谈话子集的进一步85亿个token进行量化感知磨砺,回报后量化准确性,学习率为8×10??,批量大小为128,给与LSQ算法。激活量化器的步长使用热启动进行磨砺,在磨砺的前250步中将学习率升迁200倍,以匡助快速顺应数据。

在GPU上运行的基准FP16模子和在NorthPole上运行的量化模子在HumanEvalSynthesize-Python上的精度为pass@10,曲折在0.01以内(0.3001 GPU vs. 0.2922 NorthPole。与Granite-8B-Code-Base模子比较,举座磨砺被简化为专注于硬件性能表征,而不是激动任务准确性的界限。

运行时应用

在推理历程中,如图6所示,token由在主机CPU上运行的高度活水线化用户应用生成,该应用通过使用分词器和镶嵌层将文本预处理为输入张量,将输入张量放入斥地中的第一个NorthPole卡,从斥地的临了一个NorthPole卡继承收尾输出张量,使用解码器和反分词器对输出张量进行后处理,并将生成的token轮回手眼下一个输入。用户应用还正经用户界面以及教唆预填充等更高等的优化。

为了将神经会聚职责负载卸载到NorthPole,用户应用调器具有通俗API的用户空间运行时库,在运滚动时设置NorthPole卡的层权重和KV缓存,并在运行时发送和继承输入与输出张量。权重和KV缓存设置后保留在片上内存中,运行时无需从片外流式传输。运行时库还照看片上帧缓冲区,以退避NorthPole中枢因短缺输入数据或输出数据继承方而停滞。中间张量在卡之间传递,无需主机烦躁,如第四节所述。

性能收尾

NorthPole 16卡斥地在30亿参数LLM上结束了28,356token/秒的隐隐量。该LLM的序列长度设置为2048(1024个教唆长度,生成1024个token),解码器给与贪念采样。

为了与GPU进行比较,咱们测量了两款针对低功耗推理的GPU(L4 和 L40S)及两款针对高隐隐量磨砺的GPU(A100 和 H100)的单卡性能。扫数系统均运行交流的LLM模子和设置,NorthPole以w4a4精度运行,而GPU则以最好的w4a16精度运行,因为据咱们所知,莫得可用的w4a4 CUDA中枢。在咱们的GPU实际中,咱们诳骗了GPTQ量化模子,并使用vLLM(版块0.5.4)Marlin中枢进行基准测试,以便与NorthPole进行比较。使用GPTQ量化通过镌汰权重精度,同期保执可接纳的准确性,为GPU提供了最好的模子推感性能。此外,Marlin中枢被用来优化矩阵运算,相当是在处理稀薄和密集矩阵乘法时。通过vLLM运行时的基准测试,使咱们约略评估隐隐量和延长,确保在给定硬件设置下的最好模子性能。在多个GPU卡的实际中,给与与可用卡数相等的张量并行性,以有用赢得通过NVLink的最小可能延长。咱们的实际标明,分移时期固然减少了延长,但导致GPU每卡的隐隐量下落。值得珍爱的是,NorthPole的不凡性能主要源于其纷乱的片上内存带宽,其次才是较低的精度。

表I显现了NorthPole和GPU系统在每卡基础上的测量性能收尾。基本盘算包括隐隐量、延长、空间和能量盘算,界说如下。

关于输入教唆的小批量生成的总token数为:

其中,MMM为微批量的数目,tok_seq_len为单个用户生成的输出token数。系统隐隐量是反应输入教唆的生成token总额(tokens gen),除以处理教唆所需的总时期,包括教唆预填充时期(prompt time)和token生成时期(token gen time):

隐隐量以每卡为单元进行比较,方法是将系统隐隐量除以系统中处理卡的数目:

延长是对特定用户生成输出token之间的平均时期的度量,它是镶嵌token流经处理管说念所需时期的总和,以及在生成token总额上平摊的教唆预填充时期:

一样地,勾通式1、2、4:

其中小批大小=小批大小珍爱,这是每个用户看到的系统延长。

通过系统中的卡片数目进行范例化,咱们推广了[11]中界说的空间和能量盘算,以便约略比较具有不同卡片数目的系统。由此产生的空间和能量盘算是每张卡的隐隐量,分别由每张卡的处理器晶体管数目和每张卡的功率归一化:

若是系统隐隐量与系统中活水线卡的数目成比例地推广,则卡的范例化将被对消,使空间和能量盘算与系统中卡的数目保执不变。通常,由于通讯和同步支拨,系统隐隐量在卡数目上呈次线性增长。

论断

咱们建议以下孝敬:

咱们展示了一个多卡NorthPole斥地的考虑原型。

咱们知道了像LLM这么的大型神经会聚模子不错有用地在多个NorthPole处理器之间拆分,推广了咱们之前的职责,后者显现单个NorthPole处理器在视觉推理任务(ResNet50、Yolo-v4)上的发扬优于其他架构。

咱们知道了NorthPole独有的架构尽头适合LLM推理,使其在低延长和高能效的双重见地上显赫特殊角落和数据中心GPU。

由于NorthPole斥地必须手脚一个举座使用,因此它对高隐隐量应用最为高效。

本初步论文为进一步考虑能效优化、在相应更大NorthPole斥地上映射更大LLM、新的与NorthPole架构协同优化的LLM模子,以及未来系统和芯片架构提供了一个跳板。

[1] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin,S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei, “Language models are few-shot learners,” 2020. [Online]. Available: https://arxiv.org/abs/2005.14165

[2] J. Yang, H. Jin, R. Tang, X. Han, Q. Feng, H. Jiang, B. Yin, and X. Hu, “Harnessing the power of LLMs in practice: A survey on ChatGPT and beyond,” 2023. [Online]. Available: https://arxiv.org/abs/2304.13712

[3] M. Chen, J. Tworek, H. Jun, Q. Yuan, H. P. de Oliveira Pinto, J. Kaplan, H. Edwards, Y. Burda, N. Joseph, G. Brockman, A. Ray, R. Puri, G. Krueger, M. Petrov, H. Khlaaf, G. Sastry, P. Mishkin, B. Chan, S. Gray, N. Ryder, M. Pavlov, A. Power, L. Kaiser, M. Bavarian, C. Winter, P. Tillet, F. P. Such, D. Cummings, M. Plappert, F. Chantzis, E. Barnes, A. Herbert-Voss, W. H. Guss, A. Nichol, A. Paino, N. Tezak, J. Tang, I. Babuschkin, S. Balaji, S. Jain, W. Saunders, C. Hesse, A. N. Carr, J. Leike, J. Achiam, V. Misra, E. Morikawa, A. Radford, M. Knight, M. Brundage, M. Murati, K. Mayer, P. Welinder, B. McGrew, D. Amodei, S. McCandlish, I. Sutskever, and W. Zaremba, “Evaluating large language models trained on code,” 2021. [Online]. Available: https://arxiv.org/abs/2107.03374

[4] M. Mishra, M. Stallone, G. Zhang, Y. Shen, A. Prasad, A. M. Soria, M. Merler, P. Selvam, S. Surendran, S. Singh et al., “Granite code models: A family of open foundation models for code intelligence,” arXiv preprint arXiv:2405.04324, 2024.

[5] O. (2023), “GPT-4 technical report,” 2024. [Online]. Available: https://arxiv.org/abs/2303.08774

[6] D. McCandless, T. Evans, and P. Barton. (2024) The rise and rise of A.I. large language models (LLMs) & their associated bots like ChatGPT. [Online]. Available: https://informationisbeautiful.net/visualizations/therise-of-generative-ai-large-language-models-llms-like-chatgpt/

[7] B. Cottier, R. Rahman, L. Fattorini, N. Maslej, and D. Owen, “The rising costs of training frontier AI models,” arXiv preprint arXiv:2405.21015v1, 2024.

[8] S. Samsi, D. Zhao, J. McDonald, B. Li, A. Michaleas, M. Jones, W. Bergeron, J. Kepner, D. Tiwari, and V. Gadepally, “From words to watts: Benchmarking the energy costs of large language model inference,” 2023. [Online]. Available: https://arxiv.org/abs/2310.03003

[9] B. Ammanath, “How to manage AI’s energy demand — today, tomorrow and in the future,” 2024. [Online].

Available:https://www.weforum.org/agenda/2024/04/how-to-manageais-energy-demand-today-tomorrow-and-in-the-future/

[10] D. A. Patterson, “Latency lags bandwidth,” Commun. ACM, vol. 47, no. 10, p. 71–75, Oct 2004. [Online]. Available: https://doi.org/10.1145/1022594.1022596

[11] D. S. Modha, F. Akopyan, A. Andreopoulos, R. Appuswamy, J. V. Arthur, A. S. Cassidy, P. Datta, M. V. DeBole, S. K. Esser, C. O. Otero et al., “Neural inference at the frontier of energy, space, and time,” Science, vol. 382, no. 6668, pp. 329–335, 2023.

[12] A. S. Cassidy, J. V. Arthur, F. Akopyan, A. Andreopoulos, R. Appuswamy, P. Datta, M. V. Debole, S. K. Esser, C. O. Otero, J. Sawada et al., “11.4 IBM NorthPole: An Architecture for Neural Network Inference with a 12nm Chip,” in 2024 IEEE International Solid-State Circuits Conference (ISSCC), vol. 67. IEEE, 2024, pp. 214–215.

[13] AI@Meta, “Llama 3 model card,” 2024. [Online]. Available: https://github.com/meta-llama/llama3/blob/main/MODEL CARD.md

[14] A. Q. Jiang, A. Sablayrolles, A. Mensch, C. Bamford, D. S. Chaplot, D. de las Casas, F. Bressand, G. Lengyel, G. Lample, L. Saulnier, L. R. Lavaud, M.-A. Lachaux, P. Stock, T. L. Scao, T. Lavril, T. Wang, T. Lacroix, and W. E. Sayed, “Mistral 7B,” 2023. [Online]. Available: https://arxiv.org/abs/2310.06825

[15] Y. Huang, Y. Cheng, A. Bapna, O. Firat, M. X. Chen, D. Chen, H. Lee, J. Ngiam, Q. V. Le, Y. Wu, and Z. Chen, “GPipe: Efficient training of giant neural networks using pipeline parallelism,” 2019. [Online]. Available: https://arxiv.org/abs/1811.06965

[16] N. Shazeer, Y. Cheng, N. Parmar, D. Tran, A. Vaswani, P. Koanantakool, P. Hawkins, H. Lee, M. Hong, C. Young, R. Sepassi, and B. Hechtman, “Mesh-TensorFlow: Deep learning for supercomputers,” 2018. [Online]. Available: https://arxiv.org/abs/1811.02084

[17] M. Shoeybi, M. Patwary, R. Puri, P. LeGresley, J. Casper, and B. Catanzaro, “Megatron-LM: Training multi-billion parameter language models using model parallelism,” 2020. [Online]. Available: https://arxiv.org/abs/1909.08053

[18] S. K. Esser, J. L. McKinstry, D. Bablani, R. Appuswamy, and D. S. Modha, “Learned step size quantization,” in International Conference on Learning Representations, 2020.

[19] N. Muennighoff, Q. Liu, A. Zebaze, Q. Zheng, B. Hui, T. Y. Zhuo, S. Singh, X. Tang, L. Von Werra, and S. Longpre, “Octopack: Instruction tuning code large language models,” arXiv preprint arXiv:2308.07124, 2023.

[20] NVIDIA Corporation, “NVIDIA ADA GPU Architecture (V2.01),” 2023. [Online]. Available: https://images.nvidia.com/aemdam/Solutions/Data-Center/l4/nvidia-ada-gpu-architecture-whitepaperv2.1.pdf

[21] ——, “NVIDIA Ampere GA102 GPU Architecture (V2.1),” 2021. [Online]. Available: https://images.nvidia.com/aemdam/en-zz/Solutions/geforce/ampere/pdf/NVIDIA-ampere-GA102- GPU-Architecture-Whitepaper-V1.pdf

[22] ——, “NVIDIA H100 Tensor Core GPU Architecture (V1.04),” 2023. [Online]. Available: https://resources.nvidia.com/en-us-tensorcore/gtc22-whitepaper-hopper

半导体极品公众号推选

专注半导体界限更多原创内容

祥和民众半导体产业动向与趋势

*免责声明:本文由作家原创。著述内容系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或因循,若是有任何异议,宽容计议半导体行业不雅察。

今天是《半导体行业不雅察》为您共享的第3905内容,宽容祥和。

『半导体第一垂直媒体』

及时 专科 原创 深度

公众号ID:icbank

可爱咱们的内容就点“在看”共享给小伙伴哦



相关资讯