标签:
导读 世界上最强大的超级计算机使用了其所配备的8%以上的GPU来训练包含一万亿个参数的大型语言模型(LLM)-与OpenAI的GPT-4相当。总部位于橡树岭国
世界上最强大的超级计算机使用了其所配备的8%以上的GPU来训练包含一万亿个参数的大型语言模型(LLM)-与OpenAI的GPT-4相当。
总部位于橡树岭国家实验室的Frontier使用3,072个AMDRadeonInstinctGPU来训练万亿参数规模的AI系统,并使用其中1,024个GPU(约占2.5%)来训练1,750亿个参数模型,与ChatGPT的大小基本相同。
根据他们的论文,研究人员至少需要14TBRAM才能实现这些结果,但每个MI250XGPU仅具有64GBVRAM,这意味着研究人员必须将多个GPU组合在一起。然而,这带来了并行性形式的另一个挑战,这意味着随着用于培训法学硕士的资源总体规模的增加,各个组件必须更好、更有效地进行通信。
法学硕士通常不会在超级计算机上接受培训,而是在专用服务器上接受培训,并且需要更多的GPU。例如,根据TrendForce的数据,ChatGPT在超过20,000个GPU上进行了训练。但研究人员希望证明,他们是否可以通过利用超级计算机架构实现的各种技术,更快、更有效地训练超级计算机。
TECHRADAR的最新视频
科学家们结合使用了张量并行(GPU组共享同一张量的各个部分)和管道并行(GPU组托管相邻组件)。他们还利用数据并行性来同时消耗大量代币和大量计算资源。总体效果是实现更快的时间。
对于220亿参数模型,他们实现了38.38%(73.5TFLOPS)的峰值吞吐量,对于1750亿参数模型实现了36.14%(69.2TFLOPS),对于1万亿参数模型实现了31.96%(61.2TFLOPS)峰值吞吐量。
他们还实现了100%的弱缩放效率%,以及1750亿模型的89.93%的强缩放性能,以及1万亿参数模型的87.05%的强缩放性能。