<code id='CAC547445F'></code><style id='CAC547445F'></style>
    • <acronym id='CAC547445F'></acronym>
      <center id='CAC547445F'><center id='CAC547445F'><tfoot id='CAC547445F'></tfoot></center><abbr id='CAC547445F'><dir id='CAC547445F'><tfoot id='CAC547445F'></tfoot><noframes id='CAC547445F'>

    • <optgroup id='CAC547445F'><strike id='CAC547445F'><sup id='CAC547445F'></sup></strike><code id='CAC547445F'></code></optgroup>
        1. <b id='CAC547445F'><label id='CAC547445F'><select id='CAC547445F'><dt id='CAC547445F'><span id='CAC547445F'></span></dt></select></label></b><u id='CAC547445F'></u>
          <i id='CAC547445F'><strike id='CAC547445F'><tt id='CAC547445F'><pre id='CAC547445F'></pre></tt></strike></i>

          嘉盛资本通
          嘉盛资本通

          16384块N卡训练4050亿参数大模型 :3小时报错一次 动辄成百上千亿参数

          时间:2025-09-19 06:13:08 来源:

          如今的块N卡训AI大模型规模越来越庞大 ,动辄成百上千亿参数,练亿训练过程不仅需要数万甚至十几万块GPU加速卡 ,参数错次出错的大模几率也越来越高 。Meta(Facebook)就披露了一份惊人的时报报告。

          Meta在报告中披露 ,块N卡训为了训练自己的练亿Llama 3 4050亿参数大模型 ,使用了包含16384块NVIDIA H100 80GB GPU的参数错次集群,一共花了45天,大模期间居然出现了419次意外报错 ,时报平均每3个小时就一次,块N卡训而一半的练亿错误都和GPU及其自带的HBM3内存有关 。

          要知道,参数错次大模型训练的大模工作量异常庞大,而且需要高度同步 ,时报一次错误就可能导致整个训练工作必须从头再来 。

          报告显示,为期45天的预训练阶段中 ,总共出现了466次工作中断,其中47次是计划内的自动维护,419次是意外的 ,且大部分都来自硬件问题,GPU又是最多的 ,占了其中的58.7% 。

          具体来说,148次即30.1%的意外中断来自各种GPU失效(包括NVLink总线),72次即17.2%来自HBM3内存失效——毕竟 ,700W的功耗太热了 。

          还有19次来自GPU SRAM ,17次来自GPU处理器 ,6次来自GPU静默数据错误,6次来自GPU散热和传感器 。

          其他错误来自软件bug  、网线和网卡等等各个方面。有趣的是 ,CPU错误只出现了2次。

          还好,Llama 3团队非常给力 ,在这么高的出错几率下 ,依然维持了超过90%的有效训练时间,而且只有三次GPU报错需要大量人工干预,其他都被自动化管理纠正了。

          更多内容请点击【探索】专栏