在Meta发布的对于Llama 3.1的论文中提到,该模子在54天的预测验周期中遭受了466次任务中断,其中有419次属于非诡计内的中断。这些中断中大致78%不错恼恨于硬件问题,而GPU问题尤其凸起指挥学生,占据了总共故障中的58.7%。Llama 3.1 405B模子是在一个由16,384块Nvidia H100 80GB GPU构成的集群上进行测验的。尽管H100 GPU在MLPerf测验基准测试中发扬出色指挥学生,但在骨子的大鸿沟测验环境中,高功耗和热应力带来的问题破损疏远。
针对这些问题,Llama 3.1团队给与了一系列圭表以晋升系统的踏实性和测验后果。他们期骗PyTorch的NCCL flight recorder器具,或者灵验地会诊大鸿沟测验中的卡顿和性能问题。这种器具不错纪录通讯事件和集体操作的捏续技术,并在出现问题时自动导出追踪数据,匡助团队快速定位故障原因。此外,通过在线树立改动,不错在不影响任务运转的情况下礼聘性地开启更详备的追踪操作和元数据收罗。
为了唐突NVLink故障导致的卡顿问题,系统会监控通讯库的情景并在检测到卡顿时自动触发超时机制。此外,团队还开垦了器具来优先解决可能存在问题的程度组通讯,通过这种形态或者灵验地识别出变慢的部分,即便只消一小部分建设受到影响,也能幸免累赘通盘集群的发扬。
环境要素也被解释会影响大鸿沟测验的性能,比如温度的变化会导致GPU动态诊治电压和频率,进而影响费解量。跟着Llama模子鸿沟的进一步扩大指挥学生,这些挑战将变得愈加显耀。Meta诡计络续加多其AI集群的鸿沟,这不仅条目更高的硬件性能,还需要愈加完善的基础关节和软件优化来确保测验进程的高效踏实。
疯狂小学生MetaNvidiaLlama故障集群发布于:广东省