Comment nous assurons la fiabilité des GPU dans Databricks AI
Traduit de l'original anglais par IA. Voir en anglais
Databricks AI utilise une approche multi-facettes pour garantir la fiabilité des GPU, en abordant les jobs plantés, les ralentissements silencieux et la corruption numérique par la validation avant la charge de travail, la surveillance en charge et les vérifications de l'état du tissu inter-nœuds. Ce système, testé sous contrainte par des charges de travail diverses et à grande échelle comme le RL pour le codage agentique, détecte les problèmes tels que la fragilité du tissu et les points chauds thermiques avant qu'ils n'impactent la production plus large.
* Les défaillances de GPU à grande échelle se répartissent grosso modo en trois catégories : les jobs plantés qui s'annoncent, les ralentissements silencieux qui étranglent discrètement le débit sur le GPU le plus lent, et la corruption numérique qui produit des résultats incorrects. * Databricks AI teste sous contrainte la plateforme avec des charges de travail diverses et à grande échelle comme le RL pour le codage agentique. Celles-ci révèlent la fragilité du tissu, les points chauds thermiques et les cas limites de communication collective avant qu'ils n'atteignent la production plus large. * Un système de vérification de l'état doit détecter les défaillances tout au long du cycle de vie complet du nœud. Cela signifie valider le matériel GPU avant le démarrage des charges de travail, surveiller la dégradation silencieuse sous charge et sonder l'état du tissu NCCL inter-nœuds entre les opérations.