Wie wir GPUs in Databricks AI zuverlässig halten
Von KI aus dem englischen Original übersetzt. Auf Englisch ansehen
Databricks AI verwendet einen mehrstufigen Ansatz, um die GPU-Zuverlässigkeit zu gewährleisten. Dieser Ansatz adressiert abgestürzte Jobs, schleichende Verlangsamungen und numerische Korruption durch Validierung vor der Arbeitslast, Überwachung während der Last und Zustandsprüfungen der Inter-Node-Fabric. Dieses System, das durch vielfältige, großskalige Arbeitslasten wie RL für agentisches Coding stresstgetestet wurde, erkennt Probleme wie Fabric-Flakiness und thermische Hotspots, bevor sie die breitere Produktion beeinträchtigen.
* GPU-Fehler im großen Maßstab lassen sich grob in drei Kategorien einteilen: abgestürzte Jobs, die sich selbst ankündigen, schleichende Verlangsamungen, die den Durchsatz auf der langsamsten GPU unbemerkt drosseln, und numerische Korruption, die falsche Ergebnisse liefert. * Databricks AI stressttestet die Plattform mit vielfältigen, großskaligen Arbeitslasten wie RL für agentisches Coding. Diese decken Fabric-Flakiness, thermische Hotspots und Edge-Cases der kollektiven Kommunikation auf, bevor sie die breitere Produktion erreichen. * Ein Zustandsprüfungssystem muss Fehler über den gesamten Lebenszyklus des Knotens hinweg erkennen. Das bedeutet, die GPU-Hardware zu validieren, bevor Arbeitslasten beginnen, auf schleichende Degradation unter Last zu achten und die NCCL-Fabric-Gesundheit zwischen den Knoten zu überprüfen.