Como mantemos as GPUs confiáveis no Databricks AI
Traduzido do original em inglês por IA. Ver em inglês
O Databricks AI utiliza uma abordagem multifacetada para garantir a confiabilidade da GPU, abordando trabalhos travados, lentidões silenciosas e corrupção numérica por meio de validação pré-carga de trabalho, monitoramento em carga e verificações de integridade da malha entre nós. Este sistema, testado sob estresse por diversas cargas de trabalho em larga escala, como RL para codificação agentiva, detecta problemas como instabilidade da malha e pontos de acesso térmicos antes que eles impactem a produção mais ampla.
* As falhas de GPU em escala se enquadram em três categorias: trabalhos travados que se anunciam, lentidões silenciosas que estrangulam discretamente a taxa de transferência na GPU mais lenta e corrupção numérica que produz resultados incorretos. * O Databricks AI testa a plataforma com diversas cargas de trabalho em larga escala, como RL para codificação agentiva. Isso revela instabilidade da malha, pontos de acesso térmicos e casos extremos de comunicação coletiva antes que atinjam a produção mais ampla. * Um sistema de verificação de integridade precisa detectar falhas em todo o ciclo de vida do nó. Isso significa validar o hardware da GPU antes do início das cargas de trabalho, observar a degradação silenciosa sob carga e sondar a integridade da malha NCCL entre os nós.