Inferência LLM Confiável em Escala
Traduzido do original em inglês por IA. Ver em inglês
A Databricks agora oferece unidades de modelo, uma abstração semelhante a uma VM para alocar e escalar recursos de GPU por cliente, permitindo balanceamento de carga e autoescalonamento conscientes dos custos que economizaram mais de 80% nos custos de GPU. Mecanismos de confiabilidade em tempo de execução, como verificações de saúde de caixa preta e perfil de gargalos multimodais, melhoram ainda mais o throughput e se recuperam automaticamente de falhas silenciosas.
* O serviço LLM multi-tenant exige raciocínio sobre a capacidade em todas as cargas de trabalho. As "unidades de modelo" fornecem uma abstração semelhante a uma VM que possibilita alocar, rotear e escalar recursos de GPU por cliente. * O balanceamento de carga e o autoescalonamento conscientes dos custos, construídos sobre unidades de modelo, economizaram mais de 80% nos custos de GPU em comparação com o provisionamento estático, mantendo os alvos de latência. * Mecanismos de confiabilidade em tempo de execução, como verificações de saúde de caixa preta, detectam e se recuperam automaticamente de falhas silenciosas, enquanto o perfil de gargalos multimodais desbloqueou ganhos de throughput de 3x.