Databricks Blog27 de maio de 2026

Inferência LLM Confiável em Escala

Traduzido do original em inglês por IA. Ver em inglês

Resumo

A Databricks agora oferece unidades de modelo, uma abstração semelhante a uma VM para alocar e escalar recursos de GPU por cliente, permitindo balanceamento de carga e autoescalonamento conscientes dos custos que economizaram mais de 80% nos custos de GPU. Mecanismos de confiabilidade em tempo de execução, como verificações de saúde de caixa preta e perfil de gargalos multimodais, melhoram ainda mais o throughput e se recuperam automaticamente de falhas silenciosas.

* O serviço LLM multi-tenant exige raciocínio sobre a capacidade em todas as cargas de trabalho. As "unidades de modelo" fornecem uma abstração semelhante a uma VM que possibilita alocar, rotear e escalar recursos de GPU por cliente. * O balanceamento de carga e o autoescalonamento conscientes dos custos, construídos sobre unidades de modelo, economizaram mais de 80% nos custos de GPU em comparação com o provisionamento estático, mantendo os alvos de latência. * Mecanismos de confiabilidade em tempo de execução, como verificações de saúde de caixa preta, detectam e se recuperam automaticamente de falhas silenciosas, enquanto o perfil de gargalos multimodais desbloqueou ganhos de throughput de 3x.

Ler o original →Ver em inglês

Inferência LLM Confiável em Escala

Artigos relacionados

As 3 perguntas a responder para levar a IA da experimentação ao impacto

Por dentro das estratégias de infraestrutura que impulsionam líderes de IA

Como mantemos as GPUs confiáveis no Databricks AI

Celebrando os Vencedores do 2026 Built-On Databricks Startup Challenge