Databricks Blog27 mai 2026

Inférence LLM fiable à l'échelle

Traduit de l'original anglais par IA. Voir en anglais

Résumé

Databricks propose désormais des unités de modèle, une abstraction de type VM pour l'allocation et la mise à l'échelle des ressources GPU par client, permettant un équilibrage de charge et une autoscaling soucieux des coûts qui ont permis d'économiser plus de 80 % des coûts GPU. Des mécanismes de fiabilité d'exécution tels que les vérifications de santé « boîte noire » et le profilage des goulots d'étranglement multimodaux améliorent encore le débit et récupèrent automatiquement des défaillances silencieuses.

* Le service LLM multi-tenant nécessite de raisonner sur la capacité à travers les charges de travail. Les « unités de modèle » fournissent une abstraction de type VM qui permet d'allouer, de router et de mettre à l'échelle les ressources GPU par client. * L'équilibrage de charge et l'autoscaling soucieux des coûts, basés sur les unités de modèle, ont permis d'économiser plus de 80 % des coûts GPU par rapport à un provisionnement statique, tout en maintenant les objectifs de latence. * Les mécanismes de fiabilité d'exécution tels que les vérifications de santé « boîte noire » détectent et récupèrent automatiquement des défaillances silencieuses, tandis que le profilage des goulots d'étranglement multimodaux a permis de multiplier par 3 le débit.

Lire l'original →Voir en anglais

Inférence LLM fiable à l'échelle

Articles similaires

The 3 questions to answer to take AI from experimentation to impact

Les stratégies d'infrastructure qui propulsent les leaders de l'IA

Comment nous assurons la fiabilité des GPU dans Databricks AI

Célébration des lauréats du 2026 Built-On Databricks Startup Challenge