Aller au contenu
← Toutes les actus
Databricks Blog27 mai 2026

Inférence LLM fiable à l'échelle

Traduit de l'original anglais par IA. Voir en anglais

Résumé

Databricks propose désormais des unités de modèle, une abstraction de type VM pour l'allocation et la mise à l'échelle des ressources GPU par client, permettant un équilibrage de charge et une autoscaling soucieux des coûts qui ont permis d'économiser plus de 80 % des coûts GPU. Des mécanismes de fiabilité d'exécution tels que les vérifications de santé « boîte noire » et le profilage des goulots d'étranglement multimodaux améliorent encore le débit et récupèrent automatiquement des défaillances silencieuses.

* Le service LLM multi-tenant nécessite de raisonner sur la capacité à travers les charges de travail. Les « unités de modèle » fournissent une abstraction de type VM qui permet d'allouer, de router et de mettre à l'échelle les ressources GPU par client. * L'équilibrage de charge et l'autoscaling soucieux des coûts, basés sur les unités de modèle, ont permis d'économiser plus de 80 % des coûts GPU par rapport à un provisionnement statique, tout en maintenant les objectifs de latence. * Les mécanismes de fiabilité d'exécution tels que les vérifications de santé « boîte noire » détectent et récupèrent automatiquement des défaillances silencieuses, tandis que le profilage des goulots d'étranglement multimodaux a permis de multiplier par 3 le débit.

Articles similaires

News

The 3 questions to answer to take AI from experimentation to impact

databricks-blog1d ago
News

Les stratégies d'infrastructure qui propulsent les leaders de l'IA

databricks-blog1d ago
News

Comment nous assurons la fiabilité des GPU dans Databricks AI

databricks-blog2d ago
News

Célébration des lauréats du 2026 Built-On Databricks Startup Challenge

databricks-blog2d ago