Inférence LLM fiable à l'échelle
Traduit de l'original anglais par IA. Voir en anglais
Databricks propose désormais des unités de modèle, une abstraction de type VM pour l'allocation et la mise à l'échelle des ressources GPU par client, permettant un équilibrage de charge et une autoscaling soucieux des coûts qui ont permis d'économiser plus de 80 % des coûts GPU. Des mécanismes de fiabilité d'exécution tels que les vérifications de santé « boîte noire » et le profilage des goulots d'étranglement multimodaux améliorent encore le débit et récupèrent automatiquement des défaillances silencieuses.
* Le service LLM multi-tenant nécessite de raisonner sur la capacité à travers les charges de travail. Les « unités de modèle » fournissent une abstraction de type VM qui permet d'allouer, de router et de mettre à l'échelle les ressources GPU par client. * L'équilibrage de charge et l'autoscaling soucieux des coûts, basés sur les unités de modèle, ont permis d'économiser plus de 80 % des coûts GPU par rapport à un provisionnement statique, tout en maintenant les objectifs de latence. * Les mécanismes de fiabilité d'exécution tels que les vérifications de santé « boîte noire » détectent et récupèrent automatiquement des défaillances silencieuses, tandis que le profilage des goulots d'étranglement multimodaux a permis de multiplier par 3 le débit.