Zuverlässige LLM-Inferenz im großen Maßstab
Von KI aus dem englischen Original übersetzt. Auf Englisch ansehen
Databricks bietet jetzt Modelleinheiten an, eine VM-ähnliche Abstraktion zur Zuweisung und Skalierung von GPU-Ressourcen pro Kunde, die eine kostenbewusste Lastverteilung und Autoskalierung ermöglicht, wodurch über 80 % der GPU-Kosten eingespart wurden. Laufzeit-Zuverlässigkeitsmechanismen wie Black-Box-Gesundheitsprüfungen und multimodales Engpass-Profiling verbessern den Durchsatz weiter und stellen die automatische Wiederherstellung von stillen Fehlern sicher.
* Multi-Tenant LLM-Serving erfordert die Berücksichtigung der Kapazität über verschiedene Workloads hinweg. „Modelleinheiten“ bieten eine VM-ähnliche Abstraktion, die es ermöglicht, GPU-Ressourcen pro Kunde zuzuweisen, zu routen und zu skalieren. * Kostenbewusste Lastverteilung und Autoskalierung, die auf Modelleinheiten aufbauen, sparten über 80 % der GPU-Kosten im Vergleich zur statischen Bereitstellung, während die Latenzziele eingehalten wurden. * Laufzeit-Zuverlässigkeitsmechanismen wie Black-Box-Gesundheitsprüfungen erkennen stille Fehler automatisch und stellen die Wiederherstellung sicher, während das Profiling multimodaler Engpässe eine 3-fache Steigerung des Durchsatzes ermöglichte.