Databricks Blog27. Mai 2026

Zuverlässige LLM-Inferenz im großen Maßstab

Von KI aus dem englischen Original übersetzt. Auf Englisch ansehen

Zusammenfassung

Databricks bietet jetzt Modelleinheiten an, eine VM-ähnliche Abstraktion zur Zuweisung und Skalierung von GPU-Ressourcen pro Kunde, die eine kostenbewusste Lastverteilung und Autoskalierung ermöglicht, wodurch über 80 % der GPU-Kosten eingespart wurden. Laufzeit-Zuverlässigkeitsmechanismen wie Black-Box-Gesundheitsprüfungen und multimodales Engpass-Profiling verbessern den Durchsatz weiter und stellen die automatische Wiederherstellung von stillen Fehlern sicher.

* Multi-Tenant LLM-Serving erfordert die Berücksichtigung der Kapazität über verschiedene Workloads hinweg. „Modelleinheiten“ bieten eine VM-ähnliche Abstraktion, die es ermöglicht, GPU-Ressourcen pro Kunde zuzuweisen, zu routen und zu skalieren. * Kostenbewusste Lastverteilung und Autoskalierung, die auf Modelleinheiten aufbauen, sparten über 80 % der GPU-Kosten im Vergleich zur statischen Bereitstellung, während die Latenzziele eingehalten wurden. * Laufzeit-Zuverlässigkeitsmechanismen wie Black-Box-Gesundheitsprüfungen erkennen stille Fehler automatisch und stellen die Wiederherstellung sicher, während das Profiling multimodaler Engpässe eine 3-fache Steigerung des Durchsatzes ermöglichte.

Original lesen →Auf Englisch ansehen

Zuverlässige LLM-Inferenz im großen Maßstab

Ähnliche Artikel

Die 3 Fragen, die Sie beantworten müssen, um KI von der Experimentierphase zur Wirkung zu führen

Einblicke in die Infrastrukturstrategien, die KI-Führungskräfte antreiben

Wie wir GPUs in Databricks AI zuverlässig halten

Wir feiern die Gewinner der 2026 Built-On Databricks Startup Challenge