Zum Inhalt springen
← Alle News
Databricks Blog8. Mai 2026

Wie Superhuman und Databricks gemeinsam eine 200K QPS Inferenzplattform aufgebaut haben

Von KI aus dem englischen Original übersetzt. Auf Englisch ansehen

Zusammenfassung

Superhuman migrierte ihre 200K QPS benutzerdefinierte LLM-Inferenz zu Databricks FMAPI Provisioned Throughput, erreichte eine P99-Latenz von unter einer Sekunde und verlagerte das Infrastrukturmanagement. Gemeinsame Ingenieursarbeit lieferte 60% mehr Durchsatz pro GPU und reduzierte die Bereitstellungskosten durch FP8-Quantisierung und Hopper-Architektur-Optimierungen.

* Superhuman migrierte von einem DIY vLLM-Stack zu Databricks FMAPI Provisioned Throughput und bedient nun ein benutzerdefiniertes LLM mit über 200K QPS und einer P99-Latenz von unter einer Sekunde. Dies ermöglichte es dem Superhuman-Ingenieurteam, sich auf die Entwicklung und Verbesserung ihres Produkts zu konzentrieren, während die Databricks-Plattform die Skalierung und Infrastruktur übernahm. * Gemeinsame technische Optimierungen führten zu einer 60%igen Steigerung des Durchsatzes pro GPU (750 → 1.200 QPS pro H100-Pod) und reduzierten die Bereitstellungskosten durch FP8-Quantisierung, die Eliminierung von CPU-seitigem Overhead und die Optimierung von Attention-Kernels auf der Hopper-Architektur, alles ohne Qualitätseinbußen. * Databricks FMAPI skaliert zuverlässig auf über 250 GPUs durch produktionsreifes Load Balancing, Autoscaling und schnellen Container-Start; mit Pre-Production-Ramp-Stresstests, die sicherstellen, dass P99-Verfügbarkeits- und Latenzziele erreicht werden, bevor der Traffic überhaupt die Produktion erreicht.

Ähnliche Artikel

News

Die 3 Fragen, die Sie beantworten müssen, um KI von der Experimentierphase zur Wirkung zu führen

databricks-blog1d ago
News

Einblicke in die Infrastrukturstrategien, die KI-Führungskräfte antreiben

databricks-blog1d ago
News

Wie wir GPUs in Databricks AI zuverlässig halten

databricks-blog2d ago
News

Wir feiern die Gewinner der 2026 Built-On Databricks Startup Challenge

databricks-blog2d ago