Wie Superhuman und Databricks gemeinsam eine 200K QPS Inferenzplattform aufgebaut haben
Von KI aus dem englischen Original übersetzt. Auf Englisch ansehen
Superhuman migrierte ihre 200K QPS benutzerdefinierte LLM-Inferenz zu Databricks FMAPI Provisioned Throughput, erreichte eine P99-Latenz von unter einer Sekunde und verlagerte das Infrastrukturmanagement. Gemeinsame Ingenieursarbeit lieferte 60% mehr Durchsatz pro GPU und reduzierte die Bereitstellungskosten durch FP8-Quantisierung und Hopper-Architektur-Optimierungen.
* Superhuman migrierte von einem DIY vLLM-Stack zu Databricks FMAPI Provisioned Throughput und bedient nun ein benutzerdefiniertes LLM mit über 200K QPS und einer P99-Latenz von unter einer Sekunde. Dies ermöglichte es dem Superhuman-Ingenieurteam, sich auf die Entwicklung und Verbesserung ihres Produkts zu konzentrieren, während die Databricks-Plattform die Skalierung und Infrastruktur übernahm. * Gemeinsame technische Optimierungen führten zu einer 60%igen Steigerung des Durchsatzes pro GPU (750 → 1.200 QPS pro H100-Pod) und reduzierten die Bereitstellungskosten durch FP8-Quantisierung, die Eliminierung von CPU-seitigem Overhead und die Optimierung von Attention-Kernels auf der Hopper-Architektur, alles ohne Qualitätseinbußen. * Databricks FMAPI skaliert zuverlässig auf über 250 GPUs durch produktionsreifes Load Balancing, Autoscaling und schnellen Container-Start; mit Pre-Production-Ramp-Stresstests, die sicherstellen, dass P99-Verfügbarkeits- und Latenzziele erreicht werden, bevor der Traffic überhaupt die Produktion erreicht.