Comment Superhuman et Databricks ont construit ensemble une plateforme d'inférence de 200K QPS
Traduit de l'original anglais par IA. Voir en anglais
Superhuman a migré son inférence LLM personnalisée de 200K QPS vers Databricks FMAPI Provisioned Throughput, atteignant une latence P99 inférieure à la seconde et déchargeant la gestion de l'infrastructure. L'ingénierie conjointe a permis des gains de débit de 60% par GPU et une réduction des coûts de service grâce à la quantification FP8 et aux optimisations de l'architecture Hopper.
* Superhuman est passé d'une pile vLLM DIY à Databricks FMAPI Provisioned Throughput, servant désormais un LLM personnalisé à plus de 200K QPS avec une latence P99 inférieure à la seconde. Cela a permis à l'équipe d'ingénierie de Superhuman de se concentrer sur la création et l'amélioration de leur produit, tout en déléguant à la plateforme Databricks la gestion de l'échelle et de l'infrastructure. * Les optimisations d'ingénierie conjointes ont permis un gain de débit de 60% par GPU (750 → 1 200 QPS par pod H100) et une réduction des coûts de service grâce à la quantification FP8, à l'élimination de la surcharge côté CPU et à l'optimisation des noyaux d'attention sur l'architecture Hopper, le tout sans régression de qualité. * Databricks FMAPI s'adapte de manière fiable à plus de 250 GPU grâce à l'équilibrage de charge de qualité production, à l'autoscaling et au démarrage rapide des conteneurs ; avec des tests de stress de montée en charge en pré-production garantissant que les objectifs de disponibilité et de latence P99 sont atteints avant que le trafic n'atteigne la production.