Databricks Blog8 mai 2026

Comment Superhuman et Databricks ont construit ensemble une plateforme d'inférence de 200K QPS

Traduit de l'original anglais par IA. Voir en anglais

Résumé

Superhuman a migré son inférence LLM personnalisée de 200K QPS vers Databricks FMAPI Provisioned Throughput, atteignant une latence P99 inférieure à la seconde et déchargeant la gestion de l'infrastructure. L'ingénierie conjointe a permis des gains de débit de 60% par GPU et une réduction des coûts de service grâce à la quantification FP8 et aux optimisations de l'architecture Hopper.

* Superhuman est passé d'une pile vLLM DIY à Databricks FMAPI Provisioned Throughput, servant désormais un LLM personnalisé à plus de 200K QPS avec une latence P99 inférieure à la seconde. Cela a permis à l'équipe d'ingénierie de Superhuman de se concentrer sur la création et l'amélioration de leur produit, tout en déléguant à la plateforme Databricks la gestion de l'échelle et de l'infrastructure. * Les optimisations d'ingénierie conjointes ont permis un gain de débit de 60% par GPU (750 → 1 200 QPS par pod H100) et une réduction des coûts de service grâce à la quantification FP8, à l'élimination de la surcharge côté CPU et à l'optimisation des noyaux d'attention sur l'architecture Hopper, le tout sans régression de qualité. * Databricks FMAPI s'adapte de manière fiable à plus de 250 GPU grâce à l'équilibrage de charge de qualité production, à l'autoscaling et au démarrage rapide des conteneurs ; avec des tests de stress de montée en charge en pré-production garantissant que les objectifs de disponibilité et de latence P99 sont atteints avant que le trafic n'atteigne la production.

Lire l'original →Voir en anglais

Comment Superhuman et Databricks ont construit ensemble une plateforme d'inférence de 200K QPS

Articles similaires

The 3 questions to answer to take AI from experimentation to impact

Les stratégies d'infrastructure qui propulsent les leaders de l'IA

Comment nous assurons la fiabilité des GPU dans Databricks AI

Célébration des lauréats du 2026 Built-On Databricks Startup Challenge