← ニュース一覧
Databricks Blog2026年5月8日
SuperhumanとDatabricksが20万QPSの推論プラットフォームを共同で構築した方法
英語原文から AI が翻訳しました。 英語版を見る
要約
Superhumanは、20万QPSのカスタムLLM推論をDatabricks FMAPI Provisioned Throughputに移行し、P99レイテンシを1秒未満に抑え、インフラ管理をオフロードしました。共同エンジニアリングにより、FP8量子化とHopperアーキテクチャの最適化を通じて、GPUあたりのスループットが60%向上し、サービングコストが削減されました。
* Superhumanは、DIYのvLLMスタックからDatabricks FMAPI Provisioned Throughputに移行し、現在、カスタムLLMを20万QPS以上、P99レイテンシ1秒未満で提供しています。これにより、Superhumanのエンジニアリングチームは、Databricksプラットフォームにスケールとインフラの処理を委ねることで、製品の構築と改善に集中できるようになりました。 * 共同エンジニアリングの最適化により、FP8量子化、CPU側のオーバーヘッドの排除、Hopperアーキテクチャでのアテンションカーネルの最適化を通じて、GPUあたりのスループットが60%向上し(H100ポッドあたり750 QPSから1,200 QPSへ)、サービングコストが削減されました。これらはすべて品質の低下なしに達成されました。 * Databricks FMAPIは、本番環境レベルのロードバランシング、オートスケーリング、高速コンテナ起動により、250以上のGPUに確実にスケールします。本番環境にトラフィックが到達する前に、事前プロダクションのランプストレス テストにより、P99の可用性とレイテンシの目標が確実に達成されます。