Databricks Blog2026年5月8日

SuperhumanとDatabricksが20万QPSの推論プラットフォームを共同で構築した方法

英語原文から AI が翻訳しました。英語版を見る

要約

Superhumanは、20万QPSのカスタムLLM推論をDatabricks FMAPI Provisioned Throughputに移行し、P99レイテンシを1秒未満に抑え、インフラ管理をオフロードしました。共同エンジニアリングにより、FP8量子化とHopperアーキテクチャの最適化を通じて、GPUあたりのスループットが60%向上し、サービングコストが削減されました。

* Superhumanは、DIYのvLLMスタックからDatabricks FMAPI Provisioned Throughputに移行し、現在、カスタムLLMを20万QPS以上、P99レイテンシ1秒未満で提供しています。これにより、Superhumanのエンジニアリングチームは、Databricksプラットフォームにスケールとインフラの処理を委ねることで、製品の構築と改善に集中できるようになりました。 * 共同エンジニアリングの最適化により、FP8量子化、CPU側のオーバーヘッドの排除、Hopperアーキテクチャでのアテンションカーネルの最適化を通じて、GPUあたりのスループットが60%向上し（H100ポッドあたり750 QPSから1,200 QPSへ）、サービングコストが削減されました。これらはすべて品質の低下なしに達成されました。 * Databricks FMAPIは、本番環境レベルのロードバランシング、オートスケーリング、高速コンテナ起動により、250以上のGPUに確実にスケールします。本番環境にトラフィックが到達する前に、事前プロダクションのランプストレステストにより、P99の可用性とレイテンシの目標が確実に達成されます。

原文を読む →英語版を見る

News

AIを実験段階から影響力のあるものへと移行させるために答えるべき3つの質問

databricks-blog1d ago

News

Inside the infrastructure strategies propelling AI leaders

databricks-blog1d ago

News

Databricks AIでGPUの信頼性を維持する方法

databricks-blog2d ago

News

2026 Built-On Databricks Startup Challengeの受賞者を祝う

databricks-blog2d ago

SuperhumanとDatabricksが20万QPSの推論プラットフォームを共同で構築した方法

関連記事

AIを実験段階から影響力のあるものへと移行させるために答えるべき3つの質問

Inside the infrastructure strategies propelling AI leaders

Databricks AIでGPUの信頼性を維持する方法

2026 Built-On Databricks Startup Challengeの受賞者を祝う