← ニュース一覧
Databricks Blog2026年5月27日
大規模なLLM推論の信頼性
英語原文から AI が翻訳しました。 英語版を見る
要約
Databricksは、顧客ごとにGPUリソースを割り当て、スケーリングするためのVMライクな抽象化であるモデルユニットを提供するようになりました。これにより、コストを意識した負荷分散とオートスケーリングが可能になり、GPUコストを80%以上削減しました。ブラックボックスヘルスチェックやマルチモーダルボトルネックプロファイリングなどのランタイム信頼性メカニズムは、スループットをさらに向上させ、サイレント障害から自動的に回復します。
* マルチテナントLLMサービングでは、ワークロード全体のキャパシティについて考慮する必要があります。「モデルユニット」は、顧客ごとにGPUリソースを割り当て、ルーティングし、スケーリングすることを可能にするVMライクな抽象化を提供します。 * モデルユニットに基づいて構築されたコストを意識した負荷分散とオートスケーリングにより、レイテンシターゲットを維持しながら、静的プロビジョニングと比較してGPUコストを80%以上削減しました。 * ブラックボックスヘルスチェックなどのランタイム信頼性メカニズムは、サイレント障害を自動的に検出し、回復します。また、マルチモーダルボトルネックのプロファイリングにより、スループットが3倍向上しました。