← ニュース一覧
Databricks Blog2026年5月22日
Databricksにおけるオープンソースモデル向けプロンプトキャッシュによるLLM推論の高速化
英語原文から AI が翻訳しました。 英語版を見る
要約
Databricksは、すべてのワークロードでオープンソースモデルのプロンプトキャッシュをサポートするようになりました。これにより、繰り返されるプロンプトプレフィックスを再利用することでLLM推論が自動的に高速化されます。この機能は、GPT-OSSのようなモデルでスループットを2.5倍に向上させ、P50レイテンシを3倍に削減し、セットアップは不要です。
* プロンプトキャッシュは、繰り返されるプロンプトプレフィックスを再利用することでLLMの実行を高速化します。これにより、レイテンシが削減され、スループットが自動的に向上します。 * Databricksは現在、バッチ、従量課金、プロビジョニングされたワークロード全体で、オープンソースモデルのプロンプトキャッシュをサポートしています。セットアップは不要です。 * GPT-OSSでの本番環境において、プロンプトキャッシュはスループットを2.5倍に増加させ、P50レイテンシを3倍に削減しました。