Databricks Blog2026年5月22日

Databricksにおけるオープンソースモデル向けプロンプトキャッシュによるLLM推論の高速化

英語原文から AI が翻訳しました。英語版を見る

要約

Databricksは、すべてのワークロードでオープンソースモデルのプロンプトキャッシュをサポートするようになりました。これにより、繰り返されるプロンプトプレフィックスを再利用することでLLM推論が自動的に高速化されます。この機能は、GPT-OSSのようなモデルでスループットを2.5倍に向上させ、P50レイテンシを3倍に削減し、セットアップは不要です。

* プロンプトキャッシュは、繰り返されるプロンプトプレフィックスを再利用することでLLMの実行を高速化します。これにより、レイテンシが削減され、スループットが自動的に向上します。 * Databricksは現在、バッチ、従量課金、プロビジョニングされたワークロード全体で、オープンソースモデルのプロンプトキャッシュをサポートしています。セットアップは不要です。 * GPT-OSSでの本番環境において、プロンプトキャッシュはスループットを2.5倍に増加させ、P50レイテンシを3倍に削減しました。

原文を読む →英語版を見る

News

AIを実験段階から影響力のあるものへと移行させるために答えるべき3つの質問

databricks-blog1d ago

News

Inside the infrastructure strategies propelling AI leaders

databricks-blog1d ago

News

Databricks AIでGPUの信頼性を維持する方法

databricks-blog2d ago

News

2026 Built-On Databricks Startup Challengeの受賞者を祝う

databricks-blog2d ago

Databricksにおけるオープンソースモデル向けプロンプトキャッシュによるLLM推論の高速化

関連記事

AIを実験段階から影響力のあるものへと移行させるために答えるべき3つの質問

Inside the infrastructure strategies propelling AI leaders

Databricks AIでGPUの信頼性を維持する方法

2026 Built-On Databricks Startup Challengeの受賞者を祝う