本文へスキップ
← ニュース一覧
Databricks Blog2026年5月22日

Databricksにおけるオープンソースモデル向けプロンプトキャッシュによるLLM推論の高速化

英語原文から AI が翻訳しました。 英語版を見る

要約

Databricksは、すべてのワークロードでオープンソースモデルのプロンプトキャッシュをサポートするようになりました。これにより、繰り返されるプロンプトプレフィックスを再利用することでLLM推論が自動的に高速化されます。この機能は、GPT-OSSのようなモデルでスループットを2.5倍に向上させ、P50レイテンシを3倍に削減し、セットアップは不要です。

* プロンプトキャッシュは、繰り返されるプロンプトプレフィックスを再利用することでLLMの実行を高速化します。これにより、レイテンシが削減され、スループットが自動的に向上します。 * Databricksは現在、バッチ、従量課金、プロビジョニングされたワークロード全体で、オープンソースモデルのプロンプトキャッシュをサポートしています。セットアップは不要です。 * GPT-OSSでの本番環境において、プロンプトキャッシュはスループットを2.5倍に増加させ、P50レイテンシを3倍に削減しました。

関連記事

News

AIを実験段階から影響力のあるものへと移行させるために答えるべき3つの質問

databricks-blog1d ago
News

Inside the infrastructure strategies propelling AI leaders

databricks-blog1d ago
News

Databricks AIでGPUの信頼性を維持する方法

databricks-blog2d ago
News

2026 Built-On Databricks Startup Challengeの受賞者を祝う

databricks-blog2d ago