Databricks Blog22. Mai 2026

Beschleunigung der LLM-Inferenz mit Prompt-Caching für Open-Source-Modelle auf Databricks

Von KI aus dem englischen Original übersetzt. Auf Englisch ansehen

Zusammenfassung

Databricks unterstützt jetzt Prompt-Caching für Open-Source-Modelle über alle Workloads hinweg, wodurch die LLM-Inferenz durch die Wiederverwendung wiederholter Prompt-Präfixe automatisch beschleunigt wird. Diese Funktion steigert den Durchsatz um das 2,5-fache und reduziert die P50-Latenz um das 3-fache für Modelle wie GPT-OSS, ohne dass eine Einrichtung erforderlich ist.

* Prompt-Caching nutzt wiederholte Prompt-Präfixe wieder, damit LLMs schneller laufen. Es reduziert die Latenz und steigert den Durchsatz automatisch. * Databricks unterstützt jetzt Prompt-Caching für Open-Source-Modelle über Batch-, Pay-per-Token- und bereitgestellte Workloads hinweg. Es ist keine Einrichtung erforderlich. * Im Produktionseinsatz mit GPT-OSS erhöhte Prompt-Caching den Durchsatz um das 2,5-fache und reduzierte die P50-Latenz um das 3-fache.

Original lesen →Auf Englisch ansehen

Beschleunigung der LLM-Inferenz mit Prompt-Caching für Open-Source-Modelle auf Databricks

Ähnliche Artikel

Die 3 Fragen, die Sie beantworten müssen, um KI von der Experimentierphase zur Wirkung zu führen

Einblicke in die Infrastrukturstrategien, die KI-Führungskräfte antreiben

Wie wir GPUs in Databricks AI zuverlässig halten

Wir feiern die Gewinner der 2026 Built-On Databricks Startup Challenge