Beschleunigung der LLM-Inferenz mit Prompt-Caching für Open-Source-Modelle auf Databricks
Von KI aus dem englischen Original übersetzt. Auf Englisch ansehen
Databricks unterstützt jetzt Prompt-Caching für Open-Source-Modelle über alle Workloads hinweg, wodurch die LLM-Inferenz durch die Wiederverwendung wiederholter Prompt-Präfixe automatisch beschleunigt wird. Diese Funktion steigert den Durchsatz um das 2,5-fache und reduziert die P50-Latenz um das 3-fache für Modelle wie GPT-OSS, ohne dass eine Einrichtung erforderlich ist.
* Prompt-Caching nutzt wiederholte Prompt-Präfixe wieder, damit LLMs schneller laufen. Es reduziert die Latenz und steigert den Durchsatz automatisch. * Databricks unterstützt jetzt Prompt-Caching für Open-Source-Modelle über Batch-, Pay-per-Token- und bereitgestellte Workloads hinweg. Es ist keine Einrichtung erforderlich. * Im Produktionseinsatz mit GPT-OSS erhöhte Prompt-Caching den Durchsatz um das 2,5-fache und reduzierte die P50-Latenz um das 3-fache.