Databricks Blog22 mai 2026

Accélérer l'inférence LLM avec le cache de prompts pour les modèles open source sur Databricks

Traduit de l'original anglais par IA. Voir en anglais

Résumé

Databricks prend désormais en charge le cache de prompts pour les modèles open source sur toutes les charges de travail, accélérant automatiquement l'inférence LLM en réutilisant les préfixes de prompts répétés. Cette fonctionnalité augmente le débit de 2,5x et réduit la latence P50 de 3x pour des modèles comme GPT-OSS, sans aucune configuration requise.

* Le cache de prompts réutilise les préfixes de prompts répétés pour que les LLM s'exécutent plus rapidement. Il réduit la latence et augmente le débit automatiquement. * Databricks prend désormais en charge le cache de prompts pour les modèles open source sur les charges de travail par lots, au paiement par jeton et provisionnées. Aucune configuration n'est requise. * En production sur GPT-OSS, le cache de prompts a augmenté le débit de 2,5x et réduit la latence P50 de 3x.

Lire l'original →Voir en anglais

Accélérer l'inférence LLM avec le cache de prompts pour les modèles open source sur Databricks

Articles similaires

The 3 questions to answer to take AI from experimentation to impact

Les stratégies d'infrastructure qui propulsent les leaders de l'IA

Comment nous assurons la fiabilité des GPU dans Databricks AI

Célébration des lauréats du 2026 Built-On Databricks Startup Challenge