Accélérer l'inférence LLM avec le cache de prompts pour les modèles open source sur Databricks
Traduit de l'original anglais par IA. Voir en anglais
Databricks prend désormais en charge le cache de prompts pour les modèles open source sur toutes les charges de travail, accélérant automatiquement l'inférence LLM en réutilisant les préfixes de prompts répétés. Cette fonctionnalité augmente le débit de 2,5x et réduit la latence P50 de 3x pour des modèles comme GPT-OSS, sans aucune configuration requise.
* Le cache de prompts réutilise les préfixes de prompts répétés pour que les LLM s'exécutent plus rapidement. Il réduit la latence et augmente le débit automatiquement. * Databricks prend désormais en charge le cache de prompts pour les modèles open source sur les charges de travail par lots, au paiement par jeton et provisionnées. Aucune configuration n'est requise. * En production sur GPT-OSS, le cache de prompts a augmenté le débit de 2,5x et réduit la latence P50 de 3x.