Databricks Blog22 de maio de 2026

Acelerando a Inferência de LLM com Cache de Prompt para Modelos de Código Aberto no Databricks

Traduzido do original em inglês por IA. Ver em inglês

Resumo

O Databricks agora oferece suporte ao cache de prompt para modelos de código aberto em todas as cargas de trabalho, acelerando automaticamente a inferência de LLM ao reutilizar prefixos de prompt repetidos. Este recurso aumenta o throughput em 2,5x e reduz a latência P50 em 3x para modelos como GPT-OSS, sem necessidade de configuração.

* O cache de prompt reutiliza prefixos de prompt repetidos para que os LLMs sejam executados mais rapidamente. Ele reduz a latência e aumenta o throughput automaticamente. * O Databricks agora oferece suporte ao cache de prompt para modelos de código aberto em cargas de trabalho em lote, pay-per-token e provisionadas. Nenhuma configuração é necessária. * Em produção no GPT-OSS, o cache de prompt aumentou o throughput em 2,5x e reduziu a latência P50 em 3x.

Ler o original →Ver em inglês

Acelerando a Inferência de LLM com Cache de Prompt para Modelos de Código Aberto no Databricks

Artigos relacionados

As 3 perguntas a responder para levar a IA da experimentação ao impacto

Por dentro das estratégias de infraestrutura que impulsionam líderes de IA

Como mantemos as GPUs confiáveis no Databricks AI

Celebrando os Vencedores do 2026 Built-On Databricks Startup Challenge