Acelerando a Inferência de LLM com Cache de Prompt para Modelos de Código Aberto no Databricks
Traduzido do original em inglês por IA. Ver em inglês
O Databricks agora oferece suporte ao cache de prompt para modelos de código aberto em todas as cargas de trabalho, acelerando automaticamente a inferência de LLM ao reutilizar prefixos de prompt repetidos. Este recurso aumenta o throughput em 2,5x e reduz a latência P50 em 3x para modelos como GPT-OSS, sem necessidade de configuração.
* O cache de prompt reutiliza prefixos de prompt repetidos para que os LLMs sejam executados mais rapidamente. Ele reduz a latência e aumenta o throughput automaticamente. * O Databricks agora oferece suporte ao cache de prompt para modelos de código aberto em cargas de trabalho em lote, pay-per-token e provisionadas. Nenhuma configuração é necessária. * Em produção no GPT-OSS, o cache de prompt aumentou o throughput em 2,5x e reduziu a latência P50 em 3x.