Databricks Blog2026년 5월 22일

Databricks에서 오픈소스 모델을 위한 프롬프트 캐싱으로 LLM 추론 가속화

영어 원문을 AI가 번역했습니다. 영어로 보기

요약

Databricks는 이제 모든 워크로드에서 오픈소스 모델에 대한 프롬프트 캐싱을 지원하여 반복되는 프롬프트 접두사를 재사용함으로써 LLM 추론을 자동으로 가속화합니다. 이 기능은 GPT-OSS와 같은 모델의 처리량을 2.5배 향상시키고 P50 지연 시간을 3배 단축하며, 설정이 필요 없습니다.

* 프롬프트 캐싱은 반복되는 프롬프트 접두사를 재사용하여 LLM을 더 빠르게 실행합니다. 자동으로 지연 시간을 줄이고 처리량을 높입니다. * Databricks는 이제 배치, 토큰당 지불, 프로비저닝된 워크로드 전반에 걸쳐 오픈소스 모델에 대한 프롬프트 캐싱을 지원합니다. 설정이 필요 없습니다. * GPT-OSS 프로덕션 환경에서 프롬프트 캐싱은 처리량을 2.5배 증가시키고 P50 지연 시간을 3배 단축했습니다.

원문 보기 →영어로 보기

Databricks에서 오픈소스 모델을 위한 프롬프트 캐싱으로 LLM 추론 가속화

관련 기사

AI를 실험에서 영향으로 전환하기 위해 답해야 할 3가지 질문

Inside the infrastructure strategies propelling AI leaders

Databricks AI에서 GPU 신뢰성을 유지하는 방법

2026 Built-On Databricks 스타트업 챌린지 수상자 축하