← 전체 뉴스
Databricks Blog2026년 5월 22일
Databricks에서 오픈소스 모델을 위한 프롬프트 캐싱으로 LLM 추론 가속화
영어 원문을 AI가 번역했습니다. 영어로 보기
요약
Databricks는 이제 모든 워크로드에서 오픈소스 모델에 대한 프롬프트 캐싱을 지원하여 반복되는 프롬프트 접두사를 재사용함으로써 LLM 추론을 자동으로 가속화합니다. 이 기능은 GPT-OSS와 같은 모델의 처리량을 2.5배 향상시키고 P50 지연 시간을 3배 단축하며, 설정이 필요 없습니다.
* 프롬프트 캐싱은 반복되는 프롬프트 접두사를 재사용하여 LLM을 더 빠르게 실행합니다. 자동으로 지연 시간을 줄이고 처리량을 높입니다. * Databricks는 이제 배치, 토큰당 지불, 프로비저닝된 워크로드 전반에 걸쳐 오픈소스 모델에 대한 프롬프트 캐싱을 지원합니다. 설정이 필요 없습니다. * GPT-OSS 프로덕션 환경에서 프롬프트 캐싱은 처리량을 2.5배 증가시키고 P50 지연 시간을 3배 단축했습니다.