← 전체 뉴스
Databricks Blog2026년 5월 27일
대규모 LLM 추론의 안정성
영어 원문을 AI가 번역했습니다. 영어로 보기
요약
Databricks는 이제 고객별로 GPU 리소스를 할당하고 확장하기 위한 VM과 유사한 추상화인 모델 유닛을 제공하여 비용 효율적인 로드 밸런싱 및 자동 확장을 가능하게 하며, 이를 통해 GPU 비용을 80% 이상 절감했습니다. 블랙박스 상태 확인 및 다중 모드 병목 현상 프로파일링과 같은 런타임 안정성 메커니즘은 처리량을 더욱 향상시키고 자동적으로 무음 오류로부터 복구합니다.
* 다중 테넌트 LLM 서빙은 워크로드 전반의 용량을 고려해야 합니다. "모델 유닛"은 고객별로 GPU 리소스를 할당, 라우팅 및 확장할 수 있도록 하는 VM과 유사한 추상화를 제공합니다. * 모델 유닛을 기반으로 구축된 비용 효율적인 로드 밸런싱 및 자동 확장은 지연 시간 목표를 유지하면서 정적 프로비저닝 대비 GPU 비용을 80% 이상 절감했습니다. * 블랙박스 상태 확인과 같은 런타임 안정성 메커니즘은 무음 오류를 자동으로 감지하고 복구하며, 다중 모드 병목 현상 프로파일링을 통해 처리량을 3배 향상시켰습니다.