Databricks Blog2026년 5월 8일

Superhuman과 Databricks가 함께 20만 QPS 추론 플랫폼을 구축한 방법

영어 원문을 AI가 번역했습니다. 영어로 보기

요약

Superhuman은 20만 QPS의 커스텀 LLM 추론을 Databricks FMAPI Provisioned Throughput으로 마이그레이션하여 P99 지연 시간을 1초 미만으로 달성하고 인프라 관리를 오프로드했습니다. 공동 엔지니어링을 통해 FP8 양자화 및 Hopper 아키텍처 최적화를 통해 GPU당 처리량을 60% 향상시키고 서빙 비용을 절감했습니다.

* Superhuman은 DIY vLLM 스택에서 Databricks FMAPI Provisioned Throughput으로 마이그레이션하여 현재 P99 지연 시간 1초 미만으로 20만 QPS 이상의 커스텀 LLM을 제공하고 있습니다. 이를 통해 Superhuman 엔지니어링 팀은 Databricks 플랫폼에 확장 및 인프라 관리를 위임하면서 제품 구축 및 개선에 집중할 수 있었습니다. * 공동 엔지니어링 최적화를 통해 FP8 양자화, CPU 측 오버헤드 제거, Hopper 아키텍처의 어텐션 커널 최적화를 통해 GPU당 처리량이 60% 향상되었으며(H100 pod당 750 → 1,200 QPS), 품질 저하 없이 서빙 비용을 절감했습니다. * Databricks FMAPI는 프로덕션급 로드 밸런싱, 자동 스케일링 및 빠른 컨테이너 시작을 통해 250개 이상의 GPU로 안정적으로 확장됩니다. 사전 프로덕션 램프 스트레스 테스트를 통해 트래픽이 프로덕션에 도달하기 전에 P99 가용성 및 지연 시간 목표가 충족되는지 확인합니다.

원문 보기 →영어로 보기

Superhuman과 Databricks가 함께 20만 QPS 추론 플랫폼을 구축한 방법

관련 기사

AI를 실험에서 영향으로 전환하기 위해 답해야 할 3가지 질문

Inside the infrastructure strategies propelling AI leaders

Databricks AI에서 GPU 신뢰성을 유지하는 방법

2026 Built-On Databricks 스타트업 챌린지 수상자 축하