Como a Superhuman e a Databricks construíram juntas uma plataforma de inferência de 200K QPS
Traduzido do original em inglês por IA. Ver em inglês
A Superhuman migrou sua inferência LLM personalizada de 200K QPS para o Databricks FMAPI Provisioned Throughput, alcançando latência P99 sub-segundo e descarregando o gerenciamento de infraestrutura. A engenharia conjunta proporcionou ganhos de 60% no throughput por GPU e reduziu os custos de serviço através da quantização FP8 e otimizações da arquitetura Hopper.
* A Superhuman migrou de uma pilha vLLM DIY para o Databricks FMAPI Provisioned Throughput, agora servindo um LLM personalizado a mais de 200K QPS com latência P99 sub-segundo. Isso permitiu que a equipe de engenharia da Superhuman se concentrasse na construção e melhoria de seu produto, delegando à Plataforma Databricks o tratamento da escala e da infraestrutura. * Otimizações de engenharia conjuntas proporcionaram um ganho de throughput de 60% por GPU (750 → 1.200 QPS por pod H100) e reduziram os custos de serviço através da quantização FP8, eliminando a sobrecarga do lado da CPU e otimizando os kernels de atenção na arquitetura Hopper, tudo isso sem regressões de qualidade. * O Databricks FMAPI escala de forma confiável para mais de 250 GPUs através de balanceamento de carga de nível de produção, autoescalonamento e inicialização rápida de contêineres; com testes de estresse de rampa de pré-produção garantindo que as metas de disponibilidade e latência P99 sejam atingidas antes que o tráfego chegue à produção.