Databricks Blog8 de maio de 2026

Como a Superhuman e a Databricks construíram juntas uma plataforma de inferência de 200K QPS

Traduzido do original em inglês por IA. Ver em inglês

Resumo

A Superhuman migrou sua inferência LLM personalizada de 200K QPS para o Databricks FMAPI Provisioned Throughput, alcançando latência P99 sub-segundo e descarregando o gerenciamento de infraestrutura. A engenharia conjunta proporcionou ganhos de 60% no throughput por GPU e reduziu os custos de serviço através da quantização FP8 e otimizações da arquitetura Hopper.

* A Superhuman migrou de uma pilha vLLM DIY para o Databricks FMAPI Provisioned Throughput, agora servindo um LLM personalizado a mais de 200K QPS com latência P99 sub-segundo. Isso permitiu que a equipe de engenharia da Superhuman se concentrasse na construção e melhoria de seu produto, delegando à Plataforma Databricks o tratamento da escala e da infraestrutura. * Otimizações de engenharia conjuntas proporcionaram um ganho de throughput de 60% por GPU (750 → 1.200 QPS por pod H100) e reduziram os custos de serviço através da quantização FP8, eliminando a sobrecarga do lado da CPU e otimizando os kernels de atenção na arquitetura Hopper, tudo isso sem regressões de qualidade. * O Databricks FMAPI escala de forma confiável para mais de 250 GPUs através de balanceamento de carga de nível de produção, autoescalonamento e inicialização rápida de contêineres; com testes de estresse de rampa de pré-produção garantindo que as metas de disponibilidade e latência P99 sejam atingidas antes que o tráfego chegue à produção.

Ler o original →Ver em inglês

Como a Superhuman e a Databricks construíram juntas uma plataforma de inferência de 200K QPS

Artigos relacionados

As 3 perguntas a responder para levar a IA da experimentação ao impacto

Por dentro das estratégias de infraestrutura que impulsionam líderes de IA

Como mantemos as GPUs confiáveis no Databricks AI

Celebrando os Vencedores do 2026 Built-On Databricks Startup Challenge