10 Billionen Samples pro Tag: Skalierung über traditionelle Monitoring-Infrastruktur bei Databricks hinaus
Von KI aus dem englischen Original übersetzt. Auf Englisch ansehen
Databricks verarbeitet jetzt täglich 10 Billionen Samples und skaliert über traditionelle Monitoring-Infrastrukturen hinaus, indem TSDB- und Aggregationsschichten mit angepassten Open-Source-Lösungen neu strukturiert wurden. Eine neuartige Lakehouse-basierte Plattform, Hydra, bietet umfassende Debugging-Funktionen für Metriken mit hoher Kardinalität bei 50-fach günstigerem Speicher.
Die Monitoring-Systeme von Databricks verwalten über 5 Milliarden aktive Zeitreihen in Echtzeit über AWS, Azure und GCP hinweg. Um diese Systeme trotz schneller Skalierung zuverlässig und wartungsarm zu halten, haben wir unsere TSDB- und Aggregationsschichten durch die Anpassung von Open-Source-Monitoring-Lösungen neu strukturiert. Angesichts des starken Wachstums bei hochkardinalen Troubleshooting-Metriken haben wir eine neuartige Lakehouse-basierte Plattform namens Hydra entwickelt. Dieser Ansatz hat umfangreiche Debugging-Funktionen in massivem Maßstab und 50-fach günstigeren Speicher als unser bestehender Stack ermöglicht.