← 전체 뉴스
Databricks Blog2026년 4월 29일
근사치 답변, 정확한 결정: 분석을 위한 새로운 스케치 함수
영어 원문을 AI가 번역했습니다. 영어로 보기
요약
Databricks는 이제 분석 질문에 대한 근사치 답변을 위한 새로운 스케치 함수를 제공합니다. 여기에는 백분위수를 위한 KLL 분위수 스케치, 잠재 고객 중복을 위한 Theta 및 Tuple 스케치, 실시간 트렌드 분석을 위한 근사 Top-K 함수가 포함됩니다. 이 함수들은 방대한 데이터셋에 대해 더 빠르고 메모리 효율적인 계산을 가능하게 하며, 증분 업데이트 및 결합된 카운팅 및 집계를 위한 병합 가능한 스케치를 제공합니다.
- 몇 분이 아닌 밀리초 단위의 백분위수 계산: KLL 분위수 스케치는 방대한 데이터셋에 대해 P50, P90, P99를 일정한 메모리 내에서 계산합니다. 스케치를 저장하고 병합하여 즉각적인 증분 업데이트가 가능합니다. - 비용을 대폭 절감하여 잠재 고객 중복 분석: Theta 및 Tuple 스케치는 고유 값 세트에 대해 합집합, 교집합 및 차집합을 수행합니다. Tuple 스케치는 또한 각 키에 메트릭(합계, 최소값, 최대값)을 연결하여 카운팅과 집계를 결합합니다. - 재처리 없이 실시간 트렌드 분석: 근사 Top-K 함수는 제한된 메모리 내에서 가장 빈번한 항목을 식별하며, 시간 창을 넘어 병합 가능합니다.