← ニュース一覧
Databricks Blog2026年4月29日
概算の回答、正確な意思決定:分析のための新しいスケッチ関数
英語原文から AI が翻訳しました。 英語版を見る
要約
Databricksは、分析の質問に対する概算の回答を得るための新しいスケッチ関数を提供開始しました。これには、パーセンタイル用のKLL分位スケッチ、オーディエンスの重複を検出するためのThetaおよびTupleスケッチ、リアルタイムのトレンド分析用の概算Top-K関数が含まれます。これらの関数は、大規模なデータセットに対してより高速でメモリ効率の高い計算を可能にし、増分更新や結合されたカウントおよび集計のためのマージ可能なスケッチを提供します。
- 数分ではなくミリ秒でパーセンタイルを計算:KLL分位スケッチは、大規模なデータセットに対してP50、P90、P99を一定のメモリで計算します。スケッチを保存し、それらをマージすることで、即座に増分更新が可能です。 - コストを大幅に削減してオーディエンスの重複を検出:ThetaおよびTupleスケッチは、異なる値のセットに対してユニオン、インターセクション、およびセット差分を実行します。Tupleスケッチは、各キーにメトリクス(合計、最小値、最大値)を関連付け、カウントと集計を組み合わせます。 - 再処理なしでリアルタイムのトレンド分析:概算Top-K関数は、限られたメモリ内で最も頻繁なアイテムを識別し、時間ウィンドウを越えてマージ可能です。