HeavyKeeper 算法

HeavyKeeper 是一种用于在数据流中高效检测重频元素（Heavy Hitters）的概率算法。它适合处理高速、高频、内存受限场景，如网络流量监控、日志分析、推荐系统等。

📌 核心目标

从一个连续到达的数据流中，估计频率最高的前-K个元素，在不可能存储所有元素及其精确频率的情况下，HeavyKeeper 提供了一个近似但效果优秀的方案。

HeavyKeeper 使用一个二维数组（通常是 w × d）来保存计数信息，其中：

每个桶保存一个 (item, counter) 对。
每次输入一个元素，通过 d 个哈希函数映射到 d 个桶，每个桶处理一次更新逻辑。

设：

更新步骤：

这种概率衰减机制允许频繁出现的元素保留它们的位置，偶尔出现的元素容易被踢出

要查询某个元素的频率估计值，只需通过相同的 d 个哈希函数，找到所有包含该元素的桶的计数值，取其中的最大值（或中位数）作为估计值。

w = 1000      // 宽度
d = 4         // 哈希函数数量
b = 1.08      // 衰减基数（> 1）

#算法 #概率

HeavyKeeper 算法

https://liuyuhe666.github.io/2025/07/21/HeavyKeeper-算法/

作者

Liu Yuhe

发布于

2025年7月21日

许可协议