Golomb 编码：让数据瘦身的小巧算法

五月 25, 2026 data-compression algorithms golomb-coding rice-coding optimization backend-development computer-science performance-tuning

理解 Golomb 编码：压缩与数学的结合

数据压缩从来不是“一刀切”的事。gzip、LZ4 这些通用算法在大多数场景下够用，但碰到数据本身就有固定规律时，它们就不一定最优了。

Golomb 编码就是专门用来对付这种规律的。它由 Solomon W. Golomb 在 60 年代提出，至今还在用。

关键在于数据是否符合几何分布——小数字出现得特别多，大数字很少。

举几个现实例子：

Golomb 编码正是抓住了“小值多、大值少”这个特点，给常用的小值配短编码，少见的大值配长编码，从而达到更好的压缩效果。

Golomb 编码会根据一个参数 M，把每个数字拆成两部分：商和余数。

这种混合方式看似简单，但对几何分布的数据特别高效。

后来 Robert F. Rice 对 Golomb 做了个优化，把参数 M 限制为 2 的幂次（2、4、8、16……）。这看似不起眼的一步，带来了巨大好处——计算变成了位操作（移位和掩码），比除法和取模快得多。

所以 Rice 编码在实际项目里更常见，尤其适合对速度要求高的场景。

如果你的数据是均匀分布或者正态分布，用 Golomb 编码反而可能让文件变大。

通用压缩算法（如 Zstandard、LZMA）在处理任意数据时，通常比 Golomb 更稳妥。

Golomb 和 Rice 编码告诉我们一个道理：真正理解数据特点，才能做出又简单又高效的方案。

在 AI 和机器学习压缩大行其道的今天，这个 60 年代的算法依然有它的用武之地——前提是你遇到了它最擅长的几何分布场景。

下次当你发现数据里小值占主导时，不妨考虑一下 Golomb 编码。很多时候，最老的方案反而最合适。

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB NL HU IT FR ES DE DA EN