贪心算法：哈夫曼编码

黎明

公告

欢迎来到黎明的小站。本站用于堆叠平时的技术痕迹，记录一些值得留存的想法。

标签

0-1 背包 Algorithm Backup Cloudflare R2 CSS DFS Dijkstra DNS Ford-Fulkerson GitHub Actions HTML Komari Monitor Kruskal Nginx Ops PicGo Prim P值 Restic UI Web Design 三角函数中心极限定理二分搜索二叉树二维随机变量二进制优先队列伯努利概型位运算假设检验最优装载最大流最小生成树最短路径分布函数分支限界分治法加工顺序问题动态规划区间估计区间调度协方差参数估计双指针反三角函数古典概型哈夫曼编码回溯法回溯算法图床图论堆排序增广路大数定律学习路线导数并查集归并排序快速幂快速排序抽样分布拒绝域探针数值随机化算法数字特征数学期望数据压缩数据结构数理统计数组方差旅行商问题显著性水平条件分布条件概率标号法栈概率分布概率统计概率论正态近似点估计独立性相关系数矩阵离散型分布积分简单随机样本素数环统计量网络流置信区间联合分布蒙特卡罗算法贪心算法边缘分布连续型分布链表队列随机事件随机变量随机算法随机采样高等数学

黎明

公告

欢迎来到黎明的小站。本站用于堆叠平时的技术痕迹，记录一些值得留存的想法。

关于我

标签

0-1 背包 Algorithm Backup Cloudflare R2 CSS DFS Dijkstra DNS Ford-Fulkerson GitHub Actions HTML Komari Monitor Kruskal Nginx Ops PicGo Prim P值 Restic UI Web Design 三角函数中心极限定理二分搜索二叉树二维随机变量二进制优先队列伯努利概型位运算假设检验最优装载最大流最小生成树最短路径分布函数分支限界分治法加工顺序问题动态规划区间估计区间调度协方差参数估计双指针反三角函数古典概型哈夫曼编码回溯法回溯算法图床图论堆排序增广路大数定律学习路线导数并查集归并排序快速幂快速排序抽样分布拒绝域探针数值随机化算法数字特征数学期望数据压缩数据结构数理统计数组方差旅行商问题显著性水平条件分布条件概率标号法栈概率分布概率统计概率论正态近似点估计独立性相关系数矩阵离散型分布积分简单随机样本素数环统计量网络流置信区间联合分布蒙特卡罗算法贪心算法边缘分布连续型分布链表队列随机事件随机变量随机算法随机采样高等数学

黎明

公告

欢迎来到黎明的小站。本站用于堆叠平时的技术痕迹，记录一些值得留存的想法。

关于我

标签

0-1 背包 Algorithm Backup Cloudflare R2 CSS DFS Dijkstra DNS Ford-Fulkerson GitHub Actions HTML Komari Monitor Kruskal Nginx Ops PicGo Prim P值 Restic UI Web Design 三角函数中心极限定理二分搜索二叉树二维随机变量二进制优先队列伯努利概型位运算假设检验最优装载最大流最小生成树最短路径分布函数分支限界分治法加工顺序问题动态规划区间估计区间调度协方差参数估计双指针反三角函数古典概型哈夫曼编码回溯法回溯算法图床图论堆排序增广路大数定律学习路线导数并查集归并排序快速幂快速排序抽样分布拒绝域探针数值随机化算法数字特征数学期望数据压缩数据结构数理统计数组方差旅行商问题显著性水平条件分布条件概率标号法栈概率分布概率统计概率论正态近似点估计独立性相关系数矩阵离散型分布积分简单随机样本素数环统计量网络流置信区间联合分布蒙特卡罗算法贪心算法边缘分布连续型分布链表队列随机事件随机变量随机算法随机采样高等数学

站点统计

文章

44

分类

6

标签

105

总字数

124,816

运行天数

0 天

最后活动

0 天前

2735 字

7 分钟

贪心算法：哈夫曼编码

2026-06-15 11:14:33

Algorithm

/

贪心算法

/

哈夫曼编码

/

数据压缩

一、从等长编码到变长编码#

假设要存储一段只包含 5 个字符 A B C D E 的文本。最朴素的办法是等长编码：

每个字符用同样多的二进制位表示。5 个字符至少需要 3 位，比如：

字符	编码
A	`000`
B	`001`
C	`010`
D	`011`
E	`100`

等长编码的好处是简单，但有个明显的浪费：它对所有字符一视同仁。

现实中字符出现的频率差别很大。比如英文里 e 出现得特别多，z 很少。如果让高频字符用短码、低频字符用长码，整体长度就能显著缩短。这正是莫尔斯电码背后的思想，也是哈夫曼编码要解决的问题。

基本思想
频率高的字符配短码，频率低的字符配长码。平均下来每个字符占用的位数会更少。

二、变长编码的歧义与前缀码#

变长编码带来了一个新问题：解码时怎么知道一个字符在哪里结束？

比如：

字符	编码
A	`0`
B	`01`

那么收到 01 时，到底是 A 后面跟一个 1，还是就是 B？这就产生了歧义。

解决办法是只使用前缀码：

任何一个字符的编码，都不是另一个字符编码的前缀。

满足这个条件，就能从左到右唯一、无歧义地解码。

哈夫曼编码就是一种最优前缀码：在所有前缀码里，它让带权平均码长最短，等价于带权路径长度最小。注意这里优化的是”频率 × 码长”的加权平均，而不是所有字符码长的简单平均——哈夫曼不关心高频字符和低频字符的码长”看起来一样长”，而关心高频字符短、低频字符长，从而让总位数最少。

三、用二叉树直观表示前缀码#

前缀码可以用二叉树表示。

约定从根出发，往左走记 0，往右走记 1。每个字符放在一个叶子节点上，从根到叶子的路径就是它的编码。

graph TD Root(( )) -->|0| A([A]) Root(( )) -->|1| N1(( )) N1 -->|0| B([B]) N1 -->|1| N2(( )) N2 -->|0| C([C]) N2 -->|1| D([D])

上图中：

A 的编码是 0
B 的编码是 10
C 的编码是 110
D 的编码是 111

因为每个字符都在叶子节点上，没有任何字符在另一个字符的路径中间，所以天然满足前缀码的要求。反过来也对：任何前缀码都能画成一棵叶子节点放字符的二叉树。

这里只画了 4 个字符的示意，第 5 节会用一个完整的 5 字符例子演示建树全过程。

3.1 代价：带权路径长度#

设字符 $c_i$ 的频率为 $f_i$ ，在树中的深度为 $l_i$ 。

字符 $c_i$ 一共出现 $f_i$ 次，每次编码需要 $l_i$ 位，所以它占用的总位数为：

f_i \cdot l_i

把所有字符加起来，就是这套编码存储整个文本所需的总位数：

WPL = \sum_{i=1}^{n} f_i \cdot l_i

这个量叫带权路径长度，简称 WPL。

哈夫曼编码的目标，就是：

构造一棵二叉树，让它的带权路径长度最小。

这就是带权路径长度最小的二叉树——也叫最优二叉树或哈夫曼树。

四、贪心构造：如何分配编码长度#

4.1 权值与树深度的规律#

回到带权路径长度的定义 $WPL = \sum f_i \cdot l_i$ ：每个字符对总位数的贡献，是它的频率 × 深度。

那么树里最深层的位置应该分给谁？

如果把频率大的字符放在最深层，它的 $f_i$ 很大、 $l_i$ 也最大，乘起来代价很高；
如果把频率小的字符放在最深层， $f_i$ 很小，即使 $l_i$ 大，乘起来代价也很低。

所以一个朴素的判断是：权值越小，越适合放在树的深层。 这意味着构造时应该优先让最小的两个权值成为兄弟节点、沉到最深处。

哈夫曼算法就是把这个判断落到了一个反复执行的操作上。

4.2 算法#

哈夫曼算法很简洁：

每次取出频率最小的两个节点，合并成一个新节点，新节点的频率等于两者之和。把这个新节点放回去，重复直到只剩一个节点。

最后剩下的那个就是哈夫曼树的根。所有字符变成了叶子节点，频率越高的字符离根越近（编码越短），频率越低的字符离根越远（编码越长）。

为什么这样贪心是对的
频率最低的两个字符，无论如何都会被编码成某个长度。让它们位于最深的同一层、并互为兄弟，是最”划算”的安排——因为代价最低的两个叶子深度最大，对 WPL 的贡献最小。合并它们、用它们频率之和代替，相当于把”这两个叶子”打包成一个更重的叶子继续参与后续选择。这正是一次贪心选择。

算法步骤：

把每个字符看成一个叶子节点，频率就是它的权值。
从所有节点里取出频率最小的两个。
创建一个新节点作为它们的父节点，权值 = 两者之和。
把新节点放回节点集合。
重复第 2~4 步，直到集合里只剩一个节点，它就是根。

五、图解哈夫曼树的构造步骤#

假设有 5 个字符，频率如下：

字符	A	B	C	D	E
频率	7	5	2	4	9

按频率排序的初始节点集合：

1
C(2)  D(4)  B(5)  A(7)  E(9)

第 1 次合并#

取最小的两个：C(2) 和 D(4)，合并成新节点 CD(6)。

1
B(5)  CD(6)  A(7)  E(9)

第 2 次合并#

取 B(5) 和 CD(6)，合并成 BCD(11)。

1
A(7)  E(9)  BCD(11)

第 3 次合并#

取 A(7) 和 E(9)，合并成 AE(16)。

1
BCD(11)  AE(16)

第 4 次合并#

取最后两个 BCD(11) 和 AE(16)，合并成根节点 Root(27)。

至此只剩一个节点，建树完成。最终的哈夫曼树如下，约定左侧为 0，右侧为 1：

graph TD Root((27)) -->|0| BCD((11)) Root((27)) -->|1| AE((16)) BCD -->|0| B([B:5]) BCD -->|1| CD((6)) CD -->|0| C([C:2]) CD -->|1| D([D:4]) AE -->|0| A([A:7]) AE -->|1| E([E:9])

从根到每个叶子读出编码：

字符	频率	编码	码长
A	7	`10`	2
E	9	`11`	2
B	5	`00`	2
C	2	`010`	3
D	4	`011`	3

可以看到：高频的 A E B 都是 2 位，低频的 C D 是 3 位。完全符合直觉。

5.1 算一算压缩效果#

等长编码下，每个字符 3 位，总位数：

3 \times (7 + 5 + 2 + 4 + 9) = 3 \times 27 = 81

哈夫曼编码的带权路径长度：

\begin{aligned} WPL &= 7 \cdot 2 + 9 \cdot 2 + 5 \cdot 2 + 2 \cdot 3 + 4 \cdot 3 \\ &= 14 + 18 + 10 + 6 + 12 \\ &= 60 \end{aligned}

从 81 位压缩到 60 位，节省了约 26%。

带权路径长度的快速算法
建树完成后，带权路径长度等于所有非叶节点权值之和，不需要重新计算深度。
因为每次合并产生的新节点，其权值都会被累加进带权路径长度；而每片叶子节点被累加的次数恰好等于它的深度，因此所有内部节点权值之和就是总的带权路径长度。
上例中合并产生的内部节点权值依次是 $6,\ 11,\ 16,\ 27$ ，求和：
$WPL = 6 + 11 + 16 + 27 = 60$
正好等于前面逐字符算出的结果。考试或调试时这个方法最快。

六、Java 实现#

关键数据结构是最小堆。每次取两个最小元素、合并、放回，正好对应”每次取最小的两个”。

6.1 哈夫曼树节点#

1
class HuffmanNode {
2
    char ch;            // 存放的字符
3
    int freq;           // 频率
4
    HuffmanNode left;   // 左子节点
5
    HuffmanNode right;  // 右子节点
6

7
    HuffmanNode(char ch, int freq) {
8
        this.ch = ch;
9
        this.freq = freq;
10
    }
11

12
    HuffmanNode(int freq, HuffmanNode left, HuffmanNode right) {
13
        this.freq = freq;
14
        this.left = left;
15
        this.right = right;
16
    }
17

18
    boolean isLeaf() {
19
        return left == null && right == null;
20
    }
21
}

6.2 建树#

1
import java.util.PriorityQueue;
2

3
public class HuffmanCoding {
4

5
    /**
6
     * 根据字符频率构造哈夫曼树。
7
     *
8
     * @param chars 字符数组
9
     * @param freqs 对应的频率数组
10
     * @return 哈夫曼树的根节点
11
     */
12
    public static HuffmanNode buildTree(char[] chars, int[] freqs) {
13
        // 按频率排序的最小堆
14
        PriorityQueue<HuffmanNode> heap = new PriorityQueue<>(
15
                (a, b) -> Integer.compare(a.freq, b.freq)
16
        );
17

18
        // 每个字符作为一个叶子节点入堆
19
        for (int i = 0; i < chars.length; i++) {
20
            heap.offer(new HuffmanNode(chars[i], freqs[i]));
21
        }
22

23
        // 不断取出最小的两个，合并后放回，直到只剩一个
24
        while (heap.size() > 1) {
25
            HuffmanNode a = heap.poll();
26
            HuffmanNode b = heap.poll();
27
            HuffmanNode parent = new HuffmanNode(
28
                    a.freq + b.freq, a, b
29
            );
30
            heap.offer(parent);
31
        }
32

33
        return heap.poll();
34
    }
35
}

等价写法
建树循环里 a 作为左子节点、b 作为右子节点只是一种约定。两者调换不影响带权路径长度，只是具体编码会不同。任何一棵具有相同叶子深度的哈夫曼树，带权路径长度都相同——哈夫曼编码不唯一，但最优性相同。

6.3 生成编码表#

建好树后，从根做一次 DFS，把路径上的 0/1 拼起来，到达叶子时就得到该字符的编码。以下两个方法同样属于 HuffmanCoding 类。

1
import java.util.HashMap;
2
import java.util.Map;
3

4
public static Map<Character, String> buildCodeTable(HuffmanNode root) {
5
    Map<Character, String> table = new HashMap<>();
6
    dfs(root, "", table);
7
    return table;
8
}
9

10
private static void dfs(HuffmanNode node, String code, Map<Character, String> table) {
11
    if (node == null) {
12
        return;
13
    }
14
    if (node.isLeaf()) {
15
        // 记录字符编码
16
        // 只有一个字符时的特殊处理
17
        table.put(node.ch, code.isEmpty() ? "0" : code);
18
        return;
19
    }
20
    dfs(node.left, code + "0", table);
21
    dfs(node.right, code + "1", table);
22
}

6.4 完整运行#

1
public static void main(String[] args) {
2
    char[] chars = {'A', 'B', 'C', 'D', 'E'};
3
    int[] freqs = {7, 5, 2, 4, 9};
4

5
    HuffmanNode root = buildTree(chars, freqs);
6
    Map<Character, String> table = buildCodeTable(root);
7

8
    System.out.println("字符编码表：");
9
    for (char c : chars) {
10
        System.out.println(c + " : " + table.get(c));
11
    }
12

13
    System.out.println("带权路径长度：" + computeWPL(root));
14
}
15

16
/** 计算带权路径长度。 */
17
private static int computeWPL(HuffmanNode node) {
18
    return computeWPL(node, 0);
19
}
20

21
private static int computeWPL(HuffmanNode node, int depth) {
22
    if (node == null) {
23
        return 0;
24
    }
25
    if (node.isLeaf()) {
26
        return node.freq * depth;
27
    }
28
    return computeWPL(node.left, depth + 1)
29
         + computeWPL(node.right, depth + 1);
30
}

运行结果：

1
字符编码表：
2
A : 10
3
B : 00
4
C : 010
5
D : 011
6
E : 11
7
带权路径长度：60

七、数据的压缩与解压#

有了编码表和哈夫曼树，压缩和解压都很简单。

编码：查表，把每个字符替换成它的编码串拼接起来。

解码：从根出发，逐位读入。遇到 0 往左走，遇到 1 往右走，走到叶子就输出对应字符，然后回到根继续。

1
/** 编码。 */
2
public static String encode(String text, Map<Character, String> table) {
3
    StringBuilder sb = new StringBuilder();
4
    for (char c : text.toCharArray()) {
5
        sb.append(table.get(c));
6
    }
7
    return sb.toString();
8
}
9

10
/** 解码。 */
11
public static String decode(String bits, HuffmanNode root) {
12
    if (root == null) {
13
        return "";
14
    }
15
    StringBuilder sb = new StringBuilder();
16
    if (root.isLeaf()) {
17
        // 只有一个字符时的处理
18
        for (char b : bits.toCharArray()) {
19
            if (b != '0') {
20
                throw new IllegalArgumentException("无效的编码串");
21
            }
22
            sb.append(root.ch);
23
        }
24
        return sb.toString();
25
    }
26
    HuffmanNode cur = root;
27
    for (char b : bits.toCharArray()) {
28
        cur = (b == '0') ? cur.left : cur.right;
29
        if (cur == null) {
30
            throw new IllegalArgumentException("无效的编码串");
31
        }
32
        if (cur.isLeaf()) {
33
            sb.append(cur.ch);
34
            cur = root;
35
        }
36
    }
37
    if (cur != root) {
38
        throw new IllegalArgumentException("编码串不完整，末尾有未解码的位");
39
    }
40
    return sb.toString();
41
}

解码前提
解码时需要持有同一棵哈夫曼树。如果压缩和解压使用的频率统计不一致，得到的树不同，解码就会出错。实际应用通常会把编码表也写进压缩文件。

八、复杂度分析#

设字符种类数为 $n$ 。

时间复杂度： $O(n \log n)$ 。建树过程做 $n - 1$ 次合并，每次堆的插入和弹出都是 $O(\log n)$ 。
空间复杂度： $O(n)$ 。哈夫曼树有 $n$ 个叶子节点和 $n - 1$ 个内部节点，共 $2n - 1$ 个节点；编码表也占用 $O(n)$ 。

对于一段固定文本，字符种类数 $n$ 通常很小且固定，例如 ASCII 文本的 $n \le 128$ 。因此建树开销可以忽略，主要的计算瓶颈在于扫描文本统计频率和编码。

编码和解码本身也都是线性的：编码一段长度为 $L$ 的文本需要 $O(L)$ （逐字符查表拼接），解码一个长度为 $B$ 的编码串同样需要 $O(B)$ （逐位沿树走）。

九、总结#

哈夫曼编码可以概括为：

每次合并频率最小的两个节点，频率高的字符离根近、编码短，最终得到平均码长最短的前缀码。

要点回顾：

前缀码保证变长编码能唯一解码；前缀码可以用二叉树表示，叶子放字符。
优化目标是最小化带权路径长度 $WPL = \sum f_i \cdot l_i$ 。
贪心策略：用最小堆每次取最小的两个节点合并，新节点权值为两者之和。
正确性来自贪心选择 + 最优子结构：最轻的两个叶子可安全放到最深层当兄弟。
哈夫曼编码并不唯一，但其最优性与带权路径长度都是相同的。

口诀：

频率小的先合并，权值相加放回堆；高频叶子靠近根，短码省位压缩美。

如果这篇文章对你有帮助，欢迎分享给更多人！

贪心算法：哈夫曼编码

https://dawn114514.site/posts/algorithm/huffmancoding/

作者

黎明

发布于

2026-06-15 11:14:33

许可协议

MIT

部分信息可能已经过时

Prim 最小生成树

最短等待时间（加工顺序问题）

わたしの部屋

一、从等长编码到变长编码#

二、变长编码的歧义与前缀码#

三、用二叉树直观表示前缀码#

3.1 代价：带权路径长度#

四、贪心构造：如何分配编码长度#

4.1 权值与树深度的规律#

4.2 算法#

五、图解哈夫曼树的构造步骤#

第 1 次合并#

第 2 次合并#

第 3 次合并#

第 4 次合并#

5.1 算一算压缩效果#

六、Java 实现#

6.1 哈夫曼树节点#

6.2 建树#

6.3 生成编码表#

6.4 完整运行#

七、数据的压缩与解压#

八、复杂度分析#

九、总结#

目录