【算法】记录一下最近实现的哈夫曼编码压缩文本

本贴最后更新于 356 天前,其中的信息可能已经时移世易
#include <iostream>
#include <queue>
#include <unordered_map>
#include <vector>
#include <fstream>

using namespace std;

struct HuffmanTreeNode{
    char ch_;
    int freq_;
    HuffmanTreeNode* left_,* right_;

    HuffmanTreeNode(char ch, int freq): ch_(ch), freq_(freq) {
        left_ = nullptr;
        right_ = nullptr;
    }

    bool isLeaf() const {
        return left_ == nullptr && right_ == nullptr;
    }
};

//用于HuffmanTreeNode在优先队列的比较
struct Compare {
    bool operator()(HuffmanTreeNode* l, HuffmanTreeNode* r) {
        return l->freq_ > r->freq_;
    }
};

struct BitCharBuffer {
    vector<char>* buffer;
    int bit_length;
};

HuffmanTreeNode* buildTree(string str) {
    int freq[256]{0};
    for (auto it = str.begin(); it != str.end(); ++it) {
        freq[(*it) + 128]++;
    }

    priority_queue<HuffmanTreeNode*, vector<HuffmanTreeNode*>, Compare> que;
    for (int i = 0; i < 256; i++) {
        if (freq[i] != 0) {
            que.push(new HuffmanTreeNode(i - 128, freq[i]));
        }
    }

    while (que.size() > 1) {
        HuffmanTreeNode* left = que.top(); que.pop();
        HuffmanTreeNode* right = que.top(); que.pop();
        HuffmanTreeNode* node = new HuffmanTreeNode('\0', left->freq_ + right->freq_);
        node->left_ = left;
        node->right_ = right;
        que.push(node);
    }

    return que.top();
}

void treeToMap(HuffmanTreeNode* root, vector<bool>& code, unordered_map<char, vector<bool>>& code_map) {
    if (root == nullptr) return;

    if (!root->left_ && !root->right_) {
        code_map[root->ch_] = code;
    }
    code.push_back(0);
    treeToMap(root->left_, code, code_map);
    code.pop_back();

    code.push_back(1);
    treeToMap(root->right_, code, code_map);
    code.pop_back();
}

void treeToMap(HuffmanTreeNode* root, unordered_map<char, vector<bool>>& code_map) {
    vector<bool> code;
    treeToMap(root, code, code_map);
}

void writeBuffer(const vector<bool>& code, BitCharBuffer& char_buffer, int offset, int length) {
    int index = char_buffer.bit_length / 8;
    int alpha = char_buffer.bit_length % 8;
    for (int i = offset; i < offset + length; i++) {
        if (alpha == 0) {
            char_buffer.buffer->push_back(0);
        }
        (*(char_buffer.buffer))[index] += ((char)code[i] << (7 - alpha));
        char_buffer.bit_length++;
        alpha++;
        if (alpha == 8) {
            index++;
            alpha = 0;
        }
    }
}

void writeBuffer(const vector<bool>& code, BitCharBuffer& char_buffer, int offset = 0) {
    writeBuffer(code, char_buffer, offset, code.size() - offset);
}

void encode(const string& str, ostream& os, unordered_map<char, vector<bool>>& code_map) {
    int max_length = 1 << 15; //缓冲区大小,单位bit,需要为 1 << 4 的整数倍,小于int最大值
    BitCharBuffer char_buffer;
    char_buffer.buffer = new vector<char>(0);
    char_buffer.bit_length = 0;

    for (auto it = str.begin(); it != str.end(); ++it) {
        char ch = *it;
        const vector<bool>& code = code_map[ch];
        //如果达到长度上限,写入output stream,然后重开缓冲区
        if (max_length - code.size() < char_buffer.bit_length) {
            int temp = char_buffer.bit_length;
            //先把当前的buffer写满
            writeBuffer(code, char_buffer, 0, max_length - char_buffer.bit_length);
            //输出到os
            os.write(char_buffer.buffer->data(), char_buffer.buffer->size());
            //释放旧缓冲区,分配新缓冲区
            delete char_buffer.buffer;
            char_buffer.buffer = new vector<char>(0);
            char_buffer.bit_length = 0;
            //将超长的部分写进新缓冲区
            writeBuffer(code, char_buffer, max_length - temp);
        }
        else
            writeBuffer(code, char_buffer);
    }

    os.write(char_buffer.buffer->data(), char_buffer.buffer->size());
}

void decode(const string& str, ostream& os, HuffmanTreeNode* root) {
    HuffmanTreeNode* current = root;
    char camp = 1 << 7;
    for (auto it = str.begin(); it != str.end(); ++it) {
        char byte = *it;
        for (int i = 0; i < 8; i++) {
            if (camp & byte) {
                current = current->right_;
            }
            else {
                current = current->left_;
            }
            if (current->isLeaf()) {
                os << current->ch_;
                if (current->ch_ == '\0') return; //特殊地,输出结尾标记后停止译码
                current = root;
            }
            byte = byte << 1;
        }
    }
}

int main() {
    ifstream ifs("source.txt");
    if (!ifs.is_open()) {
        cout << "打开sources.txt输入流失败" << endl;
        return 0;
    }

    string str((std::istreambuf_iterator<char>(ifs)), std::istreambuf_iterator<char>());
    str += '\0';  //哈夫曼编码是变长的,但文件操作的最小单位是byte(定长8bit),因此需要一个结尾标记。
    HuffmanTreeNode* root = buildTree(str);
    unordered_map<char, vector<bool>> map;
    treeToMap(root, map);

    ofstream ofs("code.dat", ios::binary);
    if (!ofs.is_open()) {
        cout << "打开code.dat输出流失败" << endl;
    }
    else{
        encode(str, ofs, map);
        ofs.close();
    }

    ifstream difs("code.dat", ios::binary);
    if (!difs.is_open()) {
        cout << "打开code.dat输入流失败" << endl;
    }
    else {
        string code_str((std::istreambuf_iterator<char>(difs)), std::istreambuf_iterator<char>());
        decode(code_str, cout, root);
        difs.close();
    }

    delete root;
    ifs.close();
}

是快速实现,没有弄接口,直接用 main 函数测试的。转发随意。

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Windows

    Microsoft Windows 是美国微软公司研发的一套操作系统,它问世于 1985 年,起初仅仅是 Microsoft-DOS 模拟环境,后续的系统版本由于微软不断的更新升级,不但易用,也慢慢的成为家家户户人们最喜爱的操作系统。

    223 引用 • 474 回帖
  • Wide

    Wide 是一款基于 Web 的 Go 语言 IDE。通过浏览器就可以进行 Go 开发,并有代码自动完成、查看表达式、编译反馈、Lint、实时结果输出等功能。

    欢迎访问我们运维的实例: https://wide.b3log.org

    30 引用 • 218 回帖 • 635 关注
  • Elasticsearch

    Elasticsearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful 接口。Elasticsearch 是用 Java 开发的,并作为 Apache 许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

    117 引用 • 99 回帖 • 209 关注
  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    132 引用 • 1114 回帖 • 125 关注
  • 招聘

    哪里都缺人,哪里都不缺人。

    190 引用 • 1057 回帖
  • 互联网

    互联网(Internet),又称网际网络,或音译因特网、英特网。互联网始于 1969 年美国的阿帕网,是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。

    98 引用 • 344 回帖
  • Laravel

    Laravel 是一套简洁、优雅的 PHP Web 开发框架。它采用 MVC 设计,是一款崇尚开发效率的全栈框架。

    20 引用 • 23 回帖 • 726 关注
  • 微服务

    微服务架构是一种架构模式,它提倡将单一应用划分成一组小的服务。服务之间互相协调,互相配合,为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建,能够被独立的部署。

    96 引用 • 155 回帖
  • TGIF

    Thank God It's Friday! 感谢老天,总算到星期五啦!

    288 引用 • 4485 回帖 • 663 关注
  • Typecho

    Typecho 是一款博客程序,它在 GPLv2 许可证下发行,基于 PHP 构建,可以运行在各种平台上,支持多种数据库(MySQL、PostgreSQL、SQLite)。

    12 引用 • 65 回帖 • 446 关注
  • 反馈

    Communication channel for makers and users.

    123 引用 • 913 回帖 • 250 关注
  • frp

    frp 是一个可用于内网穿透的高性能的反向代理应用,支持 TCP、UDP、 HTTP 和 HTTPS 协议。

    20 引用 • 7 回帖 • 2 关注
  • 强迫症

    强迫症(OCD)属于焦虑障碍的一种类型,是一组以强迫思维和强迫行为为主要临床表现的神经精神疾病,其特点为有意识的强迫和反强迫并存,一些毫无意义、甚至违背自己意愿的想法或冲动反反复复侵入患者的日常生活。

    15 引用 • 161 回帖 • 2 关注
  • 新人

    让我们欢迎这对新人。哦,不好意思说错了,让我们欢迎这位新人!
    新手上路,请谨慎驾驶!

    52 引用 • 228 回帖
  • 职场

    找到自己的位置,萌新烦恼少。

    127 引用 • 1706 回帖
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 76 关注
  • Spark

    Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

    74 引用 • 46 回帖 • 559 关注
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖
  • 代码片段

    代码片段分为 CSS 与 JS 两种代码,添加在 [设置 - 外观 - 代码片段] 中,这些代码会在思源笔记加载时自动执行,用于改善笔记的样式或功能。

    用户在该标签下分享代码片段时需在帖子标题前添加 [css] [js] 用于区分代码片段类型。

    90 引用 • 561 回帖 • 1 关注
  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    34 引用 • 467 回帖 • 748 关注
  • Solidity

    Solidity 是一种智能合约高级语言,运行在 [以太坊] 虚拟机(EVM)之上。它的语法接近于 JavaScript,是一种面向对象的语言。

    3 引用 • 18 回帖 • 401 关注
  • App

    App(应用程序,Application 的缩写)一般指手机软件。

    91 引用 • 384 回帖 • 2 关注
  • 又拍云

    又拍云是国内领先的 CDN 服务提供商,国家工信部认证通过的“可信云”,乌云众测平台认证的“安全云”,为移动时代的创业者提供新一代的 CDN 加速服务。

    21 引用 • 37 回帖 • 548 关注
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 75 关注
  • OpenStack

    OpenStack 是一个云操作系统,通过数据中心可控制大型的计算、存储、网络等资源池。所有的管理通过前端界面管理员就可以完成,同样也可以通过 Web 接口让最终用户部署资源。

    10 引用 • 1 关注
  • VirtualBox

    VirtualBox 是一款开源虚拟机软件,最早由德国 Innotek 公司开发,由 Sun Microsystems 公司出品的软件,使用 Qt 编写,在 Sun 被 Oracle 收购后正式更名成 Oracle VM VirtualBox。

    10 引用 • 2 回帖
  • PWA

    PWA(Progressive Web App)是 Google 在 2015 年提出、2016 年 6 月开始推广的项目。它结合了一系列现代 Web 技术,在网页应用中实现和原生应用相近的用户体验。

    14 引用 • 69 回帖 • 159 关注