T-MAC: 突破边缘设备算力瓶颈，让 LLM 飞入寻常百姓家

在人工智能浪潮席卷全球的今天，大语言模型(Large Language Models, LLMs)正在成为改变人机交互方式的关键技术。然而，这些模型动辄数十亿参数，对计算资源的需求令人望而生畏。如何将这些"庞然大物"部署到资源有限的边缘设备上，成为了学术界和产业界共同关注的焦点问题。微软研究院近日提出的 T-MAC 技术，或许为这一难题带来了突破性的解决方案。

边缘设备部署 LLM：机遇与挑战并存

将大语言模型部署到边缘设备上，如智能手机、个人电脑和机器人等，有望为这些设备赋予前所未有的智能水平。这种本地部署方式具有诸多优势：

显著降低响应延迟，对自动驾驶和交互式机器人等时间敏感型应用至关重要。
增强用户隐私保护，敏感信息无需上传云端处理。
提高运行可靠性，摆脱网络连接的限制。

然而，将 LLM 部署到边缘设备面临着巨大挑战：

内存需求巨大。以 LLAMA-2-7B 模型为例，仅存储 FP16 精度的模型参数就需要 14GB 内存，远超大多数边缘设备的容量。
计算和内存带宽要求高。边缘设备通常以单实例方式处理数据，批处理大小为 1，无法充分利用并行计算能力。特别是在解码阶段，生成每个后续 token 都需要加载和处理整个模型，这是一个极其内存密集的过程。
能耗效率问题。对于智能手机等电池供电的设备来说，能耗效率至关重要。

低比特量化：LLM 瘦身的关键技术

为了降低 LLM 的内存占用，权重量化成为了一种关键技术。它通过降低模型参数的精度，不仅可以减少内存占用，还可能通过利用低精度算术加速计算。目前，4 比特的 LLM 版本已经开始用于边缘部署，而研究人员正在探索 2 比特甚至 1 比特权重表示的可行性。

然而，低比特 LLM 的部署也带来了新的挑战：

混合精度运算。低精度权重与相对高精度激活的组合需要进行混合精度矩阵乘法（mpGEMM），而现有硬件架构并不原生支持这种操作。
比特宽度多样性。不同部署场景可能需要不同的比特宽度，这要求计算方法能够支持一系列低比特宽度。

T-MAC：表查找方法的创新应用

针对这些挑战，微软研究院提出了 T-MAC（Table-based Multiplication and Accumulation）技术。T-MAC 的核心思想是将传统的数据类型中心的乘法转换为基于位的表查找，从而实现了一种统一且可扩展的 mpGEMM 解决方案。

T-MAC 的工作原理可以概括为以下步骤：

将 n 比特权重矩阵分解为 n 个 1 比特矩阵。
预计算激活向量与所有可能的位模式的乘积，并将结果存储在查找表中。
在推理时，使用权重的位模式作为索引查找表，获取预计算的结果。
累加查找结果得到最终的 GEMM 结果。

这种方法具有以下优势：

统一的数据布局。不同比特宽度的权重都可以简化为统一的 1 比特矩阵布局。
统一的计算内核。各种混合精度 GEMM 都可以归结为激活矩阵与 1 比特矩阵的乘法。
计算成本线性缩减。随着比特宽度的降低，计算成本呈线性下降。

T-MAC 的创新设计

为了在实际硬件上高效实现基于查找表的 mpGEMM，T-MAC 引入了一系列创新设计：

以 LUT 为中心的数据布局
- 通过轴重排和分块技术，确保查找表能够完全驻留在最快的片上内存（如寄存器）中。
- 最大化每个表的重用，减少与片上内存竞争的临时结果。
表压缩方法
- 表量化：降低表中数据的精度，减小表的大小。
- 镜像合并：利用对称性，将多个表合并为一个，进一步节省内存空间。

这些技术的组合使得 T-MAC 能够在 CPU 上实现高效的并行查找，从而大幅提升推理性能。

性能评估：令人瞩目的加速效果

研究团队在多种典型的边缘设备上评估了 T-MAC 的性能，包括 Apple M2 Ultra、Jetson AGX Orin、Surface Book 3 和 Raspberry Pi 5。结果令人振奋：

内核加速：与目前最先进的 CPU 方案 llama.cpp 相比，T-MAC 内核加速可达 6.6 倍，平均加速 3.6 倍。
端到端推理加速：对于 Llama-2-7B-2bit 模型，实现了 2.8 倍的加速。
低端设备表现：即使在 Raspberry Pi 上，对于 BitNet-b1.58-3B 模型也能达到 11.1 tokens/s 的推理速度。
能效提升：与 llama.cpp 相比，能耗降低 60-70%。

这些数据充分证明了 T-MAC 在边缘设备上部署低比特 LLM 的巨大潜力。特别值得一提的是，T-MAC 使得在 CPU 上运行 LLM 的速度可以与同一设备上的 GPU 相媲美，甚至更快。这意味着，T-MAC 为在广泛可用的 CPU 上部署 LLM 提供了一种实用的解决方案，无需依赖 GPU。

展望：CPU 的复兴与 LLM 的普及

T-MAC 的出现无疑为边缘 AI 的发展注入了新的活力。它不仅解决了低比特 LLM 部署的关键技术难题，还为 CPU 在 AI 时代的"复兴"开辟了新的可能性。随着这项技术的进一步发展和优化，我们可以期待在不久的将来，大语言模型能够真正"飞入寻常百姓家"，在各种日常使用的设备上为我们提供智能服务。

然而，要实现这一愿景，仍然存在一些挑战需要克服：

模型适配：需要进一步研究如何更好地将各种 LLM 模型适配到 T-MAC 的计算范式中。
硬件优化：虽然 T-MAC 已经在现有 CPU 上取得了显著性能，但针对这种计算模式的专门硬件优化仍有很大空间。
应用生态：需要建立完善的应用生态系统，以充分发挥边缘 LLM 的潜力。

尽管如此，T-MAC 的出现无疑为边缘 AI 的发展指明了一个极具前景的方向。它不仅有望加速 LLM 在边缘设备上的普及，还可能推动整个计算机体系结构的创新。在不远的将来，我们或许将见证一个真正的"AI 无处不在"的时代的到来。

参考文献：

Wei, J., Cao, S., Cao, T., Ma, L., Wang, L., Zhang, Y., & Yang, M. (2024). T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge. arXiv:2407.00088.

T-MAC: 突破边缘设备算力瓶颈，让 LLM 飞入寻常百姓家

边缘设备部署 LLM：机遇与挑战并存

低比特量化：LLM 瘦身的关键技术

T-MAC：表查找方法的创新应用

T-MAC 的创新设计

性能评估：令人瞩目的加速效果

展望：CPU 的复兴与 LLM 的普及

相关帖子

用 SPCT 给奖励模型来次“升级”：能自省、会点评，还能越算越准

DeepSeek-V3-0324 推荐温度为 0.3，以及奇葩的温度缩放机制

思源 B 站剪藏丢失颜色

知乎剪藏错乱

小萌新求助回顾往年今日

有没有单独的闪卡面板和数据库面板

闪卡有查找的功能吗？

欢迎来到这里！