  • 有哪些精度?如何理解每个精度的计算方式?

    • 各精度类型介绍1
  • 混合精度计算流程是什么?怎么从代码实现?

    • mp-training-1536x509
    • 通常使用 Pytorch 的 autocast context manager 和开源的 Fabric Pypi 进行混合精度的计算,很方便,详细参考: A Mixed-Precision Code Example2

  • 为什么要用混合精度?

    • 对于 memory-limited 算子, Fp16 相对于 Fp32 可以减小一半的访存,能提升算子性能

    • 减小模型显存占用,相同条件下,可以使用更大的 batch size,或者是更复杂的模型

    • 对于计算密集的算子,比如 linear, conv 等通过 Tensor Cores 可以进行加速

    • FP64 到 FP32(单精度),对模型计算影响不大。但是 FP32 到 FP16 会出现 Overflow 和 Underflow 的情况,所以需要用混合精度去平衡计算速度(采用 16bit)、Overflow(解决方案:bfp16 or fp32)、Underflow(解决方案:fp16 or fp32)。详细参考:From 32-Bit to 16-Bit Precision3

    • 采用了 FP16 和 FP32 混合精度的模型质量,比单纯全 FP32 的的模型,推理准确度更高。这是因为,当采用 FP16 降低精度的时候,引入了一些燥声,这些燥声对防止训练的过拟合具有一定作用(over-fit),如下图,模型为 DistilBert,66M 参数量。

    • 主要注意的是 bfloat16 的 10 进制间隔精度是 0.01(注:在-1~1 之间精度是 0.001),表示范围是[-3.40282e+38,3.40282e+38]。可以明显的看到 bfloat16 比 float16 精度降低了,但是表示的范围更大了,能够有效的防止在训练过程中的溢出。

    • image

  • 大模型中不同精度占用的显存大小?(参考上图,DistilBert 模型(66M 参数量) Memory allocated)

    • 混合精度理解4
  • 模型训练中的各 weight、gradients 的 scale 是怎么转换的?

  1. FP8 的看法:

    1. 用 FP8 训练大模型有多香?微软:比 BF16 快 64%,省 42% 内存

    2. 题外话,前不久去 X 公司跟 X 总监聊下一代 AI 芯片架构的时候,他认为下一代芯片可以不需要加入 INT8 数据类型,因为 Transformer 结构目前有大一统 NLP 和 CV 等领域的趋势,从设计、流片到量产,2 年后预计 Transformer 会取代 CNN 成为最流行的架构。我倒是不同意这个观点,目前来看神经网络的 4 个主要的结构 MLP、CNN、RNN、Transformer 都有其对应的使用场景,并没有因为某一种结构的出现而推翻以前的结构。只能说根据使用场景的侧重点比例有所不同,我理解 Int8、fp16、fp32 的数据类型在 AI 芯片中仍然会长期存在,针对不同的应用场景和计算单元会有不同的比例。

  1. 各精度类型介绍



    FP16 也叫做 float16,两种叫法是完全一样的,全称是 Half-precision floating-point(半精度浮点数),在 IEEE 754 标准中是叫做 binary16,简单来说是用 16 位二进制来表示的浮点数,来看一下是怎么表示的(以下图都来源于维基百科 ^[2]^):


    • Sign(符号位): 1 位,0 表示整数;1 表示负数。
    • Exponent(指数位):5 位,简单地来说就是表示整数部分,范围为 00001(1)到 11110(30),正常来说整数范围就是** ** ,但其实为了指数位能够表示负数,引入了一个偏置值,偏置值是一个固定的数,它被加到实际的指数上,在二进制 16 位浮点数中,偏置值是 15。这个偏置值确保了指数位可以表示从-14 到 +15 的范围即** ** ,而不是 1 到 30,注:当指数位都为 00000 和 11111 时,它表示的是一种特殊情况,在 IEEE 754 标准中叫做非规范化情况,后面可以看到这种特殊情况怎么表示的。
    • Fraction(尾数位):10 位,简单地来说就是表示小数部分,存储的尾数位数为 10 位,但其隐含了首位的 1,实际的尾数精度为 11 位,这里的隐含位可能有点难以理解,简单通俗来说,假设尾数部分为 1001000000,为默认在其前面加一个 1,最后变成 1.1001000000 然后换成 10 进制就是:** **
    # 第一种计算方式 1.1001000000 = 1 * 2^0 + 1 * 2^(-1) + 0 * 2^(-2) + 0 * 2^(-3) + 1 * 2^(-4) + 0 * 2^(-5) + 0 * 2^(-6) + 0 * 2^(-7) + 0 * 2^(-8) + 0 * 2^(-9) = 1.5625 # 第二种计算方式 1.1001000000 = 1 + 576(1001000000变成10进制)/1024 = 1.5625


    \begin{aligned} & (-1)^{\text {sign }} \times 2^{\text {exponent-15 }} \times 1 . \text { fraction }(2 \text { 进制 }) \\ & (-1)^{\text {sign }} \times 2^{\text {exponent-15 }} \times\left(1+\frac{\text { fraction }(10 \text { 进制 })}{1024}\right)\end{aligned}

    举一个例子来计算,这个是 FP16(float16)能表示的最大的正数:

    $0111101111111111=(-1)^0 \times 2^{30-15} \times\left(1+\frac{1023}{1024}\right)=65504$

    同样,这个是 FP16(float16)能表示的最大的负数:

    $1111101111111111=(-1)^1 \times 2^{30-15} \times\left(1+\frac{1023}{1024}\right)= -65504$

    这就是 FP16(float16)表示的范围[-65504,65504]。


    $0000000000000001=(-1)^0 \times 2^{1-15} \times\left(1+\frac{1}{1024}\right) \approx 0.000000059604645$

    我们就不一一的计算了,贴一个 FP16(float16)特殊数值的情况:

    上表中,subnormal number 是指指数位为全 0 的特殊情况情况,其他的也是一些常见的特殊情况。

    接下来看一下在 pytorch 中是如何表示的:

    torch.finfo(torch.float16) # 结果 finfo(resolution=0.001, min=-65504, max=65504, eps=0.000976562, smallest_normal=6.10352e-05, tiny=6.10352e-05, dtype=float16)


    1. resolution​(分辨率):这个浮点数类型的在十进制上的分辨率,表示两个不同值之间的最小间隔。对于** **torch.float16**​ ,分辨率是 0.001,就是说两个不同的 **torch.float16​ 数值之间的最小间隔是 0.001。
    2. min​(最小值):对于** **torch.float16​,最小值是 -65504。
    3. max​(最大值):对于** **torch.float16​,最大值是 65504。
    4. eps​(机器精度):机器精度表示在给定数据类型下,比 1 大的最小浮点数,对于** **torch.float16​,机器精度是 0.000976562,对应上表中的 smallest number larger than one。
    5. smallest_normal​(最小正规数):最小正规数是大于零的最小浮点数,对于** **torch.float16​,最小正规数是 6.10352e-05,对应上表中的 smallest positive normal number
    6. tiny​(最小非零数):最小非零数是大于零的最小浮点数,对于** **torch.float16​,最小非零数也是 6.10352e-05,也是对应上表中的 smallest positive normal number

    这里要详细的解释一下 resolution​(分辨率),这个是我们以十进制来说的两个数之间的最小间隔,我们看一个例子就会明白:

    import torch # 把10进制数转化为 torch.float16 num = 3.141 num_fp16 = torch.tensor(num).half() print(num_fp16) # 结果 tensor(3.1406, dtype=torch.float16) num = 3.1415 num_fp16 = torch.tensor(num).half() print(num_fp16) # 结果 tensor(3.1406, dtype=torch.float16) # 可以看到3.141和3.1415间隔只有0.0005,所以在float16下结果是一样的 num = 3.142 num_fp16 = torch.tensor(num).half() print(num_fp16) # 结果 tensor(3.1426, dtype=torch.float16) # 可以看到结果不一样了

    从上面代码可以看到,十进制中相隔 0.001,在 float16 中才会有变化,这个时候会有一个疑问,难道精度只有小数点后三位?那怎么之前见了很多参数都是有很多小数点的?那我们来看一下全过程,把 float16 变成 2 进制,再把 2 进制变成 16 进制:

    import struct def float16_to_bin(num): # 将float16数打包为2字节16位,使用struct.pack packed_num = struct.pack('e', num) # 解包打包后的字节以获取整数表示 int_value = struct.unpack('H', packed_num)[0] # 将整数表示转换为二进制 binary_representation = bin(int_value)[2:].zfill(16) return binary_representation num = 3.141 num_fp16 = torch.tensor(num).half() print(num_fp16) binary_representation = float16_to_bin(num_fp16) print(binary_representation) # 打印二进制表示 # 结果 tensor(3.1406, dtype=torch.float16) 0100001001001000 num = 3.1415 num_fp16 = torch.tensor(num).half() binary_representation = float16_to_bin(num_fp16) print(binary_representation) # 打印二进制表示 # 结果 tensor(3.1406, dtype=torch.float16) 0100001001001000 # 还是一样的结果 num = 3.142 num_fp16 = torch.tensor(num).half() print(num_fp16) binary_representation = float16_to_bin(num_fp16) print(binary_representation) # 打印二进制表示 # 结果 tensor(3.1426, dtype=torch.float16) 0100001001001001 # 不一样了

    再看一下把 2 进制变成 16 进制:

    def binary_to_float16(binary_string): # 检查输入是否是有效的16位二进制字符串 if len(binary_string) != 16: raise ValueError("输入的二进制字符串必须是16位长") # 提取组成部分:符号、指数、尾数 sign = int(binary_string[0]) # 符号位 exponent = int(binary_string[1:6], 2) # 指数位 mantissa = int(binary_string[6:], 2) / 1024.0 # 尾数位,除以2的10次方(即1024)以获得10位精度 # 根据符号、指数和尾数计算float16值 value = (-1) ** sign * (1 + mantissa) * 2 ** (exponent - 15) return value # 10进制3.141对应float16:3.1406 binary_representation = "0100001001001000" # 将二进制表示转换为float16 float16_value = binary_to_float16(binary_representation) print("通过2进制转化后Float16值:", float16_value) # 结果: 通过2进制转化后Float16值: 3.140625 # 10进制3.1415对应float16:3.1406 binary_representation = "0100001001001000" # 将二进制表示转换为float16 float16_value = binary_to_float16(binary_representation) print("通过2进制转化后Float16值:", float16_value) # 结果: 通过2进制转化后Float16值: 3.140625 # 10进制3.142对应float16:3.1426 binary_representation = "0100001001001001" # 将二进制表示转换为float16 float16_value = binary_to_float16(binary_representation) print("通过2进制转化后Float16值:", float16_value) # 结果: 通过2进制转化后Float16值: 3.142578125

    因为在计算机中是以 2 进制存储计算的,所以转换后的 float16 值会有很多位小数,但这些后面的小数是没有精度的,换成 10 进制的精度是只有 0.001 的。注:在-1~1 之间精度是 0.0001,因为有隐含位 1 的关系,大家可以试一下。


    BF16 也叫做 bfloat16(这是最常叫法),其实叫“BF16”不知道是否准确,全称 brain floating point,也是用 16 位二进制来表示的,是由 Google Brain 开发的,所以这个 brain 应该是 Google Brain 的第二个单词。和上述 FP16 不一样的地方就是指数位和尾数位不一样,看图:

    • Sign(符号位): 1 位,0 表示整数;1 表示负数
    • Exponent(指数位):8 位,表示整数部分,偏置值是 127
    • Fraction(尾数位):7 位,表示小数部分,也是隐含了首位的 1,实际的尾数精度为 8 位


    (-1)^{\text {sign }} \times 2^{\text {exponent-127 }} \times 1. fraction (2 进制 )

    这里要注意一下,并不是所有的硬件都支持 bfloat16,因为它是一个比较新的数据类型,在 NVIDIA GPU 上,只有 Ampere 架构以及之后的 GPU 才支持,如何判断呢?很简单:

    import transformers transformers.utils.import_utils.is_torch_bf16_gpu_available() # 结果为True就是支持

    看一下在 pytorch 中是如何表示的:

    import torch torch.finfo(torch.bfloat16) # 结果 finfo(resolution=0.01, min=-3.38953e+38, max=3.38953e+38, eps=0.0078125, smallest_normal=1.17549e-38, tiny=1.17549e-38, dtype=bfloat16)

    主要注意的是 bfloat16 的 10 进制间隔精度是 0.01(注:在-1~1 之间精度是 0.001),表示范围是[-3.40282e+38,3.40282e+38]。可以明显的看到 bfloat16 比 float16 精度降低了,但是表示的范围更大了,能够有效的防止在训练过程中的溢出。


    FP32 也叫做 float32,两种叫法是完全一样的,全称是 Single-precision floating-point(单精度浮点数),在 IEEE 754 标准中是叫做 binary32,简单来说是用 32 位二进制来表示的浮点数,看图:

    • Sign(符号位): 1 位,0 表示整数;1 表示负数
    • Exponent(指数位):8 位,表示整数部分,偏置值是 127
    • Fraction(尾数位):23 位,表示小数部分,也是隐含了首位的 1,实际的尾数精度为 24 位


    (-1)^{\text {sign }} \times 2^{\text {exponent-127 }} \times 1. fraction (2 进制 )

    看一下在 pytorch 中是如何表示的:

    import torch torch.finfo(torch.float32) # 结果 finfo(resolution=1e-06, min=-3.40282e+38, max=3.40282e+38, eps=1.19209e-07, smallest_normal=1.17549e-38, tiny=1.17549e-38, dtype=float32)

    这个结果也不在赘述了,每个字段表示的含义和上述的是一致的,主要注意的是 float32 的 10 进制间隔精度是 0.000001(注:在-1~1 之间精度是 0.0000001),表示范围是[-3.40282e+38,3.40282e+38]。可以看到 float32 精度又高,范围又大,可是 32 位的大小对于现在大模型时代的参数量太占空间了。

