golang 浮点数精度丢失问题详解

本贴最后更新于 1383 天前,其中的信息可能已经时移世易

请看以下 Go 代码,会返回 0.7 吗?

var num float32
for i := 0; i < 7; i++{
    num = num + 0.1
}

fmt.Println(num)

答案可能出人意料,是:0.70000005

也许有人会问,是不是 Go 语言的问题?换其他语言试试?
OK,我们换 JS 试试。

浮点数.jpeg

答案依然令人意外。
除此之外,你还可以试试 C、C++、Java、PHP 等其他语言的 float 类型相加,看得到的数据是否精确;

还有,除了语言之外,你还可以在 MySQL 等数据库中试试 float 类型数据的字段叠加,得到的数据是否精确。

我可以先告诉你答案:只要是float类型的数据相加,无论在任何语言、任何数据库、任何中间件中进行加法(减法乘除法)运算,得到的数据,都不会精确。

这是浮点类型的精度丢失现象。(Loss of significance)

要了解产生这个现象的原因,就要先了解计算机是如何定义和表示 float 类型的。
不同于正整数类型的表示方法,float 类型在计算机中的表示略显复杂,遵循的是 IEEE 754标准

下面,我们就讲一下 IEEE 754标准

我们首先回顾一下整数类型在计算机中的表示。
我们知道:计算机只认识 0 和 1;那么,对于像 6 一样的这种正整数,我们要做十进制到二进制的转换。

精度.png

所以,十进制 6 最终转化为二进制为 110

这很好理解,但是,如何表示 6.1 等这类小数呢?
有人说了,可以找个特殊的符号,用来表示小数点 .,把 6.161 隔开;听起来是个不错的办法。其实 IEEE 754 还真就是这么做的,只不过思路略有些复杂,总体思路就是:仿照用”科学计数法”!

我们再回顾一下什么是 科学计数法
把一个数表示成a与10的n次幂相乘的形式(1≤|a|<10,a不为分数形式,n为整数),这种记数法叫做科学记数法。
也就是:1.360X10^4 这种计数方式。

我们可以仿照科学计数法,来表示浮点数,把二进制数统一表示成 1.0110101 X 2^n 这种形式。
数据层面怎么表示出这种形式呢?根据 IEEE 754 的标准,将数据分为三部分:

total.png

从左到右分别表示:符号位(正负数)、指数位和小数位

以单精度浮点数为例,单精度浮点数一共 32 位(双精度 64 位,即平时所说的 double 类型),具体内部表示为:total01.png

这里有个地方要特别注意:因为数据最终要表示成 1.0110101 X 2^n 这种形式,整数位在二进制下,永远都是 1,所以在表示 float 类型的时候,直接把 1 给去掉了,假如有就占据一个 bit 的空间,既然那个 bit 位上永远都是 1,所以干脆去掉了。

那么,具体该如何展示呢?例如小数点后的数字怎么表示?6.1 能否写成 110.1 呢?如果能的话小数点后这个 1 代表什么呢?个数一?那添加几个零的话,能否认为是十、一百、一千?似乎是不可以,因为这样只能满足”视觉效果”,逻辑层面直接说不通。

要明白在小数点后的数字代表除以 2 后的数字,例如二进制下小数点后的第一位 1 代表 1 / 2 等于 0.5,第二位 1 代表 1/2/2 等于 0.25,依次类推第三位 1 则代表 0.125…具体请看下图:

binarytable.png

所以,给定一个小数,譬如 0.1,要想得到对应的二进制数,应该是和小数点左边的计算方式相反:乘以2,记录整数位

0.1 X 2 = 0.2  0
0.2 X 2 = 0.4  0
0.4 X 2 = 0.8  0
0.8 X 2 = 1.6  1
(1.6 - 1 = 0.6)
0.6 X 2 = 1.2  1
(1.2 - 1 = 0.2) 
0.2 X 2 = 0.4  0
0.4 X 2 = 0.8  0
0.8 X 2 = 1.6  1
(1.6 - 1 = 0.6)
0.6 X 2 = 1.2  1
(1.2 - 1 = 0.2) 
0.2 X 2 = 0.4  0
0.4 X 2 = 0.8  0
0.8 X 2 = 1.6  1

... 
// 无限循环下去

所以,0.1 用二进制表示为:0.000110011001100110011...
因此 6.1 用二进制应该表示为:110.000110011001100110011...
用”科学计数法“表示为:1.10000110011001100110011... X 2^2
OK,看来小数位的数可以确定了是 10000110011001100110011,即去掉整数位 1 后,向后截取的 23 位数(浮点数不精确的本质原因)。

符号位 0 表示正数,1 表示负数,所以可以确定是 6.1 的符号位是 0;现在符号位有了,小数位有了,只剩下指数 2 如的表示了,该如何表示呢?直接在 8 位的空间内转化为 000000010

显然不可以,首先,如果指数位用 原码 表示,那么,针对指数位为负的情况,就得加一个符号位去表示,而且还会出现两个零的情况:000000001000000,操作起来过程复杂~

有人要问那如果使用补码呢?
如果使用补码,会出现以下情况,请看例子:

例如:1.01 X 2^-1 和 1.11 X 2^3比较大小?

     首先对比指数位, -1 和 3,分别转化为二进制数 ``111``和``011``;

     如果没有其他逻辑处理,``111``是"7",``011``是"3", 7会小于3吗?

可见使用补码,也不是很方便,于是,引用了另外一种编码方式——-移码。
先说说移码的定义:将每一个数值加上一个偏置常数(Excess / bias),通常,当编码位数为n的时候,bias取 "2^n-1" 或者 "2^n-1 - 1"

承接以上 1.01 X 2^-1 和 1.11 X 2^3 比较大小的例子:

例如:1.01 X 2^-1 和 1.11 X 2^3比较大小?
  
    指数为-1的则表示为 -1 + 4 = 3,二进制表示为:011

    指数为3的则表示为 3 + 4 = 7 二进制表示为:111

    7 > 3,即 111 > 011 比较完毕

就这样,浮点数”科学计数法“的指数位比较变得简单了,而且,消除了”正零“ 和 ”负零“ 不相同的问题。

因为 :

假设偏移量是:4

则移码表示的0只有:0 + 4 = 4,即“100”

IEEE 754 中,指数位移码的偏移量为指数位数的 2^n-1 - 1,为 127。

所以,回到 6.1 表示的问题上,指数位为:2 + 127 = 129,二进制表示为:10000001

因此,6.1IEEE 754 单精度浮点数标准的下,表示为:

ieee754.png

好了,现在了解了浮点数 IEEE 754 标准的表示方法,知道为何浮点数相加总是不精确了吧?

因为浮点数很多小数在二进制环境下很多都无法完整的表示,只能截取部分数据来近似的表示,两个数相加的话,就是两个近似的数相加的和,如果相加次数足够多,精确度自然也就会越来越低

转载

  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    500 引用 • 1396 回帖 • 252 关注
  • 转载
    12 引用 • 65 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
xhaoxiong
站在巨人的肩膀上学习与创新

推荐标签 标签

  • Notion

    Notion - The all-in-one workspace for your notes, tasks, wikis, and databases.

    10 引用 • 77 回帖
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 617 关注
  • Caddy

    Caddy 是一款默认自动启用 HTTPS 的 HTTP/2 Web 服务器。

    10 引用 • 54 回帖 • 180 关注
  • 996
    13 引用 • 200 回帖 • 1 关注
  • 博客

    记录并分享人生的经历。

    273 引用 • 2389 回帖
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    188 引用 • 319 回帖 • 238 关注
  • NetBeans

    NetBeans 是一个始于 1997 年的 Xelfi 计划,本身是捷克布拉格查理大学的数学及物理学院的学生计划。此计划延伸而成立了一家公司进而发展这个商用版本的 NetBeans IDE,直到 1999 年 Sun 买下此公司。Sun 于次年(2000 年)六月将 NetBeans IDE 开源,直到现在 NetBeans 的社群依然持续增长。

    78 引用 • 102 回帖 • 713 关注
  • 域名

    域名(Domain Name),简称域名、网域,是由一串用点分隔的名字组成的 Internet 上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位(有时也指地理位置)。

    43 引用 • 208 回帖 • 3 关注
  • Quicker

    Quicker 您的指尖工具箱!操作更少,收获更多!

    37 引用 • 157 回帖 • 1 关注
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    10126 引用 • 46015 回帖 • 63 关注
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖 • 1 关注
  • WebSocket

    WebSocket 是 HTML5 中定义的一种新协议,它实现了浏览器与服务器之间的全双工通信(full-duplex)。

    48 引用 • 206 回帖 • 280 关注
  • 前端

    前端技术一般分为前端设计和前端开发,前端设计可以理解为网站的视觉设计,前端开发则是网站的前台代码实现,包括 HTML、CSS 以及 JavaScript 等。

    246 引用 • 1338 回帖
  • MongoDB

    MongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是一个基于分布式文件存储的数据库,由 C++ 语言编写。旨在为应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似 JSON 的 BSON 格式,因此可以存储比较复杂的数据类型。

    91 引用 • 59 回帖
  • LaTeX

    LaTeX(音译“拉泰赫”)是一种基于 ΤΕΧ 的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在 20 世纪 80 年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由 TeX 所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。

    12 引用 • 59 回帖 • 1 关注
  • Ubuntu

    Ubuntu(友帮拓、优般图、乌班图)是一个以桌面应用为主的 Linux 操作系统,其名称来自非洲南部祖鲁语或豪萨语的“ubuntu”一词,意思是“人性”、“我的存在是因为大家的存在”,是非洲传统的一种价值观,类似华人社会的“仁爱”思想。Ubuntu 的目标在于为一般用户提供一个最新的、同时又相当稳定的主要由自由软件构建而成的操作系统。

    127 引用 • 169 回帖
  • 创造

    你创造的作品可能会帮助到很多人,如果是开源项目的话就更赞了!

    186 引用 • 1021 回帖
  • Outlook
    1 引用 • 5 回帖 • 3 关注
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖
  • Markdown

    Markdown 是一种轻量级标记语言,用户可使用纯文本编辑器来排版文档,最终通过 Markdown 引擎将文档转换为所需格式(比如 HTML、PDF 等)。

    172 引用 • 1538 回帖
  • OAuth

    OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。

    36 引用 • 103 回帖 • 37 关注
  • 知乎

    知乎是网络问答社区,连接各行各业的用户。用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。

    10 引用 • 66 回帖
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3201 引用 • 8217 回帖 • 1 关注
  • Access
    1 引用 • 3 回帖 • 3 关注
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    346 引用 • 757 回帖 • 1 关注
  • Sandbox

    如果帖子标签含有 Sandbox ,则该帖子会被视为“测试帖”,主要用于测试社区功能,排查 bug 等,该标签下内容不定期进行清理。

    440 引用 • 1238 回帖 • 596 关注
  • GitHub

    GitHub 于 2008 年上线,目前,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。正因为这些功能所提供的便利,又经过长期的积累,GitHub 的用户活跃度很高,在开源世界里享有深远的声望,并形成了社交化编程文化(Social Coding)。

    209 引用 • 2040 回帖