golang 浮点数精度丢失问题详解

本贴最后更新于 1133 天前,其中的信息可能已经时移世易

请看以下 Go 代码,会返回 0.7 吗?

var num float32
for i := 0; i < 7; i++{
    num = num + 0.1
}

fmt.Println(num)

答案可能出人意料,是:0.70000005

也许有人会问,是不是 Go 语言的问题?换其他语言试试?
OK,我们换 JS 试试。

浮点数.jpeg

答案依然令人意外。
除此之外,你还可以试试 C、C++、Java、PHP 等其他语言的 float 类型相加,看得到的数据是否精确;

还有,除了语言之外,你还可以在 MySQL 等数据库中试试 float 类型数据的字段叠加,得到的数据是否精确。

我可以先告诉你答案:只要是float类型的数据相加,无论在任何语言、任何数据库、任何中间件中进行加法(减法乘除法)运算,得到的数据,都不会精确。

这是浮点类型的精度丢失现象。(Loss of significance)

要了解产生这个现象的原因,就要先了解计算机是如何定义和表示 float 类型的。
不同于正整数类型的表示方法,float 类型在计算机中的表示略显复杂,遵循的是 IEEE 754标准

下面,我们就讲一下 IEEE 754标准

我们首先回顾一下整数类型在计算机中的表示。
我们知道:计算机只认识 0 和 1;那么,对于像 6 一样的这种正整数,我们要做十进制到二进制的转换。

精度.png

所以,十进制 6 最终转化为二进制为 110

这很好理解,但是,如何表示 6.1 等这类小数呢?
有人说了,可以找个特殊的符号,用来表示小数点 .,把 6.161 隔开;听起来是个不错的办法。其实 IEEE 754 还真就是这么做的,只不过思路略有些复杂,总体思路就是:仿照用”科学计数法”!

我们再回顾一下什么是 科学计数法
把一个数表示成a与10的n次幂相乘的形式(1≤|a|<10,a不为分数形式,n为整数),这种记数法叫做科学记数法。
也就是:1.360X10^4 这种计数方式。

我们可以仿照科学计数法,来表示浮点数,把二进制数统一表示成 1.0110101 X 2^n 这种形式。
数据层面怎么表示出这种形式呢?根据 IEEE 754 的标准,将数据分为三部分:

total.png

从左到右分别表示:符号位(正负数)、指数位和小数位

以单精度浮点数为例,单精度浮点数一共 32 位(双精度 64 位,即平时所说的 double 类型),具体内部表示为:total01.png

这里有个地方要特别注意:因为数据最终要表示成 1.0110101 X 2^n 这种形式,整数位在二进制下,永远都是 1,所以在表示 float 类型的时候,直接把 1 给去掉了,假如有就占据一个 bit 的空间,既然那个 bit 位上永远都是 1,所以干脆去掉了。

那么,具体该如何展示呢?例如小数点后的数字怎么表示?6.1 能否写成 110.1 呢?如果能的话小数点后这个 1 代表什么呢?个数一?那添加几个零的话,能否认为是十、一百、一千?似乎是不可以,因为这样只能满足”视觉效果”,逻辑层面直接说不通。

要明白在小数点后的数字代表除以 2 后的数字,例如二进制下小数点后的第一位 1 代表 1 / 2 等于 0.5,第二位 1 代表 1/2/2 等于 0.25,依次类推第三位 1 则代表 0.125…具体请看下图:

binarytable.png

所以,给定一个小数,譬如 0.1,要想得到对应的二进制数,应该是和小数点左边的计算方式相反:乘以2,记录整数位

0.1 X 2 = 0.2  0
0.2 X 2 = 0.4  0
0.4 X 2 = 0.8  0
0.8 X 2 = 1.6  1
(1.6 - 1 = 0.6)
0.6 X 2 = 1.2  1
(1.2 - 1 = 0.2) 
0.2 X 2 = 0.4  0
0.4 X 2 = 0.8  0
0.8 X 2 = 1.6  1
(1.6 - 1 = 0.6)
0.6 X 2 = 1.2  1
(1.2 - 1 = 0.2) 
0.2 X 2 = 0.4  0
0.4 X 2 = 0.8  0
0.8 X 2 = 1.6  1

... 
// 无限循环下去

所以,0.1 用二进制表示为:0.000110011001100110011...
因此 6.1 用二进制应该表示为:110.000110011001100110011...
用”科学计数法“表示为:1.10000110011001100110011... X 2^2
OK,看来小数位的数可以确定了是 10000110011001100110011,即去掉整数位 1 后,向后截取的 23 位数(浮点数不精确的本质原因)。

符号位 0 表示正数,1 表示负数,所以可以确定是 6.1 的符号位是 0;现在符号位有了,小数位有了,只剩下指数 2 如的表示了,该如何表示呢?直接在 8 位的空间内转化为 000000010

显然不可以,首先,如果指数位用 原码 表示,那么,针对指数位为负的情况,就得加一个符号位去表示,而且还会出现两个零的情况:000000001000000,操作起来过程复杂~

有人要问那如果使用补码呢?
如果使用补码,会出现以下情况,请看例子:

例如:1.01 X 2^-1 和 1.11 X 2^3比较大小?

     首先对比指数位, -1 和 3,分别转化为二进制数 ``111``和``011``;

     如果没有其他逻辑处理,``111``是"7",``011``是"3", 7会小于3吗?

可见使用补码,也不是很方便,于是,引用了另外一种编码方式——-移码。
先说说移码的定义:将每一个数值加上一个偏置常数(Excess / bias),通常,当编码位数为n的时候,bias取 "2^n-1" 或者 "2^n-1 - 1"

承接以上 1.01 X 2^-1 和 1.11 X 2^3 比较大小的例子:

例如:1.01 X 2^-1 和 1.11 X 2^3比较大小?
  
    指数为-1的则表示为 -1 + 4 = 3,二进制表示为:011

    指数为3的则表示为 3 + 4 = 7 二进制表示为:111

    7 > 3,即 111 > 011 比较完毕

就这样,浮点数”科学计数法“的指数位比较变得简单了,而且,消除了”正零“ 和 ”负零“ 不相同的问题。

因为 :

假设偏移量是:4

则移码表示的0只有:0 + 4 = 4,即“100”

IEEE 754 中,指数位移码的偏移量为指数位数的 2^n-1 - 1,为 127。

所以,回到 6.1 表示的问题上,指数位为:2 + 127 = 129,二进制表示为:10000001

因此,6.1IEEE 754 单精度浮点数标准的下,表示为:

ieee754.png

好了,现在了解了浮点数 IEEE 754 标准的表示方法,知道为何浮点数相加总是不精确了吧?

因为浮点数很多小数在二进制环境下很多都无法完整的表示,只能截取部分数据来近似的表示,两个数相加的话,就是两个近似的数相加的和,如果相加次数足够多,精确度自然也就会越来越低

转载

  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    497 引用 • 1387 回帖 • 294 关注
  • 转载

    转载的帖子不会出现在社区全局列表上。

    10 引用 • 62 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
xhaoxiong
站在巨人的肩膀上学习与创新

推荐标签 标签

  • BAE

    百度应用引擎(Baidu App Engine)提供了 PHP、Java、Python 的执行环境,以及云存储、消息服务、云数据库等全面的云服务。它可以让开发者实现自动地部署和管理应用,并且提供动态扩容和负载均衡的运行环境,让开发者不用考虑高成本的运维工作,只需专注于业务逻辑,大大降低了开发者学习和迁移的成本。

    19 引用 • 75 回帖 • 631 关注
  • JetBrains

    JetBrains 是一家捷克的软件开发公司,该公司位于捷克的布拉格,并在俄国的圣彼得堡及美国麻州波士顿都设有办公室,该公司最为人所熟知的产品是 Java 编程语言开发撰写时所用的集成开发环境:IntelliJ IDEA

    18 引用 • 54 回帖 • 1 关注
  • 人工智能

    人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。

    132 引用 • 188 回帖
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 387 关注
  • 百度

    百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文网站。2000 年 1 月由李彦宏创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

    63 引用 • 785 回帖 • 182 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    176 引用 • 815 回帖
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 63 关注
  • RYMCU

    RYMCU 致力于打造一个即严谨又活泼、专业又不失有趣,为数百万人服务的开源嵌入式知识学习交流平台。

    4 引用 • 6 回帖 • 53 关注
  • 安装

    你若安好,便是晴天。

    132 引用 • 1184 回帖
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖
  • 工具

    子曰:“工欲善其事,必先利其器。”

    285 引用 • 728 回帖
  • 资讯

    资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息,资讯有时效性和地域性。

    55 引用 • 85 回帖 • 1 关注
  • 设计模式

    设计模式(Design pattern)代表了最佳的实践,通常被有经验的面向对象的软件开发人员所采用。设计模式是软件开发人员在软件开发过程中面临的一般问题的解决方案。这些解决方案是众多软件开发人员经过相当长的一段时间的试验和错误总结出来的。

    200 引用 • 120 回帖
  • Sphinx

    Sphinx 是一个基于 SQL 的全文检索引擎,可以结合 MySQL、PostgreSQL 做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。

    1 引用 • 210 关注
  • CongSec

    本标签主要用于分享网络空间安全专业的学习笔记

    1 引用 • 1 回帖 • 10 关注
  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用 • 2 关注
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    46 引用 • 25 回帖
  • Logseq

    Logseq 是一个隐私优先、开源的知识库工具。

    Logseq is a joyful, open-source outliner that works on top of local plain-text Markdown and Org-mode files. Use it to write, organize and share your thoughts, keep your to-do list, and build your own digital garden.

    5 引用 • 62 回帖
  • HTML

    HTML5 是 HTML 下一个的主要修订版本,现在仍处于发展阶段。广义论及 HTML5 时,实际指的是包括 HTML、CSS 和 JavaScript 在内的一套技术组合。

    107 引用 • 295 回帖
  • 脑图

    脑图又叫思维导图,是表达发散性思维的有效图形思维工具 ,它简单却又很有效,是一种实用性的思维工具。

    25 引用 • 83 回帖
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 354 关注
  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖 • 1 关注
  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    497 引用 • 1387 回帖 • 294 关注
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    17 引用 • 236 回帖 • 335 关注
  • 正则表达式

    正则表达式(Regular Expression)使用单个字符串来描述、匹配一系列遵循某个句法规则的字符串。

    31 引用 • 94 回帖 • 1 关注
  • CAP

    CAP 指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。

    11 引用 • 5 回帖 • 606 关注