计算机中带符号的整数为何采用二进制的补码进行存储?

本贴最后更新于 2297 天前,其中的信息可能已经物是人非

我们都知道在计算机内部数据的存储和运算都采用二进制,是因为计算机是由很多晶体管组成的,而晶体管只有 2 种状态,恰好可以用二进制的 0 和 1 表示,并且采用二进制可以使得计算机内部的运算规则简单,稳定性高。在计算机中存在实数和整数,而整数又分为无符号整数和有符号整数,无符号的整数表示很简单,直接采用其二进制形式表示即可,而对于有符号数的表示却成了问题,如何表示正负?如何去处理正负号?下面来具体说下其中的原因,在这之前先了解一下原码、反码和补码这几个概念。

1.原码、反码和补码的概念

  在了解原码、反码和补码之前先说一下有符号数和无符号数。用过 C 语言的都知道在 C 语言中用 signed 和 unsigned 来标识一个数是否是有符号还是无符号类型的。对于一个 8bit 的二进制来说,若当做无符号数处理,其能表示的整型值范围是 0255,但是这样表示数据就有个局限性,如果数据是负的该如何表示?因此就引入了有符号类型的概念,对于有符号类型,规定取最高位为符号位,若最高位为 0,则为正数,否则为负数,这样一来对于 8 位二进制,示数值的就只有 7 位了,能够表示的非负数值范围变为 0127,负值范围为-127-1,相当于可以理解为将无符号类型能够表示的 128255 拿来去表示-127~-1 了。事实上,在计算机内部存储中,计算机自己是无法去区分无符号还是有符号类型的,对于 255 和-1,在计算机内部存储的都是 11111111。换个角度来说,如果事先知道内存中存储了这样一个 8 位二进制 11111111,但是谁也不能肯定它具体表示什么数值,是-1 还是 255?这个是需要靠程序员自己去指定的,如果指定为无符号类型,则编译器则通过相应指令将其转换为数值 255。事实上对于-x 的二进制补码表示形式和(256-x)(256-x 当做无符号类型处理)的二进制表示形式相同,从这里可以略微了解了补码的含义了。在教材中对于原码、反码以及补码一般是这么定义的:

  对于正数原码、反码以及补码是其本身。负数的原码是其本身,反码是对原码除符号位之外的各位取反,补码则是反码加 1。

  因为(-x)的二进制补码形式和 256-x 的二进制表示形式相同,而 255-x 相当于对 x 的每一位取反,那么 256-x 就是 255-x 后加 1。

  注意:1)原码、反码、补码的概念是针对有符号类型而言的。

     2)实数始终是有符号类型的(实数并不是采用补码形式存储的,具体可参考《浅谈 C/C++ 的浮点数在内存中的存储方式》一文),整型数据包括无符号和有符号类型的。

2.采用补码表示带符号的整数的原因

  对于有符号类型的整数,有原码、反码和补码三种形式,最后选择了补码来表示,具体来说有下面几点原因。

  1)能够统一 +0 和-0 的表示

  采用原码表示,+0 的二进制表示形式为 0 000 0000,而-0 的二进制表示形式为 1 000 0000;

  采用反码表示,+0 的二进制表示形式为 0 000 0000,而-0 的二进制表示形式为 1 111 1111;

  采用补码表示,+0 的二进制表示形式为 0 000 0000,而-0 的二进制表示形式为 1 111 1111+1=1 0000 0000,因为计算机会进行截断,只取低 8 位,所以-0 的补码表示形式为 0000 0000。

  从上面可以看出只有用补码表示,+0 和-0 的表示形式才一致。正因为如此,所以补码的表示范围比原码和反码表示的范围都要大,用补码能够表示的范围为-128127,0127 分别用 0000000001111111 来表示,而-127-1 则用 10000001~11111111 来表示,多出的 10000000 则用来表示-128。因此对于任何一个 n 位的二进制,假若表示带符号的整数,其表示范围为-2^(n-1)~2^(n-1)-1,且有 MAX+1=MIN。看下面一段代码:

char ch=127;
ch++;

  ch 的值是多少?它的值是-128,读者可以上机验证一下。

  假如不采用补码来表示,那么计算机中需要对 +0 和-0 区别对待,显然这个对于设计来说要增加难度,而且不符合运算规则。

  2)对于有符号整数的运算能够把符号位同数值位为一起处理

  由于将最高位作为符号位处理,不具有实际的数值意义,那么如何在进行运算时处理这个符号位?如果单独把符号位进行处理,显然又会增加电子器件的设计难度和 CPU 指令设计的难度,但是采用补码能够很好地解决这个问题。下面举例说明:

  比如-2+3=1

  如果采用原码表示(把符号位同数值位一起处理):

  1 000 0010+0 000 0011=1 000 0101=(-5)原,显然这个结果是错误的。

  如果采用反码表示

  1 111 1101+0 000 0011=1 0000 0000=0 0000000=(+0)反,显然这个结果也是错误的。

  如果采用补码表示

  1 111 1110+0 000 0011=1 0000 0001=0000 0001=(1)补,结果是正确的。

  从上面可以看出,当把符号位同数值位一起进行处理时,只有补码的运算才是正确的。如果不把符号位和数值位一起处理,会给 CPU 指令的设计带来很大的困难,如果把符号位单独考虑的话,CPU 指令还要特意对最高位进行判断,这个对于计算机的最底层实现来说是很困难的。

  3)能够简化运算规则

  对于-2+3=1 这个例子来说,可以看作是 3-2=1,也即[3]+[-2]=1,从上面的运算过程可知采用补码运算相当于是

  [3]补 +[-2]补=[1]补,也即可以把减法运算转换为加法运算。这样一来的好处是在设计电子器件时,只需要设计加法器即可,不需要单独再设计减法器。

  总的来说,采用补码主要有以上几点好处,从而使得计算机从硬件设计上更加简单以及简化 CPU 指令的设计。

测试代码

#include

int main(void)
{ char ch=-1; char *p=(char *)&ch;
unsigned char uch=*p;
printf("%d\n",uch); //输出结果为 255
return 0;
}

Why int32 has max value 2^31 -1

Int32.MaxValue =  2^31 - 1 = 01111111111111111111111111111111
                  1        = 00000000000000000000000000000001
                  0        = 00000000000000000000000000000000
                 -1        = 11111111111111111111111111111111
Int32.MinValue = -2^31     = 10000000000000000000000000000000

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用
  • C++

    C++ 是在 C 语言的基础上开发的一种通用编程语言,应用广泛。C++ 支持多种编程范式,面向对象编程、泛型编程和过程化编程。

    107 引用 • 153 回帖
  • wolai

    我来 wolai:不仅仅是未来的云端笔记!

    2 引用 • 14 回帖
  • Openfire

    Openfire 是开源的、基于可拓展通讯和表示协议 (XMPP)、采用 Java 编程语言开发的实时协作服务器。Openfire 的效率很高,单台服务器可支持上万并发用户。

    6 引用 • 7 回帖 • 94 关注
  • RIP

    愿逝者安息!

    8 引用 • 92 回帖 • 351 关注
  • 京东

    京东是中国最大的自营式电商企业,2015 年第一季度在中国自营式 B2C 电商市场的占有率为 56.3%。2014 年 5 月,京东在美国纳斯达克证券交易所正式挂牌上市(股票代码:JD),是中国第一个成功赴美上市的大型综合型电商平台,与腾讯、百度等中国互联网巨头共同跻身全球前十大互联网公司排行榜。

    14 引用 • 102 回帖 • 376 关注
  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    83 引用 • 37 回帖 • 1 关注
  • 面试

    面试造航母,上班拧螺丝。多面试,少加班。

    325 引用 • 1395 回帖
  • TGIF

    Thank God It's Friday! 感谢老天,总算到星期五啦!

    287 引用 • 4484 回帖 • 669 关注
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    17 引用 • 236 回帖 • 327 关注
  • GAE

    Google App Engine(GAE)是 Google 管理的数据中心中用于 WEB 应用程序的开发和托管的平台。2008 年 4 月 发布第一个测试版本。目前支持 Python、Java 和 Go 开发部署。全球已有数十万的开发者在其上开发了众多的应用。

    14 引用 • 42 回帖 • 764 关注
  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    169 引用 • 506 回帖
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 19 关注
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 664 关注
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 26 关注
  • 区块链

    区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法 。

    91 引用 • 751 回帖 • 2 关注
  • 职场

    找到自己的位置,萌新烦恼少。

    127 引用 • 1705 回帖 • 1 关注
  • Gitea

    Gitea 是一个开源社区驱动的轻量级代码托管解决方案,后端采用 Go 编写,采用 MIT 许可证。

    4 引用 • 16 回帖 • 5 关注
  • Unity

    Unity 是由 Unity Technologies 开发的一个让开发者可以轻松创建诸如 2D、3D 多平台的综合型游戏开发工具,是一个全面整合的专业游戏引擎。

    25 引用 • 7 回帖 • 173 关注
  • 前端

    前端技术一般分为前端设计和前端开发,前端设计可以理解为网站的视觉设计,前端开发则是网站的前台代码实现,包括 HTML、CSS 以及 JavaScript 等。

    247 引用 • 1348 回帖
  • JavaScript

    JavaScript 一种动态类型、弱类型、基于原型的直译式脚本语言,内置支持类型。它的解释器被称为 JavaScript 引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在 HTML 网页上使用,用来给 HTML 网页增加动态功能。

    729 引用 • 1327 回帖
  • SEO

    发布对别人有帮助的原创内容是最好的 SEO 方式。

    35 引用 • 200 回帖 • 22 关注
  • 房星科技

    房星网,我们不和没有钱的程序员谈理想,我们要让程序员又有理想又有钱。我们有雄厚的房地产行业线下资源,遍布昆明全城的 100 家门店、四千地产经纪人是我们坚实的后盾。

    6 引用 • 141 回帖 • 585 关注
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖
  • MySQL

    MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 公司。MySQL 是最流行的关系型数据库管理系统之一。

    690 引用 • 535 回帖
  • Sym

    Sym 是一款用 Java 实现的现代化社区(论坛/BBS/社交网络/博客)系统平台。

    下一代的社区系统,为未来而构建

    524 引用 • 4601 回帖 • 700 关注
  • SendCloud

    SendCloud 由搜狐武汉研发中心孵化的项目,是致力于为开发者提供高质量的触发邮件服务的云端邮件发送平台,为开发者提供便利的 API 接口来调用服务,让邮件准确迅速到达用户收件箱并获得强大的追踪数据。

    2 引用 • 8 回帖 • 483 关注