字符集与编码

本贴最后更新于 2915 天前,其中的信息可能已经东海扬尘

一、基本概念

1. charset(character set)字符集

2. encoding(character encoding):字符编码,简称编码

3. MBCS。。。
双字节字符集(DBCS,Double Byte Charecter Set)
,指一系列汉字字符集,包括 GB 2312,GBK,GB 18030,BIG5 等;

4. ANSI(American National Standard Institite),美国国家标准协会。各个国家(非拉丁语系国家)自己制定自己的字符集,符合 ANSI 的标准(即兼容 ASCII 字符集,在此基础上扩展),得到 ANSI 的认可,全世界在表示对应国家文字的时候都通用这种编码就叫 ANSI 编码。
  ANSI 问题:编码重叠问题--要同时显示多种语言,可能会出现一个编码两个字符集里面都有对应,计算机无法判断该显示哪一个。

代码页

5. 简单编码模型

  按照惯例,人们认为字符集和字符编码是同义词,因为使用同样的标准来定义提供什么字符并且这些字符如何编码到一系列的代码单元(通常一个字符一个单元)。由于历史的原因,MIME 和使用这种编码的系统使用术语字符集来表示用于将一组字符编码成一系列八位字节数据的整个系统。

  在简单编码模型里,一个字符集定义了这个字符集里包含什么字符,同时把每个字符在计算机中的比特表示也进行了定义。例如 ASCII,在 ASCII 里直接定义了 A -> 0100 0001。

6. 现代编码模型

  现代编码模型由统一码(Unicode)和通用字符集(UCS,Universal Character Set)构成。
  现代编码模型自底向上分为五个层次:

(1)抽象字符表 ACR (Abstract Character Repertoire)

  抽象字符表是一个系统支持的所有抽象字符的集合。

(2)编码字符集 CCS (Coded Character Set)

  将抽象字符表中的每一个字符用一个非负整数表示。抽象字符表及映射的码位值称为编码字符集。
  编码空间(encoding space):包含所有字符的表的维度,例如 ASCII 的编码空间为 128。
  码位(code point):编码空间的一个位置。
  码位值(code point value):一个字符映射到编码空间的码位。

  Unicode 属于这一层。

(3)字符编码表 CEF (Character Encoding Form)

  将编码字符集的非负整数值(即码位)转换成有限比特长度的整型值(称为码元 code units)的序列。

  UTF-8、UTF-16、UTF-32 等属于这一层。

(4)字符编码方案 CES (Character Encoding Schema)

(5)传输编码语法 TES (Transfer Encoding Syntax)

二、 各种字符集及其编码

1. ASCII 字符集

  美国信息交换标准代码(ASCII,American Standard Code for Information Interchange),128 个字符(26 个拉丁字符,10 个阿拉伯数字,59 个英式标点符号,33 个无法显示的控制字符)用于显示现代美国英语。
  0 - 127 表示 128 个 ASCII 字符,每个编码占 7 位。

2. EASCII 字符集

  延伸美国标准信息交换码(EASCII,Extended ASCII),256 个字符支持现代美国英语和部分西欧语言。
  0 - 255 表示 256 个 EASCII 字符,每个编码占 8 位。

3. ISO 8859 系列字符集

  ISO 8859,全称 ISO/IEC 8859。
  ISO 8859 字符集是一组字符集的总称,其下共包含了 15 个字符集,即 ISO 8859-n,其中 n=1,...,11,13,...,16。

  (1)ISO 8859-1 字符集(Latin-1) - 西欧语言

  (2)ISO 8859-2 字符集(Latin-2) - 中欧语言

    ......

  (11)ISO 8859-11 字符集(Thai) - 泰语,从泰国的 TIS620 标准字集演化而来

  (13)ISO 8859-13 字符集(Latin-7 或 Baltic Rim)- 波罗的语族

    ......

  (16)ISO 8859-16 字符集(Latin-10) - 东南欧语言

4. GB 2312 字符集

  GB 2312,中华人民共和国国家标准简体中文字符集,又称为 GB 2312-80 或 GB0。
  GB2312 是对 ASCII 的中文扩展。
  GB 2312 标准共收录 6763 个汉字,其中一级汉字 3755 个,二级汉字 3008 个;同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的 682 个字符。
  GB 2312 的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆 99.75% 的使用频率。但对于人名、古汉语等方面出现的罕用字和繁体字,GB 2312 不能处理。

  小于等于 127 的字符的意义与原来 ASCII 编码相同;
  两个大于 127 的字符连在一起时,就表示一个汉字,前面的一个字节(称之为高字节)从 0xA1 用到 0xF7,后面一个字节(低字节)从 0xA1 到 0xFE;
  在 ASCII 里本来就有的数字、标点、字母都重新编了两个字节长的编码,这就是常说的”全角”字符,而原来在 127 号以下的那些就叫”半角”字符了。

5. GBK 字符集

  GBK,汉字内码扩展规范
  GBK 向下完全兼容 GB 2312 编码。支持 GB 2312 编码不支持的部分中文姓,中文繁体,日文假名,还包括希腊字母以及俄语字母等字母。不过这种编码不支持韩国字,也是其在实际使用中与 unicode 编码相比欠缺的部分。

  向下兼容 GB 2312;
    
6. GB 18030 字符集

  GB 18030,国家标准 GB 18030-2005《信息技术 中文编码字符集》。
  增加了几千个新的少数民族的字。

  向下兼容 GBK;

7. BIG5 字符集

  Big5,又称为大五码或五大码,是使用繁体中文(正体中文)社区中最常用的电脑汉字字符集标准,共收录 13,060 个汉字。
  Big5 虽普及于台湾、香港与澳门等繁体中文通行区。

8. Unicode 字符集

  Unicode(中文:万国码、国际码、统一码、单一码)是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字。
  Unicode 伴随着通用字符集的标准而发展,同时也以书本的形式对外发表。Unicode 至今仍在不断增修,每个新版本都加入更多新的字符。目前最新的版本为 2017 年 6 月 20 日公布的 10.0.0。

  (1)Unicode 编码
    
    用两个字节,也就是 16 位来统一表示所有的字符,对于 ASCII 里的那些“半角”字符,Unicode 保持其原编码不变,只是将其长度由原来的 8 位扩展为 16 位,而其他文化和语言的字符则全部重新统一编码。由于"半角"英文符号只需要用到低 8 位,所以其高 8 位永远是 0。

    问题:
    保存英文文本时会多浪费一倍的空间;
    16 位远远不够;
    

  (2)UTF-8(8-bit Unicode Transformation Format)编码
    
    编码规则:
    0xxxxxxx
    110xxxxx 10xxxxxx
    1110xxxx 10xxxxxx 10xxxxxx
    11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

  (3)UTF-16 编码
 
    编码规则:
    
    
    
    

  (4)UTF-32 编码
    
    
    
    
    
    
  
  

CodePage

base64

参考:
维基百科
https://stackoverflow.com/questions/2281646/whats-the-difference-between-encoding-and-charset
https://my.oschina.net/goldenshaw/blog/304493
https://www.zhihu.com/question/27562173
https://yq.aliyun.com/articles/63036
https://zhuanlan.zhihu.com/p/19857727
http://blog.csdn.net/softman11/article/details/6124345

  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3203 引用 • 8217 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖 • 1 关注
  • RYMCU

    RYMCU 致力于打造一个即严谨又活泼、专业又不失有趣,为数百万人服务的开源嵌入式知识学习交流平台。

    4 引用 • 6 回帖 • 62 关注
  • JavaScript

    JavaScript 一种动态类型、弱类型、基于原型的直译式脚本语言,内置支持类型。它的解释器被称为 JavaScript 引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在 HTML 网页上使用,用来给 HTML 网页增加动态功能。

    730 引用 • 1284 回帖
  • Google

    Google(Google Inc.,NASDAQ:GOOG)是一家美国上市公司(公有股份公司),于 1998 年 9 月 7 日以私有股份公司的形式创立,设计并管理一个互联网搜索引擎。Google 公司的总部称作“Googleplex”,它位于加利福尼亚山景城。Google 目前被公认为是全球规模最大的搜索引擎,它提供了简单易用的免费服务。不作恶(Don't be evil)是谷歌公司的一项非正式的公司口号。

    49 引用 • 192 回帖
  • AWS
    11 引用 • 28 回帖 • 6 关注
  • Hibernate

    Hibernate 是一个开放源代码的对象关系映射框架,它对 JDBC 进行了非常轻量级的对象封装,使得 Java 程序员可以随心所欲的使用对象编程思维来操纵数据库。

    39 引用 • 103 回帖 • 726 关注
  • 印象笔记
    3 引用 • 16 回帖
  • TGIF

    Thank God It's Friday! 感谢老天,总算到星期五啦!

    292 引用 • 4495 回帖 • 664 关注
  • 安装

    你若安好,便是晴天。

    132 引用 • 1184 回帖 • 2 关注
  • 单点登录

    单点登录(Single Sign On)是目前比较流行的企业业务整合的解决方案之一。SSO 的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

    9 引用 • 25 回帖 • 4 关注
  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖 • 5 关注
  • MySQL

    MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 公司。MySQL 是最流行的关系型数据库管理系统之一。

    694 引用 • 537 回帖 • 1 关注
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖
  • 音乐

    你听到信仰的声音了么?

    62 引用 • 512 回帖
  • H2

    H2 是一个开源的嵌入式数据库引擎,采用 Java 语言编写,不受平台的限制,同时 H2 提供了一个十分方便的 web 控制台用于操作和管理数据库内容。H2 还提供兼容模式,可以兼容一些主流的数据库,因此采用 H2 作为开发期的数据库非常方便。

    11 引用 • 54 回帖 • 672 关注
  • 服务器

    服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。

    125 引用 • 585 回帖
  • Spark

    Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

    74 引用 • 46 回帖 • 564 关注
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 46 关注
  • 分享

    有什么新发现就分享给大家吧!

    248 引用 • 1795 回帖
  • 电影

    这是一个不能说的秘密。

    123 引用 • 608 回帖
  • 区块链

    区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法 。

    92 引用 • 752 回帖
  • jQuery

    jQuery 是一套跨浏览器的 JavaScript 库,强化 HTML 与 JavaScript 之间的操作。由 John Resig 在 2006 年 1 月的 BarCamp NYC 上释出第一个版本。全球约有 28% 的网站使用 jQuery,是非常受欢迎的 JavaScript 库。

    63 引用 • 134 回帖 • 736 关注
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    89 引用 • 113 回帖
  • PWA

    PWA(Progressive Web App)是 Google 在 2015 年提出、2016 年 6 月开始推广的项目。它结合了一系列现代 Web 技术,在网页应用中实现和原生应用相近的用户体验。

    14 引用 • 69 回帖 • 185 关注
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    53 引用 • 190 回帖
  • Jenkins

    Jenkins 是一套开源的持续集成工具。它提供了非常丰富的插件,让构建、部署、自动化集成项目变得简单易用。

    54 引用 • 37 回帖 • 2 关注
  • MyBatis

    MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。

    173 引用 • 414 回帖 • 360 关注