字符集与编码

一、基本概念

1. charset（character set）：字符集

2. encoding（character encoding）：字符编码，简称编码

3. MBCS。。。
双字节字符集（DBCS，Double Byte Charecter Set），指一系列汉字字符集，包括 GB 2312，GBK，GB 18030，BIG5 等；

4. ANSI（American National Standard Institite），美国国家标准协会。各个国家（非拉丁语系国家）自己制定自己的字符集，符合 ANSI 的标准（即兼容 ASCII 字符集，在此基础上扩展），得到 ANSI 的认可，全世界在表示对应国家文字的时候都通用这种编码就叫 ANSI 编码。
　　ANSI 问题：编码重叠问题--要同时显示多种语言，可能会出现一个编码两个字符集里面都有对应，计算机无法判断该显示哪一个。

代码页

5. 简单编码模型

　　按照惯例，人们认为字符集和字符编码是同义词，因为使用同样的标准来定义提供什么字符并且这些字符如何编码到一系列的代码单元（通常一个字符一个单元）。由于历史的原因，MIME 和使用这种编码的系统使用术语字符集来表示用于将一组字符编码成一系列八位字节数据的整个系统。

　　在简单编码模型里，一个字符集定义了这个字符集里包含什么字符，同时把每个字符在计算机中的比特表示也进行了定义。例如 ASCII，在 ASCII 里直接定义了 A -> 0100 0001。

6. 现代编码模型

　　现代编码模型由统一码（Unicode）和通用字符集（UCS，Universal Character Set）构成。
　　现代编码模型自底向上分为五个层次：

（1）抽象字符表 ACR (Abstract Character Repertoire)

　　抽象字符表是一个系统支持的所有抽象字符的集合。

（2）编码字符集 CCS (Coded Character Set)

　　将抽象字符表中的每一个字符用一个非负整数表示。抽象字符表及映射的码位值称为编码字符集。
　　编码空间（encoding space）：包含所有字符的表的维度，例如 ASCII 的编码空间为 128。
　　码位（code point）：编码空间的一个位置。
　　码位值（code point value）：一个字符映射到编码空间的码位。

　　Unicode 属于这一层。

（3）字符编码表 CEF (Character Encoding Form)

　　将编码字符集的非负整数值（即码位）转换成有限比特长度的整型值（称为码元 code units）的序列。

　　UTF-8、UTF-16、UTF-32 等属于这一层。

（4）字符编码方案 CES (Character Encoding Schema)

（5）传输编码语法 TES (Transfer Encoding Syntax)

二、各种字符集及其编码

1. ASCII 字符集

　　美国信息交换标准代码（ASCII，American Standard Code for Information Interchange），128 个字符（26 个拉丁字符，10 个阿拉伯数字，59 个英式标点符号，33 个无法显示的控制字符）用于显示现代美国英语。
　　0 - 127 表示 128 个 ASCII 字符，每个编码占 7 位。

2. EASCII 字符集

　　延伸美国标准信息交换码（EASCII，Extended ASCII），256 个字符支持现代美国英语和部分西欧语言。
　　0 - 255 表示 256 个 EASCII 字符，每个编码占 8 位。

3. ISO 8859 系列字符集

　　ISO 8859，全称 ISO/IEC 8859。
　　ISO 8859 字符集是一组字符集的总称，其下共包含了 15 个字符集，即 ISO 8859-n，其中 n=1,...,11,13,...,16。

　　（1）ISO 8859-1 字符集(Latin-1) - 西欧语言

　　（2）ISO 8859-2 字符集(Latin-2) - 中欧语言

　　　　......

　　（11）ISO 8859-11 字符集(Thai) - 泰语，从泰国的 TIS620 标准字集演化而来

　　（13）ISO 8859-13 字符集（Latin-7 或 Baltic Rim）- 波罗的语族

　　　　......

　　（16）ISO 8859-16 字符集(Latin-10) - 东南欧语言

4. GB 2312 字符集

　　GB 2312，中华人民共和国国家标准简体中文字符集，又称为 GB 2312-80 或 GB0。
　　GB2312 是对 ASCII 的中文扩展。
　　GB 2312 标准共收录 6763 个汉字，其中一级汉字 3755 个，二级汉字 3008 个；同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的 682 个字符。
　　GB 2312 的出现，基本满足了汉字的计算机处理需要，它所收录的汉字已经覆盖中国大陆 99.75% 的使用频率。但对于人名、古汉语等方面出现的罕用字和繁体字，GB 2312 不能处理。

　　小于等于 127 的字符的意义与原来 ASCII 编码相同；
　　两个大于 127 的字符连在一起时，就表示一个汉字，前面的一个字节（称之为高字节）从 0xA1 用到 0xF7，后面一个字节（低字节）从 0xA1 到 0xFE；
　　在 ASCII 里本来就有的数字、标点、字母都重新编了两个字节长的编码，这就是常说的”全角”字符，而原来在 127 号以下的那些就叫”半角”字符了。

5. GBK 字符集

　　GBK，汉字内码扩展规范
　　GBK 向下完全兼容 GB 2312 编码。支持 GB 2312 编码不支持的部分中文姓，中文繁体，日文假名，还包括希腊字母以及俄语字母等字母。不过这种编码不支持韩国字，也是其在实际使用中与 unicode 编码相比欠缺的部分。

　　向下兼容 GB 2312；
　　　　
6. GB 18030 字符集

　　GB 18030，国家标准 GB 18030-2005《信息技术　中文编码字符集》。
　　增加了几千个新的少数民族的字。

　　向下兼容 GBK；

7. BIG5 字符集

　　Big5，又称为大五码或五大码，是使用繁体中文（正体中文）社区中最常用的电脑汉字字符集标准，共收录 13,060 个汉字。
　　Big5 虽普及于台湾、香港与澳门等繁体中文通行区。

8. Unicode 字符集

　　Unicode（中文：万国码、国际码、统一码、单一码）是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码，使得电脑可以用更为简单的方式来呈现和处理文字。
　　Unicode 伴随着通用字符集的标准而发展，同时也以书本的形式对外发表。Unicode 至今仍在不断增修，每个新版本都加入更多新的字符。目前最新的版本为 2017 年 6 月 20 日公布的 10.0.0。

　　（1）Unicode 编码
　　　　
　　　　用两个字节，也就是 16 位来统一表示所有的字符，对于 ASCII 里的那些“半角”字符，Unicode 保持其原编码不变，只是将其长度由原来的 8 位扩展为 16 位，而其他文化和语言的字符则全部重新统一编码。由于"半角"英文符号只需要用到低８位，所以其高 8 位永远是０。

　　　　问题：
　　　　保存英文文本时会多浪费一倍的空间；
　　　　16 位远远不够；
　　　　

　　（2）UTF-8（8-bit Unicode Transformation Format）编码
　　　　
　　　　编码规则：
　　　　0xxxxxxx
　　　　110xxxxx 10xxxxxx
　　　　1110xxxx 10xxxxxx 10xxxxxx
　　　　11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

　　（3）UTF-16 编码
　
　　　　编码规则：
　　　　
　　　　
　　　　
　　　　

　　（4）UTF-32 编码
　　　　
　　　　
　　　　
　　　　
　　　　
　　　　
　　
　　

CodePage

base64

参考：
维基百科
https://stackoverflow.com/questions/2281646/whats-the-difference-between-encoding-and-charset
https://my.oschina.net/goldenshaw/blog/304493
https://www.zhihu.com/question/27562173
https://yq.aliyun.com/articles/63036
https://zhuanlan.zhihu.com/p/19857727
http://blog.csdn.net/softman11/article/details/6124345

Java 读取 wps 文档

Java 读取 wps 文档可以通过成都冰蓝科技有限公司开发的类库来实现 Word 类库工具官网地址: Free Spire.Doc for JAVA ｜下载通过 Maven 仓库安装 : 通过 Maven 仓库安装 : 在 pom.xml 文件中配置 Maven 仓库路径。 com.e-iceblue ..

JDK 包管理工具 -JVMS

jvms 是一个用于管理多个 JDK 版本的工具，类似于，但更轻量且专注于 JDK 版本管理。它可以帮助你轻松安装、切换和卸载不同版本的 JDK。以下是 jvms 的安装和使用方法。安装 JVMS 下载地址：[https://github.com/ystyle/jvms/releases](https://git ..

什么是形变（Type Variance）？

[图片] 在类型系统中，协变（covariance）和逆变（contravariance）统称为型变（variance）。它们描述的是在类型变换的作用下，子类型关系是否以及如何发生变化。什么是型变（Variance）？我们先看一个抽象模型：设有两个类型 X 和 Y，若 X ≤ Y 表示 X 是 Y 的子 ..

什么是责任链模式？

[图片] 什么是责任链模式在构建复杂系统时，我们常常面临这样的挑战：一个请求或事件需要经过多个处理环节，这些环节可能动态变化，处理者在运行时才能确定。如何优雅地组织这些处理逻辑，避免代码陷入臃肿的'巨无霸方法'困境？想象这样的场景：系统启动初始化流程需要依次执行用户初始化、展示数据加载、元数据配置和系统 Ban ..

源码学习方式

方法论：先会使用全局观，不要专注细节看注释（类、方法、接口）见名知意大胆猜测，小心验证画图（时序图、类图、结构图、总结图），ipad 做笔记学习顺序坚持！！（不管多难）学习顺序： spring -> springmvc -> mybatis -> springboot -> s ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

字符集与编码

相关帖子

OpenJDK 编译问题

Java 读取 wps 文档

JDK 包管理工具 -JVMS

什么是形变（Type Variance）？

ServletContextInitializer

什么是责任链模式？

源码学习方式

欢迎来到这里！

近期热议

推荐标签标签

最新标签

字符集与编码

相关帖子

OpenJDK 编译问题

Java 读取 wps 文档

JDK 包管理工具 -JVMS

什么是形变（Type Variance）？

ServletContextInitializer

什么是责任链模式？

源码学习方式

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签