字符集与编码

本贴最后更新于 3066 天前,其中的信息可能已经东海扬尘

一、基本概念

1. charset(character set)字符集

2. encoding(character encoding):字符编码,简称编码

3. MBCS。。。
双字节字符集(DBCS,Double Byte Charecter Set)
,指一系列汉字字符集,包括 GB 2312,GBK,GB 18030,BIG5 等;

4. ANSI(American National Standard Institite),美国国家标准协会。各个国家(非拉丁语系国家)自己制定自己的字符集,符合 ANSI 的标准(即兼容 ASCII 字符集,在此基础上扩展),得到 ANSI 的认可,全世界在表示对应国家文字的时候都通用这种编码就叫 ANSI 编码。
  ANSI 问题:编码重叠问题--要同时显示多种语言,可能会出现一个编码两个字符集里面都有对应,计算机无法判断该显示哪一个。

代码页

5. 简单编码模型

  按照惯例,人们认为字符集和字符编码是同义词,因为使用同样的标准来定义提供什么字符并且这些字符如何编码到一系列的代码单元(通常一个字符一个单元)。由于历史的原因,MIME 和使用这种编码的系统使用术语字符集来表示用于将一组字符编码成一系列八位字节数据的整个系统。

  在简单编码模型里,一个字符集定义了这个字符集里包含什么字符,同时把每个字符在计算机中的比特表示也进行了定义。例如 ASCII,在 ASCII 里直接定义了 A -> 0100 0001。

6. 现代编码模型

  现代编码模型由统一码(Unicode)和通用字符集(UCS,Universal Character Set)构成。
  现代编码模型自底向上分为五个层次:

(1)抽象字符表 ACR (Abstract Character Repertoire)

  抽象字符表是一个系统支持的所有抽象字符的集合。

(2)编码字符集 CCS (Coded Character Set)

  将抽象字符表中的每一个字符用一个非负整数表示。抽象字符表及映射的码位值称为编码字符集。
  编码空间(encoding space):包含所有字符的表的维度,例如 ASCII 的编码空间为 128。
  码位(code point):编码空间的一个位置。
  码位值(code point value):一个字符映射到编码空间的码位。

  Unicode 属于这一层。

(3)字符编码表 CEF (Character Encoding Form)

  将编码字符集的非负整数值(即码位)转换成有限比特长度的整型值(称为码元 code units)的序列。

  UTF-8、UTF-16、UTF-32 等属于这一层。

(4)字符编码方案 CES (Character Encoding Schema)

(5)传输编码语法 TES (Transfer Encoding Syntax)

二、 各种字符集及其编码

1. ASCII 字符集

  美国信息交换标准代码(ASCII,American Standard Code for Information Interchange),128 个字符(26 个拉丁字符,10 个阿拉伯数字,59 个英式标点符号,33 个无法显示的控制字符)用于显示现代美国英语。
  0 - 127 表示 128 个 ASCII 字符,每个编码占 7 位。

2. EASCII 字符集

  延伸美国标准信息交换码(EASCII,Extended ASCII),256 个字符支持现代美国英语和部分西欧语言。
  0 - 255 表示 256 个 EASCII 字符,每个编码占 8 位。

3. ISO 8859 系列字符集

  ISO 8859,全称 ISO/IEC 8859。
  ISO 8859 字符集是一组字符集的总称,其下共包含了 15 个字符集,即 ISO 8859-n,其中 n=1,...,11,13,...,16。

  (1)ISO 8859-1 字符集(Latin-1) - 西欧语言

  (2)ISO 8859-2 字符集(Latin-2) - 中欧语言

    ......

  (11)ISO 8859-11 字符集(Thai) - 泰语,从泰国的 TIS620 标准字集演化而来

  (13)ISO 8859-13 字符集(Latin-7 或 Baltic Rim)- 波罗的语族

    ......

  (16)ISO 8859-16 字符集(Latin-10) - 东南欧语言

4. GB 2312 字符集

  GB 2312,中华人民共和国国家标准简体中文字符集,又称为 GB 2312-80 或 GB0。
  GB2312 是对 ASCII 的中文扩展。
  GB 2312 标准共收录 6763 个汉字,其中一级汉字 3755 个,二级汉字 3008 个;同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的 682 个字符。
  GB 2312 的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆 99.75% 的使用频率。但对于人名、古汉语等方面出现的罕用字和繁体字,GB 2312 不能处理。

  小于等于 127 的字符的意义与原来 ASCII 编码相同;
  两个大于 127 的字符连在一起时,就表示一个汉字,前面的一个字节(称之为高字节)从 0xA1 用到 0xF7,后面一个字节(低字节)从 0xA1 到 0xFE;
  在 ASCII 里本来就有的数字、标点、字母都重新编了两个字节长的编码,这就是常说的”全角”字符,而原来在 127 号以下的那些就叫”半角”字符了。

5. GBK 字符集

  GBK,汉字内码扩展规范
  GBK 向下完全兼容 GB 2312 编码。支持 GB 2312 编码不支持的部分中文姓,中文繁体,日文假名,还包括希腊字母以及俄语字母等字母。不过这种编码不支持韩国字,也是其在实际使用中与 unicode 编码相比欠缺的部分。

  向下兼容 GB 2312;
    
6. GB 18030 字符集

  GB 18030,国家标准 GB 18030-2005《信息技术 中文编码字符集》。
  增加了几千个新的少数民族的字。

  向下兼容 GBK;

7. BIG5 字符集

  Big5,又称为大五码或五大码,是使用繁体中文(正体中文)社区中最常用的电脑汉字字符集标准,共收录 13,060 个汉字。
  Big5 虽普及于台湾、香港与澳门等繁体中文通行区。

8. Unicode 字符集

  Unicode(中文:万国码、国际码、统一码、单一码)是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字。
  Unicode 伴随着通用字符集的标准而发展,同时也以书本的形式对外发表。Unicode 至今仍在不断增修,每个新版本都加入更多新的字符。目前最新的版本为 2017 年 6 月 20 日公布的 10.0.0。

  (1)Unicode 编码
    
    用两个字节,也就是 16 位来统一表示所有的字符,对于 ASCII 里的那些“半角”字符,Unicode 保持其原编码不变,只是将其长度由原来的 8 位扩展为 16 位,而其他文化和语言的字符则全部重新统一编码。由于"半角"英文符号只需要用到低 8 位,所以其高 8 位永远是 0。

    问题:
    保存英文文本时会多浪费一倍的空间;
    16 位远远不够;
    

  (2)UTF-8(8-bit Unicode Transformation Format)编码
    
    编码规则:
    0xxxxxxx
    110xxxxx 10xxxxxx
    1110xxxx 10xxxxxx 10xxxxxx
    11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

  (3)UTF-16 编码
 
    编码规则:
    
    
    
    

  (4)UTF-32 编码
    
    
    
    
    
    
  
  

CodePage

base64

参考:
维基百科
https://stackoverflow.com/questions/2281646/whats-the-difference-between-encoding-and-charset
https://my.oschina.net/goldenshaw/blog/304493
https://www.zhihu.com/question/27562173
https://yq.aliyun.com/articles/63036
https://zhuanlan.zhihu.com/p/19857727
http://blog.csdn.net/softman11/article/details/6124345

  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3206 引用 • 8217 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    76 引用 • 1746 回帖 • 10 关注
  • CloudFoundry

    Cloud Foundry 是 VMware 推出的业界第一个开源 PaaS 云平台,它支持多种框架、语言、运行时环境、云平台及应用服务,使开发人员能够在几秒钟内进行应用程序的部署和扩展,无需担心任何基础架构的问题。

    4 引用 • 16 回帖 • 198 关注
  • HHKB

    HHKB 是富士通的 Happy Hacking 系列电容键盘。电容键盘即无接点静电电容式键盘(Capacitive Keyboard)。

    5 引用 • 74 回帖 • 548 关注
  • Sillot

    Insights(注意当前设置 master 为默认分支)

    汐洛彖夲肜矩阵(Sillot T☳Converbenk Matrix),致力于服务智慧新彖乄,具有彖乄驱动、极致优雅、开发者友好的特点。其中汐洛绞架(Sillot-Gibbet)基于自思源笔记(siyuan-note),前身是思源笔记汐洛版(更早是思源笔记汐洛分支),是智慧新录乄终端(多端融合,移动端优先)。

    主仓库地址:Hi-Windom/Sillot

    文档地址:sillot.db.sc.cn

    注意事项:

    1. ⚠️ 汐洛仍在早期开发阶段,尚不稳定
    2. ⚠️ 汐洛并非面向普通用户设计,使用前请了解风险
    3. ⚠️ 汐洛绞架基于思源笔记,开发者尽最大努力与思源笔记保持兼容,但无法实现 100% 兼容
    29 引用 • 25 回帖 • 152 关注
  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    167 引用 • 408 回帖 • 494 关注
  • FreeMarker

    FreeMarker 是一款好用且功能强大的 Java 模版引擎。

    23 引用 • 20 回帖 • 475 关注
  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 64 关注
  • 倾城之链
    23 引用 • 66 回帖 • 188 关注
  • AWS
    11 引用 • 28 回帖 • 1 关注
  • Bootstrap

    Bootstrap 是 Twitter 推出的一个用于前端开发的开源工具包。它由 Twitter 的设计师 Mark Otto 和 Jacob Thornton 合作开发,是一个 CSS / HTML 框架。

    18 引用 • 33 回帖 • 646 关注
  • LeetCode

    LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!

    209 引用 • 72 回帖
  • Latke

    Latke 是一款以 JSON 为主的 Java Web 框架。

    71 引用 • 535 回帖 • 847 关注
  • Facebook

    Facebook 是一个联系朋友的社交工具。大家可以通过它和朋友、同事、同学以及周围的人保持互动交流,分享无限上传的图片,发布链接和视频,更可以增进对朋友的了解。

    4 引用 • 15 回帖 • 443 关注
  • JVM

    JVM(Java Virtual Machine)Java 虚拟机是一个微型操作系统,有自己的硬件构架体系,还有相应的指令系统。能够识别 Java 独特的 .class 文件(字节码),能够将这些文件中的信息读取出来,使得 Java 程序只需要生成 Java 虚拟机上的字节码后就能在不同操作系统平台上进行运行。

    180 引用 • 120 回帖
  • Word
    13 引用 • 41 回帖 • 1 关注
  • 书籍

    宋真宗赵恒曾经说过:“书中自有黄金屋,书中自有颜如玉。”

    85 引用 • 414 回帖
  • Rust

    Rust 是一门赋予每个人构建可靠且高效软件能力的语言。Rust 由 Mozilla 开发,最早发布于 2014 年 9 月。

    60 引用 • 22 回帖
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 412 关注
  • wolai

    我来 wolai:不仅仅是未来的云端笔记!

    2 引用 • 14 回帖 • 7 关注
  • Love2D

    Love2D 是一个开源的, 跨平台的 2D 游戏引擎。使用纯 Lua 脚本来进行游戏开发。目前支持的平台有 Windows, Mac OS X, Linux, Android 和 iOS。

    14 引用 • 53 回帖 • 572 关注
  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    78 引用 • 37 回帖
  • API

    应用程序编程接口(Application Programming Interface)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

    79 引用 • 431 回帖 • 1 关注
  • FlowUs

    FlowUs.息流 个人及团队的新一代生产力工具。

    让复杂的信息管理更轻松、自由、充满创意。

    1 引用 • 1 关注
  • Quicker

    Quicker 您的指尖工具箱!操作更少,收获更多!

    39 引用 • 170 回帖
  • 房星科技

    房星网,我们不和没有钱的程序员谈理想,我们要让程序员又有理想又有钱。我们有雄厚的房地产行业线下资源,遍布昆明全城的 100 家门店、四千地产经纪人是我们坚实的后盾。

    6 引用 • 141 回帖 • 623 关注
  • MongoDB

    MongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是一个基于分布式文件存储的数据库,由 C++ 语言编写。旨在为应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似 JSON 的 BSON 格式,因此可以存储比较复杂的数据类型。

    91 引用 • 59 回帖 • 1 关注