字符集与编码

本贴最后更新于 2837 天前,其中的信息可能已经东海扬尘

一、基本概念

1. charset(character set)字符集

2. encoding(character encoding):字符编码,简称编码

3. MBCS。。。
双字节字符集(DBCS,Double Byte Charecter Set)
,指一系列汉字字符集,包括 GB 2312,GBK,GB 18030,BIG5 等;

4. ANSI(American National Standard Institite),美国国家标准协会。各个国家(非拉丁语系国家)自己制定自己的字符集,符合 ANSI 的标准(即兼容 ASCII 字符集,在此基础上扩展),得到 ANSI 的认可,全世界在表示对应国家文字的时候都通用这种编码就叫 ANSI 编码。
  ANSI 问题:编码重叠问题--要同时显示多种语言,可能会出现一个编码两个字符集里面都有对应,计算机无法判断该显示哪一个。

代码页

5. 简单编码模型

  按照惯例,人们认为字符集和字符编码是同义词,因为使用同样的标准来定义提供什么字符并且这些字符如何编码到一系列的代码单元(通常一个字符一个单元)。由于历史的原因,MIME 和使用这种编码的系统使用术语字符集来表示用于将一组字符编码成一系列八位字节数据的整个系统。

  在简单编码模型里,一个字符集定义了这个字符集里包含什么字符,同时把每个字符在计算机中的比特表示也进行了定义。例如 ASCII,在 ASCII 里直接定义了 A -> 0100 0001。

6. 现代编码模型

  现代编码模型由统一码(Unicode)和通用字符集(UCS,Universal Character Set)构成。
  现代编码模型自底向上分为五个层次:

(1)抽象字符表 ACR (Abstract Character Repertoire)

  抽象字符表是一个系统支持的所有抽象字符的集合。

(2)编码字符集 CCS (Coded Character Set)

  将抽象字符表中的每一个字符用一个非负整数表示。抽象字符表及映射的码位值称为编码字符集。
  编码空间(encoding space):包含所有字符的表的维度,例如 ASCII 的编码空间为 128。
  码位(code point):编码空间的一个位置。
  码位值(code point value):一个字符映射到编码空间的码位。

  Unicode 属于这一层。

(3)字符编码表 CEF (Character Encoding Form)

  将编码字符集的非负整数值(即码位)转换成有限比特长度的整型值(称为码元 code units)的序列。

  UTF-8、UTF-16、UTF-32 等属于这一层。

(4)字符编码方案 CES (Character Encoding Schema)

(5)传输编码语法 TES (Transfer Encoding Syntax)

二、 各种字符集及其编码

1. ASCII 字符集

  美国信息交换标准代码(ASCII,American Standard Code for Information Interchange),128 个字符(26 个拉丁字符,10 个阿拉伯数字,59 个英式标点符号,33 个无法显示的控制字符)用于显示现代美国英语。
  0 - 127 表示 128 个 ASCII 字符,每个编码占 7 位。

2. EASCII 字符集

  延伸美国标准信息交换码(EASCII,Extended ASCII),256 个字符支持现代美国英语和部分西欧语言。
  0 - 255 表示 256 个 EASCII 字符,每个编码占 8 位。

3. ISO 8859 系列字符集

  ISO 8859,全称 ISO/IEC 8859。
  ISO 8859 字符集是一组字符集的总称,其下共包含了 15 个字符集,即 ISO 8859-n,其中 n=1,...,11,13,...,16。

  (1)ISO 8859-1 字符集(Latin-1) - 西欧语言

  (2)ISO 8859-2 字符集(Latin-2) - 中欧语言

    ......

  (11)ISO 8859-11 字符集(Thai) - 泰语,从泰国的 TIS620 标准字集演化而来

  (13)ISO 8859-13 字符集(Latin-7 或 Baltic Rim)- 波罗的语族

    ......

  (16)ISO 8859-16 字符集(Latin-10) - 东南欧语言

4. GB 2312 字符集

  GB 2312,中华人民共和国国家标准简体中文字符集,又称为 GB 2312-80 或 GB0。
  GB2312 是对 ASCII 的中文扩展。
  GB 2312 标准共收录 6763 个汉字,其中一级汉字 3755 个,二级汉字 3008 个;同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的 682 个字符。
  GB 2312 的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆 99.75% 的使用频率。但对于人名、古汉语等方面出现的罕用字和繁体字,GB 2312 不能处理。

  小于等于 127 的字符的意义与原来 ASCII 编码相同;
  两个大于 127 的字符连在一起时,就表示一个汉字,前面的一个字节(称之为高字节)从 0xA1 用到 0xF7,后面一个字节(低字节)从 0xA1 到 0xFE;
  在 ASCII 里本来就有的数字、标点、字母都重新编了两个字节长的编码,这就是常说的”全角”字符,而原来在 127 号以下的那些就叫”半角”字符了。

5. GBK 字符集

  GBK,汉字内码扩展规范
  GBK 向下完全兼容 GB 2312 编码。支持 GB 2312 编码不支持的部分中文姓,中文繁体,日文假名,还包括希腊字母以及俄语字母等字母。不过这种编码不支持韩国字,也是其在实际使用中与 unicode 编码相比欠缺的部分。

  向下兼容 GB 2312;
    
6. GB 18030 字符集

  GB 18030,国家标准 GB 18030-2005《信息技术 中文编码字符集》。
  增加了几千个新的少数民族的字。

  向下兼容 GBK;

7. BIG5 字符集

  Big5,又称为大五码或五大码,是使用繁体中文(正体中文)社区中最常用的电脑汉字字符集标准,共收录 13,060 个汉字。
  Big5 虽普及于台湾、香港与澳门等繁体中文通行区。

8. Unicode 字符集

  Unicode(中文:万国码、国际码、统一码、单一码)是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字。
  Unicode 伴随着通用字符集的标准而发展,同时也以书本的形式对外发表。Unicode 至今仍在不断增修,每个新版本都加入更多新的字符。目前最新的版本为 2017 年 6 月 20 日公布的 10.0.0。

  (1)Unicode 编码
    
    用两个字节,也就是 16 位来统一表示所有的字符,对于 ASCII 里的那些“半角”字符,Unicode 保持其原编码不变,只是将其长度由原来的 8 位扩展为 16 位,而其他文化和语言的字符则全部重新统一编码。由于"半角"英文符号只需要用到低 8 位,所以其高 8 位永远是 0。

    问题:
    保存英文文本时会多浪费一倍的空间;
    16 位远远不够;
    

  (2)UTF-8(8-bit Unicode Transformation Format)编码
    
    编码规则:
    0xxxxxxx
    110xxxxx 10xxxxxx
    1110xxxx 10xxxxxx 10xxxxxx
    11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

  (3)UTF-16 编码
 
    编码规则:
    
    
    
    

  (4)UTF-32 编码
    
    
    
    
    
    
  
  

CodePage

base64

参考:
维基百科
https://stackoverflow.com/questions/2281646/whats-the-difference-between-encoding-and-charset
https://my.oschina.net/goldenshaw/blog/304493
https://www.zhihu.com/question/27562173
https://yq.aliyun.com/articles/63036
https://zhuanlan.zhihu.com/p/19857727
http://blog.csdn.net/softman11/article/details/6124345

  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3200 引用 • 8216 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • CentOS

    CentOS(Community Enterprise Operating System)是 Linux 发行版之一,它是来自于 Red Hat Enterprise Linux 依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定的服务器以 CentOS 替代商业版的 Red Hat Enterprise Linux 使用。两者的不同在于 CentOS 并不包含封闭源代码软件。

    239 引用 • 224 回帖
  • iOS

    iOS 是由苹果公司开发的移动操作系统,最早于 2007 年 1 月 9 日的 Macworld 大会上公布这个系统,最初是设计给 iPhone 使用的,后来陆续套用到 iPod touch、iPad 以及 Apple TV 等产品上。iOS 与苹果的 Mac OS X 操作系统一样,属于类 Unix 的商业操作系统。

    89 引用 • 150 回帖 • 1 关注
  • Elasticsearch

    Elasticsearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful 接口。Elasticsearch 是用 Java 开发的,并作为 Apache 许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

    117 引用 • 99 回帖 • 203 关注
  • PWL

    组织简介

    用爱发电 (Programming With Love) 是一个以开源精神为核心的民间开源爱好者技术组织,“用爱发电”象征开源与贡献精神,加入组织,代表你将遵守组织的“个人开源爱好者”的各项条款。申请加入:用爱发电组织邀请帖
    用爱发电组织官网:https://programmingwithlove.stackoverflow.wiki/

    用爱发电组织的核心驱动力:

    • 遵守开源守则,体现开源&贡献精神:以分享为目的,拒绝非法牟利。
    • 自我保护:使用适当的 License 保护自己的原创作品。
    • 尊重他人:不以各种理由、各种漏洞进行未经允许的抄袭、散播、洩露;以礼相待,尊重所有对社区做出贡献的开发者;通过他人的分享习得知识,要留下足迹,表示感谢。
    • 热爱编程、热爱学习:加入组织,热爱编程是首当其要的。我们欢迎热爱讨论、分享、提问的朋友,也同样欢迎默默成就的朋友。
    • 倾听:正确并恳切对待、处理问题与建议,及时修复开源项目的 Bug ,及时与反馈者沟通。不抬杠、不无视、不辱骂。
    • 平视:不诋毁、轻视、嘲讽其他开发者,主动提出建议、施以帮助,以和谐为本。只要他人肯努力,你也可能会被昔日小看的人所超越,所以请保持谦虚。
    • 乐观且活跃:你的努力决定了你的高度。不要放弃,多年后回头俯瞰,才会发现自己已经成就往日所仰望的水平。积极地将项目开源,帮助他人学习、改进,自己也会获得相应的提升、成就与成就感。
    1 引用 • 487 回帖 • 3 关注
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 615 关注
  • 自由行
  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖 • 1 关注
  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖
  • Eclipse

    Eclipse 是一个开放源代码的、基于 Java 的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。

    76 引用 • 258 回帖 • 628 关注
  • 前端

    前端技术一般分为前端设计和前端开发,前端设计可以理解为网站的视觉设计,前端开发则是网站的前台代码实现,包括 HTML、CSS 以及 JavaScript 等。

    245 引用 • 1338 回帖 • 1 关注
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 657 关注
  • Office

    Office 现已更名为 Microsoft 365. Microsoft 365 将高级 Office 应用(如 Word、Excel 和 PowerPoint)与 1 TB 的 OneDrive 云存储空间、高级安全性等结合在一起,可帮助你在任何设备上完成操作。

    5 引用 • 34 回帖
  • 钉钉

    钉钉,专为中国企业打造的免费沟通协同多端平台, 阿里巴巴出品。

    15 引用 • 67 回帖 • 280 关注
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖
  • ReactiveX

    ReactiveX 是一个专注于异步编程与控制可观察数据(或者事件)流的 API。它组合了观察者模式,迭代器模式和函数式编程的优秀思想。

    1 引用 • 2 回帖 • 180 关注
  • 友情链接

    确认过眼神后的灵魂连接,站在链在!

    24 引用 • 373 回帖
  • Wide

    Wide 是一款基于 Web 的 Go 语言 IDE。通过浏览器就可以进行 Go 开发,并有代码自动完成、查看表达式、编译反馈、Lint、实时结果输出等功能。

    欢迎访问我们运维的实例: https://wide.b3log.org

    30 引用 • 218 回帖 • 638 关注
  • 微服务

    微服务架构是一种架构模式,它提倡将单一应用划分成一组小的服务。服务之间互相协调,互相配合,为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建,能够被独立的部署。

    96 引用 • 155 回帖 • 3 关注
  • GitHub

    GitHub 于 2008 年上线,目前,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。正因为这些功能所提供的便利,又经过长期的积累,GitHub 的用户活跃度很高,在开源世界里享有深远的声望,并形成了社交化编程文化(Social Coding)。

    210 引用 • 2040 回帖
  • WebSocket

    WebSocket 是 HTML5 中定义的一种新协议,它实现了浏览器与服务器之间的全双工通信(full-duplex)。

    48 引用 • 206 回帖 • 291 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    181 引用 • 821 回帖
  • Google

    Google(Google Inc.,NASDAQ:GOOG)是一家美国上市公司(公有股份公司),于 1998 年 9 月 7 日以私有股份公司的形式创立,设计并管理一个互联网搜索引擎。Google 公司的总部称作“Googleplex”,它位于加利福尼亚山景城。Google 目前被公认为是全球规模最大的搜索引擎,它提供了简单易用的免费服务。不作恶(Don't be evil)是谷歌公司的一项非正式的公司口号。

    49 引用 • 192 回帖
  • Linux

    Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 Unix 的多用户、多任务、支持多线程和多 CPU 的操作系统。它能运行主要的 Unix 工具软件、应用程序和网络协议,并支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

    952 引用 • 944 回帖
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 77 关注
  • 倾城之链
    23 引用 • 66 回帖 • 166 关注
  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    25389 引用 • 104912 回帖
  • AngularJS

    AngularJS 诞生于 2009 年,由 Misko Hevery 等人创建,后为 Google 所收购。是一款优秀的前端 JS 框架,已经被用于 Google 的多款产品当中。AngularJS 有着诸多特性,最为核心的是:MVC、模块化、自动化双向数据绑定、语义化标签、依赖注入等。2.0 版本后已经改名为 Angular。

    12 引用 • 50 回帖 • 506 关注