show	version	enable_checker
step	1.0	true

各语言字符编码

回忆上次内容

罗马帝国分成了东西罗马
- 核心的位置是 Christ 标志
  - xp
  - 后来发展成为了十字架

这个西里尔字符
- 应该如何编码呢？🤔

KOI-7

1981年苏联做了个 7-bit 的西里尔字符集
- KOI-7
- 相当于ascii

西里尔字符有8-bit的版本吗？

KOI-8

1987年制作了 8-bit 的西里尔字符集
- KOI-8
- 相当于latin-1

去掉了$(美元符号)
- 但是字节序是按照latin的字母顺序
- 而不是西里尔字符的字母顺序
- 西里尔字符后来如何了呢？

欧洲各地字符集

西里尔字符后来落实在
- iso-8859-5

其他各种书写文字也仿照iso-8859-1方式
- 只都改后一半
8859 就这样分出 16 个部分
- 每种拼音文字 都有自己的字符集

阿拉伯语字符集

这些字符集的大小都是1个字节
- 但是从128到255号字符
- 彼此都不一致

比如阿拉伯语字符集

希腊语字符集

但是不能同时显示
- 阿拉伯语和希腊语

就导致了
- 同一个字节
- 不同编码方式
- 对应不同的字符

不同编码解释

如果同样一个字节 b"\xa1"

在不同编码字符集下
- 对应的字符是不同的

在iso-8859 这套方案中
- 同一个字节通过不同的解码方式
- 可以对应不同的字符
导致面对字节序列的时候
- 不但要知道
  - 字节的状态
- 更要知道
  - 字节所使用的编码方式

编码方式

计算机在显示文字的时候
- 不但要知道具体的字节内容是什么
- 更要明确这些字节使用的编码方式是什么

解铃还需系铃人
- 否则就会出现乱码
扩展区的乱
- 反而稳定了
  - 基础区的ascii字符

26个小写拉丁字母表示
- 稳！

缘起性空

7-bit 没有满
- 所以字节中还能容纳其它的字符
- 这样 ascii 就成为各种编码的基础
- 位置更稳了
英文字符在哪里都能用
- 就更成了世界级字符了

满招损谦受益
- 有之以为利无之以为用
- 性空才能缘起
- 留白才有意境
- 海纳百川
  - 是因为够低

环境

当时的环境是
- 大型机逐渐没落
- 个人电脑兴起
微软成为 ibm兼容机时代最大的获利者
- 从dos到windows
- 几乎一统PC

iso8859系列字符集
- 又是如何被微软落实的呢？

选择

在iso-8859-1的基础上

微软实现并扩展了这个标准
- 把灰色区域填充了一些符号

微软的window-1252编码
- 支持了西欧、北欧拉丁字符
- 以牺牲其他地区字符的方式
- 某种程度终结了拼音字符的编码大战
可是世界上的字符
- 除了拼音字符
- 还有象形文字
  - 而且数量巨大

总结

这次回顾了西里尔字符的编码过程
- KOI-7
- KOI-8
ISO-8859 系列进行总结
- 字符扩展 ascii 共 16 种
- 由iso组织制定
  - 从 iso-8859-1
  - 到 iso-8859-16
- 无法同时显示
  - 俄文和法文
世界上的字符
- 除了拼音文字之外
- 还有象形文字

这个象形文字怎么来的呢？🤔
- 如何编码呢？🤔
我们下次再说！👋

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

117-820483-西里尔字符集_Cyrillic_俄文字符编码_KOI_8859系列_1252字符集.sy.md

117-820483-西里尔字符集_Cyrillic_俄文字符编码_KOI_8859系列_1252字符集.sy.md

各语言字符编码

回忆上次内容

KOI-7

KOI-8

欧洲各地字符集

阿拉伯语字符集

希腊语字符集

不同编码解释

编码方式

缘起性空

环境

选择

总结

Files

117-820483-西里尔字符集_Cyrillic_俄文字符编码_KOI_8859系列_1252字符集.sy.md

Latest commit

History

117-820483-西里尔字符集_Cyrillic_俄文字符编码_KOI_8859系列_1252字符集.sy.md

File metadata and controls

各语言字符编码

回忆上次内容

KOI-7

KOI-8

欧洲各地字符集

阿拉伯语字符集

希腊语 字符集

不同编码解释

编码方式

缘起性空

环境

选择

总结

希腊语字符集