show	version	enable_checker
step	1.0	true

各语言字符编码

回忆上次内容

罗马帝国分成了东西罗马
- 核心的位置是 Christ 标志
  - xp
  - 后来发展成为了十字架

这个西里尔字符
- 应该如何编码呢？🤔

俄语字符

俄语有自己的字母表顺序

和英文有些字符重复

三种字符比较

回忆古希腊字符
- 古希腊的雕塑、哲学、医学等文化
- 进入了罗马文明
马其顿王国被罗马帝国征服后
- 希腊半岛的军事力量
- 臣服于意大利半岛
- 拉丁字符成为新的替代
向西边
- 凯撒发现了高卢旁边的岛屿
  - 并且后续罗马执政官征服了这个岛
  - 占据了温泉
- 又在坎特伯雷大教堂
  - 传播拉丁文的圣经
- 使得拉丁字符进入英文

向东边
- 西里尔文字收到希腊文字影响
- 文化也受到罗马、希腊文化影响
他们之间的字符可以通用吗？

编程

greek = set("ΑαΒβΓγΔδΕεΖζΗηΘθΙιΚκ∧λΜμΝνΞξΟο∏πΡρ∑σΤτΥυΦφΧχΨψΩω")
english = set("AaBbCcDdEeFfGgHhIiJjKkLlMmNnOoPpQqRrSsTtUuVvWwXxYyZz")
cyrillic = set("АаВбВвГгДдЕеЖжЅѕЗзИиЙйІіКкЛлМмНнОоПпРрСсТтУуЎўОУоуФфХхѠѡЦцЧчЩщЏџЪъѢѣЮюѮѯѰѱѲѳѴѵ")
print("greek and english",greek & cyrillic)

结果

希腊字符和英文字符长的类似的也有不同的序号
可以明确这个序号吗？

明确序号

print("greek A ord",ord("Α"))
print("english A ord",ord("A"))
print("cyrillic A ord",ord("А"))

结果

如果抛开序号问题
只看字型呢？
他们之间有什么关系呢？

音形义

西方字符也是一个音形义的结合体

后来意义主要由字符组成的单词来表示
字符主要代表音和型
同样类型的写法却被分配到不同的字符集
- 英文、希腊、西里尔
如果分配到同一个字符集会如何呢？

土耳其语

土耳其语字符只有上述字符
- 不在拉丁字符集中

* ğ – \u011f
* Ğ – \u011e
* ı – \u0131
* İ – \u0130
* ö – \u00f6
* Ö – \u00d6
* ü – \u00fc
* Ü – \u00dc
* ş – \u015f
* Ş – \u015e
* ç – \u00e7
* Ç – \u00c7

这样就导致土耳其语
- 没有自己独立的字符集
东罗马帝国当时就是
- 被奥斯曼帝国打趴下的
- 没想到
  - 西里尔文字有自己的一套字符集
  - 但是土耳其语却没有
这西里尔字符
- 后来被俄语所继承
- 甚至还差点成为了我们的汉语拼音字形

汉语拼音

当时前苏联是我国老大哥
- 就连外语学的都是俄语
- 也曾计划用西里尔字母作为汉语拼音字母

后来中苏关系紧张
- 西里尔拼音方案搁浅
- 最后将拉丁字符定为汉语拼音字符
计算机时代
- 西里尔文字应该如何编码呢？

KOI-7

1981年苏联做了个 7-bit 的西里尔字符集
- KOI-7
- 相当于ascii

西里尔字符有8-bit的版本吗？

KOI-8

1987年制作了 8-bit 的西里尔字符集
- KOI-8
- 相当于latin-1

去掉了$(美元符号)
- 但是字节序是按照latin的字母顺序
- 而不是西里尔字符的字母顺序
- 西里尔字符后来如何了呢？

欧洲各地字符集

西里尔字符后来落实在
- iso-8859-5

其他各种书写文字也仿照iso-8859-1方式
- 只都改后一半
8859 就这样分出 16 个部分
- 每种拼音文字 都有自己的字符集

阿拉伯语字符集

这些字符集的大小都是1个字节
- 但是从128到255号字符
- 彼此都不一致

比如阿拉伯语字符集

希腊语字符集

但是不能同时显示
- 阿拉伯语和希腊语

就导致了
- 同一个字节
- 不同编码方式
- 对应不同的字符

不同编码解释

如果同样一个字节 b"\xa1"

在不同编码字符集下
- 对应的字符是不同的

在iso-8859 这套方案中
- 同一个字节通过不同的解码方式
- 可以对应不同的字符
导致面对字节序列的时候
- 不但要知道
  - 字节的状态
- 更要知道
  - 字节所使用的编码方式

编码方式

计算机在显示文字的时候
- 不但要知道具体的字节内容是什么
- 更要明确这些字节使用的编码方式是什么

解铃还需系铃人
- 否则就会出现乱码
扩展区的乱
- 反而稳定了
  - 基础区的ascii字符

26个小写拉丁字母表示
- 稳！

缘起性空

7-bit 没有满
- 所以字节中还能容纳其它的字符
- 这样 ascii 就成为各种编码的基础
- 位置更稳了
英文字符在哪里都能用
- 就更成了世界级字符了

满招损谦受益
- 有之以为利无之以为用
- 性空才能缘起
- 留白才有意境
- 海纳百川
  - 是因为够低

环境

当时的环境是
- 大型机逐渐没落
- 个人电脑兴起
微软成为 ibm兼容机时代最大的获利者
- 从dos到windows
- 几乎一统PC

iso8859系列字符集
- 又是如何被微软落实的呢？

选择

在iso-8859-1的基础上

微软实现并扩展了这个标准
- 把灰色区域填充了一些符号

微软的window-1252编码
- 支持了西欧、北欧拉丁字符
- 以牺牲其他地区字符的方式
- 某种程度终结了拼音字符的编码大战
可是世界上的字符
- 除了拼音字符
- 还有象形文字
  - 而且数量巨大

总结

这次回顾了西里尔字符的编码过程
- KOI-7
- KOI-8
ISO-8859 系列进行总结
- 字符扩展 ascii 共 16 种
- 由iso组织制定
  - 从 iso-8859-1
  - 到 iso-8859-16
- 无法同时显示
  - 俄文和法文
世界上的字符
- 除了拼音文字之外
- 还有象形文字

这个象形文字怎么来的呢？🤔
- 如何编码呢？🤔
我们下次再说！👋

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

390-820483-[趣味拓展]西里尔字符集_Cyrillic_俄文字符编码_KOI_8859系列_1252字符集.sy.md

390-820483-[趣味拓展]西里尔字符集_Cyrillic_俄文字符编码_KOI_8859系列_1252字符集.sy.md

各语言字符编码

回忆上次内容

俄语字符

三种字符比较

编程

明确序号

音形义

土耳其语

汉语拼音

KOI-7

KOI-8

欧洲各地字符集

阿拉伯语字符集

希腊语字符集

不同编码解释

编码方式

缘起性空

环境

选择

总结

Files

390-820483-[趣味拓展]西里尔字符集_Cyrillic_俄文字符编码_KOI_8859系列_1252字符集.sy.md

Latest commit

History

390-820483-[趣味拓展]西里尔字符集_Cyrillic_俄文字符编码_KOI_8859系列_1252字符集.sy.md

File metadata and controls

各语言字符编码

回忆上次内容

俄语字符

三种字符比较

编程

明确序号

音形义

土耳其语

汉语拼音

KOI-7

KOI-8

欧洲各地字符集

阿拉伯语字符集

希腊语 字符集

不同编码解释

编码方式

缘起性空

环境

选择

总结

希腊语字符集