您的位置: 花都信息网 > 游戏

站长帮手Unicode字符编码

发布时间:2019-11-30 11:21:49

  Unicode字符编码

  由于每种语言都制定了自己的字符集,导致最后存在的各种字符集实在太多,在国际交流中要经常转换字符集非常不便。因此,产生了Unicode字符编码(它是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案,Unicode是一个很大的集合,现在的规模可以容纳100多万个符号)。

  Unicode是编码标准,并没有规定字符的存储方式。UTF-8、UTF-16、UTF-32都是将Unicode标准中的码位转换到具体存储数据的方案。

  Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。

  比如,汉字严的unicode是十六进制数4E25,转换成二进制数足足有15位(),也就是说这个符号的表示至少需要2个字节。表示其他更大的符号,可能需要3个字节或者4个字节,甚至更多。

  这里就有两个严重的问题,第一个问题是,如何才能区别unicode和ascii?计算机怎么知道三个字节表示一个符号,而不是分别表示三个符号呢?第二个问题是,我们已经知道,英文字母只用一个字节表示就够了,如果unicode统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个字节是0,这对于存储来说是极大的浪费,文本文件的大小会因此大出二三倍,这是无法接受的。

南宁中医网
家居优品
伤感文章
猜你会喜欢的
猜你会喜欢的