基本概念
汉字字符编码有输入码、机内码、国标码(交换码)和字形码。
- 输入码:通过键盘输入汉字时,实际上输入的是汉字的编码信息。
- 机内码:计算机为了存储、处理汉字,必须将汉字的输入码转换为汉字的机内码。
- 国标码:与其他系统或设备进行信息、数据交流时要用到国标码(交换码)。
- 字形码:将汉字以点阵的形式输出,要将汉字的内部码转换为汉字的字形码。
汉字信息处理流程
下图是汉字编码的转换过程:
汉字输入到计算机内部之后,通过国标码将对应汉字的编码找出来;然后,对应的汉字国标码转换为机内码进行存储;最后,以字形码的标准正确显示每一个汉字的点阵图。
输入码
输入码是一种用计算机标准键盘上按键的不同排列组合来对汉字的输入进行的编码,也称外部码(外码)。
目前常用的汉字编码主要有三类:
- 音码:主要是以汉语拼音为基础的编码方案,如全拼、双拼等。目前比较流行的拼音输入法有搜狗拼音输入法。
- 形码:形码主要是根据汉字的特点,按汉字固有的形状,把汉字拆分成部首,然后进行组合,代表有五笔输入法。
- 数字编码
国标码
国标码是我国 1980 年发布的字符编码,代号为 GB2312-80,作用等同于英文字符编码 ASCII 字符编码。
国标码可以处理不同计算机设备之间进行信息、数据交流时的交换码。只要有了国标码就可以将汉字存储到计算机内部中,通过一定的算法和手段能够将计算机内部中的二进制转换为国标码,然后再把汉字显示出来。
机内码
汉字在计算机内部使用的编码就是机内码(内码)。每个汉字的机内码占用两个字节。
字形码
汉字字形码也叫作汉字字模或汉字输出码,用于汉字在显示屏或打印机输出。汉字字形码有两种表示方式:点阵式和矢量式。
一般汉字的点阵式 16×16,点阵越大,描述的字形越细致没关,质量越高,所占存储空间也越大。在计算机中,8 个二进制位组成一个字节,因此,一个 16×16 点阵的字形码需要:
\[\frac{16×16}{8}=32 \]最后计算的要求是字节单位,因此计算结果需要除以 8。
1 bit = 8 byte;1024 byte = 1 kbyte(kb)。
标签:编码,机内码,字符,16,汉字,国标码,概述,字形码 来源: https://www.cnblogs.com/shiramashiro/p/16069867.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。