当前位置:首页 » 服务存储 » 计算机内部存储的汉子编码
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

计算机内部存储的汉子编码

发布时间: 2022-09-11 20:25:32

① 在计算机中,汉字采用什么码存放。

机内码。计算机只识别由0、1组成的代码,ASCII码是英文信息处理的标准编码,汉字信息处理也必须有一个统一的标准编码。 汉字交换码(国标码)主要用于汉字信息交换,《信息交换用汉字编码字符集——基本集》,代号为GB2312-80,共对6763个汉字和682个图形字符进行了编码。

国标码是汉字信息交换的标准编码,但因其前后字节的最高位为0,与ASCII码发生冲突,国标码是不可能在计算机内部直接采用的,于是,汉字的机内码采用变形国标码,其变换方法为:将国标码的每个字节都加上128,即将两个字节的最高位由0改1,其余7位不变。

(1)计算机内部存储的汉子编码扩展阅读

汉字用两个字节表示,原则上,两个字节可以表示 256×256=65536 种不同的符号,作为汉字编码表示的基础是可行的。但考虑到汉字编码与其它国际通用编码,如ASCII 西文字符编码的关系,我国国家标准局采用了加以修正的两字节汉字编码方案,只用了两个字节的低7位。

这个方案可以容纳 128×128=16384 种不同的汉字,但为了与标准ASCII码兼容,每个字节中都不能再用32个控制功能码和码值为32的空格以及127的操作码。所以每个字节只能有94个编码。这样,双七位实际能够表示的字数是:94×94=8836个。

② 汉字在计算机内有几种编码试简述每种编码的意义。

汉字在计算机上的编码主要有三种:输入码、机,内码和输出码,1.用于输入的汉字的编码——输入码(外码)
计算机上输入汉字的方法很多,如键盘编码输入、语音输入、手写输入、扫描输入等,其中键盘编码输入是最容易实现和最常用的一种汉字输入方法。英文等可以用键盘上的每个字母键来输入,而输入汉字则不同,不可能用有限的按键来对应每一个汉字,为了让用户能直接使用英文键盘输入汉字,于是就有了输入汉字时使用的汉字输入码,它一般由键盘上的字母或数字组成,代表某个汉字或某些汉字、词组或句子。当前用于汉字输入的编码方案很多,如区位码、拼音码、王码(五笔字型)、自然码等。2.用于储存汉字的编码——机内码(内码)
由于汉字输入码的编码方案多种多样,同一个汉字如果采用的编码方案不一样,其输入码就有可能不一样。如果计算机内部存放的是汉字输入码本身,就会造成相同汉字在机内可以用不同的编码表示,这样显然不合理,也给计算机内部的汉字处理增加了难度。为了将汉字的各种输入码在计算机内部统一起来,就引进了汉字的机内码。3.用于输出汉字的编码——输出码(字型码)
存储在计算机内的汉字在屏幕上显示或在打印机上打印出来时,必须以汉字字形输出,才能被人们所接受和理解。汉字的输出码实际上是汉字的字型码,它是由汉字的字模信息所组成的。汉字是一种象形文字,每个汉字东可以看成一个特定的图形,这种图形可以用点阵、向量等方式表示,而最基本的是用点阵表示。所谓点阵方式,就是将汉字分解成由若干个“点”组成的点阵字型,将此点阵字型至于网状方格上,每个方各试点阵中的一个“点”。

③ 汉子系统中的汉字字库里存放的是汉字的什么码

汉字系统中的汉字字库里存放的汉字的是C字形码。汉字机内码,又称“汉字ASCII码”,简称“内码”,指计算机内部存储,处理加工和传输汉字时所用的由0和1符号组成的代码。

输入码被接受后就由汉字操作系统的“输入码转换模块”转换为机内码,与所采用的键盘输入法无关。机内码是汉字最基本的编码,不管是什么汉字系统和汉字输入方法,输入的汉字外码到机器内部都要转换成机内码,才能被存储和进行各种处理。

具体解释

因为汉字处理系统要保证中西文的兼容,当系统中同时存在ASCII码和汉字国标码时,将会产生二义性。

例如:有两个字节的内容为30H和21H,它既可表示汉字“啊”的国标码,又可表示西文“0”和“!”的ASCII码。为此,汉字机内码应对国标码加以适当处理和变换。

④ 什么编码用于汉字的存取、处理和传输

汉字机内码用于汉字的存取、处理和传输。

汉字机内码,又称“汉字ASCII码”,简称“内码”,指计算机内部存储,处理加工和传输汉字时所用的由0和1符号组成的代码。

机内码是汉字最基本的编码,不管是什么汉字系统和汉字输入方法,输入的汉字外码到机器内部都要转换成机内码,才能被存储和进行各种处理。

(4)计算机内部存储的汉子编码扩展阅读:

内码是指计算机汉字系统中使用的二进制字符编码,是沟通输入、输出与系统平台之间的交换码,通过内码可以达到通用和高效率传输文本的目的。

英文ASCII字符采用一个字节的内码表示,中文字符如国标字符集中,GB2312、GB12345、GB13000皆用双字节内码。

GB18030(27,533汉字)双字节内码汉字为20,902个,其余6,631个汉字用四字节内码。

⑤ 计算机中的汉字编码有哪些

根据应用目的的不同,汉字编码分为外码、交换码、机内码和字形码。

⑥ 计算机内部使用的汉字编码

计算机内部使用的汉字编码称为汉字内码或汉字机内码。汉字机内码由国标码(GB2312-80)演化而来,把表示国际码的两个字节的最高位分别加1,就变成了汉字机内码。
汉字字模信息码即汉字字形码,用点阵方式来构造汉字字型。它们的关系是这样的,汉字输入编码是外部码,同一个汉字可以有不同的输入编码,但它们的汉字机内码是惟一的。汉字的输出则根据点阵方式构成的汉字字模信息码输出。

汉字编码系统

为进行信息交换,各汉字使用地区都制订了一系列汉字字符集标准。

国标码(“国标”是中华人民共和国国家标准的简称)在中国大陆使用。GB2312收录6763个汉字,GBK收录20912个汉字,最新的GB18030收录27533个汉字。

BIG5码。收录13053个汉字。在台湾和香港使用的一字节或两字节编码。

Unicode并不被中国政府很好的接受。中国政府要求在中国大陆出售的软件必须支持GB 18030编码。

在国际通信化和软件设计领域,CJK编码收集了汉语、日语、韩语中的汉字集。

⑦ 什么是汉字编码

每天,我们都窝在格子间里噼里啪啦敲代码敲到脱发,对代码我们是再熟悉不过的老朋友了。


但不知道小伙伴们有没有想过这样一个问题:


那些让我们“英年早秃”的代码,到底是怎么来的呢?


今天,丽斯老师就带大家看看,这个让我们爱恨两难的“老朋友”究竟是何方神圣。


什么是编码?


编码,是信息从一种形式或格式转换为另一种形式的过程,简单来讲就是语言的翻译过程。


我们都知道计算机使用的是机器语言即二进制码,相信大部分人都无法流畅的阅读二进制码。


于是为了能够让人类更好的理解计算机输出的结果就需要将机器语言转换为自然语言。


比如英语、俄语和中文等。


这看似简单的语言转换过程,随着计算机的普及,与互联网化对语言字符的编码冲击也越来越大。


编码规范的调整也伴随着整个计算机发展历史在逐步完善,甚至“愈演愈烈”。


UTF-8又是什么


Unicode确实是一套能够满足全球使用的字符集,但是难道真的需要每一个字符都占用4个字节吗?


虽然现在的存储空间已经足够大了,但是4个字节一个字符的方式还是很不明智的。


比如字符“A”二进制码01000001却需要以的方式存储。


这一定不是我们想要的。


于是UTF(Unicode/UCS Transformation Format)应运而生。


UTF是字符编码五层次模型的第三层,通过特定的规则对Unicode字符编码进行一定的压缩和转换以便快捷传输。



UTF的代表就是UTF-16和UTF-8。


千万不要以为UTF-16比UTF-8更厉害能够容纳更多字符。


字符容纳数量都是是Unicode编码集所确定的范围,UTF只是通过不同的转换形式更快更高效的找到特定字符。


而UFT-16 比较奇葩,它使用 2 个或者 4 个字节来存储。


对于 Unicode 编号范围在 0 ~ FFFF 之间的字符,UTF-16 使用两个字节存储,并且直接存储 Unicode 编号,不用进行编码转换,这跟 UTF-32 非常类似。


对于 Unicode 编号范围在 10000~10FFFF 之间的字符。


UTF-16 使用四个字节存储,具体来说就是:


将字符编号的所有比特位分成两部分。


较高的一些比特位用一个值介于 D800~DBFF 之间的双字节存储。


较低的一些比特位(剩下的比特位)用一个值介于 DC00~DFFF 之间的双字节存储。


设计UTF-8编码表达方式的理由:

1、单字节字符的最高有效比特永远是0(大家可以看看其他编码方式如何别扭的兼容ASCII码的);


2、多字节序列中的首个字符组的几个最高有效比特决定了序列的长度。最高有效位为110的是2字节序列,而1110的是三字节序列,如此类推;


3、多字节序列中其余的字节中的首两个最高有效比特为10。


转换关系如下图:



这样我们根据所要兼容的语言不同根据UTF-8多字节最高有效比特,去判断编码最终使用了多少个字节来存储。


其余的字节也都满足最高有效比特为10的特点有了一定的纠错功能。


简单一些理解就是UTF-16就是通过2个字节16位来控制压缩比例。


而UTF-8已经以高精度的1个字节8位来控制压缩比例了。


当然还有中UTF-32就可想而知,基本跟Unicode如出一辙。

⑧ 在计算机内部,对汉字进行传输、处理和存储时使用的是汉字的()

在电脑内部对汉字进行传输处理和存储时使用汉字的机内码。
电脑内部汉字信息的存储运算的代码有四种:输入码、国标码、内码和字型码。
输入码:包括拼音编码和字型编码。微软拼音ABC就是拼音编码,五笔字型输入法就是字型编码。
国标码:又称为汉字交换码,在计算机之间交换信息用。用两个字节来表示,每个字节的最高位均为0,因此可以表示的汉字数为2的14次幂,就是16384个。将汉字区位码的高位字节、低位字节各加十进制数32(即十六进制数的20),便得到国标码。例如“中”字的国标码为8680(十进制)或7468(十六进制)。
内码:汉字内码是在设备和信息处理系统内部存储、处理、传输汉字用的代码。无论使用何种输入码,进入计算机后就立即被转换为机内码。规则是将国标码的高位字节、低位字节各自加上128(十进制)或80(十六进制)。例如,“中”字的内码以十六进制表示时应为F4E8。这样做的目的是使汉字内码区别于西文的ASCII,因为每个西文字母的ASCII的高位均为0,而汉字内码的每个字节的高位均为1。
字型码:表示汉字字形的字模数据,因此也称为字模码,是汉字的输出形式。通常用点阵、矢量函数等表示。用点阵表示时,字形码指的就是这个汉字字形点阵的代码。根据输出汉字的要求不同,点阵的多少也不同。简易型汉字为16′16点阵、提高型汉字为24′24点阵、48′48点阵等。如果是24′24点阵,每行24个点就是24个二进制位,存储一行代码需要3个字节。那么,24行共占用3′24=72个字节。计算公式:每行点数/8′行数。依此,对于48′48的点阵,一个汉字字形需要占用的存储空间为48/8′48=6′48=288个字节。

⑨ 在计算机中对汉字进行存储、处理和传输的汉字码是什么码

在计算机中对汉字进行存储、处理和传输的汉字码是机内码。

机内码是在计算机内部存储,处理加工和传输汉字时所用的由0和1符号组成的代码。

输入码被接受后就由汉字操作系统的“输入码转换模块”转换为机内码,与所采用的键盘输入法无关。机内码是汉字最基本的编码,不管是什么汉字系统和汉字输入方法,输入的汉字外码到机器内部都要转换成机内码,才能被存储和进行各种处理。

汉字的机内码采用十六进制进行表示,且第1位和第三位必定大于8。因为汉字机内码的基础是汉字国际码,转换方式是:汉字机内码=汉字国际码+8080H。

(9)计算机内部存储的汉子编码扩展阅读

汉字机内码、国标码和区位码三者之间的关系为:

区位码(十进制)的两个字节分别转换为十六进制后加2020H得到对应的国标码;机内码是汉字交换码(国标码)两个字节的最高位分别加1,即汉字交换码(国标码)的两个字节分别加80H得到对应的机内码;区位码(十进制)的两个字节分别转换为十六进制后加A0H得到对应的机内码。

⑩ 汉字在计算机系统中存储所用的编码是什么

GB国标码:中文内码之一,代表中文简化字,在中国大陆广泛使用,影响所及,使用量渐见普及。
“国家标准信息交换用汉字编码”(GB2312-80标准),简称国标码。国标码是指1980年中国制定的用于不同的具有汉字处理功能的计算机系统间交换汉字信息时使用的编码。国际码是二字节码,
用两个七位二进制数编码表示一个汉字。目前国标码收入6763个汉字,
其中一级汉字(最常用)3755个,
二级汉字3008个,
另外还包括682个西文字符、图符。