当前位置:首页 » 服务存储 » 用于汉字存储和处理的是汉字外码
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

用于汉字存储和处理的是汉字外码

发布时间: 2023-02-09 16:01:04

㈠ 为了将汉字输入计算机而编制的代码,称为汉字码

也可以这么说
汉字系统对每个汉字规定了输入计算机的代码,即汉字的外部码,键盘输入汉字是输入汉字的外部码。计算机为了识别汉字,要把汉字的外部码转换成汉字的内部码,以便进行处理和存储。为了将汉字以点阵的形式输出,还要将汉字的内部码转换为汉字的字形码,确定一个汉字的点阵。并且,在计算机和其它系统或设备需要信息、数据交流时还必须采用交换码。 (1) 外部码 外部码是计算机输入汉字的代码,代表某一个汉字的一组键盘符号。外部码也叫汉字输入码。为了建立友好的用户界面,输入码的规则必须简单清晰、直观易学、容易记亿、操作方便、码位短、输入速度快、重码少,既符合初学者的学习,又能满足专业输入者的要求,便于盲打。汉字的输入方法不同,同一个汉字的外码可能不一样。人们根据汉字的属性(汉字字量、字形、字音、使用频度)提出了数百种汉字外码的编码方案。由于用户不同,用途不同,各自喜爱的编码方式也不尽相同,故对用什么编码方案不能强求统一。例如拼音码和五笔字型比较受一般用户的欢迎。 (2) 内部码 汉字内部码亦称为汉字内码或汉字机内码。计算机处理汉字,实际上是处理汉字的代码。当计算机输入外部码时,通常要转成内部码,才能进行存储、运算、传送。一般用二个字节表示一个汉字的内码。内部码经常是用汉字在字库中的物理位置表示,如汉字在字库中的序号或汉字在字库中的存储位置表示。注意一般情况下,汉字的内部码不能与西文字符编码(ACSII码、EBCDIC码等)发生冲突,并容易区分汉字与西文字符;尽可能占用少的字节表示尽可能多的汉字;与标准交换码兼容(与交换码有尽可能简单明确的对应关系;运算时不产生二义性和不确定性)。 除了二字节汉字内部码外,还有三字节内部码、四字节内部码、带引导码的汉字内部码、带符号的汉字内部码、带括号的汉字内部码等。 (3) 交换码 当计算机之间或与终端之间进行信息交换时,要求它们之间传送的汉字代码信息完全一致,国家规定了信息交换用的标准汉字交换码"GB312-80信息交换用汉字编码字符集(基本集)",即国标码。国标码共收集了7445个图形字符,其中汉字6763个,一般符号、数字、拉丁字母、希腊字母、汉语拼音等709个。 (4) 汉字输出码 又称汉字字形码或汉字发生器的编码。为输出汉字,对汉字字形经过点阵的数字化后的一串二进制数称为汉字输出码。

㈡ 什么是内码什么是外码

我们常说汉字的"内码"与"外码"。

内码是汉字在计算机内部存储,处理和传输用的信息编码。它必须与ASCII码兼容但又不能冲突。

所以把国标码两个字节的最高位置'1',以区别于西文,这就是内码。汉字的输入码称为"外码"。输入码即指我们输入汉字时使用的编码。常见的外码分为数字编码(如区位码),拼音编码和字形编码(如五笔)。

再说区位码,"啊"的区位码是1601,写成16进制是0x10,0x01。这和计算机广泛使用的ASCII编码冲突。为了兼容00-7f的 ASCII编码,我们在区位码的高、低字节上分别加上A0。这样"啊"的编码就成为B0A1。我们将加过两个A0的编码也称为GB2312编码,虽然 GB2312的原文根本没提到这一点。
内码是指操作系统内部的字符编码。早期操作系统的内码是与语言相关的.现在的Windows在内部统一使用Unicode,然后用代码页适应各种语言,"内码"的概念就比较模糊了。我们一般将缺省代码页指定的编码说成是内码。内码这个词汇,并没有什么官方的定义。代码页也只是微软的一种习惯叫法。作为程序员,我们只要知道它们是什么东西,没有必要过多地考证这些名词。
所谓代码页(code page)就是针对一种语言文字的字符编码。例如GBK的code page是CP936,BIG5的code page是CP950,GB2312的code page是CP20936。
Windows中有缺省代码页的概念,即缺省用什么编码来解释字符。例如Windows的记事本打开了一个文本文件,里面的内容是字节流:BA、BA、 D7、D6。Windows应该去怎么解释它呢?是按照Unicode编码解释、还是按照GBK解释、还是按照BIG5解释,还是按照ISO8859-1 去解释?如果按GBK去解释,就会得到"汉字"两个字。按照其它编码解释,可能找不到对应的字符,也可能找到错误的字符。所谓"错误"是指与文本作者的本意不符,这时就产生了乱码。
答案是Windows按照当前的缺省代码页去解释文本文件里的字节流。缺省代码页可以通过控制面板的区域选项设置。记事本的另存为中有一项ANSI,其实就是按照缺省代码页的编码方法保存。
Windows的内码是Unicode,它在技术上可以同时支持多个代码页。只要文件能说明自己使用什么编码,用户又安装了对应的代码页,Windows就能正确显示,例如在HTML文件中就可以指定charset。
有的HTML文件作者,特别是英文作者,认为世界上所有人都使用英文,在文件中不指定charset。如果他使用了0x80-0xff之间的字符,中文Windows又按照缺省的GBK去解释,就会出现乱码。这时只要在这个html文件中加上指定charset的语句,例如:
<meta http-equiv="Content-Type" content="text/html; charset=ISO8859-1">
如果原作者使用的代码页和ISO8859-1兼容,就不会出现乱码了

㈢ 在计算机内部,对汉字进行传输、处理和存储时使用的是汉字的()

在电脑内部对汉字进行传输处理和存储时使用汉字的机内码。
电脑内部汉字信息的存储运算的代码有四种:输入码、国标码、内码和字型码。
输入码:包括拼音编码和字型编码。微软拼音ABC就是拼音编码,五笔字型输入法就是字型编码。
国标码:又称为汉字交换码,在计算机之间交换信息用。用两个字节来表示,每个字节的最高位均为0,因此可以表示的汉字数为2的14次幂,就是16384个。将汉字区位码的高位字节、低位字节各加十进制数32(即十六进制数的20),便得到国标码。例如“中”字的国标码为8680(十进制)或7468(十六进制)。
内码:汉字内码是在设备和信息处理系统内部存储、处理、传输汉字用的代码。无论使用何种输入码,进入计算机后就立即被转换为机内码。规则是将国标码的高位字节、低位字节各自加上128(十进制)或80(十六进制)。例如,“中”字的内码以十六进制表示时应为F4E8。这样做的目的是使汉字内码区别于西文的ASCII,因为每个西文字母的ASCII的高位均为0,而汉字内码的每个字节的高位均为1。
字型码:表示汉字字形的字模数据,因此也称为字模码,是汉字的输出形式。通常用点阵、矢量函数等表示。用点阵表示时,字形码指的就是这个汉字字形点阵的代码。根据输出汉字的要求不同,点阵的多少也不同。简易型汉字为16′16点阵、提高型汉字为24′24点阵、48′48点阵等。如果是24′24点阵,每行24个点就是24个二进制位,存储一行代码需要3个字节。那么,24行共占用3′24=72个字节。计算公式:每行点数/8′行数。依此,对于48′48的点阵,一个汉字字形需要占用的存储空间为48/8′48=6′48=288个字节。

㈣ 计算机对汉字进行处理和存储时使用汉字的

机内码。在计算机中,对汉字进行传输、处理和存储时使用汉字的机内码。GB2312-80是我国第一个汉字编码国标,其中规定一个汉字占两个字节,即16bit。国标码使每个汉字都有了唯一对应的码。

在计算机中,对汉字进行传输、处理和存储时使用汉字的机内码。GB2312-80是我国第一个汉字编码国标,其中规定一个汉字占两个字节,即16bit。国标码使每个汉字都有了唯一对应的码,但在计算机内国标码会与ASCII码冲突,所以将国标码每个字节加128避开了ASCII,成为了汉字传输、处理和存储时使用的机内码。字形码存储的是汉字的点阵图,用于显示或打印汉字时使用汉字。

㈤ 在计算机中,汉字采用什么码存放。

机内码。计算机只识别由0、1组成的代码,ASCII码是英文信息处理的标准编码,汉字信息处理也必须有一个统一的标准编码。 汉字交换码(国标码)主要用于汉字信息交换,《信息交换用汉字编码字符集——基本集》,代号为GB2312-80,共对6763个汉字和682个图形字符进行了编码。

国标码是汉字信息交换的标准编码,但因其前后字节的最高位为0,与ASCII码发生冲突,国标码是不可能在计算机内部直接采用的,于是,汉字的机内码采用变形国标码,其变换方法为:将国标码的每个字节都加上128,即将两个字节的最高位由0改1,其余7位不变。

(5)用于汉字存储和处理的是汉字外码扩展阅读

汉字用两个字节表示,原则上,两个字节可以表示 256×256=65536 种不同的符号,作为汉字编码表示的基础是可行的。但考虑到汉字编码与其它国际通用编码,如ASCII 西文字符编码的关系,我国国家标准局采用了加以修正的两字节汉字编码方案,只用了两个字节的低7位。

这个方案可以容纳 128×128=16384 种不同的汉字,但为了与标准ASCII码兼容,每个字节中都不能再用32个控制功能码和码值为32的空格以及127的操作码。所以每个字节只能有94个编码。这样,双七位实际能够表示的字数是:94×94=8836个。

㈥ 在计算机中对汉字进行存储、处理和传输的汉字码是什么码

在计算机中对汉字进行存储、处理和传输的汉字码是机内码。

机内码是在计算机内部存储,处理加工和传输汉字时所用的由0和1符号组成的代码。

输入码被接受后就由汉字操作系统的“输入码转换模块”转换为机内码,与所采用的键盘输入法无关。机内码是汉字最基本的编码,不管是什么汉字系统和汉字输入方法,输入的汉字外码到机器内部都要转换成机内码,才能被存储和进行各种处理。

汉字的机内码采用十六进制进行表示,且第1位和第三位必定大于8。因为汉字机内码的基础是汉字国际码,转换方式是:汉字机内码=汉字国际码+8080H。

(6)用于汉字存储和处理的是汉字外码扩展阅读

汉字机内码、国标码和区位码三者之间的关系为:

区位码(十进制)的两个字节分别转换为十六进制后加2020H得到对应的国标码;机内码是汉字交换码(国标码)两个字节的最高位分别加1,即汉字交换码(国标码)的两个字节分别加80H得到对应的机内码;区位码(十进制)的两个字节分别转换为十六进制后加A0H得到对应的机内码。

㈦ 汉字外码是指什么常用的汉字外码有哪些

汉字输入码(外码)是指用户从键盘上键入汉字时所使用的汉字编码。
内码是汉字在计算机内部存储,处理和传输用的信息编码。它必须与ASCII码兼容但又不能冲突。 
常用的输入码:数字编码-区位码;
拼音编码-全拼、双拼、微软拼音输入法、自然码、智能ABC、搜狗等等;
字形编码-五笔、表形码、郑码输入法等

㈧ 什么编码用于汉字的存取、处理和传输

汉字机内码用于汉字的存取、处理和传输。

汉字机内码,又称“汉字ASCII码”,简称“内码”,指计算机内部存储,处理加工和传输汉字时所用的由0和1符号组成的代码。

机内码是汉字最基本的编码,不管是什么汉字系统和汉字输入方法,输入的汉字外码到机器内部都要转换成机内码,才能被存储和进行各种处理。

(8)用于汉字存储和处理的是汉字外码扩展阅读:

内码是指计算机汉字系统中使用的二进制字符编码,是沟通输入、输出与系统平台之间的交换码,通过内码可以达到通用和高效率传输文本的目的。

英文ASCII字符采用一个字节的内码表示,中文字符如国标字符集中,GB2312、GB12345、GB13000皆用双字节内码。

GB18030(27,533汉字)双字节内码汉字为20,902个,其余6,631个汉字用四字节内码。

㈨ 汉字编码分为哪四种

汉字编码主要分为四大类:汉字输入码、汉字交换码、汉字内码和汉字字形码。

(1)汉字的外部码

汉字的外部码简称外码,又叫输人码,是输人汉字的一组键盘符号。使用不同的输入方法,同一汉字的外部码不同。用户应选用易记忆、操作简单、位码少、重码少和输人速度快的外码。

(2)汉字的内部码

汉字的内部码又称汉字内码或汉字机内码。机器接收到外码后,要转换成内码进行存储、运算和传送。用二个字节表示汉字的内码。为了和西文符号区分,内码的最高位设为“1”。内码通常用汉字在车库中的物理位置表示,可以是汉字在字库中的序号,也可以是字库中的存储位置。

(3)汉字交换码

在计算机之间交换信息时,要求传送的汉字代码符合国家规定的交换码标准,即符合GB2312-80信息交换用汉字编码集,又称为国标码。国标码收集了7445个图形字符,其中有6763个汉字和各种符号709个。

(4)汉字字形码

在显示或打印汉字时,还涉及到字形码,又称输出码。汉字字形是指原来铅字排版汉字的大小和形状,在计算机中指组成汉字的点阵。

尽管汉字字形有多种变化,笔画繁简不一,但都是方块字且大小相同,都可以写在同样的方块中。把一个方块看成m行n列矩阵,共有m×n个点,称为汉字点阵。如16×16点阵的汉字,共有256个点。

汉字编码

汉字编码(Chinese character encoding )是为汉字设计的一种便于输入计算机的代码。由于电子计算机现有的输入键盘与英文打字机键盘完全兼容。因而如何输入非拉丁字母的文字(包括汉字)便成了多年来人们研究的课题。

汉字信息处理系统一般包括编码、输入、存储、编辑、输出和传输。编码是关键。不解决这个问题,汉字就不能进入计算机。

汉字进入计算机的三种途径 分别为:

①机器自动识别汉字:计算机通过“视觉”装置(光学字符阅读器或其他),用光电扫描等方法识别汉字。

②通过语音识别输入:计算机利用人们给它配备的“听觉器官”,自动辨别汉语语音要素,从不同的音节中找出不同的汉字,或从相同音节中判断出不同汉字。

③通过汉字编码输入:根据一定的编码方法,由人借助输入设备将汉字输入计算机。

机器自动识别汉字和汉语语音识别,国内外都在研究,虽然取得了不少进展,但由于难度大,预计还要经过相当一段时间才能得到解决。在现阶段,比较现实的就是通过汉字编码方法使汉字进入计算机。