當前位置:首頁 » 服務存儲 » 計算機內部存儲的漢子編碼
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

計算機內部存儲的漢子編碼

發布時間: 2022-09-11 20:25:32

① 在計算機中,漢字採用什麼碼存放。

機內碼。計算機只識別由0、1組成的代碼,ASCII碼是英文信息處理的標准編碼,漢字信息處理也必須有一個統一的標准編碼。 漢字交換碼(國標碼)主要用於漢字信息交換,《信息交換用漢字編碼字元集——基本集》,代號為GB2312-80,共對6763個漢字和682個圖形字元進行了編碼。

國標碼是漢字信息交換的標准編碼,但因其前後位元組的最高位為0,與ASCII碼發生沖突,國標碼是不可能在計算機內部直接採用的,於是,漢字的機內碼採用變形國標碼,其變換方法為:將國標碼的每個位元組都加上128,即將兩個位元組的最高位由0改1,其餘7位不變。

(1)計算機內部存儲的漢子編碼擴展閱讀

漢字用兩個位元組表示,原則上,兩個位元組可以表示 256×256=65536 種不同的符號,作為漢字編碼表示的基礎是可行的。但考慮到漢字編碼與其它國際通用編碼,如ASCII 西文字元編碼的關系,我國國家標准局採用了加以修正的兩位元組漢字編碼方案,只用了兩個位元組的低7位。

這個方案可以容納 128×128=16384 種不同的漢字,但為了與標准ASCII碼兼容,每個位元組中都不能再用32個控制功能碼和碼值為32的空格以及127的操作碼。所以每個位元組只能有94個編碼。這樣,雙七位實際能夠表示的字數是:94×94=8836個。

② 漢字在計算機內有幾種編碼試簡述每種編碼的意義。

漢字在計算機上的編碼主要有三種:輸入碼、機,內碼和輸出碼,1.用於輸入的漢字的編碼——輸入碼(外碼)
計算機上輸入漢字的方法很多,如鍵盤編碼輸入、語音輸入、手寫輸入、掃描輸入等,其中鍵盤編碼輸入是最容易實現和最常用的一種漢字輸入方法。英文等可以用鍵盤上的每個字母鍵來輸入,而輸入漢字則不同,不可能用有限的按鍵來對應每一個漢字,為了讓用戶能直接使用英文鍵盤輸入漢字,於是就有了輸入漢字時使用的漢字輸入碼,它一般由鍵盤上的字母或數字組成,代表某個漢字或某些漢字、片語或句子。當前用於漢字輸入的編碼方案很多,如區位碼、拼音碼、王碼(五筆字型)、自然碼等。2.用於儲存漢字的編碼——機內碼(內碼)
由於漢字輸入碼的編碼方案多種多樣,同一個漢字如果採用的編碼方案不一樣,其輸入碼就有可能不一樣。如果計算機內部存放的是漢字輸入碼本身,就會造成相同漢字在機內可以用不同的編碼表示,這樣顯然不合理,也給計算機內部的漢字處理增加了難度。為了將漢字的各種輸入碼在計算機內部統一起來,就引進了漢字的機內碼。3.用於輸出漢字的編碼——輸出碼(字型碼)
存儲在計算機內的漢字在屏幕上顯示或在列印機上列印出來時,必須以漢字字形輸出,才能被人們所接受和理解。漢字的輸出碼實際上是漢字的字型碼,它是由漢字的字模信息所組成的。漢字是一種象形文字,每個漢字東可以看成一個特定的圖形,這種圖形可以用點陣、向量等方式表示,而最基本的是用點陣表示。所謂點陣方式,就是將漢字分解成由若干個「點」組成的點陣字型,將此點陣字型至於網狀方格上,每個方各試點陣中的一個「點」。

③ 漢子系統中的漢字字型檔里存放的是漢字的什麼碼

漢字系統中的漢字字型檔里存放的漢字的是C字形碼。漢字機內碼,又稱「漢字ASCII碼」,簡稱「內碼」,指計算機內部存儲,處理加工和傳輸漢字時所用的由0和1符號組成的代碼。

輸入碼被接受後就由漢字操作系統的「輸入碼轉換模塊」轉換為機內碼,與所採用的鍵盤輸入法無關。機內碼是漢字最基本的編碼,不管是什麼漢字系統和漢字輸入方法,輸入的漢字外碼到機器內部都要轉換成機內碼,才能被存儲和進行各種處理。

具體解釋

因為漢字處理系統要保證中西文的兼容,當系統中同時存在ASCII碼和漢字國標碼時,將會產生二義性。

例如:有兩個位元組的內容為30H和21H,它既可表示漢字「啊」的國標碼,又可表示西文「0」和「!」的ASCII碼。為此,漢字機內碼應對國標碼加以適當處理和變換。

④ 什麼編碼用於漢字的存取、處理和傳輸

漢字機內碼用於漢字的存取、處理和傳輸。

漢字機內碼,又稱「漢字ASCII碼」,簡稱「內碼」,指計算機內部存儲,處理加工和傳輸漢字時所用的由0和1符號組成的代碼。

機內碼是漢字最基本的編碼,不管是什麼漢字系統和漢字輸入方法,輸入的漢字外碼到機器內部都要轉換成機內碼,才能被存儲和進行各種處理。

(4)計算機內部存儲的漢子編碼擴展閱讀:

內碼是指計算機漢字系統中使用的二進制字元編碼,是溝通輸入、輸出與系統平台之間的交換碼,通過內碼可以達到通用和高效率傳輸文本的目的。

英文ASCII字元採用一個位元組的內碼表示,中文字元如國標字元集中,GB2312、GB12345、GB13000皆用雙位元組內碼。

GB18030(27,533漢字)雙位元組內碼漢字為20,902個,其餘6,631個漢字用四位元組內碼。

⑤ 計算機中的漢字編碼有哪些

根據應用目的的不同,漢字編碼分為外碼、交換碼、機內碼和字形碼。

⑥ 計算機內部使用的漢字編碼

計算機內部使用的漢字編碼稱為漢字內碼或漢字機內碼。漢字機內碼由國標碼(GB2312-80)演化而來,把表示國際碼的兩個位元組的最高位分別加1,就變成了漢字機內碼。
漢字字模信息碼即漢字字形碼,用點陣方式來構造漢字字型。它們的關系是這樣的,漢字輸入編碼是外部碼,同一個漢字可以有不同的輸入編碼,但它們的漢字機內碼是惟一的。漢字的輸出則根據點陣方式構成的漢字字模信息碼輸出。

漢字編碼系統

為進行信息交換,各漢字使用地區都制訂了一系列漢字字元集標准。

國標碼(「國標」是中華人民共和國國家標準的簡稱)在中國大陸使用。GB2312收錄6763個漢字,GBK收錄20912個漢字,最新的GB18030收錄27533個漢字。

BIG5碼。收錄13053個漢字。在台灣和香港使用的一位元組或兩位元組編碼。

Unicode並不被中國政府很好的接受。中國政府要求在中國大陸出售的軟體必須支持GB 18030編碼。

在國際通信化和軟體設計領域,CJK編碼收集了漢語、日語、韓語中的漢字集。

⑦ 什麼是漢字編碼

每天,我們都窩在格子間里噼里啪啦敲代碼敲到脫發,對代碼我們是再熟悉不過的老朋友了。


但不知道小夥伴們有沒有想過這樣一個問題:


那些讓我們「英年早禿」的代碼,到底是怎麼來的呢?


今天,麗斯老師就帶大家看看,這個讓我們愛恨兩難的「老朋友」究竟是何方神聖。


什麼是編碼?


編碼,是信息從一種形式或格式轉換為另一種形式的過程,簡單來講就是語言的翻譯過程。


我們都知道計算機使用的是機器語言即二進制碼,相信大部分人都無法流暢的閱讀二進制碼。


於是為了能夠讓人類更好的理解計算機輸出的結果就需要將機器語言轉換為自然語言。


比如英語、俄語和中文等。


這看似簡單的語言轉換過程,隨著計算機的普及,與互聯網化對語言字元的編碼沖擊也越來越大。


編碼規范的調整也伴隨著整個計算機發展歷史在逐步完善,甚至「愈演愈烈」。


UTF-8又是什麼


Unicode確實是一套能夠滿足全球使用的字元集,但是難道真的需要每一個字元都佔用4個位元組嗎?


雖然現在的存儲空間已經足夠大了,但是4個位元組一個字元的方式還是很不明智的。


比如字元「A」二進制碼01000001卻需要以的方式存儲。


這一定不是我們想要的。


於是UTF(Unicode/UCS Transformation Format)應運而生。


UTF是字元編碼五層次模型的第三層,通過特定的規則對Unicode字元編碼進行一定的壓縮和轉換以便快捷傳輸。



UTF的代表就是UTF-16和UTF-8。


千萬不要以為UTF-16比UTF-8更厲害能夠容納更多字元。


字元容納數量都是是Unicode編碼集所確定的范圍,UTF只是通過不同的轉換形式更快更高效的找到特定字元。


而UFT-16 比較奇葩,它使用 2 個或者 4 個位元組來存儲。


對於 Unicode 編號范圍在 0 ~ FFFF 之間的字元,UTF-16 使用兩個位元組存儲,並且直接存儲 Unicode 編號,不用進行編碼轉換,這跟 UTF-32 非常類似。


對於 Unicode 編號范圍在 10000~10FFFF 之間的字元。


UTF-16 使用四個位元組存儲,具體來說就是:


將字元編號的所有比特位分成兩部分。


較高的一些比特位用一個值介於 D800~DBFF 之間的雙位元組存儲。


較低的一些比特位(剩下的比特位)用一個值介於 DC00~DFFF 之間的雙位元組存儲。


設計UTF-8編碼表達方式的理由:

1、單位元組字元的最高有效比特永遠是0(大家可以看看其他編碼方式如何別扭的兼容ASCII碼的);


2、多位元組序列中的首個字元組的幾個最高有效比特決定了序列的長度。最高有效位為110的是2位元組序列,而1110的是三位元組序列,如此類推;


3、多位元組序列中其餘的位元組中的首兩個最高有效比特為10。


轉換關系如下圖:



這樣我們根據所要兼容的語言不同根據UTF-8多位元組最高有效比特,去判斷編碼最終使用了多少個位元組來存儲。


其餘的位元組也都滿足最高有效比特為10的特點有了一定的糾錯功能。


簡單一些理解就是UTF-16就是通過2個位元組16位來控制壓縮比例。


而UTF-8已經以高精度的1個位元組8位來控制壓縮比例了。


當然還有中UTF-32就可想而知,基本跟Unicode如出一轍。

⑧ 在計算機內部,對漢字進行傳輸、處理和存儲時使用的是漢字的()

在電腦內部對漢字進行傳輸處理和存儲時使用漢字的機內碼。
電腦內部漢字信息的存儲運算的代碼有四種:輸入碼、國標碼、內碼和字型碼。
輸入碼:包括拼音編碼和字型編碼。微軟拼音ABC就是拼音編碼,五筆字型輸入法就是字型編碼。
國標碼:又稱為漢字交換碼,在計算機之間交換信息用。用兩個位元組來表示,每個位元組的最高位均為0,因此可以表示的漢字數為2的14次冪,就是16384個。將漢字區位碼的高位位元組、低位位元組各加十進制數32(即十六進制數的20),便得到國標碼。例如「中」字的國標碼為8680(十進制)或7468(十六進制)。
內碼:漢字內碼是在設備和信息處理系統內部存儲、處理、傳輸漢字用的代碼。無論使用何種輸入碼,進入計算機後就立即被轉換為機內碼。規則是將國標碼的高位位元組、低位位元組各自加上128(十進制)或80(十六進制)。例如,「中」字的內碼以十六進製表示時應為F4E8。這樣做的目的是使漢字內碼區別於西文的ASCII,因為每個西文字母的ASCII的高位均為0,而漢字內碼的每個位元組的高位均為1。
字型碼:表示漢字字形的字模數據,因此也稱為字模碼,是漢字的輸出形式。通常用點陣、矢量函數等表示。用點陣表示時,字形碼指的就是這個漢字字形點陣的代碼。根據輸出漢字的要求不同,點陣的多少也不同。簡易型漢字為16′16點陣、提高型漢字為24′24點陣、48′48點陣等。如果是24′24點陣,每行24個點就是24個二進制位,存儲一行代碼需要3個位元組。那麼,24行共佔用3′24=72個位元組。計算公式:每行點數/8′行數。依此,對於48′48的點陣,一個漢字字形需要佔用的存儲空間為48/8′48=6′48=288個位元組。

⑨ 在計算機中對漢字進行存儲、處理和傳輸的漢字碼是什麼碼

在計算機中對漢字進行存儲、處理和傳輸的漢字碼是機內碼。

機內碼是在計算機內部存儲,處理加工和傳輸漢字時所用的由0和1符號組成的代碼。

輸入碼被接受後就由漢字操作系統的「輸入碼轉換模塊」轉換為機內碼,與所採用的鍵盤輸入法無關。機內碼是漢字最基本的編碼,不管是什麼漢字系統和漢字輸入方法,輸入的漢字外碼到機器內部都要轉換成機內碼,才能被存儲和進行各種處理。

漢字的機內碼採用十六進制進行表示,且第1位和第三位必定大於8。因為漢字機內碼的基礎是漢字國際碼,轉換方式是:漢字機內碼=漢字國際碼+8080H。

(9)計算機內部存儲的漢子編碼擴展閱讀

漢字機內碼、國標碼和區位碼三者之間的關系為:

區位碼(十進制)的兩個位元組分別轉換為十六進制後加2020H得到對應的國標碼;機內碼是漢字交換碼(國標碼)兩個位元組的最高位分別加1,即漢字交換碼(國標碼)的兩個位元組分別加80H得到對應的機內碼;區位碼(十進制)的兩個位元組分別轉換為十六進制後加A0H得到對應的機內碼。

⑩ 漢字在計算機系統中存儲所用的編碼是什麼

GB國標碼:中文內碼之一,代表中文簡化字,在中國大陸廣泛使用,影響所及,使用量漸見普及。
「國家標准信息交換用漢字編碼」(GB2312-80標准),簡稱國標碼。國標碼是指1980年中國制定的用於不同的具有漢字處理功能的計算機系統間交換漢字信息時使用的編碼。國際碼是二位元組碼,
用兩個七位二進制數編碼表示一個漢字。目前國標碼收入6763個漢字,
其中一級漢字(最常用)3755個,
二級漢字3008個,
另外還包括682個西文字元、圖符。