當前位置:首頁 » 服務存儲 » 用於漢字存儲和處理的是漢字外碼
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

用於漢字存儲和處理的是漢字外碼

發布時間: 2023-02-09 16:01:04

㈠ 為了將漢字輸入計算機而編制的代碼,稱為漢字碼

也可以這么說
漢字系統對每個漢字規定了輸入計算機的代碼,即漢字的外部碼,鍵盤輸入漢字是輸入漢字的外部碼。計算機為了識別漢字,要把漢字的外部碼轉換成漢字的內部碼,以便進行處理和存儲。為了將漢字以點陣的形式輸出,還要將漢字的內部碼轉換為漢字的字形碼,確定一個漢字的點陣。並且,在計算機和其它系統或設備需要信息、數據交流時還必須採用交換碼。 (1) 外部碼 外部碼是計算機輸入漢字的代碼,代表某一個漢字的一組鍵盤符號。外部碼也叫漢字輸入碼。為了建立友好的用戶界面,輸入碼的規則必須簡單清晰、直觀易學、容易記億、操作方便、碼位短、輸入速度快、重碼少,既符合初學者的學習,又能滿足專業輸入者的要求,便於盲打。漢字的輸入方法不同,同一個漢字的外碼可能不一樣。人們根據漢字的屬性(漢字字量、字形、字音、使用頻度)提出了數百種漢字外碼的編碼方案。由於用戶不同,用途不同,各自喜愛的編碼方式也不盡相同,故對用什麼編碼方案不能強求統一。例如拼音碼和五筆字型比較受一般用戶的歡迎。 (2) 內部碼 漢字內部碼亦稱為漢字內碼或漢字機內碼。計算機處理漢字,實際上是處理漢字的代碼。當計算機輸入外部碼時,通常要轉成內部碼,才能進行存儲、運算、傳送。一般用二個位元組表示一個漢字的內碼。內部碼經常是用漢字在字型檔中的物理位置表示,如漢字在字型檔中的序號或漢字在字型檔中的存儲位置表示。注意一般情況下,漢字的內部碼不能與西文字元編碼(ACSII碼、EBCDIC碼等)發生沖突,並容易區分漢字與西文字元;盡可能佔用少的位元組表示盡可能多的漢字;與標准交換碼兼容(與交換碼有盡可能簡單明確的對應關系;運算時不產生二義性和不確定性)。 除了二位元組漢字內部碼外,還有三位元組內部碼、四位元組內部碼、帶引導碼的漢字內部碼、帶符號的漢字內部碼、帶括弧的漢字內部碼等。 (3) 交換碼 當計算機之間或與終端之間進行信息交換時,要求它們之間傳送的漢字代碼信息完全一致,國家規定了信息交換用的標准漢字交換碼"GB312-80信息交換用漢字編碼字元集(基本集)",即國標碼。國標碼共收集了7445個圖形字元,其中漢字6763個,一般符號、數字、拉丁字母、希臘字母、漢語拼音等709個。 (4) 漢字輸出碼 又稱漢字字形碼或漢字發生器的編碼。為輸出漢字,對漢字字形經過點陣的數字化後的一串二進制數稱為漢字輸出碼。

㈡ 什麼是內碼什麼是外碼

我們常說漢字的"內碼"與"外碼"。

內碼是漢字在計算機內部存儲,處理和傳輸用的信息編碼。它必須與ASCII碼兼容但又不能沖突。

所以把國標碼兩個位元組的最高位置'1',以區別於西文,這就是內碼。漢字的輸入碼稱為"外碼"。輸入碼即指我們輸入漢字時使用的編碼。常見的外碼分為數字編碼(如區位碼),拼音編碼和字形編碼(如五筆)。

再說區位碼,"啊"的區位碼是1601,寫成16進制是0x10,0x01。這和計算機廣泛使用的ASCII編碼沖突。為了兼容00-7f的 ASCII編碼,我們在區位碼的高、低位元組上分別加上A0。這樣"啊"的編碼就成為B0A1。我們將加過兩個A0的編碼也稱為GB2312編碼,雖然 GB2312的原文根本沒提到這一點。
內碼是指操作系統內部的字元編碼。早期操作系統的內碼是與語言相關的.現在的Windows在內部統一使用Unicode,然後用代碼頁適應各種語言,"內碼"的概念就比較模糊了。我們一般將預設代碼頁指定的編碼說成是內碼。內碼這個詞彙,並沒有什麼官方的定義。代碼頁也只是微軟的一種習慣叫法。作為程序員,我們只要知道它們是什麼東西,沒有必要過多地考證這些名詞。
所謂代碼頁(code page)就是針對一種語言文字的字元編碼。例如GBK的code page是CP936,BIG5的code page是CP950,GB2312的code page是CP20936。
Windows中有預設代碼頁的概念,即預設用什麼編碼來解釋字元。例如Windows的記事本打開了一個文本文件,裡面的內容是位元組流:BA、BA、 D7、D6。Windows應該去怎麼解釋它呢?是按照Unicode編碼解釋、還是按照GBK解釋、還是按照BIG5解釋,還是按照ISO8859-1 去解釋?如果按GBK去解釋,就會得到"漢字"兩個字。按照其它編碼解釋,可能找不到對應的字元,也可能找到錯誤的字元。所謂"錯誤"是指與文本作者的本意不符,這時就產生了亂碼。
答案是Windows按照當前的預設代碼頁去解釋文本文件里的位元組流。預設代碼頁可以通過控制面板的區域選項設置。記事本的另存為中有一項ANSI,其實就是按照預設代碼頁的編碼方法保存。
Windows的內碼是Unicode,它在技術上可以同時支持多個代碼頁。只要文件能說明自己使用什麼編碼,用戶又安裝了對應的代碼頁,Windows就能正確顯示,例如在HTML文件中就可以指定charset。
有的HTML文件作者,特別是英文作者,認為世界上所有人都使用英文,在文件中不指定charset。如果他使用了0x80-0xff之間的字元,中文Windows又按照預設的GBK去解釋,就會出現亂碼。這時只要在這個html文件中加上指定charset的語句,例如:
<meta http-equiv="Content-Type" content="text/html; charset=ISO8859-1">
如果原作者使用的代碼頁和ISO8859-1兼容,就不會出現亂碼了

㈢ 在計算機內部,對漢字進行傳輸、處理和存儲時使用的是漢字的()

在電腦內部對漢字進行傳輸處理和存儲時使用漢字的機內碼。
電腦內部漢字信息的存儲運算的代碼有四種:輸入碼、國標碼、內碼和字型碼。
輸入碼:包括拼音編碼和字型編碼。微軟拼音ABC就是拼音編碼,五筆字型輸入法就是字型編碼。
國標碼:又稱為漢字交換碼,在計算機之間交換信息用。用兩個位元組來表示,每個位元組的最高位均為0,因此可以表示的漢字數為2的14次冪,就是16384個。將漢字區位碼的高位位元組、低位位元組各加十進制數32(即十六進制數的20),便得到國標碼。例如「中」字的國標碼為8680(十進制)或7468(十六進制)。
內碼:漢字內碼是在設備和信息處理系統內部存儲、處理、傳輸漢字用的代碼。無論使用何種輸入碼,進入計算機後就立即被轉換為機內碼。規則是將國標碼的高位位元組、低位位元組各自加上128(十進制)或80(十六進制)。例如,「中」字的內碼以十六進製表示時應為F4E8。這樣做的目的是使漢字內碼區別於西文的ASCII,因為每個西文字母的ASCII的高位均為0,而漢字內碼的每個位元組的高位均為1。
字型碼:表示漢字字形的字模數據,因此也稱為字模碼,是漢字的輸出形式。通常用點陣、矢量函數等表示。用點陣表示時,字形碼指的就是這個漢字字形點陣的代碼。根據輸出漢字的要求不同,點陣的多少也不同。簡易型漢字為16′16點陣、提高型漢字為24′24點陣、48′48點陣等。如果是24′24點陣,每行24個點就是24個二進制位,存儲一行代碼需要3個位元組。那麼,24行共佔用3′24=72個位元組。計算公式:每行點數/8′行數。依此,對於48′48的點陣,一個漢字字形需要佔用的存儲空間為48/8′48=6′48=288個位元組。

㈣ 計算機對漢字進行處理和存儲時使用漢字的

機內碼。在計算機中,對漢字進行傳輸、處理和存儲時使用漢字的機內碼。GB2312-80是我國第一個漢字編碼國標,其中規定一個漢字占兩個位元組,即16bit。國標碼使每個漢字都有了唯一對應的碼。

在計算機中,對漢字進行傳輸、處理和存儲時使用漢字的機內碼。GB2312-80是我國第一個漢字編碼國標,其中規定一個漢字占兩個位元組,即16bit。國標碼使每個漢字都有了唯一對應的碼,但在計算機內國標碼會與ASCII碼沖突,所以將國標碼每個位元組加128避開了ASCII,成為了漢字傳輸、處理和存儲時使用的機內碼。字形碼存儲的是漢字的點陣圖,用於顯示或列印漢字時使用漢字。

㈤ 在計算機中,漢字採用什麼碼存放。

機內碼。計算機只識別由0、1組成的代碼,ASCII碼是英文信息處理的標准編碼,漢字信息處理也必須有一個統一的標准編碼。 漢字交換碼(國標碼)主要用於漢字信息交換,《信息交換用漢字編碼字元集——基本集》,代號為GB2312-80,共對6763個漢字和682個圖形字元進行了編碼。

國標碼是漢字信息交換的標准編碼,但因其前後位元組的最高位為0,與ASCII碼發生沖突,國標碼是不可能在計算機內部直接採用的,於是,漢字的機內碼採用變形國標碼,其變換方法為:將國標碼的每個位元組都加上128,即將兩個位元組的最高位由0改1,其餘7位不變。

(5)用於漢字存儲和處理的是漢字外碼擴展閱讀

漢字用兩個位元組表示,原則上,兩個位元組可以表示 256×256=65536 種不同的符號,作為漢字編碼表示的基礎是可行的。但考慮到漢字編碼與其它國際通用編碼,如ASCII 西文字元編碼的關系,我國國家標准局採用了加以修正的兩位元組漢字編碼方案,只用了兩個位元組的低7位。

這個方案可以容納 128×128=16384 種不同的漢字,但為了與標准ASCII碼兼容,每個位元組中都不能再用32個控制功能碼和碼值為32的空格以及127的操作碼。所以每個位元組只能有94個編碼。這樣,雙七位實際能夠表示的字數是:94×94=8836個。

㈥ 在計算機中對漢字進行存儲、處理和傳輸的漢字碼是什麼碼

在計算機中對漢字進行存儲、處理和傳輸的漢字碼是機內碼。

機內碼是在計算機內部存儲,處理加工和傳輸漢字時所用的由0和1符號組成的代碼。

輸入碼被接受後就由漢字操作系統的「輸入碼轉換模塊」轉換為機內碼,與所採用的鍵盤輸入法無關。機內碼是漢字最基本的編碼,不管是什麼漢字系統和漢字輸入方法,輸入的漢字外碼到機器內部都要轉換成機內碼,才能被存儲和進行各種處理。

漢字的機內碼採用十六進制進行表示,且第1位和第三位必定大於8。因為漢字機內碼的基礎是漢字國際碼,轉換方式是:漢字機內碼=漢字國際碼+8080H。

(6)用於漢字存儲和處理的是漢字外碼擴展閱讀

漢字機內碼、國標碼和區位碼三者之間的關系為:

區位碼(十進制)的兩個位元組分別轉換為十六進制後加2020H得到對應的國標碼;機內碼是漢字交換碼(國標碼)兩個位元組的最高位分別加1,即漢字交換碼(國標碼)的兩個位元組分別加80H得到對應的機內碼;區位碼(十進制)的兩個位元組分別轉換為十六進制後加A0H得到對應的機內碼。

㈦ 漢字外碼是指什麼常用的漢字外碼有哪些

漢字輸入碼(外碼)是指用戶從鍵盤上鍵入漢字時所使用的漢字編碼。
內碼是漢字在計算機內部存儲,處理和傳輸用的信息編碼。它必須與ASCII碼兼容但又不能沖突。 
常用的輸入碼:數字編碼-區位碼;
拼音編碼-全拼、雙拼、微軟拼音輸入法、自然碼、智能ABC、搜狗等等;
字形編碼-五筆、表形碼、鄭碼輸入法等

㈧ 什麼編碼用於漢字的存取、處理和傳輸

漢字機內碼用於漢字的存取、處理和傳輸。

漢字機內碼,又稱「漢字ASCII碼」,簡稱「內碼」,指計算機內部存儲,處理加工和傳輸漢字時所用的由0和1符號組成的代碼。

機內碼是漢字最基本的編碼,不管是什麼漢字系統和漢字輸入方法,輸入的漢字外碼到機器內部都要轉換成機內碼,才能被存儲和進行各種處理。

(8)用於漢字存儲和處理的是漢字外碼擴展閱讀:

內碼是指計算機漢字系統中使用的二進制字元編碼,是溝通輸入、輸出與系統平台之間的交換碼,通過內碼可以達到通用和高效率傳輸文本的目的。

英文ASCII字元採用一個位元組的內碼表示,中文字元如國標字元集中,GB2312、GB12345、GB13000皆用雙位元組內碼。

GB18030(27,533漢字)雙位元組內碼漢字為20,902個,其餘6,631個漢字用四位元組內碼。

㈨ 漢字編碼分為哪四種

漢字編碼主要分為四大類:漢字輸入碼、漢字交換碼、漢字內碼和漢字字形碼。

(1)漢字的外部碼

漢字的外部碼簡稱外碼,又叫輸人碼,是輸人漢字的一組鍵盤符號。使用不同的輸入方法,同一漢字的外部碼不同。用戶應選用易記憶、操作簡單、位碼少、重碼少和輸人速度快的外碼。

(2)漢字的內部碼

漢字的內部碼又稱漢字內碼或漢字機內碼。機器接收到外碼後,要轉換成內碼進行存儲、運算和傳送。用二個位元組表示漢字的內碼。為了和西文符號區分,內碼的最高位設為「1」。內碼通常用漢字在車庫中的物理位置表示,可以是漢字在字型檔中的序號,也可以是字型檔中的存儲位置。

(3)漢字交換碼

在計算機之間交換信息時,要求傳送的漢字代碼符合國家規定的交換碼標准,即符合GB2312-80信息交換用漢字編碼集,又稱為國標碼。國標碼收集了7445個圖形字元,其中有6763個漢字和各種符號709個。

(4)漢字字形碼

在顯示或列印漢字時,還涉及到字形碼,又稱輸出碼。漢字字形是指原來鉛字排版漢字的大小和形狀,在計算機中指組成漢字的點陣。

盡管漢字字形有多種變化,筆畫繁簡不一,但都是方塊字且大小相同,都可以寫在同樣的方塊中。把一個方塊看成m行n列矩陣,共有m×n個點,稱為漢字點陣。如16×16點陣的漢字,共有256個點。

漢字編碼

漢字編碼(Chinese character encoding )是為漢字設計的一種便於輸入計算機的代碼。由於電子計算機現有的輸入鍵盤與英文打字機鍵盤完全兼容。因而如何輸入非拉丁字母的文字(包括漢字)便成了多年來人們研究的課題。

漢字信息處理系統一般包括編碼、輸入、存儲、編輯、輸出和傳輸。編碼是關鍵。不解決這個問題,漢字就不能進入計算機。

漢字進入計算機的三種途徑 分別為:

①機器自動識別漢字:計算機通過「視覺」裝置(光學字元閱讀器或其他),用光電掃描等方法識別漢字。

②通過語音識別輸入:計算機利用人們給它配備的「聽覺器官」,自動辨別漢語語音要素,從不同的音節中找出不同的漢字,或從相同音節中判斷出不同漢字。

③通過漢字編碼輸入:根據一定的編碼方法,由人藉助輸入設備將漢字輸入計算機。

機器自動識別漢字和漢語語音識別,國內外都在研究,雖然取得了不少進展,但由於難度大,預計還要經過相當一段時間才能得到解決。在現階段,比較現實的就是通過漢字編碼方法使漢字進入計算機。