文字コード(読み)もじこーど(英語表記)character cord

日本大百科全書(ニッポニカ) 「文字コード」の意味・わかりやすい解説

文字コード
もじこーど
character cord

コンピュータ上では、文字はデジタル符号で表される。この符号を文字コードという。キャラクターコードともいう。アルファベットのように字種の数が少ない場合は符号として必要なビット数が少なくてすみ、1バイト(8ビット)が1文字に割り当てられているが、字種の多い漢字を使う日本語などでは1文字に数バイト必要である。アメリカでは早くからASCII(アスキー、アメリカ規格協会が1962年に制定した文字コード)が標準として用いられ、普及したが、日本語の場合、JIS(ジス)で定められてはいたものの不十分であったことからさまざまな変形が現れ、標準に乱れが生じた。その結果、電子メールやホームページの表示に、入力した文字と出力した文字が違う、いわゆる文字化け現象を引き起こすこととなった。現在使用されている日本語コードには、JIS7、Shift-JIS、EUC、UNICODEなどがある。しかし数万の漢字やアラビア語など多くの言語の文字コード化が進み、世界標準も整備されつつある。この整備が行き渡れば、文字化けから解放され、いずれの言語のホームページも正しい表示を見ることができるようになる。

 漢字は字種が多いことが、これまではコンピュータ化されにくい大きな理由になっていた。しかし、日本で現在流通している漢字では、使用頻度の高い2000字種くらいまでで90%、さらに5000字種まで広げるとあらゆる文章の99%まで表記可能であるといわれている。過去に使用された漢字すべてを入れても、たかだか10万字であろう。この程度の数ならば、もはや現在のコンピュータ技術では処理の面でも記憶量の面でも問題とならない。漢字の文字コード化問題を複雑にしているのは、字種と書体フォント)の違い、また、誤字異体字かなどの問題が錯綜(さくそう)していることである。文字コードは字種との一対一の関係をもつことに意味がある。ところが同一の意味をもつ漢字でも日本、中国、台湾、韓国で微妙に字形が異なる字がある。これを異なる字種として扱うべきかどうか。また人名などでは画数縁起を担いで標準字形に点を増やすなどした、つくられた字(異体字)も多く、これらも異なる字種として区別するべきかどうか。過去の人名には戸籍の届け出に際しての誤字さえある。文字コードは情報の分類検索照合の基礎データとなるものであり、コンピュータの幾何級数的性能向上を考慮するならば、単純に字種を一つのデジタル符号として表す文字コード化の方法には限界がきているのかもしれない。

[田村浩一郎]

出典 小学館 日本大百科全書(ニッポニカ)日本大百科全書(ニッポニカ)について 情報 | 凡例

ブリタニカ国際大百科事典 小項目事典 「文字コード」の意味・わかりやすい解説

文字コード
もじコード

コンピュータで文字を伝送したり蓄積したり処理するために決められた符号化の体系。アメリカ規格協会 ANSIが 1963年に 7ビット(パリティビットを含めると 8ビット=1バイトとなる)でアルファベットや図形文字,制御文字など 128文字を定めたアスキー符号(アスキーコード)を提唱し,全世界で使われるようになった。日本や中国などの漢字使用国では,文字の種類が多いためコード化は遅れたが,1978年に日本工業規格 JISが,国際規格で制定された 7ビット情報交換用符号をもとに 1文字を 2バイトで表す JIS漢字コードを制定した。1983年に改定され,字体の簡略化,異体字の入れ替え,記号の追加が行なわれ,1990年には補助漢字が追加された。そのほかに,パーソナル・コンピュータで多く使われているシフトJISコード,日本語対応ユニックスで使われる EUC; Extended UNIX Codeなどいくつもの文字コードがある。このため,使用するコードの設定が異なると,文書が読めないなどの問題が生じる場合がある。世界中で使われている文字をコード化しようというユニコードプロジェクトがアメリカ合衆国の企業などを中心に進められたが,当初設定した単位である 2バイトコードでは文字が収まりきらず,追加的に一部を 4バイトコードにするなどしたため,複雑なものとなっている。パーソナル・コンピュータのオペレーティングシステム OSレベルではすでにユニコードに対応している。

出典 ブリタニカ国際大百科事典 小項目事典ブリタニカ国際大百科事典 小項目事典について 情報