コンピュータ上では、文字はデジタル符号で表される。この符号を文字コードという。キャラクターコードともいう。アルファベットのように字種の数が少ない場合は符号として必要なビット数が少なくてすみ、1バイト(8ビット)が1文字に割り当てられているが、字種の多い漢字を使う日本語などでは1文字に数バイト必要である。アメリカでは早くからASCII(アスキー、アメリカ規格協会が1962年に制定した文字コード)が標準として用いられ、普及したが、日本語の場合、JIS(ジス)で定められてはいたものの不十分であったことからさまざまな変形が現れ、標準に乱れが生じた。その結果、電子メールやホームページの表示に、入力した文字と出力した文字が違う、いわゆる文字化け現象を引き起こすこととなった。現在使用されている日本語コードには、JIS7、Shift-JIS、EUC、UNICODEなどがある。しかし数万の漢字やアラビア語など多くの言語の文字コード化が進み、世界標準も整備されつつある。この整備が行き渡れば、文字化けから解放され、いずれの言語のホームページも正しい表示を見ることができるようになる。
漢字は字種が多いことが、これまではコンピュータ化されにくい大きな理由になっていた。しかし、日本で現在流通している漢字では、使用頻度の高い2000字種くらいまでで90%、さらに5000字種まで広げるとあらゆる文章の99%まで表記可能であるといわれている。過去に使用された漢字すべてを入れても、たかだか10万字であろう。この程度の数ならば、もはや現在のコンピュータ技術では処理の面でも記憶量の面でも問題とならない。漢字の文字コード化問題を複雑にしているのは、字種と書体(フォント)の違い、また、誤字か異体字かなどの問題が錯綜(さくそう)していることである。文字コードは字種との一対一の関係をもつことに意味がある。ところが同一の意味をもつ漢字でも日本、中国、台湾、韓国で微妙に字形が異なる字がある。これを異なる字種として扱うべきかどうか。また人名などでは画数の縁起を担いで標準字形に点を増やすなどした、つくられた字(異体字)も多く、これらも異なる字種として区別するべきかどうか。過去の人名には戸籍の届け出に際しての誤字さえある。文字コードは情報の分類や検索、照合の基礎データとなるものであり、コンピュータの幾何級数的性能向上を考慮するならば、単純に字種を一つのデジタル符号として表す文字コード化の方法には限界がきているのかもしれない。
[田村浩一郎]
出典 ブリタニカ国際大百科事典 小項目事典ブリタニカ国際大百科事典 小項目事典について 情報
(斎藤幾郎 ライター / 2007年)
出典 (株)朝日新聞出版発行「知恵蔵」知恵蔵について 情報
出典 (株)朝日新聞出版発行「パソコンで困ったときに開く本」パソコンで困ったときに開く本について 情報
出典 ASCII.jpデジタル用語辞典ASCII.jpデジタル用語辞典について 情報
宇宙事業会社スペースワンが開発した小型ロケット。固体燃料の3段式で、宇宙航空研究開発機構(JAXA)が開発を進めるイプシロンSよりもさらに小さい。スペースワンは契約から打ち上げまでの期間で世界最短を...
12/17 日本大百科全書(ニッポニカ)を更新
11/21 日本大百科全書(ニッポニカ)を更新
10/29 小学館の図鑑NEO[新版]動物を追加
10/22 デジタル大辞泉を更新
10/22 デジタル大辞泉プラスを更新