文字コード(モジコード)とは？意味や使い方

デジタル大辞泉「文字コード」の意味・読み・例文・類語

もじ‐コード【文字コード】

《character code》
１符号化文字集合で規定される文字・記号に割り振られた、固有の符号。キャラクターコード。
２文字符号化方式のこと。コンピューターで文字や記号を扱うために、それぞれの文字・記号をバイト列に変換する方式。日本語の利用環境においてはJISコード・シフトJIS・EUC、ユニコードではUTF-8・UTF-16・UTF-32などが用いられる。キャラクターコード。

出典　小学館デジタル大辞泉について　情報 | 凡例

Sponserd by

日本大百科全書(ニッポニカ) 「文字コード」の意味・わかりやすい解説

文字コード
もじこーど
character cord

コンピュータ上では、文字はデジタル符号で表される。この符号を文字コードという。キャラクターコードともいう。アルファベットのように字種の数が少ない場合は符号として必要なビット数が少なくてすみ、1バイト（8ビット）が1文字に割り当てられているが、字種の多い漢字を使う日本語などでは1文字に数バイト必要である。アメリカでは早くからASCII（アスキー、アメリカ規格協会が1962年に制定した文字コード）が標準として用いられ、普及したが、日本語の場合、JIS（ジス）で定められてはいたものの不十分であったことからさまざまな変形が現れ、標準に乱れが生じた。その結果、電子メールやホームページの表示に、入力した文字と出力した文字が違う、いわゆる文字化け現象を引き起こすこととなった。現在使用されている日本語コードには、JIS7、Shift-JIS、EUC、UNICODEなどがある。しかし数万の漢字やアラビア語など多くの言語の文字コード化が進み、世界標準も整備されつつある。この整備が行き渡れば、文字化けから解放され、いずれの言語のホームページも正しい表示を見ることができるようになる。

　漢字は字種が多いことが、これまではコンピュータ化されにくい大きな理由になっていた。しかし、日本で現在流通している漢字では、使用頻度の高い2000字種くらいまでで90％、さらに5000字種まで広げるとあらゆる文章の99％まで表記可能であるといわれている。過去に使用された漢字すべてを入れても、たかだか10万字であろう。この程度の数ならば、もはや現在のコンピュータ技術では処理の面でも記憶量の面でも問題とならない。漢字の文字コード化問題を複雑にしているのは、字種と書体（フォント）の違い、また、誤字か異体字かなどの問題が錯綜(さくそう)していることである。文字コードは字種との一対一の関係をもつことに意味がある。ところが同一の意味をもつ漢字でも日本、中国、台湾、韓国で微妙に字形が異なる字がある。これを異なる字種として扱うべきかどうか。また人名などでは画数の縁起を担いで標準字形に点を増やすなどした、つくられた字（異体字）も多く、これらも異なる字種として区別するべきかどうか。過去の人名には戸籍の届け出に際しての誤字さえある。文字コードは情報の分類や検索、照合の基礎データとなるものであり、コンピュータの幾何級数的性能向上を考慮するならば、単純に字種を一つのデジタル符号として表す文字コード化の方法には限界がきているのかもしれない。

［田村浩一郎］

出典　小学館　日本大百科全書(ニッポニカ)日本大百科全書(ニッポニカ)について　情報 | 凡例

Sponserd by

ブリタニカ国際大百科事典小項目事典「文字コード」の意味・わかりやすい解説

文字コード
もじコード

コンピュータで文字を伝送したり蓄積したり処理するために決められた符号化の体系。アメリカ規格協会 ANSIが 1963年に 7ビット（パリティビットを含めると 8ビット＝1バイトとなる）でアルファベットや図形文字，制御文字など 128文字を定めたアスキー符号（アスキーコード）を提唱し，全世界で使われるようになった。日本や中国などの漢字使用国では，文字の種類が多いためコード化は遅れたが，1978年に日本工業規格 JISが，国際規格で制定された 7ビット情報交換用符号をもとに 1文字を 2バイトで表す JIS漢字コードを制定した。1983年に改定され，字体の簡略化，異体字の入れ替え，記号の追加が行なわれ，1990年には補助漢字が追加された。そのほかに，パーソナル・コンピュータで多く使われているシフトJISコード，日本語対応ユニックスで使われる EUC; Extended UNIX Codeなどいくつもの文字コードがある。このため，使用するコードの設定が異なると，文書が読めないなどの問題が生じる場合がある。世界中で使われている文字をコード化しようというユニコードプロジェクトがアメリカ合衆国の企業などを中心に進められたが，当初設定した単位である 2バイトコードでは文字が収まりきらず，追加的に一部を 4バイトコードにするなどしたため，複雑なものとなっている。パーソナル・コンピュータのオペレーティングシステム OSレベルではすでにユニコードに対応している。

出典　ブリタニカ国際大百科事典小項目事典ブリタニカ国際大百科事典小項目事典について　情報

Sponserd by

IT用語がわかる辞典「文字コード」の解説

もじコード【文字コード】

文字や記号をコンピューターで扱えるよう、個々に割り当てられた固有の符号。欧米の英数字は1バイトの情報量（最大256文字）で表現され、ASCII(アスキー)という文字コード体系が広く用いられる。漢字などの字種が多い言語においては独自の文字コード体系が存在し、日本には2バイトの情報量（最大65536文字）を持つJISコード・シフトJISコード・EUCの3種類がある。◇「キャラクターコード」ともいう。

出典　講談社IT用語がわかる辞典について　情報

Sponserd by

ホームページ制作用語集「文字コード」の解説