改訂新版 世界大百科事典 「文字読取装置」の意味・わかりやすい解説
文字読取装置 (もじよみとりそうち)
character reader
文字を読み取る装置。光学的に文字を読み取るものと,磁気インキを利用したものがある。前者の光学的文字読取装置は,optical character readerを略してOCRともいい,印刷された文字あるいは手書きの文字を光学的に読み取り,文字パターンを認識して文字コードとして入力する装置である。初期の装置は印刷された文字で限られた字種,例えば数字とアルファベットを対象とし,文字の形も機械的な読取りに適した特殊な形のものが使用された。最近では読取りの対象もかたかなから漢字まで,また印刷文字でなく手書文字まで読み取る技術が開発され,一部は郵便番号読取装置等で実用化している。
印刷文字の読取りには,主としてパターン照合の技術が使用される。すなわち,文字を光学的にスキャンしてドットパターンとして読み取り,標準パターンと比較してもっとも近い文字を選び出す。読取りの対象文字数を限定すれば比較する標準パターンの数を少なくできるので,比較的簡単な装置で読み取ることができる。例えば数字と若干の英文字,記号を対象としたOCRハンドスキャナーは,片手でもてる読取部で文字の列をなぞるだけで文字を読み取ることができる。
手書文字の読取りでは,字の変形が著しいので簡単なパターン照合では文字の認識を行うことはできず,読み取った文字の構造を解析していろいろな形の特徴を抽出し,認識辞書と照合して文字を判定する。抽出する特徴の例としては,線分の長さや向き,分岐点や屈折点の位置とその点から出る線分との関係,湾曲の向きなどであり,これらをパラメーター化して辞書に登録する。辞書は実際の手書文字のサンプルを収集して作成する。読み取った文字から抽出した特徴を辞書と照合して文字の判定を行う。実用に供されているOCRでは,記入枠の中にていねいに書かれた数字,アルファベット,かたかなの読取りが可能である。漢字の読取りは文字数と字画の複雑さが格段に大きいため読取りはさらに困難となるが,特徴抽出の種々の手法が開発され,ある程度の実用化のめどがついてきている。この場合はまず大分類により候補文字のグループを選び出し,次に詳細の比較で最終的な文字の判定を行う。
OCR装置は文字のパターンをドットパターンで読み取る光学スキャナー,読み取ったパターンの中から1文字ずつの文字パターン部分を切り出す回路,文字パターンから文字判定のための特徴を抽出し,辞書と照合して文字を判定する回路,判定すべき全文字の特徴の情報を蓄えておく辞書の各部分から構成されており,さらに読取りができなかった場合にオペレーターが原パターンを見て修正作業を行うためのコンソールディスプレーなどを有している。読取りの精度を上げるためには,実際に書かれた文字の細かい相違を辞書に取り入れ,また必要に応じて新しい特徴を追加して辞書の整備を行っていく必要がある。
磁気インキ文字読取装置については,〈入出力装置〉の項目を参照されたい。
→パターン認識
執筆者:林 英治
出典 株式会社平凡社「改訂新版 世界大百科事典」改訂新版 世界大百科事典について 情報