現実の世界からの視覚的・聴覚的な刺激信号である文字、図形、映像、音声などのパターン情報を見て、これを既知の文字、幾何学的図形、風景中の事物、音韻などと対応づけ、識別すること。たとえば、手書きや印刷された文字を受けてこれがなんという文字であるかを識別する文字認識や、話声を聞いてなんという単語が発声されたかを識別する音声認識などがある。より一般的には、受け付けたパターン情報を、与えられた判定基準に基づいて、それが本来属すべき(既知の)カテゴリーに対応づける操作のことをパターン認識という。
生体のパターン認識機構については、生物学、生理学、心理学的実験などが行われている。視覚、聴覚、触覚、味覚、嗅覚の五感にかかわる神経細胞の機能や役割、その特性が解明されつつある。視覚、聴覚の仕組みを模したセンサーに加えて、味覚、嗅覚の仕組みに学んだセンサーも開発されるようになった。しかし現状ではいまだ解明されていない点も多く、認識機構全体にわたる指導的理論の確立はみられない。
工学的には、コンピュータなどによる認識機能の実現方法の開発が主要な目標である。既存のコンピュータの機能、構成に適したアルゴリズムの開発や、パターン認識に適したコンピュータの構成法、さらにはパターン認識の仕組みを簡略化して組み込んだ専用機器なども研究されている。コンピュータは数値計算などには非常な威力を発揮するが、人間が五感を通して容易に実現するパターン認識をまねることはむずかしい。人間のパターン認識の能力はきわめて優れているが、コンピュータにとってはもっとも苦手な処理の一つである。
[加藤俊一・棟上昭男]
工学的なパターン認識の研究は、コンピュータが使われだした1950年代から始められ、文字読取り装置や音声タイプライターの基礎的な試みがなされた。日本での手書き数字の郵便番号自動読取りや、アメリカでの数字音声認識装置はもっとも早く実用化した技術の一つである。各種の文字読取り装置(OCR)は1970年代に入って実用化が進み、認識対象も印刷文字から手書き文字へ、数字、アルファベット、片仮名から漢字へと広がった。
1970年代に入り、より複雑な対象として写真などの一般の画像の処理と認識、連続音声の認識の問題が研究されるようになった。国土情報処理への応用では、ランドサット画像や航空写真でのリモートセンシングによる土地利用状況の解析、軍事面では標的の形状認識や自動追尾などの技術も実用化された。
1980年代には三次元の世界の認識への応用も活発になり、視覚機能をもったロボットの実用化も進んできた。また、認識の内容もパターン情報の分類、識別にとどまらず、パターンの構造解析や人工知能的色彩の強いパターン理解の研究も盛んである。
1990年代以降は、固定的、一義的な判定基準に基づくカテゴリー分類ではなく、利用者ひとりひとりの興味、関心、嗜好(しこう)や、そのときどきの意図などの文脈に基づいて判定基準を柔軟にする仕組みも研究されるようになった。このような観点からの研究は、感性情報処理ともよばれ、情報処理分野のみならず、商品企画、製品設計などの分野でも盛んになってきている。
[加藤俊一・棟上昭男]
工学的なパターン認識の過程をやや詳しくみると、「対象パターンの観測(入力)→前処理→特徴抽出→判定」の四つのステップに分けられる。実際のパターン認識では、既知のパターンや基準(標本パターンとよぶ)とまったく同じものが観測されるとは考えにくい。たとえば、観測装置(カメラなどの画像入力装置、マイクロホンなどの音声入力装置)で入力する場合、観測時に雑音(機器ノイズ)が重畳する。また、文字を記入した用紙上の汚れや、マイクロホンの周囲の環境雑音など、観測すべきパターンにも雑音が重畳している。このような理由から、観測されたパターンから本質的な情報を抽出しやすくするために、雑音除去などの前処理が必要とされる。
一般に、文字や音声などのパターンをコンピュータ内部で表現すると、そのデータ量は非常に大きくなる。この場合、パターンをそのまま扱うかわりに、そのパターン特有の性質を表現する比較的少数の数値や記号の組で代用して処理する。これを特徴パラメーターとよぶ。特徴パラメーターは、認識する対象や目的によって異なる。たとえば、Aさんが発声したある単語に対して、それがなんという単語であるかを識別する場合(別の単語と区別する単語認識)と、だれが発声したかを識別する場合(Bさんの声、Cさんの声などと区別する話者認識)では、抽出する特徴パラメーターは、前者は母音の周波数と強さ、後者は音声波形に注目して定義される。対象や目的に応じてどのように特徴パラメーターを定義するかは、パターン認識の重要な研究課題である。特徴パラメーターに基づいて入力パターンがどのカテゴリーに属するか、既知の基準と比較して判定する。パターン認識における判定では、前述の特徴パラメーターの選択がむずかしいうえに、判定基準の与え方や判定のアルゴリズムが複雑で、人間にすら判定基準が明確にいえない場合がある。たとえば、人間は、上手に書いた「あ」も下手に書いた「あ」もともに「あ」と判定できるが、これを明確な判定基準として示すことはむずかしい。単純な数値の比較だけではない高度な判定のメカニズムの実現も、パターン認識機能実現のための重要な課題である。
このようなパターン認識を発展させた技術として、パターン理解pattern understandingがある。パターン理解の仕組みでは、対象群の種々の特徴を統計的に分析するなどして、対象群にあわせて判定する基準を自動的あるいは半自動的に学習する機能をもつ点が特徴である。
[加藤俊一・棟上昭男]
パターンにはいろいろな種類があり、パターン認識の応用範囲も広い。現実の物理的な世界からの直接的な刺激に基づくわれわれの五感に結び付いたパターンとして、文字、図形、映像などの空間的なパターンや、音声、動画のような時間的なパターンなどがある。また、抽象的なパターンとして、各種の測定データから求められる交通状態のパターン、経済動向パターンなどが考えられる。
工学分野では、(1)音声パターン、(2)文字、図形、写真などの二次元パターン、(3)三次元での物体の配置、(4)ランドサット画像のようなマルチバンドの画像パターン、(5)交通状態や温度分布などを対象とするパターン計測などの分野への応用がみられる。また、近年では、(6)個人認証(バイオメトリクスbiometrics)のための認識技術の研究も進んでいる。応用例のいくつかを次に紹介する。
[加藤俊一・棟上昭男]
音声へのパターン認識の応用としては、音声認識と話者認識がある。音声認識は、音声信号のなかからことばの意味内容を自動的に抽出することである。単語単位にくぎって発音する場合の単語音声認識、自然な状態で話した場合の連続音声認識などが研究されている。単語音声認識は工場などでの機械の制御や、電話での質問応答システムに利用されている。また、最近では、連続音声中のストレス(アクセント)の置き方や発話の時間変化の特徴を分析して、話者の心理状態を推定する技術も開発されてきた。
[加藤俊一・棟上昭男]
ワードプロセッサーやパーソナルコンピュータの普及により、始めからコンピュータ処理できる(機械可読)文字コード主体の文書が増えてきている。しかしながら、紙の上に印刷あるいはメモ書きされた文字を、コンピュータ処理したいという需要も依然多い。
手書き数字の郵便番号自動読取りは、もっとも早く実用化された技術の一つであるが、これは、定められた枠内に10種の数字だけを許すことで成功したといえる。その後、文字読取り装置の研究、実用化が進み、印刷された漢字や手書き文字なども、実用的な精度で認識ができるようになってきている。
[加藤俊一・棟上昭男]
リモート・センシングにおける画像解析では、たとえば既知の性質の土地の画像領域を探索すべき典型的な実例として与え、これと同様の性質(赤外線反射率などの特徴パラメーター)をもつ領域を自動的に捜し出すなどの処理形態が多い。顕微鏡画像での形状認識による血球の計数や、溶鉱炉などの装置の温度分布パターンによる温度管理などにも、認識技術が利用されている。
[加藤俊一・棟上昭男]
コンピュータの処理能力の飛躍的な向上により、出現する記号の形状やサイズの多様な電気回路図、機械製図、プラント図、地図などがパターン認識可能な対象となってきた。たとえば、手書きの電気回路図をパターン認識すると、素子、部品の接続関係や何個使用されているかをコンピュータで管理できる。また、認識結果を、設計された回路が妥当かを検査する理論シミュレーターの入力としたり、手書きの図面を清書して出力することも可能となる。
二次元の画像だけでなく、三次元空間での機械部品や工具の形状、配置を識別する研究も盛んである。テレビカメラなどから入力された風景のなかから、既知の物体の一部を発見し、それらの遮蔽(しゃへい)関係から物体相互の位置関係を理解する。このような技術は、ロボットがその周囲の状況を自動的に認識し制御するための基礎となり、産業用ロボットをより高度化するために不可欠である。
[加藤俊一・棟上昭男]
近年、個人認証の新しい方法として、他人が盗むことの難しい、本人の生体的な特徴を用いる手法(バイオメトリクス)が実用化されてきている。たとえば、話者認識は、音声信号に含まれる本人特有の情報を利用して個人識別を行うものである。筆跡認識は、署名などの手書き文字に現れる書き癖の特徴を検出して個人識別を行うものである。このほか、指紋、掌紋(しょうもん)、手のひらの静脈、虹彩などの身体そのものを利用する場合もある。
基本原理で述べたように、パターン認識の過程は、入力されたパターンを、事前に用意したいくつかのカテゴリーのいずれかに分類することである。ここでの分類の基準や特徴抽出の機構は固定的で、パターンの信号や、信号に近いレベルでの特徴パラメーターのみをおもに対象としていた。したがって、実際に認識できるパターンはきわめて限定されることが多く、パターンの変動が大きい場合や判定基準が複雑な場合には対処できない。このような理由から、パターン認識での「対象パターンの観測→前処理→特徴抽出→判定」の固定的な処理の流れに対して、学習やその結果に基づく適応化機能により、処理の進みぐあいに応じて対象パターンの記述の枠組み(モデル)を修正、構築できるパターン理解の概念が提唱された。パターンの入力信号だけでなく、それから得られる対象パターンの構造や意味的な情報も、利用可能にしようとするものである。
狭義の人工知能(AI)研究は、おもにパターンの意味表現や知識表現を対象としている。したがって、パターン理解は、実際の信号レベルの入力、処理と、人工知能における知識や意味表現と利用の間を埋めるものと位置づけられる。
[加藤俊一・棟上昭男]
『坂井利之著『情報基礎学――通信と処理の基礎工学』(1982・コロナ社)』
音声,文字,図形,画像などのパターンが何を表しているかを知ること。パターンは,多くの観測値が集まってはじめて意味のある情報を表している。パターン認識の対象は次のように大別される。(1)一次元波形 音声,地震波,心電図など。(2)二次元データ 普通の濃淡画像やカラー画像のほか,X線写真,赤外線写真のような不可視画も含む。さらに,多数の点の距離データも二次元データである。とくに人間が作った画像(図面,略図,天気図など)を図形という。(3)動画像 一定時間ごとに入力した多数の画像で,動きの解析に役立つ。なおパターン認識では,すべてを自動的に行うとはかぎらず,重要な部分を人間が行い,コンピューターは人間を助けるという対話形式で行うこともある。
パターン認識の対象として,文章のような記号列を含める場合もある。しかし,パターンの本来の意味からも,記号列を除外することが多い。パターン認識の古くからの定義は,観測されたパターンが,既知のどのパターンと最もよく似ているかを決定することである。たとえば,あるアルファベットが既知の文字〈A〉と最もよく似ているとき,それをAと認識する過程をいい,既知のパターンをモデル,あるいはモデルパターンという。最近では,たとえば屋外写真から,道路,木,建物などがどのような関係にたっているかを知ることもよぶが,この場合,対象の風景写真と似た既知の写真がなく,写真を構成する要素が既知であるにすぎない。この広義のパターン認識は,パターン理解ともいわれる。以下では,古くからの狭義のパターン認識とパターン理解を説明する。
狭義のパターン認識の過程は,図1のように入力,前処理,特徴抽出,決定の4段階に分けられる。入力では,音や光がマイクロホンやテレビカメラなどの入力装置によって電気信号に変換され,さらに必要に応じてそれが数値に変換される。前処理は,以後の特徴抽出や決定に都合のよい処理を行う過程で,たとえば入力装置によってゆがんだパターンをもとに戻したり,入力文字の大きさをそろえたりすることである。この入力と前処理は,認識対象ごとに異なるので,従来のパターン認識の研究ではあまり取り上げられていない。特徴抽出は,決定を行うのに有効なパターンの性質を特徴として抽出する過程で,前処理と特徴抽出は不要なこともある。決定では,前段階の結果から,入力パターンが既知のどのモデルパターンに近いかを決める。パターン認識のむずかしさは,入力パターンがモデルと必ずしも一致せず,最も近いモデルを選択しなければならないことにある。
パターン認識の目的は,対象が音声でも文字や画像であっても,必ず入力パターンが何であるかを決定することである。最も簡単な方法は,入力パターンとモデルパターンをパターンマッチングによって重ね合わせて,その一致度を調べ,最もよく一致するモデルパターンを認識結果とすることである。パターンマッチングは印刷文字のように,モデルパターンと入力パターンの差が少ない場合に有効である。パターンマッチングだけで決定できない場合には,二つのパターンの近さを調べなければならない。入力パターンそのもの,あるいは入力パターンの特徴がx1,x2,……,xnというn個の数で表されるとする。これは,n次元のベクトルx=(x1,x2,……,xn)で表すことができる。いま,モデルパターンがm個あったとする。それぞれをn次元ベクトルで表しておく。つまり,モデルパターンはx1,x2,……,xmというm個のベクトルに対応する。入力パターンとi番目の標準パターンの近さは,xとxiの近さであるとみなし,xとxiの距離によって決定する。たとえば,図2のようにxとxiをn次元空間の原点から発するベクトルとみなし,ベクトルの先端の距離dとする。また,xとxiのなす角θを距離の定義とすることもできる。距離の定義が与えられれば,決定は簡単で,入力もパターンから得られるベクトルxに最も近い標準パターンxiを求めればよい。以上のほか種々の距離の定義が研究されている。
実際のパターン認識はこのように簡単でない場合が多い。たとえば,パターンが2種類で,実験によって得られたパターンが図3のように分布していたとする。それぞれのパターンの標準パターンをどのように定めても,前述の距離の定義だけではすべてを正しく認識できない。この問題を解決するためには,より適した特徴を抽出するか,より多くの標準パターンを用いるか,あるいはより複雑な決定理論を用いるかである。実用的には,前2者の方法を採ることが多い。それで対処できない場合には,二つのパターンの境界を曲線にするような複雑な決定法を導入しなければならない。
パターン認識の決定法を,例題を与えるだけでも自動的に学習させようとする方式もある。とくに,決定を用いるパラメーター(閾値や式の係数)を学習によって調整する方式が多く用いられている(学習機械)。
もう一つの問題は,パターンの種類が多い場合に,決定のための計算量が多くなることである。その解決法の一つは,あらかじめモデルパターンを大ざっぱに分類しておき,入力パターンが最初にこの大分類のどれであるかを決定し,次にその中のどのモデルパターンかを決定する多段決定法である。また,特徴の値を順番に調べていき,その値によって枝分かれして,最後にモデルにたどりつくという探索の問題として決定を行う方法もある(探索理論)。
入力パターンは多くの観測値の集まりであるので,データー量が多い。特徴抽出の目的は,多くのデータからパターン認識に有効な情報だけを取り出すことである。どの特徴をどのようにして抽出したらよかを決める一般的理論はないが,いくつかの特徴の候補が与えられたとき,どの特徴が有効であるかを統計的に評価する方法はある。有効な特徴から順に選択していき,いくつかの入力パターンに対して認識実験を行って,適当な数の特徴を決めることができる。また,学習によって有効な特徴を自動的に選択する方式もある。
パターン理解は,音声理解や画像理解などの総称である。音声理解はアメリカで1971年から5年間研究された音声理解プロジェクトに由来する。そのプロジェクトでは,音声を単に信号とみなして各瞬間の音が何であるかを決めるのではなく,単語辞書,文法,話の内容などを考慮して,文章全体を理解することを目標にした。その後,視覚パターン認識に対しても,視覚パターンを詳しく解析して,それが表す内容を理解するアプローチが盛んになり,画像理解とよばれるようになった。いずれも,人間がパターンを理解する能力を人工的に実現することをめざし,人工知能の研究分野の一部を占めている。
ここでは,画像理解を例として取り上げ,その処理過程を簡単に説明する。対象は,図4に示すような積木のシーンとする。このシーンをテレビカメラで撮影して濃淡画像を入力するまでは,狭義のパターン認識と同じである。その後の処理過程を図5に例示する。特徴抽出では,対象がどのようなものであるかを詳しく知るため,できるだけ多くの有用な情報を抽出する。この例では,画像の中で明るさが急変する点を求め,隣どうし近い点を連結して線を求める。このようにして図4に示すような線画が得られる。これは,画像に関する特徴である。線画の各線は,明るさがその線の両側で異なることを表しているにすぎない。対象が凸の多面体の積木であれば,各線は積木の稜に対応している。さらに,各稜に対して,両側の面が同じ物体かあるいは一方が他方の手前にあるかを決定する。この処理は,画像の特徴を解釈することであり,その結果としてシーンがどのようになものであるかという記述が得られる。この記述から,シーンには二つの物体があり,一方が他方の手前にあることがわかる。ここであらかじめ,四角柱や三角柱のモデルたとえば,四角柱は〈各頂点で三つの四角形の面が凸に交わる〉と作っておき,このようなモデルとシーンの記述を照合すれば〈四角柱があり,その後方に三角柱がある〉という結果を得ることができる。以上は画像理解の典型的な例であり,対象シーンや用いる情報(カラーや距離)によって多少異なるが,その原理は同じである。
パターン理解は,限定されたモデルから一つを選ぶという狭義のパターン認識と異なり,対象に関する詳しい記述を作らなければならない。したがって,対象に関する知識を有効に利用して,考慮しなければならない範囲をなるべく限定し,処理時間を短縮するとともに,誤りの可能性を少なくすることが望ましい。たとえば,前述のように対象が凸の多面体を含むシーンであれば,そのことを利用して線画の各線が積木の境界か凸の稜であるか,またどの線が同じ物体に属するかなどを知ることができる。もし対象が人間の顔であれば,目や鼻の位置関係を利用して,それぞれを速く認識することができる。音声理解でも,単語辞書や文法を利用すれば,ありえない音素系列を除外できる。対象が複雑になるほど,利用できる知識も多くなり,知識利用の効果も大きくなる。多くの知識をいかにしてコンピューターに表現するかという知識表現や,知識を効率よくコンピューターに与える方法が重要になる。そのために,コンピューターに学習機能を与えようとする方式も開発されている。
執筆者:白井 良明
出典 株式会社平凡社「改訂新版 世界大百科事典」改訂新版 世界大百科事典について 情報
出典 ブリタニカ国際大百科事典 小項目事典ブリタニカ国際大百科事典 小項目事典について 情報
出典 株式会社平凡社百科事典マイペディアについて 情報
(星野力 筑波大学名誉教授 / 2007年)
出典 (株)朝日新聞出版発行「知恵蔵」知恵蔵について 情報
出典 ASCII.jpデジタル用語辞典ASCII.jpデジタル用語辞典について 情報
米テスラと低価格EVでシェアを広げる中国大手、比亜迪(BYD)が激しいトップ争いを繰り広げている。英調査会社グローバルデータによると、2023年の世界販売台数は約978万7千台。ガソリン車などを含む...
11/21 日本大百科全書(ニッポニカ)を更新
10/29 小学館の図鑑NEO[新版]動物を追加
10/22 デジタル大辞泉を更新
10/22 デジタル大辞泉プラスを更新
10/1 共同通信ニュース用語解説を追加