音声の意味内容や,音色に関する情報(発声者,性別,喜怒の感情など)を聞き分ける処理を音声認識という。従ってこれらの情報の機械による認識に限らず,人間の認識機能にも使われるが,最近は前者に限定されることが多い。機械による音声認識には,その意味情報を認識する(狭義の)音声認識と,音色情報の内で発声者がだれかを認識する話者認識とがある。前者では1952年に作られた数字音声の認識機械が最初で,アメリカのデービスK.H.Davisらによる。これは音声波を周波数分析して得られる低周波域の二つのフォルマントの周波数変化特性により認識する機械である。0~9の10個の数字についてあらかじめフォルマント軌跡を分析し,標準パターンとする。これを認識音声入力のフォルマント軌跡と比較し,類似度の最も高い数字音声を認識結果とする。この機械では標準パターンと認識音声入力が同一発声者であれば,認識率が高いが,同一でないと認識誤りが増える。これはフォルマント周波数の値が発声者によって異なるためである。最近の認識機械では低周波域のフォルマントのみならず,高周波域のものも用いており,そのため十数個の帯域フィルターや線形予測分析により,精密に分析している。また標準パターンを発声者ごとに作り直して認識率を高める機械が多い。これを特定話者用と呼ぶ。標準パターンを作り直す必要のない不特定話者用もあるが,語彙(ごい)数が数十単語以下で,認識率がやや悪くなる。特定話者用は語彙数が数百単語にできるが,標準パターンの作成に手間がかかる。標準パターンを単語の代りに音素で表し,音素系列で書いた単語辞書を別に記憶する形式のものもある。こうすれば標準パターンの作成は語彙数にかかわらなくなる。しかし/san/(3)と/nana/(7)の/a/,/n/にみられるように,個々の音素の音響特性には種々の変形が生ずるので,標準パターンに用いる音素の数を増やす必要がある。一般に個々の音素の音響特性はさまざまに変形するので,音声波を分析しながら直ちに文字記号に変換する形式の,いわゆる音声タイプライターでは認識誤りが多い。そのため構文,意味などに関する豊富な言語的知識を用いて,音響分析のみによる認識誤りを訂正する機能をもつ機械が研究されている。これを音声理解システムと呼ぶ。
話者認識に関しては,ソナグラム(ソナグラフ)により認識可能であるとして,これを声紋と名づけたのが始まりで,1962年にアメリカのカースタL.G.Kerstaが発表した。ソナグラムは縦軸が周波数,横軸が時間で,周波数成分の強さが濃淡で表される。同じ単語を同一人が繰り返し発音したときのソナグラムはよく似ているが,発声者が代わると差異が多くなるので,発声者ごとの標準パターンをあらかじめ記憶しておくことにより,視覚によって話者認識が可能となる。しかしソナグラムパターンは発声時期が変わると変動する性質があり,声紋による話者認識の信頼性には問題があるとされている。最近はソナグラムに代わって音響分析データによる話者認識機械が研究されている。そして認識音声入力が標準パターンと同じ単語で,かつ標準パターンの発声者の一人のものであれば,高い認識率が得られるようになってきて,音声による買物や身元照合などへの応用が考えられている。
→音声合成
執筆者:斎藤 収三
出典 株式会社平凡社「改訂新版 世界大百科事典」改訂新版 世界大百科事典について 情報
出典 ブリタニカ国際大百科事典 小項目事典ブリタニカ国際大百科事典 小項目事典について 情報
出典 株式会社平凡社百科事典マイペディアについて 情報
(築地達郎 龍谷大学准教授 / 2007年)
出典 (株)朝日新聞出版発行「知恵蔵」知恵蔵について 情報
出典 ASCII.jpデジタル用語辞典ASCII.jpデジタル用語辞典について 情報
…これによって得られる特徴パラメーターをもとに,音声を合成したり認識・理解したりする。最近の技術の進展により,音声認識・理解の応用技術として音声ワープロや人と機械とが音声で対話がきるようになってきた。しかし,まだ機械の能力は人の能力に遠く及ばない。…
…(1)分散問題解決 分散問題解決は,疎に結合した(すなわち,通信にコストを要する)エージェントが協力して一つの問題を解くもので,結果共有,タスク共有という二つの問題解決モデルが提案されている。結果共有は,独立の見地に立つ複数のエージェントが問題の中間結果を持ち寄る協調の方式で,音声認識や分散センシングに応用された。これらの応用の特徴は,エージェントが収集可能なデータが不完全で,他のエージェントのデータと矛盾する可能性があることである。…
…また,音声出力のためには,その逆の変換をしてスピーカーで出力する。しかし,このようにして人間の音声をディジタル量に変換しても,それをただちに言葉として理解することはできず,さらに音声認識,形態素解析,構文解析などの知的な変換が必要である。また,音声出力においても音声合成という知的な変換が必要である。…
※「音声認識」について言及している用語解説の一部を掲載しています。
出典|株式会社平凡社「世界大百科事典(旧版)」
年齢を問わず、多様なキャリア形成で活躍する働き方。企業には専門人材の育成支援やリスキリング(学び直し)の機会提供、女性活躍推進や従業員と役員の接点拡大などが求められる。人材の確保につながり、従業員を...
11/21 日本大百科全書(ニッポニカ)を更新
10/29 小学館の図鑑NEO[新版]動物を追加
10/22 デジタル大辞泉を更新
10/22 デジタル大辞泉プラスを更新
10/1 共同通信ニュース用語解説を追加