日本大百科全書(ニッポニカ) 「音声認識装置」の意味・わかりやすい解説
音声認識装置
おんせいにんしきそうち
人間の音声を機械によって自動認識する装置。たとえば、「0」から「9」までの数字音声を認識して計算機にデータを入力する装置とか、荷物の荷札に書かれた送り先地名を読み上げる音声を認識して、荷物を宛先(あてさき)別に仕分けする装置などがある。 人間の音声波形には、音声の言語としての内容のほかに、性別、年齢、話す人の発音の個性といった、さまざまな情報が含まれている。そのため、機械による認識は簡単ではない。
現在主流となっている技術では、以下のような方法で個性をも含めた音声を再現する。まず、音声波形から導かれるスペクトル情報(パターン)を分類しておき、それらを組み合わせて単語や短文の音声を表現する。しかるのち、各パターンに対応するサンプル音声によって、音声を推定する。同じことばでも、状況によって話し方が変わるし、ことばの組合せが変化する。しかも人ごとに変化のパターンが違う。このサンプルの取り方が緻密(ちみつ)であればあるほど、特定の個人の限定された語彙(ごい)だけではなく、音声の認識を可能にする。この方法は、サンプル音声の集め方がむずかしいが、うまく集めれば音声認識そのものは高速であり、かつ実用的である。
[中田和男]