ニューラルネットワークは、多数の神経細胞(ニューロン)のネットワークである人間や生物の脳神経系の構造やふるまいからヒントを得た情報処理の仕組みであり、神経細胞の数理モデルを相互に結合したネットワークによって情報処理を行う。神経細胞の数理モデルとしては、多入力1出力の素子で、それぞれの入力信号に結合の重みとよばれるパラメーターをかけ合わせて総和をとり、非線形の活性化関数によって変換した値を出力するものがもっともよく用いられている。活性化関数としては、S字形の単調増加性をもつシグモイド関数や、区分線形関数などが用いられる。
ニューラルネットワークの最大の特徴は、脳神経系のような学習能力をもつこと、すなわち、個々の結合の重みをデータにあわせて修正することを繰り返すことで、入力データに対して望ましい値を出力するようになることである。これは、データにあわせてアルゴリズムのパラメーターを修正する機械学習の一種である。結合の重みを修正するためのアルゴリズムはニューラルネットワークの学習アルゴリズムとよばれる。代表的な学習アルゴリズムには、パーセプトロンPerceptron学習(誤り訂正学習)や、誤差逆伝播(でんぱ)学習などがある。
[麻生英樹 2018年6月19日]
ニューラルネットワークによる情報処理の研究は、1943年のマカロックWarren McCulloch(1898―1969)とピッツWalter Pitts(1923―1969)による論理ニューロンモデルの提案にさかのぼる。その後、1949年にヘッブが条件づけ学習を説明するヘッブの学習則を、1958年ごろにローゼンブラットFrank Rosenblatt(1928―1971)が学習する認識システムの端緒であるパーセプトロンを提案し、研究が盛んになった。パーセプトロンの学習法は、誤り訂正学習とよばれるもので、最終的な出力層の神経細胞が、自分の出力と正解の出力の差の情報を用いて学習を行う。1972年にミンスキーMarvin Minsky(1927―2016)とパパートSeymour Papert(1928―2016)が、パーセプトロンの情報処理能力の可能性と限界に関する数理的研究をまとめた書籍を出版したことなどにより、研究は一段落した。1969年(昭和44)に日本の甘利俊一(あまりしゅんいち)(1936― )は、後の誤差逆伝播学習に相当する多層のネットワークの学習法を提案したが、当時の計算機の能力が低かったこともあり、大きな注目は得られなかった。
1980年代には、ラメルハートDavid Rumelhart(1942―2011)、マクレランドJames McClelland(1948― )、ヒントンGoeffrey Hinton(1947― )、ホップフィールドJohn Hopfield(1933― )らが、多層のニューラルネットワークのための学習法である誤差逆伝播学習、確率分布の学習を行うボルツマンマシン、連想記憶のモデル等を提案したことから、コネクショニズムという名の下でふたたび研究が盛んになった。しかし、誤差逆伝播学習では層の多いニューラルネットワークを学習させることがむずかしく、また、1995年ごろに、バプニックVladimir Vapnik(1936― )らが提案したサポートベクトルマシンという機械学習手法が、多くの問題においてニューラルネットワークよりもよい性能を示したこともあり、研究はふたたび下火になり、工学的な応用もあまり進まなかった。
しかし、2006年にヒントンらは、層の多いネットワークを層ごとに学習させる方法を提案し、それによってさまざまなデータに対して深い階層をもつ有効な特徴表現が得られることを示した。さらに、2011年ごろから、不特定話者連続音声認識や画像中の物体の認識などのむずかしいパターン認識の問題に対して、ディープラーニングが従来法を大きく上回る性能を示したことから、研究と応用が爆発的に進むこととなった。インターネット上の各種のサービス等を通じて学習に使えるデータが大量に集積されていたことや、ニューラルネットワークの情報処理が、GPGPU(General Purpose Graphic Processing Unit)とよばれるグラフィック処理用のプロセッサーによる並列計算によって大幅に高速化できたことも、研究を加速した。
画像や音声を入力して、そこに写っているものや、音声に含まれる音素などを出力する認識問題に対しては、入力から出力に向かう方向の結合のみをもつ階層的なニューラルネットワークが使われる。とくに、局所的な特徴が集まってより大域的な特徴を構成してゆく性質を利用した畳み込みネットワークが代表的である。
一方、自然言語テキストや動画などの系列データを、文脈を考慮して扱うためには、出力から入力に戻る方向の結合ももつニューラルネットワークが使われる。なかでも、1997年にホッホライターSepp Hochreiter(1967― )らが提案したLSTM(long short-term memory)は、文脈情報の長さを適切に調節できる点などが再評価され、機械翻訳や、画像・動画からの説明文の生成などの問題に使われて成功している。
このほかにも、パターン認識だけでなく、学習用のデータの確率分布を学習する生成モデルやデータを生成するネットワークと、入力データが本物かネットワークが生成したものかを弁別するネットワークを組み合わせて相互に学習させる敵対的生成学習や、ニューラルネットワークが得意なパターン情報の処理と、計算機が得意な計算や記号処理とを組み合わせたシステムなど、多様な構造のニューラルネットワークが考案され、研究とさまざまな分野への応用の試みが進められている。
そうしたなかで、ReLU(Rectified Linear Unit)、ドロップアウトDropout法、バッチ正規化、残差ネットワークなどの、大規模で複雑なネットワークの学習の性能を高める方法が生み出されている。また、深層ニューラルネットワークを簡単にプログラムして学習と推論を高速に行わせるためのツールや開発環境も数多く構築されて、研究の発展を加速している。
[麻生英樹 2018年6月19日]
ディープラーニングの応用分野は、音声認識や画像認識のようなパターン情報(時空間的に分散した情報)の処理から始まった。たとえば、写真のなかの物体や人を認識する課題では、人間に近い性能を達成している。100万枚を超える大規模なデータを用いて、100以上も層のあるニューラルネットワークを学習させることで能力が向上し、商用のシステムにも使われている。最近では、静止画だけでなく、動画の認識の性能も向上している。
自然言語処理への応用も進んでいる。当初は、レビューなどの文章が、肯定的なものか否定的なものかを識別する評判分析の問題などに適用されたが、LSTM が普及すると、機械翻訳や、画像や動画の説明文を生成する問題などにも応用されるようになった。とくに、機械翻訳への応用では、従来の手法に対して大幅な性能向上を達成した。
強化学習とよばれる、試行錯誤から学習する機械学習手法とディープラーニングの組み合わせによって、古典的なコンピュータ・ゲームや将棋、囲碁などのゲームを学習するシステムがつくられた。2016年には、グーグルに買収されたディープラーニングの研究開発ベンチャー、ディープマインドDeepMind社のハサビスDemis Hassabis(1976― )らが開発したコンピュータ囲碁のプログラムが、世界トップレベルの囲碁棋士に勝利して大きな話題となった。今後は、自ら環境を認識し、判断して行動する知能ロボットや、ビルや街などの大規模なシステムを最適なかたちに制御することなどへの応用が進むことも期待されている。
[麻生英樹 2018年6月19日]
『人工知能学会監修、神嶌敏弘編『深層学習』(2015・近代科学社)』▽『岡谷貴之著『深層学習』(2015・講談社)』▽『斎藤康毅著『ゼロから作るDeep Learning』(2016・オライリージャパン)』▽『Ian Goodfellow, Yoshua Bengio, and Aaron Courville"Deep Learning" (2016・The MIT Press)』