デジタル大辞泉
「強化学習」の意味・読み・例文・類語
きょうか‐がくしゅう〔キヤウクワガクシフ〕【強化学習】
出典 小学館デジタル大辞泉について 情報 | 凡例
Sponserd by 
強化学習
きょうかがくしゅう
reinforcement learning
機械学習の手法の一つ。正解データの代わりに報酬というかたちで学習の手がかりを与える。人間の大脳基底核では,ドーパミンを報酬として用いて,報酬の予測と獲得により行動学習をすると考えられているが,それを学習原理として機械学習に用いたものである。自分のまわりの事物(環境)と相互作用する行動主体(エージェント。→エージェントシステム)が,環境内で行動しながら情報を収集し,自分の報酬を最大化するための行動ルール(ポリシー)を学習する。環境はマルコフ決定過程によって,確率的な状態遷移モデルを用いて定式化される。行動主体が,環境のそれぞれの状態で実行可能な行動をとると,ある確率に従って状態が遷移し,それに応じて報酬がもらえる。ここでマルコフ性とは,状態遷移とそれに伴う報酬の確率が,環境のそのときの状態と行動主体がとった行動だけで決まることをさす。強化学習において,行動主体は,遭遇するさまざまな状況でなにが正しい行動であるか,どの報酬がどの行動によって決まるかを試行錯誤しながら自力で獲得し報酬の最大化を目指す。報酬を与える報酬関数の設計には,行動履歴から推定する方法(逆強化学習)や,行動ルールの学習と報酬関数の推定を並行して行なう方法(徒弟学習)などがある。(→人工知能)
出典 ブリタニカ国際大百科事典 小項目事典ブリタニカ国際大百科事典 小項目事典について 情報
Sponserd by 
世界大百科事典(旧版)内の強化学習の言及
【機械学習】より
…この方式では例を学習したときに,ドメイン知識を用いてそれが正しい例であることを説明する過程で関連する特徴とそうでない特徴を弁別しようとする。
[強化学習]
帰納学習や演繹学習では正解事例が直接入力された。それに対し一般の生物やロボットのような自律システムの学習ではそのような正解が直接与えられないことが多い。…
※「強化学習」について言及している用語解説の一部を掲載しています。
出典|株式会社平凡社「世界大百科事典(旧版)」
Sponserd by 