強化学習(読み)キョウカガクシュウ(その他表記)reinforcement learning

デジタル大辞泉 「強化学習」の意味・読み・例文・類語

きょうか‐がくしゅう〔キヤウクワガクシフ〕【強化学習】

人工知能における、コンピューターによる機械学習一種。解決すべき課題に対し、より正しい結果を得るため、試行錯誤を通じて自ら得られる報酬最大化するよう学習を進める。報酬は、確率的にある程度遅れてもたらされる。学習速度が遅く、適切なアルゴリズム設計が難しいが、現実世界に近い不確実性のある環境条件の下で、最適な方策を自ら獲得する特長をもつ。→教師あり学習

出典 小学館デジタル大辞泉について 情報 | 凡例

関連語 教師 相互

ブリタニカ国際大百科事典 小項目事典 「強化学習」の意味・わかりやすい解説

強化学習
きょうかがくしゅう
reinforcement learning

機械学習手法の一つ。正解データの代わりに報酬というかたち学習の手がかりを与える。人間の大脳基底核では,ドーパミンを報酬として用いて,報酬の予測と獲得により行動学習をすると考えられているが,それを学習原理として機械学習に用いたものである。自分のまわりの事物(環境)と相互作用する行動主体(エージェント。→エージェントシステム)が,環境内で行動しながら情報を収集し,自分の報酬を最大化するための行動ルール(ポリシー)を学習する。環境はマルコフ決定過程によって,確率的な状態遷移モデルを用いて定式化される。行動主体が,環境のそれぞれの状態で実行可能な行動をとると,ある確率に従って状態が遷移し,それに応じて報酬がもらえる。ここでマルコフ性とは,状態遷移とそれに伴う報酬の確率が,環境のそのときの状態と行動主体がとった行動だけで決まることをさす。強化学習において,行動主体は,遭遇するさまざまな状況でなにが正しい行動であるか,どの報酬がどの行動によって決まるかを試行錯誤しながら自力で獲得し報酬の最大化を目指す。報酬を与える報酬関数の設計には,行動履歴から推定する方法(逆強化学習)や,行動ルールの学習と報酬関数の推定を並行して行なう方法(徒弟学習)などがある。(→人工知能

出典 ブリタニカ国際大百科事典 小項目事典ブリタニカ国際大百科事典 小項目事典について 情報

世界大百科事典(旧版)内の強化学習の言及

【機械学習】より

…この方式では例を学習したときに,ドメイン知識を用いてそれが正しい例であることを説明する過程で関連する特徴とそうでない特徴を弁別しようとする。
[強化学習]
 帰納学習や演繹学習では正解事例が直接入力された。それに対し一般の生物やロボットのような自律システムの学習ではそのような正解が直接与えられないことが多い。…

※「強化学習」について言及している用語解説の一部を掲載しています。

出典|株式会社平凡社「世界大百科事典(旧版)」

今日のキーワード

南海トラフ臨時情報

東海沖から九州沖の海底に延びる溝状の地形(トラフ)沿いで、巨大地震発生の可能性が相対的に高まった場合に気象庁が発表する。2019年に運用が始まった。想定震源域でマグニチュード(M)6・8以上の地震が...

南海トラフ臨時情報の用語解説を読む

コトバンク for iPhone

コトバンク for Android