【what is this】現代AI技術において、強化学習(Reinforcement Learning)は重要です。これをご存じ無い方、または、(実は私もこれに該当しますが)少しは知っているがもっと明確にしたい方のために、ベルマン方程式に基づく「状態価値関数」とは何かをビジュアルに観察して、親しみを持ちましょう。さらに先をめざす手掛かりとして。
■ベルマン方程式にもとづく状態価値関数
詳細を把握するには、例えば中井悦司著の強化学習に関する書籍[1]を読んでいただく必要がありますが、ここでは、状態価値関数の一面に親しむことにします。実際、以下の内容は、この書籍の第2章(pp.45-100)を学んで得られる成果(結論)なのです。
強化学習の定番例題のひとつに、2次元GridWorldがあります。そのバリエーションは多様ですが、ここでは図1のような設定にします。すなわち、2次元の特定のマスからひとマスづつ進めて、右下隅のゴールをめざします。ただし、進行方向は右か下かに限定され、それぞれ1/2の確率で選択されます。どのマスから開始すれば少ない移動回数でゴールできるでしょうか。(この例ではそれは自明かも知れませんが、一般的な解決手法を得たいのです。)
さらに、以下の図2は、グリッドを19x19に拡大した場合です。図1に比べて、より鮮明な結果をみることができます。
ここでは、マスの右と下へある確率で移動する、という特定の行動ポリシーのもとで状態価値関数をみました。別の行動ポリシー(例えば、右と下へ移動する確率が均等でなかったり、斜め方向にも移動するなど)の場合は、当然、この状態価値関数は変わります。また、どのマスから開始しても、いつもこの関数値が一番大きくなる行動ポリシーを見つけることや、大規模なworldに対する状態価値関数の効率的な計算法も大きなテーマになります。
0 件のコメント:
コメントを投稿