最後に
次世システム研究室では、ビッグデータ解析プラットホームの設計・開発を行うアーキテクトとデータサイエンティストを募集しています。興味を持って頂ける方がいらっしゃいましたら、ぜひ 募集職種一覧からご応募をお願いします。一緒に勉強しながら楽しく働きたい方のご応募をお待ちしております。
2020.04.15
こんにちは、次世代システム研究室のK.Nです。今日は、強化学習の比較的新しいモデルである、WorldModelについて紹介します。(本家のHPがかなり充実しているので、実際のところ、そちらで十分な感じもありますが..)。以降、計算結果までのの段落で使わる図はすべて、そこから引用しています。
こちらで紹介したように、強化学習の手法は大まかに「モデルあり」、「モデル無し」で分けることができます。ここでいう、モデルとは環境に対してであり、ある状態と行動を所与としたときの次時点の状態の条件付き確率を意味します。有名な強化学習の手法であるDQNやPPO2等は「モデルフリー」になります。
モデルフリーの強化学習は、環境構造に対する理解を試行錯誤した経験によって習得します。そのため、多くのサンプルが必要となり、学習が非効率です。また、観測データをそのまま環境に対する情報として扱っているため、環境の変化やタスクが変わったときにうまく対応できない、つまり汎化性能が低いという問題があります。反面、本来知り得ない環境をモデル化することにより発生するバイアスが生じる問題はなくなります。
WorldModelは、これらの問題を解決するために、環境に対する抽象的なモデルを構築し、そのモデル上で強化学習を行います。環境のモデルに対する学習は強化学習のタスクとは独立に行うことができるので、転移学習のような応用も可能だと考えられます。
また、WorldModelの構成は以下の図のようなVMCの3つの部品から構成されます。このモデル構成こそが今回の肝になります。
大変シンプルで役割もはっきりして分かりやすいです。具体的には、VにVAEを、MにRNNを、そしてCには単純な線形関数を利用しています。このことからも分かる通り、世界モデルの構築(抽象表現の獲得とその将来予測)こそが重要であり、世界モデルが十分正確ならば、強化学習のタスク自体はより単純なモデルで処理できるというのが今回提案された手法の思想です。この手法の考え方には、人間の認知方法があります。
それは、我々は目の前にある現実世界を、完璧なイメージを描いているわけではなく、抽象化した内部モデルを通して捉えています。そして、常日頃、脳の中の内部モデルを使って、将来の刺激を予測しながら、行動していると言われています。その意味では、WorldModelでは、時間的な表現をRNNで、空間的な表現をVAEで大規模な内部モデルを構築し、タスクの実行自体は小規模なモデルで表すことにより、個々の役割をはっきりさせています。また、VAEではなくGANやPCAで使うであったり、RNNではなく1D-CNNを使うといったことも応用できる可能性は高いと思います。
具体的に、モデルの構成について見ていきます。ここでは、強化学習のタスクとしてTVゲームを考えています。
グループ研究開発本部の最新情報をTwitterで配信中です。ぜひフォローください。
Follow @GMO_RD