2019.10.07

強化学習(Advantage Actor-Critic)はFX取引できるか（基礎）

こんにちは。次世代システム研究室のY.R.です。外国人です。

本ブログでは、強化学習を用いて、FX取引を試してみたので、その結果を共有いたします。

1. 定義

強化学習の定義は次のとおりです。「強化学習（きょうかがくしゅう、英: Reinforcement learning）とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策(policy)を学習する。」（wikipediaより引用）

強化学習のモデルを上図に示します。エージェントと環境の間のインターフェース(Agent)には、アクション(Action)、タイムリーな報酬(Reward)、およびステータス(State)が含まれます。各ステップで、エージェントはポリシー（Policy）に基づいてアクションの実行を選択し、次の状態を認識してタイムリーに戻り、経験を通じて独自の戦略を変更します。エージェントの目標は、タイムリーな報酬(Reward)ではなく、長期的なリターン(Return)を最大化することです。

2.強化学習の進展

近年、強化学習の発展は著しく、特にゲーム領域において、コンピュータが人間に勝る成果を残しています。

AlphaGo https://ja.wikipedia.org/wiki/AlphaGo

強化学習のブレイクスルーといける成果として、AlphaGoが挙げられます。AlphaGoはGoogle DeepMindによって開発されたコンピュータ囲碁プログラムです。 2017年5月には、七回の世界チャンピオンの柯潔との三番勝負で3局全勝を挙げ、中国囲棋協会にプロの名誉九段を授与されました。コンピュータが人間に打ち勝つことが最も難しいと考えられてきた分野である囲碁において、人工知能が勝利を収めたことは世界に衝撃をもたらしました。AlphaGoの登場は単なる一競技の勝敗を越え、人工知能の有用性を広く知らしめました。

https://aitube.io/video/poker-ai-libratus/

また、ポーカーにおいても、強化学習はその威力を発揮しています。2017年1月にペンシルベニア州ピッツバーグのリバーズカジノで開催されたテキサスホールデムマンマシンバトルにおいて、カーネギーメロン大学（CMU）が開発したAIプログラムであるLibratusは、人間のトッププロ選手を破り、賞金20万ドルを獲得しました。囲碁や将棋と違い、カードゲームの「ポーカー」では相手の手札が公開されていない不完全な応報の中での戦いを強いられる「不完全情報ゲーム」であるため、ポーカーは一般的に最良の手を探し出すアルゴリズムの開発が難しいゲームとして知られています。そのため、AIの進化の尺度を示すものとしてポーカーは機能してきたという側面があり、人間のプロプレイヤーを破るという快挙をカーネギー・メロン大学で開発されたAI「Libratus」が成し遂げたことは、AI開発の歴史的偉業だとたたえられています。

https://deepmind.com/blog/article/alphastar-mastering-real-time-strategy-game-starcraft-ii

また、コンピュータゲームにおいても、強化学習の驚異的な進展みられました。人工知能(AI)企業のDeepMindが開発しているAI「AlphaStar」が、Blizzard Entertainmentのリアルタイムストラテジー(RTS)「スタークラフト2」でプロのトッププレイヤーであるTLO氏とMaNa氏と対戦し、10連勝を達成しました。このようなゲームは、ゲームがリアルタイム進行、不完全情報、極めて広大な行動空間を持つ、という特徴があり、人間のプロに打ち勝つことができたのは、AI分野においてかなりのブレイクスルーとなりました。

今挙げたように、強化学習はこれまでの常識からは考えられないほどの成果を達成してきました。それでは、強化学習は金融取引分野においても、人間より優れた性能を達成できるのでしょうか？

3.方法によってのクラスタリング

強化学習は包括的な領域であり、アイデアに従ってさらに分類することができます。

Value based: これの目的は、最適な報酬の合計を見つけ、すべてのアクションの価値を出力し、最高の価値に基づいてアクションを選択することです。このタイプの方法は、直感にわかりやすいです。しかし、行動空間が連続量の状況では使用が難しくなるという問題があります。代表的なモデルは：Q-learning(Deep Q-learning), SARSAです。

Value based 強化学習に興味があれば、「Deep Q-LearningでFXしてみた」に参考してお願いします。

Policy based: これの目的は、置かれている環境を分析し、与えられる状態をインプットとして次のステップで実行すべきアクションの確率を直接求め、アクションを実行することにより、最適な戦略を見つけることです。代表的な方法はPolicy Gradientsです。

更に、両方の方法の利点を組み合わせたActor-Criticと呼ばれるアルゴリズムもあります。

4.Actor-Critic

これからActor-Criticという強化学習方法を紹介します。

最初は最適行動がわからないので、ランダムにアクションを試していきます。批評家(Critic)はあなたの行動を観察し、フィードバックを提供します。実践者(Actor)はこのフィードバックから学習して、ポリシーを更新し、そのゲームをより上手にプレイします。一方、評論家もフィードバックを提供する独自の方法を更新して、次回のフィードバックを改善できるようにします。外側のリングのポリシー部分を個別に見ると、これは一般的なポリシーベースの方法であり、内部の更新のみを調べ、値ベースの方法である。したがって、ACメソッドは、ポリシーベースと値ベースを組み合わせたメソッドです。

Q関数を利用して擬似コードは以下の通りです。

Actor-Criticの特徴はActor とCritic両方がステップで更新されるということが分かります。

Actor-Criticで良く知られているアルゴリズムはAsynchronous Actor-Critic Agents (A3C)です。A3Cの構築は次のグラフ（左）で示しています。A3Cで複数のAgentはそれぞれの環境（Env）を探索してニューラルネットワークを学習していきます。学習完了後、それぞれのパラメータの勾配情報をマスター各のネットワーク関数に非同期に更新します。これにより、複数のAgentの施行結果に基づき、パラメータの更新がなされるので、学習効率が良くなります。さらに、A3Cの非同期更新を同期更新、つまり全てのAgentの施行が完了してから更新を行う、Actor-Critic Agents (A2C)という方法（グラフ（右））が提出されました。この同期更新により、GPUのutilityが向上し、より学習効率が向上します。