2024.04.01

ChatGPTにトレーディング戦略を実装させてみる

はじめに

グループ研究開発本部・AI研究開発室のS.Sです。
最近ではLLMというと、Stable Diffusion 3やOpenAI Soraといったマルチモーダル方面での発展がめざましいですが、多くのモデルはオープンになっておらずいじってみるということもできないので、引き続きGPT3で金融のタスクを解かせてみるという検証に取り組みたいと思います。

GPTに実装させるストラテジ

S&P 500の銘柄ごとの過去12ヶ月のリターンでランキングを行い、上位をLong・下位をShortするというcross sectional momentumのストラテジをChatGPTにコーディングさせてみます。
このストラテジのイメージを画像に示します。

Take1: 素朴なLong/Short

まずは細かいことは考えずに、過去12ヶ月のリターンを見て、上位50%をLong・下位50%をShortするストラテジをChatGPTに組ませてみます。
以下にプロンプトを示します。

(中略)

# ポートフォリオのリターンを格納するリスト
portfolio_returns = []

# 各月のポートフォリオのリターンを計算
for i in range(len(returns_data)):
    if i < 11:  # 最初の11ヶ月は過去12ヶ月のデータが揃わないのでスキップ
        continue
    # 過去12ヶ月のデータを取得
    past_12_months_returns = returns_data.iloc[i-11:i+1]
    # 各銘柄の過去12ヶ月のリターンの平均を計算し、モーメンタムとする
    momentum = past_12_months_returns.mean()
    # モーメンタムが大きい銘柄をロングポジション（+1）、小さい銘柄をショートポジション（-1）とする
    long_stocks = momentum[momentum >= momentum.median()].index
    short_stocks = momentum[momentum < momentum.median()].index
    # ポートフォリオのリターンを計算し、リストに追加
    portfolio_return = returns_data.iloc[i+1][long_stocks].mean() - returns_data.iloc[i+1][short_stocks].mean()
    portfolio_returns.append(portfolio_return)

# 結果をDataFrameに変換して表示
result_df = pd.DataFrame({
    'Date': returns_data.index[11:],  # 開始日は最初の11ヶ月をスキップしているのでそれに対応
    'Portfolio_Return': portfolio_returns
})
print(result_df)

ほぼ動きそうなコードが回答として返ってきました。
微妙な言い回しの違いにより、末尾の1ヶ月のリターンだけ返すコードになったり、各月毎のリターンを正しく計算してくれたりと回答にブレがあるので、何度か試行錯誤をする必要がありました。
またデータフレームについてもある程度明示的にイメージを説明しないと、うまく実行できないコードが出力される場合があります。

インプットデータとして2001~2017の月次リターンデータを別途用意して上記のコードに与えてみると、ループの回数が1回ずれてしまい、エラーとなります。
ここは以下のように、手で修正を加えると想定通りに動かすことができました。

# ポートフォリオのリターンを格納するリスト
portfolio_returns = []

# 各月のポートフォリオのリターンを計算
for i in range(len(returns_data)-1):
    if i < 11:  # 最初の11ヶ月は過去12ヶ月のデータが揃わないのでスキップ
        continue
    # 過去12ヶ月のデータを取得
    past_12_months_returns = returns_data.iloc[i-11:i+1]
    # 各銘柄の過去12ヶ月のリターンの平均を計算し、モーメンタムとする
    momentum = past_12_months_returns.mean()
    # モーメンタムが大きい銘柄をロングポジション（+1）、小さい銘柄をショートポジション（-1）とする
    long_stocks = momentum[momentum >= momentum.median()].index
    short_stocks = momentum[momentum < momentum.median()].index
    # ポートフォリオのリターンを計算し、リストに追加
    portfolio_return = returns_data.iloc[i+1][long_stocks].mean() - returns_data.iloc[i+1][short_stocks].mean()
    portfolio_returns.append(portfolio_return)

# 結果をDataFrameに変換して表示
result_df = pd.DataFrame({
    'Date': returns_data.index[12:],  # 開始日は最初の11ヶ月をスキップしているのでそれに対応
    'Portfolio_Return': portfolio_returns
})
print(result_df)

得られたリターンをストラテジのパフォーマンスを可視化するquantstatsに食わせてみると、以下のような出力を得ることができました。
特に注目すべき指標はCAGR(複利の年率), Sharpe Ratio(投資の効率性指標), Max Drawdown(ピークからの運用資産の最大下落幅)となります。
素朴な実装だと2008~2009にかけて大きなマイナスリターンを記録しており、直視しにくい結果となっています。
そこで次のセクションではストラテジにいくつか調整を加えていくことにします。

Take2: longバイアスの導入

株価は他の資産と比べると一定ペースで増えていく傾向にあり、よほどの情報を持たない限りはlongポジションを持った方がよいとされています。
longより少し少ない割合でshortポジションも持つことにより、株価が大きく下落するような局面でのマーケットのリスクにも備えることができます。
ここではLong:Short=2:1でポジションを持つようにしてみます。

出力されたコードを以下に示します。

import pandas as pd

# サンプルのインプットデータ（この部分は実際のデータに置き換えてください）
returns_data = pd.DataFrame({
    'AAPL': [0.05, 0.03, -0.02, 0.04, 0.06, -0.01, 0.02, 0.03, -0.05, 0.01, 0.04, -0.02],
    'GOOG': [0.04, 0.02, 0.03, 0.01, 0.05, 0.02, -0.01, 0.03, 0.02, -0.03, 0.01, 0.02],
    'MSFT': [0.03, 0.01, 0.02, 0.03, -0.01, 0.04, 0.05, -0.02, 0.01, 0.02, 0.03, 0.02],
    'AMZN': [0.06, -0.01, 0.02, 0.03, 0.04, 0.05, 0.02, -0.03, 0.01, 0.02, 0.03, 0.01]
}, index=pd.date_range(start='2022-01-01', periods=12, freq='M'))

# ポートフォリオのリターンを格納するリスト
portfolio_returns = []

# 各月のポートフォリオのリターンを計算
for i in range(len(returns_data)):
    if i < 11:  # 最初の11ヶ月は過去12ヶ月のデータが揃わないのでスキップ
        continue
    # 過去12ヶ月のデータを取得
    past_12_months_returns = returns_data.iloc[i-11:i+1]
    # 各銘柄の過去12ヶ月のリターンの平均を計算し、モーメンタムとする
    momentum = past_12_months_returns.mean()
    # モーメンタムが大きい銘柄をロングポジション（+1）、小さい銘柄をショートポジション（-1）とする
    long_stocks = momentum[momentum >= momentum.median()].index
    short_stocks = momentum[momentum < momentum.median()].index
    # ポートフォリオのリターンを計算し、リストに追加
    long_return = returns_data.iloc[i+1][long_stocks].mean()
    short_return = returns_data.iloc[i+1][short_stocks].mean()
    portfolio_return = (2 * long_return) - short_return  # longとshortの重みを2と-1にする
    portfolio_returns.append(portfolio_return)

# 結果をDataFrameに変換して表示
result_df = pd.DataFrame({
    'Date': returns_data.index[11:],  # 開始日は最初の11ヶ月をスキップしているのでそれに対応
    'Portfolio_Return': portfolio_returns
})
print(result_df)

同じくquantstatsでパフォーマンスを評価してみると、今度はまずまずの結果になりました。
結果をよくみてみるとMax Drawdownに関しては、まだ大きすぎる水準です。

Take3: 上位下位10%の銘柄だけをLong/Short

さらにパフォーマンスを改善するために上位下位10%の銘柄だけをLong/Shortするようにしてみます。

出力されたコードを以下に示します。

import pandas as pd

# サンプルのインプットデータ（この部分は実際のデータに置き換えてください）
returns_data = pd.DataFrame({
    'AAPL': [0.05, 0.03, -0.02, 0.04, 0.06, -0.01, 0.02, 0.03, -0.05, 0.01, 0.04, -0.02],
    'GOOG': [0.04, 0.02, 0.03, 0.01, 0.05, 0.02, -0.01, 0.03, 0.02, -0.03, 0.01, 0.02],
    'MSFT': [0.03, 0.01, 0.02, 0.03, -0.01, 0.04, 0.05, -0.02, 0.01, 0.02, 0.03, 0.02],
    'AMZN': [0.06, -0.01, 0.02, 0.03, 0.04, 0.05, 0.02, -0.03, 0.01, 0.02, 0.03, 0.01]
}, index=pd.date_range(start='2022-01-01', periods=12, freq='M'))

# ポートフォリオのリターンを格納するリスト
portfolio_returns = []

# 各月のポートフォリオのリターンを計算
for i in range(len(returns_data)):
    if i < 11:  # 最初の11ヶ月は過去12ヶ月のデータが揃わないのでスキップ
        continue
    # 過去12ヶ月のデータを取得
    past_12_months_returns = returns_data.iloc[i-11:i+1]
    # 各銘柄の過去12ヶ月のリターンの平均を計算し、モーメンタムとする
    momentum = past_12_months_returns.mean()
    # モーメンタムの上位と下位の10%の銘柄を抽出
    long_short_threshold = int(0.1 * len(momentum))
    top_momentum_stocks = momentum.nlargest(long_short_threshold).index
    bottom_momentum_stocks = momentum.nsmallest(long_short_threshold).index
    # ポートフォリオのリターンを計算し、リストに追加
    long_return = returns_data.iloc[i+1][top_momentum_stocks].mean()
    short_return = returns_data.iloc[i+1][bottom_momentum_stocks].mean()
    portfolio_return = (2 * long_return - short_return)  # longとshortの重みを2:1にする
    portfolio_returns.append(portfolio_return)

# 結果をDataFrameに変換して表示
result_df = pd.DataFrame({
    'Date': returns_data.index[11:],  # 開始日は最初の11ヶ月をスキップしているのでそれに対応
    'Portfolio_Return': portfolio_returns
})
print(result_df)

Take3ではShortサイドの重みがプラスになってしまっていたので、手で修正を加えて実行してみましたがパフォーマンスは改善しませんでした。

まとめ

株のcross-sectional momentumに基づくlong/short戦略をChatGPTに実装させてみると、そのままでも動くコードをうまく出力してくれました。
さらにパフォーマンスを改善するために、いくつかの調整を加えるように指示するとちゃんと修正したコードが出てきました。
Github copilotのようなコーディング支援ツールも様々な企業で導入が進みつつありますが、そのベースとなっているChatGPTのコーディング能力はなかなかなので、日常のコーディングも捗ることでしょう。

最後に

グループ研究開発本部 AI研究開発室では、データサイエンティスト/機械学習エンジニアを募集しています。ビッグデータの解析業務などAI研究開発室にご興味を持って頂ける方がいらっしゃいましたら、ぜひ募集職種一覧からご応募をお願いします。皆さんのご応募をお待ちしています。

グループ研究開発本部の最新情報をTwitterで配信中です。ぜひフォローください。

Follow @GMO_RD

ChatGPTにトレーディング戦略を実装させてみる

はじめに

GPTに実装させるストラテジ

Take1: 素朴なLong/Short

Take2: longバイアスの導入

Take3: 上位下位10%の銘柄だけをLong/Short

まとめ

最後に

関連記事

DeepSeek R1 and V3 〜OpenAI o1級のオープンモデルの作り方〜

Universal Sentence Encoderによる文章埋め込みの紹介と、転移学習への有用性の検証

新型コロナウイルス感染者のデータで生存分析（Survival Analysis）を試してみた

データサイエンティストが実務で覚えるEMR Serverlessのコスト削減

最新の記事

採用情報

インターンシップ

インタビュー

ChatGPTにトレーディング戦略を実装させてみる

はじめに

GPTに実装させるストラテジ

Take1: 素朴なLong/Short

Take2: longバイアスの導入

Take3: 上位下位10%の銘柄だけをLong/Short

まとめ

最後に

関連記事

DeepSeek R1 and V3 〜OpenAI o1級のオープンモデルの作り方〜

Universal Sentence Encoderによる文章埋め込みの紹介と、転移学習への有用性の検証

新型コロナウイルス感染者のデータで生存分析（Survival Analysis）を試してみた

データサイエンティストが実務で覚えるEMR Serverlessのコスト削減

タグ

最新の記事

採用情報

インターンシップ

インタビュー