2025.10.01

人型ロボットのパルクール!?最新のヒューマノイドはどこまで激しく動けるのか、調査してみた

最新のロボットは跳ぶ!踊る!

こんにちは。グループ研究開発本部 AI研究開発室のM.Sです。

皆さんはヒューマノイド(人型)ロボットを見たことがあるでしょうか?

例えば、Unitree社ではこんなデモ動画が。(是非リンク先でご覧ください!)

こんな様子を見ると、描いていた未来が近づいてきていることを感じてしまいます。
とりわけ、このようなアクロバットな動きはCGを疑ってしまう程驚くものがあります。

しかし、この派手な動き、近年の研究ではその一端でしか無いのです。

ここ数年、ヒューマノイドの研究は非常に活発化しており、世界中で新たなモーションを新たな方法で学習した!と多くの論文が公開されています。

そこで、本記事では近年のヒューマノイドのモーション学習の最新研究がどこまで来ているのか、この記事一本で大体わかるよう、まとめてざっくりと紹介していきます!

本記事では、次の5つのカテゴリに分けて解説します。各カテゴリの最初に、ここで何を見るのかを一言そえてから、代表例を挙げていきます。

  • A. “跳ぶ・越える”を学習で実現する
    いわゆるパルクール寄りの動作に踏み込みます。ポリシー(行動を決める関数)を学習して、段差ジャンプやギャップ越えがどこまでできるのかを見るセクションです。

  • B. 見本に追従する
    トラッキングは「見本の動きを追いかける制御」です。拡散モデル(画像生成で有名な確率生成モデル)や MoE を使って、ダンスから体操っぽい回転までひとつのポリシーで広く再現していく流れをまとめます。

  • C. 着地とバランス(狭所など)
    設足は「足をどこに置くか決めること」。細い梁や飛び石など“失敗が致命的になりやすい”場面での安定性にフォーカスします。XCoM(重心の進行指標)や Residual RL(既存コントローラに“少しだけ足す”学習)といったキーワードが出てきます。

  • D. シミュレーションから実機へ(sim2real)
    sim2real は「シミュレーションの学習を実機へ持っていく」こと。Δ(デルタ)モデル(シムと現実の差を埋める補正モデル)や ドメインランダム化(環境をランダムに揺らして頑健化)など、派手なジャンプを“現実に落とす”ための土台を見ます。

  • E. 転換点となった研究(模倣+RL の古典)
    模倣学習(見本に近づくよう学ぶ)と 強化学習(RL) の組み合わせがベースになっています。AMPAdversarial Motion Priors:動きの“らしさ”を学ぶ枠組み)や ASEAdversarial Skill Embeddings:再利用可能な技能表現)など、今の成果につながる基盤アイデアを振り返ります。


A. “跳ぶ・越える”を学習で実現する

ここでは“ジャンプして台に乗る”“ギャップを越える”といったパルクール的なスキルを、見本モーションに頼らず学習で獲得している例を取り上げます。

Humanoid Parkour Learning (2024)

論文arXiv
公式ページHumanoid Parkour Learning
モーション:複数のパルクール技能(跳び乗り、障害越え、ギャップ越え、階段など)を単一のエンドツーエンド視覚ポリシーでこなしているようです。ここでのポリシーとは「センサ情報から行動を出す関数モデル」のことです。
技術のポイント従来は、AMP/ASE のように“見本モーション”からスタイルの事前を学ばせ、タスク報酬と組み合わせる模倣系が主流でした。ここではモーション事前なし(見本不要)でタスク報酬のみから学ぶ方針が採られ、視覚(深度カメラ等)と固有感覚(関節角や慣性情報)を入力して行動を決めています。場所や障害の変化へ広く対応したい意図がありそうです。


B. 見本に追従する

ここでは「見本の動きをどこまで綺麗に追えるか」を高めた流れをまとめます。MoE(Mixture-of-Experts:複数“専門家”ネットの切替)や拡散モデル(ノイズから段階的に信号を復元する生成モデル)を取り込み、ジャンプ/スピン/カートホイールのような高ダイナミクスを実機で見せる例が増えてきました。

BeyondMimic (2025)

論文arXiv
公式ページbeyondmimic.github.io
モーション:ジャンピングスピンやカートホイール、スプリントなどの高ダイナミクス実機で高品質に追従し、さらにテスト時のコスト(その場で与える目標スコア)を設定するだけでゼロショットにタスク指向へ誘導できると紹介されています。
技術のポイント従来の模倣は、AMP のスタイル報酬のように“らしさ”をスカラー化して与える設計が一般的でした。ここでは拡散モデル(Diffusion:逐次復元型の生成モデル)を“動きの表現”として組み込み、RL(強化学習)と併用することで参照軌道の表現力を底上げしているのが新味です。

RobotDancing (2025)

論文arXiv
公式ページ:論文ページに実験動画。
モーション長時間のダンスシーケンス(ジャンプ/スピン/カートホイールを含む)をゼロショット sim-to-realUnitree G1に展開した例が示されています。ここでのsim-to-realは「シミュレーションで学んだポリシーを実機へ移す」ことです。
技術のポイント従来は、実機化の失敗は「シミュレーションと実機の力学差」由来で、事前のDR(Domain Randomization:環境乱択)やSysID(System Identification:パラメータ同定)で吸収するのが一般的でした。ここでは残差(Δ)出力その場のズレオンライン補正する戦略が採られ、既存コマンドに“少し足す”発想で破綻を抑えるのがポイントです。

KungfuBot (2025)

論文arXiv
公式ページkungfu-bot.github.io
モーション:カンフーや高速ダンスのような高ダイナミクス模倣Unitree G1 実機で披露しています。
技術のポイント従来の模倣は“見本そのまま”を追うと非物理的な軌道が混ざりがちでした。ここではSMPL(Skinned Multi-Person Linear:人の3Dボディ形状・姿勢モデル。CG/AR で普及)で動画からポーズを推定し、物理フィルタで非物理な部分を修復、さらにIK(Inverse Kinematics:逆運動学)でロボット関節に合わせてリターゲットした上で、適応トラッキング(誤差に応じて追従許容を調整)する構成です。

GMT(General Motion Tracking)(2025)

論文arXiv
公式ページgmt-humanoid.github.io
モーション単一ポリシーで多様な全身モーションを実機まで追従できるようにされています。
技術のポイント:従来は、モーションごとに別ポリシーを学ぶか、単一MLPでがんばる構成が多く、どちらも限界が出やすい状況でした。Motion-MoE(複数“専門家”の切替)と適応サンプリングで難易度に応じた学習バランスを取り、広い動作空間をひとつで扱う狙いが見えます。

UniTracker (2025)

論文arXiv
公式ページyinkangning0124.github.io
モーション8,000本超の多様モーションを単一ネットで追従し、Unitree G1 実機でのデモも提示されています。
技術のポイント従来の模倣では、部分観測(センサの限界)で姿勢が“迷子”になりがちでした。ここでは特権観測の教師 → CVAE 学生 → 高速適応の三段構え。CVAE(Conditional Variational Autoencoder:条件付きVAE)は潜在変数で多様な軌道をまとめ、足りない観測を補う役割を持たせています。

ExBody / ExBody2 (2025)

公式ページDeepWiki
モーション:長尺ダンスや上半身の表現的動きなどを崩れずに追従する様子が紹介されています。
技術のポイント従来は“全身を一体で厳密追従”が多く、実機で振動・破綻が出やすい面がありました。ここでは上半身をキーポイント追従、下半身を速度追従に分け、蒸留(Teacher→Studentで知識移転)で実機へ落とす構成です。役割分担で安定化を狙っています。


C. 着地とバランス(狭所など)

“跳ぶ”を成立させるには“着地して崩れない”ことが重要です。ここでは極限姿勢細い梁といった難所に挑んだ研究をまとめます。

HuB(Learning Extreme Humanoid Balance)(2025)

論文arXiv
公式ページhub-robot.github.io
モーション:片脚保持や1.5 m 級のハイキック姿勢など、準静的な極限バランスに耐える様子が示されています。
技術のポイント従来は、外乱(センサ雑音・未モデリングのダイナミクス)に弱い模倣やPID系の調整で粘るケースが多く、限界が出がちでした。ここでは参照モーションの精錬+バランス指向学習+ロバスト訓練を統合し、静的・準静的な安定域の拡張を狙っています。

BeamDojo(梁歩行)(2025)

論文arXiv
公式ページwhy618188.github.io
モーション:バランスビームのような疎な足場で、高精度な設足と歩行を実機で見せています。LiDAR(レーザ距離計)で地形を取る構成も紹介されています。
技術のポイント:従来の歩行学習は“地面が広い”前提で設計され、足裏を点近似にすることも多く、梁では破綻しやすい状況でした。ここでは多角形の足裏を踏まえた落足報酬や、二段階学習(易→難)+LiDAR 高度マップでの実機展開が強調されています。

Narrow-Path Traversal(幅0.2 m×3 mの梁)(2025)

論文arXiv
公式ページhuangtc233.github.io
モーションUnitree G1 実機で、幅0.2 m・長さ3 mの梁を連続踏破するデモがまとまっています。
技術のポイント従来は、LIPM やZMPといったテンプレート歩行を単独で使うか、逆に純RLで全部学ぶかの両極が目立ちました。ここではXCoM/LIPM テンプレ(歩行の近似モデル)にResidual RL(微修正の学習)を重ねる二段構成で、安全余裕を保ちつつ性能を引き上げる折衷が取られています。


D. シミュレーションから実機へ(sim2real)

ここでは、学習で得たスキルを実機で動かすための基盤を確認します。

ASAP(Aligning Simulation and Real-World Physics)(2025)

論文arXiv
公式ページNVIDIA研究ページ
概要:シムで学んだ俊敏な全身スキル実機へ転移しやすくする二段階フレームワークです。GitHub にはデータ収集・Δアクション学習のコードやデモが整理されています。
技術のポイント従来は、DR と SysID を事前に“厚めに”仕込んでおき、実機側でのギャップを減らすのが主でした。ASAP はΔ(差分)アクションモデルダイナミクスのズレ学習的に補正し、その“改良シミュレータ”上でポリシーを再学習するのがコアです。俊敏スキルで効きやすいのが示されています。

Real-World Humanoid Locomotion with RL (2024)

論文arXiv
概要因果トランスフォーマ(Causal Transformer:履歴系列から次の行動を出すモデル)で、完全学習ベースの歩行を実機で示しています。
技術のポイント従来の歩行は、歩容テンプレや外部状態推定に手作りの比重が高い設計が一般的でした。ここでは履歴情報を活用する系列モデルで、テンプレに強く依存せずに安定化を図っているのが特徴です。

Learning Humanoid Locomotion over Challenging Terrain (2024)

論文arXiv
概要:視覚なし(固有感覚のみ)で荒地を渡っていく歩行を、トランスフォーマで学習した例です。
技術のポイント従来の荒地歩行は、外界の詳細センサリングや足場推定を前提にすることが多く、セットアップが重くなりがちでした。ここではシーケンスモデル+RLで、外界が不確かな状況でも崩れにくい方針へ寄せています。


E. 転換点となった研究(模倣+RL の古典)

最後に、少し古くなりますが最新手法の多くに影響を与えたであろう重要な論文を紹介します。まずは“何を新しくしたのか”を見るうえで、押さえておきたい3本です。

AMP(Adversarial Motion Priors)(2021)

論文xbpeng.github.io
公式ページYouTube
モーション走る/跳ぶ/ロールなど、データセットから“スタイル報酬”を学び、タスク報酬と併用して“らしさ”を保ちながら動く様子がまとめられています。
技術のポイント従来の模倣は“逐次トラッキング”(見本の軌道そのものを追う)が中心でした。AMP は敵対学習で“らしさ”を分布として学び、タスク解決に混ぜる転換点になりました。これが 01 の“事前なしタスク学習”や 02 の“生成モデルを事前に”を理解する土台にもなっています。

ASE(Adversarial Skill Embeddings)(2022)

論文NVIDIA研究ページ
公式ページGitHub
モーション:大規模モーションから再利用可能な技能埋め込みを学び、下位技能→上位タスクへ転用する流れが整理されています。
技術のポイント従来は、DeepMimic のように“個別技能を個別に学ぶ”傾向が強く、横展開が大変でした。ASE は汎用技能表現を介して新タスクへ素早く適応する発想で、単一ポリシーの多様動作(07/08)とも親和的です。

DeepMimic (2018)

公式ページGitHub
モーション宙返り/スピンなどのアクロバットを模倣+RLで物理一貫に再現する“原点”として広く知られています。
技術のポイント従来(2010年代前半)は、手作りのコントローラや最適制御を細かく詰める手法が多く、汎化が難題でした。DeepMimic は模倣報酬+タスク報酬の二本立てで、モーション品質対話的行動(例:指定方向へ歩く)の両立を示し、その後の AMP/ASE の系譜につながりました。


おわりに

いかがでしたでしょうか。

こうして並べてみると、どれも派手な動きをするだけの研究ではなく、それぞれ独自の技術や課題解決が見られたのではないかと思います。

グループ研究開発本部 AI研究開発室では、データサイエンティスト/機械学習エンジニアを募集しています。ビッグデータの解析業務などAI研究開発室にご興味を持って頂ける方がいらっしゃいましたら、ぜひ 募集職種一覧 からご応募をお願いします。皆さんのご応募をお待ちしています。

  • Twitter
  • Facebook
  • はてなブックマークに追加

グループ研究開発本部の最新情報をTwitterで配信中です。ぜひフォローください。

 
  • AI研究開発室
  • 大阪研究開発グループ

関連記事