2025.10.01

人型ロボットのパルクール！？最新のヒューマノイドはどこまで激しく動けるのか、調査してみた

A. “跳ぶ・越える”を学習で実現する

ここでは“ジャンプして台に乗る”“ギャップを越える”といったパルクール的なスキルを、見本モーションに頼らず学習で獲得している例を取り上げます。

Humanoid Parkour Learning (2024)

論文：arXiv
公式ページ：Humanoid Parkour Learning
モーション：複数のパルクール技能（跳び乗り、障害越え、ギャップ越え、階段など）を単一のエンドツーエンド視覚ポリシーでこなしているようです。ここでのポリシーとは「センサ情報から行動を出す関数モデル」のことです。
技術のポイント：従来は、AMP/ASE のように“見本モーション”からスタイルの事前を学ばせ、タスク報酬と組み合わせる模倣系が主流でした。ここではモーション事前なし（見本不要）でタスク報酬のみから学ぶ方針が採られ、視覚（深度カメラ等）と固有感覚（関節角や慣性情報）を入力して行動を決めています。場所や障害の変化へ広く対応したい意図がありそうです。

B. 見本に追従する

ここでは「見本の動きをどこまで綺麗に追えるか」を高めた流れをまとめます。MoE（Mixture-of-Experts：複数“専門家”ネットの切替）や拡散モデル（ノイズから段階的に信号を復元する生成モデル）を取り込み、ジャンプ／スピン／カートホイールのような高ダイナミクスを実機で見せる例が増えてきました。

BeyondMimic (2025)

論文：arXiv
公式ページ：beyondmimic.github.io
モーション：ジャンピングスピンやカートホイール、スプリントなどの高ダイナミクスを実機で高品質に追従し、さらにテスト時のコスト（その場で与える目標スコア）を設定するだけでゼロショットにタスク指向へ誘導できると紹介されています。
技術のポイント：従来の模倣は、AMP のスタイル報酬のように“らしさ”をスカラー化して与える設計が一般的でした。ここでは拡散モデル（Diffusion：逐次復元型の生成モデル）を“動きの表現”として組み込み、RL（強化学習）と併用することで参照軌道の表現力を底上げしているのが新味です。

RobotDancing (2025)

論文：arXiv
公式ページ：論文ページに実験動画。
モーション：長時間のダンスシーケンス（ジャンプ／スピン／カートホイールを含む）をゼロショット sim-to-realでUnitree G1に展開した例が示されています。ここでのsim-to-realは「シミュレーションで学んだポリシーを実機へ移す」ことです。
技術のポイント：従来は、実機化の失敗は「シミュレーションと実機の力学差」由来で、事前のDR（Domain Randomization：環境乱択）やSysID（System Identification：パラメータ同定）で吸収するのが一般的でした。ここでは残差（Δ）出力でその場のズレをオンライン補正する戦略が採られ、既存コマンドに“少し足す”発想で破綻を抑えるのがポイントです。

KungfuBot (2025)

論文：arXiv
公式ページ：kungfu-bot.github.io
モーション：カンフーや高速ダンスのような高ダイナミクス模倣をUnitree G1 実機で披露しています。
技術のポイント：従来の模倣は“見本そのまま”を追うと非物理的な軌道が混ざりがちでした。ここではSMPL（Skinned Multi-Person Linear：人の3Dボディ形状・姿勢モデル。CG/AR で普及）で動画からポーズを推定し、物理フィルタで非物理な部分を修復、さらにIK（Inverse Kinematics：逆運動学）でロボット関節に合わせてリターゲットした上で、適応トラッキング（誤差に応じて追従許容を調整）する構成です。

GMT（General Motion Tracking）(2025)

論文：arXiv
公式ページ：gmt-humanoid.github.io
モーション：単一ポリシーで多様な全身モーションを実機まで追従できるようにされています。
技術のポイント：従来は、モーションごとに別ポリシーを学ぶか、単一MLPでがんばる構成が多く、どちらも限界が出やすい状況でした。Motion-MoE（複数“専門家”の切替）と適応サンプリングで難易度に応じた学習バランスを取り、広い動作空間をひとつで扱う狙いが見えます。

UniTracker (2025)

論文：arXiv
公式ページ：yinkangning0124.github.io
モーション：8,000本超の多様モーションを単一ネットで追従し、Unitree G1 実機でのデモも提示されています。
技術のポイント：従来の模倣では、部分観測（センサの限界）で姿勢が“迷子”になりがちでした。ここでは特権観測の教師 → CVAE 学生 → 高速適応の三段構え。CVAE（Conditional Variational Autoencoder：条件付きVAE）は潜在変数で多様な軌道をまとめ、足りない観測を補う役割を持たせています。

ExBody / ExBody2 (2025)

公式ページ：DeepWiki
モーション：長尺ダンスや上半身の表現的動きなどを崩れずに追従する様子が紹介されています。
技術のポイント：従来は“全身を一体で厳密追従”が多く、実機で振動・破綻が出やすい面がありました。ここでは上半身をキーポイント追従、下半身を速度追従に分け、蒸留（Teacher→Studentで知識移転）で実機へ落とす構成です。役割分担で安定化を狙っています。

C. 着地とバランス（狭所など）

“跳ぶ”を成立させるには“着地して崩れない”ことが重要です。ここでは極限姿勢や細い梁といった難所に挑んだ研究をまとめます。

HuB（Learning Extreme Humanoid Balance）(2025)

論文：arXiv
公式ページ：hub-robot.github.io
モーション：片脚保持や1.5 m 級のハイキック姿勢など、準静的な極限バランスに耐える様子が示されています。
技術のポイント：従来は、外乱（センサ雑音・未モデリングのダイナミクス）に弱い模倣やPID系の調整で粘るケースが多く、限界が出がちでした。ここでは参照モーションの精錬＋バランス指向学習＋ロバスト訓練を統合し、静的・準静的な安定域の拡張を狙っています。

BeamDojo（梁歩行）(2025)

論文：arXiv
公式ページ：why618188.github.io
モーション：バランスビームのような疎な足場で、高精度な設足と歩行を実機で見せています。LiDAR（レーザ距離計）で地形を取る構成も紹介されています。
技術のポイント：従来の歩行学習は“地面が広い”前提で設計され、足裏を点近似にすることも多く、梁では破綻しやすい状況でした。ここでは多角形の足裏を踏まえた落足報酬や、二段階学習（易→難）＋LiDAR 高度マップでの実機展開が強調されています。

Narrow-Path Traversal（幅0.2 m×3 mの梁）(2025)

論文：arXiv
公式ページ：huangtc233.github.io
モーション：Unitree G1 実機で、幅0.2 m・長さ3 mの梁を連続踏破するデモがまとまっています。
技術のポイント：従来は、LIPM やZMPといったテンプレート歩行を単独で使うか、逆に純RLで全部学ぶかの両極が目立ちました。ここではXCoM/LIPM テンプレ（歩行の近似モデル）にResidual RL（微修正の学習）を重ねる二段構成で、安全余裕を保ちつつ性能を引き上げる折衷が取られています。

D. シミュレーションから実機へ（sim2real）

ここでは、学習で得たスキルを実機で動かすための基盤を確認します。

ASAP（Aligning Simulation and Real-World Physics）(2025)

論文：arXiv
公式ページ：NVIDIA研究ページ
概要：シムで学んだ俊敏な全身スキルを実機へ転移しやすくする二段階フレームワークです。GitHub にはデータ収集・Δアクション学習のコードやデモが整理されています。
技術のポイント：従来は、DR と SysID を事前に“厚めに”仕込んでおき、実機側でのギャップを減らすのが主でした。ASAP はΔ（差分）アクションモデルでダイナミクスのズレを学習的に補正し、その“改良シミュレータ”上でポリシーを再学習するのがコアです。俊敏スキルで効きやすいのが示されています。

Real-World Humanoid Locomotion with RL (2024)

論文：arXiv
概要：因果トランスフォーマ（Causal Transformer：履歴系列から次の行動を出すモデル）で、完全学習ベースの歩行を実機で示しています。
技術のポイント：従来の歩行は、歩容テンプレや外部状態推定に手作りの比重が高い設計が一般的でした。ここでは履歴情報を活用する系列モデルで、テンプレに強く依存せずに安定化を図っているのが特徴です。

Learning Humanoid Locomotion over Challenging Terrain (2024)

論文：arXiv
概要：視覚なし（固有感覚のみ）で荒地を渡っていく歩行を、トランスフォーマで学習した例です。
技術のポイント：従来の荒地歩行は、外界の詳細センサリングや足場推定を前提にすることが多く、セットアップが重くなりがちでした。ここではシーケンスモデル＋RLで、外界が不確かな状況でも崩れにくい方針へ寄せています。

E. 転換点となった研究（模倣＋RL の古典）

最後に、少し古くなりますが最新手法の多くに影響を与えたであろう重要な論文を紹介します。まずは“何を新しくしたのか”を見るうえで、押さえておきたい3本です。

AMP（Adversarial Motion Priors）(2021)

論文：xbpeng.github.io
公式ページ：YouTube
モーション：走る／跳ぶ／ロールなど、データセットから“スタイル報酬”を学び、タスク報酬と併用して“らしさ”を保ちながら動く様子がまとめられています。
技術のポイント：従来の模倣は“逐次トラッキング”（見本の軌道そのものを追う）が中心でした。AMP は敵対学習で“らしさ”を分布として学び、タスク解決に混ぜる転換点になりました。これが 01 の“事前なしタスク学習”や 02 の“生成モデルを事前に”を理解する土台にもなっています。

ASE（Adversarial Skill Embeddings）(2022)

論文：NVIDIA研究ページ
公式ページ：GitHub
モーション：大規模モーションから再利用可能な技能埋め込みを学び、下位技能→上位タスクへ転用する流れが整理されています。
技術のポイント：従来は、DeepMimic のように“個別技能を個別に学ぶ”傾向が強く、横展開が大変でした。ASE は汎用技能表現を介して新タスクへ素早く適応する発想で、単一ポリシーの多様動作（07/08）とも親和的です。

DeepMimic (2018)

公式ページ：GitHub
モーション：宙返り／スピンなどのアクロバットを模倣＋RLで物理一貫に再現する“原点”として広く知られています。
技術のポイント：従来（2010年代前半）は、手作りのコントローラや最適制御を細かく詰める手法が多く、汎化が難題でした。DeepMimic は模倣報酬＋タスク報酬の二本立てで、モーション品質と対話的行動（例：指定方向へ歩く）の両立を示し、その後の AMP/ASE の系譜につながりました。

おわりに

いかがでしたでしょうか。

こうして並べてみると、どれも派手な動きをするだけの研究ではなく、それぞれ独自の技術や課題解決が見られたのではないかと思います。

グループ研究開発本部 AI研究開発室では、データサイエンティスト/機械学習エンジニアを募集しています。ビッグデータの解析業務などAI研究開発室にご興味を持って頂ける方がいらっしゃいましたら、ぜひ募集職種一覧からご応募をお願いします。皆さんのご応募をお待ちしています。

グループ研究開発本部の最新情報をTwitterで配信中です。ぜひフォローください。

Follow @GMO_RD

人型ロボットのパルクール！？最新のヒューマノイドはどこまで激しく動けるのか、調査してみた

最新のロボットは跳ぶ！踊る！

A. “跳ぶ・越える”を学習で実現する

Humanoid Parkour Learning (2024)

B. 見本に追従する

BeyondMimic (2025)

RobotDancing (2025)

KungfuBot (2025)

GMT（General Motion Tracking）(2025)

UniTracker (2025)

ExBody / ExBody2 (2025)

C. 着地とバランス（狭所など）

HuB（Learning Extreme Humanoid Balance）(2025)

BeamDojo（梁歩行）(2025)

Narrow-Path Traversal（幅0.2 m×3 mの梁）(2025)

D. シミュレーションから実機へ（sim2real）

ASAP（Aligning Simulation and Real-World Physics）(2025)

Real-World Humanoid Locomotion with RL (2024)

Learning Humanoid Locomotion over Challenging Terrain (2024)

E. 転換点となった研究（模倣＋RL の古典）

AMP（Adversarial Motion Priors）(2021)

ASE（Adversarial Skill Embeddings）(2022)

DeepMimic (2018)

おわりに

関連記事

Alifeは何だ？「人工生命」の作りを体験してみる（一）

Mercury CoderとLLaDA: 拡散言語モデルによる高速文章生成

VNPY：中国発の定量分析フレームワークと取引アルゴリズム

FPGAに機械学習モデルを実装する –
その1：ランダムフォレストによるクラス分類

最新の記事

採用情報

インターンシップ

インタビュー

人型ロボットのパルクール！？最新のヒューマノイドはどこまで激しく動けるのか、調査してみた

最新のロボットは跳ぶ！踊る！

A. “跳ぶ・越える”を学習で実現する

Humanoid Parkour Learning (2024)

B. 見本に追従する

BeyondMimic (2025)

RobotDancing (2025)

KungfuBot (2025)

GMT（General Motion Tracking）(2025)

UniTracker (2025)

ExBody / ExBody2 (2025)

C. 着地とバランス（狭所など）

HuB（Learning Extreme Humanoid Balance）(2025)

BeamDojo（梁歩行）(2025)

Narrow-Path Traversal（幅0.2 m×3 mの梁）(2025)

D. シミュレーションから実機へ（sim2real）

ASAP（Aligning Simulation and Real-World Physics）(2025)

Real-World Humanoid Locomotion with RL (2024)

Learning Humanoid Locomotion over Challenging Terrain (2024)

E. 転換点となった研究（模倣＋RL の古典）

AMP（Adversarial Motion Priors）(2021)

ASE（Adversarial Skill Embeddings）(2022)

DeepMimic (2018)

おわりに

関連記事

Alifeは何だ？「人工生命」の作りを体験してみる（一）

Mercury CoderとLLaDA: 拡散言語モデルによる高速文章生成

VNPY：中国発の定量分析フレームワークと取引アルゴリズム

FPGAに機械学習モデルを実装する – その1：ランダムフォレストによるクラス分類

タグ

最新の記事

採用情報

インターンシップ

インタビュー

FPGAに機械学習モデルを実装する –
その1：ランダムフォレストによるクラス分類