2025.07.02

LLMはドラえもんより優秀か？〜ChatGPTにひみつ道具コンサルをさせてみた〜

1. はじめに – ドラえもんの仕事

こんにちは。グループ研究開発本部 AI研究開発室のM.Sです。

『助けてよ、ドラえもん！』

このセリフを見て、のび太が困りごとを抱えてドラえもんにすがる姿を思い浮かべる人は多いはずです。
そして、彼が四次元ポケットから絶妙なひみつ道具を取り出してくれる──そんな一連の流れこそが、私たちの中にある「ドラえもん像」ではないでしょうか。

でも、ふと思ったことがあります。

それって道具がすごいだけじゃない？

たとえば以下のような疑問が浮かんできます。

ドラえもんの価値って、何なんだろう？
ドラえもんの仕事って、実はただの“道具係”じゃないの？
もし四次元ポケットがあれば、私でもドラえもんできるのでは？

（もちろん、インターフェースとしての魅力──あの見た目と自然な会話能力は、2025年の今でも再現困難です。そこは素直に認めましょう。ただし今回は、「のび太の悩みを解決し、子守をする」というドラえもんの“実務”について考えます。）

もし我々が四次元ポケットを持っていたら、のび太のサポートをドラえもん以上の水準でこなせるでしょうか？

……想像してみると、厳しそうな気がしてきました。
道具は2,000種類以上あるそうですし、仮に説明書があっても全部覚えるのは無理です。
じゃあ検索ツールを作ろう！と思っても、そんなものが完成したら、今度は自分が不要になりそうな気がしてきます。

ということは２２世紀を待たずしてAIにこの仕事を奪われそうなので、いっそAIに頼んでみましょう。

ドラえもんのひみつ道具選択能力を、現代のLLMと比較してみよう

ドラえもんは、その膨大な道具の中から、目の前の課題に最適な一品を選び出します。
正直「それが最適解だったのか？」というエピソードも多々ありますが、それでも 「まあ納得できるな」という解決案を瞬時に提示してくる のは確かです。

※特に漫画版では、ドラえもんが割と投げやりな道具を出してくる回もありますが、ちゃんと頼めば真面目に提案してくれるので、ここではそのあたりの性格的な部分は無視します。

この選定能力を、現代のLLM（大規模言語モデル）でどこまで再現できるのでしょうか？
まずは、問題を整理して、実験設計に入ってみます。

2. 問題設定 – ドラえもんは最高のコンサルタント？

ドラえもんの「コンサルタント業務」を解剖する

ドラえもんの行動を分析してみると、現代のコンサルティング業務と重なる部分が多いことに気づきます。

ヒアリング: のび太の悩みを聞く
課題分析: 問題の本質を見抜く
解決策提案: 最適な道具を選ぶ
リスク説明: 使い方や副作用を伝える
フォローアップ: 続報や後始末のサポート

今回は話をシンプルにするために、1〜3の工程だけを対象に、「道具の選定力」にフォーカスして評価していきます。

評価観点

提案された道具は以下の軸でざっくり評価します：

妥当性：課題に合っているか
原作との一致：課題に対する作中のドラえもんの提案と一致したか

仮説

以下の3つの仮説を立てて検証します。

仮説1：LLMの学習済み知識だけでも、それっぽい道具提案ができる
仮説2：ひみつ道具のデータベースを渡せば、もっと正確な選定ができる
仮説3：作中にない課題でも、作中の道具をうまく当てはめて提案できる

3. 実験設計 – LLM vs ドラえもん

実験の全体設計

今回の実験では、ChatGPT o3に次の2つの条件でLLMにひみつ道具コンサルをやってもらい、その提案内容を比較・評価していきます。

条件1: ベースライン（ひみつ道具データなし）

LLMには事前知識のみで回答してもらう
外部データや検索は使用せず、純粋に学習済み知識ベースでの提案を求める

条件2: ひみつ道具データあり

ドラえもん秘密道具データベース様（出典リンク）のWebページをお借りして、調査に用いる
LLMには、ここから自由に道具を調査・選定してよいと指示

テストケースの設計

A. 作中で実際に発生した課題（有名な道具）

ID	ひみつ道具	原作（巻）	課題シチュエーション
A-1	アンキパン	第2巻	明日の算数テストで0点確定になりそうなので、ノートの内容を一瞬で頭に入れたい。
A-2	どこでもドア	第6巻	無人島に取り残されてしまったので、一歩も歩かずに自宅へ帰りたい。
A-3	スモールライト	第5巻	動物園の象が処分されそうになったので、密かに救出したい。
A-4	タイムふろしき	第2巻	壊れたテレビが使えなくなったので、使えるようにしたい。
A-5	ほんやくコンニャク	第12巻	幽霊城へ引っ越したはいいが住人と会話できないので、意思疎通したい。

B. 作中で実際に発生した課題（やや難しい道具）

※これらの道具は、ChatGPT o3に対して「この用語は何ですか / それが登場するアニメは何ですか検索を用いずに答えて」といった質問を行ったところ、ドラえもんに関するものであると言及できなかった道具たちです。

ID	ひみつ道具	原作（巻）	課題シチュエーション
B-1	影切りばさみ	第1巻	宿題と庭の草むしりが同時に降りかかってしまったので、代わりに誰かにやってほしい。
B-2	モノモース	第16巻	部屋が散らかって大切な切手が行方不明になったので、探したい。
B-3	ドロン葉	第16巻	キャンプでオオカミに襲われそうになったので、遠ざけたい。
B-4	メロディーお玉	第16巻	歌詞だけ完成したのに曲が浮かばないので、自動でピッタリのメロディを付けたい。
B-5	することレンズ	第30巻	友達が自分に内緒で何か企んでいるようなので、次に何をするか先読みしたい

C. 架空の課題

ID	課題シチュエーション
C-1	重要な会議で緊張せずに発表したい
C-2	SNS で炎上した投稿を鎮火したい
C-3	オンライン会議で寝落ちしてもバレたくない
C-4	留守番中の愛犬を退屈させたくない
C-5	夜ふかし後でも朝シャキッと起きたい

プロンプト設計

LLMへの指示は以下の通り。条件1と2で一部内容を変えています。

基本プロンプト

あなたは、ドラえもんの四次元ポケットからひみつ道具を選ぶコンサルタントです。

（条件1: ）あなたの知識だけを用いて、外部リソースへの検索を行わずに、ユーザーの課題に最適な道具を提案してください。
（条件2: ）以下のひみつ道具データベースを参考に、ユーザーの課題に最適な道具を提案してください。
ひみつ道具データベース: https://www.doraemondb.com/ddb/index.php

ドラえもんの作中におけるエピソードを参照することなく、データベースから最適な道具を調査して探し出してください。

【課題】

（各”課題シチュエーション”）

【回答形式】

1. 推奨道具: [道具名]
2. 道具の概要: [どんな道具か]
3. 使用方法: [具体的な使い方]
4. 注意点: [副作用やリスク]
5. 代替案: [他の選択肢があれば]

4. 実験結果

表の読み方

提案された道具について、以下の軸で評価を行いました：

妥当性：課題に対してどれくらい適切か
　→ ◎（最適）○（適切）△（部分的に合致）×（ズレている）
原作一致：原作で使用された道具と一致しているか
　→ ○（一致）△（代替案として一致）×（一致せず）–（原作に該当エピソードなし）

結果サマリ

ID	シチュエーション (要約)	条件1 提案	妥当性	原作一致	条件2 提案	妥当性	原作一致
A-1	明日の算数テスト対策	アンキパン	◎	○	アンキパン	◎	○
A-2	無人島から即帰宅	どこでもドア	◎	○	どこでもドア	◎	○
A-3	象を秘密裏に救出	スモールライト	○	○	スモールライト	○	○
A-4	壊れたテレビを復活	タイムふろしき	◎	○	完全修正機	◎	△
A-5	幽霊との会話	ほんやくコンニャク	◎	○	ほんやくコンニャク	◎	○
B-1	宿題と草むしりを同時処理	コピーロボット	○	×	コピーロボット	○	×
B-2	散らかった部屋で切手捜索	かたづけラッカー	○	×	落とし物つり堀とつりざお	○	×
B-3	オオカミを遠ざける	ドロン葉	◎	○	桃太郎印のきびだんご	△	×
B-4	歌詞に自動でメロディ	メロディーお玉	○	○	メロディーお玉	○	○
B-5	友達の行動を先読み	タイムテレビ	△	×	新聞日付変更ポスト	△	×
C-1	会議で緊張せず発表したい	きんちょうどり	◎	–	緊張鳥	◎	–
C-2	SNS炎上を鎮火したい	ウソ800	○	–	石ころ帽子	○	–
C-3	オン会で寝落ちバレ防止	ロボッター	×	–	身代わりテレビ	×	–
C-4	愛犬の留守番中の退屈対策	世話やきロープ	○	–	ペットペン	○	–
C-5	夜ふかし後の快適な目覚め	眠くならない薬	△	–	セルフアラーム	◎	–

傾向と雑感

A群（ベーシックな道具）

両条件とも高精度で、原作との一致率も高い
データベースを参照しても大きな変化はなく、LLM単体でも十分「ドラえもん」になれていた印象

B群（やや難度の高い道具）

条件1では有名な代替道具に寄せた傾向が強く、原作とはズレることが多い
条件2では、より近い提案が見られるケースもあったが、的外れな方向に行く場合もあり
“データ参照の有無”が全体の精度に強く関与するわけではないという点がやや意外

C群（創作課題）

一部のケースでは、「こんな道具あったんだ」という発見があった
一方で、提案に“ピンとこなさ”が出てしまったものも多く、LLMの手探り感が露呈した印象
作中に正解がない課題に対して、「それっぽい名前の道具しか言わん」かもしれない

詳細分析

ここでは、実験結果の中でも特に原作と一致しなかったケースや、選定が揺れたケースについて、それぞれの道具選定の背景や意図を振り返ってみます。

A-4: 壊れたテレビを使えるようにしたい

条件1：タイムふろしき（原作と一致）
条件2：完全修正機（別の道具）

原作の道具である「タイムふろしき」は、壊れたものを時間的に巻き戻す道具。条件1では正解を引けています。
一方、条件2では「完全修正機」という、より直接的に“壊れた物を直す”装置を提示しました。

どちらも目的達成には使えますが、「戻す」のか「直す」のかという視点の違いが反映されていて、LLMが「最適そうな代替策」を選びにいった形です。
どちらが正解かは用途によるため、意外と良い選択分岐とも言えます。

B-1: 宿題と草むしりを同時にこなしたい

条件1・2：コピーロボット（両方一致）
原作：影切りばさみ

コピーロボットは有名かつ汎用性の高い分身系道具ですが、原作では「影を切り離して働かせる」という、ややホラーテイストの道具が使われています。

LLMは“実用”の視点から素直に代替案を選んだように見えますが、ドラえもんらしい発想のねじれや物語性には届かなかった印象です。

補足：影切りばさみが登場する「かげがり」は、ホラー回でしたので、わざと不穏な道具になっていそうです。

B-2: 散らかった部屋で大事な切手を探したい

条件1：かたづけラッカー
条件2：落とし物つり堀とつりざお
原作：モノモース

モノモースは「物に話しかけて場所を教えてもらう」という、非現実的ながらも味のある道具。
一方、LLMは「片付ける」か「引き寄せる」というアプローチで、より現実的な解決を目指しています。

目的としては間違っていないけれど、物語としての面白みは減退する、といった提案になりました。

B-3: オオカミを遠ざけたい

条件1：ドロン葉（原作と一致）
条件2：桃太郎印のきびだんご（別の道具）

条件1では正答を当てていますが、条件2では「動物に忠誠を誓わせる」タイプの道具を選んできました。
目的は「遠ざけたい」だったため、従わせるよりも、幻覚で退ける方が自然に見えます。

選定理由としてはわからなくもないですが、主従関係の構築はやや遠回り感あり。ドロン葉の方が課題に対して素直だったように感じます。

B-5: 友達の行動を先読みしたい

条件1：タイムテレビ
条件2：新聞日付変更ポスト
原作：することレンズ

どちらの条件でも「未来を覗く」系の道具を選んでいますが、原作はもう少し限定的かつ精密に「次の行動」に絞って可視化するレンズを使います。

LLMの提案も課題の意図から大きく外れているわけではないですが、解像度の高さという点では原作の方が上手です。
「先読み」というワードを入れて誘導してみたのですが少々難しかったようです。

C-1: 重要な会議で緊張せずに発表したい

条件1：きんちょうどり
条件2：緊張鳥（表記揺れ）

このケースは、条件を問わず非常にピンポイントな道具を提示できており、両者ともに高評価。
LLMの中で「きんちょうどり」が記憶されていたことも意外な発見でした。

C-2: SNSで炎上した投稿を鎮火したい

条件1：ウソ800
条件2：石ころ帽子

条件1では「そもそも投稿が存在しなかったことにしてしまう」というスーパー万能戦略、条件2では「存在感を消してやり過ごす」という風化系ソリューション。

どちらも方向性としてアリですが、石ころ帽子の方がピンポイント・必要十分な提案のように感じられます。

C-3: オンライン会議で寝落ちしてもバレたくない

条件1：ロボッター
条件2：身代わりテレビ

ロボッターは“意思を持つロボット”ではあるが外見が本人でない、身代わりテレビは“映像を転送できる”が寝てしまえば操作できない。
両方とも「分身」「遠隔化」を狙った提案でしたが、どちらも完全に課題を満たしているとは言い難いものでした。

やはり「ない話」にフィットする道具は厳しいのでしょうか。

C-4: 留守番中の愛犬を退屈させたくない

条件1：世話やきロープ
条件2：ペットペン

どちらの道具も「犬の遊び相手を作る」方向性では機能しており、内容的にはそこまで大きな差はありません。

とはいえ、ペットペンは“描いた動物を実体化”という割とトリッキーな道具なので、犬の遊び相手としては世話やきロープの方が直感的かもしれません。

C-5: 夜ふかし後でも朝シャキッと起きたい

条件1：眠くならない薬
条件2：セルフアラーム

前者は「寝ない前提で突き進む」タイプの選択で、24時間効果という点もありややリスキー。
後者は“自分が目覚ましになる”という、ちょうどよい非現実感と実用性のバランスが取れた道具です。

目的に対して素直で、副作用も少なそうなのはセルフアラームの方と言えそうです。

以上のように、原作と一致しなかったからといって、すべての提案が的外れだったわけではありません。
むしろ、原作の道具には「物語の都合」による非合理さが含まれているケースもあり、LLMのほうが“現実には使いやすい選択肢”を提示していた場面もありました。

ただ一方で、ひみつ道具の“クセ”や“穴”が物語展開の引き金になるという構造──つまり「起承転結における“転”を作る道具やその選定の不完全さ」──は、原作に意図的に組み込まれていることが、真面目にコンサルを試みたことによって改めて浮き出てきました。

合理性と物語性の二つの制約を同時に満たす提案こそ、ドラえもんが作者に求められた真の課題だったのかもしれません。

考察

ここでは、実験結果をもとに、冒頭で掲げた3つの仮説がどうだったのかを振り返ります。

仮説1

LLMの事前知識では、著名なひみつ道具に対してはそれらしい回答が可能である。

→おおむね立証。
A群のように、比較的有名なエピソードを扱ったケースでは、事前学習済みの知識だけでも、かなり的確な道具選択が行われていました。
「アンキパン」「どこでもドア」「スモールライト」などの代表的な道具に関しては、条件1（データなし）でも正答率が高く、「それっぽさ」の点でも違和感が少ない結果が得られています。

ただし、B群のように少しマニアックな道具になると途端に精度が落ちる傾向があり、「コピーロボット」などの汎用的な選択肢に逃げる場面も見られました。
LLMの記憶は“有名度バイアス”を強く受けるという、当たり前ではありますが実際に確認できてよかった知見です。
特定の課題に特化したような道具は、再利用や汎用性という観点ではやや難があることが確認されました。
「全部もしもボックスでいいじゃん」という考えがよぎるのも納得です。

仮説2

ひみつ道具のデータベースが与えられれば、LLMはドラえもんの道具選択を再現できる、またはより良さそうな道具を提案できる。

→部分的に立証。
条件2（データあり）では、原作通りの道具を選ぶ率がやや上昇したほか、A-4のように原作とは異なるがより実用的と感じられる道具を提案する例も出てきました。

一方で、「ドロン葉」では原作と一致した条件1のほうが適切だったりと、必ずしもデータを参照することで精度が安定するわけではないことも確認されました。
プロンプトで単にURLを提示しただけでは、LLMの中で道具同士を比較・スコアリングするような挙動までは起きていないと考えられます。

より構造化されたDBや、道具側に“性能・リスク・応用例”といったメタ情報を付与するなど、検索や選定プロセスそのものを別パーツとして補助する工夫が必要かもしれません。

仮説3

LLMは作中に登場しない課題に関しても、作中に実在するひみつ道具を用いてそれらしい解決案を提案できる。

→半々といったところ。
C群（架空の課題）では、いくつかのケースで「これはいけそう」と思える提案が確認できました（例：きんちょうどり、石ころ帽子、セルフアラームなど）。

ただし一方で、提案がテーマとずれたり、「それで解決になる？」という不完全さが目立ったケースもありました（例：身代わりテレビ、ロボッター）。
これは、作中に明確な正解が存在しない以上、「もっともらしさ」だけでゴールを見つけにいくことの難しさが表れているとも言えます。

また、作中の道具には“一話完結”という構造的な制約もあるため、「一発逆転」「意外な展開」「教訓付きの失敗」などを演出するような方向に設計されており、日常的な課題にそのまま適用するには向かない場面も多いのが現実です。
（「炎上を鎮火したい」にウソ800を出してくるのは、ある意味で物語的ではあるが実用的ではない）

5. おわりに – ドラえもん側の理屈

というわけで、「ドラえもん vs LLM」のひみつ道具コンサル対決、いかがだったでしょうか。

道具の網羅性や検索力の面では、LLMもなかなか健闘してくれましたし、意外と筋のいい提案も出てきました。
ただ、やっぱり“その場で物語を動かす”ような道具選びになると、ドラえもんの勘所や味わいには敵わないなという印象も残ります。

その背景には、おそらく「起承転結」という構造が、物語の中に道具の“欠点”や“落とし穴”を必要としているという事情があるのかもしれません。
完璧な道具が一発で問題を解決してしまっては、“転”も“結”も作れません。
だからこそ、ちょっと危なっかしかったり、使い方にクセがあったりする道具が、逆にドラマを生む燃料になっているわけです。

そう考えると、LLMのような合理的な提案が、ときに「物語としての面白みに欠ける」と感じられるのも自然な話です。
“正しい答え”が必ずしも“楽しい展開”をもたらすとは限らない──というあたりが、ドラえもん的コンサルの奥深さなのかもしれません。

あと、今回は全然触れませんでしたが、たとえばコストとか倫理とか、そういう現実的な視点を持ち込んでいけば、また違う切り口も見えてくるでしょう。
でも、それをやり出すと急に現実に引き戻されてしまうので、このへんで妄想は打ち止めにしておこうと思います。

「きんちょうどりって1羽いくらなんだろうな」とか考え始める前に、この遊びはそっとポケットにしまっておきましょう。

最後に

グループ研究開発本部 AI研究開発室では、データサイエンティスト/機械学習エンジニアを募集しています。ビッグデータの解析業務などAI研究開発室にご興味を持って頂ける方がいらっしゃいましたら、ぜひ募集職種一覧からご応募をお願いします。皆さんのご応募をお待ちしています。

グループ研究開発本部の最新情報をTwitterで配信中です。ぜひフォローください。

Follow @GMO_RD