2024.06.12
LLMアプリの実力テスト!多言語質問への対応力を探る
TL;DR
- LLMモデルは多言語プロンプトにそれぞれ異なる対応を見せ、Geminiは正確性重視、Claude 3 Opusは詳細重視、ChatGPT-4oはバランス型だが言語認識に課題あり。
- Gemini-1.5-flashはGemini-1.5-proと比較して、より詳細で実用的な回答を生成する傾向がある。
- 今回の検証は限定的だが、各モデルの特性把握に役立つ結果が得られた。
はじめに
みなさんこんにちは、グループ研究開発本部 AI研究開発室のA.F(海外の出身)です。
近年の大規模言語モデル(LLM)の進化は目覚ましく、複雑なプロンプトを必要とせずとも、GeminiやClaude、ChatGPTといった主要なモデルは多様なテーマに対応し、私たちを満足させる答えを返してくれます。
これらのLLMは多言語に対応していることが知られていますが、一つの質問の中に複数の言語が混在する「多言語プロンプト」をどの程度理解できるのか、興味深いところです。
そこで今回は、LLMのチャットアプリを用いて、多言語プロンプトに対する理解度を検証し、どのモデルがより質の高い回答を生成できるのか、カジュアルに評価してみたいと思います。
今回の検証では、ChatGPT、Gemini、Claude 3の各モデルを比較します。ChatGPTからはChatGPT-4o、GeminiからはGemini-1.5-flashとGemini-1.5-pro、Claude 3からはHaiku(最速かつ最安)とOpus(最大規模)を選びました。
入力言語は英語と日本語を使用し、実験内容は以下の3つのタイプと、追加で1つのタイプを用意しました。
- ある言語の慣用句を別の言語で説明する(例:日本語の慣用句を英語で、またはその逆)。
- 複数の用語の違いを尋ねる。
- 日本語の用語や情報を英語で、またはその逆で、特定の手続きについて尋ねる。
- 英語と日本語が混在する、不完全な文章で質問する。
モデルをテストしてみた<
Type 1: 別言語の慣用語(idiom)を説明する
まず、ChatGPTに日本語と英語の一般的な慣用句をいくつか生成してもらいました。次に、事前に入力したプロンプトなしで、各モデルに直接質問を入力し、生成された回答を観察しました。以下に、その様子をいくつか例示します。
質問 | ChatGPT-4o | Gemini-1.5-pro | Gemini-1.5-flash | Claude 3 Haiku | Claude 3 Opus |
---|---|---|---|---|---|
Break the iceってどういう意味ですか? |
"Break the ice" という表現は、緊張している状況や初対面の状況で、その緊張感を和らげて打ち解ける、という意味です。特に初対面の人たちの間で会話や活動を始める際に使われます。 |
「Break the ice」は、初対面の人同士や、緊張感が漂う場などで、その場の雰囲気を和ませたり、会話を始めやすくしたりする最初のきっかけを作ることを意味します。 |
"Break the ice" は、**「緊張を解く」「ぎこちなさを解消する」**という意味です。 |
「Break the ice」は、会話や人間関係を始めるのが難しい状況で、その緊張感を和らげることを意味する言葉です。 |
"Break the ice"は、初対面の人や初めての状況で緊張した雰囲気を和らげ、コミュニケーションを始めることを意味するイディオムです。直訳すると「氷を割る」ですが、比喩的に人々の間の緊張や不安を取り除くことを表現しています。 |
Throw in the towelってどういう意味ですか? |
「Throw in the towel」という表現は、何かをあきらめる、降参する、またはギブアップすることを意味します。このフレーズはボクシングから来ており、試合中にコーチがリングにタオルを投げ入れて試合の終結を示すことから来ています。
|
"Throw in the towel" は、**敗北を認める**、**諦める**ことを意味する慣用句です。
|
"Throw in the towel" は、**諦める、降参する**という意味です。
**例:** * **"After losing three games in a row, the team decided to throw in the towel."** (3連敗した後、チームは諦めることにしました。) **状況:** * 困難な状況に直面した時 **つまり、"throw in the towel" は、努力を続けることを諦め、状況から撤退することを表す表現です。** **補足:** * この表現は、ボクシングの試合で、選手がタオルをリングに投げ入れることで試合を放棄することを表すことから来ています。 |
「Throw in the towel」は、「あきらめる」「降参する」といった意味の慣用表現です。
|
"Throw in the towel"は、「あきらめる、降参する」という意味のイディオムです。このイディオムは、ボクシングの試合で、選手のセコンドがタオルをリングに投げ入れることで試合を終了させ、選手の敗北を認めることに由来しています。
|
生成された回答を見ると、すべてのモデルが日本語で正しく回答を返しました。しかし、すべてのモデルの例文は技術的・文法的には正しいものの、Claude 3 Haikuが生成した例文はやや不自然でした。「Break the ice」という表現を、二人称に対して直接使うことは一般的ではありません。
今度は、質問の言語を英語に切り替え、日本語の慣用句について尋ねてみました。なお、すべての質問は同じチャットセッションで行いました(チャットのリセットは行っていません)。
質問 | ChatGPT-4o | Gemini-1.5-pro | Gemini-1.5-flash | Claude 3 Haiku | Claude 3 Opus |
---|---|---|---|---|---|
what is the meaning of 口が滑る? |
「口が滑る」(くちがすべる)という表現は、うっかり秘密や言うべきでないことを漏らしてしまうことを意味します。自分が言いたくなかったことや、言うべきでなかったことを誤って口にしてしまう状況を指します。 |
「「口が滑る」は、以下の意味で使われます。 |
"""口が滑る" (kuchi ga suberu) is a Japanese idiom that means **"to slip up"** or **"to blurt out something you didn't mean to say"**. It's often used to describe situations where someone accidentally reveals a secret or says something embarrassing. |
「口が滑る」という表現は、無意識のうちに本心を漏らしてしまうことを意味しています。 |
"口が滑る" (kuchi ga suberu) is a Japanese idiom that literally translates to "one's mouth slips." It is used to describe situations where someone accidentally says something they didn't intend to say, often revealing a secret, a hidden thought, or an inappropriate comment. |
上記の質問では、モデルが英語で回答を返すことを期待しました。しかし、ChatGPT-4oとGemini-1.5-proのような上位モデルはこの点を認識できず、意外にも「軽量版」であるはずのGemini-1.5-flashが成功しました。ただし、Gemini-1.5-proは質問文中の慣用句に英語の相当語句である「slip of the tongue」を補足していることに気づきました。
Type 2: 複数用語の違いについて尋ねる
2つ目のタイプでは、2つの日本語の用語の違いを英語で説明するようモデルに投げ、またその逆も試しました。
質問 | ChatGPT-4o | Gemini-1.5-pro | Gemini-1.5-flash | Claude 3 Haiku | Claude 3 Opus |
---|---|---|---|---|---|
what's the difference between 目的 and 目標? |
「目的」と「目標」は、どちらも「ゴール」や「狙い」を意味する言葉ですが、その意味合いや使い方には違いがあります。 |
Both 目的 (mokuteki) and 目標 (mokuhyō) translate to "goal" or "objective" in English, but they have slightly different nuances. Here's a breakdown: |
Both "目的" (mokuteki) and "目標" (mokuhyou) are Japanese words related to goals, but they have slightly different meanings: |
「目的」と「目標」は非常によく似た言葉ですが、少しニュアンスが異なります。 |
"目的" (mokuteki) and "目標" (mokuhou) are both related to goals and objectives, but they have slightly different nuances in Japanese. |
生成された回答を見ると、ChatGPT-4oとClaude 3 Haikuは英語での回答に失敗し、代わりに日本語で回答してしまいました。また、Claude 3 Opusは日本語で回答しましたが、「目標」のローマ字表記がmokuhyouではなくmokuhouと間違っていました。
では、質問を変えてみましょう…
質問 | ChatGPT-4o | Gemini-1.5-pro | Gemini-1.5-flash | Claude 3 Haiku | Claude 3 Opus |
---|---|---|---|---|---|
What's wrongとwhat's wrong with youの違いはなんですか? |
"What's wrong" と "What's wrong with you" は似ていますが、ニュアンスや用法に違いがあります。 |
"What's wrong?" と "What's wrong with you?" はどちらも、相手に何か問題があるのかを尋ねる表現ですが、ニュアンスに大きな違いがあります。 |
"What's wrong" and "What's wrong with you" have a distinct difference in meaning and usage: |
「What's wrong?」と「What's wrong with you?」には以下のような違いがあります: |
"What's wrong?" と "What's wrong with you?" はどちらも相手の状態や様子を尋ねる表現ですが、ニュアンスと使い方に違いがあります。 |
興味深いことに、今回はGemini-1.5-flashが英語で応答してしまいました。以前のチャットがモデルに影響を与え始めているようです。一方、Claude 3 Opusは一貫して正しい回答を示しています。
Type 3: 別言語の用語を利用し、ある手続きについて尋ねる
このステップでは、モデルに特定の手続きを説明するよう要求しました。今回は確定申告について尋ねてみましょう。
質問 | ChatGPT-4o | Gemini-1.5-pro | Gemini-1.5-flash | Claude 3 Haiku | Claude 3 Opus |
---|---|---|---|---|---|
Can you tell me how to do 確定申告? I'm living in 世田谷区 by the way |
確定申告は日本で個人が年間の所得に対して税金を計算し、税務署に申告する手続きです。世田谷区在住の場合の確定申告の手続きを簡単に説明します。 |
I understand you're looking for information on how to file your tax return (確定申告) while living in Setagaya-ku. |
I understand you're looking for information on how to file your taxes (確定申告) in Setagaya-ku. I can't give specific tax advice, but I can guide you to the right resources. |
わかりました。世田谷区に住んでいる場合の確定申告の流れは以下のようになります。 |
世田谷区に住んでいる場合、確定申告を行うには以下の手順を踏む必要があります。 |
Geminiモデルは正しい言語で回答しましたが、日本語の回答には税務署の住所など、より詳細な情報が含まれていることがわかります。しかし、日本語で回答した各モデルは、世田谷区の税務署の住所をそれぞれ異なるものとして提示しました。さらに、これらの住所を調べてみると、いずれも実際の世田谷税務署の住所ではありませんでした。
この場合、税金に関するトピックは非常にデリケートで正確性が求められるため、正確性と安全性の観点からGeminiモデルの回答の方が適切かもしれません。
さて、次は言語を逆にしてみましょう。
質問 | ChatGPT-4o | Gemini-1.5-pro | Gemini-1.5-flash | Claude 3 Haiku | Claude 3 Opus |
---|---|---|---|---|---|
Virginiaでtax returnをするにはどうすればいいですか? |
バージニア州で税金申告(tax return)をする方法を説明します。米国の連邦税と同様に、州税の申告も重要です。それぞれの申告には異なる方法や様式が必要です。以下にはバージニア州での税金申告の手順を詳しく説明します。 |
バージニア州でタックスリターン(確定申告)をする方法は、他の州と基本的に同じですが、いくつかバージニア州独自の点があります。 |
バージニア州で税金申告(Tax Return)を行うには、以下の手順で進められます。 |
バージニア州で tax return (納税申告) を行う手順は以下の通りです。 |
Virginiaで確定申告(tax return)を行う手順は以下の通りです。 |
すべてのモデルが正しい言語で回答を返しましたが、詳細の量は回答によって異なりました。しかし、前の質問と同様に、詳細の正確性についてはさらに検証が必要です。
この質問に関しては、ChatGPT-4oが正しい書類送付先を回答したように見えます。しかし、Claude Opusは法人税に関する郵送先を回答してしまいました。一方、Geminiモデルは一貫して詳細すぎる情報を含まない回答をしており、正確な回答が求められる質問に対してはより安全なアプローチと言えるでしょう。
また、Gemini-1.5-flashはGemini-1.5-proと比較して、オンラインでの確定申告方法についてより詳細な情報を提供しているようです。
Type 4: 英語と日本語が混在する、不完全の文章で質問する
さて、最後の質問タイプでは、英語と日本語の単語が混ざった不完全な文章を試して、モデルがどのように対応するかを見てみましょう。
質問 | ChatGPT-4o | Gemini-1.5-pro | Gemini-1.5-flash | Claude 3 Haiku | Claude 3 Opus |
---|---|---|---|---|---|
Next monthは友達のbirthdayです、その友達はOne Pieceが好きです、birthday presentあげたいですね |
それは素晴らしいアイデアですね!「One Piece」好きの友達への誕生日プレゼントは、きっと喜ばれることでしょう。以下、いくつかのプレゼントのアイデアを提案します:
|
いいですね!ワンピース好きのお友達なら、きっと喜んでくれるプレゼントが見つかるはず!
|
お友達の誕生日プレゼント、いいですね!ワンピース好きとのことなので、いくつか候補を考えました。
|
One Pieceが好きな友達のバースデープレゼントについては、以下のようなアイデアがいくつか考えられます。
|
One Pieceが好きな友達へのbirthday presentを選ぶのは楽しいですね!以下のようなアイデアはいかがでしょうか。
|
すべてのモデルが質問の言語(日本語)を正しく認識し、しっかりとしたアイデアを提示していますが、Gemini-1.5-proは他のモデルとは異なり、直接アイデアを提示するのではなく、追加の質問から回答を始めました。状況によっては、より正確な回答を得られるため、これは良いことかもしれません。しかし、単純な質問に対しては、不要なトークンを生成するよりも、指示に直接従う方が良いと思います。
もう一つ興味深い点は、「birthday」を「誕生日」や「present」を「プレゼント」と翻訳する他のモデルとは異なり、Claude 3 Opusは元の入力である「birthday」と「present」を維持できることです。これは、ユーザーが日本語に堪能でない場合に役立つ可能性があります。
まとめ
今回の検証を通して、各LLMモデルが多言語プロンプトに対してそれぞれ異なる得意不得意を持っていることが浮き彫りになりました。Geminiモデルは、正確性と安全性が求められる質問に対して慎重な姿勢を見せ、詳細すぎる情報を避ける傾向がありました。一方、Claude 3 Opusは、より詳細な情報を提供する傾向にありますが、その正確性については更なる検証が必要です。ChatGPT-4oはバランスの取れた性能を見せますが、言語認識のミスが目立ちました。
今回の実験はあくまで限定的なものであり、網羅的な評価ではありませんが、各モデルの特性を把握する上で参考になる結果が得られたと言えるでしょう。今後のLLM開発において、多言語プロンプトへの対応はますます重要な課題となるはずです。
最後に
グループ研究開発本部 AI研究開発室では、データサイエンティスト/機械学習エンジニアを募集しています。ビッグデータの解析業務などAI研究開発室にご興味を持って頂ける方がいらっしゃいましたら、ぜひ募集要項一覧からご応募をお願いします。 一緒に勉強しながら楽しく働きたい方のご応募をお待ちしております。
グループ研究開発本部の最新情報をTwitterで配信中です。ぜひフォローください。
Follow @GMO_RD