2025.09.01

Nano Banana: Gemini 2.5 Flash Image(とQwen-Image-Edit)で画像生成・編集を試してみた

TL;DR

GoogleのGemini 2.5 Flash Image (aka nano-banana)がリリースされました。従来のGeminiの画像生成・編集機能が大幅に強化されており、登場人物を再現した新しいシーンの生成やアイテムの抽出、複数画像を与えた編集などが可能です。
また、最近のオープンウェイトモデルとして、AlibabaのQwen-Image, Qwen-Image-EditもOpenAI GPT Image 1やGemini 2.5 Flash Imageに匹敵する性能を持っています。これらはローカル環境で実行できる点がメリットです。

はじめに：Nano Bananaとは？
Gemini 2.5 Flash Imageで画像生成・編集してみる
Qwen-Image-Editと比べてみる
1. Qwen-Image-Editを ComfyUIで導入してみる
2. OpenAI GPT Image 1、Gemini 2.5 Flash Image、Qwen-Image-Editとの比較
まとめ
最後に
参考資料

はじめに：Nano Bananaとは？

こんにちは、グループ研究開発本部のAI研究開発室のT.I.です。昨今の画像生成・編集AIの品質・性能は大幅に改良され、ちょっとしたスライド資料の挿絵やアイコンを生成したり、画像を簡単に編集してみたりと、自分のような~~(イラストが描けずPhotoshopも使えないような😢)~~データサイエンティスト(?)にもなかなかに便利なツールとなっています。さて、先日GoogleがGemini 2.5 Flash Image (通称Nano Banana)を発表しました「Introducing Gemini 2.5 Flash Image, our state-of-the-art image model」。以前のブログ「OpenAIのGPT Image 1 APIで入力画像に高い忠実度(high input fidelity)の画像生成を試してみた」では、Gemini(当時)の画像編集機能と比較して、GPT Image 1の方が優れていると感じましたが、果たしてGemini 2.5 Flash Imageはどうなのでしょうか？Gemini 2.5 Flash Image は、GeminiのアプリやAPI、Google AI Studioで利用可能です。早速、以前のブログで紹介した画像編集タスクを「クリスマス・シーズンの画像を、ビーチとヤシの木がある夏のシーズンの画像に変更してください。」といったプロンプトで3人組の画像を編集した結果の比較が以下となります。

Gemini AppでのGemini 2.5 Flash Image (Nano Banana)の画像編集の例

登場人物をそのままに簡単に編集できますね、以前のブログで紹介したGPT Image 1 High Fidelityと以前のGeminiでの編集結果と比較したのが以下の図です。

Gemini 2.5 Flash Image (Nano Banana)の性能を他のモデルと比較した図

以前のGemini(左下)では変なセーターのままで、人物の顔の再現性が今ひとつでしたが、Gemini 2.5 Flash Image(右下)では、人物の顔も自然で服も夏らしい格好になっています。GPT Image 1 High Fidelity と比較しても人物の再現性は格段に高くなっております。また、GPT Image 1 High Fidelityでは、シンプルなTシャツですが、Gemini 2.5 Flash Imageではアロハシャツなどより凝った服装になっています。テーブルの飲み物もコーヒーから涼しげなドリンクに変更されている点など実に芸が細かいですね。

ちなみにこの「Nano Banana」というのはLMArenaで突如として画像生成・編集タスクで高性能を発揮して話題となった謎のモデルのコードネームでした。これが後の発表で、Gemini 2.5 Flash Imageであることが判明しました。

LMArena Image Edit Arenaのランキング(8/26時点)Gemini 2.5 Flash Image (Nano Banana)がトップに君臨しています。

今回のブログでは、このGemini 2.5 Flash Image (Nano Banana)の紹介と、匹敵する画像生成・編集性能を誇るオープンウェイトモデルであるQwen-Image-Editとの比較を行います。

Gemini 2.5 Flash Imageで画像生成・編集してみる

Gemini 2.5 Flash ImageはGemini appやGemini API、Google AI Studioで利用可能です。Google AI Studioの場合はモデル名として「Nano Banana(gemini-2.5-flash-image-preview)」を選択します。

Google AI StudioでのGemini 2.5 Flash Image (Nano Banana)の選択すると、Gemini appと同様にChatしながら画像生成と編集が可能です。

APIで画像生成・編集してみる

APIの利用方法については、公式のドキュメント「Image generation with Gemini (aka Nano Banana)」を参照してください。具体的なAPIの利用例と画像生成・編集におけるTipsが公開されています。まずは、PythonでAPIを利用するために必要なライブラリをインストールします。

$ pip install google-genai

また、APIの利用のためにGoogle AI StudioでAPIキーを取得して、GEMINI_API_KEYとして設定しておきます。Gemini APIを利用した画像生成は以下の通りです。モデル名としては、gemini-2.5-flash-image-previewを指定します。

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = (
    "Nano bananaがおしゃれなレストランで提供されている様子を、Geminiのテーマで描いてください。"
)

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt],
)

for part in response.candidates[0].content.parts:
if part.text is not None:
    print(part.text)
elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))
    image.save("generated_image.png")

以上のコードを実行すると、以下のように画像だけではなく、Geminiからの返答も一緒に得られます。

はい、承知いたしました。Geminiのテーマでおしゃれなレストランで提供されているNano bananaの画像を作成します。どうぞ！
(by Gemini 2.5 Flash Image)

Gemini 2.5 Flash Imageで生成したNano bananaの画像の例

画像編集には、イメージファイルを読み込んで、プロンプトと一緒に与えます。

client = genai.Client()

prompt = (
"私の犬がnano bananaを食べている様子を、ふたご座の星座の下でおしゃれなレストランで描いてください。"
)

image = Image.open("./my_dog.jpg")

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt, image],
)

for part in response.candidates[0].content.parts:
if part.text is not None:
    print(part.text)
elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))
    image.save("generated_image.png")

Gemini 2.5 Flash Imageで編集した画像の例(１枚目が入力画像で２枚目が出力結果)

なんかバナナをそのまま咥えているだけではありますが、元の犬がちゃんと再現されておしゃれなレストランにちょこんと座っている姿が可愛いですね。

もちろん複数の画像を与えて生成も可能です。

client = genai.Client()

sweater_image = Image.open('./sweater.png')
model_image = Image.open('./model.png')

text_input = """ECサイトのためのプロフェッショナルなファッション写真を作成してください。最初の画像の赤いセーターの画像を取りの2番目の画像の男性に着せてください。男性がセーターを着ているリアルで全身の写真を生成し、照明と影を屋外環境に合わせて調整してください。"""

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[sweater_image, model_image, text_input],
)

image_parts = [
    part.inline_data.data
    for part in response.candidates[0].content.parts
    if part.inline_data
]

if image_parts:
    image = Image.open(BytesIO(image_parts[0]))
    image.save('fashion_ecommerce_shot.png')
    image.show()

Gemini 2.5 Flash Imageで編集した画像の例(１枚目と２枚目が入力画像で３枚目が出力結果)

与えたセーターとモデルの画像がうまく合成されており、背景の一部も変わっており街中の広場の様子が映るなど自然な写真に仕上がっています。

効果的なプロンプトのコツ (by Google)

効果的な生成プロンプトのコツとテンプレートなどについて公式のブログなどの情報が参考となりますので、参照してみてください。

これらの記事では、以下のように効果的なプロンプトのポイントがまとめられています。

Subject（被写体）：明確で具体的に（例：「光る青い瞳を持つロボットバリスタ」など）
Composition（構図）：ショットのフレーミング（例：ワイドショット、ローアングルなど）
Action（動作）：何をしているか（例：コーヒーを淹れている、呪文を唱えている）
Location（場所）：どこで（例：火星の未来的なカフェなど）
Style（スタイル）：全体の美的表現（例：フィルムノワール、水彩画など）
Editing Instructions（編集指示）：既存画像の編集時は具体的に指示（例：「ネクタイを緑にする」「車を背景から削除する」）

また、より高品質な画像生成・編集のためのベストプラクティスとして以下のような解説があります。

描写を非常に具体的にする：描写を詳細にするほど結果を大きく改善（例：「ファンタジーの鎧」ではなく「銀箔の模様が刻まれ、高い襟と隼の翼のような形をした胴を持つ、エルフの豪華な板鎧」。
文脈と意図を明示：目的と文脈を伝えると精度向上(例：「ロゴを作成」ではなく「高級でミニマルなスキンケアブランドのロゴを作成」)
反復と修正：会話型インターフェースを活用し小調整を重ねる(例：「ほかはそのままで、キャラクターの表情をもっと真剣にしてください」)
ステップバイステップでの生成：複雑なシーンは段階的に生成する(例：「まず、夜明けの穏やかな霧の森の背景を作る。次に前景に、苔むした古い石の祭壇を加える。最後にその祭壇の上に、一本の発光する剣を置く。」)
意味的なネガティブプロンプトを利用する：「車なし」と否定せず、「交通の気配のない、人気のない空っぽの通り」など肯定的に表現する
カメラ表現で構図を制御：構造の制御のために具体的な撮影用語を使う（例：広角ショット、マクロショット、ローアングル視点など）

これらのポイントを押さえることで、より意図に沿った高品質な画像生成・編集が可能となりますので、色々と試してみてください。