なぜ？ChatGPTの画像生成で「PCを操作する人」が不自然になる理由と解決策【Geminiとの比較付き】

25/07/03 26/06/03

きのぷー

こんにちは、たかみかんブログへようこそ(*> ᴗ •*)ゞ

今日は、ChatGPTの画像生成で「人がパソコンを操作する」構図が不自然になりがちな理由、その対策、そしてGeminiとの比較分析について、まとめてみました。もちろん、構図が整ったものも生成はされますが、時として微妙な構図で生成されることがあるのです...。

早速行ってみましょう！

今日のお題：なぜ？ChatGPTの画像生成で「PCを操作する人」が不自然になる理由と解決策

あらかじめご了承ください

この記事は2025年7月3日時点の情報をもとに書いています。今後、機能や仕様が変わる可能性もあります。また生成結果はイメージです（同一のものが再現されるとは限りません）

はじめに

「ChatGPTに『パソコンを操作する人』の画像を頼んだら、画面とユーザーの方向が変だったり、ありえない体勢でPCを使っていたり…」

そんな経験はありませんか？

ChatGPT（DALL-E 3）でこのような「惜しい」画像が生成されてしまい、

さらにはプロンプトで修正を試みてもなかなかうまくいかない、という悩みを抱えています。

この記事では、なぜこのような現象が起きるのか、そのメカニズムと具体的な対策を解説します。

さらに、GoogleのGeminiでは、なぜかこの構図の失敗が非常に少ない印象です。その理由についても深掘りしていきます。

なぜChatGPTは「人とPCの位置関係」が苦手なのか？

ChatGPT（DALL-E 3）で、人とパソコンの位置関係が不自然な画像が生成されやすい理由は、主に以下の3つが考えられます。

1. 学習データの問題

AIは、学習した大量の画像データから「こういうものだ」というパターンを学びます。

私たちが普段目にする写真やイラスト、特にストックフォトを想像してみてください。

「操作」ではなく「イメージ」の写真が多い
人物がカメラ目線で微笑んでいたり、PCは小道具として置かれているだけで、実際に集中して操作している自然な構図の写真は意外と少ないのです
部分的な画像
手元だけ、あるいはPCの画面だけをアップにした画像も多く、AIが「人とPC全体」の正しい位置関係を学ぶ機会が偏っている可能性があります

このためAIは、「人とPCは一緒に写りがち」ということは理解していても、人間工学的に自然な姿勢や位置関係、つまり「人がどのようにPCを使うのか」という文脈の学習が不十分になりがちです。

2. プロンプト解釈の難しさ

私たちが入力したプロンプト（指示文）は、ChatGPT（GPT-4）によって解釈され、DALL-E 3が画像生成するための具体的な指示に変換されます。

しかし、「PCを操作している」という私たちの当たり前の感覚は、AIにとっては非常に抽象的です。

視線の方向
指とキーボードの位置
画面との距離
机や椅子との関係性

これらの無数の要素を、プロンプトからAIが正確に読み取り、一枚の絵として矛盾なく再構築するのは、まだ技術的に難しいタスクなのです。

その結果、個々の要素（人、PC）は正しく描けても、その関係性が崩壊してしまうことがあります。

3. DALL-E 3の空間認識能力

DALL-E 3は驚くべき性能を持っていますが、3D空間を完全に理解しているわけではありません。

複数の物体が複雑に相互作用するシーン、特に人体のような複雑な構造を持つものが別の物体と関わる構図は、AIにとって依然として大きな課題です。

手がキーボードを突き抜けたり、ありえない関節の曲がり方になったりするのも、この空間認識の不完全さが原因の一つです。

生成に失敗しないための対策・プロンプト術

では、どうすればもっと自然な画像を生成できるのでしょうか？

ポイントは「AIに迷わせない、具体的な指示」です。

構図と視点を明確に指定する

「PCを操作する人」といった曖昧な指示ではなく、カメラの位置やアングルを具体的に指定することで、AIは構図を固定しやすくなります。

❌悪い例ラップトップを操作する女性

✅良い例カフェのテーブルで、椅子に座ってラップトップを操作する女性。彼女の背後からの視点で、画面とキーボードを打つ手元が見える。

人物の姿勢や行動を細かく描写する

人物が何をしているのか、どのような姿勢なのかを具体的に記述します。

✅良い例オフィスのデスクで、少し前かがみになって、真剣な表情でラップトップのキーボードをタイピングしている男性。

場所や状況を設定する

どこで、何のためにPCを使っているのかという文脈を与えることで、より自然な描写を引き出すことができます。

✅良い例夜の自室で、机の上のラップトップに向かってオンラインミーティングをしている学生。画面の明かりが顔を照らしている。

なぜGeminiは失敗が少ないのか？DALL-E 3との比較

一方で、GoogleのGemini（画像生成モデルはImagen 3）は、同様のプロンプトでも人とPCの位置関係を非常に正確に描画する傾向があります。この差はどこから来るのでしょうか。

1. 学習データの質と量の違い

Googleは、言わずと知れた世界最大の検索エンジンであり、Google画像検索などで膨大な量の画像データを保有しています。

DALL-E 3が学習したデータセットと比較して、Geminiが学習に利用できるデータは、その量と多様性において優位性がある可能性があります。

特に、ごく自然な日常風景や、文脈に即した画像（ブログ記事で使われる写真など）が豊富に含まれていることが考えられ、これが「人が自然にPCを使う」という構図の理解度の高さに繋がっているのかもしれません。

2. プロンプトの解釈能力とモデル構造

Geminiは、開発当初からテキスト、画像、音声などを統合的に扱うマルチモーダルAIとして設計されています。

これにより、テキストで書かれたプロンプトのニュアンスや文脈を、より深くリッチに理解する能力が高いと考えられます。

「操作している」という言葉に含まれる、姿勢や視線といった暗黙的な情報を汲み取り、それを忠実に画像に反映させる能力が、DALL-E 3よりも優れている可能性があります。

ChatGPTがプロンプトを一度解釈してDALL-E 3に渡すのに対し、Geminiはよりシームレスにテキストと画像の連携が取れているのかもしれません。

3. リアリティと忠実性へのフォーカス

GoogleのImagen 2は、開発段階からプロンプトへの忠実性と、写実的な画像の生成に重点を置いてきました。

このモデル設計思想の違いが、DALL-E 3が得意とする創造的・芸術的な表現と、Geminiが得意とする現実的・具体的な表現の差として現れていると考えられます。

まとめ

ChatGPT（DALL-E 3）で「PCを操作する人」の画像がうまくいかないのは、AIの学習データや空間認識能力に起因する、現在の技術的な限界の一例です。

しかし、プロンプトを工夫することで、その精度を大きく向上させることができます。

一方で、Geminiは、その強力なデータ背景とモデルの特性により、このような具体的な構図の描写を得意としています。

それぞれのAIの得意・不得意を理解し、目的に応じて使い分けることが、現時点での画像生成AIとの上手な付き合い方と言えるでしょう。

ただ、AIの進化は非常に速く、今日できなかったことが明日には可能になっているかもしれません。

今後の発展に期待しましょう！

（参考）ChatGPT（DALL-E 3）の画像生成成功・失敗例

2025年5月〜7月に作成したものです。生成失敗もありますが、この後紹介するように、大半はきちんと成功もします

画像生成失敗例

画像生成成功例

これがプロンプトで苦心しなくても、デフォルトで出るようになるといいのですが...

ChatGPTでよく見る「You’re generating images too quickly…」の意味・原因・対策を徹底解説｜画像生成のレート制限ガイド

今日のお題：ChatGPTでよく見る「You’re generating images too quickly…」の意味・原因・対策を徹底解説はじめに最近、ChatGPTで画像生成を使っているとこのような英文メッセージを見かけることが増えたのではないでしょうか？ You’re generating images too quickly. To ensure the best experience for everyone, we have rate limits in place. Please wa ...

AI画像生成お役立ちプロンプト

齧歯目の子ども限定！寝転ぶ姿が愛しすぎる20の癒しプロンプト集

今日のお題：齧歯目の子ども限定！寝転ぶ姿が愛しすぎる20の癒しプロンプト集 🐹 癒しシーン20選 1. クルミのベッドでおやすみハムちゃん推しポイント：まるで童話の1ページ。小さな命のぬくもりがぎゅっと詰まったシーン。 A baby hamster curled up inside a walnut shell, peacefully sleeping, macro photography, natural soft lighting 日本語訳：クルミの殻の中で丸くなって眠る赤ちゃんハムスター、マクロ ...

AI画像生成お役立ちプロンプト

【深掘り解説】Geminiで同じ画像が生成されるのはなぜ？原因と創造性を引き出す解決策

今日のお題：Geminiで同じ画像が生成されるのはなぜ？原因と創造性を引き出す解決策はじめに「Gemini」の画像生成機能は素晴らしい機能である一方、同じスレッドでリクエストを重ねていると、以前生成した画像とそっくりな、それどころか、ほぼ同じ画像を「焼き直し」たような画像が出てきた経験はありませんか？この現象は、単なる偶然やバグではありません。 Geminiのような大規模言語モデル（LLM）が持つ、「文脈を記憶する」という賢さと、画像生成AIの技術的な特性に起因するものです。今回は、なぜ同じような ...

AI画像生成お役立ちプロンプト

Geminiが同じ画像ばかり生成？プロンプトを無視する原因と解決策

今日のお題：Geminiが同じ画像ばかり生成？プロンプトを無視する原因と解決策はじめに GoogleのAI、Geminiは、簡単な指示で驚くほど高品質な画像を生成してくれる便利なツールです。しかし、使っているうちに「あれ？」と思う挙動に遭遇したことはありませんか？特に、ひとつのチャット（スレッド）で画像生成リクエストを重ねていると、新しいプロンプトを無視して、過去に生成した画像とそっくりなものばかりを出すようになることがあります。この記事では、多くのユーザーが経験するこの「画像の複製問題」がなぜ起 ...

AI画像生成お役立ちプロンプト

【Gemini画像生成】AIで描く、ふたりの甘酸っぱい世界。ポリシーを気にせず使える安全な恋愛プロンプト集

今日のお題：Geminiで描く、ふたりの甘酸っぱい世界。ポリシーを気にせず使える安全な恋愛プロンプト集はじめに「AIで、憧れの恋愛シーンを描いてみたい！」そう思っても、「どんな言葉（プロンプト）を使えば、AIのポリシーに違反せず、理想的な雰囲気になるんだろう？」と悩んでいませんか？特に恋愛をテーマにしたイラストは、意図せずAIの安全ポリシーに触れてしまう可能性があり、少し気を遣いますよね。この記事では、GoogleのAIであるGeminiで、誰でも安心して使える「健全で上品な恋愛プロンプト」を厳 ...

もしも旅の途中で列車が止まったら？寝台特急運転打ち切り事例から学ぶ、旅行者のための対処法