こんにちは、たかみかんブログへようこそ(*> ᴗ •*)ゞ
今日は、ChatGPTの画像生成で「人がパソコンを操作する」構図が不自然になりがちな理由、その対策、そしてGeminiとの比較分析について、まとめてみました。もちろん、構図が整ったものも生成はされますが、時として微妙な構図で生成されることがあるのです...。
早速行ってみましょう!
今日のお題:なぜ?ChatGPTの画像生成で「PCを操作する人」が不自然になる理由と解決策
あらかじめご了承ください
はじめに
「ChatGPTに『パソコンを操作する人』の画像を頼んだら、画面とユーザーの方向が変だったり、ありえない体勢でPCを使っていたり…」
そんな経験はありませんか?
ChatGPT(DALL-E 3)でこのような「惜しい」画像が生成されてしまい、
さらにはプロンプトで修正を試みてもなかなかうまくいかない、という悩みを抱えています。
この記事では、なぜこのような現象が起きるのか、そのメカニズムと具体的な対策を解説します。
さらに、GoogleのGeminiでは、なぜかこの構図の失敗が非常に少ない印象です。その理由についても深掘りしていきます。
なぜChatGPTは「人とPCの位置関係」が苦手なのか?
ChatGPT(DALL-E 3)で、人とパソコンの位置関係が不自然な画像が生成されやすい理由は、主に以下の3つが考えられます。
1. 学習データの問題
AIは、学習した大量の画像データから「こういうものだ」というパターンを学びます。
私たちが普段目にする写真やイラスト、特にストックフォトを想像してみてください。
- 「操作」ではなく「イメージ」の写真が多い
人物がカメラ目線で微笑んでいたり、PCは小道具として置かれているだけで、実際に集中して操作している自然な構図の写真は意外と少ないのです - 部分的な画像
手元だけ、あるいはPCの画面だけをアップにした画像も多く、AIが「人とPC全体」の正しい位置関係を学ぶ機会が偏っている可能性があります
このためAIは、「人とPCは一緒に写りがち」ということは理解していても、人間工学的に自然な姿勢や位置関係、つまり「人がどのようにPCを使うのか」という文脈の学習が不十分になりがちです。
2. プロンプト解釈の難しさ
私たちが入力したプロンプト(指示文)は、ChatGPT(GPT-4)によって解釈され、DALL-E 3が画像生成するための具体的な指示に変換されます。
しかし、「PCを操作している」という私たちの当たり前の感覚は、AIにとっては非常に抽象的です。
- 視線の方向
- 指とキーボードの位置
- 画面との距離
- 机や椅子との関係性
これらの無数の要素を、プロンプトからAIが正確に読み取り、一枚の絵として矛盾なく再構築するのは、まだ技術的に難しいタスクなのです。
その結果、個々の要素(人、PC)は正しく描けても、その関係性が崩壊してしまうことがあります。
3. DALL-E 3の空間認識能力
DALL-E 3は驚くべき性能を持っていますが、3D空間を完全に理解しているわけではありません。
複数の物体が複雑に相互作用するシーン、特に人体のような複雑な構造を持つものが別の物体と関わる構図は、AIにとって依然として大きな課題です。
手がキーボードを突き抜けたり、ありえない関節の曲がり方になったりするのも、この空間認識の不完全さが原因の一つです。
生成に失敗しないための対策・プロンプト術
では、どうすればもっと自然な画像を生成できるのでしょうか?
ポイントは「AIに迷わせない、具体的な指示」です。
構図と視点を明確に指定する
「PCを操作する人」といった曖昧な指示ではなく、カメラの位置やアングルを具体的に指定することで、AIは構図を固定しやすくなります。
❌悪い例 ラップトップを操作する女性
✅良い例 カフェのテーブルで、椅子に座ってラップトップを操作する女性。彼女の背後からの視点で、画面とキーボードを打つ手元が見える。
人物の姿勢や行動を細かく描写する
人物が何をしているのか、どのような姿勢なのかを具体的に記述します。
✅良い例 オフィスのデスクで、少し前かがみになって、真剣な表情でラップトップのキーボードをタイピングしている男性。
場所や状況を設定する
どこで、何のためにPCを使っているのかという文脈を与えることで、より自然な描写を引き出すことができます。
✅良い例 夜の自室で、机の上のラップトップに向かってオンラインミーティングをしている学生。画面の明かりが顔を照らしている。
なぜGeminiは失敗が少ないのか?DALL-E 3との比較

一方で、GoogleのGemini(画像生成モデルはImagen 3)は、同様のプロンプトでも人とPCの位置関係を非常に正確に描画する傾向があります。この差はどこから来るのでしょうか。
1. 学習データの質と量の違い
Googleは、言わずと知れた世界最大の検索エンジンであり、Google画像検索などで膨大な量の画像データを保有しています。
DALL-E 3が学習したデータセットと比較して、Geminiが学習に利用できるデータは、その量と多様性において優位性がある可能性があります。
特に、ごく自然な日常風景や、文脈に即した画像(ブログ記事で使われる写真など)が豊富に含まれていることが考えられ、これが「人が自然にPCを使う」という構図の理解度の高さに繋がっているのかもしれません。
2. プロンプトの解釈能力とモデル構造
Geminiは、開発当初からテキスト、画像、音声などを統合的に扱うマルチモーダルAIとして設計されています。
これにより、テキストで書かれたプロンプトのニュアンスや文脈を、より深くリッチに理解する能力が高いと考えられます。
「操作している」という言葉に含まれる、姿勢や視線といった暗黙的な情報を汲み取り、それを忠実に画像に反映させる能力が、DALL-E 3よりも優れている可能性があります。
ChatGPTがプロンプトを一度解釈してDALL-E 3に渡すのに対し、Geminiはよりシームレスにテキストと画像の連携が取れているのかもしれません。
3. リアリティと忠実性へのフォーカス
GoogleのImagen 2は、開発段階からプロンプトへの忠実性と、写実的な画像の生成に重点を置いてきました。
このモデル設計思想の違いが、DALL-E 3が得意とする創造的・芸術的な表現と、Geminiが得意とする現実的・具体的な表現の差として現れていると考えられます。
まとめ
ChatGPT(DALL-E 3)で「PCを操作する人」の画像がうまくいかないのは、AIの学習データや空間認識能力に起因する、現在の技術的な限界の一例です。
しかし、プロンプトを工夫することで、その精度を大きく向上させることができます。
一方で、Geminiは、その強力なデータ背景とモデルの特性により、このような具体的な構図の描写を得意としています。
それぞれのAIの得意・不得意を理解し、目的に応じて使い分けることが、現時点での画像生成AIとの上手な付き合い方と言えるでしょう。
ただ、AIの進化は非常に速く、今日できなかったことが明日には可能になっているかもしれません。
今後の発展に期待しましょう!
(参考)ChatGPT(DALL-E 3)の画像生成成功・失敗例
2025年5月〜7月に作成したものです。生成失敗もありますが、この後紹介するように、大半はきちんと成功もします
画像生成失敗例





画像生成成功例
これがプロンプトで苦心しなくても、デフォルトで出るようになるといいのですが...


