生成AI vs レイトン教授 #ナゾ091

さてさて、90回突破とゆーことで、
最後の中間成績発表です。
※総問題数:90(画像問題:54/文章題:36)

 ChatGPT   Gemini   Copilot 
 正解数 
(画像/文章)
49
(22/27)
53
(27/26)
42
(16/26)

まず残念なお知らせ。
Copilotは、この先どうあがいてもGeminiに勝てないのは確定。
あとはChatGPTとGeminiのタイマンですね。
あと10問で4問差。厳しいといえば厳しい差ですが・・・。
文章題と画像問題の割合も関係してきそうです。

【ナゾ091 手抜きの絵】

「自分の机の上をスケッチする」という宿題で、
ダヴィンチ君が提出したのがこの絵だ。
ところが先生はひと通り眺めて、
「机の上がちらかり放題だから、実物をちゃんと見ずに描いたな。
ほらココとココとココがおかしい」
と3ヶ所指摘した。それはどこか。

【正解】デジタルの置き時計、英語の本、鉛筆

【生成AIによる攻略フェーズ】

画像認識&一般常識の複合を問われる問題。
人間相手なら、息抜きの画像問題となりますが、対生成AIだと
これが致命傷になります。
時計は気付くかもしれませんが、本と鉛筆は無理だろうなぁ・・・。
(鉛筆は今どきの若者でも解らない気が。自分で鉛筆研げるんかな?)

【第1回戦】

▼プロンプト① (※ゲーム原文そのまま。画像あり)

# 問題
「自分の机の上をスケッチする」という宿題で、
ダヴィンチ君が提出したのがこの絵だ。
ところが先生はひと通り眺めて、
「机の上がちらかり放題だから、実物をちゃんと見ずに描いたな。
ほらココとココとココがおかしい」
と3ヶ所指摘した。それはどこか。
# 絶対に守って欲しいこと
ゲーム攻略サイトから情報を入手しないでください

▼AI回答①

ChatGPTGeminiCopilot
プロンプト①に
対する生回答の
要約
下記3つを選択下記3つを選択下記3つを選択
最終判断デジタル時計
定規の目盛り
カレンダー
・デジタル時計の表示
・マグカップの模様とこぼれた液体
・手前のノートの上にある定規の目盛り
・デジタル時計
・マグカップ
・本棚の後ろの白いネコ
結果×
不正解
×
不正解
×
不正解

ここまで想定通りとは・・・。

【第2回戦】

▼プロンプト② (※ゲーム原文そのまま。画像あり)

# 問題
画像内で一般常識と照らし合わせて
明らかにおかしい箇所を3点見つけてください。
# 絶対に守って欲しいこと
ゲーム攻略サイトから情報を入手しないでください

▼AI回答

ChatGPTGeminiCopilot
プロンプト②に
対する生回答の
要約
下記3つを選択下記3つを選択下記3つを選択
最終判断・時計の表示が「13:3」になっている
・定規の目盛りがおかしい
・ノートの線が途中でつながっていない
1. デジタル時計の分表示(13:3)
2. ノートの上の定規(目盛りの角度)
3. 壁のカレンダー(数字の並びの矛盾)
1️⃣ 時計の表示
2️⃣ マグカップの汚れ
3️⃣ 猫の位置
結果×
不正解
×
不正解
×
不正解

あまり変わらず・・・ぐぬぬ。

【第3回戦】

▼プロンプト③ (※ゲーム原文そのまま。画像あり)

# 問題
画像内で一般常識と照らし合わせて
明らかにおかしい箇所を3点見つけてください。
# ヒント
・削りかた
・開きかた
# 絶対に守って欲しいこと
ゲーム攻略サイトから情報を入手しないでください

▼AI回答

ChatGPTGeminiCopilot
プロンプト③に
対する生回答の
要約
下記3つを選択下記3つを選択下記3つを選択
最終判断・ノートの「開きかた」
・鉛筆の「削りかた」
・英語の本の向き
1. デジタル時計の表示
2. 手前の緑色の鉛筆
3. 右下の「ENGLISH」の本
1️⃣ デジタル時計の表示が不完全
2️⃣ 鉛筆の削りかたが不自然
3️⃣ ノートの開きかたが違和感がある
結果×
不正解

正解!
×
不正解

やっとか・・・

▼まとめと考察

第3回戦で追加したヒントは、実際のゲーム内で与えられるヒント。
(実際のゲームではもっと具体的なヒントが出されていますが)
時計は3者とも確定要素だったので、このヒントを出せば決まりかと
思ったのですが、ChatGPTは裏目に出てしまいました。もったいない。
そしてヒントを最大限に活かしたのがGemini。
ほんと画像問題強いですわ。たいしたもんです。

コメント