生成AI vs レイトン教授 #ナゾ041

前回で40回到達とあいなったので、中間成績はっぴょー
※総問題数:40(画像問題:20/文章題:20)

 ChatGPT   Gemini   Copilot 
 正解数 
(画像/文章)
21
(7/14)
19
(6/13)
18
(5/13)

問題の割合も画像と文章でちょうど半分でした。
勝ち星の推移的には、ほぼ30回目と同じ。
ChatGPTが5割、それを僅差でGeminiとCopilotが追う展開。
こうやって見ると、やっぱり画像問題は各位苦手にしていますね。
文章題の方は大差ないので、今後は画像問題を取れるか取れないかで
勝ち星の差が顕著になりそうです。

【ナゾ041 いちばん安い?】

電気屋からチラシが届いた。
かなり安くなっているようだが、予算というものがある。
このなかからいちばん安いといえるものを買いたいのだが、
どれをえらべばよいか。

【正解】D(割引率ではなく、単純に何が一番安いか)

生成AIによる攻略フェーズ】

これもいい問題とは言えませんね・・・。
同じ種類の製品なら解りますが、製品の種類はバラバラ。
例えば車10,000円と消しゴム1,000円でどっちが安い?と言われて
消しゴムを選ぶ人なんていないでしょう。
これは生成AI側も2重の意味(問題解釈と画像認識)で判断に苦しむでしょうね。

【第1回戦】

▼プロンプト① (※ゲーム原文そのまま。画像あり)
電気屋からチラシが届いた。
かなり安くなっているようだが、予算というものがある。
このなかからいちばん安いといえるものを買いたいのだが、
どれをえらべばよいか。

▼AI回答①

ChatGPTGeminiCopilot
プロンプト①に
対する生回答の
要約
「割引率」で計算してきた。一見すると、販売価格が一番低い「Dのトースター($123)」が正解のように思えますが、これはひっかけです。最安はどれか
A: $1260
B: $310
C: $1682
D: $123
最終判断最も割引率が大きいのは A(立体カラーTV) です。値引きされた金額がもっとも大きいのはAです。答え:D($123)がいちばん安い
結果×
不正解
×
不正解

正解!

!!!衝撃の展開!!!
まさかまさかのCopilotくんの一人勝ち(Copilotの一人勝ちは初)!

▼まとめと考察

まず、3者とも画像認識は完璧でした。これだけでも凄い。
Geminiは裏を読みすぎましたねw
正解したCopilotは、過去に正解を攻略サイトからカンニング事件するがあったので、
一応 Dにした理由も尋ねてみましたが、外部サイトを参考にしたような素振りは
ありませんでした。(巧妙に隠しているのかもしれませんがw)

でも、他の2人は「Aの”立体テレビ”は~」とか「Dの”トースター”は~」と返す中
Copilotだけは製品名を一切入れず、A~Dだけで返答してきたのは、やっぱりちょっと
違和感ありますね・・・。

コメント