おはようございます!
AI担当の日高慎哉です!
昨日の話の続きです
最近
「Gemini 3はベンチマーク対策ばかりしている」
みたいな投稿を見かけました
そもそも「ベンチマーク」って何?
という話なんですが
簡単にいうと
AIのテストです
同じ問題を解かせて
点数を比べます
学校のテストと一緒です
(問題は超難問)
OpenAIが公開した
「FrontierScience」というベンチマークは
科学レベルの問題を
どれだけ解けるかを見る
テストらしいです
で
このテストには
大きく2種類の問題があります
まず1つ目
「Olympiad」
これは
答えが一つに決まっている問題です
このタイプだと
GPT-5.2とGemini 3 Proは
ほぼ互角らしいです

ここだけ見ると
Geminiはかなり優秀です
2つ目が
「Research」
こっちは
仕事によくある
正解が一つに決まらず
途中で情報が増えたり
方針を変えたりしながら
結論を出す問題
たとえば実務だと
こんな状況がよくあります
・情報がバラバラ
・ 途中で条件が変わる
・ 何を優先すべきか決まってない
・ 最後は相手に伝わる形にまとめる必要がある
このResearchだと
GPT-5.2が25.2%に対して
Gemini 3 Proは12.4%

ほぼ2倍の差です
ということで
ここがポイントです
Gemini 3 Proは
「答えが決まっている
問題を当てにいく」のは強い
一方で
「情報を整理して、方針を作って、最後にまとめる」
みたいな実務タスクでは
弱くなりやすい
そういう傾向がある
という話です
だから自分が感じていた
Geminiは性能が高いはずなのに
頑なに自分を曲げない頑固者
という感覚は
気のせいではなかったのかもしれません
ベンチマークの点数だけを見ると
「どのAIが一番すごいか」に
なりがちですが
実務で大事なのは
正解を当てる力だけではありません
散らかった情報を崩さずに
最後までまとめ切る力
こっちの方が効きます
・・・
とか書くと
Geminiをディスってるみたいですが
そういう話ではありません
Geminiは
正解が決まっている問題や
画像系の作業みたいな
得意な土俵がはっきりしてます
なので
Geminiが悪いとかではなく
使い所の問題です
ということで
GeminiにはGeminiの出番があります
人間と同じく
AIそれぞれの性格を見極め
そのAIの長所を
活かして使えれば
ますます
業務のクオリティは
上がっていくでしょう!
それでは
また明日!