Web活!Webの運用・戦略・活用して
より良い経営を提供します!

Geminiさんは、なぜそんなに頑固者なの?理由がわかった気がする

AIの使い方

おはようございます!
AI担当の日高慎哉です!

昨日の話の続きです

 

最近
「Gemini 3はベンチマーク対策ばかりしている」
みたいな投稿を見かけました

そもそも「ベンチマーク」って何?
という話なんですが

簡単にいうと
AIのテストです

同じ問題を解かせて
点数を比べます

学校のテストと一緒です
(問題は超難問)

OpenAIが公開した
「FrontierScience」というベンチマークは

科学レベルの問題を
どれだけ解けるかを見る
テストらしいです


このテストには
大きく2種類の問題があります

まず1つ目
「Olympiad」

これは
答えが一つに決まっている問題です

このタイプだと
GPT-5.2とGemini 3 Proは
ほぼ互角らしいです

 

ここだけ見ると
Geminiはかなり優秀です

2つ目が
「Research」

こっちは
仕事によくある

正解が一つに決まらず

途中で情報が増えたり
方針を変えたりしながら
結論を出す問題

たとえば実務だと
こんな状況がよくあります

・情報がバラバラ
・ 途中で条件が変わる
・ 何を優先すべきか決まってない
・ 最後は相手に伝わる形にまとめる必要がある

このResearchだと
GPT-5.2が25.2%に対して
Gemini 3 Proは12.4%

 

 

ほぼ2倍の差です

 

ということで
ここがポイントです

Gemini 3 Proは
「答えが決まっている
問題を当てにいく」のは強い

一方で
「情報を整理して、方針を作って、最後にまとめる」
みたいな実務タスクでは
弱くなりやすい

そういう傾向がある
という話です

だから自分が感じていた

Geminiは性能が高いはずなのに
頑なに自分を曲げない頑固者

という感覚は
気のせいではなかったのかもしれません

ベンチマークの点数だけを見ると
「どのAIが一番すごいか」に
なりがちですが

実務で大事なのは
正解を当てる力だけではありません

散らかった情報を崩さずに
最後までまとめ切る力
こっちの方が効きます

・・・
とか書くと
Geminiをディスってるみたいですが
そういう話ではありません

Geminiは
正解が決まっている問題や
画像系の作業みたいな
得意な土俵がはっきりしてます

なので
Geminiが悪いとかではなく
使い所の問題です

ということで
GeminiにはGeminiの出番があります

人間と同じく
AIそれぞれの性格を見極め

そのAIの長所を
活かして使えれば

ますます
業務のクオリティは
上がっていくでしょう!

それでは
また明日!

search envelope heart star user close search-plus home clock update edit share-square chevron-left chevron-right leaf exclamation-triangle calendar comment thumb-tack link navicon aside angle-double-up angle-double-down angle-up angle-down star-half status image gallery music video category tag chat quote googleplus facebook instagram twitter rss