独立AI評価機関「Artificial Analysis」が今週発表したIntelligence Index v4.0で、世界トップの大型言語モデル3つが前代未聞の三つ巴同点となりました。OpenAIのGPT-5.2が50点、AnthropicのClaude Opus 4.5が49点、GoogleのGemini 3 Proが48点で、この組織はこれをAI開発の「フロンティア高原」と呼んでいます。
この結果は、2024年と2025年に見られた急速な「リーダーボードの飛躍的進化」の終わりを示しています。オーストラリア発のこのベンチマーク企業は、開発者や企業バイヤーから注目を集めています。v4.0では、MMLU-ProやAIME 2025などトップモデルがほぼ完璧にこなしたテストを除外し、3つの新評価を追加しました。
専門分野での優位性
全体スコアが近い中、各モデルが独自の強みを発揮しています。GPT-5.2は「xhigh」推論モードで抽象的推論に優れ、応答前に長時間の内部計算が可能です。Claude Opus 4.5は実世界のソフトウェア工学タスク「SWE-bench Verified」で80.9%を記録し最高スコア。Gemini 3 Proは100万トークンの巨大コンテキストウィンドウと、ビデオ・音声・画像のネイティブマルチモーダル処理が特徴です。
v4.0はトップスコアを73点から50点以下に引き下げ、将来の進化のための「余裕」を確保しました。共同創業者ジョージ・キャメロンとミカ・ヒル=スミスは、企業からの支払いによる有利な順位付けを防ぐ厳格なファイアウォールを維持しています。
現実的な能力限界
新ベンチマーク2つが現在の限界を明らかにしました。AA-Omniscienceは専門分野の6,000問をテストし、幻覚を罰し、不確実性を認めるモデルを評価。Claude 4.5とGPT-5.2のみがプラススコアを達成しました。
より衝撃的なのは、60人以上の研究者が設計した博士級物理推論テスト「CritPt」で、全モデルが10%未満。Gemini 3 Proが9.1%でトップです。Artificial Analysisによると、AIは博士のように「会話」はできますが、「研究」はまだできません。
Microsoft、Amazon、Googleが企業向けAI契約を競う中、アナリストは単一ベンダー依存を避け、多モデル戦略を推奨。GPT-5.2を戦略業務に、Claude 4.5を技術基盤に、Gemini 3 Proをマルチメディアに活用しています。代理タスク、コーディング、科学的推論、一般知識の均等加重のため、カテゴリ別スコアを確認すべきです。

Comments