xAI、Grok 4.3を発表　Intelligence Indexは53点でGPT-5.5やClaude Opus 4.7に後れを取る

Grok 4.3はxAIの実用的なアップグレードであり、より便利で、より速く、より仕事をこなすアシスタントのようになっています。しかし、ハードな推論、安定性、信頼性においては、依然としてGPT-5.5やClaude Opus 4.7に遅れをとっています。xAIはGrok 4.3を発表しましたが、声を大にすることはなく、Elon Muskは個別にツイートさえしていません。これはただの過渡的なバージョンのように見えます。https://x.com/elonmusk/status/2045590599206875216 これは静かな製品のリニューアルのようで、モデルをAPIに組み込み、価格を引き下げ、ツールの能力を補い、開発者に旧版Grokからの移行を促しています。

AGIの大騒ぎもなく、Elon Musk風の「すべてを変える」も少なく、逆にGrok 4.3はより現実的に見えます。

より便利さが今回の最も直接的な製品の売り

一般消費者にとって、Grok 4.3の最も重要な変化は、特定のスコアがどれだけ上がったかではなく、AIアシスタントがより便利で、より速く、より人間のように文書、表、プレゼンテーションを完成させることができるコンプライアンスアシスタントに近づいていることです。しかし、Grok 4.3の先進性は依然としてGPT-5.5やClaude Opus 4.7には追いついていません。これはコストパフォーマンスが非常に高い新しいモデルであり、明らかに限界があるモデルでもあります。消費者が本当に気にするべきことは、どのシーンでお金と時間を節約でき、どのシーンで判断が不正確だったり、考えすぎたり、言い過ぎたりすることで逆にコストが増えるかということです。

確かに強化されており、特により仕事をこなすアシスタントのようになっています。Artificial AnalysisはGrok 4.3のIntelligence Indexを53点と評価し、Grok 4.20 0309 v2よりも4点高く、Claude Sonnet 4.6やMuse Sparkをも上回っています。この向上は小さくはなく、特にxAI自身のモデルラインの中では、Grok 4.3は最強のモデルとなっています。

さらに注目すべきは代理タスクのパフォーマンスです。Grok 4.3はGDPval-AAで1500 Eloを獲得し、Grok 4.20 0309 v2の1179よりも321点向上しました。この単項目は、データ整理、複雑なスケジュールの実行、実際のワークフローの処理など、日常的な「AIに仕事をさせる」シーンに近づいています。これは一般ユーザーにとって実質的な意味を持ちます。AIに週報、表、プランを作成させ、会議の要約を分解し、PPTを生成させる際、Grok 4.3の体験は前の世代よりもより充実しています。

Grokはプレゼンテーション、文書、スプレッドシートを作成でき、1つのコンピュータ環境内でコードを書いたり、コードを実行したり、依存関係をインストールしたりしてファイルを生成できます。コードを理解していないユーザーにとって、これはExcel、PowerPoint、ブラウザ間で行き来する必要があった多くの操作が1つのコマンドに圧縮できることを意味します。これこそがAI消費者向け製品が本当に競争すべき領域です——ユーザーは、報告書を完成させたり、旅行計画を立てたり、適切なトーンのメールを書いたりできるかどうかを重視しています。Grok 4.3のこの部分での進歩は、真の進歩です。Grok 4.3の価格は非常に攻撃的です。APIの価格は、1百万入力トークンあたり¥200（US$1.25）、1百万出力トークンあたり¥400（US$2.50）で、Grok 4.20の入力価格より約40％、出力価格より約60％低くなっています。Artificial Analysisの試算によると、全体のIntelligence Index評価のコストは約¥63,810（US$395）で、Grok 4.20 0309 v2より約20％低くなっています。これは消費者に影響を与えますが、直接的な方法ではありません。ほとんどの一般の人はAPIを直接呼び出すことはありませんが、彼らはAPIに基づいて構築された製品を使用します。AIライティングツール、カスタマーサポートボット、音声アシスタント、教育アプリ、プラグインなど、すべての背後でモデルを呼び出すために支払う必要があります。基盤モデルの価格が下がると、アプリケーションベンダーはサブスクリプション料金を引き下げる余地ができたり、同じ価格でより多くの回数、より長いコンテキスト、より複雑なタスクを提供することができます。Grok 4.3には速度というもう1つの利点もあります。

Artificial AnalysisのxAIモデルページによれば、Grok 4.3はxAIの現在最も出力速度が速いモデルの1つで、約196トークン/秒であり、非常に速い部類に入ります。音声チャット、リアルタイムカスタマーサポート、長文生成、バルクコンテンツ処理において、待機時間は体験に直接影響します。しかし、速度には見落とされがちな詳細があります：Grok 4.3の最初のトークンの遅延はそれほど高くありません。まず「少し考えてから」、その後迅速に出力します。長い回答ではこの速度の利点が明らかですが、短い対話ではユーザーは最初に停止を感じ、その後に速さを感じるかもしれません。

カスタマーサポート、音声アシスタント、モバイルチャットにおいて、この差は拡大されます。Grokは常に微妙な優位性を持っています：トーンがより人間らしいのです。Hacker Newsでは、英語が母国語でないユーザーの中には、Grokがテキストのトーン、正式な形式、微妙な人間関係の表現を他のモデルよりも自由に扱えると考えている人がいます。GrokはChatGPTやClaudeと比較され、非公式な雑談のトーン、同僚とのコミュニケーション、音声入力の認識において、より実際の交流に近いとされています。https://news.ycombinator.com/item?id=47972447 GrokはXプラットフォームの膨大な口語表現のトレーニングから恩恵を受けています。これは、ソーシャルネットワーク内のトーン、リズム、緩さを捉えやすくし、またそのためにソーシャルネットワークの皮肉、偏見、非標準的な表現を引き受けることができます。C端ユーザーにとって、この「より自由な」能力は、Grokがメッセージの作成、口語の書き起こし、音声アシスタント、軽作業のシーンで好まれる要因となります。最前線には立っていませんが、あなたの意に沿ったトーンで話す意欲のあるアシスタントに近づいています。

Grok 4.3がGPT-5.5やClaude Opus 4.7に勝てない最大の問題は、すでに第一グループの端に入ったように見えるが、最前線にはまだ立っていないことです。Grok 4.3のIntelligence Indexは53、GPT-5.5は60、Claude Opus 4.7は57です。この差は単なるランキングの数点ではありません。一般消費者にとっては、複雑な推論、コードデバッグ、長文の確認、専門的な相談、複数ステップのタスクの安定性に現れます。

GDPval-AAでは、Grok 4.3の向上は大きいですが、依然としてGPT-5.5 xhighに276 Elo遅れをとっており、標準Elo公式に基づくと、GPT-5.5に対する期待勝率は約17％です。幻覚の制御にも代償があります。Grok 4.3のAA-Omniscience Accuracy（正確率）は8点向上しましたが、Non-Hallucination Rate（非幻覚率）は8点低下しました。

ここでの正確率と非幻覚率は異なります。正確率はあなたがどれだけ正解したかを見ますが、非幻覚率は答えられない問題の中で、モデルが自分が知らないことを正直に認めている割合を見ます——知らないのに自信満々に答えることが「幻覚」と呼ばれます。言い換えれば、Grok 4.3の知識のカバレッジは高くなりましたが、幻覚が発生しやすくなりました。そして消費者が最も恐れるのは、AIが非常に流暢で自信を持って答え、実際には重要な事実が間違っていることです。人間は長い間自負心から間違いを犯してきましたが、機械はこの一般的な項目に加わるべきではありません。

これは、医療、法律、金融、学術、工学などの高リスクのシーンでは、Grok 4.3を慎重に使用する必要があることを意味します。ユーザーの草案作成、整理、初稿生成を支援するのに適しており、低リスクの補助作業には適していますが、最終的な判断を伴う場合は、GPT-5.5やClaude Opus 4.7の方が安定しています。以下はGrok 4.3の主要な仕様比較です：

指標	Grok 4.3	Grok 4.20 0309 v2	GPT-5.5	Claude Opus 4.7
Intelligence Index	53	49	60	57
GDPval-AA Elo	1500	1179	1776 (xhigh)	–
API入力価格 (毎百万Tokens)	¥200（US$1.25）	約40％高い	–	–
API出力価格 (毎百万Tokens)	¥400（US$2.50）	約60％高い	–	–
出力速度 (Tokens/s)	196	–	–	–

しかし、消費者が気にするのは結果です。Grok 4.3は100万トークンのコンテキストウィンドウを提供し、これは長文、コードベース、マージ、報告書、データベースに非常に魅力的です。ユーザーはより多くの材料を投入し、モデルがより完全な情報環境で作業できるようにします。研究、オフィス、創作にとって、これは実用的な能力です。また、テキストと画像の入力をサポートし、テキストを出力し、ツール呼び出し、ウェブ検索、X検索、コード実行、ファイル検索、RAGなどの能力を強化しています。xAIはCustom Voices、音声代理、TTS、STTなどの製品も発表し、Grokの境界をテキストから音声に拡張しています。

一般ユーザーにとって、未来のGrokは単なるチャットボックスではなく、文書を読み、ウェブを検索し、表を作成し、話し、聞くことができるマルチモーダルアシスタントになる可能性があります。問題は、機能が多いことが必ずしも体験が良いことを意味するわけではないということです。消費者向けAIの競争は、最終的には3つのシンプルな基準に戻ります：待ち時間が少なく、間違いが少なく、手間が少ない。Grok 4.3は「待ち時間が少ない」と「コストが少ない」点で明らかに前進しましたが、「間違いが少ない」点では十分な強い答えを示していません。Grok 4.3の正確なポジショニングは、コストパフォーマンスモデルであり、最強モデルではありません。Grok 4.3の最も適切なポジショニングは、高コストパフォーマンスの作業型モデルです。これは高頻度のコンテンツ生成、トーンの書き換え、長文の初期スクリーニング、音声製品、カスタマーサポートシーン、バルクオフィスタスク、軽量な代理ワークフローに適しています。また、コストに敏感で、応答速度に敏感で、最強の推論にこだわらない製品にも適しています。多くの消費者は、毎回最強モデルを呼び出す必要はありません。まるで買い物のためにスポーツカーを運転する必要がないのと同じです。ただし、タスクが深い推論、厳格な事実確認、複雑なコード、数学的証明、長期プロジェクトの記憶、専門的な判断を必要とする場合、Grok 4.3は第一選択になるべきではありません。GPT-5.5やClaude Opus 4.7は、これらの高価値で高リスクのタスクを引き受けるのにより適しています。今回のxAIの戦略は非常に実用的です：まずモデルを十分に強化し、その後価格を引き下げ、速度と作業能力を拡大して利用可能なシーンを広げます。最も先進的なモデルの称号を勝ち取ることはありませんでしたが、実際の使用量の一部を獲得することができます。市場は常に最強者を評価するわけではなく、十分に強く、十分に速く、十分に便利な選択肢も評価します。Grok 4.3の意義はここにあります。これは、xAIをElon Muskの声量で注目を集めるモデル供給者から、より実用的なAPIと消費者向けツールの競争方向に一歩進めました。

見た目は良く、実際に良いですが、まだGPT-5.5やClaude Opus 4.7を緊張させるほどではありません。消費者は、価格が下がり、速度が上がり、より多くのAIアプリケーションが便利になることを期待できます。また、真に先進的で信頼できる場所が必要な場合、Grok 4.3は依然として選択肢の一つに過ぎないことを忘れてはなりません。

より便利さが今回の最も直接的な製品の売り

Stein Yep