Googleの最新基準、Gemini 3.5 FlashはAndroidでのコストが高い割にパフォーマンスが低い

Google は最近、Android コーディングに最適な AI モデルを特定するためのベンチマーク結果を発表し、各モデルの各トークンのコストを示しました。Google の Gemini 3.5 Flash は Android 開発において間違いなくリソース要求が最も高いモデルですが、トップ5には入っていません。一般的なチャットボットの熱が徐々に収束する中、Google、OpenAI、および Anthropic などの企業は、コーディングにおいて優位性を持つエージェントモデルにシフトしています。

ユーザーはこれらのモデルに「雰囲気コーディング」を依存し始めており、これは基本的にソフトウェア開発の大部分の作業を大規模言語モデル（LLMs）に移行することを意味します。最近のモデルは Android コーディングにおいて顕著な改善を見せており、Google は過去数ヶ月間にどのモデルが最も良いパフォーマンスを示したかを追跡しています。

Android Bench は Google 自社のモデルのリリースに伴い更新されており、最近の Gemini 3.5 Flash も含まれ、競合他社と比較されています。主な焦点は、Google がこれらのモデルをどのように評価しているかにあります。各モデルのスコアは 0 から 100 の範囲で、10 回の実行で成功した Android コーディングケースの割合を示しています。Google は期待されるパフォーマンスと最後のテストの日付をリストアップしており、高パフォーマンスのモデルは2月以降変わっていません。

Gemini 3.5 Flash のベンチマークテストにおけるパフォーマンスが不振

最新の Android Bench バージョンでは、コストが高くなっていることが示されています。Gemini 3.5 Flash は Android Bench リストで第六位にランクインしており、GPT 5.5 と Gemini 3.1 Pro Preview の下に位置しています。後者のテスト日は2月です。Gemini 3.5 Flash は Gemini 3.1 Pro のより安価で迅速な代替品として宣伝されており、期待されるパフォーマンス差は 6.1% です。

しかし、最新のベンチマーク結果は、Gemini 3.5 Flash が Android 開発において高い遅延を示し、成功率の差が 9% に達していることを示しています。さらに重要なのは、Google の最新モデルの平均コストが 355.9 トークンであり、各ベンチマークテストの費用が ¥23,760（US$147.10）であるのに対し、Gemini 3.1 Pro Preview は各テストで約 73.3 トークンを使用し、コストは約三分の一であるということです。

GPT 5.5 は各テストのコストで同様の順位ですが、Gemini 3.5 Flash は Android Bench テストで 5.5 倍多くのトークンを使用しました。Claude の前のバージョンである Opus 4.7 は運用コストとトークン使用量で第4位に位置し、中間にいます。Opus 4.8 と Fable 5 に関しては、Google はまだベンチマークスコアを発表していません。以下は、Google の最新 Android Bench 発表での上位10モデルです：

項目	スコア	平均遅延	平均総トークン	平均コスト
GPT 5.5	74	15.7	64.7	¥21,680（US$134.2）
GPT 5.4	72.4	21.2	64.2	¥14,810（US$91.7）
Gemini 3.1 Pro Preview	72.4	11.1	73.3	¥7,740（US$47.9）
Claude Opus 4.7	68.7	11.6	90.0	¥20,080（US$124.3）
Claude Opus 4.6	66.6	9.9	69.5	¥13,630（US$84.4）
Gemini 3.5 Flash	63.7	14.2	355.9	¥23,760（US$147.1）
GLM 5.1	59.7	33.4	80.2	¥7,540（US$46.7）
Kimi K2.6	58.6	29.9	94.3	¥6,870（US$42.5）
Claude Sonnet 4.6	58.4	8.2	47.9	¥6,530（US$40.4）
DeepSeek V4 Pro	55.4	35.8	132.7	¥2,210（US$13.7）
Claude Sonnet 4.5	53.7	13.1	94.2	¥9,850（US$61.0）

このリストには、著名なクローズドウェイトモデルである Claude や GPT と交差するいくつかのオープンウェイトモデルが含まれています。リストの上位部分は、前回の Android Bench 以来基本的に変わっておらず、唯一の例外は GPT 5.3 Codex がリストから削除されたことです。Google はこのリストを継続的に更新しており、さらなるモデルのテストが進む中、Android 開発におけるモデルのパフォーマンスの信頼できる指標となっているようです。Google の発表データは無視できませんが、明らかに Android コーディングは Gemini 3.5 Flash の強みではありません。

Gemini 3.5 Flash のベンチマークテストにおけるパフォーマンスが不振

Stein Yep