Anthropic、Claude 3.7 Sonnetの拡張思考モードを発表

Anthropic は Claude 3.7 Sonnet の発売を公式に発表しました。この新バージョンは「拡張思考モード」を搭載しており、ユーザーはこのモードを有効または無効にすることで、モデルが複雑な問題をより深く考えるように指導できます。さらに、開発者は「思考予算」を設定することで、Claude が問題解決に費やす時間を正確に制御することができます。

拡張思考モードの運用方法

公式によると、拡張思考モードは別のモデルに切り替えるのではなく、同じモデルがより多くの時間と労力をかけて答えを導き出すことを可能にします。この新機能により、Claude の知能レベルは大幅に向上し、AI モデルの運用、評価、安全性に関するいくつかの重要な問題が提起されました。

「拡張思考モードにより、Claude はより長い時間考えることができ、より挑戦的な問題に答えることができます。」

Anthropic

可視化された思考過程

思考能力の強化に加えて、Anthropic は Claude の思考過程を原則的に可視化することを決定しました。これにより、ユーザーはその答えに対する信頼度が向上し、思考過程の理解が促進されます。このような透明性は、ユーザーがより良い出力結果を得るのに役立ちます。

「Claude の思考方法を観察できることで、理解とその答えの検証が容易になります。」

Anthropic

しかし、この可視性にはいくつかの潜在的な問題も伴います。たとえば、ユーザーはこの思考過程が冷淡であり、個性に欠けると感じるかもしれません。これは、思考過程において Claude が標準的な役割訓練を受けていないため、思考内容に誤りや誤解を招くアイデアが含まれることがあるからです。

新しいテストの思考能力

Claude 3.7 Sonnet は「行動拡張」能力も備えており、これにより機能を反復的に呼び出し、環境の変化に応じて応答し、オープンエンドのタスクを継続的に実行することができます。この改善により、計算タスクを実行する際に、より多くのラウンドと計算リソースを割り当てることができ、より良い結果を得ることが可能になります。

「Claude 3.7 Sonnet は OSWorld 評価で優れたパフォーマンスを示し、仮想コンピュータとのインタラクションが増えるにつれて、その性能差が徐々に拡大しています。」

Anthropic

さらに、Claude 3.7 Sonnet はゲームプレイ能力も向上しており、たとえば《ポケットモンスター赤版》を継続的にプレイし、複数のポケモンジムリーダーを打ち負かすことができ、多タスク処理や戦略調整における優位性を示しています。

計算能力の向上

拡張思考能力を使用する際、Claude 3.7 Sonnet は「直列テスト時間計算」の恩恵を受けており、これは最終出力を生成する前に複数の連続した推論ステップを行うことを意味します。さらに、研究者たちは「並列テスト時間計算」を使用してモデル性能をさらに向上させることを探求しています。

「これらの戦略は、複数の AI モデルの評価結果において顕著な改善を示しています。」

Anthropic

総じて、Claude 3.7 Sonnet の拡張思考とエージェント訓練は、複数の標準評価でのパフォーマンスを向上させ、将来の AI アプリケーションの基盤を築いています。

資料出典：Anthropic 公式発表

拡張思考モードの運用方法

可視化された思考過程

新しいテストの思考能力

計算能力の向上

Nakumura