OpenAI、GPT-5.6シリーズモデルを発表 初期パートナーの使用制限を実施

OpenAIGPT-5.6 を発表しました。これは一連の大規模言語モデルの新しいファミリーで、フラッグシップモデルの Sol を中心に、異なる性能とコストニーズに応じた Terra と Luna のバリエーションも同時に発表されました。しかし、同社はアメリカ政府の要求により、初期のリリースを信頼できるアメリカのパートナーに限定しました。GPT-5.6 シリーズは新しい命名システムを導入しており、Sol は最高能力レベルを表し、Terra は GPT-5.5 と同等の性能を提供しますが、コストはその半分に抑えられ、Luna は低コストで迅速な AI アプリケーションを対象としています。

OpenAI は、これらのモデルが今後数週間以内に ChatGPT、Codex、およびその API を通じて一般に利用可能になると述べています。GPT-5.6 Sol は新しい最大推論モードを導入しており、モデルが複雑なタスクを解決するためにより多くの時間を持つことができます。OpenAI はまた、単一の AI エージェントの能力を超える複雑なワークフローを処理するためにサブエージェントを使用するスーパー モードを発表しました。同社は、GPT-5.6 Sol がプログラミング、生物学、ネットワークセキュリティにおいてこれまでで最も強力な性能を提供し、「最強のセキュリティスタック」を導入したと述べています。

OpenAI の説明によれば、GPT-5.6 Sol は TerminalBench 2.1 で新たなリーディングレベルを達成しました。これはコマンドラインプログラミングワークフローに対するベンチマークテストです。生物学の分野では、このモデルは GeneBench v1 で GPT-5.5 を上回る性能を示し、使用する出力トークンも少なくなっています。OpenAI はネットワークセキュリティにおける進歩も強調しています。ExploitBench では、GPT-5.6 Sol の性能は Anthropic の Mythos Preview と同等ですが、使用する出力トークンは約三分の一です。

カリフォルニア大学バークレー校の研究者と OpenAI および他の最前線の AI 実験室が共同開発した ExploitGym では、すべての GPT-5.6 モデルのネットワーク能力が推論の増加に伴って改善されました。これらの進展にもかかわらず、OpenAI は GPT-5.6 Sol がその準備フレームワークの下でネットワークセキュリティの重要な閾値を超えていないと述べています。同社は「GPT-5.6 Sol は人々が脆弱性を発見し修正するのを助けるのが得意であり、信頼性のあるエンドツーエンド攻撃を行うのが得意ではありません。」と述べています。

OpenAI がモデル保護を強化するために階層的セキュリティシステムを導入

同社はまた、モデルレベルの保護、リアルタイムの悪用検出、アカウントレベルの監視、差別化されたアクセス、広範な自動化および人工のレッドチームテストを組み合わせた階層的セキュリティシステムを導入しました。OpenAI は、リリース前に脱獄技術を明らかにするために、700,000 時間以上の A100 相当の GPU 時間を自動化されたレッドチームテストに投入したと述べています。これまでのリリースとは異なり、GPT-5.6 は最初に選ばれた信頼できるパートナーにのみ提供されます。OpenAI は「アメリカ政府との継続的な接触の一環として、私たちは今日のリリースの前に私たちの計画とモデルの能力をプレビューしました。彼らの要求に応じて、私たちは限られたプレビューから始め、政府と共有した信頼できるパートナーのごく一部にのみ開放します。

その後、より広範なリリースを行います。」
OpenAI は政府のプレビューが標準的な慣行になることを望んでいません。「私たちはこの政府アクセスプログラムが長期的なデフォルト慣行になるべきではないと考えています。」と同社は述べ、これは政府との協力に基づいて将来の最前線 AI リリースの再現可能なフレームワークを構築する際に採用された一時的な措置であると付け加えました。CEO の Sam Altman は X プラットフォームでこの見解を再確認し、政府がより広範なリリースではなく限られたプレビューを要求したと述べました。

彼は、同社ができるだけ早く GPT-5.6 を広く提供し、将来のリリースのために透明なプロセスを策定したいと考えていると付け加えました。

Stein Yep
Stein Yep