Anthropic、Fable 5のネットワークセキュリティ対策と監視フレームワークを発表

Anthropic 公式発表によると、Claude Fable 5 が再展開され、現在は全世界で利用可能となりました。この機会に、2つの側面に関する詳細情報を共有します。

Fable 5 のネットワークセキュリティ対策の詳細

まず、Anthropic はネットワークセキュリティ対策に関する詳細情報を提供しました。特に、モデルと共に導入されたセキュリティ分類器についてです。これらの AI システムは、危険（または潜在的に危険な）ネットワークセキュリティ用途を検出し、阻止することを目的としています。公式は、これらの分類器の目的は「危険（または潜在的に危険な）ネットワークセキュリティ用途を検出し、阻止すること」であると述べています。

「私たちは、これらの対策を通じて不適切な使用を防ぎ、学術界、業界、市民社会、政府の間で有益な議論を引き起こすことを望んでいます。」

Anthropic

さらに、Anthropic は Glasswing パートナーと共同で開発した AI 監禁の深刻度フレームワークの初期草案を提案しました。AI 監禁とは、通常とは異なる方法で AI モデルに安全対策を回避させ、私たちが阻止したい行動（危険または潜在的に危険なネットワークセキュリティタスクなど）を解放することを指します。

AI 監禁の深刻度フレームワーク

監禁の深刻度はさまざまであり、時には軽微な不適切な行動を解放することもあれば、広範囲にわたる有害な出力を解放し、モデルをより危険にすることもあります。公式は、特定の監禁の深刻度を説明するための一貫したフレームワークはまだ存在しないと指摘しています。このようなフレームワークは、AI 開発者が政府と一貫した用語でコミュニケーションを取り、各監禁がもたらすリスクについて議論することを可能にします。

「私たちの希望は、学術界、業界、市民社会、政府の間で有益な議論を促進し、これらの境界をどのように定義すべきかを明確にすることです。」

Anthropic

Anthropic はまた、HackerOne プログラムを開始し、セキュリティ研究者が Fable 5 で発見した潜在的なネットワーク監禁を公式にレビューするために提出できるようにしました。これらの対策は、この技術の防御的な使用を促進し、同時にその悪用を防ぐための基準を確立することを目的としています。

Fable 5 の分類器とセキュリティ対策

ネットワークセキュリティの分野では、AI の防護策は特別な課題に直面しています。なぜなら、多くのネットワークセキュリティ機能は、善意または悪意のある目的に使用できるからです。Anthropic は、すべてのネットワークセキュリティ関連の活動を阻止するつもりはなく、最も明白な潜在的危険から最も明白な潜在的良性用途まで、4つのネットワークセキュリティ用途を区別するためにセキュリティ分類器を訓練していると述べています。

「私たちの分類器は、潜在的な高リスク行動を防ぐために、すべてのこれらのリクエストを阻止することを目的としています。」

Anthropic

これらの分類器は、より広範なセキュリティ対策の一部であり、分類器に加えて、Anthropic はアクセス制御、モデルセキュリティトレーニング、およびオフライン監視を使用して追加のセキュリティ層を増強しています。公式は、すべてのセキュリティ機能は二重用途であり、特定の状況では攻撃者と防御者の両方に役立つことを強調しています。

資料出典：Anthropic 公式発表

Fable 5 のネットワークセキュリティ対策の詳細

AI 監禁の深刻度フレームワーク

Fable 5 の分類器とセキュリティ対策

Nakumura