Google、Gemini 3.5 FlashにPC利用機能を追加

Google は公式に、Gemini 3.5 Flash が現在コンピュータ使用機能を内蔵していることを発表しました。この機能は、開発者がクロスプラットフォームでインタラクティブなエージェントを構築するのを支援することを目的としています。

Gemini 3.5 Flash の新機能統合

Google によると、コンピュータ使用機能は現在 Gemini 3.5 Flash の一部となり、これまでのところエージェントのコンピュータ使用タスクで最高のパフォーマンスを発揮するツールです。この機能は以前は独立した Gemini 2.5 コンピュータ使用モデルとして提供されていましたが、現在は Gemini Flash のメインモデルにネイティブに統合されています。Google は、Gemini が機能呼び出しや内蔵ツール(検索や地図など)の使用において優れたパフォーマンスを示しており、現在コンピュータ使用能力が追加されたことで、開発者は 3.5 Flash を利用してブラウザ、モバイルデバイス、デスクトップ環境で視覚認識、推論、アクションを行うカスタムエージェントを安定して構築できると指摘しています。

「これにより、長期的および企業の自動化タスクのパフォーマンスが向上します。例えば、継続的なソフトウェアテストや専門的なアプリケーションにおける知識作業などです。」

Google

開発者がコンピュータ使用機能を使用する方法

開発者や企業は、Gemini API と Gemini Enterprise Agent Platform を通じて 3.5 Flash のコンピュータ使用機能を利用開始できます。3.5 Flash はコンピュータ使用機能を活用して Gemini アプリケーションを分析し、分類された機能のリストを返します。さらに、3.5 Flash は自身のドキュメントのアクセシビリティ問題を監査することもできます。

リスクを軽減するためのセキュリティ対策

リアルタイム環境で動作するエージェントが直面するプロンプトインジェクションリスクを軽減するために、Google は Gemini 3.5 Flash においてターゲットを絞った対抗訓練を採用しました。さらに、Google は企業が以下を可能にする2つのオプションの企業セキュリティシステムを導入しました:敏感または不可逆的なアクションに対して明示的なユーザー確認を要求すること、間接的なプロンプトインジェクションを検出した際に自動的にタスクを停止すること。Google は、開発者がこれらの機能を安全なサンドボックス、人間の介入確認、厳格なアクセス制御と組み合わせて使用し、「深層防御」のアプローチを取ることを推奨しています。セキュリティ対策に関する詳細は、ベストプラクティス文書を参照してください。

「私たちは、顧客がコンピュータ使用機能を活用して価値を創造しているのを見てきました。」

Google

開発者は、試用デモ環境を通じてこれらの機能を体験し、Gemini API と Gemini Enterprise Agent Platform のリファレンス実装およびドキュメントを深く理解することができます。

資料出典:Google 公式発表

stone
stone