AI・機械学習
2026年06月25日

Gemini 3.5 Flashが「コンピュータ利用」に対応——ブラウザ・モバイル・デスクトップを横断するエージェント基盤に

Gemini 3.5 Flashが「コンピュータ利用」に対応——ブラウザ・モバイル・デスクトップを横断するエージェント基盤に

Gemini 3.5 Flashが「コンピュータ利用」に対応——ブラウザ・モバイル・デスクトップを横断するエージェント基盤に(写真はイメージ)

Google DeepMindは2026年6月25日、主力モデル「Gemini 3.5 Flash」に「コンピュータ利用(Computer Use)」機能を統合したと発表しました。これまではコンピュータ操作専用に切り出された別モデルを呼び出す必要がありましたが、汎用モデルであるFlashそのものが画面を見て・推論し・操作するエージェントの基盤になります。Claude Sonnet 4.6やGPT-5.5に比肩するベンチマーク結果も示されており、Googleの「Gemini Enterprise Agent Platform」と組み合わせて企業向けエージェント開発の主軸に据える狙いが読み取れます。

コンピュータ利用機能とは——「見て・考えて・操作する」を1モデルで完結

コンピュータ利用機能は、AIモデルがスクリーンショットなどの画面情報を読み取り、マウス操作やキー入力に相当するアクションを生成して、人間の代わりにアプリケーションを操作する仕組みです。Anthropicの「Computer Use」やOpenAIの「Operator」と同じ方向性の技術ですが、Gemini 3.5 Flashでは専用モデルではなく、テキスト生成や推論を担う主力モデルそのものが操作能力を備える形となります。

開発者にとっての利点は明確で、これまで「テキスト生成は汎用モデル、画面操作は専用モデル」と切り替えていたエージェント設計を、単一モデルで完結させられる点です。Googleは「ブラウザ・モバイル・デスクトップ環境全体でカスタムエージェントを構築できる」と説明しており、対応プラットフォームの広さも特徴になっています。

どこから使えるか——APIとGemini Enterprise Agent Platform

利用経路は大きく2つ提示されています。1つはGemini API経由で開発者が直接呼び出すルートで、もう1つはGoogleが企業向けに整備する「Gemini Enterprise Agent Platform」上で利用するルートです。さらに、外部のBrowserbaseがホストするデモ環境でも試験的に動作を確認できるとされています。

エンタープライズ向けのプラットフォーム連携が強調されている点は、Googleが今回のリリースを「単発の機能追加」ではなく「Geminiを企業エージェント開発の標準基盤に据えるための更新」として位置づけていることを示唆しています。長時間にわたる業務プロセスや、複数のSaaSをまたぐ知識労働の自動化をユースケースとして打ち出しており、PoCから本番運用への移行を強く意識したリリースと整理できます。

セキュリティ設計——「防御層を分ける」アプローチ

コンピュータ操作AIは、画面を直接動かす特性上、誤操作や悪意あるプロンプトインジェクションのリスクが従来モデルよりも大きくなります。Googleは今回、対抗的訓練(adversarial training)、ユーザー確認の必須化、プロンプトインジェクション検出機能などを組み合わせ、「防御層を分ける」アプローチでリスクを抑える設計だと説明しています。

特に重要な操作についてはユーザーの明示的な承認を求めるフローが想定されており、「全自動で実行する」よりも「人の判断を最終工程に挟む」設計が前提になっています。エージェントが画面を勝手に操作することへの心理的・運用上のハードルは依然として残るため、こうした設計思想は企業導入の現実解として支持を集めやすそうです。

日本企業への示唆——「触れるAI」から「動かすAI」への転換点

これまでAIの業務活用は、文章生成・要約・分析といった「触れるAI」の領域が中心でした。今回の発表は、AIが既存のSaaSや業務アプリを直接操作する「動かすAI」の領域が、汎用モデル経由で現実的になりつつあることを示しています。

日本企業にとっての注目点は、レガシー業務アプリやSaaSをまたいだ業務プロセスをエージェントで自動化できる可能性が広がることです。RPAでは難しかった画面UIの変化への適応や、自然言語による指示の柔軟性が補えるため、これまで「自動化が難しい」とされていた業務領域への適用が現実味を帯びてきます。一方で、操作対象が誤って本番データを書き換えるリスクや、内部統制・監査ログとの整合性といった運用設計は別途検討が必要です。

まとめ

Gemini 3.5 Flashへのコンピュータ利用機能の統合は、エージェント開発が「専用モデル時代」から「汎用モデルが画面も動かす時代」へと移っていく節目の発表と捉えられます。ClaudeやGPTといった他陣営のコンピュータ操作モデルと比較しても、汎用Flashモデルへの統合と、Gemini Enterprise Agent Platformとの連携をセットで打ち出した点に独自性があります。

日本企業としては、PoC段階のAIエージェントを本番運用に乗せる際の選択肢が一段増えた格好です。導入検討にあたっては、画面操作の確実性・ガバナンス・既存業務システムとの相性を見極めながら、まずは限定スコープでの実装から検証を始めるのが現実的なアプローチになりそうです。

top遷移画像

Copyright (C) 2026 IT Trend All Rights Reserved.