Суть
Google DeepMind объявила о нативной интеграции функции управления компьютером (computer use) в свою основную модель Gemini 3.5 Flash. Это важное обновление превращает языковую модель из пассивного генератора текста в активного оператора. Теперь разработчики могут создавать автономных ИИ-агентов, способных визуально анализировать интерфейсы, планировать шаги и выполнять конкретные действия в браузерах, мобильных операционных системах и на десктопе.
Контекст
До этого момента функция управления компьютером существовала в экосистеме Google скорее как экспериментальный инструмент, доступный в виде отдельной специализированной модели Gemini 2.5. Интеграция этой способности напрямую в легковесную и быструю модель линейки Flash свидетельствует о том, что технология прошла стадию проверки концепции. Управление интерфейсами теперь становится таким же стандартным инструментом модели, как вызов внешних функций (function calling) или использование картографических сервисов.
Gemini 3.5 logo on a blue background
Детали
Обновленная Gemini 3.5 Flash позволяет автоматизировать длительные и сложные процессы (long-horizon tasks). Среди заявленных сценариев использования — непрерывное тестирование программного обеспечения и комплексная работа с данными в профессиональных приложениях. Доступ к новым возможностям открыт для разработчиков через Gemini API и корпоративную платформу Gemini Enterprise Agent Platform.
Особое внимание в релизе уделено вопросам безопасности. Взаимодействие ИИ с реальными операционными системами несет серьезные уязвимости, особенно связанные с инъекциями промптов (prompt injections), когда злонамеренные данные могут заставить агента выполнить нежелательные действия. Для снижения этих рисков Google применяет целевое состязательное обучение (adversarial training).
Корпоративным клиентам также доступны дополнительные уровни защиты:
- Система может требовать явного подтверждения от человека перед выполнением критических или необратимых действий.
- Предусмотрена автоматическая остановка выполнения задачи, если алгоритмы обнаруживают попытку косвенной инъекции команд.
Анализ
Этот шаг Google отражает общий вектор развития индустрии искусственного интеллекта. Фокус разработчиков смещается с улучшения качества генерации текста на создание систем, способных выполнять полезную работу в существующей цифровой среде пользователя. Нативная поддержка управления компьютером в базовой модели значительно снижает порог входа для программистов. Им больше не нужно создавать сложные промежуточные слои для перевода текстовых ответов ИИ в координаты кликов и нажатия клавиш — модель способна делать это самостоятельно.
Перспектива
Внедрение подобных технологий в корпоративный сектор будет происходить с осторожностью. Несмотря на встроенные меры безопасности, концепция глубокой эшелонированной защиты (defense-in-depth), о которой упоминает Google, потребует от компаний создания безопасных изолированных сред (sandboxing) и строгого контроля доступа. Тем не менее, этот релиз приближает нас к парадигме, где ИИ-агенты станут универсальными посредниками между человеком и любым программным обеспечением, способными самостоятельно ориентироваться в интерфейсах, созданных для людей.