Встроенное управление компьютером в Gemini 3.5 Flash: пер...

Google объявила о нативной интеграции функции управления компьютером (computer use) в свою основную модель Gemini 3.5 Flash. Теперь разработчики могут создавать автономных ИИ-агентов, которые способны визуально воспринимать интерфейс, анализировать его и выполнять последовательные действия в браузере, на мобильных устройствах и в настольных операционных системах. Это важный шаг в развитии искусственного интеллекта, переводящий модели из статуса советников в статус активных операторов.

Ранее возможность прямого взаимодействия с графическим интерфейсом пользователя (GUI) существовала только в виде отдельной, узкоспециализированной модели Gemini 2.5. Интеграция этой функции в основную, более легкую и быструю модель Flash означает существенный прогресс в оптимизации вычислений. До этого обновления большие языковые модели (LLM) от Google уже уверенно справлялись с вызовом функций (function calling) и использованием встроенных инструментов, таких как поиск. Теперь к этому арсеналу добавилась способность напрямую взаимодействовать с любым программным обеспечением так, как это делает человек — через клики, ввод текста и навигацию по экрану.

Gemini 3.5 logo on a blue background

Обновление сфокусировано на решении сложных, многоэтапных задач, требующих длительного планирования. Среди ключевых сценариев использования Google выделяет непрерывное тестирование программного обеспечения и рутинную работу в профессиональных корпоративных приложениях. Доступ к новым возможностям открыт через программный интерфейс (API) Gemini и специализированную платформу Gemini Enterprise Agent Platform.

Особое внимание в релизе уделено вопросам безопасности, что критически важно для агентов, работающих в реальной среде. Google применяет целенаправленное состязательное обучение (adversarial training) для защиты от атак через внедрение подсказок (prompt injection). Для корпоративных клиентов внедрены два дополнительных уровня защиты: требование явного подтверждения пользователем для чувствительных или необратимых действий, а также автоматическая остановка выполнения задачи при обнаружении косвенных попыток манипуляции моделью. Компания настоятельно рекомендует применять подход глубокой эшелонированной защиты (defense-in-depth), комбинируя эти функции с изолированными средами выполнения (sandboxing), строгим контролем доступа и обязательным надзором со стороны человека (human-in-the-loop).

Изображение из источника

Этот шаг демонстрирует явный сдвиг всей индустрии от текстовых чат-ботов к автономным системам. Нативная интеграция в версию Flash, которая традиционно позиционируется как решение для массового и экономичного применения, говорит о том, что вычислительные затраты на машинное зрение и управление интерфейсами удалось снизить до приемлемого для бизнеса уровня. Это меняет экономику автоматизации: теперь ИИ может брать на себя задачи, для которых ранее не существовало удобных API-интерфейсов.

В ближайшем будущем мы, вероятно, увидим рост числа корпоративных решений, автоматизирующих рутинные процессы в устаревшем или закрытом программном обеспечении. Однако пока рано судить о том, насколько безошибочно модель будет справляться с нестандартными или перегруженными интерфейсами. Успех технологии на первых этапах будет зависеть не только от интеллекта самой модели, но и от надежности выстроенных вокруг нее систем безопасности и контроля.