Обучение ИИ-агентов в пространстве пикселей: подход Standard Intelligence
Стартап Standard Intelligence предлагает новый подход к созданию универсальных ИИ-агентов: обучение не на тексте и API, а на сырых видеоданных работы за компьютером.
Стартап Standard Intelligence предлагает новый подход к созданию универсальных ИИ-агентов: обучение не на тексте и API, а на сырых видеоданных работы за компьютером.
3 мин
На фоне активного развития больших языковых моделей (LLM) индустрия ищет способы создания надежных автономных агентов. Большинство текущих подходов опирается на текст, скриншоты и вызовы функций (API). Однако стартап Standard Intelligence, недавно привлекший инвестиции раунда А от Sequoia Capital и Spark Capital, предлагает принципиально иной путь. Их гипотеза заключается в том, что лучший способ создать универсального агента — это предварительное обучение на сырых видеоданных использования компьютера.
Вместо того чтобы предсказывать текстовые токены, модель учится работать за компьютером, анализируя пиксели на экране. Она предсказывает следующее движение мыши, клик и нажатие клавиши. По сути, это подход, аналогичный системе полного самоуправления (FSD) от Tesla, но примененный к интеллектуальной работе за экраном монитора.
Исторически сложилось так, что создание агентов идет по пути усложнения текстовых моделей. Разработчики создают сложные оболочки, прописывают инструкции и интегрируют инструменты. Проблема этого подхода в том, что он ограничен доступными интерфейсами и требует ручной настройки под каждую среду. Обучение на видео позволяет модели воспринимать любую программу точно так же, как это делает человек.
Команда Standard Intelligence, состоящая всего из шести человек под руководством основателей Галена Мида и Деванша Пандея, подошла к задаче с позиции базовых принципов (first principles). Работа с видео традиционно считается вычислительно дорогой и технически сложной задачей. Многие предыдущие попытки масштабировать видео для создания сильного искусственного интеллекта (AGI) сталкивались с серьезными препятствиями.
Изображение из источника
Несмотря на это, стартап уже достиг значимых результатов. Они собрали набор данных из 11 миллионов часов действий за компьютером, что является одним из крупнейших показателей в индустрии. Их видеокодировщик примерно в 50 раз более эффективен по использованию токенов, чем конкурирующие решения. Это позволяет поместить почти два часа видео с частотой 30 кадров в секунду в контекстное окно размером в 1 миллион токенов. Кроме того, команда собрала кластер хранения данных на 30 петабайт менее чем за 500 тысяч долларов, оптимизировав затраты на инфраструктуру.
Первая базовая модель компании, FDM-1, обученная непосредственно на видео использования компьютера, уже демонстрирует универсальность. Она способна смоделировать деталь в CAD-программе Blender, управлять автомобилем в симуляции после небольшого дообучения и находить ошибки в программном обеспечении, исследуя интерфейс подобно человеку.
Подход Standard Intelligence является практическим применением концепции "горького урока" (bitter lesson) в исследованиях ИИ: вместо того чтобы вручную проектировать логику работы, эффективнее подать модели огромный массив сырых данных и позволить алгоритмам самостоятельно выявить закономерности при масштабировании вычислений.
Пока рано судить, станет ли этот подход доминирующим на рынке ИИ-агентов. Обучение на видео остается ресурсоемким процессом, требующим значительных вычислительных мощностей. Однако, если команде удастся преодолеть технические барьеры масштабирования, это может фундаментально изменить то, как машины взаимодействуют с программным обеспечением. Агентам будущего могут не понадобиться специальные API — им будет достаточно обычного пользовательского интерфейса.
Standard Intelligence разрабатывает ИИ-агентов, которые учатся управлять компьютером, анализируя видео с экрана и предсказывая движения мыши и нажатия клавиш, а не полагаясь на текст и API.
Отказ от текстовых инструкций и API в пользу сырых пикселей позволяет создать по-настоящему универсального агента, который может использовать любую программу, доступную человеку, без специальной интеграции.