В чем заключается ключевое отличие подхода Standard Intelligence к обучению ИИ-агентов?

Standard Intelligence обучает своих ИИ-агентов, анализируя сырые видеоданные использования компьютера, предсказывая движения мыши и нажатия клавиш. Это отличается от традиционных методов, основанных на тексте, скриншотах и вызовах API.

Почему обучение ИИ-агентов на видеоданных считается более универсальным?

Обучение на видео позволяет модели воспринимать любую программу так же, как человек, без необходимости ручной настройки под каждый интерфейс. Это обеспечивает универсальность, недоступную для агентов, ограниченных текстовыми моделями и API.

Какие возможности демонстрирует первая базовая модель Standard Intelligence, FDM-1?

Модель FDM-1, обученная на видеоданных, уже способна моделировать детали в CAD-программах, управлять автомобилем в симуляции после дообучения и находить ошибки в ПО, исследуя интерфейс подобно человеку.

Какие технические сложности преодолела Standard Intelligence при работе с видеоданными?

Стартап разработал видеокодировщик, который в 50 раз эффективнее конкурирующих решений, что позволяет обрабатывать большие объемы видео. Они также оптимизировали затраты на хранение 30 петабайт данных, создав кластер менее чем за 500 тысяч долларов.

Как подход Standard Intelligence может изменить взаимодействие ИИ-агентов с программным обеспечением в будущем?

Если этот подход масштабируется, будущим ИИ-агентам могут не понадобиться специальные API для взаимодействия с программами. Они смогут работать непосредственно через обычный пользовательский интерфейс, воспринимая его как человек.

Обучение ИИ-агентов в пространстве пикселей: подход Stand...

Обучение ИИ-агентов в пространстве пикселей: подход Standard Intelligence

Стартап Standard Intelligence предлагает новый подход к созданию универсальных ИИ-агентов: обучение не на тексте и API, а на сырых видеоданных работы за компьютером.

30.04.2026, 14:23

Обновлено:17.05.2026, 06:50

3 мин чтения

0 просмотров

На фоне активного развития больших языковых моделей (LLM) индустрия ищет способы создания надежных автономных агентов. Большинство текущих подходов опирается на текст, скриншоты и вызовы функций (API). Однако стартап Standard Intelligence, недавно привлекший инвестиции раунда А от Sequoia Capital и Spark Capital, предлагает принципиально иной путь. Их гипотеза заключается в том, что лучший способ создать универсального агента — это предварительное обучение на сырых видеоданных использования компьютера.

Вместо того чтобы предсказывать текстовые токены, модель учится работать за компьютером, анализируя пиксели на экране. Она предсказывает следующее движение мыши, клик и нажатие клавиши. По сути, это подход, аналогичный системе полного самоуправления (FSD) от Tesla, но примененный к интеллектуальной работе за экраном монитора.

Исторически сложилось так, что создание агентов идет по пути усложнения текстовых моделей. Разработчики создают сложные оболочки, прописывают инструкции и интегрируют инструменты. Проблема этого подхода в том, что он ограничен доступными интерфейсами и требует ручной настройки под каждую среду. Обучение на видео позволяет модели воспринимать любую программу точно так же, как это делает человек.

Команда Standard Intelligence, состоящая всего из шести человек под руководством основателей Галена Мида и Деванша Пандея, подошла к задаче с позиции базовых принципов (first principles). Работа с видео традиционно считается вычислительно дорогой и технически сложной задачей. Многие предыдущие попытки масштабировать видео для создания сильного искусственного интеллекта (AGI) сталкивались с серьезными препятствиями.

Изображение из источника

Несмотря на это, стартап уже достиг значимых результатов. Они собрали набор данных из 11 миллионов часов действий за компьютером, что является одним из крупнейших показателей в индустрии. Их видеокодировщик примерно в 50 раз более эффективен по использованию токенов, чем конкурирующие решения. Это позволяет поместить почти два часа видео с частотой 30 кадров в секунду в контекстное окно размером в 1 миллион токенов. Кроме того, команда собрала кластер хранения данных на 30 петабайт менее чем за 500 тысяч долларов, оптимизировав затраты на инфраструктуру.

Первая базовая модель компании, FDM-1, обученная непосредственно на видео использования компьютера, уже демонстрирует универсальность. Она способна смоделировать деталь в CAD-программе Blender, управлять автомобилем в симуляции после небольшого дообучения и находить ошибки в программном обеспечении, исследуя интерфейс подобно человеку.

Подход Standard Intelligence является практическим применением концепции "горького урока" (bitter lesson) в исследованиях ИИ: вместо того чтобы вручную проектировать логику работы, эффективнее подать модели огромный массив сырых данных и позволить алгоритмам самостоятельно выявить закономерности при масштабировании вычислений.

Пока рано судить, станет ли этот подход доминирующим на рынке ИИ-агентов. Обучение на видео остается ресурсоемким процессом, требующим значительных вычислительных мощностей. Однако, если команде удастся преодолеть технические барьеры масштабирования, это может фундаментально изменить то, как машины взаимодействуют с программным обеспечением. Агентам будущего могут не понадобиться специальные API — им будет достаточно обычного пользовательского интерфейса.

Обучение ИИ-агентов в пространстве пикселей: подход Standard Intelligence

30.04.2026, 14:23

Обновлено:17.05.2026, 06:50

3 мин чтения

0 просмотров

Изображение из источника

Обучение ИИ-агентов в пространстве пикселей: подход Standard Intelligence

TL;DR

Главное

Ключевые факты

Инсайт

Читайте также

DeepMind представила музыкальную модель Lyria 3.5: улучшенный вокал и контроль генерации

Обновление Model Context Protocol: переход на архитектуру без состояния и корпоративная безопасность

Внедрение ИИ-агентов в научные вычисления: от написания кода к управлению исследованиями

Гайды по теме

Обучение ИИ-агентов в пространстве пикселей: подход Standard Intelligence

TL;DR

Главное

Ключевые факты

Инсайт

Читайте также

DeepMind представила музыкальную модель Lyria 3.5: улучшенный вокал и контроль генерации

Обновление Model Context Protocol: переход на архитектуру без состояния и корпоративная безопасность

Внедрение ИИ-агентов в научные вычисления: от написания кода к управлению исследованиями

Гайды по теме