Какие ключевые улучшения появились в модели GPT-5.4?

Модель GPT-5.4 получила контекстное окно на 1 миллион токенов, значительно улучшенное компьютерное зрение и повышенную эффективность в работе с внешними инструментами. Она также лучше справляется с управлением компьютером и финансовыми задачами.

Как автономные агенты используются для оптимизации разработки ИИ?

Проект autoresearch Андрея Карпаты демонстрирует, как агенты могут автономно итеративно улучшать код обучения больших языковых моделей. В одном из случаев это привело к 20 реальным улучшениям и ускорению работы на 11%.

Какие новые корпоративные инструменты представили OpenAI и Anthropic?

OpenAI выпустила расширение ChatGPT для Excel и инструмент безопасности Codex Security. Anthropic представила Code Review для автоматической проверки кода агентами и маркетплейс для консолидации корпоративных расходов.

Новое поколение языковых моделей: выход GPT-5.4 и автоном...

Q: На чем сосредоточены фундаментальные исследования в области ИИ нового поколения?

Стартап AMI Labs, основанный Янном Лекуном, фокусируется на разработке моделей мира (world models) и исследованиях, выходящих за рамки традиционных текстовых моделей, привлекая значительные инвестиции.

Индустрия искусственного интеллекта продолжает смещать фокус с простых диалоговых интерфейсов на автономные системы. На этой неделе мы увидели сразу несколько подтверждений этого тренда: от обновления флагманских моделей до появления специализированной инфраструктуры для агентов.

Главным событием стал выпуск модели GPT-5.4 от OpenAI в вариантах для размышлений (thinking) и профессионального использования (pro). Компания интегрировала вычислительные мощности специализированной модели Codex в основную линейку. Новая версия получила контекстное окно размером в 1 миллион токенов, улучшенное компьютерное зрение и повышенную эффективность использования внешних инструментов. Модель стала значительно лучше справляться с управлением компьютером и финансовыми задачами. При этом стоимость использования немного возросла по сравнению с GPT-5.2 и теперь составляет 2.5 доллара за миллион токенов на входе и 15 долларов на выходе.

Параллельно с развитием базовых моделей, компании активно выстраивают корпоративную инфраструктуру. OpenAI запустила расширение для использования ChatGPT прямо в таблицах Excel и представила инструмент безопасности Codex Security, который развился из проекта Aardvark. Для усиления этого направления компания также приобрела Promptfoo — инструмент тестирования безопасности искусственного интеллекта с открытым исходным кодом.

Конкуренты из Anthropic также сосредоточились на корпоративном сегменте. Они выпустили инструмент Code Review, который использует команду агентов для автоматической проверки каждого запроса на слияние кода (pull request). Средняя стоимость такой проверки составляет от 15 до 25 долларов. Кроме того, компания запустила собственный маркетплейс, позволяющий предприятиям консолидировать расходы на различные сервисы.

Особый интерес представляет проект Андрея Карпаты под названием autoresearch. Это система, в которой агенты автономно итеративно улучшают код обучения больших языковых моделей (LLM). За два дня работы на восьми графических процессорах H100 система нашла 20 реальных улучшений, обеспечив ускорение работы на 11 процентов. Этот пример наглядно показывает, как агенты начинают не просто писать код по заданию, но и самостоятельно генерировать идеи для оптимизации.

На фоне развития прикладных инструментов продолжаются и фундаментальные исследования. Стартап Advanced Machine Intelligence (AMI Labs), основанный бывшим главным научным сотрудником Meta Янном Лекуном, привлек более 1 миллиарда долларов при оценке в 3.5 миллиарда. Команда сосредоточится на разработке моделей мира (world models) и исследованиях, выходящих за рамки традиционных текстовых моделей.

Все эти события указывают на формирование новой парадигмы. Разработка программного обеспечения все больше автоматизируется, а главными вызовами становятся безопасность, контроль над агентами и создание надежной инфраструктуры для их работы. В ближайшем будущем мы, вероятно, увидим появление стандартизированных сред выполнения для агентов, систем управления доступом и новых подходов к архитектуре приложений.