Практические уроки разработки AI-агентов: от прототипов к оптимизации
Девять наблюдений инженера после года создания систем на базе AI-агентов: почему стоит начинать с лучших моделей, как важна статическая типизация и зачем агентам нужны «критики».
Девять наблюдений инженера после года создания систем на базе AI-агентов: почему стоит начинать с лучших моделей, как важна статическая типизация и зачем агентам нужны «критики».
3 мин

Разработка автономных AI-агентов перешла из фазы теоретических экспериментов в стадию активного инженерного строительства. Том Тунгуз, известный венчурный капиталист и исследователь, поделился девятью ключевыми наблюдениями, накопленными за год создания агентных систем. Этот опыт особенно ценен тем, что он смещает фокус с «хайпа» вокруг моделей на реальные проблемы внедрения, отладки и оптимизации.
Первое правило разработки агентов: всегда начинайте прототипирование с самых мощных доступных моделей (State of the Art). Когда входные данные непредсказуемы — будь то разбор электронной почты, транскрибация голоса или извлечение данных из «грязных» источников — вам нужен максимальный интеллект.
Логика проста: сначала добейтесь работоспособности системы с помощью самой умной модели. Только после того, как функционал отлажен, можно переходить к специализации и удешевлению, заменяя дорогие модели на более компактные и быстрые решения для конкретных задач.
Интересное наблюдение касается дообучения (fine-tuning). Автор приводит пример, где модель Qwen 3 (8B параметров), дообученная для классификации задач, превосходит гипотетическую GPT-5.2 при работе без примеров (zero-shot). При этом она работает локально на ноутбуке.
Это подтверждает тренд: для четко определенных задач со стабильным распределением входных данных специализированная маленькая модель часто работает лучше и быстрее, чем универсальный гигант.
Выбор языка программирования влияет на качество работы агента. Динамические языки, такие как Ruby, позволяют моделям «галлюцинировать» код, который выглядит правильным, но падает при запуске. Использование языков со строгой статической типизацией (например, Rust) заставляет AI проходить проверку компилятором.
Это действует как встроенная проверка орфографии: модель вынуждена исправлять ошибки еще до этапа выполнения, что существенно повышает процент успешных решений с первой попытки (one-shot success rates).
Эффективный паттерн для сложных задач — создание «команды» из разных моделей. Например, Claude составляет план действий. Затем Gemini и Codex критикуют этот план. Claude исправляет недочеты и пишет код. После реализации Gemini и Codex снова проверяют результат на соответствие изначальному плану.
Агенты отлично справляются с микроменеджментом друг друга, что позволяет выявлять ошибки, которые одна модель могла бы пропустить.
Мы достигли момента, когда модели среднего уровня (Qwen 3, DeepSeek V3, GLM) стали «достаточно хорошими» для большинства инструментальных вызовов. Автор называет это эрой «iPhone 15»: производительность уже настолько высока, что дальнейшее увеличение «интеллекта» не всегда дает конкретную выгоду для рабочих процессов. Конкуренция смещается из плоскости точности в плоскость стоимости.
В классическом программировании приложение документирует код. В мире AI документацией становятся трассировки (traces) — записи цепочек рассуждений и действий модели. Системы должны автоматически собирать логи разговоров, выявлять сбои (тайм-ауты, неверные ответы) и использовать их для автоматического улучшения промптов.
Это создает замкнутый цикл улучшения: Промпт → Результат → Оценка → Оптимизация → Новый промпт. Такой подход позволяет еженедельно повышать успешность выполнения задач без ручного вмешательства.
Важный архитектурный урок: навыки (skills) лучше подходят для интерактивных бесед, а код — для агентов. Навыки проще отлаживать: если конкретный навык не сработал, вы точно знаете, где искать ошибку. В то же время, если агент выполняет цепочку из десяти вызовов функций и выдает неверный результат, поиск причины в логах превращается в сложное расследование.
Эти наблюдения показывают, что индустрия движется от простого использования чат-ботов к построению сложных, саморегулирующихся инженерных систем, где выбор инструментов и архитектуры играет решающую роль.
Разработка AI-агентов требует перехода от «сырых» моделей к инженерным системам с замкнутым циклом самообучения и строгим контролем типов данных.
Агенты работают лучше всего в режиме «команды соперников», где разные модели критикуют и проверяют планы и код друг друга.