Суть
Платформа для разработки языковых моделей LangSmith объявила об общедоступности (general availability) своего ИИ-ассистента по имени Polly. Теперь этот инструмент интегрирован во все разделы платформы. Главная задача Polly — помочь разработчикам справляться с отладкой сложных ИИ-агентов, где традиционные методы поиска ошибок перестают работать из-за огромного объема данных и многоступенчатости процессов.
Контекст
Отладка ИИ-агентов кардинально отличается от поиска ошибок в классическом программном обеспечении. Когда агент выполняет задачу, он может совершать сотни промежуточных шагов (traces), а текстовые запросы (prompts) часто занимают тысячи строк. Если на 150-м шаге происходит сбой, найти его причину в массиве текста вручную становится крайне сложной задачей. Команда LangSmith проанализировала опыт создания агентов для рабочей среды и выявила типичные проблемы: слишком длинные логи, запутанные запросы и сложные для восприятия диалоги. Polly был создан именно для того, чтобы автоматизировать чтение этих массивов данных.
Детали
Ранее Polly был доступен лишь на нескольких страницах платформы. Теперь ассистент присутствует повсеместно: в проектах, экспериментах, наборах данных и инструментах оценки.
Ключевые нововведения:
- Сквозной контекст. Разработчик может начать анализ ошибки в логах, перейти к экспериментам для сравнения результатов, и Polly запомнит всю историю взаимодействия. Это снижает когнитивную нагрузку при переключении между вкладками.
- Активные действия. Polly не просто отвечает на вопросы. Ассистент способен самостоятельно обновлять промпты, формировать наборы данных (datasets) из неудачных запусков, фильтровать проекты и писать код для оценки (evaluators).
- Анализ тональности и диалогов. При изучении длинных веток разговоров между пользователем и агентом, Polly может быстро оценить, был ли решен вопрос клиента и какие эмоции он испытывал.
Для начала работы с ассистентом пользователям необходимо настроить API-ключ выбранного провайдера моделей в секретах рабочего пространства.
Анализ
Интеграция Polly отражает важный сдвиг в индустрии инструментов для разработчиков (DevTools). Мы переходим от пассивных систем мониторинга к активным помощникам, которые глубоко встроены в рабочий процесс. Polly действует как дополнительный инженер в команде: он берет на себя рутинную работу по парсингу логов и написанию шаблонного кода для тестов, позволяя человеку сосредоточиться на архитектурных решениях и логике.
Возможность ассистента анализировать результаты экспериментов и рекомендовать лучшие конфигурации моделей или промптов на основе реальных данных существенно ускоряет цикл разработки.
Перспектива
С усложнением архитектуры ИИ-агентов потребность в подобных интеллектуальных инструментах отладки будет только расти. Вполне вероятно, что в ближайшем будущем подобные ассистенты станут стандартом де-факто для любой платформы разработки больших языковых моделей (LLM). Следующим шагом может стать превентивная аналитика, когда система будет не просто помогать искать уже случившуюся ошибку, но и предупреждать о возможных галлюцинациях или логических тупиках еще на этапе проектирования агента.