AI Alignment
Определение
Согласование AI — область исследований, направленная на создание AI-систем, чьи цели и поведение соответствуют человеческим ценностям и намерениям.
Простое объяснение
Это как научить робота не просто выполнять команды, а понимать, что на самом деле хочет человек, и не делать ничего плохого.
Подробнее
Проблема согласования — одна из ключевых в безопасности AI. Основные направления:
- Value alignment — обучение AI человеческим ценностям
- Intent alignment — понимание истинных намерений пользователя
- Robustness — устойчивость к манипуляциям
Anthropic, OpenAI и DeepMind активно исследуют эту область.
Связанные термины
Watermarking
Watermarking — технология встраивания скрытых меток в AI-генерированный контент для последующей идентификации его происхождения.
Constitutional AI
Constitutional AI — подход Anthropic к созданию безопасного AI, где модель обучается следовать набору принципов (конституции) через самокритику и ревизию.
Галлюцинации AI
Генерация AI-моделью правдоподобной, но фактически неверной информации.
Grounding
Grounding — привязка генерации AI к фактическим данным, документам или внешним источникам для повышения точности и уменьшения галлюцинаций.
