Guardrails
Определение
Guardrails — защитные механизмы, ограничивающие поведение AI-модели и предотвращающие генерацию вредного или нежелательного контента.
Простое объяснение
Guardrails — как ограждения на горной дороге. Не мешают ехать, но не дают свалиться в пропасть. AI может многое, но некоторые направления заблокированы.
Подробнее
Связанные термины
Red Teaming
Red Teaming — практика систематического тестирования AI-систем на уязвимости путём симуляции атак злоумышленников.
Bias
Предвзятость в AI — систематические ошибки или искажения в данных и алгоритмах, которые приводят к несправедливым или дискриминационным результатам.
Watermarking
Watermarking — технология встраивания скрытых меток в AI-генерированный контент для последующей идентификации его происхождения.
Jailbreak
Jailbreak — техники обхода встроенных ограничений AI-модели для получения запрещённых ответов или нежелательного поведения.
