Guardrails
Определение
Guardrails — защитные механизмы, ограничивающие поведение AI-модели и предотвращающие генерацию вредного или нежелательного контента.
Простое объяснение
Guardrails — как ограждения на горной дороге. Не мешают ехать, но не дают свалиться в пропасть. AI может многое, но некоторые направления заблокированы.
Подробнее
Связанные термины
Data Privacy
Конфиденциальность данных — защита персональной информации при её сборе, хранении и обработке AI-системами.
Watermarking
Watermarking — технология встраивания скрытых меток в AI-генерированный контент для последующей идентификации его происхождения.
Jailbreak
Jailbreak — техники обхода встроенных ограничений AI-модели для получения запрещённых ответов или нежелательного поведения.
Red Teaming
Red Teaming — практика систематического тестирования AI-систем на уязвимости путём симуляции атак злоумышленников.
