Hugging Face выпускает TRL 1.0: эволюция методов пост-обучения языковых моделей
Библиотека TRL получила стабильную версию 1.0. Разбираем, как развивались методы выравнивания искусственного интеллекта от сложного PPO до эффективного ORPO, и почему этот релиз меняет правила игры.