Pre-training
Определение
Предобучение — начальный этап обучения AI-модели на огромных объёмах неразмеченных данных для формирования базовых знаний и способностей.
Простое объяснение
Это когда AI сначала читает огромное количество текстов из интернета, чтобы выучить язык и получить базовые знания.
Подробнее
Этапы создания LLM:
- Pre-training — обучение на интернет-данных
- Instruction tuning — обучение следовать инструкциям
- RLHF — alignment с человеческими предпочтениями
Pre-training требует огромных вычислительных ресурсов (миллионы GPU-часов).
Связанные термины
Attention Mechanism
Механизм внимания — фундаментальный компонент современных нейросетей, позволяющий модели динамически фокусироваться на релевантных частях входных данных.
KV Cache
KV Cache — механизм кэширования ключей (Keys) и значений (Values) в трансформерах для ускорения авторегрессивной генерации.
Adapter
Адаптер — небольшой обучаемый модуль, встраиваемый между слоями предобученной модели для её адаптации под новые задачи без изменения основных весов.
QLoRA
Quantized LoRA — усовершенствованная версия LoRA, сочетающая квантизацию модели до 4 бит с адаптацией низкого ранга.
