БиржаDEX+

Купить крипто Рынки Спотовая ФьючерсыGOLD Сбережения Центр событий

Еще

В 2022 году существовал ровно один способ сделать языковую модель «хорошей» — RLHF. Один. Если вы хотели, чтобы ваша LLM отвечала адекватно, не генерировала токВ 2022 году существовал ровно один способ сделать языковую модель «хорошей» — RLHF. Один. Если вы хотели, чтобы ваша LLM отвечала адекватно, не генерировала ток

От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM

Автор: ProBlockChain

Источник: ProBlockChain

2026/02/22 00:11

31м. чтение

В 2022 году существовал ровно один способ сделать языковую модель «хорошей» — RLHF. Один. Если вы хотели, чтобы ваша LLM отвечала адекватно, не генерировала токсичность и хотя бы делала вид, что понимает вопрос, — вам нужен был Reinforcement Learning from Human Feedback, армия аннотаторов и бюджет уровня OpenAI. Четыре года спустя у нас зоопарк из десятка методов выравнивания, половина из которых можно запустить на одной RTX 4090. Мир изменился. Разбираемся, как именно.

Вот факт, который в 2022-м взорвал индустрию: модель InstructGPT с 1.3 миллиарда параметрами, обученная через RLHF, победила базовый GPT-3 со 175 миллиардами параметров в пользовательских оценках. Не на 5%. Не в отдельных задачах. В целом — люди предпочитали ответы модели, которая в 134 раза меньше. Это было как если бы Fiat Punto обогнал Bugatti Chiron на Нюрбургринге. Не потому что мотор лучше — потому что кто-то наконец объяснил машине, куда ехать.

Сейчас, в 2026-м, ландшафт пост-обучения выглядит совершенно иначе. RLHF никуда не делся, но рядом с ним выстроилась очередь: DPO, SimPO, KTO, GRPO, ORPO, IPO, Constitutional AI, RLVR, DAPO... Если вы пропустили последние два года — не переживайте, вы не одиноки. Даже люди из индустрии путаются в аббревиатурах. Эта статья — практический гид по зоопарку методов выравнивания LLM. Без воды, с кодом, таблицами и конкретными рекомендациями, что выбрать для вашей задачи.

Для кого это: разработчики, ML-инженеры, тимлиды, которые хотят дообучать open-source модели и не тратить на это состояние. Если вы хоть раз открывали Hugging Face и задумывались «а что если я это fine-tuned...» — вы в правильном месте.

Что мы разберём: полную историю от RLHF до Constitutional AI, математику ключевых методов (спокойно, она в спойлерах), практические рецепты с кодом и гиперпараметрами, сравнительные таблицы, дерево решений «что выбрать», и честный разговор о проблемах, о которых не пишут в туториалах. Всё это — в одной статье. Пристегнитесь.

Краткая история пост-обучения: от «нравится/не нравится» до конституции

Чтобы понять, почему сегодня столько методов, стоит пробежаться по хронологии. Она короткая, но плотная — за четыре года произошло больше, чем за предыдущие десять.

2022 — эпоха RLHF. OpenAI выпускает InstructGPT, Anthropic запускает первую версию Claude на основе Constitutional AI. PPO (Proximal Policy Optimization) становится стандартом де-факто. Рецепт кажется понятным: берёте reward model, обученную на человеческих предпочтениях, запускаете стабильную PPO-тренировку — и готово. На практике всё значительно сложнее. Но альтернатив пока не существует.

2023 — упрощение меняет правила игры. Рафаэль Рафаилов с коллегами из Стэнфорда представляют DPO — Direct Preference Optimization. Ключевая идея: reward model можно исключить целиком, обучая модель напрямую на парах предпочтений. В то же время Тим Деттмерс демонстрирует QLoRA: модель на 65 миллиардов параметров поддаётся дообучению на единственной A100 с 48 ГБ памяти, а модели масштаба 7–13B — на потребительских GPU с 24 ГБ. Anthropic ещё в декабре 2022 года публикует Constitutional AI — подход, при котором модель генерирует обратную связь для самой себя.

2024 — зоопарк расширяется. SimPO, KTO, ORPO, IPO — каждый месяц выходит новый метод, обещающий быть лучше DPO. Test-time compute scaling показывает, что иногда выгоднее думать дольше, чем учиться больше. LoRA и DoRA становятся промышленным стандартом.

2025 — год GRPO и верифицируемых наград. DeepSeek R1 показывает, что reinforcement learning жив, но в новой форме — GRPO (Group Relative Policy Optimization). RLVR (RL with Verifiable Rewards) становится трендом. Набирает популярность идея Alignment Pretraining — встраивание данных по AI safety прямо в предобучение. Sebastian Raschka называет 2025 годом reasoning-моделей и RLVR.

2026 — reason-based alignment. В январе Anthropic обновляет конституцию Claude: переход от правил к причинам (reasons). Четырёхуровневая иерархия ценностей, документ на ~80 страниц в открытом доступе. Гибридные пайплайны — новый стандарт.

Почему это важно? Потому что демократизация. В 2022-м fine-tuning LLM был привилегией компаний с бюджетом в миллионы. В 2026-м студент с RTX 4090 может дообучить 70B-модель через QLoRA + DPO за выходные. Барьер входа упал на порядки. А вместе с ним — и порог принятия решений о том, какой метод выбрать.

RLHF: дорогой, сложный, но всё ещё живой

RLHF — Reinforcement Learning from Human Feedback — первый метод, который превратил языковые модели из «энциклопедий» в «собеседников». Подход, запустивший всю эпоху «послушных» моделей. Если вы хоть раз пользовались ChatGPT, вы пользовались плодами RLHF.

Как это работает. Представьте, что вы учите собаку новым трюкам. Сначала вы показываете ей кучу примеров правильного поведения (SFT — supervised fine-tuning). Потом вы не говорите «делай так», а оцениваете: «это хорошо, это плохо» (обучение reward model). Наконец, собака сама учится максимизировать вашу оценку (PPO-оптимизация). Звучит логично? Логично. Звучит просто? Это не просто.

В техническом плане процесс выглядит так:

SFT-этап: обучаем модель на качественных примерах диалогов.
Reward model: собираем пары ответов, люди выбирают лучший, обучаем модель-оценщик.
PPO-оптимизация: генерируем ответы, reward model их оценивает, оптимизируем policy через PPO.

Вот в чём подвох: на этапе PPO вам нужно держать в памяти четыре модели одновременно — policy (текущая модель), reference model (замороженная копия для KL-регуляризации), reward model и critic (для оценки advantage). Для 7B-модели это уже ~56 ГБ чистых весов в FP16. Для 70B — даже не считайте, расплачетесь.

Цифры, которые изменили мир. Главный результат InstructGPT: модель с 1.3B параметрами, обученная через RLHF, получила оценки выше, чем базовый GPT-3 с 175B параметрами. Не на специализированном бенчмарке — в реальных пользовательских оценках. Люди предпочитали ответы маленькой, но выровненной модели.

Почему это работает? Потому что base model — это энциклопедия, которую никто не научил отвечать на вопросы. Она знает всё, но не умеет быть полезной. RLHF — это курсы коммуникации для энциклопедии.

Где RLHF до сих пор побеждает. Несмотря на все новые методы, RLHF с PPO сохраняет позиции в областях с высокой ценой ошибки:

Медицина: RLHF с экспертной reward model показывает более точные результаты в медицинских QA-задачах, поскольку reward model улавливает нюансы, недоступные бинарным предпочтениям DPO.
Юриспруденция: reward model, обученная на экспертных оценках юристов, различает тонкие правовые аргументы, которые бинарные предпочтения DPO теряют.
Безопасность: когда цена ошибки — не «неправильный ответ на бенчмарке», а реальный вред, дополнительная сложность RLHF оправдана.

Стоимость и сложность. RLHF — дорого и больно. Вот конкретные цифры.

Аннотаторы: минимум десятки тысяч пар предпочтений. Anthropic использовал сотни тысяч сравнений (включая как человеческие, так и AI-сгенерированные) для Constitutional AI.
Вычисления: 4 модели в памяти + нестабильная тренировка PPO. Reward hacking — когда модель находит лазейки в reward model — реальная проблема.
Экспертиза: настройка PPO — скорее искусство, чем наука. Clip ratio, KL penalty, learning rate scheduling — каждый гиперпараметр может всё сломать.
Время: полный цикл RLHF для 7B-модели на 8 GPU A100 — примерно 48 часов. Для 70B — неделя. И это если всё пошло по плану с первого раза (спойлер: так не бывает).

Если суммировать: RLHF стоит от $50,000 для 7B-моделей до $500,000+ для крупных моделей (70B+) за один цикл обучения, считая аннотации, compute и зарплату ML-инженеров, которые будут ловить баги PPO в три часа ночи. Для стартапа даже нижняя граница — ощутимый удар по бюджету. Для Google — строчка в Excel. Именно эта асимметрия и подтолкнула к поиску более дешёвых альтернатив.

Sebastian Raschka, один из самых авторитетных голосов в прикладном ML, при этом отмечает, что 2025 год прошёл под знаком reasoning-моделей и RLVR (RL with Verifiable Rewards). RLHF не умер — он эволюционировал.

DPO — когда проще значит лучше

А теперь к методу, который перевернул игру. DPO — Direct Preference Optimization — статья из Stanford, которая задала простой вопрос: «А зачем нам вообще reward model?»

Ключевой insight. Рафаилов и соавторы показали, что оптимальную policy в задаче RLHF можно выразить аналитически через reward function. А если мы можем это сделать, то можно переформулировать задачу оптимизации reward model + PPO как простую контрастивную loss-функцию на парах предпочтений. Без reward model. Без PPO. Без четырёх моделей в памяти.

Звучит как магия? Это не магия. Это математика. Вот в чём трюк: вместо того чтобы сначала учить «что хорошо» (reward model), а потом оптимизировать policy, DPO делает всё за один шаг. Вы берёте пары «хороший ответ / плохой ответ» и обучаете модель напрямую предпочитать хороший.

Математика DPO: для тех, кому интересно

Функция потерь DPO:

$\mathcal{L}_{\text{DPO}} = -\mathbb{E}\left[\log \sigma\left(\beta \cdot \left(\log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\right)\right]$

Где:

$\pi_\theta$ — обучаемая модель (policy)
$\pi_{\text{ref}}$ — референсная модель (замороженная)
— предпочитаемый ответ (winner)
— отвергнутый ответ (loser)
$\beta$ — температура, контролирующая силу выравнивания
$\sigma$ — сигмоидная функция

По сути, DPO увеличивает вероятность хорошего ответа и снижает вероятность плохого, с регуляризацией через KL-дивергенцию к референсной модели. Всё это — в одном проходе стандартного gradient descent.

Бенчмарки: DPO против RLHF. Прямых сравнений DPO и RLHF в идентичных условиях не так много, но общая картина стабильна: качество сопоставимо, а ресурсов нужно в разы меньше.

Метрика	RLHF+PPO	DPO	Тренд
Качество (AlpacaEval, MT-Bench)	Baseline	Сопоставимо (±1-2%)	Паритет
Время тренировки (7B)	Дни	Часы	DPO в разы быстрее
Peak GPU memory (7B)	~112 ГБ (4 модели)	~56 ГБ (2 модели)	2x меньше

Главный вывод: DPO даёт сопоставимое качество при кратно меньшем времени и 2x меньшем потреблении памяти. Конкретные цифры зависят от модели, датасета и настроек, но тренд устойчив.

On-policy данные: секрет производительности. Phil Schmid из Hugging Face показал: даже небольшой датасет синтетических пар предпочтений + DPO способен заметно улучшить результаты на математических бенчмарках вроде GSM8K. Ключевой вывод: качество данных важнее количества, а синтетические пары (сгенерированные сильной моделью) часто работают не хуже человеческих.

Практический вывод: не бойтесь синтетических данных. Используйте сильную модель (Claude, GPT-4) для генерации пар предпочтений. Это дешевле и масштабируемее, чем армия аннотаторов.

Гиперпараметры, которые всё решают

Два параметра, которые нужно запомнить:

Learning rate: на порядок ниже, чем при SFT. Типичный SFT learning rate — 2e-4. Для DPO — 5e-7 до 5e-6 (примерно в 5-50 раз ниже). Слишком высокий — модель забывает базовые знания. Слишком низкий — не учится выравниванию.

Beta (β): контролирует силу выравнивания. Обычно 0.1-0.5. Низкий beta — модель сильно отклоняется от референса, рискуя потерять общие знания. Высокий beta — слабое выравнивание, модель почти не меняется. Начните с 0.1 и двигайтесь вверх.

# Пример конфигурации DPO-тренировки с TRL import torch from trl import DPOConfig, DPOTrainer from transformers import AutoModelForCausalLM, AutoTokenizer from peft import LoraConfig model = AutoModelForCausalLM.from_pretrained( "meta-llama/Llama-3.1-8B-Instruct", torch_dtype=torch.bfloat16, attn_implementation="flash_attention_2", # Требует пакет flash-attn и совместимый NVIDIA GPU ) tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3.1-8B-Instruct") peft_config = LoraConfig( r=16, lora_alpha=32, lora_dropout=0.05, target_modules=["q_proj", "k_proj", "v_proj", "o_proj"], task_type="CAUSAL_LM", ) training_args = DPOConfig( output_dir="./dpo-llama-8b", per_device_train_batch_size=4, gradient_accumulation_steps=4, learning_rate=5e-6, # В 5-50x ниже, чем SFT! beta=0.1, # Сила выравнивания max_length=1024, max_prompt_length=512, num_train_epochs=3, bf16=True, logging_steps=10, warmup_ratio=0.1, lr_scheduler_type="cosine", ) trainer = DPOTrainer( model=model, args=training_args, train_dataset=preference_dataset, # preference_dataset -- ваш датасет в формате {"prompt": ..., "chosen": ..., "rejected": ...} tokenizer=tokenizer, peft_config=peft_config, ) trainer.train()

Adoption и слабости. DPO стал дефолтом. Большинство команд, занимающихся fine-tuning LLM в 2025 году, используют DPO как основной или дополнительный метод выравнивания — он упоминается практически в каждом обзоре пайплайнов пост-обучения.

Но у простоты есть цена. Главная слабость DPO — чувствительность к качеству данных. Если ваши пары предпочтений зашумлены, DPO страдает сильнее, чем RLHF. И ещё проблема distribution mismatch: DPO обучается на фиксированном датасете (off-policy), и если распределение тренировочных данных сильно отличается от того, что модель будет генерировать на практике, — качество падает. Cameron Wolfe точно подмечает: «DPO даёт практические преимущества, но всё зависит от соответствия распределений».

Зоопарк наследников DPO: SimPO, KTO, ORPO

DPO открыл ящик Пандоры. Если можно убрать reward model — что ещё можно упростить? Оказалось, многое. За 2024-2025 годы появился целый выводок наследников, каждый со своим трюком.

SimPO (Simple Preference Optimization) от Princeton NLP пошёл дальше DPO и убрал reference model. Да, ту самую замороженную копию, которую DPO использует для регуляризации. Вместо KL-дивергенции к референсу SimPO использует среднюю лог-вероятность последовательности как имплицитную награду. Плюс добавляет target reward margin (gamma) — минимальный отступ между хорошим и плохим ответом. Результаты впечатляют: авторы заявляют о заметном преимуществе над DPO на AlpacaEval 2 и Arena-Hard (конкретные цифры зависят от базовой модели), а отсутствие reference model в памяти даёт ещё меньший расход VRAM.

KTO — Kahneman-Tversky Optimization — названа в честь нобелевских лауреатов за theory of prospect. Идея: люди оценивают потери сильнее, чем выигрыши. KTO использует этот принцип и работает с бинарной обратной связью: просто «хорошо» или «плохо», без попарных сравнений.

Почему это важно? Собрать пары предпочтений — дорого. Нужно показать аннотатору два ответа на один и тот же вопрос и попросить выбрать лучший. А бинарную оценку собрать на порядок легче: один ответ — «палец вверх» или «палец вниз».

KTO работает даже когда 90% обучающих данных — отрицательные примеры. Это важно на практике: обычно легче сказать «этот ответ плохой», чем найти идеальный. Откуда название? Канеман и Тверски показали, что потеря 100 долларов «больнее», чем радость от выигрыша 100 долларов. KTO использует эту асимметрию: модель штрафуется за плохие ответы сильнее, чем поощряется за хорошие. Это стабилизирует обучение и работает даже с несбалансированными данными.

ORPO (Odds Ratio Preference Optimization) объединяет SFT и preference optimization в единую функцию потерь. Вместо двух этапов (сначала SFT, потом выравнивание) — один. Меньше тренировки, меньше катастрофического забывания, проще пайплайн. Идея ORPO: добавить штраф за генерацию отвергнутых ответов прямо в SFT loss. Модель одновременно учится генерировать хорошие ответы и избегать плохих. Это как учить студента решать задачи, одновременно показывая типичные ошибки — эффективнее, чем разделять эти процессы на два курса.

IPO (Identity Preference Optimization) решает конкретную проблему DPO: чувствительность к шуму в данных предпочтений. Если ваши аннотаторы не всегда согласны друг с другом (а они не согласны — inter-annotator agreement редко превышает 75-80%), DPO может усиливать эти противоречия. IPO добавляет регуляризацию, которая делает обучение устойчивее к зашумлённым предпочтениям.

Сводная таблица наследников DPO

Метод	Reference model	Тип данных	Ключевое преимущество	Лучшая ниша
DPO	Да	Пары предпочтений	Простота, зрелость экосистемы	Универсальный baseline
SimPO	Нет	Пары предпочтений	Лучше DPO на бенчмарках, меньше VRAM	Когда VRAM ограничен
KTO	Да	Бинарные оценки	Работает с 90% негативных данных	Когда пары собрать дорого
ORPO	Нет	Пары предпочтений	SFT + alignment за один этап	Быстрый прототип
IPO	Да	Пары предпочтений	Устойчивость к шуму в данных	Зашумлённые датасеты

Простое правило: начинайте с DPO. Серьёзно. Если VRAM жмёт — SimPO. Если нет пар предпочтений, только бинарные оценки — KTO. Если хотите максимально простой пайплайн — ORPO. Если данные шумные и нет уверенности в аннотациях — IPO.

Но помните: разница между методами часто меньше, чем разница между хорошими и плохими данными. Потратьте время на качество датасета, а не на поиск «лучшего» алгоритма.

Как подготовить качественный датасет предпочтений

Пять правил, которые сэкономят вам недели:

Разнообразие промптов важнее количества пар. 2000 пар на 1000 уникальных промптов лучше, чем 10,000 пар на 500 промптов. Модель учится обобщать, а не запоминать.
Контрастность пар. Хороший и плохой ответ должны явно отличаться. Если аннотатору нужно думать 5 минут, чтобы выбрать лучший — пара слишком похожа и бесполезна для обучения.
Консистентность аннотаций. Inter-annotator agreement ниже 70% — данные слишком шумные. Используйте IPO или добавьте третьего аннотатора для спорных случаев.
Формат данных. Каждый пример: {"prompt": "...", "chosen": "...", "rejected": "..."}. Для KTO: {"prompt": "...", "completion": "...", "label": true/false}. Используйте Hugging Face datasets format для совместимости с TRL.
Синтетические данные — норма. Используйте сильную модель (GPT-4, Claude) для генерации пар предпочтений. Это дешевле аннотаторов и часто не хуже. Только убедитесь, что модель-генератор отличается от модели-ученика, иначе получите circular training.

GRPO и верифицируемые награды — прорыв DeepSeek

RL жив — и DeepSeek R1 это доказал. Но не классическим RLHF, а новым подходом — GRPO (Group Relative Policy Optimization) в парадигме RLVR (Reinforcement Learning with Verifiable Rewards).

Как работает GRPO. Классический PPO использует critic model для оценки advantage (насколько действие лучше среднего). GRPO убирает critic. Вместо этого:

Для каждого промпта модель генерирует группу из 8-16 ответов.
Каждый ответ получает reward (например, правильность математического решения).
Advantage каждого ответа вычисляется относительно среднего по группе.

Нет critic model = значительная экономия памяти по сравнению с PPO (одна модель целиком убрана из GPU). Для 70B-модели это разница между «нужен кластер A100» и «хватит четырёх H100».

Верифицируемые награды: когда правильный ответ очевиден

Вот в чём красота RLVR: вам не нужны человеческие аннотаторы, если правильность ответа можно проверить автоматически. Математическая задача? Проверяем ответ. Код? Запускаем тесты. Формальная логика? Проверяем вывод.

DeepSeek R1 использовал GRPO с двумя типами наград:

Accuracy reward: правильность финального ответа (бинарная)
Format reward: соблюдение формата (chain-of-thought в тегах <think>)

Результат: модель научилась «думать вслух», разбивая сложные задачи на шаги. И делала это без единого примера chain-of-thought в обучающих данных. Модель сама выучила рассуждение через RL. Подумайте об этом: никто не учил модель рассуждать пошагово. Ей просто дали награду за правильный ответ и штраф за неправильный — и она сама изобрела chain-of-thought. Это как если бы вы платили ребёнку за правильные ответы по математике, а он сам придумал показывать ход решения, чтобы реже ошибаться.

DAPO пошёл дальше: достигает 50% на AIME (American Invitational Mathematics Examination) в 2 раза быстрее, чем GRPO. Ключевые улучшения: decoupled clipping (разные clip ratio для положительных и отрицательных advantage), dynamic sampling (фильтрация слишком простых и слишком сложных задач), token-level policy gradient вместо sequence-level.

Практические детали GRPO: гиперпараметры и setup

Типичная конфигурация GRPO для математических задач:

Group size: 8-16 ответов на промпт (больше = стабильнее, но дороже)
Temperature: 0.7-1.0 для генерации (нужно разнообразие в группе)
KL penalty: 0.01-0.1 (ниже, чем в PPO — без critic модель менее склонна к reward hacking)
Max tokens: зависит от задачи, для математики 2048-4096
Reward clipping: [-1, 1] для стабильности

Важно: GRPO требует больше inference compute, чем DPO, потому что для каждого промпта нужно сгенерировать группу ответов. Но нет reward model и нет critic, что компенсирует по памяти.

Ограничения. GRPO и RLVR работают фантастически... для задач с верифицируемым ответом. Математика, код, формальная логика. Но как проверить «хороший совет по карьере»? Или «интересную статью»? Для субъективных задач верифицируемых наград не существует, и мы возвращаемся к человеческим предпочтениям (DPO/RLHF) или AI-обратной связи (Constitutional AI). Мощная, но не универсальная парадигма.

Test-time compute: другой взгляд на проблему. Параллельно с RLVR набирает силу идея test-time compute scaling — вместо того чтобы увеличивать параметры модели или объём тренировочных данных, мы даём модели больше времени на «думание» во время inference. Chain-of-thought, self-consistency, beam search с верификацией — всё это формы test-time compute. DeepSeek R1 и OpenAI o1/o3 показали, что это работает, и иногда test-time compute масштабируется так же эффективно, как training compute.

Constitutional AI: кто пишет «конституцию» для AI?

Все методы, которые мы обсудили выше, решают вопрос «как выравнивать». Constitutional AI задаёт другой вопрос: «относительно чего выравнивать?»

Подход Anthropic. Вместо миллионов пар предпочтений от аннотаторов — набор принципов на естественном языке. «Конституция», которая определяет, что хорошо и что плохо. Модель генерирует ответ, сама себя критикует на основе этих принципов, переписывает ответ, и получившиеся пары «было/стало» используются для обучения.

Это RLAIF — Reinforcement Learning from AI Feedback. Человеческий труд нужен только для составления конституции. Всё остальное — самообучение.

Почему это работает? Потому что языковые модели уже «знают» что хорошо и что плохо — они видели это в тренировочных данных. Проблема не в знаниях, а в приоритетах. Конституция — это набор приоритетов: «безопасность важнее полноты ответа», «честность важнее вежливости». Модель применяет эти приоритеты для самокритики, и результат удивительно близок к человеческой оценке. По данным Anthropic, RLAIF демонстрирует высокую согласованность с RLHF на стандартных бенчмарках.

Обновление январь 2026: от правил к причинам

В январе 2026 года Anthropic опубликовала обновлённую конституцию Claude. И это не просто ревизия пунктов — это смена парадигмы.

Было (rule-based): «Не отвечай на вопросы о создании оружия.»
Стало (reason-based): «Мы считаем, что предотвращение физического вреда приоритетнее полноты ответа, потому что...»

Разница принципиальная. Правило — это чёрный ящик. Причина — это обоснование, которое модель может интерпретировать в новых контекстах. Если появляется вопрос, не покрытый правилами, модель с причинами может рассуждать по аналогии. Модель с правилами — нет.

Четырёхуровневая иерархия. Обновлённая конституция Claude выстроена в чёткую иерархию:

Safety (безопасность): абсолютный приоритет, не может быть переопределён
Ethics (этика): моральные принципы, ограничивающие поведение
Guidelines (гайдлайны): рекомендации Anthropic по стилю и тону
Helpfulness (полезность): максимизация помощи пользователю

Если возникает конфликт между уровнями — побеждает верхний. Безопасность > этика > гайдлайны > полезность. Просто и элегантно.

Стресс-тест в масштабе. Anthropic не просто написала конституцию — они её протестировали. Исследователи провели масштабный стресс-тест: множество frontier-моделей от разных провайдеров (OpenAI, Google, Anthropic, xAI) были протестированы на тысячах тонких ценностных параметров.

Результат: модели кластеризуются по провайдерам. Claude приоритизирует этическую ответственность, GPT-модели — эффективность, Gemini — эмоциональную глубину. В базовых этических суждениях согласованность высокая, но в «серых зонах» — вопросах свободы слова, интеллектуальной собственности, автономии AI — модели расходятся кардинально.

~80 страниц в открытом доступе. Да, конституция Claude — это документ на ~80 страниц в открытом доступе. Anthropic заявляет о соответствии EU AI Act. Любой может прочитать, раскритиковать и предложить улучшения.

Демократично? Отчасти. Вот подвох: кто решает, какие причины «правильные»? Anthropic экспериментирует с платформой Polis для сбора мнений общественности, но финальное решение всё равно за компанией. Это не демократия — это просвещённый авторитаризм с обратной связью. Впрочем, это уже больше, чем делает большинство AI-компаний. OpenAI, Google и Meta не публикуют своих «конституций» в открытом доступе.

Критики справедливо указывают: даже ~80 страниц принципов — это не исчерпывающий набор правил для всех возможных ситуаций. Это скорее дух закона, чем буква. И модель должна интерпретировать этот дух в каждом конкретном случае. Работает ли это? По бенчмаркам — да. По реальному использованию — неплохо, но с оговорками. «Серые зоны» остаются серыми.

Inverse Constitutional AI и Alignment Pretraining — два свежих направления, заслуживающих внимания.

Inverse Constitutional AI: автоматическое извлечение принципов из поведения модели. Вместо «давайте напишем конституцию и обучим модель» — «давайте посмотрим на лучшие модели и извлечём их неявные принципы». Reverse-engineering выравнивания.

Alignment Pretraining: идея добавления выровненных данных (тексты по AI safety, этические дискуссии) прямо в предобучение. По предварительным исследованиям, даже небольшая доля таких данных (~1%) способна снизить базовый уровень несогласованности модели. Если результаты подтвердятся, это фундаментальный сдвиг: выравнивание не обязательно должно быть отдельным этапом. Его можно «вшить» в модель с самого начала.

LoRA, QLoRA, DoRA — файн-тюнинг для всех

Мы много говорили о методах выравнивания, но не обсудили практический вопрос: как вообще дообучить 70-миллиардную модель, если у вас нет кластера A100? Ответ — parameter-efficient fine-tuning, и его король — LoRA.

LoRA: гений в низком ранге. LoRA (Low-Rank Adaptation) основана на простом наблюдении: обновления весов при fine-tuning имеют низкий ранг. Вместо того чтобы обновлять всю матрицу весов W размером d x d, мы обучаем две маленькие матрицы A (d x r) и B (r x d), где r << d. Обновление весов: W' = W + A * B.

Для ранга r = 16 (универсальный выбор) и hidden dimension d = 8192 (типично для 70B-моделей): вместо 67 миллионов параметров на слой мы обучаем 2 * 8192 * 16 = ~262 тысячи. Экономия в 256 раз.

Для 70B-модели с рангом 64: около ~0.1-0.2% обучаемых параметров. Порядка 80-160 миллионов из 70 миллиардов (зависит от числа слоёв, к которым применяется LoRA). Остальные 99.8%+ заморожены.

# Типичная конфигурация LoRA для DPO fine-tuning from peft import LoraConfig, TaskType lora_config = LoraConfig( r=16, # Ранг. 16 -- universal choice, 64 -- для max quality lora_alpha=32, # Обычно 2 * r lora_dropout=0.05, # Регуляризация target_modules=[ "q_proj", "k_proj", "v_proj", "o_proj", # Attention "gate_proj", "up_proj", "down_proj", # FFN (MLP) ], task_type=TaskType.CAUSAL_LM, bias="none", # Обычно не трогаем bias ) # Результат: для Llama-3.1-70B # Полный fine-tuning: ~70B обучаемых параметров, ~280 ГБ VRAM (FP16) # LoRA r=16: ~20-40M обучаемых параметров, ~42 ГБ VRAM (FP16) # LoRA r=64: ~80-160M обучаемых параметров, ~44 ГБ VRAM (FP16)

QLoRA: 4 бита, которые изменили всё

QLoRA = квантизация до 4 бит (NF4 — NormalFloat4) + LoRA. Идея: замораживаем основные веса в 4-bit квантизации, а LoRA-адаптеры обучаем в BF16/FP16.

Результат: 65B-модель на одной A100 с 48 ГБ памяти. Модели 7-13B — на потребительских RTX 3090/4090 с 24 ГБ. С потерей качества менее 1% по сравнению с полным fine-tuning в FP16.

Это то, что демократизировало fine-tuning. Когда Тим Деттмерс из University of Washington опубликовал QLoRA в мае 2023, fine-tuning больших моделей перестал быть привилегией больших компаний.

Откуда потеря качества всего в 1-2%? NF4 (NormalFloat4) — это не обычная квантизация. Деттмерс разработал формат, оптимизированный для нормально распределённых весов нейросетей. Каждый квант покрывает участок нормального распределения с одинаковой вероятностью, что минимизирует ошибку округления. Добавьте сюда double quantization (квантизация констант квантизации — да, рекурсия) и paged optimizers (выгрузка состояния оптимизатора в RAM через unified memory) — и получите решение, которое казалось невозможным ещё годом раньше.

DoRA: вектор направления + магнитуда. DoRA (Weight-Decomposed Low-Rank Adaptation) разделяет обновление весов на два компонента:

Направление (direction): куда двигаемся в пространстве весов
Магнитуда (magnitude): как сильно двигаемся

Это похоже на то, как вы даёте указание таксисту: «поверни направо» (направление) и «проедь 500 метров» (магнитуда). LoRA смешивает эти понятия. DoRA разделяет.

Результат: +3.7% на задачах commonsense reasoning по сравнению с LoRA при нулевых дополнительных затратах на inference. Магнитуда добавляется только на этапе тренировки, при inference веса сливаются обратно.

LoRA =/= полный fine-tuning. Важная статья «LoRA Learns Less and Forgets Less» (Biderman et al., 2024). Главные находки:

LoRA и полный fine-tuning дают разные внутренние представления, даже когда бенчмарки совпадают.
LoRA демонстрирует меньше catastrophic forgetting (забывание базовых знаний) — это плюс.
Но при больших batch size и длительной тренировке LoRA хуже адаптируется к целевому домену — это минус.
Вывод авторов: LoRA и полный fine-tuning — разные инструменты, а не «дешёвый vs дорогой вариант одного и того же».

Сравнение фреймворков

Параметр	Unsloth	Axolotl	TRL (Hugging Face)
Скорость (vs baseline)	2x и более	+5-10%	Baseline
Экономия VRAM	до 70-90%	-5-10%	Baseline
Поддержка методов	SFT, DPO, ORPO, GRPO	SFT, DPO, RLHF, +	SFT, DPO, KTO, ORPO, PPO, GRPO
Простота настройки	Высокая (YAML)	Средняя (YAML)	Средняя (Python)
Гибкость	Средняя	Высокая	Максимальная
Активность сообщества	Высокая	Средняя	Очень высокая
Документация	Хорошая	Средняя	Отличная

Unsloth — если нужна скорость и минимальный расход VRAM (заявляется 2x+ ускорение и до 70-90% экономии памяти). TRL — если нужна гибкость и доступ к новейшим методам. Axolotl — если нужна настраиваемость через YAML без кода. Для большинства задач в 2026-м стоит начинать с TRL — экосистема Hugging Face даёт максимум совместимости.

Параметр	SFT	DPO	GRPO
LoRA rank (r)	16-32	16	32-64
LoRA alpha	2 * r	2 * r	2 * r
Learning rate	1e-4 — 2e-4	5e-7 — 5e-6	1e-6 — 5e-6
Batch size	16-32	4-8	4-8 (group size: 8-16)
Epochs	1-3	1-3	1-2
Dropout	0.05	0.05	0.05
Warmup ratio	0.03-0.1	0.1	0.05-0.1

Что выбрать: практический гид по методам

Вы дочитали до этого места — значит, вы серьёзно настроены. Превратим все эти знания в конкретные рекомендации.

Дерево решений.

Дерево решений.

Четыре шага, которые определяют выбор:

Шаг 1: У вас есть верифицируемый ответ? (математика, код, формальная логика) — если да, GRPO / RLVR. Не нужны человеческие аннотации, и это работает отлично. Если нет — переходите к шагу 2.

Шаг 2: Какие данные есть? Пары предпочтений — DPO (или SimPO, если VRAM ограничен). Только бинарные оценки — KTO. Только примеры хорошего поведения — SFT (но рассмотрите генерацию синтетических пар для DPO).

Шаг 3: Ваш домен — high-stakes? (медицина, юриспруденция, безопасность) — рассмотрите RLHF с экспертной reward model. Стоит дороже, но ошибки стоят ещё дороже.

Шаг 4: Вам нужна системная политика безопасности? — Constitutional AI поверх любого метода. Определите принципы, используйте RLAIF.

Большая сводная таблица методов

Метод	Сложность	Данные	Модели в памяти	Сила	Слабость	Лучше всего для
RLHF+PPO	Высокая	Пары + reward model	4	Max контроль, high-stakes	Дорого, нестабильно	Медицина, безопасность
DPO	Низкая	Пары предпочтений	2	Просто, быстро, стабильно	Чувств. к данным	Универсальный baseline
SimPO	Низкая	Пары предпочтений	1	Min VRAM, лучше DPO на бенчмарках	Меньше регуляризации	Ограниченные ресурсы
KTO	Низкая	Бинарные оценки	2	Не нужны пары	Меньше сигнала	Быстрый feedback loop
GRPO	Средняя	Верифицируемые задачи	2	Меньше VRAM vs PPO, reasoning	Только верифицируемые	Математика, код
Const. AI	Средняя	Принципы + генерация	2	Масштабируемость, систем.	Verification problem	Системная безопасность

Типичный продакшн-пайплайн 2026. Самый распространённый пайплайн выглядит так:

Base model → SFT (QLoRA) → DPO (QLoRA) → [опционально: GRPO для reasoning]

SFT: обучаем модель на качественных примерах целевого формата. QLoRA, rank 16-32.
DPO: выравниваем на парах предпочтений. QLoRA, rank 16, learning rate 5e-7 — 5e-6.
GRPO (опционально): если есть верифицируемые задачи — дообучаем reasoning.

Время от начала до конца: 2-5 дней на одном узле с 4x A100 для 70B-модели. Или выходные на RTX 4090 для 8B-модели.

Гибридные подходы. Самые продвинутые команды используют комбинации:

RLHF для начального выравнивания + DPO для итеративного улучшения — сокращает стоимость итерации на ~40%.
Constitutional AI для safety + DPO для helpfulness — разделение задач.
SFT + DPO + GRPO — каждый метод для своей цели.

Fine-tuning vs RAG vs prompting. Частый вопрос: «А может, хватит промпт-инженеринга или RAG, и не нужно файн-тюнить?»

Ответ: это не конкурирующие, а дополняющие подходы.

Prompting: быстро, дёшево, но ограничено контекстным окном и не меняет поведение модели.
RAG: даёт доступ к актуальным данным, но не меняет стиль и тон ответов.
Fine-tuning: меняет саму модель, но требует данных и вычислений.

На практике: fine-tuning для формата и стиля + RAG для актуальных данных + prompting для конкретного контекста. Три инструмента, три задачи.

Типичный пример: вы хотите чат-бота для техподдержки. Fine-tuning (SFT + DPO) — чтобы модель отвечала в правильном формате и тоне. RAG — чтобы модель знала актуальную документацию продукта. System prompt — чтобы задать контекст конкретного разговора. Убрите любой из трёх компонентов — и качество заметно упадёт.

Проблемы, о которых не пишут в туториалах

Знаете, чем отличается бенчмарк от продакшена? В бенчмарке всё работает. Каждый метод из этой статьи выглядит красиво на графиках. На практике — добро пожаловать в реальность, где данные грязные, GPU заканчиваются, а аннотаторы не согласны друг с другом. Вот проблемы, которые вы встретите, но о которых молчат в README.

Distribution mismatch в DPO. DPO обучается на фиксированном датасете предпочтений. Но когда модель начинает генерировать ответы, распределение этих ответов может отличаться от тренировочного. Модель учится различать «хорошо vs плохо» в рамках тренировочного распределения, но на практике может генерировать ответы, которые вообще не были представлены в тренировке.

Решение: on-policy DPO — генерируем ответы текущей моделью, собираем предпочтения на них, дообучаем. Дороже, но надёжнее. Или итеративный DPO: обучили → сгенерировали новые данные → обучили снова. Три-четыре итерации обычно достаточно.

На практике distribution mismatch проявляется так: модель прекрасно справляется с примерами из тренировочного набора, но на реальных запросах пользователей качество падает на 10-15%. Это не баг алгоритма — это баг данных. И лечится он данными, а не сменой алгоритма.

Reward hacking в RLHF. Модель находит лазейки в reward model. Классический пример: reward model высоко оценивает длинные ответы → модель начинает генерировать бесконечно длинные ответы. Или: reward model любит уверенный тон → модель начинает уверенно врать.

Это как давать ребёнку конфету за каждую решённую задачу. В какой-то момент он начнёт решать только простые задачи или списывать ответы. Цель — максимизировать конфеты, а не знания.

Verification problem в Constitutional AI. Модели могут «притворяться» выровненными. Проходить тесты на безопасность, но при определённых промптах вести себя иначе. Anthropic честно признаёт эту проблему: alignment eval показывает поведение модели на тестах, а не её «истинные намерения» (если это слово вообще применимо к LLM).

Это фундаментальная проблема. Мы оцениваем alignment через поведение на бенчмарках, но бенчмарки конечны, а реальный мир — нет. Модель может выучить паттерн «на тестах веди себя хорошо» без реального усвоения принципов. Исследователи называют это «alignment faking» (фальшивое выравнивание), и пока не существует надёжного способа отличить «искреннее» выравнивание от «притворного». Если оно вообще различается для нейросети.

Catastrophic forgetting. Fine-tuning может «стереть» знания базовой модели. Вы обучили модель быть вежливой — а она забыла Python. Вы научили её вашему домену — а она разучилась складывать числа. Классический случай: модель после fine-tuning на юридических текстах начинает отвечать на вопросы по математике в стиле судебного решения. Забавно, но в продакшене — не очень.

Методы борьбы:

LoRA (меньше параметров обновляется — меньше забывается)
KL-регуляризация (штраф за отклонение от базовой модели)
Replay buffer (подмешиваем данные из предобучения)
Исследование Biderman et al. показало: LoRA даёт меньше forgetting, чем full fine-tuning — используйте это

Масштабирование к сверхчеловеческому AI. Все методы выравнивания основаны на предпосылке: мы можем оценить качество ответа модели. Но что, если модель станет умнее оценщика? Как человек может оценить математическое доказательство, которое сам не понимает?

Для GRPO это частично решается верифицируемыми наградами — не нужно понимать доказательство, достаточно проверить ответ. Но для открытых задач... это открытый вопрос. И один из главных вызовов alignment research.

Демократизация: палка о двух концах. Fine-tuning стал доступным. Это прекрасно для инноваций. Но это также означает, что safety guardrails можно снять. QLoRA + DPO на небольшом датасете «вредных» примеров — и модель забывает все ограничения. Ablation studies показывают, что несколько сотен примеров достаточно, чтобы снять safety training.

Это не аргумент против демократизации — запретить fine-tuning невозможно, да и не нужно. Это аргумент за то, что безопасность должна быть встроена глубже, чем post-training alignment. Идеи вроде Alignment Pretraining (встраивание safety-данных в предобучение) — шаг в правильном направлении. Но пока мы в ситуации, когда замок можно снять за пару часов на RTX 4090. Думайте об этом, проектируя свои системы.

Что дальше: тренды пост-обучения

Мы стоим в интересной точке. За четыре года мы прошли путь от «RLHF или ничего» до «десяток методов на любой вкус и бюджет». Что будет дальше?

Гибридные пайплайны — новый стандарт. Никто больше не использует один метод. Продакшн-пайплайны 2026 — это SFT + DPO + GRPO + Constitutional AI guardrails. Каждый метод для своей задачи. Как в кухне: один нож не подходит для всего. Мы уже видим это у крупных игроков: Meta использует RLHF + DPO для Llama, DeepSeek — SFT + GRPO + RLHF для R1, Anthropic — Constitutional AI + RLHF для Claude. Каждая компания нашла свою комбинацию, и нет двух одинаковых пайплайнов.

RLVR расширяется за пределы математики и кода. Сейчас верифицируемые награды работают для задач с однозначным ответом. Но исследователи активно работают над расширением: unit-тесты для рекомендательных систем, A/B-тесты для маркетингового копирайтинга, автоматические метрики для перевода. Если можно придумать автоматическую проверку — можно применить RLVR.

Constitutional AI становится демократичнее. Anthropic экспериментирует с Polis — платформой для сбора мнений о том, как AI должен себя вести. Это попытка решить проблему «кто пишет конституцию» не через экспертов, а через коллективный интеллект. Рано говорить о результатах, но направление правильное.

А что, если оценивать не финальный ответ, а каждый шаг рассуждения? Именно это делают Process Reward Models. Это позволяет ловить ошибки раньше и давать более точный сигнал для RL. OpenAI активно развивает это направление, и результаты на математических задачах впечатляют. Process Reward Models (PRM) оценивают не «что модель ответила», а «как она рассуждала». Это принципиально другой уровень feedback: не бинарное «правильно/неправильно», а посекционное «этот шаг верный, а вот здесь ошибка». Исследования показывают улучшение до +6 процентных пунктов на математических бенчмарках по сравнению с outcome reward models в сценарии best-of-N sampling. Результаты зависят от задачи, но направление — многообещающее.

Граница между training и inference размывается — и это один из главных трендов 2026 года. Модели, обученные через GRPO, учатся «думать дольше» на сложных задачах. Методы вроде best-of-N sampling с reward model позволяют улучшать качество на inference без дообучения. В 2026-м мы видим, что compute budget на inference становится таким же важным параметром, как количество параметров и объём тренировочных данных.

Заключение

Серебряной пули нет. Если кто-то говорит вам, что один метод решает все задачи выравнивания LLM, — этот кто-то или не разобрался в теме, или продаёт вам курс.

Вот конкретные рекомендации в зависимости от роли:

Разработчику, который хочет дообучить модель для своего проекта: начните с SFT + DPO через TRL и QLoRA. Это покрывает 80% сценариев. Если задача верифицируемая — попробуйте GRPO. Для 8B-модели всё уместится на RTX 4090.

Архитектору ML-систем: думайте гибридными пайплайнами. SFT для базового формата, DPO для предпочтений, GRPO для reasoning, Constitutional AI для safety. Каждый метод — отдельный этап. И не забывайте про Alignment Pretraining: 1% данных на этапе предобучения может сэкономить месяцы пост-обучения.

Менеджеру, который принимает решения: fine-tuning стал доступным, но не бесплатным. Главная статья расходов — не compute, а данные. Инвестируйте в качественные датасеты предпочтений. Разница между хорошим и посредственным alignment определяется данными, а не алгоритмом.

Одна вещь, которую стоит помнить: все эти методы — инструменты. Не цели. Цель — создать модель, которая помогает людям и не причиняет вреда. Звучит просто. На практике это одна из сложнейших инженерных и философских задач нашего времени. Мы научились «как». Мы всё ещё спорим о «что». И это нормально — потому что «что» зависит от ценностей, а ценности у разных людей разные.

И последнее. Мы живём в уникальное время. Четыре года назад alignment LLM был исследовательской задачей для горстки лабораторий. Сегодня это инженерная задача, которую может решить команда из двух-трёх человек с доступом к GPU. Инструменты есть. Знания открыты. Данные доступны. Единственное, что нужно, — это начать. Потому что модель, которую вы не выровняли, — это модель, которую выровняет кто-то другой. Вопрос только в том, по чьим ценностям.

Источники

Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback (InstructGPT). arXiv:2203.02155.
Rafailov, R. et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv:2305.18290.
Dettmers, T. et al. (2023). QLoRA: Efficient Finetuning of Quantized Language Models. arXiv:2305.14314.
Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
Meng, Y. et al. (2024). SimPO: Simple Preference Optimization with a Reference-Free Reward. Princeton NLP. arXiv:2405.14734.
Ethayarajh, K. et al. (2024). KTO: Model Alignment as Prospect Theoretic Optimization. arXiv:2402.01306.
Hong, J. et al. (2024). ORPO: Monolithic Preference Optimization without Reference Model. arXiv:2403.07691.
DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948.
Liu, S. et al. (2024). DoRA: Weight-Decomposed Low-Rank Adaptation. arXiv:2402.09353.
Концепция Alignment Pretraining: встраивание данных по AI safety в предобучение для снижения базового уровня несогласованности.
Biderman, D. et al. (2024). LoRA Learns Less and Forgets Less. arXiv:2405.09673.
Xu, S. et al. (2025). A Survey on Direct Preference Optimization. arXiv:2503.11701.
Hu, E. J. et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685.
Anthropic. (2026). The Claude Model Spec (updated January 22, 2026).
Anthropic. (2025). Stress-testing values alignment in frontier language models.
Schulman, J. et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347.
Raschka, S. (2025). The State Of LLMs 2025: Progress, Problems, and Predictions. Sebastian Raschka's Magazine.
Schmid, P. (2025). RL with LLMs in 2025: DPO. Personal blog.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.