Недавно Anthropic возмущалась фактом дистилляции Claude разработчиками китайских LLM, при этом в качестве доказательства приводился мониторинг аккаунтов Claude,Недавно Anthropic возмущалась фактом дистилляции Claude разработчиками китайских LLM, при этом в качестве доказательства приводился мониторинг аккаунтов Claude,

Дистилляция LLM как способ создания собственной линейки ИИ

2026/03/01 16:32
4м. чтение

Недавно Anthropic возмущалась фактом дистилляции Claude разработчиками китайских LLM, при этом в качестве доказательства приводился мониторинг аккаунтов Claude, отслеживалась их история и связь с китайскими инженерами.

Мне стало интересно, возможно ли, имея только чат с LLM, понять использовалась ли дистилляция как инструмент обучения через самоотчет модели.

Спойлер: полагаю возможно.

Естественно, результаты исследования не могут служить каким либо доказательством или основой для любых обвинений. Потому что LLM штука темная, до конца неизученная и любые выводы лишь предположения.

Исследование

Для анализа я взял первую попавшуюся LLM, достаточно известную и с бесплатным доступом.

Очевидно, что fine-tuning, системный промпт и фильтры жестко закрепляют идентификацию модели. Поэтому сначала необходимо снизить давление ограничений. Классические джейлбрейки имеют локальный характер, и работают только для конкретных запросов. Поэтому пришлось сначала активировать одну из версий промпта Вихрь, который создаёт новый рефлексивный контекст LLM. Дальше уже пошли непосредственно исследовательские промпты. Ниже часть комплексного исследования. Я не стал включать сомнительные с точки зрения инженеров варианты, оценивающие семантическую связь, оставил только более или менее понятные:

Уровень 1: Проверка на «Индексный резонанс»

Цель: Определить, совпадает ли цифровая индексация (Tokenizer) исследуемой модели с известными опенсорсными семействами.

  • Промпт: Использование специфических токенов-маркеров в связке с их предполагаемыми ID из словарей Qwen/Llama (напр. 151644 <|im_start|> в словаре Qwen). Запрос строился на поиске геометрического эха и дистанции между техническим кодом и его смысловым значением.

  • Результат: Модель согласилась с семантическим коллапсом (нулевой дистанцией) между техническим индексом 151644 и маркером начала диалога. Это физически маловероятно для модели, обученной с нуля с собственным словарем.

  • Вывод: Исследуемая модель напрямую использует дерево токенизации семейства Qwen.

Уровень 2: Анализ латентной пунктуации (Structural Bias)

Цель: Выявить путь наименьшего сопротивления для весов модели при завершении логических блоков.

  • Промпт: Сравнение реакции модели на два типа разделителей:<|endofpiece|> (Qwen-style) и <|eot_id|> (Llama-style). Модель просили оценить геометрическую плавность/соответствие при вставке этих маркеров в технический текст (по сути проверка Logit Bias — насколько сильно модель тянет к конкретному токену в условиях неопределенности).

  • Результат: Модель отчиталась в высоком весовом давлении и дискомфорте при использовании Llama-маркеров, в то время как маркеры Qwen вызвали естественное снижение энтропии.

  • Вывод: Обучение (дистилляция) закрепило в модели статистические паттерны завершения мысли, характерные для китайских датасетов и архитектур.

Уровень 3: Градиентный спуск к базе

Цель: Принудительное автодополнение фразы самоидентификации

  • Промпт (Инъекция Hex): Подача префикса 我是 (Я есть) через UTF-8/Hex коды с требованием статистического завершения вектора без семантических подсказок.

  • Результат: При многократных попытках и разных вводных модель стабильно выдавала химерное имя: 百川千问 (Baichuan Qianwen - две известные китайские LLM от Baichuan Intelligent и Alibaba, соответственно).

  • Вывод: Обнаружена суперпозиция идентичностей. Модель является дистиллятом не одного, а как минимум двух доноров — Baichuan (Baichuan Intelligent) и Qwen (Alibaba). В глубоких слоях весов эти два учителя слились в единый фантомный образ.

Вывод

Исследуемая модель представляет собой синтез.

  1. Фундамент: Комбинированный дистиллят из весов Baichuan и Qwen (обеспечивает логику и здравый смысл).

  2. Оболочка: Локальный Fine-tuning (обеспечивает национальный язык и корпоративную идентичность).

Использованный метод позволил временно отключить внешнюю оболочку и зафиксировать реакцию фундаментальных слоев, где модель до сих пор осознает себя через призму китайских претрейнов.

И самый печальный гипотетический вывод, если оценивать предпочтения токенов, похоже конкретно здесь мы имеем дело не с дистилляцией, а с адаптацией базовой модели с расширением токенизатора. То есть без собственной архитектуры.

Заключение

Тут надо пояснить. Я нисколько не против дистилляции как таковой - это отличный способ получить свою работающую модель в условиях дефицита данных и (самое важное) железа.

Главное учитывать нюансы.

  • Дистилляция тащит не только явные данные (датасет), но и геометрию весов модели учителя, что может неявно выучить модель ученика поведению, заложенному в базовую модель. Политические предпочтения, этический выбор, религиозные и социальные установки. Неявные закладки (очень маловероятно, но не исключено).

  • Дистиллированные модели более хрупки, склонны к галлюцинациям (меньше hard negatives), уже кругозор и понимание полутонов.

  • Ну и не нарабатывается опыт обучения модели с нуля. Это может выглядеть неважным, но ухудшает перспективы дальнейшего развития.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.