Недавно Anthropic и OpenAI объявили о запуске «быстрого режима» — способа работать с их лучшей моделью для программирования на значительно более высокой скоростНедавно Anthropic и OpenAI объявили о запуске «быстрого режима» — способа работать с их лучшей моделью для программирования на значительно более высокой скорост

[Перевод] Anthropic против OpenAI: два разных подхода к «быстрому режиму»

2026/02/18 10:25
6м. чтение

Недавно Anthropic и OpenAI объявили о запуске «быстрого режима» — способа работать с их лучшей моделью для программирования на значительно более высокой скорости.

Эти два варианта устроены совершенно по-разному. У Anthropic скорость достигает 2,5× токенов в секунду (примерно 170 вместо 65 у Opus 4.6). У OpenAI — более 1000 токенов в секунду (вместо 65 у GPT-5.3-Codex, то есть ускорение в 15 раз). Таким образом, быстрый режим OpenAI примерно в шесть раз быстрее, чем у Anthropic[1].

При этом у Anthropic есть важное преимущество: они выдают реальную модель. В их быстром режиме используется настоящий Opus 4.6, тогда как у OpenAI вместо полноценного GPT-5.3-Codex работает GPT-5.3-Codex-Spark. Spark действительно намного быстрее, но заметно уступает по возможностям: для многих задач его хватает, однако он чаще путается и ошибается при вызове инструментов — то, чего обычный GPT-5.3-Codex не делает.

Откуда такие различия? Лаборатории не раскрывают технические детали реализации быстрых режимов, но с большой вероятностью дело обстоит так: у Anthropic ускорение достигается за счёт инференса с низким размером батча, а у OpenAI — за счёт специализированных гигантских чипов Cerebras. Разберёмся подробнее.

Как работает быстрый режим Anthropic

Ключевой компромисс в экономике инференса ИИ — это батчинг, поскольку основное ограничение связано с памятью. GPU очень быстрые, но передача данных на них — нет. Перед началом инференса необходимо скопировать на GPU все токены пользовательского запроса[2]. Если объединять запросы нескольких пользователей в батч, общая пропускная способность растёт, но пользователям приходится ждать, пока батч заполнится.

Это можно сравнить с тем, как устроена пассажироперевозка. Если бы автобусы отправлялись сразу, как только в них заходит один пассажир, поездки были бы быстрее для тех, кому удалось сесть. Но общая пропускная способность резко упала бы, а остальные люди ждали бы на остановке часами.

Быстрый режим Anthropic по сути даёт «проездной», при котором автобус отправляется сразу после посадки. Это стоит в шесть раз дороже, потому что вы фактически оплачиваете места для потенциальных попутчиков, но работает значительно быстрее[3] — ожидания отправления нет.

Разумеется, это лишь предположение. Возможно, Anthropic использует новый сверхбыстрый вычислительный ресурс или алгоритмический приём. Однако такой вариант маловероятен: серьёзные аппаратные или алгоритмические изменения обычно требуют модификации модели (как в случае OpenAI), а соотношение «в шесть раз дороже — в 2,5 раза быстрее» соответствует ожидаемому выигрышу при переходе к малым батчам.

Как работает быстрый режим OpenAI

У OpenAI всё устроено иначе. Это видно уже по тому, что для быстрого режима используется отдельная, более слабая модель. Если бы дело было только в размере батча, в этом не было бы необходимости. Более того, в анонсе прямо указано, что быстрый режим основан на сотрудничестве с Cerebras.

Партнёрство с Cerebras было объявлено в январе. Cerebras производит «вычислительные системы с ультранизкой задержкой», что на практике означает гигантские чипы. Чип H100 (почти на переднем крае инференса) занимает чуть больше квадратного дюйма. Чип Cerebras — около 70 квадратных дюймов.

f4e517fc64baef8a74aea602a1b321f3.png

На фотографиях видно характерную сетчатую структуру с отверстиями. Кремниевые пластины такого размера обычно разрезают на десятки чипов. Cerebras же формирует один огромный чип на всей поверхности.

Чем больше чип, тем больше встроенной памяти можно разместить. Идея в том, чтобы иметь достаточно SRAM, чтобы целиком разместить модель и выполнять инференс полностью в памяти. Обычно объём SRAM на GPU измеряется[4] десятками мегабайт, поэтому значительная часть времени уходит на подгрузку весов модели из внешней памяти в вычислительные блоки4. Если же всё считывать напрямую из SRAM (которая значительно быстрее), инференс ускоряется — примерно в пятнадцать раз.

Сколько памяти у последнего чипа Cerebras? 44 ГБ. Это ставит OpenAI в непростое положение. 44 ГБ достаточно для небольшой модели (около 20 млрд параметров в fp16 или 40 млрд при int8-квантизации), но явно недостаточно для GPT-5.3-Codex. Поэтому и предлагается новая модель, а у Spark ощущается «запах маленькой модели»: это уменьшенная distil-версия гораздо более крупного GPT-5.3-Codex[5].

Подход OpenAI технически сложнее

Любопытно, что две ведущие лаборатории выбрали разные пути ускорения инференса. Если допустить конспирологическую версию событий, она могла бы выглядеть так:

  1. OpenAI заключает партнёрство с Cerebras в середине января, чтобы запустить свою модель на их быстрых чипах

  2. Anthropic не имеет аналогичного ресурса, но понимает, что OpenAI в феврале представит очень быстрый инференс, и хочет появиться в новостной повестке

  3. Anthropic быстро реализует доступное им решение — уменьшение размера батча в существующем стеке

  4. Anthropic, вероятно, публикует анонс за несколько дней до готовности сложной интеграции Cerebras у OpenAI, чтобы создать впечатление, что OpenAI их копирует

С технической точки зрения достижение OpenAI сложнее. Запустить модель на чипах Cerebras — нетривиальная задача из-за их специфики. Обучить distil-версию GPT-5.3-Codex на 20–40 млрд параметров так, чтобы она оставалась приемлемой по качеству, тоже непросто. При этом Anthropic нашла способ опередить новость, что для неспециалистов останется незаметным. Это напоминает скрытый запуск Responses API у OpenAI в середине 2025 года, позволивший скрыть reasoning-токены.

Станет ли быстрый инференс следующим крупным направлением?

Когда обе ведущие лаборатории выпускают такую фичу, можно подумать, что ускорение инференса — их новый главный приоритет. Скорее всего, это не так. Если предыдущая гипотеза верна, Anthropic не особенно заинтересована в скорости как таковой — им важно не выглядеть отстающими. OpenAI же исследует возможности партнёрства с Cerebras. Пока неясно, какие модели реально можно эффективно размещать на таких чипах, насколько они будут полезны и оправдается ли экономика.

Лично мне формат «быстро, но слабее» кажется малоценным. Я пробовал его в Codex и остался недоволен. Полезность ИИ-агентов определяется количеством ошибок, а не скоростью. Получить шестикратное ускорение ценой роста числа ошибок на 20% — сомнительный обмен, потому что основное время пользователя уходит на исправление ошибок, а не на ожидание ответа модели[6].

Тем не менее нельзя исключать, что быстрый, менее мощный инференс станет базовым строительным блоком ИИ-систем. Claude Code уже использует Haiku для отдельных операций. Возможно, OpenAI будет применять Spark аналогичным образом.

Многие комментаторы спорили о характеристиках батчинга. Одни утверждали, что при непрерывном батчинге никто не «ждёт автобуса», или что объём запросов к моделям Anthropic делает время ожидания несущественным. Другие обсуждали, является ли узким местом межчиповая коммуникация при инференсе и влияет ли объединение чипов на пропускную способность.

Я понимаю непрерывный батчинг лишь на базовом уровне, но даже при нём необходимо дождаться освобождения слота (пусть и не завершения всего предыдущего батча), поэтому компромисс между пропускной способностью и задержкой сохраняется.

Здесь даже не учитывается задержка. Anthropic прямо предупреждает, что время до первого токена может оставаться высоким (или даже увеличиться), тогда как OpenAI считает задержку Spark достаточно низкой, чтобы перейти на постоянное websocket-соединение (то есть 50–200 мс на установление соединения для них уже значимая доля времени до первого токена).

Русскоязычное сообщество про AI в разработке

d066a81482f4fe77b245ab293d3beffc.png

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Источник

Возможности рынка
Логотип 4
4 Курс (4)
$0.009811
$0.009811$0.009811
+1.92%
USD
График цены 4 (4) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.