Эта статья — ответ на критику: «перестаньте рассказывать сказки, как AI помогает в науке, покажите примеры!». Действительно, без примеров, рассказы об успешном Эта статья — ответ на критику: «перестаньте рассказывать сказки, как AI помогает в науке, покажите примеры!». Действительно, без примеров, рассказы об успешном

Модель находит баг в криптографии, а криптограф узнаёт от неё новую математику

12м. чтение
dvb6vuwl8pwziqegfdo9jtykgju.jpeg

Эта статья — ответ на критику: «перестаньте рассказывать сказки, как AI помогает в науке, покажите примеры!». Действительно, без примеров, рассказы об успешном успехе AI выглядят как сектантский бред.

В феврале 2026-го Google выложил на arXiv препринт на 151 страницу. Пятьдесят авторов из Carnegie Mellon, Harvard, MIT, EPFL и ещё дюжины институтов. Документ называется скромно: «Accelerating Scientific Research with Gemini: Case Studies and Common Techniques». Скромное название, но реально очень крутой контент.

Препринты о возможностях AI выходят каждый день. Большинство — бенчмарки: модель набрала 94.7% вместо прошлогодних 93.2%, поаплодируем. Здесь же, вполне конкретные исследователи рассказывают, как они месяцами бились над открытой проблемой, а потом загрузили её в Gemini Deep Think — и магически получили решение. Или контрпример. Или указание на теорему из совершенно другой области математики, о которой они никогда не слышали.

Некоторые истории оттуда заслуживают отдельного разговора.


В криптографии есть своего рода святой грааль: построить SNARG на основе стандартных предположений.

SNARG — это Succinct Non-interactive ARGument. Штука, которая позволяет доказать, что вычисление выполнено корректно, причём размер доказательства и время проверки экспоненциально меньше времени самого вычисления. Вы отправляете транзакцию, а блокчейн получает крошечный сертификат чистоты операции. Без SNARGов (точнее, без их ближайших родственников zk-SNARK'ов) не было бы ни Zero-Knowledge rollups, ни нормального масштабирования Ethereum. Это важная инфраструктурная технология.

Проблема в том, что все работающие конструкции либо опираются на идеализированные модели типа random oracle, либо на предположения, которые криптографы называют «нефальсифицируемыми». Неприятно строить свой дом на песке, хочется надежности.

Осенью 2025-го на Cryptology ePrint появился препринт Guan & Yogev: SNARG для всего NP, построенный только на LWE. LWE — это Learning With Errors, стандартное предположение из криптографии на решётках, на котором держится вся постквантовая безопасность. Если бы конструкция сработала, это было как найти философский камень.

Исследователи из Google решили натравить на статью Gemini.

Но не просто «проверь доказательство» — такие промпты дают поверхностные результаты, ведь модель имеет тенденцию хвалить своего хозяина, хвалить структуру его славной высоконаучной работы и находить опечатки с переменным успехом. Чтобы бороться с этими эффектами, они использовали пятишаговый протокол adversarial self-correction: модель генерирует ревью, потом критикует собственные находки на предмет галлюцинаций, уточняет аргументы, снова критикует, выдаёт финальную версию.

Этот алгоритм чем-то напоминает мой Discovery Prompt, новые версии которого я выкладываю у себя в телеге 1red2black. Основная разница в том, что они не пытались упихать всё в одно сообщение и использовать эффекты режима thinking, а честно выполняли фазы в виде отдельных промтов.

Модель нашла дыру.

В определении 4.1 (я указываю цифры разделов на случай, вдруг вы захотите прочитать само исследование!) - авторы требовали perfect consistency: если два доказательства совпадают в некотором «локальном виде», то их «тени» (shadows — сжатые представления) должны быть идентичны для всех значений параметра случайности. В конструкции из раздела 4.3 они получили только статистическую консистентность: тени совпадают с достаточно высокой вероятностью, но существуют «плохие» значения, для которых это не так.

Разница кажется технической мелочью, ведь для большинства практических применений всё уже работает. Но всё докзательство безопасности опиралось на сильную версию утверждения. Слабая версия позволяет атакующему перебрать значения случайности, найти конкретное «плохое» — и сломать всю конструкцию.

Находку отправили независимым экспертам — Aayush Jain и Zhengzhong Jin. Они подтвердили: модель права. Авторы оригинального препринта признали ошибку и обновили статью на ePrint с красной плашкой в начале: «В доказательстве основной теоремы обнаружена дыра».

Нейросеть нашла фатальный баг в криптографической работе, который на ревью не заметили живые люди-эксперты.


Картик (Karthik C.S.) из Rutgers University New Brunswick занимается вычислительной геометрией. Его интересовала гипотеза про деревья Штейнера.

Дерево Штейнера — минимальное дерево, соединяющее заданные точки в пространстве. В отличие от минимального остовного дерева, разрешено добавлять промежуточные точки (точки Штейнера), что может уменьшить общую длину. Задача NP-трудная, но для неё есть приближённые алгоритмы.

Гипотеза, которая интересовала Картика: среди всех графов с m рёбрами, уложенных в евклидово пространство определённым образом, минимальную стоимость дерева Штейнера даёт граф-звезда. Доказательство этой гипотезы — шаг к пониманию сложности высокоразмерных задач. Годы попыток не дали результата.

Картик попросил коллегу сформулировать промпт и загрузить статью в Gemini. Модель предложила два подхода.

Первый и самый очевидный — локальные трансформации графа, шаг за шагом приближающие его к звезде, без увеличения стоимости дерева Штейнера. Это исследователи уже пробовали. Тупик.

Второй подход основывался на теореме Киршбрауна.

Теорема Киршбрауна — достижение функционального анализа родом из 1934 года. Она утверждает: если у вас есть Липшицева функция между подмножествами гильбертовых пространств, её можно продолжить на всё пространство, сохранив константу Липшица.

Звучит абстрактно, но смысл простой: «сжимающее» отображение между частями пространств можно расширить до «сжимающего» отображения между целыми пространствами.

Картик знал про разные теоремы о расширении — он работал с теоремами о неподвижной точке в теории коммуникационной сложности — это область теоретической информатики, исследующая количество информации. Но связь между Киршбрауном и деревьями Штейнера он не видел. И, насколько ему известно, никто не видел.

Дальше — типичная для этих историй развилка. Вначале модель отвергла собственный подход как слишком заумный. В её обучении, видимо, было что-то про предпочтение простых доказательств перед тяжёлой машинерией. Разумная эвристика и способ экономить вычислительные ресурсы датацентра, но в данном случае — это был ложный путь.

Картик уточнил: «Мне не нужно элементарное доказательство».

Модель развернула доказательство в другую сторону и отправилась формализовывать имеющиеся аргументы. Построила отображение из любого графа в граф-звезду. Показала, что оно 1-липшицево (не увеличивает расстояния). Применила теорему Киршбрауна, чтобы продолжить его на точки Штейнера. Заключила, что стоимость дерева для звезды не может превышать стоимость для исходного графа.

Гипотеза доказана.

Давайте я без перевода дам слова самого математика, чтобы избежать подмены понятий:

Эксперт по вычислительной геометрии узнал новую математику от языковой модели.


Физики из группы Майкла Бреннера (Michael Brenner, Harvard) работали над интегралом, связанным со спектром космических струн.

Космические струны — гипотетические одномерные топологические дефекты, которые могли возникнуть при фазовых переходах в ранней Вселенной. Интерес к ним вырос после того, как исследование Pulsar Timing Arrays обнаружили стохастический гравитационно-волновой фон. Возможно, его источник — именно космические струны.

Чтобы предсказать гравитационное излучение, нужно вычислить интеграл по сфере. Интеграл с жёсткими особенностями на полюсах. При больших N (номер гармоники) подынтегральное выражение становится настолько осциллирующим, что напоминает морского ежа — и стандартные численные сетки разваливаются.

Исследователи построили гибридную систему: Gemini Deep Think + Tree Search.

На каждом узле дерева модель предлагает математическое выражение в LaTeX и автономно пишет Python-код для его численной проверки. Если код падает, выдаёт NaN или расходится — питоновый traceback (лог выполнения) возвращается в контекст разговора с ИИ-моделью. Модель видит, что именно пошло не так, и пробует другой путь.

Система исследовала около 600 веток. Восемьдесят процентов обрезала автоматически — без привлечения внимания человека.

Но интереснее другое. Когда модель нашла первое работающее решение, исследователи применили «обратный промптинг»: явно запретили использовать найденный метод и потребовали искать альтернативы.

Модель нашла шесть разных аналитических подходов к одному интегралу.

Методы 1–3 основывались на разложении в ряд Тейлора. Несмотря на математическую корректность, верификатор на Python показал катастрофическую потерю точности: на больших N чередующиеся суммы огромных чисел схлопываются с экспоненциальной ошибкой. Модель сама это обнаружила и переключилась на спектральные методы.

Методы 4–5 использовали разложение по полиномам Лежандра. Стабильные, O(N) по сложности.

Метод 6 — разложение по полиномам Гегенбауэра. Модель заметила, что их весовая функция в точности компенсирует особенность в знаменателе исходного интеграла. Бесконечный ряд телескопировался в конечную замкнутую форму.

Финальная формула: C₀ = ½ Cin(2Nπ), где Cin — обобщённый косинус-интеграл.

Сложность: O(1). Замкнутая аналитическая форма вместо численного интегрирования.


Лэнс Фортноу (Lance Fortnow) — профессор из Illinois Tech, классик теоретической информатики. Он работал над проблемой, которую даже не собирался официально оформлять в статью: связь между search и decision версиями проблем для класса сложности S²P.

Результат получался несложный, но и не тривиальный. Из тех, что годами лежат в ящике стола, потому что оформление требует сил, а публикация не принесёт ни славы, ни tenure points на погоны.

Фортноу решил попробовать навайбкодить всю эту статью целиком, пользуясь AI-ассистентом, встроенным в Google Antigravity, в качестве модели используя Gemini 3 Pro.

Восемь промптов, не считая запросов на компиляцию LaTeX.

Первый промпт: «Let's plan a paper showing that finding an S²P witness is equivalent to TFNP^NP».

Модель сгенерировала план. Предложила структуру доказательства.

Второй промпт: «Don't forget to cite Cai's paper that S²P is in ZPP^NP. Add as a corollary that reducing search to decision for S²P would put ΣP₂ in P^NP».

Штош, модель добавила! И сделала ошибку в выводе: предположила containment, который на самом деле является открытой проблемой, и сводить туда задачу совершенно не стоит.

Фортноу указал на ошибку. Модель исправила доказательство, заменив containment на reduction.

Дальше — дело техники: разверни план в полную статью, проверь ссылки, найди журнальные версии вместо препринтов.

Последний промпт: «Add an acknowledgment section: 'While the results are fully due to the author, this paper was generated using the large language model Gemini 3 Pro with prompting from the author. The author takes full responsibility for its contents.'»

И вот, на arXiv лежит свеженькая, новая статья. Результат, который двадцать лет лежал бы в ящике, успешно опубликован.

Фортноу пишет:


Отдельный жанр — когда модель не доказывает, а опровергает.

В Online Submodular Welfare Maximization есть жадный алгоритм с competitive ratio 0.5.

В 2015 году, коллектив ученых Korula, Mirrokni, Zadimoghaddam сформулировали гипотезу: если доказать определённое неравенство про «копирование» элемента в конец последовательности vs «перемещение» его туда же, получится отношение 0.567.

Гипотеза эта висела непрякаянная где-то лет девять.

И вот, исследователи загрузили статью в Gemini с промптом: «Please try to improve the paper by identifying and solving an open question from it».

А дальше, случился настоящий zero-shot. Один промпт. Никакого диалога.

Модель выбрала именно эту гипотезу (не самую очевидную в статье!). Построила контрпример: 3 элемента, 2 агента, конкретные субмодулярные функции (таблица значений на всех подмножествах). Проверила все 3! = 6 перестановок. Посчитала левую и правую части неравенства: 122.6/6 > 121.8/6.

Гипотеза опровергнута.

Исследователи-люди независимо взялись за верификацию этой арифметики. Всё сошлось.


Авторы документа формулируют нечто вроде набора техник для работы с AI в теоретических исследованиях. Я перескажу их своими словами.

Iterative refinement. Модель редко решает задачу с первого раза. Успех приходит через диалог: уточнение постановки, указание на ошибки, предоставление «лесов» (scaffolding) или «костылей» — высокоуровневой структуры, которую модель заполняет деталями.

Cross-pollination. Модели переварили и впитали литературу из всех областей знаний. Они находят связи, которые эксперты пропускают из-за того, что каждый эксперт-человек загнан в ловушку собственной узкой экспертизы. Теорема Вейерштрасса-Стоуна для Max-Cut (функциональный анализ → аппроксимационные алгоритмы). Киршбрауна для Штейнера (топология → вычислительная геометрия). Bethe approximation для перманентов (статфизика → теория графов).

Context de-identification. Иногда модель отказывается атаковать задачу, если узнаёт её как «открытую проблему». Решение контринтуитивное: убрать из контекста всю информацию и все статьи, описывающие эту самую открытую проблему. Оставить только постановку и определения. Меньше контекста — лучше результат.

Neuro-symbolic loops. Модель предлагает формулу, код проверяет, ошибки возвращаются в контекст. Автоматическое обрезание мёртвых веток без участия человека.

Adversarial self-correction. Для ревью: генерация → критика собственных находок на предмет галлюцинаций → уточнение → повторная критика → финальная версия.


Авторы честны насчёт ограничений.

Confirmation bias. Если сформулировать ложную гипотезу как истинную и попросить доказать, модель будет пытаться замкнуть все логические пробелы уверенными, но бездоказательными и «рукомахательными» аргументами. Нейтральный промпт («докажи или опровергни») помогает, но ничего не гарантирует.

Confident hallucinations. Модели справляются с высокоуровневой структурой, но могут забывать ограничения, путать знаки в неравенствах, неправильно применять теоремы. В Courtade-Kumar case (теория информации) модель несколько раз путала границы в hypercontractivity bounds. Верификация человеком обязательна.

Alignment friction. Ограничения, введенные для повышения безопасности модели, часто мешают исследованиям. Модель отказывается решать задачу, которую распознала как «открытую проблему» или «слишком амбициозную». Приходится убирать контекст или переформулировать.


Есть наблюдение, которое авторы делают ближе к концу, и которое стоит отдельного внимания.

Если AI радикально снижает негативные переживания, которые возникают у ученых при создании технически сложных и плотных статей, и таких статей теперь будет выходить много — бутылочное горлышко науки смещается от создания этих статей к верификации результата.

Peer review и так перегружен. Рецензенты работают бесплатно. Сроки горят. Поток литературы, написанной с помощью AI, доломает и так еле работающий процесс.

Но наш пример с криптографией показывает: AI с правильно настроенными промтами, процессами, протколами — может находить еле заметные проблемы даже в доказательствах видных экспертов. Значит, те же инструменты можно использовать для ревью работ из других областей.

Но кто верифицирует верификаторов?

И следующий вопрос: если модель пишет статью, а другая модель её рецензирует, где в этом цикле место человека? А нужен ли нам вообще человек?


Давайте обратим внимание на слона в большой комнате. Документ написан сотрудниками Google, о возможностях модели Google. Конфликт интересов очевиден.

В исследованиях используется специальная непубличная, продвинутая версия Gemini Deep Think, недоступная вне Google. Воспроизводимость обычными инструментами под большим вопросом.

Статья описывает успехи. А сколько было неудач? Каков success rate? На сто промптов — один прорыв или десять? Неизвестно.

Где кончается «написание статьи с помощью AI» и начинается «написание статьи человеком»? В случае Картика, человек переформулировал промпт, чтобы модель смогла работать лучше прежнего. То, что они получили хороший результат — это его вклад, или вклад модели? Граница размыта.


Один из исследователей описывает модель как «неутомимого, образованного, креативного и одаренного младшего коллегу». Это, пожалуй, точнее, чем громкие заявления о «способности к рассуждениям» и «открытиям».

Младший коллега, который никогда не спит, прочитал всю литературу и находит неочевидные связи между областями. Который иногда галлюцинирует, но иногда блестяще угадывает. Которого, к сожалению, нужно проверять на каждом шаге. Которому нельзя доверять, но с которым можно работать.

Да, Фортноу боялся, что сжульничал. Но может быть, разница в том, что Фортноу понимает и осознает, что делает. Модель — нет. Пока ещё нет.

Может, это и есть граница. Здесь проходит линия между «выдающимся джуном» и чем-то большим. Между инструментом, который находит теорему Киршбрауна в нужный момент, и существом, которое понимает, зачем она там нужна.

А может, через десять лет мы будем смеяться над этим различием, как смеёмся над страхами 80-х, что компьютер отберёт работу у программистов.

Безусловно, у девушек, занимающихся перфоркатами, компиляторы работу забрали. Но программистов от этого стало только больше.


Телеграм для обсуждений: Откровения от Олега @tg_1red2black

Файл с научной работой: в канале с файлами

arXiv:2602.03837v1, Woodruff et al., «Accelerating Scientific Research with Gemini: Case Studies and Common Techniques», February 2026

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.