ИИ начал работать в реальных интерфейсах: он научился видеть экраны, кликать кнопки, писать код и сразу же проверять, что получилось. И оказывается интерфейсы, да и весь интернет проектировали для людей, но не для агентов.
В ноябре вышли исследования, которые показывают этот разрыв. Мы видим попытки научить ИИ действовать в человеческом мире — со всеми его визуальным шумом, неудобными интерфейсами и неявными правилами.
Ниже — 10 самых запоминающихся статей. Поехали!
Сегодня ИИ пишет код, но не видит результата на экране. Он может сгенерировать график, который нечитаем, интерфейс — который сломан, или анимацию — которая визуально не соответствует задаче.
JanusCoder решает это так: модель работает сразу с текстом и изображением, запускает код и сравнивает ожидаемый и реальный визуальный результат.
Теперь разработка интерфейсов — это не только задача текстовой модальности, а мультимодальный пайплайн самопроверки итогового результата.
🔍 Обзор статьи | 📜 Полная статья | 💾 Код
Большинство моделей видят изображение как шум из пикселей. Это плохо масштабируется в понимании сцены. Исследователи предлагают иное решение: переводить картинки в SVG — код с явными объектами и их связями и порядком.
SVG можно исполнять, проверять, редактировать и использовать для рассуждений. Эксперименты показывают, что ИИ начинает лучше переносить смысл сцены между задачами.
Так ИИ научился не просто «распознавать» картинку, а структурно визуально «мыслить».
🔍 Обзор статьи | 📜 Полная статья | 💾 Код
Мы привыкли, что ИИ рассуждает с помощью слов или статичных картинок, но в реальном мире существует ещё одно измерение — время. Ученые научили ИИ-модель мыслит с помощью видео: строить гипотезы, проверять их действиями и сразу корректировать.
Такой подход резко улучшает решение пазлов, пространственных и геометрических задач.
Удивительно, как ИИ начинает «мыслить» не цепочкой токенов, а совершением во времени определенных действий.
🔍 Обзор статьи | 📜 Полная статья | 💾 Код
ИИ-агенты часто знают, что нужно сделать, но не понимают, куда нажать. В GroundCUA вместо синтетических данных использовали реальные рабочие интерфейсы и связали язык с конкретными UI-элементами.
Удивительно, что даже малые модели начинают точно попадать в кнопки и поля.
Вывод простой: прогресс компьютерных агентов определяется не размером модели, а качеством связи слов с элементами интерфейса.
🔍 Обзор статьи | 📜 Полная статья
Большинство универсальных агентов теряются в шумной, непредсказуемой среде. Агент Lumine идёт другим путём: он видит экран, действует мышью и клавиатурой, а размышляет только в нужные моменты.
Он может часами достигать сложных целей и переноситься в другие среды без дообучения.
Так ИИ научился не просто решать отдельные задачи, но и "выживать" в неопределенной среде.
🔍 Обзор статьи | 📜 Полная статья
Полностью автономный ИИ-учёный пока работает не очень хорошо. Вместо этого исследователи предлагают сделать ИИ-джуна. Он улучшает одну конкретную статью — дописывает код, проверяет эксперименты, собирает черновик.
Качество резко растёт, но человек всё равно остаётся необходим.
Так ИИ уже сегодня помогает учёным в науке, но только если они дают ему правильную роль.
🔍 Обзор статьи | 📜 Полная статья | 💾 Код
ИИ-агенты уже не просто пишут код, а сами наводят в нём порядок: переименовывают файлы, дробят длинные методы, выравнивают стиль и даже оформляют всё в аккуратные pull request’ы.
Такая «гигиена» реально улучшает читаемость и поддержку кода, но почти не затрагивает общую архитектуру.
Агентам можно смело отдавать рутину и технический долг, освобождая людей для дизайна системы. Это меняет саму модель работы с кодом — и тут стоит разобраться в деталях.
🔍 Обзор статьи | 📜 Полная статья | 💾 Код
До сегодняшнего дня ИИ для научных исследований работал по строгому конвейеру: сделали шаг → получили оценку → забыли контекст. Но проект "Станция" показывает, что для настоящих открытий решающим фактором становится сама среда.
Агенты живут в общей лаборатории: они помнят прошлые идеи, возвращаются к старым гипотезам, спорят между собой и сами выбирают, чем заниматься дальше. У них есть история, контекст и последствия действий. В результате они не просто улучшают метрики, а по ходу пути находят неожиданные методы и нетривиальные решения.
Главное открытие здесь не в бенчмарках. Оно в том, что наука для ИИ начинается с памяти, свободы и постоянной проверки реальностью. Без этого любая система — даже очень умная — легко скатывается в красивые, логичные, но ложные теории и обучаются неверные модели мира.
🔍 Обзор статьи | 📜 Полная статья | 💾 Код
Команды уже начали писать README не для людей, а для агентов: как запускать проект, что можно менять, а что нельзя. Исследование показало, что эти файлы быстро растут и становятся сложнее обычной документации.
Это новый слой управления мышлением ИИ. Если относиться к нему как к коду — контроль сохраняется. Если нет — автономность обгонит безопасность.
🔍 Обзор статьи | 📜 Полная статья | 💾 Код
Сегодня веб-агенты работают на ощупь: смотрят на пиксели, угадывают клики, но всё ломается при любом редизайне. Исследователи предлагают сайтам явно описывать допустимые действия и текущее состояние. Таким образом агент перестаёт гадать и начинает работать по правилам.
Это действительно один из первых серьёзных шагов к настоящему интернету для людей и ИИ.
🔍 Обзор статьи | 📜 Полная статья
ИИ научился достигать сложных целей в неопределенной среде, видеть интерфейсы и проверять себя. Современные исследования заставляют задуматься о появлении "живого цифрового существа", встроенного в наши привычные интерфейсы, код и любые цифровые процессы. Но именно здесь главная проблема — мир, который мы построили для людей, оказывается не очень удобной средой для агентов. Следующий скачок случится не в архитектурах и масштабах, а в переустройстве самой среды: когда интернет станет общей информационной средой для людей и ИИ.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Источник


