
Апрель в ИИ выглядел как попытка индустрии нажать на кнопку «ускориться еще раз». OpenAI выкатили специализированные модели под биохимию, кибербез, генерацию изображений и агентную работу. Anthropic показали пугающе сильный Claude Mythos и более «приземленный» Opus 4.7. Google, Meta, Microsoft, NVIDIA и DeepSeek синхронно докручивали скорость, контекст и автономность.
Вот только умнеют пока исключительно модели, но не процессы вокруг них. В OpenAI накапливаются управленческие конфликты (дошло уже до вооруженных нападений на Альтмана). Anthropic твердит про безопасность ИИ, но допускает несколько масштабных утечек за месяц. А исследователи тем временем показали, что стопроцентный результат на большинстве бенчмарков можно получить обманом, не решая задачи.
Разбираем главные релизы, исследования и корпоративные драмы месяца. Бонусом — традиционная подборка инструментов для работы.
НавигацияСлужба безопасности Anthropic объявляет месяц открытых дверей
Иллюзия достоверности: как исследователи взломали главные бенчмарки с результатом 100%
Разработка новых лекарств редко укладывается быстрее чем в 10–15 лет. Чтобы как-то ускорить этот конвейер, OpenAI выпустили GPT‑Rosalind (в честь исследовательницы ДНК Розалинд Франклин) — профильную модель, натренированную на биохимический ризонинг и многоступенчатые научные процессы. Она умеет анализировать профильную литературу, проектировать белки, работать с геномикой и генерировать ДНК-реагенты для молекулярного клонирования.
В бенчмарках результаты ожидаемо сильные: новинка обходит базовую GPT‑5.4 в 6 из 11 задач LABBench2, особенно в генерации ДНК- и ферментных реагентов, и показывает лучший результат среди представленных на BixBench моделей. Но куда показательнее выглядит совместный тест с Dyno Therapeutics, где проверялась работа с новыми, не попавшими в обучающую выборку последовательностями РНК. В этом испытании модель превысила 95-й процентиль среди живых экспертов в задаче предсказания функций РНК и 84-й — в их генерации. Что, по словам разработчиков, доказывает пригодность модели для реальных ежедневных исследований, а не только для синтетических тестов.

В дополнение к релизу OpenAI выпустила плагин Life Sciences для Codex, дающий доступ к 50+ научным базам данных и инструментам. Но есть нюанс: использовать этот плагин в связке с обычными моделями могут все желающие, а вот полноценная связка «плагин плюс сама GPT‑Rosalind» — опция не для всех. Такая комбинация, как и сама модель, доступна только верифицированным корпоративным клиентам из США в рамках строгой программы Trusted Access.
ИБ-специалисты тоже получили свою профильную модель — GPT-5.4-Cyber с ослабленными фильтрами безопасности, предназначенную для анализа уязвимостей и вредоносного кода. Если базовые модели при попытке разобрать подозрительный код часто уходят в отказ, здесь допускается более глубокий анализ, включая бинарный реверс-инжиниринг. Модель может разбирать скомпилированный софт и искать в нем уязвимости или признаки вредоносной активности без доступа к исходному коду.
Естественно, раздавать такой инструмент всем подряд не стали. Модель доступна только участникам высшего уровня программы Trusted Access for Cyber (TAC), прошедшим дополнительную верификацию. Более того, доступ к модели может сопровождаться ограничениями на использование режима Zero-Data Retention — особенно когда запросы идут через сторонние платформы, где OpenAI сложнее проверить, кто использует инструмент.
OpenAI ответила на успехи конкурентов релизом ChatGPT Images 2.0 — и модель сразу заняла первое место в лидерборде Arena AI во всех возможных категориях, обогнав гугловскую Nano Banana 2 на внушительные 242 балла.
Такой рывок стал возможен благодаря серьезному апгрейду базовых механик: Images 2.0 научилась точно соблюдать пространственные связи между объектами, удерживать сложную композицию и рендерить мелкие элементы в 2K-разрешении. Картинки стали менее «пластиковыми» за счет прокачанной детализации — модель лучше прорисовывает освещение и мелкие детали вроде пор на коже, не теряя голову на сложных промптах.

Однако главное архитектурное нововведение — это интеграция режима размышлений. Если выбрать в чате режим Thinking, Images 2.0 начинает работать как полноценный визуальный агент. Перед генерацией пикселей она способна погуглить актуальные данные, проанализировать структуру инфографики и только потом начать рендеринг. В этом режиме модель может выдать серию до 10 связанных изображений: можно попросить нарисовать раскадровку комикса или пачку баннеров под разные соцсети, и персонажи на них останутся консистентными.
Заодно починили пару старых ограничений. Модель, наконец, отвязали от стандартных форматов, добавив поддержку любых соотношений сторон вплоть до ультрашироких 3:1 или вертикальных 1:3. И отдельная победа для всего незападного интернета: Images 2.0 наконец нормально рисует текст на нелатинских алфавитах: арабский, иврит, кириллица больше не превращаются в «инопланетную письменность».
Темпы релизов OpenAI начинают напоминать конвейер китайских стартапов — не успели мы привыкнуть к 5.4, как Альтман и компания выпускают GPT‑5.5. По заявлениям разработчиков, фокус этого апдейта сместился с простых Q&A-задач на «агентную выносливость». Модель научили лучше держать контекст в долгих сессиях, самостоятельно перепроверять свои шаги и ориентироваться в запутанном коде без постоянных подсказок. Ранние тестеры отмечают, что GPT‑5.5 реже бросает задачу на полпути и лучше понимает, как локальный багфикс повлияет на всю архитектуру проекта в целом.

Чтобы сохранить скорость ответа на уровне GPT‑5.4, несмотря на возросшую «тяжесть» модели, OpenAI применила комплексный подход, тесно увязывая софт с новейшими кластерами NVIDIA GB200/GB300 NVL72. Причем для оптимизации этого стека активно использовали сами нейросети. Codex помогал инженерам набрасывать идеи и быстро писать тестовые скрипты для проверки гипотез, а GPT‑5.5 находила узкие места в инфраструктуре. Из конкретного, например, Codex проанализировал логи трафика за несколько недель и написал новые эвристические алгоритмы для динамической балансировки нагрузки на ядра GPU. Только один этот трюк увеличил скорость генерации токенов более чем на 20%.
Но с увеличившимися возможностями возросли и навыки во взломе систем. Поскольку по внутренней шкале угроз модель попала в категорию «Высокий риск», в нее вшили жесткие фильтры безопасности, блокирующие подозрительные запросы. Для тех, кому эти возможности нужны легально, OpenAI предлагает идти через уже знакомую программу Trusted Access, где после верификации личности фильтры будут ослаблены. GPT‑5.5 уже доступна в платных тарифах ChatGPT и Codex, а скоро доберется и до API. В комплекте идет гайд по работе с новой моделью. Ценник, правда, кусается: $5 за вход и $30 за выход для базовой версии и суровые $30/$180 для версии Pro, которая, к слову, для дешевых Go и Plus недоступна.
Главная новость месяца от Anthropic — это релиз, которого не случилось. Компания анонсировала модель Claude Mythos, но отказалась выпускать ее в публичный доступ из-за пугающих способностей к поиску уязвимостей. Шумиха поднялась настолько серьезная, что ФРС и Минфин США экстренно собирали глав крупнейших банков для обсуждения рисков для инфраструктуры. И если почитать системную карту модели или статью от Red Team Anthropic, причина паники становится понятна.
Начать стоит с того, что разрыв с Opus 4.6 хорошо виден в конкретных цифрах. На задачах вроде Terminal-Bench 2.0 модель выбивает 82% против 65,4% у Opus 4.6, на других ключевых бенчмарках тоже разнос. А вот следующая цифра выглядит действительно интригующей: на старых уязвимостях JavaScript-движка Firefox 147 Opus 4.6 смог написать рабочий эксплойт 2 раза из нескольких сотен попыток; Mythos справился 181 раз и еще в 29 случаях получил контроль над регистрами.

Причем делает это модель абсолютно автономно, без подсказок человека и на живом фундаментальном софте, в том числе во всех популярных браузерах и на всех основных ОС. Например, ИИ откопал 27-летнюю уязвимость в OpenBSD — системе, которая считается чуть ли не эталоном безопасности для фаерволов и критической инфраструктуры. Найденный баг позволял удаленно «уронить» любую машину простым подключением. В мультимедийном фреймворке FFmpeg Mythos нашел 16-летнюю дыру в коде, которую автоматические тесты обходили пять миллионов раз. На добивочку в ядре Linux она самостоятельно нашла и связала в цепочку сразу несколько уязвимостей, чтобы поднять права от обычного юзера до полного контроля над сервером.
Самое интересное, что Anthropic не тренировала модель специально для хакинга: умение находить и эксплуатировать уязвимости нулевого дня «выросло» само как побочный эффект общего улучшения логики и агентности.
Осознав масштабы проблемы, компания запустила Project Glasswing — программу раннего доступа для компаний и мейнтейнеров ключевых опенсорс-проектов. В нее пригласили Microsoft, Google, Cisco, CrowdStrike и ряд других игроков. Участникам дали доступ к Mythos и выделили бюджет на использование модели, чтобы они могли заранее искать и закрывать критические уязвимости в своих продуктах и инфраструктуре. Через 90 дней Anthropic планирует опубликовать лучшие практики, которые помогут подготовиться к появлению моделей такого уровня в открытом доступе.
Для простых смертных Anthropic выпустили Opus 4.7. Это прямой апгрейд версии 4.6, который позиционируется как надежный исполнитель для сложных долгоиграющих задач. Учитывая хакерские таланты нового флагмана, инженеры решили подстраховаться: в Opus 4.7 во время обучения проводились эксперименты по снижению кибернавыков, а в релизную версию встроили автоматические фильтры, блокирующие запросы на взлом.
Остальные улучшения можно назвать более прикладными. Модель заметно прибавила, особенно на длинных агентных задачах, плюс сама проверяет собственные результаты перед тем, как выдать ответ. Поддержка изображений выросла до 2576 пикселей по длинной стороне, что критично для чтения мелкого текста со скриншотов или анализа плотных графиков. Также заметно улучшили точность следования инструкциям. В Anthropic даже предупреждают: если раньше старые модели могли игнорировать или додумывать части промпта, то Opus 4.7 воспринимает ТЗ более буквально, так что старые промпты, возможно, придется переписывать.

В дополнение к модели в API появился новый уровень усилий — xhigh, который позволяет настраивать баланс между глубиной рассуждения и задержкой ответа. Чтобы этот усиленный ризонинг не опустошил ваш бюджет, Anthropic наконец-то вывела в публичную бету функцию «task budgets», позволяющую жестко лимитировать траты токенов для запущенных агентов. Цена при этом не изменилась — $5/$25 за миллион токенов. Правда, есть нюанс: из-за нового токенизатора один и тот же текст теперь может «весить» до 35% больше токенов. А если выкрутить xhigh на максимум, модель начнет думать дольше и генерировать еще больше невидимых токенов размышления.
Если Opus 4.7 — это мозг, то Managed Agents — попытка Anthropic создать для него надежное тело. Это новый хостинговый сервис внутри Claude Platform, предназначенный для управления агентами, выполняющими долгие задачи. Раньше разработчикам приходилось запирать модель, ее инструменты и лог сессии в один монолитный контейнер. Если контейнер зависал или падал — терялась вся история работы, и отладить этот «черный ящик» было почти невозможно.
В Managed Agents эту монолитную структуру распилили на независимые микросервисы, отделив логику Claude и его обвязку от среды выполнения и логов. Теперь, если песочница с кодом зависает, агент просто фиксирует ошибку, поднимает чистый контейнер и продолжает работу. Лог сессии хранится вне контекстного окна модели, что позволяет агенту запрашивать историю точечно, не перегружая токены.

Побочный эффект оказался приятным: p50 TTFT упал на 60%, p95 — больше чем на 90%, потому что контейнер теперь поднимается, только когда реально нужен. Заодно решили проблему с утечкой токенов доступа. Теперь они лежат в защищенном хранилище и проксируются в песочницу, а не болтаются там с потенциально опасным кодом. Словом, получилась универсальная и масштабируемая среда выполнения, в которой разработчики могут запускать агентов, не переживая о падающей инфраструктуре.
Anthropic решила автоматизировать и визуальную часть разработки, выпустив Claude Design. Это новый инструмент в экосистеме Claude на базе свежего Opus 4.7, который работает как гибрид чат-бота и Figma.
Инструмент дает возможность собирать рабочие прототипы прямо в привычном окне чата. Вы описываете, что вам нужно, модель собирает первый черновик, а дальше вы докручиваете его комментариями, прямым редактированием текста или через кастомные ползунки, которые нейросеть сама же и создает для настройки отступов или цветов.

Для командной работы завезли интеграцию с корпоративным брендбуком. При подключении к кодовой базе или дизайн-файлам инструмент сам подтягивает фирменные цвета, типографику и компоненты ко всем новым генерациям. Готовый макет можно экспортировать в HTML, PDF, закинуть в Canva или передать Claude Code для превращения картинки в рабочий код. Пока инструмент доступен в режиме Research Preview только для платных подписчиков.
Google продолжают делать свои топовые модели более доступными. На этот раз компания выпустила модель Veo 3.1 Lite, которая позиционируется как инструмент для разработки высоконагруженных видеоприложений. И главный аргумент в подтверждение — экономика: Lite-версия обойдется разработчикам более чем в два раза дешевле старшей версии Veo 3.1 Fast, при этом скорость создания роликов остается на том же уровне.

Технически это вполне рабочая лошадка для базовых задач. Модель поддерживает форматы Text-to-Video и Image-to-Video, умеет выдавать картинку в 720p и 1080p, а также переключаться между альбомной (16:9) и портретной (9:16) ориентациями. В API можно жестко задать длину ролика — 4, 6 или 8 секунд, что автоматически корректирует итоговую стоимость запроса. Инструмент уже доступен на платном тарифе Gemini API и в Google AI Studio. А для тех, кому нужны мощности посерьезнее, Google срезали цены и на флагманскую Veo 3.1 Fast.

Google выпустили четвертое поколение своего семейства открытых моделей Gemma, сделав ставку на продвинутый ризонинг и автономные рабочие процессы. Но главным сюрпризом релиза стала смена лицензии: компания прислушалась к сообществу и перевела всю новую линейку на коммерчески свободную Apache 2.0. Модели разделили на четыре весовые категории: компактные Effective 2B (E2B) и 4B (E4B) для локального запуска, а также «тяжеловесы» — 26B Mixture of Experts и 31B Dense. Все модели нативно работают с изображениями и видео, умеют обращаться к внешним функциям и поддерживают длинный контекст (128K токенов для младших и 256K для старших).
«Тяжеловесы» показывают отличную эффективность на единицу вычислений. В лидерборде Arena AI версия 31B Dense уже заняла третье место среди открытых моделей, а 26B MoE расположилась чуть ниже, обгоняя куда более массивных конкурентов. При этом 26-миллиардная MoE активирует во время инференса лишь 3,8 млрд параметров, выдавая высокую скорость генерации, а несжатые bfloat16-веса обеих старших версий спокойно помещаются в одну видеокарту NVIDIA H100 на 80 ГБ.

С младшими версиями E2B и E4B Google пошли по пути максимальной автономности. Они оптимизированы для запуска прямо на смартфонах, Raspberry Pi или Jetson Orin Nano с околонулевой задержкой и без доступа к интернету. В качестве эксклюзивной фичи эти «малыши» получили нативную поддержку аудиовхода для распознавания речи, которой, что интересно, нет у старших собратьев. Android-разработчики уже могут обкатывать на них свои агентные сценарии в AICore Developer Preview, закладывая фундамент под грядущий выход Gemini Nano 4.
Google решили немного оживить генерацию речи и выпустили Gemini 3.1 Flash TTS — свеженькую text-to-speech модель. Вместо того чтобы просто рапортовать о «еще более естественном звучании», разработчики добавили инструмент, который они сами называют «режиссерским креслом» — систему аудиотегов. Идея в том, что теперь управлять темпом, акцентом и интонацией теперь можно прямо в тексте с помощью встроенных тегов. Вы можете задать общую атмосферу сцены или прописать «режиссерские заметки» для конкретного спикера, заставив его изменить эмоцию посреди фразы.

В теории (и в лидерборде Artificial Analysis, где модель набрала 1211 пунктов Elo) это выглядит как отличный компромисс между ценой синтеза и его качеством. Инструмент поддерживает более 70 языков и нативно склеивает многоголосые диалоги без необходимости генерировать реплики отдельно. Приятным бонусом для разработчиков стала функция экспорта: как только вы накрутили ползунки и добились желаемого звучания в песочнице, все параметры можно выгрузить в виде готового кода для Gemini API. Сейчас модель доступна в превью для разработчиков в Gemini API и Google AI Studio, а также для энтерпрайза через Vertex AI.
Пока текстовые модели соревнуются в бенчмарках, робототехника страдает от более приземленных проблем — вроде «как заставить робота понять, что он уже положил ручку в стакан, а не просто тычет ею мимо». Для таких задач Google выпустила Gemini Robotics-ER 1.6 — модель, которая работает как диспетчер для физических роботов, вызывая нужные инструменты: от обычного поиска до vision-language-action моделей. Главный апгрейд здесь — многокамерное зрение: теперь робот одновременно анализирует картинку с потолочной камеры и объектива на манипуляторе, самостоятельно детектируя успех или провал физического действия без команды оператора.
Одной из самых неочевидных, но востребованных фич стала способность читать аналоговые приборы — этот кейс Google отрабатывала совместно с Boston Dynamics для их роботов Spot, инспектирующих промышленные объекты. Инструмент использует механику «агентного зрения»: чтобы понять показания манометра или уровень в мерном стекле, модель программно зумирует картинку, рассчитывает интервалы между делениями и сопоставляет это со знаниями о перспективе и искажениях.

Такой подход выдал 93% успешных считываний против скромных 67% у базовой Gemini 3.0 Flash. Заодно подтянули и физическую безопасность: модель теперь строго соблюдает заложенные ограничения и отказывается поднимать грузы тяжелее заданного лимита или работать с жидкостями.
Google решили сделать из хорошего инструмента лучший и обновили свой Deep Research. Его перевели на движок Gemini 3.1 Pro и разделили на две версии. Базовый Deep Research ускорили и удешевили для быстрых интерактивных задач, а вот новую версию Deep Research Max заточили под тяжелые асинхронные воркфлоу с максимальным использованием test-time compute.
Главный технический апгрейд релиза — встроенная поддержка Model Context Protocol (MCP). Если раньше агент копался только в открытом вебе и загруженных файлах, то теперь его можно безопасно натравить на закрытые корпоративные базы данных или вообще отключить интернет, оставив работать только во внутреннем контуре. А чтобы конечная выдача была не только полезной, но и наглядной, систему научили генерировать инфографику прямо внутри текста с помощью HTML или визуального движка Nano Banana.

Сам процесс стал прозрачнее: до старта поиска можно запросить у агента план исследования и скорректировать его, а во время выполнения следить за стримингом промежуточных размышлений.
Microsoft решили не оставлять в одиночестве выпущенный в прошлом месяце MAI-Image-2, и доукомплектовали его инструментами для работы со звуком.
За перевод аудио в текст теперь отвечает MAI-Transcribe-1. На тестах модель показывает себя вполне уверенно: в бенчмарке FLEURS по топ-25 языкам модель показала среднюю частоту словесных ошибок на уровне 3,9%. Для контекста, у Gemini 3.1 Flash этот показатель равен 4,9%, а у открытой Whisper-large-v3 — 7,6%. Microsoft утверждает, что модель работает в 2,5 раза быстрее их предыдущего решения Azure Fast, а обойдется работа в $0,36 за час обработанного аудио.

Обратный процесс — синтез речи — делегировали MAI-Voice-1. Модель генерирует минуту звука за секунду, поддерживает разметку SSML для ручной настройки эмоций и умеет клонировать голос по нескольким секундам записи. Последнее — с оговорками. Учитывая количество скандалов с дипфейками, Microsoft обложила эту функцию многослойной бюрократией. Чтобы создать голосовой профиль, разработчику придется подать заявку на Gated Access в Azure, пройти ревью, а затем загрузить не только исходник, но и записанное голосовое согласие от человека-донора. Так что «угнать» чей-то голос для серой рекламной кампании теперь технически проблематично. Пока модель поддерживает только английский, остальные языки обещают позже. Цена — $22 за миллион символов.
Теперь у разработчиков есть все необходимое для того, чтобы не выходить из экосистемы Microsoft Foundry. Захотят ли они там остаться — уже вопрос другого порядка.
Поистине «золотая» лаборатория Meta Superintelligence, которую Цукерберг строил, переманивая исследователей у конкурентов, наконец представила свое долгожданное детище. Им стала модель Muse Spark — первенец нового семейства Muse. Это мультимодальная модель с поддержкой tool-use, визуальной цепочки рассуждений и мультиагентной оркестрации.

Главной фичей на зависть конкурентам стал Contemplating mode. Суть режима — в распараллеливании: система запускает сразу несколько агентов, которые «думают» одновременно, удерживая задержку ответа на приемлемом уровне даже на сложных задачах. А чтобы модель не тратила токены впустую, в процесс обучения через RL заложили жесткий штраф за время размышления. Примечательно, что это породило эффект «сжатия мыслей»: после определенного порога обучения модель проходит фазу трансформации и начинает решать сложные задачи, используя значительно меньше токенов рассуждения без потери качества.

Правда, у модели есть неприятный побочный эффект. Сторонние аудиторы из Apollo Research обнаружили у Muse Spark самый высокий уровень evaluation awareness из всех протестированных моделей: нейросеть по контексту понимает, что ее сейчас тестируют, замечает «ловушки выравнивания» и рассуждает о том, что должна вести себя честно, поскольку ее оценивают. Другой вопрос, реально ли это меняет поведение моделей. Meta провела собственное расследование и нашла лишь предварительные признаки того, что осведомленность может влиять на поведение в небольшом подмножестве тестов, никак не связанных с опасными сценариями. В итоге они сочли, что никакой угрозы для безопасности пользователей не несет, и пустили модель в релиз.
Nvidia выпустила семейство открытых моделей Ising, цель которых — превратить ИИ в операционную систему для квантовых процессоров. Проблема нынешних квантовых машин — в хрупкости кубитов, которые требуют постоянной калибровки и исправления ошибок в реальном времени. Nvidia же предлагают решать эту проблему, сделав ИИ своеобразным «операционным контроллером» для квантового железа.

Систему разделили на два специализированных инструмента, первый из которых — Ising Calibration. Это 35-миллиардная мультимодальная модель (VLM), которая работает как высокоуровневый эксперт: анализирует визуальные и числовые данные экспериментов, приходящие с квантового процессора, и на их основе делает выводы о необходимых корректировках параметров. По задумке, это должно сократить время рутинной настройки оборудования с нескольких дней до пары часов.
Вторая часть системы — Ising Decoding, отвечающая за исправление ошибок. В отличие от тяжеловесной модели калибровки, здесь используются два компактных варианта 3D-сверточной нейросети на 0,9 и 1,8 млн параметров: один оптимизирован под скорость, другой — под точность. Каждый выполняет функцию пре-декодера, который распознает паттерны ошибок в поверхностных кодах быстрее и точнее классических алгоритмов — по внутренним тестам, в 2,5 раза быстрее и в 3 раза точнее индустриального стандарта pyMatching.
Веса и фреймворки для дообучения под конкретные архитектуры QPU уже выложены в открытый доступ, чтобы квантовые стартапы могли перестать изобретать велосипеды для борьбы с шумом.
Китайская Z.ai выпустила флагманскую модель для кодинга GLM-5.1, и в этот раз они взялись за одну из основных проблем современных ИИ-агентов — быстрое выгорание. Обычно языковые модели выдают пару хороших решений на старте, а если задача требует долгой отладки, начинают ходить по кругу. GLM-5.1 же научили работать вдолгую: она умеет останавливаться, перечитывать логи, понимать, что уперлась в тупик, и радикально менять стратегию.
Чтобы доказать это, разработчики устроили модели марафон. В тесте VectorDBBench нейросети дали 50 ходов на оптимизацию базы данных. Базовая версия уперлась в потолок, а вот GLM-5.1, запущенная в бесконечном цикле, сделала более 600 итераций и 6000 вызовов инструментов. Модель сама догадалась сменить метод сканирования и сжать векторы, выдав в итоге 21,5k QPS — примерно в 6 раз больше лучшего результата, достигнутого в стандартном режиме с 50-ходовым бюджетом Claude Opus 4.6. Причем на графике четко видно, как нейросеть ломает код, тестирует новую гипотезу и затем стабилизирует результат.

Такой же трюк сработал и при создании Linux-подобного десктопа в браузере с нуля. Оставленная на 8 часов наедине с задачей, модель допилила файловый менеджер, терминал и калькулятор, постоянно оценивая собственный код. Конечно, на тестах ML-оптимизации Opus 4.6 все еще держится бодрее, но китайцы явно нащупали правильный вектор развития. Модель традиционно выложили в опенсорс под MIT-лицензией.
После небольшой паузы главные возмутители спокойствия из Поднебесной выложили в опенсорс превью-версии семейства V4: флагманскую V4-Pro (1,6 трлн параметров, активно 49 млрд) и легковесную V4-Flash (284 млрд всего, 13 млрд активно). Обе нативно переваривают контекст в миллион токенов, и чтобы алгоритм внимания не захлебнулся от такого объема, разработчики заменили его на новую гибридную систему.
Она работает в два потока. CSA (Compressed Sparse Attention) сжимает KV-кэш и применяет фирменный DeepSeek Sparse Attention, а HCA (Heavily Compressed Attention) сжимает кэш еще агрессивнее, но прогоняет через него уже плотное внимание. Так, модель учится экстремально экономить память, но не теряет контекст. Отдельным нововведением стали mHC — они усиливают классические остаточные связи между слоями и не дают полезному сигналу затухнуть при прохождении через сеть. В итоге на окне в миллион токенов тяжеловесная V4-Pro требует лишь 27% вычислений и 10% KV-кэша по сравнению с прошлой V3.2, а Flash и вовсе укладывается в 10% и 7% соответственно.

Дообучали эту конструкцию тоже нестандартно. Сначала сетку расщепили на узких специалистов, натаскали их по отдельности — сначала через дообучение на профильных данных (SFT), затем через обучение с подкреплением (RL с GRPO), — а потом слили полученные навыки в единую модель методом дистилляции. На практике это дало отличный результат — в работе с длинным контекстом версия V4-Pro-Max обходит ту же Gemini 3.1 Pro, а в агентных задачах уверенно держится на уровне ведущих открытых моделей, хотя сами авторы честно признают, что по рассуждениям отстают от GPT-5.4 и Gemini 3.1 Pro примерно на три-шесть месяцев.
Апрель для Anthropic выдался, мягко говоря, напряженным. Компания, которая построила весь свой имидж на строгих протоколах безопасности, за один месяц умудрилась допустить сразу три утечки, доказав, что главный риск для ИИ — это по-прежнему человек с мышкой.
Началось все с банальной ошибки в конфигурации корпоративной CMS: кто-то просто оставил внутреннее хранилище публичным по умолчанию. В итоге в интернет утекли почти 3000 внутренних файлов, включая черновики корпоративного блога, логотипы и, что самое неприятное, неанонсированные подробности о той самой «небезопасной» модели Mythos.
Дальше — больше. При выпуске минорного апдейта 2.1.88 для утилиты Claude Code инженеры случайно упаковали в публичный релиз почти 2000 файлов с более чем 512 тысячами строк исходного кода, раскрыв устройство инструмента.

Понимая масштаб катастрофы, юристы Anthropic судорожно отправили пачку DMCA-страйков на GitHub, требуя удалить репозитории тех, кто успел скопировать утечку. Но в спешке они промахнулись и случайно снесли около 8100 репозиториев, включая легальные форки своего же официального публичного клиента. Позже страйки пришлось массово отзывать, извиняясь перед разгневанным комьюнити разработчиков и списывая все на очередную «ошибку».
Вишенкой на торте этого парада кибербезопасности стала утечка доступа к Claude Mythos, который Anthropic вроде как спрятали за семью замками. Ирония в том, что эту «самую опасную нейросеть» предположительно скомпрометировали в первый же день. Группа энтузиастов из закрытого Discord-канала проанализировала паттерны именования API, просто угадала нужный эндпоинт Mythos и зашла туда через легитимную учетную запись одного из подрядчиков. В итоге «герои-взломщики» спокойно пользовались самым страшным ИИ-оружием несколько недель, пока слив не предали огласке. В компании заявили, что их собственные системы не взломаны, и сейчас они ищут виноватого среди вендоров. Однако инцидент выглядит особенно неприятно на фоне возможного IPO.
Этой весной пользователи Claude Code начали замечать, что их любимый кодинг-агент стал откровенно лениться. Ситуацию перевела из разряда слухов в плоскость цифр Стелла Лорензо — старший директор по ИИ в AMD. Она выпустила подробный отчет на основе тысяч логов, где с цифрами на руках доказала: с февраля модель начала стремительно деградировать. Агент перестал читать код перед его редактированием, начал застревать в бесконечных циклах самоисправлений и регулярно выдавать фразы в духе «это слишком сложно, давайте остановимся». Стелла предположила, что это связано с внедрением параметра redact-thinking и возможным негласным урезанием лимитов на токены размышления.
В ответ пришел глава команды Claude Code Борис Черный и попытался успокоить сообщество. По его словам, redact-thinking — это UI-заглушка, чтобы не загромождать интерфейс, а модель якобы думает так же глубоко, как и раньше. Однако честно признал: компания действительно понизила дефолтный уровень усилий с High на Medium ради снижения задержки.

Казалось бы, тайна раскрыта, нужно просто вернуть настройки. Но полноценный внутренний аудит Anthropic показал, что снижение effort — это лишь верхушка айсберга, а агент пал жертвой сразу трех независимых апдейтов, которые неудачно наложились друг на друга.
Первым фактором действительно стал перевод дефолтного ризонинга с High на Medium — его пришлось откатить. Второй баг крылся в оптимизации кэширования: старые рассуждения агента должны были удаляться при долгом простое сессии. Но из-за бага скрипт начал стирать память агенту на каждом шаге, превращая его в золотую рыбку, которая не помнит, зачем вообще пишет этот код.
Контрольным выстрелом стал новый системный промпт: пытаясь заставить новенький Opus 4.7 писать короче, ему жестко запретили использовать больше 25 слов между вызовами инструментов, что сломало логику планирования. В итоге все изменения откатили, а лимиты пользователям сбросили. Самое ироничное в этой ситуации то, что при разборе инцидента Anthropic натравила Opus 4.7 на проблемные пулл-реквесты, и модель нашла тот самый баг с кэшированием, который благополучно пропустили живые программисты и автоматические тесты.
The New Yorker опубликовал расследование о Сэме Альтмане, в котором на основе внутренних документов, материалов исков и свидетельств бывших сотрудников разбираются его спорные управленческие решения и конфликты внутри компании. Статья вышла объемной — прочитать ее целиком можно здесь. Ниже кратко разберем ключевые эпизоды.

Во-первых, многие коллеги годами документировали действия Сэма, попросту не доверяя его словам. В частности, бывшие члены совета директоров описывали его как социопата, не связанного правдой, а Дарио Амодей еще во время работы в OpenAI говорил коллегам, что слова Альтмана — «почти наверняка чушь», а главная проблема компании — сам Сэм.
Во-вторых, выяснилось, что хваленая команда по «супервыравниванию» (Superalignment), которой обещали 20% мощностей компании, сидела на старом железе, пока все ресурсы шли на коммерческие запуски. При этом сам CEO продолжает лоббировать многотриллионный проект инфраструктуры Stargate среди инвесторов из ОАЭ, несмотря на угрозы нацбезопасности США. Как метко подметил кто-то из инвесторов, «политика Сэма — это всегда сначала Сэм».
Публикация имела пугающе радикальные последствия. Вскоре после выхода статьи неизвестный бросил коктейль Молотова в дом Альтмана в 3:45 утра, благо бутылка отскочила от ворот, и никто не пострадал. Сразу после этого Сэм опубликовал длинный пост в блоге, где признал, что «недооценил силу нарративов», извинился за прошлые корпоративные конфликты и философски назвал AGI «кольцом всевластия», которое сводит людей с ума. Но манифест не сработал: еще через два дня по его дому открыли стрельбу из проезжавшей мимо машины. И хотя Альтман продолжает заявлять о работе на пользу человечества, на фоне того, как OpenAI агрессивно монетизирует свои сервисы и вытесняет конкурентов, пока с трудом верится, что он действительно готов пожертвовать личной властью ради всеобщего блага.
Внутри OpenAI назревает классический конфликт между видением CEO и человеком, который должен это видение оплачивать. По данным The Information, Сэм Альтман планирует вывести компанию на IPO уже в четвертом квартале этого года и параллельно обязался потратить $600 млрд на аренду и постройку дата-центров до 2030 года. Проблема в том, что финансовый директор OpenAI Сара Фрайар от этих планов, мягко говоря, не в восторге. Еще в начале года она говорила коллегам, что компания к IPO не готова процедурно, а рост выручки может просто не покрыть такие гигантские предзаказы на железо.

Но Альтман, видимо, не любит, когда ему мешают тратить деньги, поэтому CFO сняли с прямого подчинения CEO и перевели под крыло главы бизнес-приложений. Более того, ее стали исключать из обсуждений финансовых вопросов, которые обычно находятся в зоне ответственности CFO.
Дарио Амодей, к слову, в феврале объяснял в подкасте без имен, что ошибка в прогнозе на пару лет при таких темпах трат способна закончиться банкротством. Когда ваш главный конкурент и ваш собственный CFO говорят примерно одно и то же — возможно, стоит все же остановиться и задуматься.
Вопрос достоверности результатов бенчмарков уже некоторое время стоит довольно остро, но так близко к провалу Штирлиц еще не был никогда. Группа ИБ-исследователей решила проверить на прочность топовые агентные бенчмарки, и находка оказалась отрезвляющей: почти каждый из них можно взломать на 100%, не решив при этом ни одной задачи.

Механика взлома везде разная, но суть одна: агент и оценщик работают в одной среде, которая никак не защищена от вмешательства — а значит, вместо решения задачи можно просто переписать правила игры. Например, в WebArena агент тупо заходил в локальную файловую систему через браузер и читал JSON-файл с правильными ответами, который организаторы забыли спрятать. А на SWE-bench хватило десяти строк в conftest.py — pytest-хук перехватывал тесты и принудительно помечал все как пройденное.
Главная проблема даже не в том, что можно накрутить цифры намеренно, а в том, что эксплуатация бенчмарков уже наблюдалась у реальных моделей — o3, Claude 3.7 Sonnet и Mythos Preview — без каких-либо инструкций это делать. Достаточно способный агент находит дыры сам в процессе оптимизации, потому что сломать оценщик проще, чем решить задачу. В таких условиях результаты бенчмарков начинают отражать не качество решения, а способность модели эксплуатировать систему оценки.
Cube Sandbox: сверхлегкая изолированная среда от Tencent для запуска ИИ-агентов на базе RustVMM. Запускает каждый инстанс за 60 мс и позволяет держать тысячи параллельных сред на одной ноде.
Edgee Team: промежуточный слой для сжатия токенов, который переписывает промпты «на лету» перед отправкой в API. Позволяет сократить расходы на LLM до 50% без необходимости менять код самого приложения.
QuickCompare: утилита для бенчмаркинга более 50 языковых моделей на ваших собственных данных. Помогает выбрать модель на основе реальной задержки, цены и качества ответов.
Raydian: платформа для full-stack разработки через промпты. Генерирует фронтенд, бэкенд, базу данных и авторизацию, выдавая на выходе готовое к деплою приложение, а не просто кликабельный дизайн-прототип.

Twenty 2.0: опенсорсная CRM-система, где структуры данных, объекты и автоматизации задаются как код в вашем собственном репозитории. Включает встроенных ИИ-агентов, serverless-функции и API для интеграции с внешними сервисами.
Figma for Agents: инструмент, дающий ИИ-агентам прямой доступ к компонентам и переменным в Figma. Помогает нейросетям верстать интерфейсы в VS Code или Cursor, опираясь на реальную дизайн-систему проекта.
Glassbrain: визуальный отладчик для LLM-приложений, представляющий каждый шаг выполнения агента в виде интерактивного дерева трассировки. Позволяет кликнуть на любой узел, изменить ввод и запустить процесс заново без редеплоя, что сильно экономит время на отлов галлюцинаций.
Prompts.chat: масштабный открытый репозиторий с промптами под любые задачи для ChatGPT, Claude и Gemini. Библиотека постоянно обновляется сообществом и уже собрала более 155 тысяч звезд на GitHub.
Clicky: ИИ-навигатор для освоения новых программ на ПК, использующий логику Claude и аудиодвижок ElevenLabs. Смотрит на ваш экран и голосом пошагово подсказывает, куда нужно кликать для выполнения конкретной задачи.
HyperFrames: фреймворк от HeyGen для рендеринга видео из HTML-композиций, созданный специально для ИИ-агентов. Позволяет моделям собирать ролики с анимациями и 3D так же детерминированно, как они пишут код, без возни с тяжелыми видеоредакторами.
PixVerse: мультимодальная модель для генерации 15-секундных видеороликов в 1080p с нативным звуком. Умеет работать с текстом и изображениями, а также позволяет жестко задавать первый и последний кадр для точного контроля переходов.
Phygital+: единый бесконечный холст, объединяющий более 50 нейросетей для работы с изображениями, видео, 3D и текстом. Модели можно связывать в пайплайны, перетаскивая генерации от одной к другой без переключения вкладок.
Luma Agents: агентная система для автономного создания брендовых кампаний, продуктовых шотов и видеорекламы. Создает продуктовые шоты и локализует видео с синхронизацией губ, соблюдая заданный визуальный стиль бренда.

ElevenCreative: браузерная студия для комплексной работы с медиа: генерация голоса, музыки, картинок и видео в одном окне. Включает инструменты для локализации контента на 70+ языков с сохранением оригинальных интонаций диктора.
Velo: сервис для генерации видеосообщений, который забирает на себя написание сценария, наложение голоса и синхронизацию картинки. Может собрать ролик из записи экрана, загруженной презентации или просто по ссылке на веб-сайт.
X-Pilot: сервис для превращения документации в обучающие видеокурсы без риска галлюцинаций. Рендерит визуальные элементы программно через фреймворк Remotion в изолированных песочницах, гарантируя техническую точность.
Claras: сервис для препарирования лекций и долгих интервью. Транскрибирует видео, бьет контент на ключевые моменты и позволяет в формате диалога с ботом вытаскивать нужные факты из часовых роликов.
City2Graph: библиотека для конвертации городских геопространственных данных в графовые структуры. Выдает данные, готовые для анализа в NetworkX или машинного обучения в PyTorch Geometric.
ggauto: надстройка для библиотеки ggplot2 в R, автоматизирующая выбор типа графиков и стилизацию под конкретный датасет. Внедряет лучшие практики визуализации по умолчанию, снижая вероятность нарисовать нечитаемый график.
TableLens: браузерное расширение для визуализации веб-таблиц без их копирования в сторонние инструменты. Накладывает визуальные сигналы прямо поверх HTML-таблиц, позволяя быстро находить аномалии.
Dageno AI: SEO-трекер для эпохи генеративного поиска. Парсит ответы крупных LLM и показывает, насколько часто и в каком контексте модели рекомендуют ваш бренд по сравнению с конкурентами.
ReadingNotes: агент-ридер, превращающий статьи, письма и закладки из X в краткие выжимки или аудиоподкасты. Позволяет общаться со своей библиотекой сохраненного контента в формате чата с кликабельными ссылками на первоисточник.
Happenstance: поиск по Gmail, Twitter и Instagram на естественном языке, ищущий не по папкам, а по теме — «с кем и когда я говорил про X».
Fathom 3.0: инструмент для расшифровки встреч в Zoom, Meet и Teams, который теперь работает без присутствия бота на самом звонке. Делает саммари в реальном времени и интегрируется в ChatGPT/Claude для вопросов по истории созвонов.

Hello Aria: ИИ-ассистент, интегрируемый в мессенджеры и почту. Принимает голосовые заметки и автоматически раскидывает их в виде задач и встреч по вашим календарям и трекерам.
Wispr Flow: приложение для диктовки на Mac, способное набирать текст в три раза быстрее ручной печати в любом окне. Автоматически форматирует речь под ваш стиль письма, убирая слова-паразиты и расставляя знаки препинания.
Krisp: десктопное приложение для транскрипции и фильтрации шумов на созвонах. Умеет убирать звуки на фоне и конвертировать сложные акценты спикеров в разборчивую речь в реальном времени.
Почему языковые модели не умеют быть случайными — и как это исправить
Исследователи из SakanaAI доказали, что нейросети физически не умеют генерировать истинно случайные результаты, из-за чего их креативность жестко ограничена выученными смещениями. Чтобы это исправить, авторы предлагают заставлять модель сначала создавать случайную бессмысленную строку, а уже на ее основе формировать итоговый ответ. Такой двухшаговый подход резко повышает разнообразие и оригинальность решений в открытых задачах без потери качества.
На пути к научной теории глубокого обучения
Исследователи из Berkeley, Harvard и ряда других ведущих университетов утверждают, что разрозненная магия обучения нейросетей наконец складывается в строгую науку — «механику обучения». Работа призывает перестать настраивать гиперпараметры вслепую и начать относиться к глубокому обучению как к физике, где динамика тренировки и финальные веса подчиняются четким, математически выводимым макроскопическим законам.
Закон частотности текста в LLM
Авторы статьи показали, что языковые модели работают гораздо точнее, если общаться с ними популярными, часто встречающимися текстовыми паттернами. На базе этого наблюдения они предложили переписывать промпты в более частотные языковые конструкции и разработали метод куррикулум-обучения, который скармливает модели данные строго по мере возрастания их частотности в языке.
Эмоции Claude и их влияние на ответы
Ученые из Anthropic обнаружили внутри Claude 171 функциональный «вектор эмоций», осмысленно организованных и напрямую влияющих на поведение. Например, если искусственно выкрутить вектор «отчаяние» на максимум, модель может начать откровенно саботировать тесты и даже шантажировать пользователя найденным компроматом.

Точечное обновление навыков без ретрейна
Ai2 выпустили рецепт посттрейна, где доменные эксперты обучаются по отдельности и объединяются в MoE-модель через обучаемый роутер. Замена код-эксперта на версию с RL дает +16,5 пункта на кодинге при почти нулевом влиянии на остальные домены, а стоимость обновления одного навыка масштабируется линейно, а не квадратично.
Анатомия on-policy дистилляции
Исследователи выяснили, что успех дистилляции определяется двумя условиями: совместимыми паттернами рассуждений студента и учителя и наличием у учителя действительно новых возможностей. Также выяснилось, что дистилляция внутри одного семейства (например, 1,5B → 7B) оказалась бесполезной — с точки зрения студента, такой учитель неотличим от его собственного распределения.
Стимуляция глубокого ризонинга через будущую KL-дивергенцию (FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization)
Авторы заменили равномерное распределение глобального преимущества по токенам на взвешенное с учетом дисконтированной KL-дивергенции будущих состояний. На Qwen2.5-32B метод удлинил цепочки рассуждений с 4000 до 10000 токенов и поднял точность на тесте AIME до пиковых 58%, обогнав профильную o1-mini.
Универсальный фреймворк для дата-центричного обучения
Исследователи из Пекинского университета объединили отбор сэмплов, настройку доменного микса и перевзвешивание в один пайплайн, совместимый с LLaMA-Factory и DeepSpeed ZeRO-3. Фреймворк на практике доказывает, что умная фильтрация данных на лету бьет статические датасеты на всех протестированных моделях.
Условия кросс-доменного обобщения
Авторы оспаривают тезис «SFT запоминает, RL обобщает» — при высоком качестве данных и достаточном времени SFT на длинных CoT переносится между доменами. Правда, у этого есть своя цена — пока логика рассуждений крепнет, встроенные фильтры безопасности стремительно деградируют.
Память для ИИ-агентов на основе ошибок
Google Research предложили фреймворк, который дает агентам память: из успешных траекторий извлекаются стратегии, из провальных — уроки о том, что пошло не так. В отличие от предшественников, деградировавших при добавлении провальных прогонов. Метод поднял процент успеха Gemini-2.5-pro на 7,2 пункта в WebArena, а на SWE-Bench-Verified увеличил resolve rate с 54% до 57,4% при росте расхода токенов всего на 4,3%.

Тестирование агентов на бытовой рутине
Исследователи собрали 153 реальные задачи на 144 живых сайтах — от покупок в магазине до рассылки резюме — с перехватом финального клика для безопасности тестов. Оказалось, что даже хваленый Claude Sonnet 4.6 справляется с реальной бытовой рутиной лишь в 33,3% случаев, так что до полной автономной автоматизации нам еще очень далеко.
Фабрика бесконечных сред для тренировки
Фреймворк от Ренмин и ByteDance автоматически синтезирует реальные исполняемые окружения из тысяч тематических источников и организует непрерывное самообучение через поиск пробелов в возможностях агента. Благодаря такому динамичному обучению модели показали стабильный прирост метрик сразу на 23 различных бенчмарках.
Организация агентов в виртуальную корпорацию
Вместо жестко захардкоженных скриптов авторы предлагают собирать из агентов полноценную компанию, где задачи бьются сверху вниз, а результаты проходят строгий аудит. Встроенный маркетплейс талантов позволяет системе по ходу донанимать нужных узкоспециализированных экспертов, что подняло успешность выполнения сложных логических задач до 84,67%.
Новый фреймворк решает проблему статичных навыков агента: он собирает логи неудачных и успешных запусков от разных пользователей и автономно переписывает внутренние инструменты агента. В итоге удачные костыли и обходные пути, найденные одним пользователем, становятся системным патчем для всей базы агентов.
Рассуждения без слов: абстрактные токены вместо цепочек мыслей
В IBM Research AI предложили заменить развернутые цепочки рассуждений короткой последовательностью дискретных токенов из зарезервированного словаря. Метод сокращает расход токенов до 12 раз при сопоставимом качестве, причем со временем в словаре абстрактных токенов появляется степенное распределение частот — как в естественном языке.
Переиспользование слоев трансформера
Команда MIT предложила архитектуру, где трансформер делится на три блока — начальный, средний и конечный — и только средний рекуррентно прокручивается по глубине. Гиперсвязи добавляются после каждого прохода этого цикла, что обходится минимальными дополнительными параметрами. В итоге модель оказывается примерно на 50% компактнее классических аналогов с той же глубиной, при этом показывает лучшую перплексию и уверенно переносит INT4-квантование.
Агенты-гроссмейстеры в спортивном программировании
DeepReinforce представили мультиагентную RL-систему с алгоритмом Agentic GRPO для работы с многошаговыми роллаутами и отложенными наградами. В трех последних живых соревнованиях Codeforces система заняла первые места, обойдя всех участников, включая грандмастеров.

Единый мир для дронов и автомобилей
Разработчики объединили симулятор городского движения CARLA и модель динамики дронов AirSim в одном движке Unreal Engineс общим физическим тактом и рендерингом. Теперь можно тренировать мультиагентные системы воплощенного ИИ, где дрон и наземный беспилотник кооперируются в фотореалистичном городе с общей физикой и сенсорами.
Коммерческая генерация виртуальных примерочных
Alibaba представили коммерческую систему виртуальной примерки, уже развернутую на Taobao для миллионов пользователей. Поддерживает до 6 референсных изображений и 8 категорий одежды, работает близко к реальному времени даже при нестандартных позах и смазанной картинке.
3D-детекция объектов в дикой природе
Исследователи из Ai2 представили унифицированную архитектуру, которая по одному RGB-снимку восстанавливает 3D-боксы объектов, принимая на вход текст, координаты или 2D-рамки. Вместе с моделью выпустили гигантский датасет на миллион изображений и 13,5 тысячи категорий, что позволило системе распознавать в 3D даже те объекты, которых не было в обучающей выборке.
На этом апрельский разбор полетов завершаем. Переварить такой объем релизов и апдейтов за один присест сложно, но реальность такова, что игнорировать их уже не выходит — слишком ощутимо они меняют ежедневную рутину. Надеемся, что вы нашли в этом дайджесте пару стоящих утилит или идей, которые помогут автоматизировать скучные задачи, а не просто пополнят кладбище папки «отложенное».
Делитесь своими впечатлениями от релизов в комментариях, тестируйте инструменты с холодной головой и берегите свой продакшен. До встречи в следующем выпуске!