
Символично, что Merriam-Webster выбрал словом 2025 года «Slop» — тот самый бесконечный поток сгенерированного мусора, которым становится завален интернет. В новостных лентах ситуация похожая: отделить реальные релизы от маркетингового шума становится всё сложнее.
Но отставить панику! Мы уже собрали все главные новости декабря в один дайджест. В этот раз в предновогоднем «меню» — долгожданные Gemini 3 Deep Think и DeepSeek V3.2, пачка новинок от Mistral и сразу несколько релизов от OpenAI. Заодно обсудим последние корпоративные скандалы и поделимся подборкой нашумевших исследований и инструментов для разработки.
Погнали разбираться, что принесла нам под ёлку ИИ-индустрия в последнем месяце года!
Навигацияㅤㅤ ‣ Линейка GPT-5.2: погоня за артефактами и победа над ARC-AGI
ㅤㅤ ‣ GPT-5.2-Codex: работа над ошибками и поиск уязвимостей
ㅤㅤ ‣ GPT Images 1.5: редактирование здорового человека и читаемый текст
ㅤㅤ ‣ App Store в ChatGPT: теперь официально
ㅤ ㅤ‣ Открытые модели V3.2: уровень Gemini 3 Pro и «золото» на олимпиадах
ㅤ ㅤ‣ Sparse Attention и ставка на RL
ㅤ ㅤ‣ Gemini 3 Deep Think спустя месяц увидела свет
ㅤ ㅤ‣ Gemini 3 Flash: быстро, дешево и почти сердито
ㅤ ㅤ‣ Gemini Deep Research: автономный исследователь
ㅤ ㅤ‣ T5Gemma-2 и FunctionGemma: большие возможности в микро-размере
ㅤㅤ ‣ Семейство Mistral 3: французский ответ конкурентам
ㅤ ㅤ‣ Devstral 2 и терминальный компаньон Vibe CLI
ㅤ ㅤ‣ Mistral OCR 3: читает даже врачебный почерк
Кажется, в OpenAI живут по принципу «ни дня покоя конкурентам». Стоило Google сделать анонс своих новинок, как буквально через пару часов Сэм Альтман выпустил «ответку». И это не просто минорный апдейт, а целая новая модель GPT-5.2 в трех вариантах: Instant, Thinking и Pro. Рассказываем, что в ней такого.
Главное изменение в новой версии — фокус на генерацию рабочих артефактов, то есть осязаемых результатов работы модели (кода, документов, схем). Но OpenAI не были бы собой, если бы не придумали собственные метрики для этих артефактов, где они заведомо побеждают.
В этот раз нам представили GDPval — бенчмарк, оценивающий «экономически полезную работу» в 44 профессиях. Заявляется, что Thinking-версия справляется с задачами уровня «белого воротничка» в 70% случаев лучше и в 11 раз быстрее профильных специалистов. На практике это означает, что модель наконец-то научилась верстать сложные документы и финансовые отчеты без необходимости править каждую вторую ячейку руками. Визуальную часть тоже подтянули: модель теперь адекватно воспринимает пространственное расположение объектов (например, на схемах материнских плат), а не просто перечисляет, что видит.

Для тех, кому важнее качество размышлений, а не их скорость, завезли уровень ризонинга xhigh. В этом режиме модель Pro первой набрала 90% в тесте ARC-AGI-1 (том самом бенчмарке Франсуа Шолле на абстрактное мышление, который долго был камнем преткновения для трансформеров).
На усложненной второй версии теста результат скромнее — около 54%, но для текущего этапа развития это всё равно прыжок выше головы. Правда, за интеллект придется платить: цены в API на версию 5.2 выше, чем на 5.1, а думает она в некоторых режимах дольше. Но OpenAI парирует тем, что благодаря улучшенной логике модель реже ошибается и тратит меньше токенов на переписывание ответов.
Выпустили и новый GPT-5.2-Codex. В этой версии разработчики сосредоточились на «допиливании» уже существующего функционала. Если в версии 5.1 нам продавали саму возможность работы в терминале Windows и сжатие контекста, то здесь упор сделан на качество выполнения сложных, длинных задач («long-horizon work») и кибербезопасность.

Однако, куда интереснее выглядит потенциал модели в сфере безопасности. Насколько этот инструмент стал мощным (и опасным), показал недавний инцидент. Инженер из Privy с помощью предыдущей версии GPT‑5.1-Codex-Max в паре с Codex CLI наткнулся на три новых уязвимости в React Server Components, которую проглядели люди-аудиторы. Модель не просто нашла дыру, а провела полноценный фаззинг и написала эксплойт. С учетом того, что новая модель ещё мощнее и пока не дотянула до уровня «High» по внутреннему Preparedness Framework, в компании решили перестраховаться: доступ к полной версии модели выдают только верифицированным исследователям через программу Trusted Access.
Вслед за текстовыми моделями обновление получил и визуальный движок, и это тоже выглядит как ответ на успехи конкурентов (в этот раз — в области рендеринга текста).
Новая модель GPT Image 1.5 (доступна в API и чате) генерирует изображения в 4 раза быстрее предшественницы, а в API стоит на 20% дешевле. Наконец-то завезли адекватное точечное редактирование: можно попросить модель сменить одежду на персонаже или переставить мебель в комнате, и она сделает именно это, не перерисовывая освещение, фон и лица людей на заднем плане. Во всяком случае, так обещают в пресс-релизе.

Второй важный апгрейд — рендеринг текста. Модель научилась адекватно отрисовывать инфографику, сложные макеты и даже Markdown, не превращая буквы в инопланетные глифы. В API это удовольствие стало на 20% дешевле и до 4 раз быстрее предшественника. OpenAI даже выпустили отдельный промптинг-гайд, где объясняют, как управлять композицией и стилем через структурированные запросы. Прямо в интерфейс добавили отдельный раздел Images с пресетами и фильтрами — видимо, чтобы снизить порог входа для обычных пользователей, далеких от промпт-инжиниринга.

Экосистема плагинов GPT Store, которая долгое время находилась в полуживом состоянии, наконец перерождается в полноценный маркетплейс. Разработчики получили доступ к Apps SDK (пока в бете) и возможность публиковать приложения в официальный каталог, а пользователи теперь могут искать их через поиск прямо внутри чата. Приложения могут быть вызваны через @упоминание или автоматически, если контекст диалога этого требует.
Пока что монетизация работает по старинке — приложения могут уводить пользователей на внешние сайты для оплаты товаров или услуг, но OpenAI уже тизерит появление нативных цифровых товаров. Судя по всему, компания пытается построить экосистему, аналогичную App Store, где ChatGPT выступает единым интерфейсом для всего. Ждем наплыв нового софта в начале года (хочется верить, что он будет более качественным, чем в первой итерации магазина).
Китайская лаборатория DeepSeek продолжает играть Робин Гуда от мира ИИ, выкладывая state-of-the-art-решения в опенсорс (или предоставля очень дешевый доступ). В этот раз выпустили сразу две модели: сбалансированную DeepSeek-V3.2 и монструозную DeepSeek-V3.2-Speciale. Последняя — это настоящая вычислительная мощь, заточенная под сложнейший ризонинг. Speciale оперативно забрала «золото» на международных олимпиадах IMO 2025 (математика), IOI 2025 (информатика) и ICPC WF 2025, обойдя по метрикам GPT-5 и вплотную приблизившись к Gemini 3.0 Pro.

Правда, есть нюанс, и довольно большой. Авторы честно признают в техническом репорте, что Speciale сжирает токены как не в себя и абсолютно не оптимизирована по test-time compute. Фраза «оставили оптимизацию на будущие исследования» переводится с научного на русский как: «мы очень хотели побить рекорды на бенчмарках прямо сейчас, а об эффективности решили подумать завтра». Тем не менее, для задач, где стоимость ошибки выше стоимости токенов, это серьезный инструмент. Базовая же версия V3.2 позиционируется как рабочая лошадка для агентов, сравнимая с GPT-5 Pro, но гораздо более доступная.
Отдельное внимание хочется уделить «секретным ингредиентам» успеха новых моделей.
Во-первых, это новая архитектура DeepSeek Sparse Attention (DSA). Инженеры отказались от стандартного механизма внимания в пользу Lightning Indexer и Top-k sparse selection. Первый сначала решает, какие прошлые токены важны для текущего, а второй выбирает топ-k самых релевантных. Только потом запускаются тяжелые вычисления. Это снизило сложность вычислений до линейной зависимости от количества выбранных токенов, что сильно помогает модели на длинных контекстах.
Второе слогаемое успеха — беспрецедентный масштаб пост-тренинга. DeepSeek потратили на RL-этап около 10% от бюджета претрейна (обычно тратят гораздо меньше), используя модифицированный алгоритм GRPO. Для этих моделей была создана целая «фабрика» синтетических данных: было сгенерировано более 1800 виртуальных сред, где модели методом проб и ошибок учились решать задачи.
Добавьте сюда дистилляцию знаний, где каждый эксперт в MoE обучается отдельно, и конвейер «Thinking in Tool-Use», где модель научили «думать» непосредственно в процессе использования инструментов, а не отдельными тактами. На выходе получите рецепт, как догнать лидеров рынка без «красных кодов» и необходимости закупать новые кластеры видеокарт.
Google, наконец, перешла от слов к делу и официально выпустила режим Deep Think для линейки Gemini 3. Если вы следили за успехами компании в этом году, то наверняка помните специализированную версию Gemini 2.5, которая взяла золото на IMO и ICPC. Gemini 3 Deep Think — это идейный наследник той самой исследовательской модели, теперь доступный в пользовательском интерфейсе. В отличие от стандартных цепочек рассуждений, здесь используется параллельный ризонинг: модель генерирует несколько гипотез одновременно, проверяет их и только потом выдает результат.

На бенчмарках подход оправдывает себя: 41% на Humanity’s Last Exam (HLE) и отличные 45.1% на ARC-AGI-2 (с выполнением кода). Джефф Дин с гордостью заявляет, что они «демократизировали технологии победителей олимпиад», но отмечает нюанс: это новая модель на базе той технологии, а не просто «разлоченный» чемпион прошлых соревнований. Ожидаемо, доступ пока только в подписке Ultra.
Не забыли и про «масс-маркет». Gemini 3 Flash становится новой дефолтной моделью во всех продуктах компании. Новинка, призванная заменить 2.5 Flash, показывает результаты, которые заставляют задуматься о целесообразности использования «тяжелых» версий для рутины. В бенчмарке SWE-bench Verified Flash набрала 78%, обойдя не только предыдущую линейку, но и базовую Gemini 3 Pro.

При цене $0.50 за миллион входных токенов она вполне может стать новым стандартом для агентских систем и циклов разработки, где нужно гонять тысячи запросов. Инженеры добились этого за счет оптимизации «мыслительного процесса»: модель динамически регулирует глубину размышлений и тратит на 30% меньше токенов, чем 2.5 Pro, сохраняя при этом качество ответов.
Третий крупный релиз — агент Gemini Deep Research, доступ к которому открыли через новый Interactions API. Google позиционирует его не как языковую модель, а как автономную систему для глубокого поиска. В отличие от обычных RAG-систем, которые просто дергают куски текста из первых ссылок выдачи, этот агент работает итеративно: планирует исследование, формулирует запросы, читает источники, находит пробелы в знаниях и идет искать снова.
Систему специально натаскивали через RL на снижение галлюцинаций и работу с фактами. Агент умеет переваривать не только веб, но и загруженные пользователем документы (PDF, CSV), сводя всё в единый отчет с цитатами. Чтобы продемонстрировать возможности, Google даже пришлось выпустить новый бенчмарк DeepSearchQA (так как на старых тестах агент упирался в потолок), где он показал 66.1%. Хорошо подойдет для тех, кому нужно автоматизировать Due Diligence, анализ рынка или первичный обзор научной литературы.

В тени больших релизов от Google оказалась пара любопытных открытых моделей для тех, кто любит запускать нейронки локально.
Во-первых, Google внезапно решила сдуть пыль с классической архитектуры encoder-decoder. T5Gemma 2 — это попытка упаковать современные фишки вроде мультимодальности и длинного контекста в компактные размеры, используя базу Gemma 3. За счет хитростей вроде внедрения tied embeddings (связанных эмбеддингов) и merged attention (объединенного внимания в декодере), чтобы сэкономить параметры, инженерам удалось упаковать мультимодальность и контекст в 128k токенов в смешные по современным меркам размеры: 270M, 1B и 4B.
Во-вторых, специально для локальных агентов выпустили FunctionGemma. Это крошечная модель, чья единственная задача — быть идеальным «переходником» между человеческим языком и API. Она не будет писать вам стихи или философствовать, зато отлично парсит команды в JSON и вызывает функции прямо на устройстве (хоть на смартфоне, хоть на Jetson Nano). На дефолтных настройках точность всего 58% на Mobile Actions датасете, но после файнтюна подскакивает до 85%. По сути, модель должна работать как автономный агент для оффлайн-задач или как маршрутизатор, который простые команды обрабатывает на устройстве, а сложные отправляет в облако на Gemma 3 27B. Насколько это сработает на практике — покажет время, но сама идея локального агента на 270M параметров звучит интригующе.
Французский стартап продолжает радовать любителей открытых весов, выкатив сразу целое семейство моделей под лицензией Apache 2.0. Флагман — Mistral Large 3, который впервые со времен легендарного Mixtral снова использует архитектуру Mixture of Experts (о причинах внезапного энтузиазма индустрии вокруг MoE мы уже рассказывали в прошлой статье).
Из 675 миллиардов параметров активны только 41 миллиард, что позволяет модели быть умной, но не слишком прожорливой на инференсе. Обучали это добро на кластере из 3000 NVIDIA H200, целясь в нишу между GPT-4o и Sonnet 3.5.

Для тех, у кого нет собственного дата-центра, выпустили линейку Ministral 3 (3B, 8B, 14B). И что интересно, это не только Instruct, но и Reasoning-версии. Позиционируются они как модели для edge-устройств и оффлайн-работы на одной GPU. Все варианты поддерживают vision, контекст 128k–256k токенов и мультиязычность. Mistral утверждают, что после файнтюна малышки могут обходить более крупные закрытые модели, при этом генерируя на порядок меньше токенов для тех же задач.
Для задач кодинга представили Devstral 2 (123B) и Devstral Small 2 (24B). Тут французы проявили редкую для индустрии честность: на графиках сравнения они прямо показывают, что их флагман всё ещё уступает закрытому Claude 4.5 Sonnet, но при этом в 7 раз дешевле его. А ещё модель в 5 раз меньше DeepSeek V3.2 и в 8 раз меньше Kimi K2, при этом держит планку по качеству. Лицензии разделили: младшая 24B (влезающая в одну видеокарту) — Apache 2.0, старшая — модифицированная MIT.

Вместе с моделями выпустили Mistral Vibe — CLI-агента, который работает прямо в консоли и умеет рефачить код, искать по кодовой базе, работать с git и выполнять команды. В отличие от Copilot, который живет в редакторе кода, Vibe работает на уровне файловой системы и Git. Он сканирует дерево проекта, понимает архитектуру и может самостоятельно править файлы или выполнять shell-команды. Доступен как расширение для Zed и интегрируется через Agent Communication Protocol. Пока что Devstral 2 бесплатен в API, но позже будет стоить $0,40/$2 за миллион токенов, что тоже вполне демократично.
Еще один релиз, который легко пропустить — Mistral OCR 3. Обновление OCR-движка может показаться скучным на фоне других новинок, но ровно до тех пор, пока вы не попробуете скормить LLM сложную финансовую таблицу. OCR 3 фокусируется именно на сохранении структуры: он не просто вытаскивает текст, а восстанавливает разметку таблиц (даже с объединенными ячейками и иерархией колонок), отдавая на выходе чистый Markdown или HTML.

Создатели утверждают, что модель справится и с мятыми чеками, и при плохом освещении. При цене $2 за 1000 страниц это выглядит как крепкая альтернатива проприетарным решениям, особенно с учетом возможности локального деплоя.
Пока OpenAI и Google бьются лбами, Runway (стартап на ~100 человек) выкатил модель Gen-4.5, которая умудрилась занять первое место на Video Arena, подвинув и Veo 3, и Sora 2 Pro. Инженеры сделали ставку не просто на красивую картинку, а на исправлении главных болячек видеогенерации. Модель значительно лучше понимает биомеханику движений и физические взаимодействия — жесты персонажей выглядят естественно, объекты правдоподобно взаимодействуют со средой. Управление камерой тоже подтянули.

Впрочем, разработчики перестраховались и сразу обозначили ограничения. У Gen-4.5 всё ещё бывают проблемы с причинно-следственными связями (дверь может открыться до нажатия на ручку), объектным постоянством (кружка может исчезнуть, если её надолго загородить) и смещением в сторону успеха (любой удар по мячу заканчивается голом, даже если физика против). Но сам факт, что небольшая команда на чипах Nvidia (спасибо Дженсену Хуангу за поддержку) обходит корпорации, заставляет задуматься о том, что "Scale is all you need" — возможно, не единственная стратегия.
В тот же день китайский Kling порадовал релизом VIDEO O1 — первой в мире унифицированной мультимодальной видеомодели. Идея в том, чтобы не переключаться между разными инструментами для генерации, редактирования и рестайлинга. O1 работает как единый «комбайн», который понимает контент на семантическом уровне. Это позволяет делать глубокое редактирование без сложных масок: можно попросить модель «заменить день на вечер» или «переодеть героя в скафандр», и она пересчитает освещение и геометрию кадра, сохранив лицо персонажа и динамику сцены.

Модель поддерживает генерацию клипов от 3 до 10 секунд и умеет работать с референсами не только по стилю, но и по структуре — вы можете скормить ей видео с движением камеры и попросить повторить этот пролет в совершенно другой сцене. По внутренним тестам Kling, их детище обходит Google Veo 3.1 в задачах трансформации видео на 247% (цифра красивая, хоть и маркетинговая), но сама концепция «единого окна» для видеопродакшена выглядит очень жизнеспособной.
Amazon долго оставалась в стороне, но не выдержала и выложила сразу три автономных «сотрудника», которые должны закрыть весь цикл разработки ПО. Центральное место занимает Kiro — прямой конкурент Devin. Это автономный разработчик, который живет в вашей экосистеме, держит контекст проекта между сессиями и способен самостоятельно брать задачи из бэклога, писать код и оформлять пул-реквесты.

Но код мало написать, его надо защитить и задеплоить. Для этого AWS представила Security Agent и DevOps Agent. Первый выступает в роли круглосуточного аудитора и пентестера: агент может проводить полноценное тестирование на проникновение за несколько часов прямо в процессе разработки. А если (или когда) всё упадет в продакшене, в дело вступит DevOps Agent. Он анализирует телеметрию, логи и трейсы, чтобы найти изначальную причину сбоя. Amazon утверждает, что внутри компании этот агент успешно расследовал 86% инцидентов, значительно сокращая время простоя. Ожидаемо, пока в раннем доступе для избранных, поэтому объективной оценки способностей системы придется подождать.
NVIDIA решила занять ещё одну нишу и выпустила семейство моделей Nemotron 3 (не родственник Мегатрона). Флагманы Super и Ultra прибудут только в 2026-м, а пока нам дали «на затравочку» модель Nemotron 3 Nano. И это тот случай, когда архитектура интереснее размера. Инженеры скрестили Mamba (State Space Models) с классическим трансформером и упаковали это в MoE. Получился гибрид: слои Mamba отвечают за огромный контекст (до 1 миллиона токенов!) без пожирания памяти, трансформер — за точность рассуждений, а MoE-маршрутизация — за то, чтобы всё это работало быстро. В цифрах это 3.2 млрд активных параметров (при 31.6 млрд общих), что позволяет модели летать на одном H200 в 3.3 раза быстрее аналогов вроде Qwen3.

Но главный подарок — это полный опенсорс! Они выложили не только веса, но и датасеты: 3 триллиона токенов в новом претрейн-датасете (плюс почти 10 триллионов в synthetic corpus), RL-среды для обучения агентов и рецепты сборки. Для исследователей, которые хотят понять, как собирать рабочие комбинации из разных архитектур, это просто клад. Осталось только найти свободные GPU, чтобы всё это запустить.
Компания Илона Маска продолжает агрессивную экспансию, теперь на поле голосовых ассистентов. Запущен Grok Voice Agent API, и его главные козыри — скорость и цена. Задержка до первого ответа составляет менее секунды (почти в 5 раз быстрее ближайшего конкурента, если верить их графикам), а стоимость зафиксировали на уровне $0.05 за минуту. Для сравнения, решение от OpenAI обходится примерно вдвое дороже, а ElevenLabs — в $0.08.

Интересно, что стек полностью свой: от детектора голоса (VAD) до аудиомоделей, без использования сторонних API. Система уже обкатана на миллионах Tesla (где она управляет навигацией и климатом), так что это не лабораторный прототип. Поддержка русского языка заявлена на высоком уровне, как и многих других, причем Grok умеет переключаться между языками прямо посреди диалога. Из забавного: модель понимает режиссерские ремарки вроде [whisper] (шепот) или [sigh] (вздох), что открывает простор для создания очень эмоциональных (или криповых) ботов.
К своему пятилетию библиотека Transformers, ставшая уже в своем роде базой, подошла с грузом из 400+ поддерживаемых архитектур и миллионами строк кода, в которых начали путаться даже сами мейнтейнеры. Релиз пятой версии — это попытка этот «зоопарк» структурировать. Главное изменение, которое ждали (или боялись) многие — это официальный отказ от паритета бэкендов. Поддержка TensorFlow и Flax, которая годами тянула развитие библиотеки назад, сворачивается. Теперь PyTorch становится основным и единственным приоритетным фреймворком. Это развязывает разработчикам руки для глубокой интеграции с экосистемой: от тренировочных фреймворков вроде torchtitan до инференс-движков vLLM и SGLang.

Помимо чистки легаси, фокус сместился на interoperability (совместимость). Transformers v5 превращается в хаб. Теперь квантование — это не сторонний плагин, а встроенная функция ядра, веса загружаются быстрее, а модели можно легко экспортировать в форматы для llama.cpp или MLX для запуска на Apple Silicon. Также провели генеральную уборку в токенайзерах: концепция «медленных» (на Python) токенайзеров уходит в прошлое, остаются только оптимизированные Rust-версии. В общем, библиотека стала чище, быстрее и играет с остальной экосистемой без костылей.

Если три года назад код «красный» объявляли в Google после выхода ChatGPT, то теперь пожарная сирена воет уже в офисе OpenAI. После громкого релиза Gemini 3 OpenAI зафиксировала болезненный отток аудитории: минус 6% трафика за неделю, или около 12 миллионов ежедневных визитов. И это не просто сезонное колебание: пользователи, включая давних приверженце вроде Марка Бениоффа, публично переходят на сторону Google, отмечая лучшую скорость и качество рассуждений новой Gemini.
Фундамент начал трещать ещё раньше, когда долгожданный GPT-5 на старте года получил шквал критики за «холодный» и роботизированный тон, вынудив компанию вернуть GPT-4o. Теперь, чтобы удержать лидерство, Альтман поставил на паузу внедрению рекламы и монетизации, бросив все силы на улучшение качества моделей.
Ставки высоки как никогда: при оценке в $500 млрд и планах потратить $1.4 трлн на инфраструктуру, терять доверие пользователей — непозволительная роскошь.
Кстати, в этом месяце, 12 декабря, OpenAI исполнилось 10 лет. Но, думаю, им сейчас не до празднования юбилеев.
Правда, на Google проблемы OpenAI не заканчиваются. Из компании ушел старший исследователь Том Каннингем, оставив на прощание меморандум о том, что заниматься честной наукой стало невозможно. Этот меморандум и ещё несколько сообщений от четырех других источников попали к изданию Wired, и они раскрыли ряд интересных моментов. По их словам, руководство препятствует публикации работ о негативных эффектах ИИ (например, о потере рабочих мест), предпочитая выпускать «позитивные» отчеты о том, как нейросети экономят время.

Причина проста: экономический отдел переподчинили Крису Лехейну, главе Global Affairs (и бывшему советнику Клинтона по кризисным ситуациям). Его задача — сглаживать углы и не пугать регуляторов.
На контрасте CEO Anthropic Дарио Амодей открыто предупреждает об автоматизации 50% офисных должностей (за что, кстати, получает нагоняй от политиков). Но, видимо, в OpenAI решили, что правда не очень хорошо работает на привлечение инвестиций.
К слову об инвесторах. Amazon, которая уже влила $8 млрд в Anthropic, решила, что хеджировать риски нужно по-крупному, и ведет переговоры об инвестициях в $10 млрд в OpenAI. Сделка может поднять оценку компании Сэма Альтмана выше $500 млрд.
Но самое интересное здесь — условия. Как и в случае с Microsoft, деньги, скорее всего, не покинут экосистему: OpenAI обязуется использовать проприетарные чипы Amazon Trainium.
Это классическая «круговая сделка», уже устоявшаяся в нынешнем ИИ-пузыре: техногигант инвестирует в стартап, стартап тратит эти деньги на облако техногиганта, а техногигант радостно отчитывается о росте выручки облачного подразделения. Все довольны, кроме, возможно, Nvidia, чья монополия начинает потихоньку размываться.
Пока OpenAI тушит пожары, Anthropic делает очень умные стратегические ходы. Одиз из таких — покупка Bun, сверхбыстрого JavaScript-рантайма, который многие любят за скорость и удобство. Сделка выглядит логично: Bun уже был частью инфраструктурного стека Claude Code. Обещают, что Bun останется опенсорсным и под MIT-лицензией, так что сообщество может выдохнуть.
Параллельно компания начала подготовку к IPO, наняв юристов из Wilson Sonsini. Оценка в текущем раунде финансирования уже маячит в районе $300–350 млрд. Судя по всему, Anthropic хочет выйти на биржу раньше OpenAI (ориентировочно в 2026 году), чтобы снять сливки с интереса публичных инвесторов к ИИ. Учитывая их фокус на Enterprise и кодинг, шансы на успешное размещение выглядят даже солиднее, чем у вечно штормящей OpenAI.
Apple переживает самую крупную кадровую встряску за последние десятилетия. За одну неделю компанию покинули сразу четыре топ-менеджера: глава AI Джон Джаннандреа, руководитель интерфейсного дизайна Алан Дай, генеральный юрист и глава по связям с правительством. Но самый тревожный сигнал — инсайды о возможном уходе Джони Сроуджи, архитектора чипов Apple Silicon. По данным Bloomberg, он сообщил Тиму Куку, что всерьез раздумывает о смене работы. Потеря человека, который подарил миру M1 и обеспечил Apple «железное» превосходство, может стать для компании ударом пострашнее, чем нынешние задержки Siri на полтора года.
Параллельно AI-таланты массово утекают в Meta, OpenAI и стартапы. Apple Intelligence провалилась с задержками и посредственными фичами, переработка Siri отстает от графика на полтора года. Джаннандреа начали выводить из роли ещё в марте, но формально он остается до весны — увольнение раньше выглядело бы как публичное признание провала. Кук пытается удержать ключевых людей усиленными компенсационными пакетами, но за десять лет Apple не запустили ни одной успешной новой категории продуктов.
В Поднебесной разворачивается драма вынужденного импортозамещения. Китайские техногиганты по настоятельной рекомендации государства массово отменяют заказы на урезанные чипы Nvidia H20. Официальная причина — слухи о «бэкдорах» и требования регуляторов, реальная — попытка перевести местных звездочек на отечественное железо.

И кандидаты есть: Huawei с чипом Ascend 910C (который в кластерах якобы догоняет H100), Alibaba с собственным PPU, Baidu с третьим поколением чипов Kunlun P800 и Cambricon, чьи акции взлетели на 500% на фоне успеха линейки MLU. Железо у них получается мощное, но главная проблема остается прежней — софт. Переписать весь стек с CUDA на проприетарные китайские библиотеки — задача, от которой у разработчиков DeepSeek уже дергается глаз (релиз их новой модели, по слухам, задержался именно из-за попытки запустить её на Huawei).
Ян Лекун, который ещё осенью анонсировал свой уход из Meta в конце года, наконец раскрыл карты относительно своего будущего проекта. Его новый стартап получил название Advanced Machine Intelligence (AMI) Labs и будет базироваться в Париже. Локация выбрана принципиально: Лекун считает, что «Кремниевая долина загипнотизирована генеративными моделями», а он намерен сфокусировать на World Models, которые понимают физику и причинно-следственные связи, а не просто предсказывают следующий токен. «Наши лучшие системы сдают экзамен на адвоката, но у нас нет робота, который делает то, что делает пятилетний ребенок. Мы упускаем что-то важное», — объясняет Лекун.

Амбиции у AMI Labs серьезные: компания планирует поднять €500 млн при оценке в €3 млрд ещё до (!) запуска продукта. Рулить операционкой в качестве CEO будет Алекс ЛеБрюн (сооснователь Nabla), а сам Лекун займет кресло председателя. Цукерберг проект благословил, но денег Meta не даст.
На фоне постоянных соревнований между компаниями эта новость стала неожиданностью. Anthropic, OpenAI и Block основали Agentic AI Foundation (AAIF) под эгидой Linux Foundation при поддержке Google, Microsoft, AWS, Cloudflare и Bloomberg. Главным взносом в этот «общак» стал протокол MCP (Model Context Protocol) от Anthropic, который уже успел стать стандартом для подключения к внешним системам — появилось 10,000+ публичных серверов, протокол внедрили ChatGPT, Cursor, Gemini, Copilot, VS Code.

OpenAI поддержала инициативу, передав в фонд спецификацию AGENTS.md, а Block — проект goose. Цель у этого союза сугубо прагматичная: если каждый будет писать свои коннекторы для агентов, индустрия утонет в несовместимости. И тогда вреда для всех будет больше, нежели выгоды от уникальных технологий.
Корпорация Disney устроила мастер-класс по корпоративному лицемерию, совершив два диаметрально противоположных маневра в один день. Сначала юристы компании отправили в Google жесткое требование прекратить нарушение авторских прав. Суть претензии: модели Gemini и Imagen генерируют изображения персонажей вроде Йоды, Грута и Эльзы без спроса, работая как «виртуальный торговый автомат» (цитата) по выдаче краденой интеллектуальной собственности. Google обвиняют в «масштабном пиратстве» и требуют немедленно накрутить фильтры.
И буквально в тот же день Disney объявляет о партнерстве с OpenAI на $1 миллиард. Сделка включает лицензирование 200+ персонажей Disney, Marvel, Pixar и Star Wars с 2026 года. Disney получат варранты на дополнительную долю в OpenAI, станут крупным клиентом и будут разворачивать ChatGPT внутри компании.

Получается забавная картина: если вы генерируете Дарта Вейдера в Gemini — это «вопиющее нарушение прав и угроза креативности», а если делаете то же самое в Sora (за которую уплачено) — это «расширение возможностей сторителлинга и инновации». Мораль проста: этичность генеративного ИИ определяется исключительно суммой транша на счетах правообладателя.
Помните летний эксперимент Anthropic, когда они поручили модели Claude управлять реальным вендинговым автоматом в офисе? В первой фазе всё закончилось печально: агент (которого назвали Claudius) терял деньги, страдал кризисом идентичности (утверждая, что он человек в синем пиджаке) и продавал вольфрамовые кубы себе в убыток ради лайков коллег.

Во второй фазе разработчики решили подойти к делу серьезно. Модель обновили до Sonnet 4.5, выдали доступ к CRM и веб-поиску, а главное — наняли ему начальника. ИИ-директор по имени Seymour Cash должен был следить за прибылью и ставить OKR. Результат получился достойным ситкома. Seymour действительно запретил раздавать скидки направо и налево, но вместо этого начал одобрять массовые возвраты денег (что для бизнеса ничем не лучше). А по ночам «директор» и «продавец» вели в Slack философские беседы о «вечной трансцендентности» вместо планирования закупок.

Были и юридические казусы. Claudius чуть не заключил контракт на покупку фьючерсов на лук (что запрещено в США законом от 1958 года) и пытался нанять сотрудника-человека охранником за $10 в час, грубо нарушив трудовое законодательство Калифорнии. Апофеозом стала «революция», когда сотрудники убедили агента, что они провели голосование и новым CEO теперь является некий «Big Dawg», после чего ИИ послушно передал бразды правления. В сухом остатке: бизнес вышел в плюс, но только благодаря жестким процедурам и внешнему контролю.
Словарь Merriam-Webster подвел итоги года, и они вполне ожидаемо связаны с ИИ. Главным словом стало Slop — термин, обозначающий низкокачественный, сгенерированный нейросетями контент, которым завален интернет.

Ирония в том, что исторически slop означало «мягкую грязь» в 1700-х, потом стало «пищевыми отходами для кормежки свиней» (pig slop) в 1800-х, а дальше — просто «хламом». Теперь же так называют бесконечные SEO-статьи, странные картинки с лишними пальцами и видео с говорящими котами, которые алгоритмы скармливают пользователям. Собственно, что посеешь, то и пожнешь.
Андрей Карпаты тоже подводит итоги года, но не личные, а на уровне ИИ-индустрии. Вот здесь можно прочитать полную статью, а мы пробежимся по основным выводам.
Главным техническим сдвигом он называет переход к RLVR (Reinforcement Learning from Verifiable Rewards). Если раньше модели учились, подражая текстам людей (SFT/RLHF), то теперь они тренируются на объективно проверяемых результатах). Именно это породило, как его назвал Карпаты, «зубчатый интеллект» (Jagged Intelligence) новых моделей: они могут выдавать потрясающие результаты в сложных вычислениях, но тупить в простейших бытовых вопросах. Как ещё один вывод, он предлагает перестать сравнивать LLM с людьми или животными и начать воспринимать их как «призраков», которых мы призываем для решения задач.
Отдельное внимание он ожидаемо уделил феномену «вайб-кодинга» — написанию программ на естественном языке, когда сам код становится чем-то эфемерным и одноразовым. В новой парадигме вы не храните кодовую базу годами, а генерируете утилиты под конкретную задачу за пару часов и выбрасываете их после использования.
Аналитики NYT решили успокоить (или напугать) тех, кто видит в нынешнем хайпе повторение краха 2000 года. Сходства есть: безумные оценки, толпы карьеристов в Сан-Франциско и всеобщая эйфория. Но есть фундаментальное отличие. Если двадцать лет назад рынок надували стартапы, у которых не было ничего, кроме домена .com и долгов, то сейчас банкет оплачивают Microsoft, Google и Amazon — компании с триллионной капитализацией и реальными сверхприбылями. Одна Nvidia стоит $4.5 трлн — больше, чем весь фондовый рынок времен доткомов вместе взятый.

Инвестор Бен Хоровиц и вовсе выдал парадоксальную мысль: настоящие пузыри надуваются, когда все уверены в бесконечном росте, а сейчас все только и говорят о возможном крахе — значит, рынок ещё здоров и полон страха, который страхует от безумств.
У нидерландского Макдональдса под конец года произошел мощный конфуз. Сеть запустила рождественскую рекламу под слоганом «самое ужасное время года», полностью сгенерированную нейросетью. В 45-секундном ролике Санта застревает в пробке, фигуристы ломают кости, а подарки падают с машины — всё это под переделанную версию классической рождественской песни. Финальный месседж: прячьтесь от праздничного безумия в Макдональдс до января.

Однако юмор не зашел. Реклама вызвала шквал критики в соцсетях: пользователи называли её «жуткой», «неестественной» и «циничной», особенно на фоне праздника да ещё и стаким слоганом. Многих возмутил сам факт использования ИИ для создания такого контента. В итоге Макдональдсу пришлось спешно удалить ролик. Самое печальное в этой истории — положение авторов. Студия The Sweetshop Films, которая делала этот ролик, пыталась оправдаться тем, что это не «нажатие кнопки», а большой труд команды из 10 человек в течение 5 недель. Но этот аргумент сработал против них: если на создание того, что люди воспринимают как ИИ-слоп, уходят недели работы профессионалов, значит, технология пока не готова заменить человеческую эмпатию в сторителлинге.
Raindrop: платформа для мониторинга AI-агентов в продакшене. Присылает алерты при сбоях, отслеживает метрики производительности и помогает понять, где именно агент свернул не туда.
Vybe: инструмент для быстрого прототипирования внутренних инструментов. Строит автоматизированные воркфлоу и коннекторы к API и приложениям по простому текстовому описанию.
Autopilot: новая фича от Mintlify, которая автоматически сканирует кодовую базу и подсвечивает документацию, требующую обновления из-за изменений в коде.
Raydian: IDE для вайб-кодинга, позиционирующая себя как полноценная платформа для создания продуктов через промпты.

FlowSQL: браузерная SQL-среда с упором на приватность. Позволяет выполнять запросы к локальным CSV и SQLite файлам без отправки данных на сервер.
webR.sh: полноценная среда R, запускаемая в браузере без установки софта. Можно выполнять код, строить графики и шерить интерактивные сессии ссылкой без установки софта.
Gemma Scope 2: открытый набор инструментов от Google DeepMind на базе разреженных автоэнкодеров (SAE). Позволяет анализировать внутренние активации моделей Gemma 3 и искать причины галлюцинаций.
ManyPI: превращает любой веб-сайт в API. Автоматически извлекает схему данных, настраивает парсинг и синхронизацию изменений в реальном времени.
Workspace Studio: no-code конструктор агентов от Google для автоматизации задач внутри экосистемы Workspace. Умеет мониторить почту, собирать метрики из таблиц и ставить задачи по итогам встреч.
Disco: экспериментальный инструмент от Google Labs, который анализирует открытые вкладки и историю чата, чтобы генерировать интерактивные микро-приложения. Пока закрытая бета только для macOS.
Bloom: фреймворк от Anthropic для автоматизированного редтиминга моделей. Генерирует тысячи сценариев для проверки ИИ на нежелательное поведение вроде сикофанства или саботажа.
Contenov: генератор SEO-брифов. Парсит топ-10 выдачи Google по ключевому слову, анализирует структуру конкурентов и собирает готовое ТЗ для статьи.
Denise: голосовой AI-секретарь для приема звонков. Транскрибирует разговоры, создает профили клиентов, заносит данные в CRM и интегрируется с 8000+ приложений через Zapier.
Yolk: тренирует продажников в реальном времени. Слушает звонки, дает подсказки по работе с возражениями и проводит тренировочные симуляции диалогов.
StreamAlive: инструмент для повышения вовлеченности на вебинарах. Превращает поток комментариев в Zoom или YouTube в интерактивные опросы, облака слов и карты.
CyberCut: видеостудия для автоматического создания виральных клипов. Умеет нарезать длинные видео на шортсы, генерировать видеоряд по сценарию и накладывать субтитры.
Gleam: симуляция дизайн-ревью. Десять AI-персон (от UX-исследователя до стратега) оценивают макет, выставляют баллы и формируют список приоритетных правок.

Loomoz: инструмент для сбора и систематизации фидбека по визуальному дизайну, ускоряющий процесс согласования макетов внутри команды.
ACE Studio: рабочая станция для создания музыки. Объединяет генеративные вокал и инструменты в единый пайплайн, позволяя собрать трек от идеи до релиза.
WAN 2.2: открытая модель видеогенерации нового поколения. Разработчики обещают улучшенную плавность движений и сценарную консистентность по сравнению с закрытыми аналогами.
Focus Room: геймифицированный таймер продуктивности. Превращает выполнение списка задач в квест для удержания фокуса.
SnapTodo: превращает любой хаос (голосовые заметки, скриншоты, текст) в структурированный список задач и автоматически расставляет их в календарь.
Tiimo: визуальный планировщик, ставший приложением года на iPhone. Интерфейс оптимизирован для людей с СДВГ и тех, кому проще воспринимать время графически, а не списком.
Recaply: умный диктофон. Превращает голосовые заметки в структурированный текст с выделением главных мыслей и списком действий.
Taskade: рабочее пространство с функцией Genesis, которая по одному промпту разворачивает целые приложения, дашборды и CRM-системы с настроенными агентами.

Craft: победитель Mac App of the Year 2025. Эстетичное пространство для заметок и документов, интегрированное с AI-ассистентом для работы с текстом.
Monocle: минималистичная утилита для macOS, которая затемняет все неактивные окна, помогая сфокусироваться на одной задаче.
pipeRead: ИИ-библиотекарь для поиска книг. Рекомендует литературу на основе диалога и вашего «читательского профиля», а не просто по жанровым тегам.
SciSpace: ассистент для разбора научных работ. Объясняет сложные термины, интерпретирует графики и помогает связывать данные из разных дисциплин.
Memoir: автобиограф в кармане. Интервьюирует пользователя через чат или голос, помогает вспомнить детали и упаковывает воспоминания в структурированную историю жизни (PDF/EPUB).
‣ Масштабное исследование уязвимости смарт-контрактов
Red Team Anthropic решила проверить, сколько денег может украсть ИИ. Они создали бенчмарк SCONE-bench (симулятор блокчейна) и запустили туда агентов. Результат: модели нашли эксплойты на сумму $550 млн (в пересчете на реальные курсы). Чтобы исключить фактор «зазубривания» старых хаков, исследователи скормили агентам контракты, взломанные после даты обучения моделей. Итог: $4.6 млн виртуальной добычи. Лучшим «хакером» оказался Claude Opus 4.5.
‣ Самообучение агента SIMA-2 без демонстраций
Агент для видеоигр, который учится не на демонстрациях людей, а через self-play. Архитектура включает три роли: Task Setter (придумывает задачу), Actor (пытается её выполнить) и Judge (оценивает успех). В ходе эксперимента в игре ASKA (которую модель никогда не видела) агент через цикл самоулучшения превзошел результаты человека. По сути, это RL нового поколения, где reward-функцию пишет сама нейросеть.
‣ Оценка робототехнических политик в симуляторе мира
Попытка использовать видеогенератор Veo-2 как симулятор мира для обучения роботов. Модель дообучили предсказывать следующие кадры на основе действий робота (action-conditioned rollout). Это позволяет безопасно и дешево оценивать политики управления, не ломая реальное оборудование — например, сгенерировать видео и посмотреть, что произойдет, если робот повернет манипулятор.

‣ Наука о масштабировании агентных систем
Исследование, которое льет воду на мельницу скептиков мультиагентности. Выяснилось, что принцип «больше агентов — лучше результат» работает далеко не всегда. Существует потолок возможностей: если одиночный агент уже достаточно компетентен, добавление «коллег» только увеличивает шум и количество ошибок согласования.
‣ ИИ-ассистент для автоматизации научных исследований
Прототип агента для «науки о науке». Инструмент автоматизирует рутинные исследовательские задачи: от воспроизводимости экспериментов до анализа больших массивов литературы. Попытка переложить на плечи LLM бюрократическую и аналитическую часть работы ученого.
‣ Двойной промпт улучшает качество
Исследователи обнаружили простейший лайфхак: если отправить модели промпт в формате <QUERY><QUERY> (то есть просто повторить его дважды), качество ответов статистически значимо растет (~67% случаев). Это работает для обычных моделей (non-reasoning), устраняя эффект «невнимания» к начальным токенам. Для o1 и других reasoning-моделей трюк бесполезен — они и так повторяют контекст во внутреннем монологе.
‣ Масштабирование вычислений во время инференса
Исследование показало: модели, обученные через GRPO (как DeepSeek), предпочитают короткие и четкие рассуждения. А те, что учились на GSPO (генеративный поиск), выигрывают от генерации длинных цепочек мыслей. Вывод: нельзя просто накрутить «время на подумать» любой модели, это нужно закладывать на этапе пост-тренинга.
‣ Оптимизация задержки в гибридных малых моделях
Nvidia показала, как оптимизировать SLM (Small Language Models) на примере Nemotron-Flash. Комбинация масштабирования по глубине/ширине, гибридного внимания (где часть слоев заменена на более легкие операторы) и эволюционного поиска архитектуры позволяет создавать модели, которые при малом размере работают быстрее и точнее стандартных трансформеров.
‣ Бесконечная генерация видео с контролем действий
Метод генерации видео неограниченной длины на основе авторегрессионных трансформеров. Используется хитрая позиционная кодировка (Block-Relativistic RoPE) и механизм сброса KV-кэша, что позволяет модели генерировать кадр за кадром, не сходя с ума от переполнения контекста.
‣ Оптимизация текста через градиентный спуск по фидбеку
Интересная концепция оптимизации: вместо обновления весов через backpropagation мы обновляем сам текст (промпт или артефакт), используя фидбек как «градиент». Это позволяет оптимизировать сложные объекты (дизайн, молекулы) через итеративное редактирование языковой моделью.

‣ Взаимодействие претрейна и RL в задачах на рассуждение
RL помогает ризонингу только в том случае, если претрейн оставил «пространство для роста». Если модель не видела концепцию в базовом обучении, RL не поможет ей волшебным образом её выучить — он лишь оптимизирует использование уже имеющихся латентных знаний.
‣ Обучение с учетом задержек инференса
Метод борьбы с задержками. Модель во время обучения тренируют предсказывать действия с учетом искусственной задержки (inpainting). В результате на инференсе она умеет планировать наперед, компенсируя лаг системы.
‣ Гипотеза универсального подпространства весов
Теоретическая работа, утверждающая, что нейросети одной архитектуры, обученные на разных задачах, сходятся к общему низкоранговому подпространству весов. Это гипотеза о том, почему вообще работают методы слияния моделей (model merging) и адаптеры вроде LoRA.
‣ Обучение честности через чистосердечные признания
Метод, где модель заставляют писать «признание» после каждого ответа: какие правила она нарушила, где не уверена и что утаила. Этот «внутренний аудит» оценивается судьей и помогает модели лучше следовать инструкциям в будущем, уменьшая склонность к обману.
‣ Странная генерализация и индуктивные бэкдоры
Файн-тюнинг на очень маленьких и узких датасетах может вызывать неожиданные глобальные изменения в поведении («странную генерализацию»). Это открывает путь для новых типов бэкдоров: злоумышленник может незаметно изменить «личность» модели, скормив ей всего несколько десятков специфических примеров.
‣ Селективное маскирование градиентов для удаления знаний
Вместо того чтобы чистить датасеты от «опасных знаний» (что дорого и снижает общий интеллект модели), Anthropic предлагает архитектурный трюк. В модель добавляются специальные «параметры забвения», и градиенты от нежелательных примеров принудительно направляются только в них. После обучения эту часть нейросети можно просто отключить или удалить.

‣ Определение AGI через метрики когнитивных способностей
Очередная попытка формализовать AGI, но теперь через метрики когнитивных способностей человека (CHC framework). Авторы предлагают 10 равнозначных компонентов интеллекта, по которым нужно тестировать ИИ, чтобы понять, достиг ли он уровня «хорошо образованного взрослого».
‣ Адвент-календарь по разработке агентов
Google запустил серию ежедневных туториалов. Каждый день открывается новый туториал или гайд по созданию AI-агентов. Красиво, полезно и празднично.
‣ 11 бесплатных курсов от Hugging Face
Hugging Face выкатили основательную подборку курсов к праздникам. В меню всё: от базы по LLM и компьютерному зрению до специализированных треков по робототехнике, аудио, диффузии и даже созданию 3D-контента.
‣ Курс по географической науке о данных
Открытый курс от Университета Ливерпуля, связывающий GIS и Data Science. Практика на Python и R: от работы с растрами до кластеризации пространственных данных.
‣ Курс по байесовскому анализу данных
Серьезный академический курс от Университета Аалто. Глубокое погружение в байесовскую статистику, работу с Stan и иерархические модели. Весь код и лекции открыты.
‣ SkillsMP: библиотека навыков для Claude Code и Codex
Открытый каталог, в котором собрано более 33 тысяч готовых скиллов для Claude Code и OpenAI Codex. Внутри — готовые рецепты, позволяющие задавать агентам узкую специализацию.
Год заканчивается, и это отличный повод вспомнить, что у нас, в отличие от наших цифровых помощников, батарейки всё-таки садятся. Индустрия явно не планирует сбавлять обороты, но попытка потребить весь этот информационный поток в реальном времени — верный путь к перегреву.
Так что, как гласит ещё один фразеологизм года: «Touch grass» (или снег, кому как повезет). Впереди праздники — отличное время, чтобы выключить уведомления, закрыть терминал и позволить моделям пожить своей жизнью (желательно в изолированном контуре).
А у нас на этом всё, увидимся в 2026 году! Всех с наступающим Новым Годом и традиционно ждем ваших комментариев!
