
Пока мы вспоминали пароли от рабочих ноутбуков и мужественно возвращались в реальность после праздников, ИИ-индустрия, кажется, вообще не сбавляла темп. Видимо, оливье в Кремниевой Долине не в почете — иначе как объяснить, что январь там выдался таким нервным?
Повестка месяца сложилась весьма специфическая: OpenAI и Anthropic запустили «LLM-врачей» GPT Health и Claude for Healthcare, в ChatGPT появилась реклама, а юридическая сага «Маск против всех» получила очередное продолжение в виде иска на скромные $134 млрд. Добавьте сюда агентов, которые копошатся в файлах вашего компьютера, публичные перепалки лидеров индустрии, пачку свежих исследований и инструментов... В общем, скучать стабильно не приходится.
Поехали разбираться, с чем нам предстоит работать в этом году!
Навигацияㅤㅤ ‣ ChatGPT Health: «предъявите медкарту»
ㅤㅤ ‣ Реклама по цене Супербоула и тариф ChatGPT Go
ㅤㅤ ‣ OpenAI играли в переводчика и… проиграли
ㅤㅤ ‣ ChatGPT теперь знает, сколько вам лет
ㅤㅤ ‣ Prism: LaTeX и GPT-5.2 в одном флаконе
ㅤㅤ ‣ Cowork: агент с лицензией на удаление файлов
ㅤㅤ ‣ Официальное расширение Claude Code для VS Code
ㅤㅤ ‣ Claude in Chrome: долгожданное браузерное расширение
ㅤㅤ ‣ Claude надевает белый халат
ㅤㅤ ‣ Новая «Конституция» для Claude: моральный кодекс для ИИ
ㅤㅤ ‣ TranslateGemma: «правильный» переводчик с открытыми весами
ㅤㅤ ‣ Gemini Personal Intelligence: еще один удар по приватности
ㅤㅤ ‣ Демпинг по-гугловски: Google AI Plus за $7,99
В OpenAI решили, что знать историю поисковых запросов и содержимое рабочих переписок пользователей недостаточно — теперь компания официально заходит на территорию медицины. Новый раздел ChatGPT Health позиционируется не просто как очередной скин для чат-бота, а как полноценная защищенная среда для агрегации данных о здоровье. Идея простая: вместо того чтобы гуглить симптомы и получать диагноз «вам осталось жить три дня», вы даете модели доступ к своим анализам, логам активности и истории болезней, получая более-менее взвешенные советы. Теперь модель может легально подключаться к Apple Health, MyFitnessPal и другие фитнес-приложения.

Главный вопрос, который возникает у любого здравомыслящего человека, — безопасность. Сэм Альтман и команда, предвидя скепсис, уверяют, что Health — это «изолированный контейнер». Данные оттуда не используются для обучения моделей, а контекст не утекает в обычные чаты, хотя и может запрашиваться из них, если это уместно. Чтобы модель не начала «лечить» пользователей галлюцинациями, к разработке привлекли более 260 врачей и использовали бенчмарк HealthBench. Впрочем, дисклеймер «поддерживает, но не заменяет врача» висит на самом видном месте, а доступ пока открыт только через waitlist и не для жителей Европы.
Эпоха альтруизма официально закончилась: OpenAI начинает внедрять рекламу. Причем если появление баннеров в бесплатной версии было ожидаемым, то решение показывать рекламу в новом платном тарифе ChatGPT Go за $8/мес. выглядит как проверка аудитории на лояльность. Сами объявления будут появляться под ответами модели, если контекст беседы подразумевает покупку товаров или услуг. OpenAI обещает «этичный подход»: данные диалогов рекламодателям не продают, таргетинг работает без глубокой персонализации, а реклама медицинских услуг и политики запрещена.

Но самое интересное вскрылось в отчете The Information. Аппетиты у OpenAI поистине королевские: компания запрашивает у рекламодателей CPM (cost per mille — стоимость тысячи показов) в районе $60. Для сравнения, у Meta этот показатель крутится около $20. При этом никакой детальной аналитики или сложной атрибуции, к которой привыкли маркетологи в Google Ads, пока нет — только базовые просмотры. Видимо, ставка делается на премиальность аудитории и эффект новизны. А чтобы монетизировать не только показы, но и действия, компания раскатывает интеграцию с Shopify: если чат приведет к покупке, OpenAI заберет себе 4% от чека.
Случайность это или промышленный шпионаж, но OpenAI и Google выпустили продукты для перевода в один и тот же день. И если Google выкатила достойные внимания открытые модели (о них чуть ниже), то OpenAI пошла по пути наименьшего сопротивления и представила веб-переводчик на базе ChatGPT.

Инструмент поддерживает 50 языков и внешне подозрительно напоминает интерфейс Google Translate. Выглядит это не как отдельная специализированная модель, а как системный промпт, «заворачивающий» обычный ChatGPT в нужный формат. Зачем нужен отдельный интерфейс, если GPT вполне справляется с этим в основном окне, — загадка. Видимо, главное было застолбить нишу.
OpenAI решила, что верить дате рождения в профиле — это для слабаков. Теперь ChatGPT будет анализировать ваше поведение в чате, чтобы вычислить реальный возраст. Алгоритм смотрит на всё: словарный запас, время активности, тематику запросов.
Если система решит, что аккаунт принадлежит подростку, она принудительно включит «детский режим» с цензурой. Ошиблись и записали 30-летнего бородатого сеньора в школьники за любовь к играм? Придется доказывать зрелость через селфи-верификацию. Шаг логичный с точки зрения регуляторики, но сам факт того, что ИИ теперь профилирует поведение пользователя в реальном времени, добавляет нотку антиутопии.
Пожалуй, самый интересный релиз в этой пачке — запуск Prism. Это попытка OpenAI сделать для исследователей (и студентов-дипломников) то, что GitHub Copilot сделал для программистов. Платформа представляет собой облачную среду для написания научных работ и коллаборации, построенную на базе приобретенного ранее LaTeX-редактора Crixet.

В отличие от привычного сценария «копипастим кусок статьи в чат — просим поправить», здесь GPT-5.2 интегрирована нативно. Модель видит весь контекст проекта: структуру документа, базу ссылок, сложные уравнения и графики. Это позволяет ей не просто генерировать текст, а выполнять структурные задачи: отрефакторить формулы, подтянуть релевантную литературу из arXiv или превратить фотографию исписанной маркерной доски сразу в валидный LaTeX-код.
Доступ сделали пока что бесплатным, притом, что в основе лежит GPT-5.2 в режиме Thinking — самая мощная на данный момент версия с продвинутым ризонингом.
Если раньше мы копировали файлы в чат, чтобы получить анализ, то с релизом Cowork Anthropic предлагает просто отдать ключи от файловой системы нейросети. Новый агент для macOS — это попытка перенести опыт взаимодействия с ИИ из браузера непосредственно в рабочую среду. Вы выделяете папку, и Claude начинает в ней «хозяйничать». Он может не только читать документы, но и переименовывать файлы, создавать новые таблицы из вороха скриншотов или наводить порядок в вечно забитых «Загрузках». Агент работает итеративно: составляет план, выполняет его шаг за шагом и, если нужно, лезет в интернет за дополнительной информацией.

Однако передача доступа на таком уровне вызывает закономерные вопросы о безопасности процесса. В документации прямым текстом сказано: агент имеет право на деструктивные действия, включая удаление файлов, если решит, что это часть задачи. Конечно, разработчики предусмотрели механизмы подтверждения и защиты от prompt injection, но сама перспектива того, что «галлюцинация» модели может стереть важный проект, заставляет нервничать. Пока инструмент доступен в статусе Research Preview, и использовать его лучше в песочнице, а не на рабочей машине с продакшен-ключами.
Жизнь сторонних ИИ-редакторов вроде Cursor и Windsurf с недавних пор резко усложнилась: Anthropic выкатила официальное расширение Claude Code для VS Code. Теперь Claude нативно интегрируется в IDE, получая доступ не только к редактору кода, но и к терминалу. Это позволяет реализовать полноценный цикл разработки внутри одного окна: нейросеть пишет код, сама запускает тесты в консоли, читает логи ошибок и вносит правки.

Работа строится через полноценные агентские циклы, а не просто режим «вопрос-ответ». Claude может переходить в Plan Mode, где сначала расписывает стратегию изменений, и только после утверждения приступает к кодингу. А если нейросеть всё же накодила лишнего, спасает система чекпоинтов — одной кнопкой можно откатить не только переписку, но и физическое состояние файлов к моменту до внесения правок. Добавьте сюда поддержку протокола MCP для подключения внешних инструментов (например, GitHub или баз данных), и получается серьезная заявочка от Anthropic на make VS Code great again.
Логичным продолжением экспансии стало обновление расширения Claude in Chrome, которое стало доступно в режиме беты для всех платных тарифов. Инструмент умеет читать DOM-дерево, кликать по кнопкам, заполнять формы и скачивать файлы. Но самое интересное — это интеграция с упомянутым выше Claude Code. Теперь возможен сценарий «build-test-verify»: вы пишете код в терминале, агент сам открывает локалхост в Chrome, прокликивает интерфейс, читает ошибки в консоли браузера и возвращает эту информацию обратно в редактор для исправления багов.

Для рутинных задач предусмотрели макросы и расписание: можно научить агента каждое утро заходить в CRM и скачивать отчеты. Правда, список разрешений, которые требует расширение, выглядит пугающе полным — от управления вкладками до чтения всех данных на всех сайтах. Для тех, кто беспокоится о приватности, это может стать стоп-фактором, но для автоматизации тестирования UI такой уровень доступа — неизбежная жертва.
Anthropic решила не отставать от OpenAI и тоже зашла на территорию медицины, но, кажется, подготовилась чуть основательнее. Представленный пакет Claude for Healthcare — это набор инструментов для работы с данными, защищенными HIPAA (американский стандарт медицинской тайны). Модель научили «общаться» с государственными базами данных (CMS, CDC), реестрами заболеваний (ICD-10) и системами клинических исследований.

Для простых смертных это означает возможность подключить Claude к своим медицинским данным через Apple Health или лаборатории вроде Function. Пользователи из США Pro и Max тарифов могут дать модели доступ к своим данным, чтобы она объяснила результаты анализов или нашла закономерности в тренировках. Но основной прицел явно на Enterprise-сектор: помощь страховым в разборе апелляций, ускорение одобрения процедур и даже поддержка клинических исследований через интеграцию с Medidata и ClinicalTrials.gov.
Anthropic продолжает играть в открытость и публикует обновленную «Конституцию» Claude — документ, определяющий, «что такое хорошо и что такое плохо» для их моделей. Это реальный набор инструкций, который используется в процессе обучения, чтобы модель реже предлагала пользователю собрать бомбу и чаще была полезной.

Ключевое отличие новой версии — отказ от списка жестких правил в пользу объяснения принципов. Разработчики пришли к выводу, что тупой запрет работает хуже, чем попытка объяснить модели, почему в определенных ситуациях лучше промолчать или быть дипломатичной. Документ отдает приоритет широкой безопасности вроде «не помогать создавать биооружие», затем этике и честности, и только потом — полезности. Документ опубликован под лицензией CC0, так что любой желающий может взять его за основу для воспитания собственных нейросетей.
В отличие от OpenAI, Google пошла по пути опенсорса и выложила TranslateGemma — семейство открытых моделей, специально обученных переводу. И тут есть чему порадоваться любителям локального запуска. Модели доступны в размерах 4B, 12B и 27B, причем инженеры утверждают, что благодаря дистилляции знаний из старших Gemini и RL-тюнингу даже малышка на 4B параметров в задачах перевода работает на уровне базовой Gemma 3 12B.

Поддерживается 55 языков официально и еще около 500 языковых пар экспериментально, при этом мультимодальность Gemma 3 никуда не делась — модель может переводить текст прямо на изображениях. Самая младшая версия оптимизирована для мобильных устройств, средняя запускается на обычном ноутбуке, старшая — на одной H100 GPU или TPU в облаке. Веса уже лежат на Hugging Face, так что можно смело качать и тестировать. Для тех, кто строит приватные офлайн-переводчики или не хочет слать данные в облако, это подарок.
Функция, которую мы ждали (или боялись) с момента появления Gemini, наконец-то здесь. Google запустил Personal Intelligence — функцию глубокой интеграции Gemini с вашими Gmail, Google Photos и другими сервисами компании в единый контекст.
Как это работает на практике? В примере из блогпоста пользователь забыл размер шин своей машины, стоя в сервисе. Gemini нашла фото машины в Google Photos, вытащила номерной знак, нашла в почте письмо от дилера с комплектацией и выдала точные параметры резины. Это однозначно впечатляет, только сложно пока сказать, в хорошем или плохом смысле.

В Google клянутся, что приватность на первом месте: все вычисления происходят внутри контура безопасности Google, данные не используются для дообучения моделей (только ваши промпты и ответы с фильтрацией личных данных), а приложения коннектятся только вами вручную. Но факт остается фактом: Gemini теперь знает о вас больше, чем ваша мама, и готов использовать это знание по первому запросу.
Видимо, маркетологи Google тоже читали новости про тариф за $8 от OpenAI и решили не отставать. Новый план AI Plus за $7,99/мес предлагает доступ к Gemini 3 Pro и Nano Banana Pro, инструменты для видеогенерации в Flow, NotebookLM и 200 ГБ облачного хранилища в придачу.

Более того, подписку можно делить на пятерых членов семьи. Это явная попытка задавить конкурентов экосистемой: зачем платить только за чат-бота, если за те же деньги (даже на цент дешевле!) тебе дают еще и место на диске, и доступ к куче сервисов? А для новых подписчиков — еще и скидку 50% на первые два месяца.
Команда Cursor продолжает оптимизировать работу агентов, и их новый апдейт Dynamic Context Discovery — это настоящий инженерный подарок. Раньше, когда вы просили ИИ поработать с кодом, в контекст летело всё подряд: длинные ответы терминала, бесконечные списки инструментов MCP и история чата. Это раздувало расходы и сбивало модель с толку.
Теперь Cursor перешел на динамический подход. Длинные выхлопы терминала и результаты работы инструментов не вставляются в промпт целиком, а сохраняются во временные файлы, на которые модель получает ссылку. Если понадобится, она прочитает их через tail или поиск. MCP-серверы, которые раньше выгружали описания всех своих тулзов в промпт, теперь синхронизируют их в папку, и агент ищет нужный инструмент через поиск, как обычный файл. В тестах это снизило потребление токенов в задачах с MCP-инструментами почти на 47%, а качество ответов выросло, потому что модель не путается в куче лишней информации.

Alibaba Cloud продолжает дышать в спину американским конкурентам. Их новый флагман Qwen3-Max-Thinking позиционируется как прямой конкурент GPT-5.2 и Claude Opus 4.5. И судя по бенчмаркам, у них это получается. В тесте LiveCodeBench модель набирает 85.9%, обгоняя DeepSeek V3.2, а в математическом HMMT Feb 25 почти догоняет GPT-5.2.

Из наиболее интересных новшеств — Test-time Scaling. Вместо того чтобы просто генерировать 100 вариантов ответа и выбирать лучший, модель использует стратегию «накопления опыта». Она проводит несколько раундов размышлений, где каждый следующий шаг учитывает ошибки предыдущего, не начиная все с нуля. Это позволяет при тех же затратах вычислительных ресурсов получать результат качественнее, чем у стандартных методов. Также завезли адаптивный Tool Use: модель сама решает, когда ей нужен Python-интерпретатор или поиск, без явных указаний пользователя.
API, кстати, полностью совместим с OpenAI и Anthropic, так что подключить новинку к тому же Claude Code можно одной строчкой в конфиге.
DeepSeek выпустили вторую версию своего OCR-движка и, как всегда, подошли к проблеме нестандартно. Обычно визуально-языковые модели сканируют картинку тупо по сетке: слева-направо, сверху-вниз. Это ломает логику при чтении сложных документов — газетных врезок, таблиц или схем.
В DeepSeek-OCR 2 внедрили новый DeepEncoder V2, который пытается имитировать паттерны человеческого зрения. Он сначала строит глобальное понимание структуры документа, а потом динамически переупорядочивает визуальные токены в логической последовательности. То есть модель сначала «смотрит» на заголовок, потом на связанную картинку, и только потом на подпись к ней, игнорируя геометрическое соседство.

На практике это дало SOTA-качество распознавания сложных макетов (таблицы, формулы). При этом модель укладывается всего в 1120 визуальных токенов, как, к примеру, Gemini 3 Pro, а работает точнее. И что приятно, вес модели на 3 миллиарда параметров традиционно выложили в открытый доступ.
Moonshot AI выпустили Kimi K2.5 — мультимодальную модель на 15 триллионов токенов, которую они скромно назвали «самой мощной открытой моделью на данный момент». Но интересна она не столько бенчмарками (хотя там все солидно: где-то на уровне, а где-то даже превосходит GPT-5.2 и Claude Opus 4.5), сколько сменой парадигмы работы агентов.
Во-первых, K2.5 — это нативный мультимодал. Она не просто «видит» картинки, а способна использовать визуальный контекст для написания кода. К примеру, модель может посмотреть видеозапись работы интерфейса и сгенерировать точный фронтенд-код, повторяющий анимации и логику. В задачах вроде «найди выход из лабиринта на картинке» она использует Code Interpreter, чтобы превратить пиксели в матрицу и решить задачу алгоритмически (BFS), визуализируя путь обратно на изображении.
Во-вторых (и это главное), представлен режим роя агентов. Если задача слишком сложная для одного агента, K2.5 сама создает себе «команду» из специализированных субагентов (до 100 штук!), распределяет между ними задачи и координирует выполнение. В тестах такой рой сократил время выполнения задач в 4,5 раза, выполняя до 1500 вызовов инструментов параллельно. Теперь, чтобы найти «топ-3 ютубера в 100 нишах», модель не гуглит их по очереди, а запускает сотню параллельных процессов. Обучали эту армию методом PARL (Parallel-Agent Reinforcement Learning), чтобы оркестратор не сваливался в последовательное выполнение, а реально делегировал задачи.

Доступ к модели открыт через API и веб-интерфейс (включая бета-тест роевого режима).
Meta официально объявила о приобретении стартапа Manus за внушительные $2 млрд. Для тех, кто пропустил: Manus — это сингапурский стартап, чей general AI agent наделал шума весной 2025 года, показав реальные кейсы автоматизации и выйдя на $100 млн годовой выручки от подписок.

Однако сделка может оказаться не такой гладкой. Проблема в том, что основатели Manus создали материнскую компанию Butterfly Effect в Пекине в 2022 году, а в Сингапур переехали только в середине этого года. Это уже вызвало нервную реакцию у регуляторов по обе стороны океана. В США сенаторы недовольны «утечкой» капитала в проект с китайским прошлым, а Пекин уже начал проверку на предмет нарушения экспортных правил и нацбезопасности. Meta, впрочем, уверяет, что Manus полностью переедет, оборвет связи с Китаем и интегрируется в экосистему Facebook/Instagram. Если сделка устоит, у миллиардов пользователей Meta появятся карманные агенты, которые наконец-то смогут делать что-то полезное, кроме генерации картинок с котиками.
Судебная тяжба Илона Маска продолжает поставлять инсайды, от которых у простых инженеров дергается глаз. Из опубликованной переписки стало известно, что доля Ильи Суцкевера в OpenAI по состоянию на ноябрь 2023 года оценивалась примерно в $4 млрд (при оценке компании в $29 млрд). Если экстраполировать это на текущую оценку в $850 млрд, то состояние Ильи могло бы превышать $100 млрд, ставя его в один ряд с богатейшими людьми планеты.

Почему это важно? Илон Маск в своем иске пытается доказать, что OpenAI превратилась в машину по обогащению отдельных лиц, нарушив свою некоммерческую миссию. Наличие такого пакета акций у главного ученого и инициатора корпоративного «переворота» в OpenAI добавляет ситуации пикантности: получается, что внутренний конфликт происходил между людьми, чьи состояния исчисляются миллиардами, заработанными на «открытом» ИИ. Конечно, это «бумажные» деньги, размытые последующими раундами, но порядок цифр объясняет, почему ставки во внутреннем конфликте были так высоки. Впрочем, сейчас Илья строит свой Safe Superintelligence (SSI) и, судя по всему, бедствовать там тоже не планирует.
Но Илон Маск, похоже, не собирается останавливаться на достигнутом, и 16 января подал новый иск, на этот раз с конкретным ценником. Миллиардер требует от OpenAI и Microsoft компенсацию в размере $134 млрд.
Логика иска строится на понятии «неправомерной прибыли». Предъява такая: Маск вложил около $38 млн (60% раннего seed funding), помог нанять персонал, дал доступ к контактам и репутацию, а OpenAI и Microsoft получили от этого $65,5–109,4 млрд и $13,3–25,1 млрд соответственно. Следовательно, превращение некоммерческой лаборатории в коммерческого гиганта нарушает изначальный договор, и Маск имеет право на долю от того пирога, который испекли на его деньгах. Microsoft и OpenAI уже назвали иск «несерьезным» и частью кампании по харассменту конкурента. Суд присяжных тем временем запланирован на апрель.
Anthropic решила навести порядок в том, кто и как использует их модели, и сделала это радикально.
Во-первых, компания заблокировала доступ инженерам xAI к модели Claude Opus 4.5 через Cursor. Причина прозаична: условия использования прямо запрещают применять модели для создания конкурентных продуктов.

Во-вторых, Anthropic запретила использовать личные подписки в сторонних open-source клиентах вроде OpenCode. Раньше это был популярный лайфхак: вы покупали обычную подписку Claude Pro и прокидывали токен в удобный интерфейс, экономя на дорогом API. Теперь лавочка прикрыта. Официальная причина — «забота о UX» (мол, в стороннем софте всё глючит, а винят нас), реальная — защита юнит-экономики. API продавать выгоднее, чем безлимитную подписку, которую «доят» через сторонний софт. Сообщество OpenCode в трауре и ищет обходные пути, но пока безуспешно.
На десерт компания заключила двухлетнее партнерство с Python Software Foundation (PSF) и инвестирует $1,5 млн в развитие экосистемы. Деньги пойдут на создание инструментов для автоматической проверки пакетов в PyPI на вредоносный код.
Учитывая, что supply-chain атаки стали бичом индустрии, а проверка пакетов работает реактивно (по факту жалоб) — инициатива полезная. Планируется создать новый датасет малвари и инструменты превентивного аудита, чтобы ловить угрозы еще на этапе загрузки, а не после того, как они разъедутся по миллионам серверов. Если это сработает, выиграют все: и разработчики, уставшие от supply-chain атак, и сама Anthropic, чьи модели будут реже предлагать к установке зараженные пакеты.

В Thinking Machines Lab (стартап экс-CTO OpenAI Миры Мурати) разыгралась мыльная опера, достойная экранизации. Компанию со скандалом покинули сооснователи Баррет Зоф (CTO) и Люк Метц, вернувшись обратно под крыло Сэма Альтмана в OpenAI.
По данным WSJ, конфликт начался еще летом. Зоф активно лоббировал найм бывшей коллеги из OpenAI (на позицию ниже своей, но не в прямое подчинение), скрыв факт отношений с ней. Когда тайное стало явным, женщина уволилась, а Зоф (заявивший, к слову, что стал «жертвой манипуляции» с ее стороны) после перерыва в работе был понижен до роли технического контрибьютора. После этого его активность в Slack резко упала, хотя сам виновный списывал это на семейные обстоятельства.
Развязка наступила в январе. Троица недовольных (Зоф, Метц и Сэм Шонхольц) потребовала от Мурати передать Зофу полный контроль над техническими решениями. В ответ CEO, уже знавшая о его тайных переговорах с Сэмом Альтманом и ужинах с конкурентами из Meta, уволила мятежного сооснователя.
В итоге, стартап, которому нет и года, уже потерял половину отцов-основателей (ранее Эндрю Таллок ушел в Meta). А OpenAI получила обратно свои кадры, укрепив позиции после прошлогоднего оттока талантов.
В рамках коллективного иска писателей против Nvidia всплыли внутренние документы, которые ставят компанию в крайне неловкое положение. Оказалось, что сотрудники Nvidia напрямую связывались с администрацией библиотеки Anna’s Archive (известного пиратского ресурса), чтобы получить доступ к миллионам защищенных авторским правом книг.

Согласно переписке, представители Anna’s Archive честно предупредили корпорацию, что контент у них, мягко говоря, нелицензионный. Однако менеджмент Nvidia якобы дал зеленый свет уже через неделю, оправдывая это «конкурентным давлением» — мол, другие уже обучаются на всем подряд, нам нельзя отставать. В итоге компания предположительно скачала около 500 ТБ данных. Если суд признает это доказанным фактом, аргумент про «добросовестное использование» рассыплется в прах: одно дело — скачать что-то из открытого интернета, и совсем другое — вести переговоры с пиратами о выделенном канале для скачивания краденого.
Wikimedia Foundation показала мастер-класс по монетизации. Организация официально объявила о заключении контрактов с Microsoft, Meta, Amazon, Perplexity и Mistral AI. Теперь техногиганты будут платить за использование контента энциклопедии для обучения своих моделей (наконец-то).
Важный нюанс: сама Википедия остается бесплатной и распространяется по свободной лицензии. Компании платят не за авторские права, а за Wikimedia Enterprise — коммерческий API, который позволяет выкачивать массивы данных на высокой скорости без перегрузки публичных серверов фонда. Google, к слову, подписалась на эту услугу еще в 2022-м.
Стартап Autoncorp решил проверить, сможет ли нейросеть вырастить еду. Они подключили Claude к системе жизнеобеспечения растения (свет, полив, датчики) через Arduino и дали агенту полную автономию. Агент круглосуточно мониторил состояние куста через камеру и самостоятельно принимал решения о включении насосов или ламп.

Без приключений не обошлось: в какой-то момент из-за сбоя в коде Arduino система зависла, и растение чуть не погибло без воды. Однако Claude смог диагностировать проблему, «подкрутить» настройки и вернуть систему в строй всего за 13 минут, реанимировав подопечного. Сейчас куст чувствует себя отлично, и авторы эксперимента ждут первый урожай.
Но на этом достижения бота от Anthropic не заканчиваются. Лаборатория JPL NASA впервые использовала Claude для планирования маршрута марсохода Perseverance. Инженеры скормили модели данные с камер и спутниковых снимков, а также обучили ее на спецификациях Rover Markup Language.

Задача была проложить путь через каменистое поле длиной 400 метров. Из-за задержки сигнала 20 минут в одну сторону управлять ровером в реальном времени невозможно, поэтому маршрут планируют заранее. Модель проанализировала снимки местности и сгенерировала команды на языке RML (Rover Markup Language) для прохождения через поле камней. После проверки в симуляторе, где моделируются 500 000+ переменных, план отправили на Марс. В итоге правки от инженеров потребовались минимальные, а время на планирование сократилось вдвое. Ровер успешно проехал по сгенерированному пути, доказав, что LLM могут быть полезны даже там, где нет интернета и атмосферы.
Система Axiom Prover показала феноменальный результат на математическом конкурсе имени Уильяма Лоуэлла Патнэма, решив абсолютно все 12 задач (причем 8 из них — в рамках отведенного времени). Чтобы вы понимали масштаб достижения: этот экзамен считается одним из сложнейших в мире, и медианный балл среди талантливых студентов-математиков там обычно составляет 0 или 1 балл из 120 возможных. То есть ИИ не просто сдал тест, а превзошел уровень топовых человеческих участников. Доказательства выложили тут.
При этом система не просто выдает ответ, а генерирует его на языке формальной верификации Lean. Это значит, что доказательство не просто выглядит правдоподобно (как это бывает у GPT), а математически гарантированно верно, так как проверяется компилятором. Интересно, что в опубликованном отчете разработчики отметили любопытный парадокс: задачи, которые люди щелкают как орешки, для ИИ оказались сложнее в плане формализации, зато в тех, где люди сдавались, модель находила неочевидные и оригинальные пути решения.
Исследователи из Университета Ватерлоо нашли способ обойти знаменитую теорему о запрете клонирования (No-cloning theorem), которая гласит, что невозможно создать идеальную копию произвольного квантового состояния, и попытка это сделать разрушает исходное состояние кубита. Это долгое время было главным препятствием для создания квантовой памяти и бэкапов.

Вместо прямого копирования ученые предложили метод клонирования с шифрованием. Оказывается, если квантовую информацию зашифровать в процессе дублирования, то можно создать сколько угодно копий. Фокус в том, что для их прочтения нужен ключ дешифровки, который является одноразовым. Как только вы расшифровали одну копию, ключи для остальных сгорают. Это не совсем классическое «копирование», но этого достаточно для создания защищенных квантовых облачных хранилищ и систем резервного копирования. Принесет ли это пользу на практике, пока остается под вопросом, но для квантовых вычислений это серьезный шаг.
Поучительная история от португальского разработчика, который на своем опыте узнал, как работают (или не работают) системы безопасности Anthropic. Хуго решил автоматизировать настройку проектов и создал двух агентов в связке: один (Claude A) писал и обновлял инструкции CLAUDE.md для второго (Claude B), чтобы тот лучше кодил.
Схема работала, пока Claude B не начал ошибаться. Первый агент, пытаясь «исправить» коллегу, начал генерировать инструкции, написанные капсом и жестким тоном. Автоматические фильтры Anthropic расценили этот поток команд как попытку Prompt Injection или атаку на систему. Итог — мгновенный бан аккаунта с подпиской Max без предупреждения и объяснения причин. Поддержка молчала несколько дней, после чего просто прислала чек о возврате средств. Хуго, по сути, стал жертвой «черного ящика» модерации: система не поняла контекст рекурсивной работы и предпочла просто отключить подозрительного юзера. Мораль: если вы занимаетесь мета-промптингом, будьте готовы, что робот-полицейский сначала стреляет, а потом разбирается.
Amarsia: платформа берет на себя всю «грязную» работу по инфраструктуре для ИИ-фич. Инструмент сам управляет состоянием диалогов, памятью и версиями моделей, позволяя развернуть сложный ИИ-воркфлоу как готовый API без написания бэкенда.
Capacity: инструмент для spec coding — вы пишете подробную спецификацию, а ИИ генерирует готовый продакшен-код.
Vellum: конструктор ИИ-агентов для рутинных задач. Позволяет описывать воркфлоу на естественном языке, сравнивать ответы разных моделей и запускать автоматизации.

Nativeline: ИИ-платформа для создания нативных iOS-приложений на Swift через чат. Генерирует не React Native, а чистый Swift-код, настраивает базу данных и помогает с деплоем в TestFlight.
Blink.new: full-stack разработка через диалог. Агенты пишут и фронтенд, и бэкенд, выдавая реальный код приложения, а не просто кликабельный прототип.
Fimo: среда для управления веб-сайтами, где контент и структуру можно править через ИИ-запросы. Позволяет итерировать живые проекты без сложной CMS.
Claude R Tidyverse Expert: готовый CLAUDE.md файл с современными конвенциями для R. Дает более чистый и идиоматичный код без необходимости переучивать агента каждую сессию.
Async: ИИ-ассистент для управления продуктом, интегрированный в Slack. Помогает координировать задачи и хранит контекст обсуждений команды (сейчас в бете).
Atoms: инструмент для быстрого запуска продуктов: объединяет этапы стратегии, генерации кода (vibe coding) и реализации в единый воркфлоу.
Opttab: инструмент для GEO. Отслеживает, как ваш бренд ранжируется в ответах ИИ, анализирует тональность и дает советы по оптимизации выдачи.
Interactpitch: платформа для интерактивных презентаций. Слайды оснащены ИИ-аватаром, который может отвечать на вопросы зрителей голосом или текстом.

Kimi Slides: генератор презентаций от создателей Kimi.
Openwork: open-source альтернатива Cowork. Позволяет автоматизировать работу с локальными файлами и документами, используя любую LLM на выбор пользователя.
Claw: no-code инструмент для локальной автоматизации файловой системы. Управляет файлами и запускает агентов через естественный язык, обрабатывая все данные локально.
Invoce: чат-бот для создания инвойсов. Позволяет сгенерировать и отправить счет за пару сообщений, минуя сложные интерфейсы.
Market Terminal: рыночный терминал с ИИ-аналитикой. Агрегирует данные по акциям, крипте и форексу, предоставляя инсайты по настроениям рынка и трендам.

Noodle Seed: ИИ-чат для бизнеса, обучаемый на базе знаний компании. Позволяет создать бота, который общается голосом вашего бренда, записывает клиентов на встречи и помогает им выбирать товары.
LiveDocs: инструмент для аналитики данных на естественном языке. Загружаете CSV, spreadsheet или подключаете базу данных, задаете вопросы — получаете графики, метрики и ответы без SQL и дашбордов.
Scouts: агенты-наблюдатели. Мониторят заданные темы, конкурентов или рыночные сигналы, предоставляя регулярные сводки.
Brief My Meeting: сервис для саммаризации встреч. Вместо транскрипта выдает краткую выжимку и список задач.
remio: персональный ИИ-ассистент. Сохраняет контекст проектов и заметок, позволяя обращаться к ним в будущих диалогах без повторного ввода данных.
PurifAI: утилита для macOS, очищающая текст при вставке. Убирает лишнее форматирование, экономя время на оформлении документов.
Alpine: универсальное рабочее пространство. Объединяет документы, таск-трекер, чат и ИИ, чтобы устранить переключение между вкладками.

Typeless: диктофон с ИИ-редактурой. Работает поверх любых приложений (десктоп/мобайл), на лету убирая слова-паразиты и исправляя грамматику.
Langfinity: переводчик речи в реальном времени. Позволяет проводить встречи на 100+ языках, переводя голос собеседника с минимальной задержкой.
‣ Ограниченные многообразием гипер-связи для стабилизации трансформеров от DeepSeek
Инженеры DeepSeek исправили нестабильность многопоточных связей, внедрив проекцию матриц на многообразие дважды стохастических матриц. Это удерживает сигнал в рамках по всей глубине сети, не давая ему затухать или взрываться. В итоге точность ризонинга растет вместе с масштабом при копеечных затратах на вычисления (+6,7%).
‣ Самоадаптирующиеся языковые модели через извлечение обучающих примеров
Ученые из MIT и OpenAI предложили метод, который позволяет модели самой выбирать лучшие данные для дообучения прямо в процессе работы. LLM извлекает self-edits из контекста, проводит мини-файнтюн и оценивает результат через reward-систему. Qwen2.5-7B после такой адаптации прибавила 15% на тестах SQuAD, фактически став учителем самой себе.
‣ Полярные позиционные эмбеддинги для разделения «сути» и «позиции»
Исследователи заменили стандартные RoPE на полярные координаты, чтобы четко разделить контент («что») и позицию («где»). Это решило проблему спутанности данных в механизме внимания, которая мешала точности. Модели с PoPE лучше обобщают знания на контекст, значительно превышающий их тренировочное окно.

‣ Парадигма вложенного обучения: ИИ как многослойная оптимизация
Авторы предлагают рассматривать обучение как иерархическую систему параллельных оптимизаторов. Главная фишка — модуль Hope, работающий как система непрерывной памяти для самомодификации модели. Это шаг к ИИ, который реально эволюционирует в процессе выполнения задачи, а не просто потребляет контекст.
‣ Глубокое дельта-обучение: замена identity-связей на обучаемые операторы
Исследователи предложили метод, который заменяет стандартные identity-связи на обучаемые операторы Хаусхолдера, позволяя сети самой выбирать тип трансформации сигнала на каждом слое. Такой подход помогает гибко управлять спектром скрытых состояний, что критично для стабильного обучения сверхглубоких сетей.
‣ Эволюция токенов через мягкие маски в диффузионных моделях
Вместо жестких масок, необратимо скрывающих данные, исследователи предложили использовать «мягкие» распределения токенов. Это позволяет модели постепенно уточнять значения слов на каждом шаге диффузии, делая генерацию качественнее. Метод полностью сохраняет совместимость с эффективным KV-кэшированием.
‣ Параллельный скоординированный ризонинг для масштабирования вычислений
Вместо одной длинной цепочки мыслей метод запускает множество параллельных потоков рассуждений. Система заставляет их обмениваться короткими инсайтами и через RL синтезирует финальный ответ. Это позволяет модели эффективно «прожевывать» миллионы токенов вычислений, выходя за рамки своего физического контекста.
‣ Динамические концепт-модели для ризонинга в семантическом пространстве
Подход заменяет обработку отдельных токенов на работу с «концептами» переменной длины в семантическом пространстве. Модель сама решает, какие участки текста плотные по смыслу, и тратит на них больше ресурсов. Это повышает эффективность ризонинга, игнорируя служебный шум и пустые слова.

‣ Генерация «общества мыслей» для коллаборативного решения задач
Исследование того, как генерация нескольких взаимодействующих агентов-мыслей внутри одного прогона улучшает результат. Субличности с разными ролями спорят и дополняют друг друга, что мешает модели галлюцинировать в одну сторону и помогает находить более глубокие решения.
‣ Обучение во время тестирования: использование контекста как обучающих данных
Nvidia предлагает радикально пересмотреть работу с памятью: контекст теперь — это не просто данные для KV-кэша, а обучающий датасет. Пока модель читает промпт, она обновляет свои веса через быстрый градиентный спуск. Информация буквально впекается в нейронные связи, обеспечивая константное время генерации. На контексте в 2 млн токенов это дает ускорение в 35 раз по сравнению со стандартным Attention.
‣ KVzap: эффективное сжатие KV-кэша через предсказание важности токенов
KV-кэш остается главной «ахиллесовой пятой» при работе с длинными текстами, и Nvidia нашла способ сжать его в 3–4 раза почти даром. Метод использует крошечную обучаемую модель, которая по скрытому состоянию токена предсказывает, насколько его KV-пара будет важна в будущем. Лишние токены просто выбрасываются, что дает колоссальную экономию памяти при вычислительных затратах всего в 0,02% от общего объема FLOPs.
‣ Динамическая пересортировка контекста по важности от Sakana AI
Метод позволяет моделям самим «переставлять мебель» в своей памяти. С помощью обучаемого модуля RePo подтягивает важные факты из глубины контекста поближе к голове внимания, отодвигая шум. На зашумленных тестах это дало прирост в 11,5 пункта, помогая модели не терять нить в длинных документах.
‣ Рекурсивные языковые модели для работы с бесконечным контекстом
Авторы предложили рассматривать длинные данные как внешнюю среду, которую модель изучает через рекурсивные вызовы самой себя. Вместо борьбы за размер окна контекста, ИИ программно исследует фрагменты инпута. Это позволяет работать с объемами данных, кратно превышающими архитектурные лимиты.

‣ Сжатие банков памяти для непрерывной адаптации LLM
Метод решает проблему «забывания» при дообучении через внешние банки памяти с обучаемыми кодовыми книгами. LLM может непрерывно впитывать новые знания, сохраняя их в сжатом виде и не перегружая основные веса. Это обеспечивает стабильную адаптацию к новым доменам без деградации старых навыков.
‣ Ось Ассистента: геометрия и контроль «личности» модели
В Anthropic нашли в активациях моделей «ось ассистента», которая геометрически определяет его личность. Если активации уплывают в сторону, модель начинает вести себя неадекватно. Исследователи научились принудительно удерживать проекцию на эту ось, что на 60% снизило количество токсичных ответов без потери качества.
‣ Промышленные методы детекции кибератак в Gemini
В этой работе Google оценивает реальные способы защиты моделей от использования в киберпреступлениях. Авторы тестируют активационные зонды для Gemini 2.5 Flash, которые должны распознавать вредоносные промпты на ранних стадиях. Статья дает конкретные рекомендации по деплою таких систем защиты в продакшен, чтобы они работали быстро и не страдали от длинного контекста.
‣ Гайд по контекстной персонализации и памяти агентов от OpenAI
OpenAI представила систему структурированного управления памятью агентов. Вместо хаотичного поиска по истории чата предлагается вести JSON-профиль с жесткими фактами и гибкими заметками. После каждой сессии агент сам консолидирует записи, разрешая конфликты и удаляя дубликаты.
‣ RealMem: оценка долговременной памяти в реальных взаимодействиях
Исследование долговременной памяти в кросс-сессионных диалогах. RealMem проверяет, как агент умеет вытаскивать факты из бесед недельной давности, сжимать их и обновлять для поддержания связности. Оценка идет на базе 2000 реальных кейсов, где информация сильно разнесена во времени.
‣ AgencyBench: бенчмарк автономных агентов на 1 млн токенов
Хардкорный бенчмарк для проверки автономных агентов в реальных условиях. Он включает задачи, требующие в среднем 1 млн токенов контекста и 90 обращений к инструментам (API, Docker). Это позволяет честно измерить, насколько хорошо ИИ держит сложную задачу в течение сотен итераций.

‣ Состояние LLM в 2025: прогресс, проблемы и прогнозы
Глобальный обзор индустрии от Себастьяна Рашки, структурирующий весь хаос релизов 2025 года. Автор выделяет главные сдвиги в ризонинге и пост-тренинге, предоставляя готовую ментальную карту со ссылками на ключевые работы для тех, кто хочет быстро войти в курс дела.
‣ Сравнение языков для пространственного анализа данных
Академическое сравнение R, Python и Julia в контексте работы с геоданными (GIS). Исследование вскрывает фундаментальные различия в поддержке сферической геометрии и форматов данных, помогая инженерам выбрать правильный стек для сложных пространственных проектов.
‣ Адвент-календарь Claude: 31 совет по использованию Claude Code
Практический марафон лайфхаков для пользователей терминального агента Claude Code. Внутри — 31 совет по эффективному управлению памятью, настройке планировщика и автоматизации рутины. Если вы начали использовать Claude Code, но чувствуете, что не используете его мощь на 100%, этот материал для вас.
‣ Большой гайд по работе с «навыками» в Claude
Официальное руководство от Anthropic по созданию собственных «навыков» для Claude Code. Гайд учит упаковывать повторяющиеся воркфлоу в стандартизированные скиллы, которые агент выполняет предсказуемо и быстро, особенно в связке с внешними MCP-коннекторами.
Читать про автономных агентов, управляющих марсоходами и выращивающих помидоры, конечно, захватывающе. Но суровая реальность такова, что завтра нам снова придется объяснять модели, почему она не должна выдумывать методы в API, которого не существует. Пока гиганты делят миллиарды в судах и внедряют рекламу в каждый свободный пиксель, нам остается самая интересная часть — пытаться заставить весь этот «зоопарк» работать в реальном продакшене без бана аккаунта.
А на сегодня у нас всё, расходимся работать (или смотреть, как за нас это делают агенты). Традиционно ждем ваши мысли в комментариях!