Делимся подборкой важных и интересных событий из мира AI и машинного обучения за последний месяц. Сегодня в программе: Нобелевские премии за прорывы в ИИ, новые модели от tech-гигантов, 70 000 новых вирусов и затерянные в пустыне города, а также обзор свежих инструментов для работы с нейросетями.
Мы расскажем о последних достижениях в области генерации контента и новых фреймворках для разработчиков, а также поделимся интересными исследованиями, которые могут изменить наше понимание возможностей языковых моделей.
Поехали!
В этом году Нобелевский комитет решил не отставать от трендов и присудил премии по физике и химии ученым, чьи работы заложили фундамент для развития современных ИИ-систем.
Нобелевскую премию по физике получили Джон Дж. Хопфилд и Джеффри Э. Хинтон. Хотя их исследования основаны на физических принципах, они оказали огромное влияние на развитие машинного обучения и ИИ. Теперь их открытия используются в таких сервисах, как поиск Google, Siri и ChatGPT.
А вот премию по химии отхватили Демис Хассабис и Джон Джампер из Google DeepMind, а также Дэвид Бейкер из Вашингтонского университета за прорывную работу по предсказанию структуры белков. Похоже, скоро компьютеры будут не только обыгрывать нас в Го, но и готовить идеальные протеиновые коктейли.
На мероприятии Tesla «We, Robot» 10 октября 2024 года Илон Маск представил маршрутку Robovan, способную перевозить до 20 пассажиров, и Cybercab — компактный двухместный электромобиль, предназначенный для автономной работы. Видимо, Маск решил, что двое — это идеальная компания, а третий — лишний, даже если это водитель.
На протяжении всего действа роботы Tesla Optimus разливали напитки и играли в «камень, ножницы, бумага» с гостями. Однако позже выяснилось, что роботы управлялись людьми, а не были полностью автономными, как предполагали некоторые. Инвесторов этот трюк не впечатлил. Акции Tesla снизились на 8%, а критики заявили, что мероприятие было больше похоже на модный показ, чем на презентацию технологий будущего.
Дарио Амодей, генеральный директор Anthropic, опубликовал развернутое эссе, в котором изложил свое оптимистичное видение будущего ИИ. Амодей прогнозирует, что к 2026 году появится «мощный ИИ» (не AGI, обратите внимание), способный превзойти лауреатов Нобелевской премии в таких областях, как биология и инженерия. Он считает, что этот ИИ сможет управлять любым программным или аппаратным обеспечением, выполнять большинство работ, которые сейчас делают люди, и даже проектировать собственные инструменты. ИИ, по его мнению, справится с мировым голодом, остановит изменение климата и превратит экономику развивающихся стран в настоящие райские кущи.
Однако он признает потенциальную опасность ИИ для гражданского общества и намекает, что неплохо бы обсудить, как будет устроена экономика в мире, где главный работник — искусственный интеллект.
Прочитать полное эссе можно тут.
Пока в Anthropic предрекают светлое будущее, OpenAI анонсирует массу новых инструментов.
Компания представила Canvas — новый интерфейс ChatGPT, оптимизированный для проектов по написанию текстов и программированию. Canvas открывает отдельное окно рабочего пространства, где пользователи могут генерировать текст или код, а затем выбирать разделы для редактирования ИИ-моделью.
Другое нововведение — Realtime API, который позволит встраивать в продукты ИИ, способный вести текстовый или голосовой диалог практически без задержек. Также добавлена тонкая настройка, дающая возможность использовать изображения для обучения приложений — достаточно загрузить 100 картинок, чтобы модель научилась распознавать необходимые объекты.
Кроме того, OpenAI представила кэширование запросов для API, что значительно сократит время отклика и нагрузку на серверы, а также дистилляцию моделей, позволяющую сжимать крупные модели до более компактных версий с сохранением производительности на узком спектре задач. При этом компания заявила, что в этом году не планируется выпуск новых моделей, таких как o1 и Sora, так что ждем дальше.
На платформе Kaggle завершилось соревнование, организованное совместно с LMSYS, в котором участники должны были предсказывать пользовательские предпочтения, определяющие места моделей на чатбот-арене. Разборы решений победителей уже доступны на YouTube и в виде райтапа на Kaggle.
Среди интересных выводов: модель Gemma-2-9b оказалась наиболее эффективной в понимании человеческих предпочтений; участники, использовавшие более крупные модели и дистилляцию, добились наибольшего успеха; специальные модели Reward/ranking показали себя эффективнее базовых или instruct моделей; псевдо-лейблинг вновь стал главным инструментом победителей, а усреднение оценок нескольких LoRA оказалось выигрышной стратегией.
Представьте себе археолога, бредущего по бескрайним просторам пустыни Руб-эль-Хали. Эта огромная пустыня, занимающая большую часть Аравийского полуострова, хранит свидетельства тысячелетней человеческой деятельности. Как тут можно найти хоть что-то? Даже ее название говорит само за себя — «Пустой квартал».
Команда исследователей из Университета Халифы в Абу-Даби нашла решение. Они разработали алгоритм машинного обучения, который может анализировать радиолокационные снимки с синтезированной апертурой (SAR) и находить потенциальные места для раскопок. В отличие от традиционных спутниковых снимков, SAR может проникать сквозь песок и растительность, выявляя структуры под поверхностью. Кто бы мог подумать, что компьютер станет лучшим другом Индианы Джонса?
Искусственный интеллект проникает во все сферы нашей жизни, но может ли он понять наши чувства?
Ученые из Университета Окленда решили устроить ИИ экзамен по эмоциональной грамотности, используя посты из Twitter. Они использовали трансформер трансферного обучения, предварительно натренированный на огромных текстовых массивах, чтобы научить ИИ распознать радость, гнев, грусть и отвращение в постах пользователей. Результат? Впечатляющая точность в 84%. Но ученые на этом не остановились. Они проанализировали твиты с упоминаниями двух новозеландских организаций, принимающих пожертвования, и попытались разобраться, как выраженные в постах эмоции коррелируют с реальным поведением людей.
Оказалось, посты, передающие грусть, чаще побуждали людей жертвовать деньги в Фонд Фреда Холлоуза, тогда как гнев был связан с увеличением пожертвований Университету Окленда. Это показывает, что ИИ может не только распознавать эмоции, но и предсказывать их влияние на наши действия.
Ученые использовали ИИ для обнаружения 70 500 ранее неизвестных науке вирусов, многие из которых являются странными и непохожими на известные виды. РНК-вирусы были идентифицированы с помощью метагеномики — этот метод позволяет отбирать все геномы, присутствующие в окружающей среде, вместо культивирования отдельных вирусов.
Ши Ман, эволюционный биолог из Университета Сунь Ятсена в Шэньчжэне, Китай, и его коллеги разработали модель под названием LucaProt на основе архитектуры трансформер. Они обучили свою модель распознавать вирусные РНК-зависимые РНК-полимеразы (RdRp) и использовали ее для поиска последовательностей, кодирующих эти ферменты, в большом массиве геномных данных. Используя этот метод, они идентифицировали около 160 000 РНК-вирусов, в том числе некоторые исключительно длинные, обнаруженные в экстремальных условиях, таких как горячие источники, соленые озера и воздух.
Расширение пула известных вирусов облегчает поиск подобных им вирусов и помогает понять происхождение микробов и их эволюцию в различных хозяевах. Ши сейчас разрабатывает модель для прогнозирования хозяев этих недавно идентифицированных РНК-вирусов, надеясь, что это поможет ученым понять роль вирусов в их экологических нишах.
Целиком исследование можно почитать тут.
Nvidia представила новое семейство моделей NVLM 1.0 с открытым исходным кодом, по заявлениям способное конкурировать с ведущими моделями от OpenAI, Anthropic и Google. Флагманская модель NVLM-D-72B содержит 72 миллиарда параметров. Nvidia планирует сделать исходный код NVLM публично доступным, что контрастирует с подходом конкурентов, тщательно охраняющих свои модели.
Еще больше шума навела Llama-3.1-Nemotron-70B-Instruct. NVIDIA прокачала эту языковую модель, чтобы она выдавала ответы поумнее. В интернете разгоняют слух, что она лучше, чем GPT-4o и Sonnet-3.5, но это, конечно, не так. На самом деле их версия чуть хуже чистой Llama-3.1-70b (согласно бенчмарку MMLU), еще и с более жесткой цензурой.
MagicLabs выпустила модель LTM-2-Mini с контекстным окном в 100 миллионов токенов. Это как если бы вы скормили ей 10 миллионов строк кода или 750 романов. Даже Толстой позавидовал бы такому объему. Благодаря архитектуре Long-Term Memory (LTM), не использующей attention, модель обходится в 1000 раз дешевле по сравнению с Llama 3.1 405B и требует для хранения KV-кэша лишь часть HBM одной видеокарты. MagicLabs уже заключила партнерство с Google Cloud и обучает более крупную версию LTM-2 на суперкомпьютере.
Наконец-то стал доступен API моделей Grok-2 и Grok-2 mini с контекстом в 33К токенов. Цены на использование составляют $4.2 за миллион токенов на входе и $6.9 за миллион токенов на выходе. Хотя цена на входные данные несколько завышена по сравнению с конкурентами, стоимость выходных данных, напротив, ниже обычного. Первые тесты показали, что Grok-2 уступает закрытым моделям в программировании, несмотря на высокие результаты на арене LMSYS.
Adobe выпустила свой генератор видео Firefly, предлагающий пользователям широкие возможности настройки, включая частоту кадров, ширину угла и наклон камеры. Firefly позволяет «переснимать» отдельные элементы в готовом видео, дополнять текстовый промт картинкой-референсом и создавать ролики длительностью до 5 секунд в HD-разрешении. Доступ пока только в порядке очереди на сайте Adobe.
Microsoft капитально перелопачивает Copilot. Теперь с голосом и зрением для создания более персонализированного и интерактивного опыта взаимодействия с пользователем.
Meta представляет Movie Gen — ИИ-инструмент для генерации видео, способный создавать высококачественные ролики со звуком, а также редактировать существующие видео или изображения на основе текстовых запросов.
Pika Labs выпустила Pika 1.5 — продвинутую модель генерации видео с акцентом на гиперреализм. Обновление предлагает более естественные движения людей и существ, а также сложные методы работы с камерой для улучшения процесса создания видео.
Пользователи Gemini смогут генерировать изображения с помощью Imagen 3, который предлагает потрясающее качество изображений, реалистичные визуальные эффекты и разнообразные стили, и доступен для всех пользователей, включая бесплатные аккаунты.
Google Photos начинает развертывание обновления на базе Gemini, позволяющего искать фотографии в библиотеке пользователя с помощью естественных языковых запросов. Это нововведение потенциально может заменить традиционные методы поиска. Правда, некоторые боятся за свою приватность.
Pinterest внедряет генеративные ИИ-инструменты, позволяющие рекламодателям улучшать изображения продуктов, привлекать больше кликов и создавать кампании с меньшими затратами. В итоге CTR растет, а цена за клик падает.
Google Lens научили отвечать на еще более заковыристые вопросы. Теперь он поддерживает мультимодальные запросы, расширенные функции покупок и захват видео в реальном времени. Таким темпом скоро и умные очки подвезут.
Фреймворк Swarm от OpenAI упрощает сложности оркестрации кучи агентов. Легковесная и управляемая инфраструктура, основанная на взаимодействии агентов и передаче задач.
Zoom внедряет ИИ-аватары, которые могут посещать встречи и отправлять сообщения от вашего имени. Для создания цифрового двойника, выглядящего и звучащего как вы, используется ваше видео.
OpenR — новый фреймворк с открытым исходным кодом, прокачивающий способность LLM к рассуждению. Он интегрирует передовые методы обучения и обучение с подкреплением для устранения ошибок в умозаключениях моделей.
Напоследок хотим поделиться подборкой интересных свежих исследований по ИИ и ML.
О чем: Ученые из Apple показали, что продвинутые большие языковые модели (LLM) тупят в математике при незначительных изменениях условий. Никаких подлинных навыков логического рассуждения у них нет.
О чем: Эффективное использование энергии в языковых моделях через замену операций умножения с плавающей запятой на операции сложения целых чисел, что позволяет снизить энергозатраты на 95%.
О чем: Новая модель дифференциального трансформера Diff Transformer подавляет шум и способствует разреженным паттернам внимания. Обходит традиционный трансформер в моделировании языка и предлагает плюшки для практических приложений.
О чем: AnLLM — новый подход, использующий самовнимание на основе якорей для сжатия информации в последовательностях. Позволяет уменьшить кэш и повысить эффективность вывода. Потенциально можно выводить в реальном времени.
О чем: MLE-bench представляет собой бенчмарк для оценки производительности агентов ИИ в инженерии машинного обучения. Используют 75 соревнований с Kaggle, чтобы проверить навыки ML-инжиниринга в реальном мире.
О чем: RATIONALYST вводит контроль процесса для рассуждений путем предварительного обучения на обширной коллекции аннотаций с обоснованиями, что повышает точность в различных задачах на рассуждение.
О чем: Presto! представляет новый подход к ускорению генерации музыки с помощью методов дистилляции. Результаты — высокое качество, улучшенное разнообразие и значительно более быстрая обработка.
О чем: LLM демонстрируют значительные пробелы в способностях к рассуждению при решении математических задач школьного уровня, причем у более мелких специализированных моделей этот разрыв выражен сильнее.
О чем: Внутренние представления LLM кодируют информацию о правдивости, которую можно использовать для обнаружения ошибок и прогнозирования типов ошибок, которые модель может допустить. Это дает возможности для улучшения анализа и смягчения ошибок.
О чем: Отчет содержит конспекты лекций вводного курса по машинному обучению в UC Berkeley, охватывающего многие методы классификации, регрессии, кластеризации и снижения размерности.
На этом у нас все. Надеемся, что наша подборка была для вас интересной и полезной.
Мы хотим сделать этот дайджест действительно ценным и информативным, поэтому нам очень важно знать ваше мнение. Что вам понравилось в этом выпуске? О каких темах или событиях вы хотели бы узнать больше? Может быть, недостаточно мемов с котиками? Поделитесь с нами своими мыслями в комментариях!