Привет, на связи Юлия Рогозина, аналитик бизнес-процессов Шерпа Роботикс. Сегодня я перевела для вас статью, посвященную трендам в искусственном интеллекте. Технологии ИИ постоянно развиваются, и нам стоит следить за ними, чтобы успевать за их изменениями и эффективно применять. В этой статье рассматриваются мультимодальный ИИ, малые модели, агентный ИИ, модели с открытым исходным кодом и многое другое. Также в конце я немного порассуждаю о применении корпоративных нейросотрудников, с которыми уже столкнулась в своей работе.
Искусственный интеллект перестал быть концепцией далекого будущего – он уже здесь, эволюционируя с поразительной скоростью и меняя облик различных отраслей на наших глазах. От здравоохранения до развлекательной индустрии, влияние ИИ ощущается повсюду, порождая инновации, повышая эффективность и вызывая этические дебаты. Но в таком бурном потоке изменений, в каком направлении движется индустрия? Чтобы разобраться в этом хаосе, мы составили список самых значимых трендов, которые не только попадают в заголовки новостей, но и определяют следующий этап в развитии ИИ. Эти тенденции подчеркивают прорывные достижения, раздвигающие границы возможностей искусственного интеллекта.
В этой статье мы рассмотрим десять ключевых трендов, формирующих будущее ИИ: от роста многомодальных систем, способных обрабатывать текст, изображения, видео и аудио, до нарастающего спроса на более компактные и эффективные модели. Мы также углубимся в растущее значение открытого кода в ИИ, появление автономных агентов и расширяющуюся роль ИИ в таких областях, как программирование, игры и гуманоидная робототехника. Пристегнитесь, и давайте подробно изучим, как ИИ трансформирует наш мир – шаг за шагом.
Топ-10 трендов в искусственном интеллекте, за которыми стоит следить
С развитием технологий искусственного интеллекта на горизонте появляются ключевые тренды, подчеркивающие самые захватывающие и трансформирующие направления в этой отрасли. От инноваций в архитектуре моделей до применения ИИ в повседневных технологиях — эти тренды открывают нам взгляд на будущее возможностей ИИ. Давайте рассмотрим десять актуальных направлений, которые сейчас двигают индустрию вперед.
1. Мультимодальный ИИ
Большие языковые модели (LLMs) заслужили свое название благодаря тому, что изначально были созданы для обработки текстовых данных. Однако наш мир по своей природе является мультимодальным, поэтому следующим логичным шагом стало создание ИИ-моделей, способных одновременно обрабатывать несколько типов данных. Переход к мультимодальности привел к разработке таких моделей, как GPT-4 от OpenAI, Claude-3.5 от Anthropic и модели Gemini от Google, которые были изначально спроектированы как мультимодальные. Эти модели не только способны понимать и генерировать текст, но также интерпретировать изображения, анализировать аудио и даже обрабатывать видео, открывая новые горизонты возможностей.
Мультимодальный ИИ позволяет реализовать широкий спектр приложений в различных отраслях. Например, такие модели могут обеспечить более динамичную поддержку клиентов, интерпретируя изображения, отправленные пользователями; генерировать креативный контент, такой как сценарии для видео или музыка, на основе комбинации визуальных и текстовых данных; или улучшать инструменты доступности, преобразовывая текст в звук и наоборот. Более того, мультимодальные возможности укрепляют ИИ-модели, знакомя их с разнообразными типами данных, что обогащает процесс обучения и повышает общую точность и адаптивность. Это эволюционное направление к мультимодальности закладывает основу для создания более мощных и универсальных ИИ-систем, открывая новые горизонты в таких областях, как образование, здравоохранение и развлечения.
2. Малые модели
В условиях продолжающейся гонки за лидерство в области ИИ наблюдается значительный тренд на разработку меньших, более эффективных моделей, способных предоставлять высококачественные результаты без необходимости в огромных вычислительных ресурсах. Примеры таких моделей включают GPT-4o Mini от OpenAI, модели Phi-3 от Microsoft Azure, модели On-Device от Apple, LLaMA 3 8B от Meta и Gemma-7B от Google. Эти компактные модели созданы для обеспечения надежной производительности при использовании значительно меньших ресурсов, что делает их подходящими для различных приложений, включая те, которые могут работать непосредственно на мобильных устройствах или крайних вычислительных узлах.
Стремление к созданию малых моделей подпитывается несколькими факторами. Во-первых, они потребляют меньше энергии и требуют меньших вычислительных затрат, что особенно важно для компаний, стремящихся внедрять ИИ-решения в масштабах, сохраняя энергетику. Во-вторых, некоторые из этих моделей, такие как On-Device от Apple, оптимизированы для работы непосредственно на смартфонах и других портативных устройствах, что позволяет использовать ИИ-функции, такие как перевод в реальном времени, распознавание речи и улучшение пользовательского опыта без зависимости от облачных вычислений. Фокусируясь на эффективности и доступности, эти малые модели способствуют демократизации ИИ, делая мощные технологии доступными для более широкого круга пользователей и отраслей, одновременно снижая инфраструктурную нагрузку, обычно связанную с большими моделями.
3. Модели с открытым исходным кодом
Модели с открытым исходным кодом стали краеугольным камнем демократизации ИИ, обеспечивая неограниченный доступ и позволяя разработчикам из различных секторов и с разным уровнем квалификации развивать технологии. Однако продолжаются дискуссии о том, что на самом деле следует считать "открытым исходным кодом". Недавно Open Source Initiative (OSI), ключевой организацией, определяющей стандарты открытого ПО, выпустила новое определение, согласно которому для того, чтобы ИИ-система считалась открытой, она должна позволять всем использовать её в любых целях без необходимости получения разрешения. Более того, исследователи должны иметь полный доступ для проверки её компонентов и понимания работы системы, включая детали о тренировочных данных. По этому стандарту многие ИИ-модели, которые обычно называют "открытыми", могут не полностью соответствовать критериям, поскольку они часто не обеспечивают прозрачности в отношении своих тренировочных данных и накладывают некоторые ограничения на коммерческое использование. В результате такие модели лучше называть "моделями с открытыми весами", которые предлагают открытый доступ к своим весам, но с определенными ограничениями. Модели с открытыми весами сделали впечатляющие шаги вперёд, сокращая разрыв с производительностью ведущих закрытых моделей. Выпуск Meta LLaMA 3.1 405B установил новый стандарт, обойдя проприетарные модели, такие как GPT-4o и Claude 3.5 Sonnet, в ряде ключевых областей. Другими заметными моделями с открытыми весами являются модели Mistral, Grok от xAI Илона Маска и модели Gemma от Google.
Открытые подходы играют важную роль в содействии прозрачности и этичному развитию ИИ, так как более тщательная проверка кода может помочь выявить предвзятости, ошибки и уязвимости в безопасности. Однако существуют обоснованные опасения по поводу потенциального злоупотребления открытым ИИ для генерации дезинформации и другого вредоносного контента. Будущим вызовом станет нахождение баланса между демократизацией разработки ИИ и обеспечением ответственного и этичного использования этих мощных технологий.
4. Агентный ИИ
Агентный ИИ представляет собой значительный сдвиг в возможностях искусственного интеллекта, переходя от реактивных систем к проактивным, автономным агентам. В отличие от традиционных ИИ-моделей, которые работают, реагируя на конкретные пользовательские запросы или следуя заранее установленным правилам, агентные системы способны независимо оценивать окружающую среду, устанавливать цели и выполнять действия без постоянного человеческого контроля. Эта автономия позволяет им самостоятельно решать, какие шаги предпринять для выполнения сложных задач, которые невозможно решить за один раз или с помощью одного инструмента. По сути, агентный ИИ способен принимать решения и действовать в поисках конкретных целей.
Эти продвинутые агенты открывают двери для приложений на невероятно высоком уровне производительности. Один из впечатляющих примеров — AI Scientist, агентная система, которая направляет большие языковые модели на генерацию новых идей для исследований в области ИИ, написание кода для проверки этих идей и даже подготовку научных статей на основе полученных результатов. Другим интересным приложением является TransAgents, использующий многопользовательский рабочий процесс для перевода китайских романов на английский язык. Здесь различные LLM (или экземпляры одной и той же модели) выступают в ролях переводчика или специалиста по локализации, проверяя и редактируя работы друг друга. В результате TransAgents достигает уровня качества перевода, сопоставимого с профессиональными переводчиками.
По мере эволюции агентного ИИ мы, вероятно, увидим ещё больше приложений в различных секторах, расширяя границы того, что ИИ может достигать самостоятельно.
5. Индивидуализированные корпоративные модели ИИ
Хотя масштабные модели общего назначения, такие как GPT-4 и Gemini, привлекли много внимания общественности, их полезность для бизнес-приложений может быть ограниченной. Будущее ИИ в корпоративном пространстве всё больше направляется к меньшим, целенаправленным моделям, разработанным для решения узкоспециализированных задач. Компании требуют ИИ-системы, которые удовлетворяли бы их специфическим потребностям, и эти индивидуализированные модели демонстрируют большую устойчивость и долгосрочную ценность.
Создание совершенно новой модели ИИ с нуля, хотя и возможно, часто является непомерно дорогим и ресурсоемким для большинства организаций. Вместо этого многие выбирают адаптацию существующих моделей, либо модифицируя их архитектуру, либо донастраивая их с помощью специализированных наборов данных. Этот подход более экономичен, чем создание модели с нуля, и позволяет компаниям избежать постоянных затрат на обращения к публичному LLM через API.
Учитывая этот спрос, провайдеры моделей общего назначения адаптируются. Например, OpenAI теперь предлагает опции донастройки для GPT-4o, позволяя компаниям оптимизировать модель для большей точности и производительности в специфических приложениях. Донастройка позволяет регулировать тон, структуру и отзывчивость модели, делая её более подходящей для сложных, специфичных по предмету инструкций.
Уже появляются истории успеха, связанные с этой тенденцией. Genie от Cosine, помощник в области программной инженерии, разработанный на основе донастроенной версии GPT-4o, показывает выдающиеся результаты в разрешении ошибок, разработке функций и рефакторинге кода. Похожая индивидуализированная версия GPT-4o, Distyl, преуспела в таких задачах, как переформулирование запросов, классификация намерений и генерация SQL, демонстрируя силу индивидуализированного ИИ для технических задач. Это только начало — OpenAI и другие компании намерены расширять возможности индивидуализации, чтобы удовлетворить растущий спрос со стороны корпоративного сектора.
Индивидуализированные генеративные инструменты ИИ могут быть разработаны для практически любого бизнес-сценария, будь то поддержка клиентов, управление цепочками поставок или проверка юридических документов. Отрасли, такие как здравоохранение, финансы и право, с их уникальной терминологией и рабочими процессами, могут получить огромную выгоду от этих индивидуализированных ИИ-систем, которые быстро становятся незаменимыми для компаний, стремящихся к точности и эффективности.
6. Генерация с поддержкой извлечения
Одной из ключевых проблем, с которыми сталкиваются модели генеративного ИИ, являются «галлюцинации» — ситуации, когда ИИ генерирует ответы, звучащие убедительно, но фактически неверные. Это представляет собой серьезное препятствие для бизнеса, стремящегося интегрировать ИИ в критически важные или клиентские процессы, где такие ошибки могут иметь серьезные последствия. Генерация с поддержкой извлечения (RAG) появилась как многообещающее решение этой проблемы, предлагая способ повысить точность и надежность выводов ИИ. Используя возможность в реальном времени извлекать информацию из внешних баз данных или источников знаний, RAG позволяет моделям предоставлять фактические и актуальные ответы, а не полагаться исключительно на уже существующие внутренние данные.
RAG имеет глубокие последствия для корпоративного ИИ, особенно в отраслях, требующих высокой точности и актуальности. Например, в здравоохранении системы ИИ, использующие RAG, могут извлекать последние исследования или клинические рекомендации, поддерживая медицинских работников в принятии решений. В сфере обслуживания клиентов чат-боты с RAG могут обращаться к базе знаний компании для точного и релевантного разрешения вопросов клиентов. Аналогично, юридические фирмы могут использовать RAG для улучшения обзора документов, извлекая соответствующее прецедентное право или законы в реальном времени, что снижает риск ошибок. RAG не только помогает сдерживать проблему галлюцинаций, но и позволяет моделям оставаться легковесными, поскольку им не нужно хранить всевозможные знания внутри. Это ведет к более быстрой работе и снижению операционных затрат, делая ИИ более масштабируемым и надежным для корпоративных приложений.
7. Голосовые помощники
Генеративный ИИ преобразует наш способ взаимодействия с голосовыми помощниками, делая диалоги более плавными, естественными и отзывчивыми. GPT-4o от OpenAI с голосовыми возможностями, недавно продемонстрированный, обещает значительный скачок в области разговорного ИИ. Со средней скоростью ответа, близкой к человеческой, он поддерживает более динамичные взаимодействия, позволяя пользователям вести беседы в реальном времени без неловких пауз. В то же время Google активно развивает свой проект Astra, который интегрирует продвинутые голосовые функции для создания бесшовных, интуитивных разговоров между пользователями и ИИ. Эти разработки сигнализируют о серьезных изменениях в том, как будут функционировать голосовые помощники в ближайшем будущем, переходя от базовых командных взаимодействий к богатым, разговорным обменам.
Apple также усиливает свои позиции: Siri вскоре сможет предлагать более естественные ответы, основываясь на последней презентации компании. Ожидается, что улучшения сделают Siri более отзывчивой и интуитивной, что сократит разрыв между человеческим общением и взаимодействием с ИИ. Эта эволюция означает, что вскоре мы будем общаться с голосовыми помощниками так, как будто разговариваем с хорошо осведомленным коллегой. Голосовые помощники могут трансформировать наш подход к различным задачам — от планирования встреч и ответов на электронные письма до управления умными домами и даже помощи в здравоохранении, предоставляя анализ симптомов в реальном времени. Хотя мы, возможно, не будем полагаться исключительно на голосовые команды, способность без усилий переключаться на голосовое взаимодействие вскоре станет стандартом, делая ИИ-помощников более адаптивными и удобными в различных контекстах.
8. ИИ в программировании
Пересечение ИИ и разработки программного обеспечения переживает стремительный рост, что подчеркивается увеличением финансирования, акцентирующего внимание на потенциале сектора. Недавние инвестиции в такие компании, как Magic — стартап, сосредоточенный на генерации кода и собравший ошеломляющие $320 миллионов, и Codeium — платформа для ускорения кодирования на основе ИИ, получившая $150 миллионов в рамках раунда Series C, свидетельствуют о растущем интересе к этому направлению. Также компания Cosine, ранее известная своей усовершенствованной моделью GPT-4o, обеспечила $2,5 миллиона финансирования для своего ИИ-разработчика, который продемонстрировал способность превосходить человеческих кодеров в таких задачах, как отладка и разработка функций. Эти инвестиции указывают на бурный интерес к решениям на основе ИИ в области программирования, поскольку компании ищут способы повышения эффективности и результативности своих процессов разработки ПО.
Генеративный ИИ уже трансформирует процесс кодирования, автоматизируя такие задачи, как генерация кода, отладка и рефакторинг, значительно сокращая время и усилия, необходимые разработчикам для завершения проектов. Например, платформы вроде GitHub Copilot доказали свою способность увеличивать продуктивность разработчиков до 55%, предлагая фрагменты кода, выявляя ошибки и предоставляя помощь в реальном времени. Применение ИИ в программировании выходит за рамки лишь написания кода — ИИ может помогать оптимизировать тестирование, автоматизировать документацию и даже улучшать производительность. Эта повышенная скорость и эффективность выгодны не только отдельным разработчикам, но и целым командам, позволяя им сосредоточиться на более сложных задачах, в то время как ИИ справляется с рутинными и времязатратными аспектами программирования. С дальнейшими достижениями инструменты кодирования на основе ИИ становятся неотъемлемой частью современной разработки ПО.
9. Человекообразные роботы
Человекообразные роботы стремительно набирают популярность на фоне значительных достижений в области робототехники и искусственного интеллекта. Эти машины, созданные для имитации физических возможностей человека, развивают новые функциональные возможности для применения в таких отраслях, как производство, складирование и логистика, где их гибкость позволяет выполнять задачи, требующие точности, ловкости и адаптивности. Компании, такие как Tesla с роботом Optimus, Figure Robotics, Agility Robotics и 1X, возглавляют этот быстро растущий сектор.
Однако применение человекообразных роботов не ограничивается только фабриками и складами. Роботы Neo от 1X и Isaac от Weave предназначены для того, чтобы стать домашними помощниками. Так, недавно представленное устройство Weave может помочь в повседневных делах, таких как уборка и организация пространства. Эти роботы также показывают потенциал в сфере ухода, где они могут помочь пожилым людям в повседневной деятельности или предоставить элемент дружеского общения. По мере дальнейшего развития человекообразные роботы, вероятно, станут более распространёнными как в профессиональных, так и в личных пространствах, поддерживая людей в задачах, требующих физического взаимодействия в повседневной жизни.
10. Искусственный интеллект в играх
Искусственный интеллект кардинально трансформирует игровую индустрию, при этом генеративный ИИ занимает лидирующие позиции, позволяя автоматически создавать сложные ресурсы, такие как 3D-объекты, персонажи и даже целые окружения. Вместо того чтобы вручную разрабатывать каждый объект или ландшафт, разработчики теперь могут использовать ИИ-модели для генерации реалистичных или фантастических элементов в масштабе, что ускоряет процесс производства и расширяет творческие возможности. Например, инструменты на основе ИИ могут проектировать разнообразный рельеф, здания и непроигрываемых персонажей (NPC), которые динамически реагируют на действия игроков, делая миры более захватывающими и уменьшая нагрузку на дизайнеров игр.
Особенно интересным является новое игровое движок ИИ от Google, который продемонстрировал возможность воссоздания классических игр, таких как DOOM, а также, потенциально, любых других игр. Эта технология может революционизировать процесс разработки и ремастеринга игр, предлагая новые способы для разработчиков и поклонников испытать свои любимые тайтлы. Используя ИИ для воссоздания механики, графики и даже сюжетов культовых игр, эта технология не только сохраняет игровую историю, но и открывает двери для новых итераций и модификаций. Последствия этого огромны: генеративный ИИ может привести к появлению персонализированных игр, где игроки смогут влиять на всё — от сюжетных линий до дизайна игрового мира, создавая уникальные и адаптированные под себя впечатления.
С развитием этих технологий мы можем увидеть будущее, в котором ИИ помогает как независимым разработчикам, так и крупным студиям создавать детализированные, увлекательные игры быстрее и дешевле, одновременно позволяя реализовывать беспрецедентные уровни креативности и кастомизации.
Формирование будущего ИИ: что дальше?
Стремительное развитие ИИ в различных областях переопределяет границы возможного как в корпоративных, так и в личных приложениях. Каждая из обсуждаемых тенденций — будь то рост агентного ИИ, уточнение корпоративных моделей или расширяющаяся роль ИИ в разработке программного обеспечения — указывает на будущее, где ИИ всё больше проникает в нашу повседневную жизнь. По мере эволюции ИИ он не только повысит продуктивность и креативность, но и откроет новые этические вопросы и вызовы, особенно по мере того, как всё больше отраслей начнёт внедрять эти технологии.
Будущее ИИ одновременно захватывающе и сложно. Будь то преобразование таких отраслей, как производство, здравоохранение и игры, или революция в личных помощниках и корпоративных потоках работы, ИИ готов занять центральное место в нашем образе жизни и труда. С развитием этих тенденций ключевой задачей станет обеспечение того, чтобы развитие ИИ оставалось сбалансированным, этичным и полезным для общества в целом.
Комментарий
Скоро управление нейросотрудниками станет одной из базовых управленческих компетенций, наподобие того, как уже сейчас многие руководители пишут в своих резюме про навыки управления как оффлайновыми, так и онлайновыми командами.
Мы в Шерпа Роботикс как раз создаем нейросотрудников. В первую очередь, умные роботы проникают в те сферы, где есть много информации, требующейся в разных сочетаниях разным людям: техподдержка, продажи, юриспруденция, hr и др.
В ближайшие годы всем людям придется научиться работать не только с другими людьми, но и с роботами. Это не так просто, как кажется на первый взгляд. Умные роботы (нейросотрудники) уже многое могут и умеют, но их настройкой для каждого отдела придется заниматься сообща. Особенно будет важна обратная связь от пользователей - оценка ответа будет ключевым показателем эффективности работы нейросотрудника.
Также применение нейросотрудников потребует от людей фокуса на действительно сложных и неоднозначных задачах, что сделает их рабочий день более напряженным, а труд - ответственным.
Как аналитик, могу сказать, что мгновенное получение информации, на сбор которой ранее приходилось тратить часы, дни, недели и даже месяцы, существенно ускорит процессы в бизнесе. Но и времени на принятие решений на их основе у людей будет больше.