Люди не могут оторваться от своих смартфонов. И на самом деле очень страдают от этого. Сегодня на рынке появляются новые условия, в которых для общения с цифровыми сервисами не нужен экран. Интерфейсом становится ИИ-ассистент, который по голосовому промпту на естественном языке нажимает за нас виртуальные кнопки. Некоторым такие устройства показались инновацией будущего, но реакция на их реальные возможности после начала продаж оказалась негативной. Разбираемся, есть ли у них перспектива.
Сегодня люди смотрят в экраны и для работы, и для развлечения. Это самый привычный тип интерфейса, и почти всегда — безальтернативный. Но у экранов много минусов — несмотря на огромные инвестиции в их качество и технологии, снижающие нагрузку на зрение, они все еще довольно вредны для наших глаз.
Никуда не делась цифровая зрительная усталость — дискомфорт, который вызывает перенапряжение глаз и шеи после долгой работы перед экраном (автор этого текста страдает от нее, пока пишет этот материал). Слишком большое экранное зрение у детей связано с более высокими рисками развития близорукости.
А еще — цифровые обсессии и зависимости: наверное каждый ловил себя на том, что полчаса листает вертикальные видео или ленту публикаций в соцсетях после того, как взял в руки смартфон, чтобы проверить рабочую почту.
Постоянно появляются инновации, которые призваны избавить людей от необходимости смотреть в экраны хотя бы на некоторое время: электронные книги с технологией e-ink, голосовые ассистенты и умные колонки. Но все это — по большей мере нишевые решения.
Многие технологические оптимисты верят, что ИИ сможет это изменить. Фундаментальная польза ИИ — в избавлении человека от рутинных действий, которые можно автоматизировать. Так, можно на естественном языке попросить ИИ сгенерировать несколько слайдов, и он сделает это за пару минут, избавив пользователя от муторной работы.
Логика ИИ-устройств такая же — вместо того, чтобы выполнять действия десятком кликов по экрану смартфона, можно дать голосовой промпт ИИ-ассистенту, живущему в небольшой коробочке, прикрепленной к вашей груди или лежащей в кармане,
И речь о возможностях гораздо больших, чем, к примеру, заказ товаров или вызов такси, которые уже способны по голосовой команде выполнять амазоновская Alexa или яндексовская Алиса.
В теории, такой ИИ способен осуществлять гораздо более сложные сценарии. К примеру, устройство сможет просканировать объект и сообщить информацию о нем, оперативно отредактировать только что снятую фотографию и опубликовать в соцсетях, или почти синхронно переводить на другой язык речь, которую произносит или слышит пользователь.
О таких безэкранных устройствах впервые заговорили в 2023 году, а в 2024 они стали доступны пользователям. Но ожидания, увы, так и не оправдали.
Первым таким устройством стал AI Pin от Humane, представленный в ноябре 2023 года. Стартап Humane основали бывшие дизайнеры Apple, а среди инвесторов, вложивших в него суммарно $850 млн — CEO OpenAI Сэм Альтман.
AI Pin — устройство размером с полпачки сигарет, которое крепится к одежде на груди с помощью магнита. В нем есть голосовой ИИ-ассистент, мини-проектор и камера. Предполагается, что пользователь носит Pin постоянно.
Устройство работает само, без подключения к смартфону, у него есть собственный телефонный номер. Голосовой помощник AI Mic — ключевой интерфейс AI Pin, через который пользователь общается с устройством. В нем есть весь функционал стандартного ИИ-чат-бота, такого как ChatGPT — можно попросить его составить текст, сгенерировать идею или запросить информацию. Также устройство позволяет звонить.
13Мп камера может делать фотографии и видео длиной до 15 секунд, а также служит «глазами» устройства — например, можно показать ему продукт питания или блюдо, а голосовой ассистент расскажет о его калорийности и БЖУ.
Куча минусов устройства стала заметна после первых демонстраций. Чтобы активировать его, надо постоянно жать на корпус. Несмотря на идеологию отказа от экрана, AI Pin все же выводит текстовую информацию в довольно странном виде — лазерной проекции на ладонь, которая управляется жестами. Своим зеленым цветом и низким разрешением она немного напоминает еще один альтернативный гаджет— Pip-Boy из Fallout.
Цену устройства — $700. Кроме того, чтобы оно работало, нужно оплачивать ежемесячную подписку на сервисы и хранилище данных — $24. Многие сочли цифры неоправданно высокими.
Когда первые AI Pin доехали до покупателей, обозреватели почти единогласно раскритиковали устройство в пух и прах. У большинства не получилось придумать даже одного реалистичного пользовательского сценария, в котором AI Pin мог бы быть реально полезным, за исключением фотографирования. Популярный обзорщик гаджетов Маркес Браунли назвал AI Pin худшим продуктом, который он когда либо обозревал.
Оказалось, что AI Pin постоянно нагревается и не толерантен к воде (например, не работает во время дождя). Время автономной работы — всего пара часов, заряжать его нужно несколько раз за день. Все это — критичные недостатки для гаджета, который надо крепить на верхнюю одежду.
Ответы ИИ довольно медленные — порой он думает до пяти секунд. Часто он галлюцинирует или неверно воспринимает запрос пользователя из-за шума. Фото некачественные (впрочем, так считают не все), проекцию на ладонь плохо видно при дневном свете.
Но главная проблема устройства — оно вообще не взаимодействует с приложениями. В теории оно могло бы заказывать такси в Uber или товары на Amazon, отвечать на сообщения в Whatsapp или саммаризировать письма из Gmail — ИИ уже все это прекрасно умеет. Но в AI Pin этих возможностей попросту нет.
Второе ИИ-устройство — Rabbit R1, казалось бы, лишено двух ключевых недостатков AI Pin. Оно получает доступ к приложениям и стоит всего $199 без всяких подписок. Несмотря на это, и оно оказалось провальным. Но обо всем по порядку.
«ИИ-радио», как некоторые называют R1, был представлен на технологической выставке CES 2024 в январе. Это небольшой гаджет, по дизайну похожий на радио «уоки-токи». На нем одна большая кнопка, колесико для прокрутки, камера и экран, похожий на тот, что бывает у цифровых фотоаппаратов. Голосовой ассистент как проговаривает ответы вслух, так и выводит их на этот экран. Экран здесь — скорее дополнительный интерфейс, чем основной.
Камера на устройстве нужна для видеозвонков и обучения устройства — снимать фото или видео с ее помощью нельзя. Нажав на кнопку, можно активировать голосового ассистента и задать вопрос. Также камера используется для распознавания объектов перед пользователем. В презентации R1 узнает певца Рика Эстли на афише и составляет рецепт из продуктов, которые видит в холодильнике, а также анализирует Excel-таблицу и отправляет результаты на почту.
R1 может подключаться к пользовательским приложениям. Можно предоставить ассистенту доступ к Uber или доставкам еды, маркетплейсам, игровым платформам или фоторедакторам — ассистент будет совершать в них действия по голосовому запросу.
Позднее в устройство обещали добавить режим обучения — ассистент сможет учиться повторять за пользователем те или иные действия, наблюдая за ним через камеру. Во время релиза разработчики гаджета рассказали, что ассистента можно будет даже научить играть в видеоигру и послать прокачивать персонажа. R1 использует комбинацию ChatGPT с собственной LAM — большой моделью действий.
Возможность обучаться и выполнять цепочки действий (например, заказ такси в приложении или редактирование фото) технически помещают R1 в категорию ИИ-агентов — пока еще в большей степени концептуальный, чем реально существующий класс ИИ-решений, способных без помощи человека принимать взвешенные решения и действовать автономно.
Это — уже не ChatGPT в кармане, а следующий качественный этап развития ИИ после чатботов и ИИ-ассистентов, которые слишком «глупы» для автономности и каждый шаг сверяют с человеком. Об агентности AI, к примеру, много говорит Билл Гейтс.
Все это звучало очень впечатляюще — многих ИИ-энтузиастов R1 воодушевил гораздо больше, чем AI Pin, который показался бестолковым еще на этапе релиза. Однако когда в конце апреля первая партия R1 наконец доехала до покупателей, отзывы оказались не лучше.
R1 оказался очень сырым — «вместо версии 1.0 мы получили нечто, скорее похожее на 0.1», написал Девин Колдьюи из Techcrunch. На момент отгрузки на платформе было доступно всего четыре интеграции приложений: Uber, доставка еды DoorDash, Spotify и Midjourney. Обозреватели пишут, что все они работают на устройстве плохо — или по крайней мере не настолько хорошо, чтобы R1 был удобнее смартфона.
Например, DoorDash на устройстве показывает не все меню, или не запускается вовсе.
В Spotify голосовой ассистент отказывется воспринимать промпты с названиями плейлистов, и по запросу «включи плейлист Discover Weekly» ставит песню «Can You Discover?» группы Discovery. То есть ответы ИИ более неверные, чем результат простого текстового запроса в поисковой строке приложения.
Голосовой ассистент иногда думает очень долго, и часто дает нерелевантные ответы — например, на запрос «посоветуй кофейню поблизости» рекомендует заведение в паре километров, тогда как есть несколько, расположенных гораздо ближе.
Критики отмечают, что некоторые функции все же работают неплохо — синхронный перевод и распознавание объектов по камере, например людей, животных, или городских достопримечательностей. Иногда у ассистента получается давать реально полезную информацию — Джулиан Чоккатту, поставивший устройству 3/10, отметил, что оно эффективно проанализировало комментарии к страничке автомагазина, и правильно ответило на вопрос, предлагает ли тот услуги техосмотра.
Впрочем, если одни обозреватели сочли сырость устройства проблемой, то другие отметили, что этого и стоило ожидать от экспериментального устройства за $200, и имеет смысл судить о нем после нескольких обновлений, которые должны сильно расширить функционал.
Rabbit вполне открыто заявил, что собирается вывести на рынок MVP (минимально жизнеспособный продукт), а потом улучшать его обновлениями. Так что надежда на то, что R1 хотя бы приблизится к обещанному функционалу, у некоторых еще жива. Возможно, все изменит возможность обучать устройство.
Первые неудачи ИИ-гаджетов вполне объяснимы. Во-первых, несмотря на все прорывы, генеративные нейросети все еще работают со множеством проблем — даже самые передовые решения не избавлены от галлюцинаций и не наделены глубоким пониманием человеческого мира.
А устройство с голосовым ассистентом, который можно положить в карман и использовать для бытовых задач, предполагает, что человек может полностью доверять ИИ.
Тоже самое и с агентностью ИИ, на которую претендует Rabbit R1. Кажется, мало кто сомневается в том, что когда-нибудь ИИ сможет действовать автономно, принимать качественные решения и самостоятельно выполнять целые проекты — вопрос лишь в том, когда и как это будет достигнуто.
Но пока до этого очень далеко, и все сегодняшние попытки построить агентский ИИ, выглядят как первые пробы пера. ИИ-энтузиастам будет интересно с ними повозиться — но их явно рано всерьез предлагать массовым потребителям, привыкшим к максимальной простоте и интуитивной понятности цифровых решений.
Во-вторых, ранние устройства первого поколения редко оказываются по-настоящему удачными и коммерчески успешными. Компании часто запускают новые продуктовые линейки без особой надежды в успех первых моделей — но с верой в то, что накопление экспертизы поможет им создать более качественные устройства второго или третьего поколения.
К примеру, так объясняют стратегию Apple с VR-гарнитурой и «пространственным компьютером» Apple Vision Pro. Первое устройство получилось очень тяжелым и дорогим — $3500, а приложений на нем очень мало. Рядовому пользователю оно вряд ли пригодится — только небольшому количеству профессионалов, которые работают с теми немногими софтами, которые были интегрированы в новую платформу, а также обеспеченным поклонникам Apple. Тем не менее, гарнитура второго поколения может оказаться куда доступнее, удобнее и совершеннее.
Поэтому пока рановато сомневаться в том, что ИИ-устройства провалились как идея. Вполне возможно, что став умнее и удобнее, они найдут своего покупателя. Главный вызов для них — ИИ-смартфоны, наступление эры которых в феврале 2024 года провозгласил глава Samsung Mobile Тэ Мун Ро.
Первым ИИ-смартфоном стал самсунговский S24, а этим летом ожидают большой релиз ИИ-функций от Apple. Чтобы оставаться востребованными, безэкранным ИИ-устройствам придется предложить пользователям сценарии, которые будут невозможны на таких смартфонах — удастся ли это, покажет время.
Автор: Александр Артамонов
Полезное от Онлайн Патент:
Какие выгоды можно получит от регистрации программы для ЭВМ?
Не только айтишники: какие компании могут внести свои программы в Реестр отечественного ПО?
Больше контента о сфере интеллектуальной собственности в нашем Telegram-канале