Пенни: Как заколки могут привлечь мужчин?
Говард: Добавим туда Bluetooth
Шелдон: Гениально! Мужчины обожают Bluetooth!
Пенни: Подождите, вы хотите сделать заколку с Bluetooth?!
Шелдон: Пенни, все становится лучше, когда есть Bluetooth!Теория большого взрыва
Ещё пятнадцать лет назад я думал о том, почему в смартфоне нет функции создания транскрипта аудиозаписи. Диктофон превратился в приложение для смартфона, но по-прежнему требовал последующего прослушивания и ручного конспектирования аудио. А вот AI сделал транскрибирование доступным рядовому пользователю.
И эта мысль навела меня на размышления об искусственном интеллекте вообще. Я не понимал причину шума вокруг AI все эти годы. Можно понять специалистов по Natural Language Processing или компьютерному зрению, у которых реально возросла эффективность алгоритмов благодаря глубинному обучению. Остальным-то что с этого?
Становится ли всё лучше, когда есть bluetooth AI? Я считаю, что не становится! Как в известной пословице, «сколько ни говори халва, во рту слаще не станет». Пока NVIDIA, как и положено во времена золотой лихорадки, зарабатывает на кирках и лопатах, аналитики Goldman Sachs уже выражают скепсис, не переоценивает ли общественность перспективы влияния AI на мировую экономику. На данный момент нет никаких практических применений AI для массового использования, которые перевернули бы мир. А массовое значит мобильное, потому что смартфон является основным инструментом потребления IT-сервисов.
Может стоит не рассуждать о революции, а посмотреть на ситуацию с практической точки зрения: какие из повседневных задач хотя бы частично удается автоматизировать при помощи AI? Например, та же расшифровка аудиозаметок. Не прошло и двадцати лет, как штатная программа звукозаписи в смартфоне, наконец-то закрыла эту потребность. Конечно, онлайн сервисы уже существовали, однако только сейчас на смартфонах (а это и есть мобильный AI) в приложении «Звукозапись» появилась функция расшифровки аудио on-device, без подключения к облаку, а значит без рисков, связанных с конфиденциальностью.
Транскрибация и резюмирование экономят любому офисному работнику столько сил и времени, что теперь можно начинать говорить о повседневности AI в бизнесе и постепенно к ней привыкать. Совещания, обучение, интервью – лингвистическая модель Galaxy AI пригодится везде, где необходимо конспектирование и анализ аудиальной информации, с которой проще иметь дело в текстовом виде.
AI-сервисы продолжат качественно развиваться, ведь обучение алгоритмов, как и людей, требует времени. Поэтому в этой статье я постараюсь не просто описать свой опыт использования этих сервисов, но и сформулировать их реальную ценность в том виде, в котором они доступны сейчас. И объяснить, для чего нам это вообще нужно.
Раньше я не пользовался функцией аудиозаписи, потому что у меня никогда не хватало терпения и времени прослушивать заново весь разговор. Меня всегда интересовала возможность автоматического транскрипта голоса, чтобы по ключевым словам, вспомнить, о чем шла речь, например, на прошедшем совещании или лекции. Уже практически потерял веру в то, что это будет возможно, но дождался.
Приведу пример использования функции транскрибирования в приложении «Звукозапись» на новых флагманах Samsung с Galaxy AI. On-device. Бесплатно. Обработка аудиозаписи с помощью AI проводится прямо на устройстве, файлы не уплывают в неизвестные облака. Это и есть одно из применений NPU (Neural Processing Unit).
Я записал совещание, проводившееся по телефону, которое длилось тридцать минут. Записывающий смартфон лежал рядом с другим телефоном, по которому велся разговор на громкой связи. После завершения записи и нажатия кнопки «Транскрибир.» аудио обрабатывалось три минуты. В результате на экране приложения появился аккуратно отформатированный текст, с которым удобно иметь дело.
Программа продолжает работать и в свёрнутом виде, и с выключенным экраном. А вот ответ на входящий звонок запись приостанавливает. Для использования функции аудиозаписи на совещании или во время мозгового штурма в просторной переговорной рекомендую предусмотреть микрофонную систему. Даже пара простых беспроводных микрофонов решает многое, ведь качество аудиозаписи напрямую влияет на качество распознавания.
Сгенерированный на основе аудиозаписей текст пока далек от идеала и требует редактирования. Чисто субъективно английскую речь Galaxy AI сейчас распознаёт лучше, чем русскую, в тексте меньше путаницы с определением начала и конца предложений. Но оно и понятно: функция поддержки русского языка появилась только весной этого года, поэтому разработчикам есть над чем поработать. Это вопрос обучения и объема данных: с каждым обновлением качество расшифровки будет улучшаться. Кроме того, в русской речи встречается много англицизмов, словосочетаний на иностранных языках и иноязычных аббревиатур, которые сейчас не всегда хорошо понимаются движком.
Расшифровку дискуссии, в отличие от записи лекций или длинного монолога, который AI понимает гораздо лучше, непосвященному человеку разобрать пока сложно из-за наличия в тексте некорректных сочетаний слов и явных ошибок распознавания. А вот участник обсуждения легко вспомнит, о чем именно шла речь и восстановит содержание разговора. Выделенные в тексте слова или фрагменты можно прослушать в оригинальной аудиозаписи. Диалоги, состоящие из коротких высказываний распознаются хуже, чем на английском, но я жду улучшений по результатам дальнейшего обучения алгоритмов. Самое интересное, что сводка всегда выглядит осмысленнее отдельных элементов транскрибации несмотря на качество расшифровки. Расскажу об этой функции поподробнее.
Языковые модели призваны создавать не только «вау-эффект» от кратковременной симуляции «живого» разговора с GPT чатом. В современном мире мы потребляем огромное количество информации, определить стоит ли нашего внимания новый объемный материал или нет поможет функция краткой сводки, как одна из реализаций потенциала Natural Language Processing. Вообще, резюмирование содержания — это то, что все ждут от AI.
Поэтому Yandex внедрил в свой браузер функцию краткого пересказа видеороликов, так что можно просмотреть краткое содержание буквально за минуту. Samsung оснастил свой мобильный браузер функцией создания сводки, что особенно полезно для тех, кто имеет дело с текстами и их аналитикой. Эта функция доступна не только в браузере, но и при создании транскрипта аудиозаписей. Я сравнил Yandex пересказ и сводку от Galaxy AI от прослушивания Обзора направлений развития 6G. Для поиска подходящего контента Яндекс – однозначный выбор, потому что сводка создается очень быстро, всего за несколько секунд. Если же смотреть YouTube-ролик, используя Galaxy AI, сводка будет ещё более подробной. Те, кто пользуются двумя телефонами, как я, могут вообще оставлять один из них у компьютера, воспроизводящего нужный контент, и заниматься другими делами, а потом просмотреть полученный транскрипт и сводку, отражающие содержание и структуру контента. Если вы когда-либо имели дело с онлайн-обучением, то знаете, что часто никаких возможностей законспектировать содержание просто нет. Все надо записывать и переводить в текст.
А вот как выглядит сравнение стандартной и подробной сводки классического отрывка письма Татьяны Онегину из романа «Евгений Онегин» на примере AI-анализа при создании сводки в браузере Samsung Internet:
Функция запускается нажатием кнопки в нижней панели мобильного браузера Samsung Internet. Я открыл первый том романа «Война и мира» на lib.ru и попробовал сделать сводку. В результате мне была показана сводка лишь первой главы со сценой салона Анны Павловны Шерер. Никаких сообщений об ошибках браузер не выдал. Сервис просто проигнорировал основной многокилобайтный контент произведения. Зато любая статья на Хабре обрабатывается без проблем. Не нашёл официальной информации по ограничениям. Конечно, любой сервис имеет свои пределы разумного использования, и разработчики что-то противопоставили попыткам «повесить» облачный сервис запросами на разбор грандиозных по объему текстов. Как я понял, ориентировочно, это одна глава «Войны и мира».
Сразу отмечу, что функция создания сводки не заменяет нашу способность к обобщениям и выводам. Если транскрибация восстанавливает детали субъективной и объективной картины происходившего, то чтение сводки помогает нам с оформлением собственных выводов и обобщений.
Функция создания сводки использует облачный сервис, в отличие от транскрибирования, выполняемого на телефоне. Некоторых пользователй это может тревожить. Тут я задумался, что, вообще, может помешать повсеместному применению перечисленных выше функций?
Главная сложность, как мне кажется, – это готовность собеседников к ведению переговоров «под запись». Законодательство требует охраны персональных данных, а этика – согласия участников встречи на запись. Мы не склонны быть неформальными в общении, зная, что слова «пишут пером», поэтому в некоторых случаях овчинка использования записи для резюмирования выделки не стоит. Особенно в ситуация, когда доверие важнее учёта. Запись фиксирует оговорки, замешательства, реакции или промежуточные мнения, про которые не все участники переговоров хотели бы знать, что их «не вырубишь топором». Однако ситуация меняется, когда встречи менее эксклюзивны, более формальны, публичны или поставлены на поток, например, собеседования соискателей на работу, записи презентаций или докладов, глубинные интервью и опросы в маркетинговых исследованиях.
Я всегда ленюсь исправлять «очепятки» в мессенджерах и не использую T9, не говоря уже о тире, запятых и двоеточиях. Это вечный конфликт между «меня и так поймут» и внутренним желанием всё исправить. С появлением AI-корректора я постепенно привыкаю к его использованию, и это касается не только орфографии и пунктуации. Ниже приведу пример того, как корректор исправляет текст, предлагая качественные альтернативные варианты даже для самых безграмотных формулировок.
То же касается стилистики и способа выражения своих мыслей
Эльдар Муртазин пишет, что по данным его источника, который он не приводит, женщины используют эту функцию чаще мужчин. Логично, кто обычно больше следит за своим стилем? Гендерные стереотипы проявляются и в статистике использования AI функций, ставших доступными массовому пользователю.
В чем реальная ценность корректора стиля и грамотности? Это возможность не гуглить ответ на вопрос «как правильно», а нажатием кнопки увидеть и сделать так, как должно быть. А там глядишь постепенно уйдут в прошлое из оборота все эти «вообщем», «через чур», «ихний» и прочие «тся/ться».
Эта функция доступна на базе клавиатуры Samsung. Нажимаем на кнопку слева вверху и затем выбираем «Генератор текстов». Стилистика генерируемых сообщений может варьироваться в зависимости от контекста, который вы задаете: стандартная, электронная почта, социальные сети, комментировать, а также от стиля: вежливый, повседневный или профессиональный. Samsung предлагает двенадцать вариантов сказать по-разному об одном и том же.
Каждый раз генерируется новая форма, предлагающая новые формулировки, поэтому если у кого-то возникает вопрос «как написать, ответить или предложить», — Galaxy AI лучший помощник, чтобы подобрать «рыбу» ответа, которую можно отредактировать в финальную версию. Теперь это одна из функций клавиатуры, что действительно удобно.
На мой взгляд, функция «генератор текста» прекрасный инструмент для избавления от привычки откладывать в долгий ящик желание написать. Иногда причина этого банальна. Не хочется писать много букв. А вот когда AI готов подобрать варианты для написания и оформления текста, то это бесценно.
Невозможно пройти мимо Flip-версии переводчика, которая позволяет обмениваться простыми и понятными репликами. Эта программа открывается через панель быстрого доступа. Flex экран активируется второй кнопкой из расположенных справа вверху открытого приложения.
Даже без сопровождающего носителя языка и переводчика можно уверенно чувствовать себя, решая простые вопросы с сотрудниками ресепшена, таксистами и случайными встречными, если вам потребуется помощь. Это гораздо удобнее, чем вертеть экран туда-сюда.
Что касается синхронного перевода телефонных разговоров, то лично я жду реализацию функции live-транскрибации голоса собеседника в помощь уже владеющим иностранным языком на хорошем уровне, но испытывающим сложности с восприятием иностранной речи на слух. Произношение в разных странах и регионах сильно различается. Америка, Англия, Корея, Китай, Индия и иные не носители языка, но использующие английский в бизнес коммуникации. Было бы интересно общаться в наушниках или на громкой связи и видеть, как AI понимает сказанные собеседником слова вместе с их переводом. Это могло бы быть неплохой помощью тем, кто уже общается на других языках по бизнесу.
IDC (International Data Corporation) смотрит на мобильный AI оптимистично, но снабдить смартфон нейронным процессором ещё не значит найти ему реальное применение в массах. Во-первых, дело это не быстрое. Например, с момента появления смартфонов до понимания реальной ценности, которую они внесли в нашу жизнь прошло не меньше десяти лет. Оказалось, что большой экран — это не столько средство для потребления развлекательного контента, сколько удобство для обмена текстовыми сообщениями. Мобильные мессенджеры потеснили даже социальные сети. Вряд ли с AI дело будет обстоять по-другому, то есть реальная и меняющая всё ценность станет очевидной не сразу, а лишь по мере развития практики применения.
Возможно, когда анализ данных AI-помощником начнет представлять достаточную ценность, люди станут проще смотреть на его доступ к содержанию всей своей коммуникации через смартфон, включая голосовое общение, мессенджеры или запись всего происходящего вокруг. Тем более, если получится обеспечить как можно больше AI-функций возможностью выполнения на непосредственно устройстве. Вообще идея личного ассистента, повсюду сопровождающего пользователя, популярна в научной фантастике, однако пока не исчерпала себя, и мобильный AI – это очередной шаг в этом направлении.
Я перечислил лишь те функции, которые нашли применение в моих рабочих буднях, упростив решение многих повседневных задач. Помимо названных выше сервисов, отдельно упомяну AI редактор, который позволяет дорисовывать картинки на основании «корявого» эскиза от руки. Возможно, я и ему найду практическое применение в повседневном использовании. Я дорисовывал улыбочки с такими непредсказуемыми и забавными результатами. Galaxy AI самостоятельно определяет эскиз чего я рисовал и подбирает место на фото.
Наконец-то появились достойные решения, хотя кому-то все они могут показаться недостаточными. Немного написал о будущем, в котором, на мой взгляд, мы будем иметь дело с развитием идеи смартфона как личного ассистента в ежедневных делах. Мы увидим еще много новых решений и возможностей, включая улучшение качества алгоритмов, пока использование AI найдёт себе такой же массовый спрос, как и смартфоны, которые есть у каждого. Прогресс очевиден, но истинные масштабы и значение мобильного AI мы сможем оценить лишь в течение десятилетий.
Пользователи Хабра уже нашли золотую середину в разговорах об AI: это хороший инструмент и его надо воспринимать именно так. Искать его практическую ценность в своей жизни, а не витать в облаках. Интересно, какие идеи насчет настоящему и будущего мобильного AI выскажут читатели в комментариях.
Медведев Павел, Samsung