Друзья, всем привет! Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me, техноблогер и нейро-евангелист. С самого детства я мечтал научиться играть на каком-нибудь музыкальном инструменте. Я делал много попыток: были две гитары (акустическая и электро), клавиши и даже электронные барабаны. Но мне всегда не хватало усидчивости, и я не чувствовал удовлетворения от освоения инструмента, поэтому забрасывал его. Пробовал также освоить Ableton и FL Studio, но они казались мне слишком сложными. В итоге, к 35 годам я научился играть только на варгане, хотя душа требовала большего — я очень люблю музыку и слушаю ее буквально 24/7.
Нейросети уже дали мне возможность создавать прекрасные изображения, и я думал, как было бы здорово, если бы можно было так же легко создавать музыку. И действительно, около 10 месяцев назад появились такие инструменты, как MusicGen и AudioCraft от Meta*.
Но эти модели генерировали всего 12 секунд, и качество их было очень низким, поэтому тогда я не увлекся этой темой. Вот как это звучало:
Позже появился Suno, генератор музыки, который успел наделать шума. Компания также сделала большой вклад в опенсорс, создав отличный голосовой движок Bark. Но мне по-прежнему не нравилось качество: музыка звучала как с автотюном, а голос был механическим. Но вот вышел Udio, и все изменилось. Я сам не мог поверить в то, что услышал. В буквальном смысле я залип на создание треков: за 5 дней сгенерировал 6 штук, на каждый из них ушли сотни попыток, но у меня получалось, и мне нравилось. А главное — нравилось и тем, кому я давал послушать свои треки.
Несмотря на существующие проблемы, такие как плавающая консистентность трека, невозможность скопировать сегмент и переиспользовать его, а также пока не запущенную загрузку собственных сэмплов, Udio все равно поражает, особенно учитывая, что это лишь начало. И сегодня мы с вами разберемся, как создать ваш первый трек и как здесь все работает. Поехали!
Udio базируется на ранних моделях музыкальных нейросетей, таких как MusicLM и AudioGen. По сути, они работают по тому же принципу, что и популярные нейросети для генерации изображений, такие как Stable Diffusion или DALL-E. Основная идея заключается в том, чтобы представить музыку в виде последовательности дискретных токенов (своего рода "слов" в музыкальном языке), а затем обучить нейросеть предсказывать следующий токен на основе предыдущих и дополнительной информации, такой как текстовое описание желаемой музыки.
Процесс генерации музыки можно сравнить с тем, как Stable Diffusion создает изображения из случайного шума. Сначала нейросеть предсказывает общую структуру и характеристики музыки (аналог низкочастотных деталей изображения), а затем постепенно добавляет все более мелкие детали (высокочастотные компоненты). Однако, в отличие от двумерных изображений, музыка является одномерным сигналом, разворачивающимся во времени, поэтому для моделирования временных зависимостей используется многоуровневая архитектура Transformer.
Еще одно важное отличие — для управления генерацией музыки используется не только текстовое описание, но и информация о желаемой мелодии, которая может быть задана в виде образца (например, напеть мелодию). Это становится возможным благодаря отдельной модели, которая научилась находить общие паттерны между музыкой и соответствующими текстовыми описаниями и мелодиями.
В итоге, можно сказать, что MusicLM и AudioGen привносят идеи и подходы из генерации изображений в мир музыки, адаптируя их под особенности музыкальных данных. Они открывают новые возможности создания музыки на основе текстовых описаний и образцов мелодий, подобно тому как Stable Diffusion и DALL-E позволяют генерировать изображения по текстовым запросам.
Udio же пошел дальше своих предшественников, реализовав ряд усовершенствований и доработок:
Благодаря этим улучшениям Udio стал гораздо более привлекательным и удобным инструментом для создания музыки, чем его предшественники. Далее мы подробно разберем, как работать с этой нейросетью и создавать свои музыкальные шедевры.
Создавать треки с помощью Udio очень просто. Просто введите описание того, что вы хотите создать, в поле prompt и нажмите Create. Например, введите "a jazz song about New York"
.
Если вы не знаете, что ввести, попробуйте нажать на иконку с игральной костью, чтобы заполнить поле prompt случайным примером.
Типичный prompt состоит из комбинации свободного текста и тегов. Например, в запросе "a song about summer rain, jazz, mellow, warm"
, "a song about summer rain"
— это свободная часть, а "jazz"
, "mellow"
, "warm"
— теги. Обратите внимание, что разные части prompt разделяются запятыми (,
), точкой с запятой (;
) или точкой (.
). Prompt может содержать любое количество свободных частей и тегов в любом порядке.
Кроме того, prompt может содержать ссылку на стиль исполнителя, что упрощает описание музыки, которую вы хотите создать. Например, приведенный выше prompt можно расширить до:
"a song about summer rain, jazz, mellow, warm, in the style of Billie Holiday"
Обратите внимание, что Udio не генерирует песни с голосами исполнителей, а ссылка на стиль внутренне заменяется набором релевантных тегов.
Чтобы помочь вам с составлением prompt, под полем ввода текста вы найдете два типа предлагаемых тегов, на которые можно нажать, чтобы добавить их в prompt:
Автодополнения: Это предлагаемые дополнения тегов для текущего слова.
Предлагаемые теги (серый фон): Предлагаемые теги, которые дополняют текущий набор тегов, упорядоченные по релевантности. Предлагаемые теги — хороший инструмент для исследования, который может привести вас к интересным комбинациям, особенно если вы готовы пролистать их.
Как бы подробно ни были текстовые prompt, они не могут полностью определить реальное музыкальное произведение — один и тот же текст описывает бесконечное количество возможных аудиотреков. Поэтому, чтобы приблизиться к музыкальной идее, которая есть у вас в голове, вы можете создать несколько клипов с одинаковыми prompt (и другими настройками). По умолчанию Udio создает два варианта для каждого вводимого prompt.
Но даже этого часто недостаточно, поэтому состояние поля prompt не сбрасывается после нажатия Create. Это позволяет легко добавлять в очередь больше генераций с изменениями или без них.
Если вы не хотите продолжать работу с тем же prompt, нажмите Reset — поле prompt вернется в исходное пустое состояние. Хорошая возможность попробовать что-то новое и свежее!
Обратите внимание! Вы можете переместить курсор в любую часть prompt, и это изменит автодополнения соответствующим образом.
А еще Udio генерирует вот такие замечательные музыкальные видео которые удобно использовать в социальных сетях:
По умолчанию Udio автоматически выбирает подходящий текст для вашего prompt (это включает создание инструментальных треков, где это имеет смысл). Если вы хотите использовать свой собственный текст, выберите режим Custom в разделе текста prompt и введите свой текст в поле ввода, например:
Чтобы разнообразить свои творения, попробуйте добавить специальные дескрипторы, такие как [Verse]
, [Chorus]
, [Hook]
, [Guitar Solo]
или [Drop]
. Вы также можете указать бэк-вокал, используя скобки.
Совет: Не отчаивайтесь, если Udio не выдает именно то, что вы ищете, с первой попытки. Продолжайте нажимать Create — скорее всего, один из получившихся треков будет потрясающим.
Совет: Некоторые менее обычные комбинации тегов могут быть намного сложнее в реализации. Если повторная генерация не помогает, вы можете исследовать другие способы смешивания стилей — с помощью расширения трека или ремиксов.
Тексты песен не обязательно должны быть на английском языке. Вот некоторые из языков, которые распознает Udio: китайский, японский, русский, польский, немецкий, французский, итальянский. Попробуйте — это весело!
Если вы заметили, что модель неправильно произносит слово, вы можете разбить его на более простые фонемы. Еще одна проблема, с которой вы можете столкнуться — модель ставит ударение не на тот слог. Это можно исправить, выделив правильный слог непосредственно в тексте (например, в русском языке попробуйте написать "бетóномешалка" вместо "бетономешалка").
Чтобы принудительно сделать трек инструментальным, выберите режим Instrumental. Обратите внимание, что это не на 100% надежно, и иногда вы можете услышать звуки, напоминающие голос.
Udio генерирует вашу музыку в разделах по 32 секунды. Таким образом, вы можете относительно быстро просмотреть несколько вариантов и решить, какой из них стоит расширить по длительности. Вы можете перейти в режим Extension, нажав кнопку Extend на странице трека или выбрав Extend Track в контекстном меню (щелчок правой кнопкой мыши по треку или нажатие на значок ...
). В этом режиме поле prompt меняет свой внешний вид и предоставляет дополнительные элементы управления.
Одним из новых элементов, которые вы можете заметить, является область, отображающая исходный клип, который вы в настоящее время расширяете:
Помимо того, что это упрощает отслеживание того, над чем вы работаете, эта область также позволяет скопировать prompt, использованный для создания исходного клипа, нажав на значок копирования справа от трека. Обратите внимание, что по умолчанию основное поле ввода prompt предварительно заполнено исходным prompt. Это гарантирует, что расширение, которое вы собираетесь создать, соответствует по стилю оригиналу.
При этом вы можете изменить prompt на что угодно, и иногда это приводит к очень интересным результатам. Например, вы можете развить свой трек от спокойной акустической гитарной линии до ревущего гитарного соло, сопровождаемого тяжелыми искаженными пауэр-аккордами — этого легко добиться, используя различные теги жанров и инструментовки для разных разделов вашего трека.
Прежде чем расширять трек, вы можете выбрать конкретную часть, которую хотите использовать в качестве основы для расширения. Для этого нажмите на кнопку "Select Section" над формой трека. Затем выделите интересующий вас фрагмент, кликнув и перетащив маркеры начала и конца выделения. Выбранная часть будет подсвечена и станет отправной точкой для дальнейшего расширения трека.
Использование "Select Section" позволяет сосредоточиться на наиболее удачных или многообещающих элементах вашей композиции и развить их в полноценное музыкальное произведение. Это особенно полезно, если сгенерированный трек содержит как сильные, так и слабые части, и вы хотите построить свою композицию вокруг лучших фрагментов.
После выбора нужного фрагмента с помощью "Select Section" вы можете перейти к следующему шагу и указать направление расширения трека.
Вы можете выбрать направление расширения, нажав на один из вариантов в области Extension Placement:
Udio позволяет добавлять раздел либо до, либо после исходного клипа. Этот процесс можно повторять, чтобы построить цепочку до 10 разделов. Вы также можете добавить вступительный или заключительный раздел, что позволяет составлять полноценные треки.
Простейший рабочий процесс для создания законченной песни длительностью 1,5 минуты выглядит так:
Сгенерируйте среднюю (основную) часть, используя обычный режим создания. Это "мясо" вашего трека, самый захватывающий раздел.
Перейдите в режим Extension для только что созданного раздела.
Выберите опцию Add Intro в области Extension Placement и нажмите Extend. Это создаст нарастание к вашему основному разделу. Полученный двухсекционный трек теперь длится 1 минуту.
Перейдите в режим Extension для трека длительностью 1 минута.
Примечание: Вы можете в любой момент выйти из режима Extension и вернуться в обычный режим создания, нажав Create New.
Еще одна классная возможность Udio — создание ремиксов. Ремикс — это тонкая или не очень тонкая вариация существующего клипа. Чтобы создать ремикс, сначала выберите подходящий трек (пока вы можете делать ремиксы только 30-секундных треков) и нажмите Remix либо на странице трека, либо в контекстном меню.
По сравнению со стандартным режимом создания, в поле prompt есть одна новая область:
Левая часть идентична области исходного клипа в режиме Extension, а ползунок в правой части позволяет контролировать силу эффекта ремикширования (Variance). В самом слабом положении, когда ползунок полностью слева, ремикширование не меняет исходное аудио. По мере перемещения ползунка вправо (после установки положения ползунка нажимайте Remix) эффект становится более заметным — определенные аспекты клипа начинают меняться. Малые значения силы в основном влияют на мелкие детали, оставляя общую структуру и гармонию оригинала нетронутыми. Например, вы можете заметить, что тембры инструментов и голосов слегка меняются, или появляются небольшие вариации в рисунке перкуссии. Более высокие значения силы вносят более значительные изменения, а крайнее правое положение ползунка дает результаты, которые почти не имеют сходства с исходным клипом.
По умолчанию, аналогично режиму Extension, начальный текст prompt заимствуется из исходного трека. Это полезно, если вы хотите, чтобы ремикс был в стиле, похожем на оригинал. Но ремикширование становится по-настоящему интересным, когда вы пробуете либо подкорректировать prompt, либо написать совершенно новый. Таким образом вы можете, например, добавить новый инструмент или пойти вразнос и создать совершенно новое смешение жанров. Возможности безграничны.
Помимо изменения prompt, как и в других режимах создания, вы также можете изменить текст песни. Однако, чтобы это хорошо работало, вам может потребоваться использовать относительно высокое значение Variance, особенно если вы существенно меняете текст.
Совет: Ремикширование полезно для исправления небольших ошибок в произношении.
Совет: Попробуйте сгенерировать несколько ремиксов для одного и того же значения Variance. Каждый из них будет отличаться друг от друга, но иметь примерно одинаковую степень сходства с оригиналом.
Udio недавно представил новую функцию под названием Audio Inpainting, которая позволяет редактировать отдельные части сгенерированных треков. Вы можете выбрать до 4 сегментов одновременно для повторной генерации с учетом окружающего контекста. Это дает возможность исправлять ошибки, улучшать вокальные партии или сглаживать переходы между частями трека.
Чтобы воспользоваться функцией Inpainting, сначала выделите нужный участок трека с помощью инструмента "Select Section". Затем нажмите кнопку "Add Section" под областью "Extension Placement". Выбранный сегмент будет перегенерирован с учетом окружающих частей, что позволит органично вписать его в общую композицию. Обратите внимание, что Audio Inpainting доступен только для платных подписчиков Udio.
Совет: Используйте Inpainting для исправления небольших дефектов, например, фальшивых нот или резких переходов, чтобы довести свой трек до совершенства.
В разделе "Lyrics" интерфейса Udio есть дополнительная опция под названием "Advanced Control". Она позволяет настроить длину контекста (Context Length), которую нейросеть учитывает при генерации output.
Длина контекста определяет, какую часть окружающего трека модель принимает во внимание при создании нового фрагмента. Более длинный контекст может улучшить согласованность output и сделать переходы между куплетами и припевами более плавными. Однако это также затрудняет смену жанров или стилей внутри трека.
Напротив, более короткая длина контекста дает больше гибкости и позволяет создавать более разнообразные композиции, но за счет потенциальной потери согласованности.
По умолчанию параметр Context Length установлен на максимум шкалы, обеспечивая высокую повторяемость трека. Вы можете настроить его в соответствии со своими предпочтениями и целями, перемещая ползунок влево для более короткого контекста или вправо для более длинного.
Совет: Если вы хотите создать трек с несколькими разными частями или жанрами, попробуйте уменьшить длину контекста. Для более целостных и последовательных композиций увеличьте значение Context Length.
Udio предлагает три уровня подписки с разными возможностями и ограничениями:
Free: Бесплатный план с ограниченной дневной квотой на генерацию и базовыми функциями. Не требует кредитной карты.
Standard ($10/месяц): Вводный пакет с увеличенным лимитом генерации, доступом к дополнительным функциям и приоритетной обработкой.
Pro ($30/месяц): Максимальный пакет с наибольшим количеством генераций, специальными функциями и ранним доступом.
Дополнительные кредиты можно приобрести отдельно: 100 кредитов за $3 или 1000 кредитов за $25.
Примечание: Ежемесячные кредиты, предоставляемые в рамках платных планов, не накапливаются. Однако купленные отдельно кредиты являются частью вашего плана и остаются на балансе до тех пор, пока вы не израсходуете их.
[verse]
, [Verse 1]
, [verse 2]
[pre-chorus]
, [chorus]
[intro]
, [bridge]
, [outro]
, [breakdown]
, [Drop]
, [interlude]
, [buildup]
, [Refrain]
(как сообщается, помогает с согласованностью), [sample]
, [Rhythmic flow with syncopation]
, [dance interlude]
, [interlude drop]
, [Chorus: Vocalist]
, [Verse: Vocalist]
[spoken]
для произнесенных строк, можно явно указывать разные голоса[voice 1, spoken]
, [voice 2, spoken]
для разных спикеров (UDIO (Let The Groove Be Your Guide) [Full Track], Disco, Funk by BobbyB)[Verse1:female]
(https://www.udio.com/songs/bqkZ7Qgq8ZvDCBQp4V2seX) [breakdown (screaming)]
(I Hate You With All Your Heart by jakemarsh)[Emotional]
, [scream]
, [cry]
, [crowd]
Теги инструментов: [guitar solo]
, [saxophone]
, [violin solo]
"[guitar solo]"
(Wow… I Didn't Know That [Full Track], Americana, Country)"[saxophone]"
(UDIO (Let The Groove Be Your Guide) [Full Track], Disco, Funk by BobbyB)"[violin solo]"
(Lorem Ipsum Dolor Sit Amet by SirBitesalot)[Harmonica Break]
, [Harmonica Bridge]
были замечены, сгенерированы ИИ, но, похоже, не оказали никакого влияния на песню
Описания музыкального стиля/тона/элемента
"[high energy, upbeat, fast-paced Balkan brass instrumental, exciting and exhilarating]"
(Balkanski Istraživač by Rajko)[record scratching]
, [vinyl scratching]
и [dj scratching]
, похоже, работают, но непоследовательноУстановка первой подсказки как: tempo xxx bpm, похоже, работает довольно стабильно
Использование [fade out]
в разделе outro даст приятный эффект затухания, если есть место после любого текста
Повторите припев [Chorus - Repetition of the chorus to reinforce the song's themes - "Repeated chorus with an added echo for depth"]
пример: Udio | Heart of Revelry by drinko
Вот несколько примеров эффективных промптов и подсказок для различных элементов песни:
[Verse] [Verse 1] [Verse 2] [Verse 1: Voice One] [Verse 2: Voice Two] [Chorus] [Chorus 1] [Chorus 2] [Chorus: Both Male Vocalists] [Spoken Verse 1: Male Voice] [Dialogue 1: Female Voice 1] [Spoken Word: Male Voice] [Spoken Word: Female Voice] [Build: Male Vocalist] [Build: Female Vocalist] [Chorus: 2x] [Bridge] [Pre=Chorus] [Pre-Drop] [Drop] [Post-Drop] [Verse 1: Male Vocalist] [Verse 2: Female Vocalist] [All:] [Hook] [Intro: Sound of train chugging] [Chorus: Gunshots in the distance] [Verse 1: With street ambiance] [Pre-Dialogue] [Instrumental Break] [Build: Male Vocalist] [Whispers in the dark] [Chorus: All, Detective (Male), Siren (Female), (Chorus)] [Dialogue Bridge] [DETECTIVE (spoken)] [FEMALE SUSPECT (spoken)] [Instrumental Streak] [Whispers] [Instrumental Break] [Dialogue Interlude]
Вот несколько более развернутых примеров:
Пример 1:
[DETECTIVE] Dim lit streets and secrets untold [MOLL] In shadows lies the heart that's so cold [FEMME FATALE] A dame in distress or a spy, who's to say? [DETECTIVE] Every clue leaves a trail, every whisper's a lead [MOLL] But the truth's in the eyes, in the lies that they feed [FEMME FATALE] Darling, trust isn't cheap in the games that we play
Пример 2:
[Spoken Word: Male Vocalist] November the 3rd, 1955: This is Detective Harlan from the 8th Precinct, the case has taken a darker turn Mysterious notes left at the crime scene, a cipher that no mind can discern. It's all leading back to one enigmatic dame. Could she be the spider weaving this web of lies? [Spoken Word: Female Vocalist] November the 3rd, 1955: This is Miss Loretta, singing at The Blue Moon the night in question. Sure, I saw the gent with the guilty eyes, trailing shadows longer than the night is young. But a lady keeps her secrets, unless the right question is sung. [Background Music] A haunting melody of a lone saxophone, strings swelling like the tide, a piano's tune that dances with the shadows on the wall, the pulse of the city at midnight in musical form.
Пример 3:
[Scene Dialogue] MALE DETECTIVE: We're gonna get close, gonna track leads Through the twists and turns that this case needs FEMALE PARTNER: Gonna ask 'round, take some notes Follow the trail where the shadow floats
Вот пример рабочего процесса от пользователя Reddit под ником Cordova:
Обычно у меня есть хотя бы зародыш идеи для текста, в зависимости от того, первый ли это куплет, припев или что-то еще.
В тегах я выбираю жанр и любые конкретные теги, определяющие предпочтения по инструментовке или вокалу. Например:
outlaw country & honky tonk, male vocalist, female vocalist, acoustic guitar, close harmonies
Затем я ввожу свои подсказки в поле **Custom** write your own lyrics
. Текст в скобках обычно будет петься гармоническим голосом. Например:
(Intro) [Instrumental Break] He's an outlaw by nature, (a rebel by choice.) With the wind in his hair, (and the dust on his boots.) Singing songs of freedom, (with his raspy voice.) He's an outlaw forever, (playing his roots.)
Затем нажимаю generate. Если мне нравится одна из двух сгенерированных песен, я переименовываю этот файл и даю ему обложку, чтобы он выделялся в моем списке. Позже очищаю, удаляя все без обложки.
Это упрощает расширение, потому что теперь я знаю течение песни и могу создавать свой текст в соответствии с подсказками для [Verse]
, [Pre Chorus]
, [Chorus]
и [Bridge]
и получать согласованный результат, соответствующий настроению песни.
Я обнаружил, что лучше всего генерировать по 6-8 строк на раздел (в зависимости от количества слогов и течения), и там, где в итоге не хватает текста, я вставляю [Instrumental Break]
, [Guitar Solo]
или [Interlude]
, чтобы заполнить пространство чем-то интересным для слуха.
Чтобы лучше направлять ИИ, старайтесь использовать не только дескриптор вроде [verse]
, но и добавляйте максимум 2 слова для описания, например [harmonic male verse]
. Не забывайте про скобки (
и )
, которые часто генерируют приятное эхо.
Если ваш собственный текст — это средний куплет или припев, но его не хватит на полные 32 секунды, попробуйте добавить [Instrumental Break]
или [Interlude]
до или после текста, чтобы расширить раздел и не дать ИИ вставить импровизации или лирические артефакты.
Udio открывает безграничные возможности для создания музыки с помощью нейросетей. Даже без музыкального образования вы можете создавать полноценные композиции в несколько кликов. Простой интерфейс, генерация музыки по текстовому описанию, а также функции расширения треков и создания ремиксов делают Udio незаменимым инструментом для музыкантов, продюсеров и энтузиастов.
В будущем мы можем ожидать появления еще более продвинутых моделей, способных создавать более сложную и эмоционально насыщенную музыку. Но пока нейросети остаются мощным инструментом для воплощения наших творческих идей. Так что не бойтесь экспериментировать, пробовать новые подходы и делиться своими творениями с миром. В мире музыкальных нейросетей есть бесконечное пространство для творчества и самовыражения.
На этом у меня все. Искренне верю, что кто-то найдет в Udio свою творческую отдушину, как это удалось мне. Будем следить за развитием этих технологий. Если создадите что-нибудь классное, приглашаю запостить в наше сообщество Нейро-Музыка на Пикабу.
Я рассказываю больше о нейросетях у себя на YouTube, в Telegram и на Boosty. Буду рад вашей подписке и поддержке. Всех обнял. Удачных генераций!
*Организация Meta, а также ее продукты Instagram и Facebook, признаны экстремистскими и запрещены на территории РФ.
Новости, обзоры продуктов и конкурсы от команды Timeweb.Cloud — в нашем Telegram-канале ↩