Этот сайт использует файлы cookies. Продолжая просмотр страниц сайта, вы соглашаетесь с использованием файлов cookies. Если вам нужна дополнительная информация, пожалуйста, посетите страницу Политика файлов Cookie
Subscribe
Прямой эфир
Cryptocurrencies: 9964 / Markets: 82401
Market Cap: $ 2 429 257 787 634 / 24h Vol: $ 51 263 671 836 / BTC Dominance: 54.282965708462%

Н Новости

ИИ-го-го или как AI-стартапу с TTS сэкономить копеечку: синтез речи из палок и веток для low-resource языков

Как учат нас майские, шашлык сам себя не пожарит…но это лишь до поры до времени и не далек тот час, когда ИИ автоматизация наверняка придет и сюда! Но пока светлое будущее еще не наступило, поэтому давайте поговорим … о котиках о лошадках 🐴

Слышали ли вы, как скачет конь по монгольской степи? Если нет, то в этой статье мы исправим это упущение и расскажем, как за 'недорого' натренировать облегчённую TTS (Time-to-speech) модель для воспроизведения речи на low-resource языке. Для примера мы опять оседлаем тему Монголии и проведем эксперимент на монгольском языке, очень непривычно звучащем для русского уха и практически непроизносимом для языка 🚑

Тыг-дык-тыг-дык… тыг-дык-тыг-дык…ИИ-го-го … Примерно такого аудио ряда мы ждем на выходе у нашего эксперимента... Чтобы узнать, как мы дошли до такой жизни, что у нас в итого получилось и насколько оно бьется с ожиданиями, поскакали под кат! 😜🚀

619ee36b268f9a1a81f5ff35f11376b0.png

Вводная

Читатели нашего блога знают, что Al-команда Рафт уже довольно давно и успешно работает с заточенными под STT (Speech-to-Text) моделями, активно развивая собственный продукт AudioInsights, помогающий оптимизировать работу колл-центров, отделов продаж, отделов клиентского сервиса у наших клиентов в России и за ее пределами. Другим значимым направлением для нас является разработка и внедрение чат-ботов на базе коммерческих и ореn-sоurce-ных LLM, и логичным шагом здесь выглядит попытка скрестить этих ужа с ежом, тем самым дав пользователям дополнительный голосовой интерфейс для взаимодействия с полюбившимся чат-ботом.

Связующим мостиком здесь как раз-таки и выступает TTS синтез. Если говорить про широко распространенные языки вроде английского, китайского, русского, то эта задача уже хорошо решается с помощью RNN моделей, например, популярного Tacotron 2.

Менее радужно все обстоит для малораспространенных или, так называемых, low-resource языков - армянского, грузинского, киргизского, монгольского и многих других. При этом уровень цифровизации в странах, где этот язык является основным, неуклонно растет и на фоне разворачивающегося в индустрии торнадо высок спрос на Al-автоматизацию, в том числе на создание голосовых ассистентов. Соответственно возникает множество различных AI-стартапов, вынужденных решать задачу синтеза речи на low-resource языках, - какие сложности поджидают на этом пути и как их можно преодолеть - об этом ниже.

9ea3be3233675cd895fa3be58317dc1d.png

Запрягаем и едем

Датасет

С чего обычно все начинается? Вооружившись Audacity, мы нарезаем добытые в закоулках интернета аудио на монгольском языке на "чанки" по 5 секунд. Формируем для полученных аудиофайлов транскрипт, который затем записываем с помощью англоязычных символов и букв.

Сил потрачено много, а получившаяся кучка выглядит не такой уж и большой? Так бывает :) Но ничего страшного - будем справляться с тем, что есть.

Поработаем над улучшением данных:

Данные преобразования в сумме позволят расширить итоговый датасет, повысить скорость обучения, т.к. в результате не потребуется дополнительного преобразования данных между данными сигнала и данными спектрограммы.

Модель

Для целей нашего исследования мы используем sequence-to-sequence архитектуру, целиком базирующуюся на CNN ( и да, тут никаких breaking news, только Convolutional Neural Networks) – для ее построения воспользуемся идеей, описанной и опробированной здесь.

Предлагаемая модель состоит из трех модулей:

  • Text To Mel Spectrogram (TTMS)

  • Spectrogram Super-resolution Network (SSRN)

  • Guided Attention.

TTMS модуль состоит из четырех подмодулей TextEncoder, AudioEncoder, Attention и AudioDecoder-а и используется для генерации “черновой” спектрограммы, которая уже “скармливается” SSRN модулю для генерации полноценной спектрограммы.

Стоимость тренировки Attention модуля нам также удается снизить практически на порядок путем использования guided attention loss в предположении, что attention-матрица (A) в нашем случае является диагональной.

L_{att}(A)= E_{nt}[A_{nt}W{nt}],  где \\ W{nt}=1-exp \{-(n/N - t/T)^2/2g^2 \}

g в нашем случае мы взяли равным 0.2.

Так, с применением guided attention loss функции для получения удовлетворительного результата в тренировке Attention-матрицы нам достаточно оказалось всего 5к итераций.

Выглядит как то, что мы и искали!

a1184c936092124a8f1a303c5baa5948.png

И куда мы такие красивые в итоге прискакали

Штош, подытожим:

Для тренировки нами использовалась GPU NVIDIA GeForce GTX 980 Ti с 6Gb памяти. Все модули системы мы тренировали независимо и асинхронно. Если сравнивать время тренировки, то для выбранной модели с 156M параметров оно составило чуть более 15 часов, тогда как, например, для упомянутой в начале статьи модели Tacotron2 + HifiGAN( 376M параметров) оно выходит за 60 часов.

Качество синтезированного голоса при этом остается в пределах удовлетворительного: рассчитанное значение MCD (Mel Cepstral Distortion) для тестируемой в рамках эксперимента модели и референсных данных составляет приличные 5.47.

А субъективную оценку получившегося результата мы оставим на суд истинных ценителей редких сортов тепличных баклажанов читателя ;)

Итак, минутка монгольского:

Hashaand өvs bajna, zүlgen deer tүlee bajna, hashaany zүlgen deer tүlee hagalzh bolohgүj -

вот такой вот получился в результате синтеза вольный перевод поговорки "На дворе трава, на ней все в дрова..." ( а нет, это меня куда-то опять в сторону майсксих шашлыков потянуло :) )

Hashaand өvs bajna, zүlgen deer tүlee bajna, hashaany zүlgen deer tүlee hagalzh bolohgүj.wav
drive.google.com

Похоже на обещанную лошадь в степи? 🎠

Источник

  • 07.09.23 16:24 CherryTeam

    Cherry Team atlyginimų skaičiavimo programa yra labai naudingas įrankis įmonėms, kai reikia efektyviai valdyti ir skaičiuoti darbuotojų atlyginimus. Ši programinė įranga, turinti išsamias funkcijas ir patogią naudotojo sąsają, suteikia daug privalumų, kurie padeda supaprastinti darbo užmokesčio skaičiavimo procesus ir pagerinti finansų valdymą. Štai keletas pagrindinių priežasčių, kodėl Cherry Team atlyginimų skaičiavimo programa yra naudinga įmonėms: Automatizuoti ir tikslūs skaičiavimai: Atlyginimų skaičiavimai rankiniu būdu gali būti klaidingi ir reikalauti daug laiko. Programinė įranga Cherry Team automatizuoja visą atlyginimų skaičiavimo procesą, todėl nebereikia atlikti skaičiavimų rankiniu būdu ir sumažėja klaidų rizika. Tiksliai apskaičiuodama atlyginimus, įskaitant tokius veiksnius, kaip pagrindinis atlyginimas, viršvalandžiai, premijos, išskaitos ir mokesčiai, programa užtikrina tikslius ir be klaidų darbo užmokesčio skaičiavimo rezultatus. Sutaupoma laiko ir išlaidų: Darbo užmokesčio valdymas gali būti daug darbo jėgos reikalaujanti užduotis, reikalaujanti daug laiko ir išteklių. Programa Cherry Team supaprastina ir pagreitina darbo užmokesčio skaičiavimo procesą, nes automatizuoja skaičiavimus, generuoja darbo užmokesčio žiniaraščius ir tvarko išskaičiuojamus mokesčius. Šis automatizavimas padeda įmonėms sutaupyti daug laiko ir pastangų, todėl žmogiškųjų išteklių ir finansų komandos gali sutelkti dėmesį į strategiškai svarbesnę veiklą. Be to, racionalizuodamos darbo užmokesčio operacijas, įmonės gali sumažinti administracines išlaidas, susijusias su rankiniu darbo užmokesčio tvarkymu. Mokesčių ir darbo teisės aktų laikymasis: Įmonėms labai svarbu laikytis mokesčių ir darbo teisės aktų, kad išvengtų baudų ir teisinių problemų. Programinė įranga Cherry Team seka besikeičiančius mokesčių įstatymus ir darbo reglamentus, užtikrindama tikslius skaičiavimus ir teisinių reikalavimų laikymąsi. Programa gali dirbti su sudėtingais mokesčių scenarijais, pavyzdžiui, keliomis mokesčių grupėmis ir įvairių rūšių atskaitymais, todėl užtikrina atitiktį reikalavimams ir kartu sumažina klaidų riziką. Ataskaitų rengimas ir analizė: Programa Cherry Team siūlo patikimas ataskaitų teikimo ir analizės galimybes, suteikiančias įmonėms vertingų įžvalgų apie darbo užmokesčio duomenis. Ji gali generuoti ataskaitas apie įvairius aspektus, pavyzdžiui, darbo užmokesčio paskirstymą, išskaičiuojamus mokesčius ir darbo sąnaudas. Šios ataskaitos leidžia įmonėms analizuoti darbo užmokesčio tendencijas, nustatyti tobulintinas sritis ir priimti pagrįstus finansinius sprendimus. Pasinaudodamos duomenimis pagrįstomis įžvalgomis, įmonės gali optimizuoti savo darbo užmokesčio strategijas ir veiksmingai kontroliuoti išlaidas. Integracija su kitomis sistemomis: Cherry Team programinė įranga dažnai sklandžiai integruojama su kitomis personalo ir apskaitos sistemomis. Tokia integracija leidžia automatiškai perkelti atitinkamus duomenis, pavyzdžiui, informaciją apie darbuotojus ir finansinius įrašus, todėl nebereikia dubliuoti duomenų. Supaprastintas duomenų srautas tarp sistemų padidina bendrą efektyvumą ir sumažina duomenų klaidų ar neatitikimų riziką. Cherry Team atlyginimų apskaičiavimo programa įmonėms teikia didelę naudą - automatiniai ir tikslūs skaičiavimai, laiko ir sąnaudų taupymas, atitiktis mokesčių ir darbo teisės aktų reikalavimams, ataskaitų teikimo ir analizės galimybės bei integracija su kitomis sistemomis. Naudodamos šią programinę įrangą įmonės gali supaprastinti darbo užmokesčio skaičiavimo procesus, užtikrinti tikslumą ir atitiktį reikalavimams, padidinti darbuotojų pasitenkinimą ir gauti vertingų įžvalgų apie savo finansinius duomenis. Programa Cherry Team pasirodo esanti nepakeičiamas įrankis įmonėms, siekiančioms efektyviai ir veiksmingai valdyti darbo užmokestį. https://cherryteam.lt/lt/

  • 08.10.23 01:30 davec8080

    The "Shibarium for this confirmed rug pull is a BEP-20 project not related at all to Shibarium, SHIB, BONE or LEASH. The Plot Thickens. Someone posted the actual transactions!!!! https://bscscan.com/tx/0xa846ea0367c89c3f0bbfcc221cceea4c90d8f56ead2eb479d4cee41c75e02c97 It seems the article is true!!!! And it's also FUD. Let me explain. Check this link: https://bscscan.com/token/0x5a752c9fe3520522ea88f37a41c3ddd97c022c2f So there really is a "Shibarium" token. And somebody did a rug pull with it. CONFIRMED. But the "Shibarium" token for this confirmed rug pull is a BEP-20 project not related at all to Shibarium, SHIB, BONE or LEASH.

Для участия в Чате вам необходим бесплатный аккаунт pro-blockchain.com Войти Регистрация
Есть вопросы?
С вами на связи 24/7
Help Icon