Этот сайт использует файлы cookies. Продолжая просмотр страниц сайта, вы соглашаетесь с использованием файлов cookies. Если вам нужна дополнительная информация, пожалуйста, посетите страницу Политика файлов Cookie
Subscribe
Прямой эфир
Cryptocurrencies: 9868 / Markets: 82694
Market Cap: $ 2 189 011 226 769 / 24h Vol: $ 105 635 446 275 / BTC Dominance: 52.421822486842%

Н Новости

LOCOST и SPECTRUM, два подхода к суммаризации

2-3 абзаца — привычный размер входного текста для языковых моделей. Больше — тяжело, потому что вычислительная сложность растет квадратичным образом. Поэтому битва за удлинение контекста продолжается и постоянно возникают новые, общие или не очень, подходы. В этом обзоре мы расскажем о двух подходах, связанных с суммаризацией большого текста. Первый — LOCOST — направлен на длинные тексты (статьи и целые книги). Второй — SPECTRUM — на долгие диалоги.

LOCOST

Это архитектура энкодер-декодер, но на базе модели пространства состояний. (немного писали об этом в нашем канале). Вообще само развитие SSM (state space models) в эпоху тотальной доминации трансформеров мотивируется как раз тем, что они способны работать с контекстом на несколько порядков длиннее, а сложность у них при этом линейная. Пока что архитектуры на основе SSM использовали или только декодер, или только энкодер. В первом случае — для безусловной авторегрессионной генерации, во втором — для sequence classification. Генерация условного текста, например, составление саммари с помощью SSM пока не показывает блестящих результатов.

LOCOST (статья) нацелен именно на это. Авторы предлагают архитектуру типа энкодер-декодер на базе SSM для суммаризации текста. Вроде бы получилось составить краткий пересказ целой книги аж в 600 тысяч токенов

Итак, вместо механизма внимания будем использовать модель пространства состояний. Скрытые состояния и выход задаются через систему рекуррентных соотношений. Связь между предыдущим и следующим состоянием линейная, поэтому развернуть всю рекуррентную цепочку до выхода можно одним ходом с помощью свертки. Вообще, обычная свёртка даст ту же квадратичную сложность, что у трансформера ( и те же сложности с длиной входа), и сделает SSM бессмысленным. Но можно применить быстрое преобразование фурье, который даёт сложность LlogL. Следующий важный вопрос — нужно не просто научиться воспринимать длинный контекст, но и не потерять при этом локальные связи. Для этого в LOCOST свёртка идет в двух противоположных направлениях, результаты просто суммируются (на схеме энкодера слева это обозначено как BiSSM).

С декодером в LOCOST не стали придумывать ничего нового, так как изначально модель заточена на генерацию маленького текста из большого. Авторы использовали декодер из vanilla transformer.

Модель оценивали метриками ROUGE-1/2/Lsum, а также BERTScore и BLANC. А файнтюнинг проводили на научных статьях из arXiv и PubMed (таргетом были собственно абстракты статей) и на датасетах с пересказами кино, книг и правительственных отчетов США.

Еще один интересный момент — не совсем понятно, как качественно оценить результат, ведь для этого придётся прочитать все эти статьи и книги в полном объёме. GPT это не скормишь, а просить это сделать живых людей слишком дорого. Авторы LOCOST эту проблему не то что бы решили, но оценивали саммари с помощью GPT-3.5 на релевантность и последовательность.

Результаты на входном тексте длиной от тысячи до 500 тысяч токенов примерно соответствуют LongT5 и LED, но вот вычислительные затраты при этом значительно ниже.

учшую модель LOCOST-32K сравнили в задаче суммаризации книги целиком. Она победила LongT5 и BART large, при том что у нее меньше всего параметров. К тому же она единственная смогла прочитать 600 тысяч токенов за один присест без разбиения на части.

SPECTRUM

Привычный человеческий диалог — очень интересная цель для суммаризации, возможно даже интереснее чем просто большой односвязный текст статьи или книги. Дело во внутренней структуре диалога, при которой чередуются реплики участников и в формальной особенности. Люди могут долго не терять общую нить разговора, при этом в явном виде о ней не упоминать. И именно в диалоге как нигде важно следить за глобальным контекстом, который может полностью поменять локальный смысл.

Модели же воспринимают долгие диалоги, как обычный текст. Сама структура при этом теряется.

SPECTRUM (статья) модифицирует процесс переобучения трансформеров так, чтобы сохранялась информация о спикере и внутренняя структура диалога. Обучение идет по двум направлением — предсказания чья очередь говорить и маскированное языковое моделирование. Первое добавляет понимание самого диалога в целом, а второе помогает проследить контекст.

Сама методика обучения тоже разделяется на два пути. Один обновляет только энкодер, а второй — энкодер и декодер. Первый нужен для прогнозирования очередного спикера. Для этого в начало каждого предложения добавляться токен <s> и после энкодера получается последовательность нулей и единиц, обозначающая меняется ли спикер после этого предложения или нет.

Второй путь, маскированное моделирование, идет на уровне предложений (авторы экспериментировали и с уровнем слов, но этот вариант оказался лучшим). Случайным образом выбранные предложения заменяются масками и в таком виде пропускаются полностью через трансформер.

Авторы взяли датасеты с расшифровками интервью, диалогами из книг и дополнили собственным датасет из реальных диалогов — их взяли из кино и сериалов. Туда же добавили диалоги пользователей с GPT-3.5 (датасет Soda). Максимальная длина контекста — 4096 токенов.

Сравнивали результаты примерно с теми же с моделями, что и в случае с LOCOST на той же метрике Rouge .

Не безупречно убедительно, но всё же SPECTRUM кое-где превзошел LongT5 и LED, и BART large

Больше наших обзоров AI‑статей на канале Pro AI.

Источник

  • 07.09.23 16:24 CherryTeam

    Cherry Team atlyginimų skaičiavimo programa yra labai naudingas įrankis įmonėms, kai reikia efektyviai valdyti ir skaičiuoti darbuotojų atlyginimus. Ši programinė įranga, turinti išsamias funkcijas ir patogią naudotojo sąsają, suteikia daug privalumų, kurie padeda supaprastinti darbo užmokesčio skaičiavimo procesus ir pagerinti finansų valdymą. Štai keletas pagrindinių priežasčių, kodėl Cherry Team atlyginimų skaičiavimo programa yra naudinga įmonėms: Automatizuoti ir tikslūs skaičiavimai: Atlyginimų skaičiavimai rankiniu būdu gali būti klaidingi ir reikalauti daug laiko. Programinė įranga Cherry Team automatizuoja visą atlyginimų skaičiavimo procesą, todėl nebereikia atlikti skaičiavimų rankiniu būdu ir sumažėja klaidų rizika. Tiksliai apskaičiuodama atlyginimus, įskaitant tokius veiksnius, kaip pagrindinis atlyginimas, viršvalandžiai, premijos, išskaitos ir mokesčiai, programa užtikrina tikslius ir be klaidų darbo užmokesčio skaičiavimo rezultatus. Sutaupoma laiko ir išlaidų: Darbo užmokesčio valdymas gali būti daug darbo jėgos reikalaujanti užduotis, reikalaujanti daug laiko ir išteklių. Programa Cherry Team supaprastina ir pagreitina darbo užmokesčio skaičiavimo procesą, nes automatizuoja skaičiavimus, generuoja darbo užmokesčio žiniaraščius ir tvarko išskaičiuojamus mokesčius. Šis automatizavimas padeda įmonėms sutaupyti daug laiko ir pastangų, todėl žmogiškųjų išteklių ir finansų komandos gali sutelkti dėmesį į strategiškai svarbesnę veiklą. Be to, racionalizuodamos darbo užmokesčio operacijas, įmonės gali sumažinti administracines išlaidas, susijusias su rankiniu darbo užmokesčio tvarkymu. Mokesčių ir darbo teisės aktų laikymasis: Įmonėms labai svarbu laikytis mokesčių ir darbo teisės aktų, kad išvengtų baudų ir teisinių problemų. Programinė įranga Cherry Team seka besikeičiančius mokesčių įstatymus ir darbo reglamentus, užtikrindama tikslius skaičiavimus ir teisinių reikalavimų laikymąsi. Programa gali dirbti su sudėtingais mokesčių scenarijais, pavyzdžiui, keliomis mokesčių grupėmis ir įvairių rūšių atskaitymais, todėl užtikrina atitiktį reikalavimams ir kartu sumažina klaidų riziką. Ataskaitų rengimas ir analizė: Programa Cherry Team siūlo patikimas ataskaitų teikimo ir analizės galimybes, suteikiančias įmonėms vertingų įžvalgų apie darbo užmokesčio duomenis. Ji gali generuoti ataskaitas apie įvairius aspektus, pavyzdžiui, darbo užmokesčio paskirstymą, išskaičiuojamus mokesčius ir darbo sąnaudas. Šios ataskaitos leidžia įmonėms analizuoti darbo užmokesčio tendencijas, nustatyti tobulintinas sritis ir priimti pagrįstus finansinius sprendimus. Pasinaudodamos duomenimis pagrįstomis įžvalgomis, įmonės gali optimizuoti savo darbo užmokesčio strategijas ir veiksmingai kontroliuoti išlaidas. Integracija su kitomis sistemomis: Cherry Team programinė įranga dažnai sklandžiai integruojama su kitomis personalo ir apskaitos sistemomis. Tokia integracija leidžia automatiškai perkelti atitinkamus duomenis, pavyzdžiui, informaciją apie darbuotojus ir finansinius įrašus, todėl nebereikia dubliuoti duomenų. Supaprastintas duomenų srautas tarp sistemų padidina bendrą efektyvumą ir sumažina duomenų klaidų ar neatitikimų riziką. Cherry Team atlyginimų apskaičiavimo programa įmonėms teikia didelę naudą - automatiniai ir tikslūs skaičiavimai, laiko ir sąnaudų taupymas, atitiktis mokesčių ir darbo teisės aktų reikalavimams, ataskaitų teikimo ir analizės galimybės bei integracija su kitomis sistemomis. Naudodamos šią programinę įrangą įmonės gali supaprastinti darbo užmokesčio skaičiavimo procesus, užtikrinti tikslumą ir atitiktį reikalavimams, padidinti darbuotojų pasitenkinimą ir gauti vertingų įžvalgų apie savo finansinius duomenis. Programa Cherry Team pasirodo esanti nepakeičiamas įrankis įmonėms, siekiančioms efektyviai ir veiksmingai valdyti darbo užmokestį. https://cherryteam.lt/lt/

  • 08.10.23 01:30 davec8080

    The "Shibarium for this confirmed rug pull is a BEP-20 project not related at all to Shibarium, SHIB, BONE or LEASH. The Plot Thickens. Someone posted the actual transactions!!!! https://bscscan.com/tx/0xa846ea0367c89c3f0bbfcc221cceea4c90d8f56ead2eb479d4cee41c75e02c97 It seems the article is true!!!! And it's also FUD. Let me explain. Check this link: https://bscscan.com/token/0x5a752c9fe3520522ea88f37a41c3ddd97c022c2f So there really is a "Shibarium" token. And somebody did a rug pull with it. CONFIRMED. But the "Shibarium" token for this confirmed rug pull is a BEP-20 project not related at all to Shibarium, SHIB, BONE or LEASH.

Для участия в Чате вам необходим бесплатный аккаунт pro-blockchain.com Войти Регистрация
Есть вопросы?
С вами на связи 24/7
Help Icon