На недавней конференции GIGA R&D DAY, организованной командой R&D SberDevices, участники обсудили последние достижения в разработке GigaChat, NLP, Vision и Audio.
Событие собрало ведущих специалистов и экспертов в области искусственного интеллекта, которые поделились своими идеями и разработками. В день рождения GigaChat'a делимся с вами видеозаписями выступлений и презентациями докладов, которые охватывают широкий спектр тем от мультимодальности и мультиэкспертности до проблем alignment и задач генерации речи.
Валерий Терновский и Александр Капитанов рассмотрели ключевые направления экспериментов в NLP GigaChat. Они обсудили рецепты pretrain, мультиэкспертность и мультиагентность и GigaQ*, а также рассказали о мультимодальности: изображениях, видео, звуке, 2D/3D и манипуляции изображениями.
СлайдыНикита Сидоров поделился опытом внедрения исследовательских решений в разработку GigaChat, и рассказал о том, как команда работает над его alignment`ом.
СлайдыПрохор Гладких описал разработку и реализацию Retrieval Augmented Generation на основе GigaChat — GigaSearch. Он подробно остановился на вызовах, с которыми столкнулась команда, и продемонстрировал прирост по метрикам качества ответа на фактологические вопросы.
Слайды и Q&AВопрос: Почему используете именно Open Search? Другие системы пробовали?
У команды поиска уже был большой опыт работы с этой системой, поэтому выбрали ее. Были эксперименты и с другими системами.
Вопрос: Как отфильтровываете провокационные темы? Политику, наркотики и т.д.
Лучше использовать отдельный классификатор. Можно использовать эмбеддинги самой LLM для него.
Вопрос: Можно поподробнее про базу данных для извлечения - почему используются именно подход, основанный на чанках. Пробовался ли подход на графах знаний?
KGQA у нас тоже есть в Салюте, в GigaChat пока не встроили.
Вопрос: как вы замеряете качество модели и изменения в метриках на проде?
Перед каждым релизом есть контроль качества, в том числе через автометрики. Также есть разметка срезов потока с ПРОД-а.
Вопрос: Гигачат плохо придерживается формата выдачи, даже в json у него не всегда получается хорошо придерживаться формата. Как добиться того, чтобы гигачат вызывал гигафункции корректно?
Качество вызова функции сильно зависит от качества и подробности описания к ней и ее параметрам, а также выходным параметрам. Стоит поработать в эту сторону.
Вопрос: уместность и достоверность оцениваются независимо или достоверность оценивается только для того, что уместно?
Независимо.
Вопрос: анафоры разрешаются самим же гигачатом или есть отдельная модель?
Да, самим GigaChat-ом.
Игорь Чурин и Мария Тихонова рассказали о новых экспериментах с мультиязычной моделью mGPT, представленных на конференции EMNLP. Особое внимание уделено разработке 23 файнтюнам mGPT на моноязычных корпусах языков малых народов России и стран СНГ. Этот набор дал уникальную возможность использовать мощь языковых моделей для малоресурсных языков.
Слайды и Q&AВопрос: А сколько времени у вас это всё заняло?
Обучение файнтюна mGPT до 250к шагов занимает около 3 дней на а100 с 80 гигами, ушло где-то 2 месяца, чтобы дообучить все модельки до плато
Вопрос: Какое вы видите использование данной модели кроме переводчика?
Как и у остальных моделей LLM - answering questions, summarizing documents и тд
Вопрос: Что вы можете сказать о качестве работы ваших моделей на языках с разными особенностями (синтетические/аналитические, внутренняя флексия, галлюцинации и тд
Зависимость работы модели от упомянутых особенностей языков мы пока не изучали. Однако мы смотрели на связь моделей с алфавитом и выявили, что есть сильная связь между тем, использует ли язык латиницу или нет. Также есть связь между размером обучающего корпуса и качеством на этом языке.
Вопрос: Какой был размер словаря токенов, на базе которого вы гоняли cross-entropy loss? Использовались ли какие-то хаки по типу adaptive softmax, negative sampling и тд?
Размер словаря модели 100k токенов. Мы использовали единый токенизатор для всех языков. При обучении мы старались следовать классическому подходу из оригинальной статьи про GPT-3, не используя, упомянутых техник. Детальную информацию по обучению и использованных гиперпараметрах можно найти в оригинальной статье https://arxiv.org/abs/2204.07580.
Артем Снегирев расскзал о методах ранжирования ответов виртуальных ассистентов. Он поделился опытом работы с данными, методами повышения качества ответов и оптимизациями по памяти и времени.
СлайдыАлёна Феногенова, Альбина Ахметгареева и Мария Тихонова подробно рассказали о методологии бенчмарка MERA и его особенностях, а также разобрали 21 задание для оценки навыков модели, включая здравый смысл, целеполагание, логику, знания о мире, память, математику, этику и многое другое.
СлайдыНикита Мартынов рассказал о трансформерных моделях для коррекции правописания на русском и английском языках, которые выигрывают у открытых спеллчекеров (Yandex.Speller, JamSpell, Hunspell) и проприетарных моделей (GPT-3.5, GPT-4). Никита также описал обновления в библиотеке SAGE: расширенная разметка в датасетах, метрика, учитывающая разные аспекты правописания, и пополнение в семействе открытых предобученных моделей.
СлайдыСергей Марков, руководитель исследовательской программы GigaChat и R&D.
Константин Крестников, лид проекта GigaChain (GigaChat SDK), амбассадор AI-агентов.
Иван Оселедец, генеральный директор AIRI, профессор Сколтеха.
Татьяна Шаврина, энтузиаст open source LLM, Старший научный сотрудник, ИЯ РАН.
Денис Димитров, руководитель проекта Kandinsky, научный консультант AIRI.
Александр Нагаев рассказал о ключевых особенностях жестового языка и основных проблемах, возникающих при его переводе. Были представлены технологии компьютерного зрения, описаны различия между задачами распознавания жестов и перевода жестовой речи, а также специфика данных для решения этих задач.
СлайдыМихаил Мазуров: Исследование диффузионных моделей приоткрыло нам возможность переносить текстовые концепции на холст цифрового полотна. Казалось бы, что еще нужно для счастья? Перенести все это в 3D! Выясним, как создать практически любой объект в 3D-пространстве с помощью нейронных сетей, как заставить Кандинского смотреть за угол и ждет ли нас будущее, как в «Первому игроку приготовиться».
Марина Бессмертная рассказала о автоматизированном пайплайне для анализа видеоконтента. Её команда создала систему, работающую с запросами на естественном языке, которая выявляет увлекательные моменты в видео.
СлайдыБорис Жестков обсудил задачи генерации речи с помощью LLM, рассмотрел потенциал и ограничения этих архитектур и применении LLM в различных задачах речевого домена. Архитектуры, токенизация аудио, пайплайны сбора и валидации данных.
Артемий Таразанов представил способ представления речевых характеристик, который позволяет управлять темпом, тоном, энергией, экспрессией и артикуляцией речи в модели синтеза речи на основе архитектур FastSpeech. Он поделился подходами к созданию инструктивного датасета для синтеза речи с помощью LLM.
Слайды и Q&AВопрос: А такая модель управления голоса темп и прочими уже запущена и работает в проде? В ваших девайсах?
В проде уже есть модель с поддержкой управления некоторыми характеристиками. Управление там осуществляется через тег paint. Ссылка на документацию по разметке: https://developers.sber.ru/docs/ru/va/chat/voice-interface/speech-synthesis/ssml/overview
Максим Смоляков рассказал о синтезе вокала и генерации пения с аккомпанементом по тексту.
Мы благодарны всем экспертам R&D SberDevices за их вклад и стремление делиться знаниями и опытом. Приглашаем вас в Telegram-канал Salute AI, где ML-специалисты SberDevices делятся наработками в NLP, CV, Speech и других сферах.
Обязательно приходите на будущие мероприятия SberDevices!