Этот сайт использует файлы cookies. Продолжая просмотр страниц сайта, вы соглашаетесь с использованием файлов cookies. Если вам нужна дополнительная информация, пожалуйста, посетите страницу Политика файлов Cookie
Subscribe
Прямой эфир
Cryptocurrencies: 9927 / Markets: 82157
Market Cap: $ 2 262 330 243 092 / 24h Vol: $ 66 769 169 320 / BTC Dominance: 53.25840068166%

Н Новости

Про ML по-серьёзному: что расскажут в докладах на I'ML

7fx1-uv_iw4hednpahjh697tn8k.jpeg

Слова «доклад про ML/AI» могут звучать словно очередной рассказ про будущее, где вкалывают роботы, а не человек. Такое мы все уже слышали сто раз.

Но на нашей онлайн-конференции I'ML всё будет иначе:

  • Она рассчитана на тех, кто лично использует ML в проектах.

  • Она не о далёком будущем, а о вопросах, актуальных уже здесь и сейчас.

  • Она не об абстрактном («было бы здорово…»), а о конкретном: «как бороться с ML-галлюцинациями», «как рекомендовать размер одежды с помощью ML».

  • Она не о том, как «нейросети отберут работу», а наоборот: о ML-работе, которую нейросети нам дали.

  • В общем, она не для желающих просто пофантазировать, а для специалистов, желающих эффективно работать.

А что именно там будет? До конференции остался месяц, и мы представляем Хабру её программу:


Содержание

  • NLP (обработка естественного языка)

  • CV (компьютерное зрение)

  • MLOps

  • General ML

  • RecSys (рекомендательные системы)

  • Аналитика

  • ML-продукты

  • Заключение


NLP

Для нас аббревиатура NLP означает не «нейролингвистическое программирование», а совершенно другое: обработку естественного языка (natural language processing). Над чат-ботами теперь работает немало людей — что полезно знать в этой работе?

Обучение GigaChat с контекстом в сотни тысяч токенов

aw7kwriku8vjjqa4iemwj6tbzfi.png
Евгений Косарев

SberDevices

Обсудим, как GigaChat увеличил контекст модели до сотен тысяч токенов (дальше — больше) и как проверял качество получившейся модели. Евгений расскажет про плюсы и минусы разных подходов к ускорению модели и оптимизации использования памяти, а также объединит их в пайплайн — на котором обучался GigaChat — позволяющий обучать и использовать модели на контексте в сотни тысяч токенов и получать высокие показатели качества на LongBench.


Построение RAG-приложения с использованием YaGPT

wb3jzoesf71yniv57cdx6uwrb0i.png
Кузьма Лешаков

Яндекс

Пройдемся по возможностям YaGPT и узнаем, как построить YaGPT-приложение на облачной инфраструктуре.


Галлюцинации в LLM: что это и как с ними бороться?

uyv_mwbmhp_j2galeads8pdv3ha.png
Артем Ерохин

X5 Tech

Сейчас использование LLM — крайне горячая тема. Кто же не знает про ChatGPT? Но языковые модели все еще имеют особенности применения. Одна из таких особенностей — они «выдумывают». Это не плохо, скорее, особенность их работы. Но для применения в реальных проектах это может быть критично. Это значит, что нам нужны методы для детекции «галлюцинаций» LLM и методы борьбы с этим явлением. Об этом и будет доклад.


SAGE: мультиязычная коррекция орфографии и пунктуации

dh1bgwut3qjsvoicaykywthfpd0.png
Никита Мартынов

SaluteDevices

Никита расскажет о методологии для мультиязычной генеративной правки орфографии и пунктуации из статьи с EACL 2024.

Результат исследований — библиотека SAGE с открытыми весами предобученных трансформерных моделей для исправления орфографии и пунктуации, открытыми параллельными датасетами с ручной разметкой для исправления орфографии на русском языке и двумя алгоритмами аугментации на основе намеренного искажения правописания.


Синтез речи в Марусе: проблемы, успехи и неудачи

qhydt7fh8egvii0gmjch1veujum.jpeg
Максим Галайко

VK

Максим расскажет про ряд проблем, с которыми команда столкнулась при разработке продакшен-системы синтеза речи, а также про успешные и неудачные попытки их исправить.


CV

Эту аббревиатуру мы тоже воспринимаем не так, как многие: на I'ML это не про резюме и прочие HR-дела, а про computer vision.

Active Learning для нейросетей компьютерного зрения в складской робототехнике

um7zifkxmw6nsmeklrku8juqoji.png
Aлександр Тимофеев-Каракозов

Яндекс

Александр расскажет, как устроены жизни моделей на активно меняющихся доменах. Как Яндекс собирает данные для дообучения, дообучает, версионирует и тестирует сети. Особенности доменов и инструменты автоматизации, которыми пользуется спикер.


Компьютерное зрение в Wildberries: поиск товара по фотографии и детекция «главного» объекта

f9n9f8yylywvd5x1h4equ9-atac.jpeg
Степан Евстифеев

Wildberries

В Wildberries есть множество алгоритмов, которые помогают пользователю найти нужный товар из миллионов существующих: поисковый индекс по тексту и различные рекомендательные системы. Но что, если пользователь хочет найти товар только по фото из телефона? На помощь приходят алгоритмы поиска по изображению! Вам расскажут, как они работают, как это реализовано в Wildberries и какие получились результаты.

Обсудим решение проблемы выделения «главного товара» на фотографии с помощью современных детекторов.


ML для видеоконференций SberJazz: deep dive в разработку моделей замены фона

dzlabvpdxwxvo5zenfzqytaeqxg.png
Дмитрий Балиев

SberDevices

wlej5abmw4duqy6x4dcsdtrb-y8.png
Давид Нурдинов

SberDevices

Дмитрий и Давид расскажут, как разрабатывали модели замены фона для платформы видеоконференций SberJazz.

Перед ними стояла задача ощутимо улучшить качество моделей по сравнению с доступными открытыми решениями, будучи существенно ограниченными в вычислительных ресурсах из-за необходимости запускать модели в веб-браузерах на обычных ноутбуках пользователей.

Вы узнаете, за счет чего спикеры уменьшили архитектуру, не теряя качество; какие результаты получили, применяя такие общеизвестные подходы, как дистилляция, прунинг и квантизация моделей.


MLOps

В ML важно не только непосредственное обучение моделей, но и вся сопутствующая инфраструктура: например, как эффективнее доставлять в продакшен всё обученное? И об этом речь тоже пойдёт.

Жизненный цикл ML-модели с помощью ClearML

i-onrxobhihwlockvy2lwej0-fe.png
Владимир Кочетков

Как с помощью мощной платформы ClearML организовать ML-эксперименты, запускать их и ставить в очередь. Как организовать обработку, хранение и версионирование датасетов. Все это позволяет легко и удобно проверять множество гипотез с сохранением всевозможной информации.


Управление жизненным циклом модели через Jira

bveizgj2bzc0yi3fk7z1d2waghi.png
Евгений Захарин

Циан

В настоящий момент в Циан более 70 ML-моделей. В Циан используются автоматизированные пайплайны внесения изменений в код ML-моделей, доставки моделей в прод, регулярного переобучения по расписанию через Airflow. Но, конечно, так было не всегда. Из доклада вы узнаете, как в Циан устроен жизненный цикл работы с моделями и пайплайнами обработки данных через Jira, как это упростило и ускорило работу с моделями.


Тот самый ANN! Выбираем самую быструю и оптимальную базу для векторного поиска

qy0s6-1ikh-m7dvlvckbazzuioq.png
Антон Воронов

Оператор Газпром ИД

Рассмотрим проблему применения моделей машинного обучения для поиска схожих векторов. Нас интересует:

  • база: какая быстрее и производительнее;

  • дополнительные функции, которые могут потребоваться для боевых задач: где и какие;

  • открытый бенчмарк и его результаты.

Можно использовать любую базу, которая поддерживает ANN Search. Но мы пройдемся по подводным камням реального продакшена, где такой поиск нужен бизнесу.


Как небольшой компании запустить MLOps

h1fmew6srm3sok3uykmhtjfskba.png
Игорь Терехин

Napoleon IT

Игорь раскроет, что такое MLOps в контексте небольших компаний (100–300 человек). Как начинали, что делали и какие минимальные действия уже могут оказать влияние на скорость релиза решения с ML. Он поделится советами, что делать не стоит и почему. К чему пришли в плане автоматизации и итоговой архитектуры, которую можно внедрять и уже получать профит.

В конце он покажет роадмап по кварталам для создания своей MLOps-инфраструктуры, чтобы заводить ее без надрыва. В нем будет оценка ресурсов, подводных камней и прозрачности итогового результата.


General ML

Про машинное обучение «в целом».

Ищем релевантные признаки из сотен источников для любой модели

twbsfygqtr5gbfdn06jdsontkeu.jpeg
Валерия Дымбицкая

Upgini

Итак, вы хотите использовать внешние данные для обучения. Как найти нужные? Можно опираться на метаданные датасетов... и потом погрузиться в работу по очистке данных и в эксперименты. И может случиться так, что с виду хороший датасет совсем не подходит для вашей задачи.

А если иначе? В Upgini делают сервис, который упрощает этот процесс до одного вызова open-source библиотеки. Каков путь от эталона и сотен источников до фич, повышающих GINI? Какие ловушки подстерегают, когда из тысяч признаков нужно выбрать оптимальный набор? И при чем тут LLM? Обо всем этом Валерия расскажет в докладе.


Мир банкоматов, или Как мы оптимизируем инкассации

hwcivoa3zv7z22uvjrhqc_rmh60.png
Артем Махин

Тинькофф

Артем расскажет про мир банкоматов: как они устроены, где банк теряет деньги и где может заработать, как в Тинькофф оптимизируется прибыль с помощью планирования инкассаций. Разберем путь от бизнесовой постановки проблемы до нескольких версий решения с помощью ML.


ML на Big Data — правда или вымысел?

filyotpvxbndrug6jxaoinmldhs.png
Дмитрий Бугайченко

Сбер

В рамках мастер-класса поговорим о том, почему с ML на стеке технологий Big Data все непросто и какие есть опции. На примере разберем работу с пайплайнами Spark ML, поинженерим фичи, попробуем разные модели, поработаем с AutoML. На десерт посмотрим, как может выглядеть вывод модели в прод — запакуем полученную модель в web service (не изменив ни строчки кода!) и пошлем ей пару вызовов.


RecSys

Всё о рекомендательных системах.

Рекомендательная система в приложении с социальными механиками. Как мы ленту для Шедеврума делали и вырастили возвращаемость

7-cgzh6ao6bn7nz8hjwavkyvehs.png
Даниил Лещёв

Яндекс

Доклад о ленте рекомендаций в приложении Шедеврум. Рассмотрим постановку задачи и особенности сервиса с точки зрения рекомендаций. Разберем, как с помощью ленты можно влиять на KPI-метрики сервиса.

Отдельно поговорим про подходы, которые Даниил и коллеги попробовали в ранжировании: что в итоге дало наибольший профит, а что пришлось «закопать». Обсудим архитектуру рекомендаций с точки зрения ML. В конце разберем полученные результаты и возможные дальнейшие пути улучшения.


Как рекомендовать размер с помощью машинного обучения?

spygj0_d2sd5wqdoqtqheqitzw4.png
Никита Чуркин

Lamoda

Как в Lamoda строили систему для рекомендации размера.

Выбор размера — достаточно нетривиальная задача, поскольку существуют разные размерные сетки, товары, которые большемерят / маломерят и т. д. Пользователю нужна помощь, чтобы не заказывать большое количество размеров на примерку и быстрее совершать покупки.

Никита расскажет о проблеме, первых подходах к решению и об эволюции подхода.


Advanced Analytics

Почему вам не стоит использовать байесовское A/B-тестирование

wiiqc7-fpiujl_msdghp858ss6y.png
Александр Сахнов

X5 Tech

Рассмотрим популярные мифы о байесовском A/B-тестировании.

Сравним подход с классическим. Александр подкрепит свои аргументы не словами, а реальными экспериментами. Рассмотрим все шаги A/B-тестирования, а именно: до начала A/B-теста, во время проведения и после его окончания.

В докладе спикер затронет такие темы, как расчет дизайна эксперимента, ранняя остановка, работа с метриками отношений и повышение чувствительности тестов. Он приведет примеры, когда можно применить байесовское A/B-тестирование.


ML Products

Построение интерпретируемых ML-моделей в задачах геоаналитики

8fdqs5lcnam36dyk9kyaqbliunc.png
Иван Журавлев

Bestplace

b5lwyldoqaic0-oetnudigvn_3e.jpeg
Дмитрий Крылов

Bestplace

Иван и Дмитрий представят алгоритм машинного обучения «Физмодель». Его особенности: - хорошо подходит для обучения на небольших выборках; - прозрачно интерпретируется; - позволяет внести априорное «знание об окружающем мире» в итоговую модель; - на их кейсах его работа сравнима по метрикам с XGBoost / CatBoost. Спикеры расскажут, как пришли к такой модели, обсудят детали ее реализации и приведут примеры со сравнением XGBoost / CatBoost на реальных геоаналитических задачах.


Пример использования нейронных сетей и ML-моделей при разработке нефтяных месторождений

gaoxicawujototxp1icrodoogb0.png
Михаил Петров

АЛЬМА Сервисез Компани

Михаил продемонстрирует подходы, инструменты и результаты решения задачи оптимизации режимов скважин при разработке нефтяного месторождения с использованием технологии поддержания пластового давления.

При решении поставленных задач использовались такие технологии, как Лассо-регрессия, спектральная кластеризация, глубокая нейронная сеть, оптимизация методом SLSQP с индивидуальными и групповыми ограничениями.


Заключение

Про доклады поняли, а что ещё нужно понимать про конференцию?

Она будет полностью онлайновой, но это не значит «смотреть видеодоклады как с ютуба». Например, мы ценим зрительские вопросы, поэтому предоставляем им максимум: спикер отвечает не «пять минут до следующего доклада», а «сколько потребуется», задавать их можно хоть текстом, хоть в видеозвонке.

В общем, мы хотим, чтобы это было мероприятием, в котором интересно поучаствовать в реальном времени. Если звучит любопытно, напоминаем ссылку на сайт конференции: там и вся информация, и билеты.

Источник

  • 07.09.23 16:24 CherryTeam

    Cherry Team atlyginimų skaičiavimo programa yra labai naudingas įrankis įmonėms, kai reikia efektyviai valdyti ir skaičiuoti darbuotojų atlyginimus. Ši programinė įranga, turinti išsamias funkcijas ir patogią naudotojo sąsają, suteikia daug privalumų, kurie padeda supaprastinti darbo užmokesčio skaičiavimo procesus ir pagerinti finansų valdymą. Štai keletas pagrindinių priežasčių, kodėl Cherry Team atlyginimų skaičiavimo programa yra naudinga įmonėms: Automatizuoti ir tikslūs skaičiavimai: Atlyginimų skaičiavimai rankiniu būdu gali būti klaidingi ir reikalauti daug laiko. Programinė įranga Cherry Team automatizuoja visą atlyginimų skaičiavimo procesą, todėl nebereikia atlikti skaičiavimų rankiniu būdu ir sumažėja klaidų rizika. Tiksliai apskaičiuodama atlyginimus, įskaitant tokius veiksnius, kaip pagrindinis atlyginimas, viršvalandžiai, premijos, išskaitos ir mokesčiai, programa užtikrina tikslius ir be klaidų darbo užmokesčio skaičiavimo rezultatus. Sutaupoma laiko ir išlaidų: Darbo užmokesčio valdymas gali būti daug darbo jėgos reikalaujanti užduotis, reikalaujanti daug laiko ir išteklių. Programa Cherry Team supaprastina ir pagreitina darbo užmokesčio skaičiavimo procesą, nes automatizuoja skaičiavimus, generuoja darbo užmokesčio žiniaraščius ir tvarko išskaičiuojamus mokesčius. Šis automatizavimas padeda įmonėms sutaupyti daug laiko ir pastangų, todėl žmogiškųjų išteklių ir finansų komandos gali sutelkti dėmesį į strategiškai svarbesnę veiklą. Be to, racionalizuodamos darbo užmokesčio operacijas, įmonės gali sumažinti administracines išlaidas, susijusias su rankiniu darbo užmokesčio tvarkymu. Mokesčių ir darbo teisės aktų laikymasis: Įmonėms labai svarbu laikytis mokesčių ir darbo teisės aktų, kad išvengtų baudų ir teisinių problemų. Programinė įranga Cherry Team seka besikeičiančius mokesčių įstatymus ir darbo reglamentus, užtikrindama tikslius skaičiavimus ir teisinių reikalavimų laikymąsi. Programa gali dirbti su sudėtingais mokesčių scenarijais, pavyzdžiui, keliomis mokesčių grupėmis ir įvairių rūšių atskaitymais, todėl užtikrina atitiktį reikalavimams ir kartu sumažina klaidų riziką. Ataskaitų rengimas ir analizė: Programa Cherry Team siūlo patikimas ataskaitų teikimo ir analizės galimybes, suteikiančias įmonėms vertingų įžvalgų apie darbo užmokesčio duomenis. Ji gali generuoti ataskaitas apie įvairius aspektus, pavyzdžiui, darbo užmokesčio paskirstymą, išskaičiuojamus mokesčius ir darbo sąnaudas. Šios ataskaitos leidžia įmonėms analizuoti darbo užmokesčio tendencijas, nustatyti tobulintinas sritis ir priimti pagrįstus finansinius sprendimus. Pasinaudodamos duomenimis pagrįstomis įžvalgomis, įmonės gali optimizuoti savo darbo užmokesčio strategijas ir veiksmingai kontroliuoti išlaidas. Integracija su kitomis sistemomis: Cherry Team programinė įranga dažnai sklandžiai integruojama su kitomis personalo ir apskaitos sistemomis. Tokia integracija leidžia automatiškai perkelti atitinkamus duomenis, pavyzdžiui, informaciją apie darbuotojus ir finansinius įrašus, todėl nebereikia dubliuoti duomenų. Supaprastintas duomenų srautas tarp sistemų padidina bendrą efektyvumą ir sumažina duomenų klaidų ar neatitikimų riziką. Cherry Team atlyginimų apskaičiavimo programa įmonėms teikia didelę naudą - automatiniai ir tikslūs skaičiavimai, laiko ir sąnaudų taupymas, atitiktis mokesčių ir darbo teisės aktų reikalavimams, ataskaitų teikimo ir analizės galimybės bei integracija su kitomis sistemomis. Naudodamos šią programinę įrangą įmonės gali supaprastinti darbo užmokesčio skaičiavimo procesus, užtikrinti tikslumą ir atitiktį reikalavimams, padidinti darbuotojų pasitenkinimą ir gauti vertingų įžvalgų apie savo finansinius duomenis. Programa Cherry Team pasirodo esanti nepakeičiamas įrankis įmonėms, siekiančioms efektyviai ir veiksmingai valdyti darbo užmokestį. https://cherryteam.lt/lt/

  • 08.10.23 01:30 davec8080

    The "Shibarium for this confirmed rug pull is a BEP-20 project not related at all to Shibarium, SHIB, BONE or LEASH. The Plot Thickens. Someone posted the actual transactions!!!! https://bscscan.com/tx/0xa846ea0367c89c3f0bbfcc221cceea4c90d8f56ead2eb479d4cee41c75e02c97 It seems the article is true!!!! And it's also FUD. Let me explain. Check this link: https://bscscan.com/token/0x5a752c9fe3520522ea88f37a41c3ddd97c022c2f So there really is a "Shibarium" token. And somebody did a rug pull with it. CONFIRMED. But the "Shibarium" token for this confirmed rug pull is a BEP-20 project not related at all to Shibarium, SHIB, BONE or LEASH.

Для участия в Чате вам необходим бесплатный аккаунт pro-blockchain.com Войти Регистрация
Есть вопросы?
С вами на связи 24/7
Help Icon