Поговорим о развитии Data Science в России. За последние 20 лет в этой области произошли фантастические изменения. Всё что создают нейросети становится новостями номер один. Это, наверное, самая хайповая тема, ведь она про наше общее будущее. Про технологии, которые делают нашу жизнь проще, комфортнее, интереснее или грозят безработицей и другими проблемами. И только от нас с вами зависит, станет ли этот мир лучше или нет. По крайней мере, так считает Сергей Марков, управляющий директор, начальник Управления экспериментальных систем машинного обучения Дивизиона общих сервисов «Салют».
— Здравствуйте, Сергей! Давайте, начнём с самой «горячей темы». Какие главные тренды развития DS в России? И чем они отличаются от мировых?
— В целом развитие науки о данных у нас в стране идёт в рамках общемировых трендов. Конечно, здесь можно найти свою специфику. Например, мы живём в условиях некоторого дефицита вычислительных мощностей. Пока поставки в Россию и Китай наиболее продвинутых GPU запрещены. Поэтому для строительства мощных тензорных кластеров нужна особая внешнеэкономическая магия.
С другой стороны, у нас в «активе» советская математическая школа, развитая ИТ-индустрия и современная экосистема с информационно-технологической инфраструктурой. А это подразумевает развитую культуру ИТ-разработки, наличие профильных кадров, больших и хорошо структурированных массивов данных.
— То есть вопрос ресурсов уже не так актуален?
Конечно, вопрос ресурсов актуален, как человеческих, так и вычислительных. Здесь вряд ли стоит ждать появления волшебной палочки, которая позволит создавать продвинутые модели машинного обучения без вычислительных затрат и специалистов. Конечно, алгоритмы машинного обучения совершенствуются. Оптимизируются их конкретные реализации, благодаря чему на обучение моделей с условно одинаковым «уровнем интеллекта» уже требуется существенно меньше GPU-часов.
В нашумевшей статье бывшего сотрудника OpenAI Леопольда Ашенбреннера «Осведомленность о ситуации: Предстоящее десятилетие» есть оценка. На мой взгляд немного оптимистичная. По его мнению, прогресс в этой области в ближайшие 2 года позволит обучать модели той же «мощности» на том же оборудовании в 10 раз быстрее. Примерно такой же эффект даёт развитие аппаратных платформ. Дополнительные эффекты позволяют больше «выжать» из уже обученных моделей. Методы, которые позволяют это сделать, Ашенбреннер объединяет под зонтичным термином «unhobbling». Дословно: «растреноживание», раскрепощение. Это применение мультиагентного подхода, моделирование рассуждений: цепочки, деревья и графы рассуждений. А ещё скаффолдинг: создание алгоритмического «каркаса» вокруг большой языковой модели.
Но важно понимать, что со временем эффект от всех этих улучшений будет снижаться. Экспоненты такого рода не могут продолжаться бесконечно. Было бы интересно поговорить о причинах этого более подробно, но это не втиснется в формат интервью.
— Давайте вернёмся к вопросу, что делать в тех непростых условиях, в которых мы находимся, относительно ресурсов?
— Я считаю наиболее важными два направления. Первое — это изучение возможностей создания альтернативных вычислительных платформ. Вплоть до отказа от классической электроники и поиска других физических субстратов для вычислений. А второе — это создание высокоэффективных конвейеров исследований. Это позволит наиболее эффективно использовать имеющиеся у нас вычислительные ресурсы. Для этого, по сути, нужно «опромышливание» исследований, создание аппаратно-программных платформ, позволяющих быстро проверять идеи на малоразмерных моделях, чтобы затем масштабировать наиболее перспективные из них.
— Для таких исследований нужна очень мощная база. Как вы сами пришли в Data Science? Где вы учились, чем занимались до этого?
Я потомственный программист)) Мой отец был инженером-математиком, а мама преподавателем вуза. Я окончил Орловский государственный технический университет по специальности «Информационные системы в экономике», а также Орловскую региональную академию государственной службы по специальности «Государственное и муниципальное управление», затем аспирантуру ОрёлГТУ (ныне — ОГУ) при кафедре высшей математики.
Программировать начал ещё в 7 лет. Участвовал в школьных и студенческих олимпиадах по информатике и программированию. В 2002 году со своей командой вышел в финал всемирной олимпиады по программированию по версии ACM. А искусственным интеллектом увлёкся во время учёбы в университете. Начинал с программ для шахмат и других настольных игр. Поэтому разработка ИИ-систем для игр стала моей первой профессией — в начале 2000-х я с друзьями занимался мобильной разработкой (мой первый рабочий проект — пакет игр Ultimate Brain Games для платформы GameBoy Advance). При этом я не забрасывал и хобби-проекты — моя шахматная программа SmarThink в 2005 году выиграла чемпионат России, а в 2006 году — чемпионат СНГ.
— То есть вы с самого начала занимались искусственным интеллектом?
— В целом, да. В конце 2000-х я уже разрабатывал информационные системы и модели ИИ для финансового сектора. С 2012 года работаю в «Сбербанке». Уже 12 лет занимаюсь разработкой и руковожу научно-исследовательскими группами и проектами, связанными с разработкой и применением систем ИИ. При моём участии создали ruGPT-3, ruGPT-3.5, GigaChat, ruDALL-E Malevich, Kandinsky, mGPT.
Помимо этого, стараюсь популяризировать науку. Вместе с друзьями основал научно-популярный портал «XX2 век» о науке и технике. Публикую научные статьи в отечественной и международной научной прессе и провожу научно-популярные лекции посвящённые теме ИИ. Выпустил книгу «Охота на электроовец. Большая книга искусственного интеллекта», стал соавтором книги «Сильный искусственный интеллект: на подступах к сверхразуму», научным редактором ряда переводных изданий, посвящённых ИИ тематике и машинному обучению.
Стараюсь поддерживать широкий кругозор и продолжаю развиваться.
— А как ещё в наше время развиваться специалисту по Data Science?
— Я бы сказал, что набор инструментов такой же, как и в других областях ИТ. Стоит читать современную литературу, в первую очередь научные статьи и обзоры. Важно регулярно практиковаться. Подойдут рабочие и хобби-проекты, соревнования вроде тех, что публикуются на платформе Kaggle. В общем как везде, надо держать руку на пульсе и подтягивать «слабые стороны». Это можно делать за счёт чтения, прослушивания лекций, общения в профессиональном сообществе, участия в конференциях и хакатонах.
— Существует страшилка, что вскоре нейросети отберут работу у многих специалистов, в том числе в ИТ-сфере. Как вы к этому относитесь, считаете ли такие опасения реальными?
— Из-за развития технологий ИИ будет происходить не столько ликвидация сколько трансформация профессий. Например, ещё вчера врач мог полагаться на знания, которые получил в вузе, но сегодня этого недостаточно. Нужно постоянно быть в курсе происходящих изменений. А для этого уметь пользоваться специализированными поисковыми системами и постоянно учиться новому.
Работа программиста с самого начала была такой. Библиотеки, фреймворки и целые языки программирования устаревают в течение нескольких лет. Конечно, нам уже не нужно самим пробивать дырки в перфокартах или вручную отлаживать код. Продвинутые инструменты разработки программного обеспечения повысили производительность труда программиста. По сравнению с 1940-50-ми годами, наверное, в сотню раз. В конце сороковых в мире была примерно сотня программистов. Если бы в результате повышения производительности труда происходила простая замена людей машинами, то к нашему времени во всём мире остался только один программист, а работу остальных 99% отняли бы «умные инструменты». Но мы прекрасно знаем, что это не так — научно-технический прогресс не является «игрой с нулевой суммой». Благодаря снижению затрат на создание информационных систем область их применения существенно расширилась — поэтому сегодня в мире не один, а десятки, а возможно даже и сотни миллионов ИТ-специалистов.
Мы знаем, что развитие новых технологий ведёт и к появлению новых рабочих мест. За последние 200 лет уровень безработицы в целом изменился мало. Например, благодаря прогрессу в области ИТ появилась индустрия компьютерных игр. Она создала рабочие места не только для ИТ-специалистов, но и для дизайнеров, маркетологов, управленцев, сотрудников HR.
Конечно, существует небольшое количество профессий, которые трансформируются очень сильно, а может быть исчезнут вовсе. Как это, например, произошло с кучерами по мере автомобилизации. Операторов call-центров уже активно заменяют роботами. Причём не только за счёт увеличения количества роботов-операторов, но и потому что всё больше людей отказываются от голосовых коммуникаций в пользу специализированных приложений и чатов. Поэтому вопрос о социальных последствиях автоматизации является очень важным — его нельзя игнорировать. Хотя в масштабах экономики в долгосрочном масштабе мы вряд ли столкнёмся с массовой безработицей, для отдельных людей вопрос о необходимости смены профессии может стать весьма остро. Поэтому нам нужны механизмы переподготовки специалистов и социальной поддержки для тех людей, навыки которых могут оказаться невостребованными в новом мире.
Проблема новых технологий не в том, что людям некуда себя применить. Обществу будет полезна дополнительная рабочая сила. Например, если увеличить число педагогов, в школьных классах можно оставить по пять-семь учеников, а молодым мамам не помешает помощь квалифицированных нянь. Строительство дорог и дополнительного жилья, освоение мирового океана, инженерная деятельность, наука — дополнительные работники везде принесут пользу. Проблема только в том, как обеспечить переподготовку большого количества людей в относительно короткие сроки. Как направить экономию ресурсов, возникающую в результате автоматизации, на пользу всему обществу, а не отдельным компаниям и горстке сверхбогатых людей.
— Какие сферы применения нейросетей вы видите в перспективе?
— Перечисление сфер применения нейросетей сродни перечислению кораблей, отправленных греками против Трои. Много времени уйдет, прежде чем мы доберемся хотя бы до середины. Куда труднее перечислить сферы, в которых нейросетевые модели применяться не будут.
Не все осознают, как плотно технологии искусственного интеллекта вошли в нашу жизнь. Мы пользуемся нейросетями, когда делаем фотографии на смартфоне, отправляем запрос в поисковую систему, просматриваем ленту соцсетей, используем голосовые команды, системы машинного перевода, когда обращаемся за кредитом в банк. Применение ИИ-технологий будет только расширяться.
— Какое будущее у Data Science? Куда всё будет развиваться по вашему мнению?
— Компания IDC при спонсорской поддержке Seagate провела исследование динамики объёма «цифровой Вселенной». Если в 2018 году было 33 зеттабайта данных, то к 2025 году прогнозируется уже 175 зеттабайт. Если всё это записать на DVD-диски с максимально доступной сегодня плотностью записи, то получится более 10 триллионов дисков. Если сложить их вместе, мы получим стопку высотой более 12 миллионов километров. Это примерно в 30 раз больше расстояния от Земли до Луны. По оценке IDC «датасфера» человечества за год будет увеличиваться примерно в 1,27 раза.
Большими темпами растут и доступные нам вычислительные мощности. Их график роста на текущем этапе развития также напоминает экспоненту. Большой прогресс наблюдается и в совершенствовании методов машинного обучения. Словом, мы с вами находимся в разгаре лета искусственного интеллекта, а это значит, что наука о данных в фазе быстрого развития. Я не футуролог, не писатель-фантаст и не фокусник, чтобы втиснуть картину предполагаемого будущего в пару абзацев текста. Но можно уверенно сказать, что под влиянием развивающихся сегодня технологий анализа и обработки данных мир изменится радикальным образом. А вот будет ли этот мир лучше — зависит от людей, от нас с вами. Ведь одни и те же технологии могут быть употреблены как на пользу обществу, так и во вред ему. Именно поэтому эпоха быстрого развития технологий предъявляет повышенные требования именно к нашим человеческим качествам.
— Кто сейчас вырабатывает правила использования нейросетей? Существуют ли сообщества и как они развиваются?
— У нас в стране этим занимается Альянс в сфере искусственного интеллекта. Это саморегулируемая организация, объединяющая ведущие технологические компании, которые занимаются разработкой и применением технологий ИИ. Её участники разработали «Кодекс этики в сфере ИИ». Узнать подробности можно на их официальном сайте.
А вообще эта тема животрепещущая. О ней говорят многие. Например, вопросы применения ИИ активно обсуждаются в академической среде и на государственном уровне. Это надо обсуждать и формировать правила, которые помогут контролировать развитие ИИ и сфер его применения. А для этого необходимы профессиональные сообщества, которые помогут с экспертизой. Их ещё нужно создавать, ведь пока их немного. Поэтому всё в наших руках. Сейчас каждый может поучаствовать в этом процессе и внести свой вклад. Например, прийти на крупнейшую в России конференцию по искусственному интеллекту AI Conf 2024 26 сентября в Москве. Можно будет послушать спикеров, экспертов отрасли обсудить тренды индустрии и их практическое применение.