Всем привет! Сейчас на Хабре много статей от начинающих разработчиков и тех, кто сумел начать карьеру. Читаешь и вспоминаешь старый анекдот: «Чем отличается пионер от котлеты? Пионер всегда готов, а котлету еще готовить надо». Вот Junior-разработчикам явно нужно стараться быть готовыми ко всему и иметь профессиональный опыт. Загадка, где его найти. На первую работу не берут без опыта. Один из вариантов обойти этот замкнутый круг — профильное образование, которое уже заточено под определенную сферу.
В этой статье поговорим про совместную очную магистратуру МТС и ВШЭ «Исследования и предпринимательство в искусственном интеллекте». Действующие эксперты МТС и будущие преподаватели магистратуры — Дмитрий Лялин и Михаил Степнов — расскажут, чему они будут учить, как ускорят вход в индустрию, чем рискуют самоучки и как совместить предпринимательство и науку.
Начнем с маленького экскурса в историю. Узкоспециализированные науки в области обучения искусственному интеллекту не существовали начиная с 2010-х годов. Но тема искусственного интеллекта гораздо старше, чем нам с вами кажется. Она зародилась в 1954-м. И до второй зимы искусственного интеллекта — начала 1990-х годов — существовала как отдельная наука об искусственном интеллекте. Не то чтобы она преподавалась в России, но за рубежом были определенные институты, которые действительно занимались этой наукой. Туда входили семантические, коннекционистские методы — последние как раз выросли в нейросетевые. Тогда матстатистика не попадала никуда. Это сейчас она — основная база и аппарат для построения моделей, а тогда искали другие пути, экспертные системы и так далее.
В рамках второй зимы ИИ, когда появились ПК и инвестирования в ИИ снизились, знания об искусственном интеллекте перешли в computer science. К 2010-м годам все это преобразовалось в Data Science — науку о работе с данными. В то время подход к искусственному интеллекту переключился полностью на коннекционистский матстат. То есть большие объемы данных использовались для построения математических моделей разной сложности и глубины — и уже эти модели позволяли решать задачи, связанные с искусственным интеллектом. Здесь мы с вами сейчас и находимся.
Фундаментальное образование в этой области пока еще только появляется — мы как раз стараемся помогать ему в этом. А 20 лет назад системного обучения такого рода не было в принципе.
Важно понимать, что работа с искусственным интеллектом предопределяет единство трех сущностей:
Кодинг. Программируемый Data Science оценивается значительно хуже, чем разработнический, потому что это все-таки инструмент.
Математический аппарат. Матстатистика, теория вероятности и формулы-формулы-формулы.
Бизнес-понимание. Это как раз самая слабая функция у программистов. Но ее важно прокачивать, чтобы понимать, к чему применять данные, ориентироваться в смысловых историях и т. д.
По большому счету первые дата-сайентисты вряд ли выходили из бизнеса. Обычно шли двумя путями. Первый — переучивались из разработки. Тогда нужно было добирать экспертизу в области матстата и прочую математику. Второй — переучивались из математиков. Все вузы, которые фундаментально хорошо готовят математиков — это база для появления дата-сайентистов до сих пор.
В общем, источников было два — программирование или фундаментальное математическое образование. А потом все эти знания нужно было дополнять: проходить онлайн-курсы, искать информацию, проверять эти источники, обмениваться опытом в сообществах — например, в том же Open Data Science. Тут могли начаться проблемы, потому что информация не была системной и на ее поиск уходило много времени. У меня так и было.
Моя основная роль — переводить с технического на человеческий и обратно. То есть мне нужно уметь интерпретировать. Таких людей в индустрии немного: чаще всего если ты технарь, то технарь. И во время обучения мои проблемы в основном были связаны с этим. Мое базовое образование — Бауманка, машинного обучения там никто не давал. А мне было нужно, чтобы меня понимали и разработчики, и дата-сайентисты. Технических знаний мне для этого не всегда хватало. Так что приходилось много работать руками: искать материалы, вытягивать информацию из более опытных товарищей, мониторить сообщества, смотреть, что подходит, что нет, пробовать и еще раз пробовать. Я искал бесплатные или платные международные курсы — что-то на Coursera, что-то на DataCamp, что-то где-то еще. Все это занимало огромное количество времени. Тогда мы с этим настрадались.
Когда я входил в профессию инженера по машинному обучению, у меня был только математический бэкграунд. Программировать я начинал в далекие времена в вузе на BASIC и немного на Pascal, потом благополучно забросил это дело. И вот когда я уже увлекся data science, мне было непросто найти хороший курс по питону. Еще сложнее — по SQL, NumPy, pandas. В целом было сложно сразу осознать, зачем все это нужно именно в машинном обучении. Я собирал всю информацию по крупицам из отдаленных уголков интернета, от знакомых и друзей, искал хорошие комьюнити. Очень не хватало единомышленников, которые были бы на одном уровне со мной.
Сложности возникали с пониманием моделей машинного обучения и с их интерпретацией. Машинные модели разные, и их очень много: линейные модели, деревья, бустинги, нейросети. Как сориентироваться, где что применять?
Потом начались собеседования, на которых мне давали алгоритмические задачи. Тогда я вообще не понимал, зачем у меня об этом спрашивают, где алгоритмы применяются в машинном обучении. Все это я осознал уже позже — когда мне самому довелось собеседовать ребят.
Чтобы объяснить, где сейчас нужны исследователи ИИ, добавим немного академичности. Начнем с определения: что такое исследования вообще? Можно разделить на два типа:
индустриальное исследование;
научное исследование.
У них есть принципиальные отличия.
Цель индустриального исследования — получить результат. То есть мы берем что-то уже готовое и пытаемся это применить, получить лучший результат. Если нужно, чтобы лучше свистело, навешиваем свистелок.
Цель научного исследования — получить новое знание. И это совсем другая история. Тут вы получаете понимание того, что и почему работает именно так. Вы получаете некое понимание процессов.
Часто под исследованиями понимают именно индустриальные. Но мы в магистратуре в первую очередь готовим тех, кто будет заниматься научными исследованиями, то есть получать новые знания. Такие люди сейчас нужны в трех типах заведений:
Научные институты: Институт системного программирования (ИСП) РАН, Вычислительный центр РАН и т. д. Например, в ИСП — сейчас там как раз занимаются исследованиями в нашей области и также прикладными разработками.
Университеты: Физтех, Вышка, Сколтех, ИТМО, МГУ, НГУ и так далее. Это в первую очередь учебные заведения, поэтому студентов гораздо больше — как следствие, у сотрудников больше нагрузки в виде преподавания. То есть если человек идет работать в университет, он будет заниматься не только наукой, но и преподаванием. Не всем это нравится, и к этому нужно быть готовым.
Индустрия. Некоторые компании проводят научные исследования, чтобы улучшать свои продукты — и тут исследователи ИИ тоже нужны.
Самая распространенная ловушка, которая преследует самоучек, — неправильное понимание контекста и употребление терминов. Вот даже у нас на днях был спор: это косинусная близость или косинусное расстояние? На практике говорят как угодно — при этом по сути понимают, что происходит. Мой пример — местечковый, но такие расхождения могут действительно привести к проблемам.
Если во время самообучения вы неправильно запомнили термины, вас могут посчитать необразованным, не умеющим анализировать то, что происходит. Банально вы даже не пройдете собеседование. Если ты не говоришь на моем языке, я не готов с тобой работать. Внутри команды такое неизбежно приведет к проблемам вроде «мне дали задачу, я неправильно понял».
Пример из жизни: осенью я общался с несколькими стартапами в области искусственного интеллекта из Сан-Франциско. Обсуждали платформу помощи сейлз-менеджерам. В русском языке «сейлз-менеджер» звучит нормально — это менеджер, продажник. Но в английском значение другое — у них это руководитель отдела продаж. В итоге меня упорно не понимали. То же самое происходит у необразованного дата-сайентиста в бизнесе, который просто не может правильно интерпретировать то, что ему говорят. То есть не может воспользоваться тем языком, который принят в компании и в индустрии в целом.
В какие еще ловушки могут попасть самоучки:
Получить неверные выводы из неверных фактов.
Потерять одну из трех сущностей — помните, говорил о них выше? Чаще всего это бизнес-понимание. То есть знания у вас могут быть, но при этом вы можете не уметь пользоваться ими в бизнесе.
Не выделить смыслы. Условно вы можете пройти базовые курсы в интернете и начать обучать модели. Но дата-сайентисту нужно понимать математику, бизнес и смыслы, которые заложены за тем, что вы вызываете в коде. Если заниматься только самообразованием, очень большой риск не получить эти знания и смыслы.
Медленно развиваться. Само собой, когда учишься сам, страдает learning curve (кривая обучаемости). Когда мы ищем знания самостоятельно, скорость развития падает. Искать и понимать, что подходит, а что нет, тестировать и разбираться — это долго. Конечно, самоучки в любой сфере бывают звездами, но сколько это заняло времени — другая история.
Чтобы поддерживать свою экспертизу в ИИ, нужно постоянно изучать научные статьи и доклады с международных топовых конференций. Это главный источник знаний, потому что все меняется очень быстро, и никакое образование этого не заменит. Но в свое время мы успели насобирать шишек с поиском информации, и у нас появились идеи, как облегчить этот процесс для будущих специалистов.
Мы придумали магистратуру, чтобы сделать обучение системным и научить вещам, которые сложно освоить самому. Например, все могут читать научные статьи, но не все делают это правильно. Мы будем учить наших студентов читать научные статьи так, чтобы вырывать из них правильные смыслы.
Но главное — магистратура помогает в одном образовании смешать три сущности, о которых я говорил выше. Выпускники будут сильны и в кодинге, и в матаппарате, и при этом понимать бизнес. На заре 2010-х все было по-другому: работать в компанию приходил человек, который был плюс-минус близок к тебе. Ему говорили: «Ты будешь заниматься этим, а теперь еще этим и вот этим». И со временем он оттачивал навыки. Но сейчас темп в компаниях быстрый, и на это просто нет времени.
30 мест в магистратуре финансирует МТС, то есть для 30 человек обучение будет бесплатным. При этом выпускники могут выбрать любой карьерный путь, необязательно идти работать в МТС.
К нам на собеседования часто приходят неподготовленные ребята. Они проходят онлайн-курсы и приходят устраиваться к нам, но у них нет понимания, как применять свои знания на практике. Например, кто-то не может решить задачу на теорему Байеса и в целом не понимает, как вероятностные подходы работают в ML. Такой сотрудник просто не сможет планировать и проводить A/B-тесты, валидировать результаты своих экспериментов и так далее. А у нас не всегда достаточно времени, чтобы помочь таким ребятам полностью освоиться.
Заниматься самостоятельно — это, конечно, тоже хорошо, и в ИТ всегда приветствуется. Но сможете ли вы задать вопрос автору видео из YouTube? Или несколько месяцев тесно взаимодействовать с понравившимся вам предпринимателем: посещать его курс, задавать вопросы, спрашивать совета? Общаться с живыми преподавателями в реальном времени — всегда гораздо эффективнее.
Коллеги тоже с таким сталкивались. И тут пришла мысль: а почему бы не открыть собственную магистратуру, которая будет готовить одновременно и исследователей, и предпринимателей в сфере ИИ? С одной стороны, мы будем давать студентам фундаментальные знания, а с другой — понимание, как использовать их на практике вот прямо сейчас. И у нас, ура, появятся крутые кадры!
Магистратура даст понимание, зачем каждая формула нужна и в ML, и в бизнесе. А часть программы, где мы расскажем о стартапах, позволит окунуться в мир бизнеса и стать ближе к бизнес-заказчикам. Это особенно ценно, если студенты решат пойти работать в индустрию.
Мы хотим готовить ребят, заточенных именно на исследования ИИ, которые пойдут в науку, будут открывать свои стартапы или работать в коммерческих компаниях — в RnD-команде МТС, например. А так как мы сами заинтересованы в кадрах, нам важно, чтобы ребята быстро вливались в индустрию. Поэтому и форма обучения у нас вечерняя. Так что магистратуру вполне можно совмещать со стажировкой и полноценной работой.
Мы будем давать студентам знания и сразу погружать их в практику. Когда магистратура создается в партнерстве с компанией, как в нашем случае, — это всегда эффективнее. Студенты сразу начнут практиковаться и создавать свои проекты. Уже во время обучения они получат базу для собственных исследований и запуска стартапов в области ИИ. А еще на первом семестре второго года обучения можно воспользоваться программой по обмену от ВШЭ и получить опыт за рубежом.
Подробно узнать о программе и траектории поступления можно тут. Заявку можно подать до 25 июля.
Нам важно, чтобы во время обучения в магистратуре студенты получили всесторонний опыт и прощупали, что им ближе. Для этого в программе есть выступления самых разных специалистов, в том числе действующих предпринимателей. Студенты будут учиться не только большим языковым моделям, анализу данных, генеративным нейросетям и прочему, но и узнают, как правильно привлечь бизнес-ангелов в свои проекты, как набирать команду в стартап, как грамотно выбирать партнеров. Мы сами как действующие эксперты сферы поделимся, где чаще всего набивали шишки мы и наши коллеги.
Еще мы будем учить писать научные статьи, без чего в научной деятельности не обойтись. Вадим Стрижов, один из наставников, будет вести семинары по написанию статей, а он в этой теме уже больше 30 лет. Уверен, со своей экспертизой он может дать студентам то, что не даст ни одна другая магистратура.
Суперсила нашей магистратуры — преподаватели. Это люди, которые занимаются исследованием искусственного интеллекта прямо сейчас. Все они горят наукой, много лет работают с ИИ и могут напрямую передать студентам востребованные знания. Например, у нас есть преподаватель, который уже 11 лет в NLP, и он будет вести этот курс. Много ли сейчас в России людей, которые могут качественно и увлекательно рассказать об NLP? Я знаю максимум трех. В общем, я бы и сам наших преподавателей с удовольствием послушал.
Получается, уже во время обучения студенты будут тесно взаимодействовать с индустрией. Они смогут учиться на примере преподавателей и при желании пойти работать в ту же сферу. Те, кто хорошо себя зарекомендуют, могут получить оффер в МТС уже на втором курсе.
Область анализа данных сейчас развивается очень быстро. Аналитиков ищут со знанием ML, чтобы они могли накатить простенькую модель, что-то быстро посчитать, предсказать. Студенты уже будут все это уметь и смогут устроиться в компанию — например, индустриальными экспертами. Поэтому магистратура у нас вечерняя: занятия начинаются после шести вечера или в субботу днем. Так что студент может полноценно работать свои 40 часов в неделю.
Для ребят, которые хорошо себя покажут, мы организуем стажировки в МТС. По сути проведем за ручку, покажем, как что работает. И такая интеграция в сферу — огромное преимущество нашей магистратуры.
Выпускники магистратуры, например, смогут создавать классические модели оттока, если захотят пойти в банк. Или работать с большими языковыми моделями. А может, они поймут, что им нравится наука, пойдут в аспирантуру и будут заниматься научными исследованиями в академических институтах и исследовательских университетах.
У выпускников магистратуры будет диплом Вышки, диплом факультета компьютерных наук. Даже если диплома еще нет, но человек уже учится в Вышке в магистратуре от МТС — это уже огромный плюс для работодателя.
Сейчас одна из команд в МТS AI занимается исследованиями больших языковых моделей для кода. Ребята делают помощника программиста, то есть технологию, которая будет:
предсказывать следующее слово, когда человек пишет код;
хорошо генерировать юнит-тесты по кусочку кода;
хорошо генерировать комментарии.
Это те задачи, над которыми мы работаем прямо сейчас, и выпускники магистратуры вполне могут быть в команде младшими коллегами. Впереди таких задач будет еще больше, потому что сфера развивается. Дерзайте!