Дело пахнет дата сайенсом! Курс специалист по Data Science плюс от Яндекс Практикума

Искусственный интеллект, машинное обучение, дата сайенс, Сhat GPT, трансформеры и LLM. Дальше можно ничего не писать. Потому что и так из каждого утюга. Чтобы не отставать от повестки и не скучать по вечерам решил подобрать хвосты, ликвидировать пробелы, сверить часы и весь этот ваш набор клише. Выбрал Яндекс-Практикум курс Data Science плюс. В итоге последние полтора года не скучал, бросил триатлон, набрал 6 килограмм, сидел до 4х часов утра тренировал модели.

Что такое Яндекс Практикум?

Это онлайн-курсы по айтишным и околоайтишным профессиям. Обучение построено по кагортному принципу. В зависимости от количества часов в курсе на выходе вы получите соответствующий документ, зарегистрированный в государственном реестре.

Обучение проводит АНО ДПО «Образовательные технологии Яндекса». Есть соответствующая лицензия на осуществление образовательной деятельности. В общем у них все по-взрослому.

Все занятия проходят на своей платформе, которая в нужной степени повторяет необходимые практические части осваиваемой профессии. Где необходимо знакомят и с внешними инструментами, берут домашку на проверку, в случае неуспеваемости дают академ или вообще отчисляют.

Специалист по Data Science плюс

Что делают специалисты по дата сайенсу объяснять не буду, там все написано. Как люди находят эту специальность не зная о том, что это такое — для меня, лично, загадка. У меня за время учебы сформировалось особое мнение о таких.

Лучше дам короткий комментарий по обещаниям-реальности. Скажу сразу, несмотря на всю критику, которая написана ниже, мне скорее понравилось учиться в Яндексе. После MBA это единственный курс, который хотелось закончить, хоть он и стоил в 10 раз дешевле и ровно также ничего прямо не давал моей карьере. Было интересно.

1. Будете учиться 16 месяцев 10 часов в неделю

И да и нет. Про 16 месяцев все точно. Если успевать все сдавать вовремя, то это именно тот срок, на который рассчитана одна когорта. Внутри весь курс разбит на спринты по 2-3 недели на тему или на проект. Здесь кстати одно из отличий DS плюс от просто DS. Плюс рассчитан на тех, у кого есть еще чем заняться, кроме учебы. Поэтому все спринты на неделю длиннее. Но и самих спринтов больше.

Про 10 часов в неделю — сильно зависит от вашей подготовки. Некоторые темы давались легко и можно было проскочить очень быстро. Некоторые забирали довольно много времени либо просто объемом необходимых лекций и заданий, либо сложностью и замороченностью тем. Самыми сложными, для меня были нейронные сети и все их производные. Также был несколько достаточно противных проектов.

Самая желанная гифка, которая приходит в почту, когда проект успешно проходит ревью

2. С нуля освоите Python и его библиотеки, Jupyter Notebook и SQL

И да и нет. По SQL курс довольно замороченный, но интересный. Все что требуется от дата сайентиста с SQL делать точно научат. В качестве основного выбран PostgreSQL.

А вот с библиотеками python есть нюанс. Если библиотека и дается, то скорее только ее название и дальше отправляют в документацию. То есть приучают к реальной жизни. Учитесь сами искать ответы на интересующие вас вопросы, никто за вас ничего разжевывать не будет.

Интересно например и то, что яндексовский CatBoost вообще ни разу не упоминается ни в одной лекции, хотя является одной из самых работоспособных и удобных моделей в своем классе.

3. Будете заниматься онлайн с поддержкой наставников

Онлайн да. Наставники — как повезет. Вся коммуникация и координация выстроена вокруг мессенджера pachca (раньше был Slack, но потом нас оттуда переселили). Я за время курса побывал в 3х когортах. Одна из них бурлила жизнью. Раз в неделю наставник собирал видеозвонок где разбирал какую-то тему из текущего спринта или что-то интересное. Постоянно сыпались вопросы и дополнительные материалы. Регулярные созвоны с рекрутерами и т.п. Короче был полный аджайл.

Скажи еще раз аджайл!

Последняя когорта была абсолютно мертвой. Никто никому ничего не писал, собраний не было. Я даже подумал в какой-то момент, что я в ней один. Оказалось что нет. Просто все оставшиеся студенты сидели в отдельном канале в телеграмме и там задавали друг другу вопросы и сами решали свои проблемы.

4. Соберете портфолио из 21 учебного проекта и 2 — на реальных данных

Смутно помню как это продавалось в начале курса, но есть предположение, что ситуация как с заповедями скотного двора. Раньше было что-то про трудоустройство и проекты с реальными задачами реальных компаний. Сейчас все как-то более прагматично.

В оригинальной идее и одном из главных продающих аспектов этого курса было то, что в Яндекс обращаются какие-то компании с насущными проблемами и Яндекс дает их решать своим студентам в качестве практики. Так портфолио вместе с никому не интересными учебными проектами пополнится реальной задачей, а может быть даже двумя.

Каждый раз находить кого-то для этого оказалось не простой задачей и вскоре все скатилось в то же самое перекручивание уже отработанных датасетов. В итоге первая мастерская — это было решение задачи на kaggle.com, а вторая веркторизированный датасет какого-то неизвестного онлайн магазина.

Мемы, которые я теперь понимаю

Отдельно отмечу выпускной производственный проект о работе печи-ковша. Мне, как дипломированному нефтянику и другу сталевара, было очень интересно им заниматься ровно до момента, пока он не попал ревьюверу (проверяющему код). Ревьюверу было плевать на сталеваров, у него было отточенное годами решение задачи, в которое мой подход не укладывался, хотя с точки зрения метрик был точнее и уж точно был более практичным.

Поэтому вопрос портфолио для будущего работодателя Практикум точно не закрывает — это целиком и полностью ваша задача.

5. Получите помощь с поиском работы

По итогам курса можно претендовать на должность джуна. Главный пробел, который есть в этом курсе — это MLops, то есть сама эксплуатация моделей. Нет ни в лекциях и даже на семинарах с наставниками этот вопрос толком не рассматривается. Поэтому хотя бы обзорную какую-то историю про применяемые на корпоративном уровне Azure или AWS, про MLFlow или даже Docker было бы неплохо добавить.

Сам я в поиске работы не заинтересован, но полагаю, что без этого тяжело будет что-то дельное найти даже с официальной корочкой.

Стоит ли оно того?

Где-то со второй половины курса я начал постоянно задавать себе этот вопрос. Интересная тема сменялась тухлой, затем снова появлялось что-то интересное. Курс можно и нужно в каких-то частях доработать. Практикум после каждого спринта собирает обратную связь, я думаю они и сами прекрасно знают какой материал хуже заходит студентам.

В итоге, для себя, я понял, что точно стоит. У курса есть структура. Вас аккуратно ведут от концепции к концепции, чуть чуть погружая, где необходимо. Даже линейная алгебра, с которой начинаются более академические курсы типа курсеры, здесь дана уже сильно глубже в курсе, чтобы у начинающих датасайентистов было меньше желания соскочить, уперевшись в векторы и матричные операции.

Именно ради этой структуры и стоит выбрать Яндекс Практикум и вообще выбрать учиться где-то, вместо хаотичного самообразования.

С работой курс тоже вполне совместим. Когда у меня увеличивалась загрузка на работе, я отпускал курс и потом менял когорту (это можно сделать 3 раза). Пришлось пожертвовать спортом и сном, но все можно наверстать.

Что дальше?

Пока учишься сами собой возникают идеи проектов. На многие производственные задачи смотришь по-другому. Меняется восприятие проблем и некоторые из них так и просятся на операционный стол под ML-скальпель.

Интересно разобраться с MLops, доделать некоторые пет-проекты и конечно нести религию машинного обучения всем, кто хочет и не хочет слушать. Убежден, что хороший ML можно причинять всем, кто не успеет спрятаться. Таков путь.