III уровень Искусственный интеллект

Data Scientist

АНО ДПО "Корпоративный университет Сбербанка"
334,00 часа длительность
Онлайн формат
Базовый уровень
1 поток (закрыт) 11.07.2022-12.01.2023
2 поток (закрыт) 08.08.2022-07.02.2023
3 поток (закрыт) 05.09.2022-14.03.2023
4 поток (закрыт) 03.10.2022-11.04.2023
5 поток (закрыт) 07.11.2022-16.05.2023
6 поток (закрыт) 05.12.2022-14.06.2023

Описание

Data Science (наука о данных) – молодая отрасль на стыке интернет-технологий и бизнеса.

Задача исследователя данных (Data Scientist): строить математические модели, которые позволяют выявлять скрытые взаимосвязи в огромных массивах информации. Исследователь данных формирует на основе закономерностей в данных новые ценности, такие как предсказание будущего поведения в зависимости от начальных условий, рекомендации в зависимости от выявленных предпочтений и т.д. Помогает создавать продукты и повышать эффективность бизнес-решений, социальных взаимодействий, научных исследований и производственных процессов на основе выявленных математических моделей.

На текущий момент только в одной России больше 5000 компаний находятся в поисках специалистов по Data Science! Средняя зарплата в этой профессии составляет ~100 000 рублей и практически не имеет верхних границ.

Программа подойдет:

  • желающим начать свой путь в ИТ: мы дадим нужные знания и умения в программировании, математике, машинном и глубоком обучении, чтобы вы смогли сделать первые шаги навстречу карьере мечты;
  • аналитикам: вы сможете углубить свои знания, применить машинное обучение на практике и ускорить свое карьерное развитие;
  • начинающим программистам: вы откроете для себя удивительный мир анализа данных, расширите круг решаемых задач и возможности для карьерного роста. Специалисты в DS, обладающие опытом разработки ПО ценятся особенно сильно!

На программе вы научитесь:

  • программировать на Python – одном из самых популярных языков программирования в мире;
  • решать математические задачи, необходимые для работы с алгоритмами машинного обучения и нейронными сетями;
  • проводить первичный анализ данных с помощью SQL и библиотек Python: Pandas, Numpy, Seaborn, Matplotlib;
  • применять алгоритмы машинного обучения для решения прикладных задач;
  • обучать и применять в реальных задачах нейронные сети.

Кроме этого, мы поможем вам грамотно составить резюме и выстроить поиск первой работы в Data Science!

Обучение состоит из двух частей:

  • Базовый модуль, «бассейн» – онлайн-интенсив из электронных курсов и вебинаров для освоения базовых знаний и умений в математике,  программировании и основах первичного анализа данных на Python.
  • Профильный модуль – обучение в формате вебинаров под руководством преподавателей-практиков, интересными ДЗ, персонализированной обратной связью и проектами!

На профильном модуле занятия проходят 2 раза в неделю в формате «живых» вебинаров с преподавателем. Мы не набираем больших групп, чтобы каждый слушатель мог получить ответы свои вопросы во время занятий, личную обратную связь по домашним заданиям и проектам!

У кого вы будете учиться?

Команда преподавателей, методистов и кураторов с опытом организации обучения Data Science и Data Engineering более 3 лет. Команда сочетает в себе 3 ключевые экспертизы:

  • индустриальная: практики data engineers и ml/dl engineers из крупнейших российских и международных ИТ-компаний;
  • академическая: преподаватели и выпускники лучших ВУЗов России: ВШЭ, МФТИ, МГУ, Школа Анализа Данных Яндекса, etc;
  • образовательная: через каждого преподавателя в нашей команде прошли сотни слушателей из российских компаний или вузов.

Во время обучения вы реализуете 3 проекта лично или в команде:

  • первичный анализ данных – найдете инсайты в реальном медицинском датасете;
  • предобработка данных и обучение ML-моделей для анализа стоимости недвижимости;
  • выпускной проект, тема которого согласуется с преподавателем во время обучения.

Примеры тем выпускных проектов с прошлых потоков (обучение прошли уже сотни слушателей):

  • Style Transfer. Разобраться в классическом алгоритме переноса стиля (именно разобраться, я проверю), реализовать его на PyTorch. Бонус -- реализовать любой из алгоритмов нейросетевого переноса стиля.
  • FaceSwap. Разобраться в нейросетевых архитектурах сегментации изображений и выделения ключевых точек лица. Написать алгоритм, который правдоподобно меняет два наперёд заданных лица местами.
  • Face ID. Разобраться в алгоритмах распознавания лиц на фото. Реализовать простейший алгоритм на основе эмбеддингов фотографий (скажем, через SVD-разложение) или какую-то нейросетевую архитектуру на PyTorch. Добиться того, чтобы алгоритм отличал ваше лицо от чужих (скажем, от моего).
  • Смена сезонов на фото. Реализовать архитектуру CycleGAN на Pytorch, обучить её на датасетах с изображениями зимних и летних пейзажей, научиться менять сезон на фото. Россия -- страна затяжной зимы. Давайте бороться с этим!

Важно!

Перед стартом обучения важно понимать, что программирование и анализ данных – это интересно и перспективно, но и </span>очень сложно<span style="font-weight: 400;">. Для достижения целей обучения вам придется много работать, практиковаться и даже самостоятельно искать информацию. Без этого не стать хорошим специалистом даже начального уровня. Научить учиться и искать информацию – одна из целей программы, ведь настоящий специалист регулярно занимается этим на работе! Убедитесь, что вы готовы уделять 15, а лучше 20 часов каждую неделю на обучение и вы уверены, что сможете освоить основы этой профессии в интенсивном режиме.

Часов в программе
40,00 часов
лекции
72,00 часа
практика
209,00 часов
самостоятельная
8,00 часов
промежуточная аттестация
1 час
входная диагностика
4 часа
итоговая аттестация
334,00 часа
всего
Цель программы
Получить компетенции, связанные с программированием на языке Python, математикой для анализа данных, машинным и глубоким обучением, необходимые для старта карьеры в сфере Data Science.
Актуальность
На текущий момент только в одной России больше 5 000 компаний находятся в поисках специалистов по Data Science! Средняя зарплата в этой профессии составляет ~ 100 000 рублей и практически не имеет верхних границ. Сегодня данные – основа успеха всех крупных преуспевающих компаний, которые видят себя лидерами будущего. Данные необходимо собирать, обрабатывать и строить на их основе модели, которые приносят пользу всему человечеству и бизнесу – для этого необходимы специалисты в сфере Data Science!
Входная диагностика 1 час
Зачет
Итоговая аттестация 4 часа
Итоговая аттестационная работа

Компетенции

Профессиональные


Программирование на языке Python
Знать:

Тип языка, типы и структуры данных, понятие переменной, циклы, условные конструкции, функции, принципы работы алгоритмов, библиотеки Python: seaborn, matplotlib, numpy, pandas.

Уметь:

Решать базовые алгоритмические задачи, загружать и обрабатывать данные (csv, xlsx, txt, json, jpg, etc) с помощью Python и его библиотек, установить Python и библиотеки на ПК, работать в google colab research.

Владеть:

Использовать Python и Google Research Colab для решения базовых алгоритмических задач и обработки данных.

Математика для анализа данных
Знать:

Основные концепции логики и комбинаторики, математического анализа, линейной алгебры, теории вероятностей, статистики, теории оптимизации.

Уметь:

Решать базовые задачи из логики и комбинаторики, математического анализа, линейной алгебры, теории вероятностей, статистики, теории оптимизации; уметь описывать алгоритмы на формальном математическом языке.

Владеть:

Использовать Python, его библиотеки Pandas, Numpy, matplotlib, seaborn для выполнения базовых математических операций, решения математических задач, визуализации результатов.

Машинное обучение
Знать:

Основы математического моделирования, основные концепции машинного обучения, виды задач в машинном обучении, способы оценки качества моделей машинного обучения, алгоритм линейной регрессии, алгоритм логистической регрессии, деревья решений, ансамбли алгоритмов, boosting, методы регуляризации, базовые методы обработки табличных данных, текстов, изображений и временных рядов, методы работы с признаками, базовые алгоритмы кластеризации, метрические алгоритмы; библиотеки Python для машинного обучения.

Уметь:

Решать задачи классификации, регрессии, кластеризации с помощью методов машинного обучения, используя Python и его библиотеки.

Владеть:

Использовать Python и его библиотеки, Google Research Colab для решения задач машинного и глубокого обучения.

Глубокое обучение
Знать:

Основные задачи, решаемые нейронными сетями; метод обратного распространения ошибки (backpropagation), перцептрон, полносвязные нейронные сети, сверточные нейронные сети, рекуррентные нейронные сети, современные архитектуры нейронных задач для решения задач компьютерного зрения (CV) и обработки текстов (NLP), фреймворки Pytorch, TensorFlow.

Уметь:

Решать задачи классификации, регрессии, кластеризации, обработки изображений и текстов с помощью методов глубокого обучения, Python, его библиотеки и фреймворка Pytorch.

Владеть:

Использовать Python и его библиотеки, Google Research Colab для решения задач машинного и глубокого обучения.

Требования

  • Готовность упорно учиться, искать информацию и много самостоятельно работать – без этого не стать хорошим разработчиком!
  • Готовность на протяжении всего курса регулярно выделять достаточно времени учебе.
  • Уверенное владение ПК: установка/удаление ПО, работа с текстовыми редакторами, браузером Google Chrome.
  • Развитое логическое мышление, умение структурировать информацию.
  • Отсутствие проблем с школьной математикой. Решение квадратных уравнений и простейших систем линейных уравнений не вызывают проблем. Понимание, как нарисовать графики простейших линейных и квадратичных функций. Умение решать простейшие задачи с участием логарифма и экспоненты.
  • Если все же что-то из списка выше вызывает сомнения, то вам должно быть достаточно просто сесть вечером и повторить эти темы. Обязательно сделайте это, будет полезно перед курсом!
  • Очень желательно, но не обязательно знакомство с основами математического анализа: функции и их производные; линейной алгебры: вектора, матрицы и операции с ними; теории вероятностей и статистики.
  • Знание английского языка на уровне чтения технической документации.
Образование
  • Высшее образование
  • Среднее профессиональное образование
Иные требования и рекомендации для обучения по программе
  • Готовность упорно учиться, искать информацию и много самостоятельно работать – без этого не стать хорошим разработчиком!
  • Готовность на протяжении всего курса регулярно выделять достаточно времени учебе.
  • Уверенное владение ПК: установка/удаление ПО, работа с текстовыми редакторами, браузером Google Chrome.
  • Развитое логическое мышление, умение структурировать информацию.
  • Отсутствие проблем с школьной математикой. Решение квадратных уравнений и простейших систем линейных уравнений не вызывают проблем. Понимание, как нарисовать графики простейших линейных и квадратичных функций. Умение решать простейшие задачи с участием логарифма и экспоненты.
  • Если все же что-то из списка выше вызывает сомнения, то вам должно быть достаточно просто сесть вечером и повторить эти темы. Обязательно сделайте это, будет полезно перед курсом!
  • Очень желательно, но не обязательно знакомство с основами математического анализа: функции и их производные; линейной алгебры: вектора, матрицы и операции с ними; теории вероятностей и статистики.
  • Знание английского языка на уровне чтения технической документации.

Модули

свернуть
181,00ч
Модуль 1 Базовый модуль
Онлайн-интенсив из электронных курсов и вебинаров для освоения базовых знаний и умений в математике, программировании и основ первичного анализа данных на Python.
148,00ч
Модуль 2 Профильный модуль
Обучение в формате вебинаров под руководством преподавателей-практиков, интересными домашними заданиями, персонализированной обратной связью, реальными командными и личными проектами! Слушатели осваивают первичный анализ данных с помощью библиотек Python, погружаются в математические задачи, необходимые для глубокого понимания методов анализа данных, после чего переходят к методам машинного обучения и нейронным сетям на практике!
181,00ч
Модуль 1 Базовый модуль
Онлайн-интенсив из электронных курсов и вебинаров для освоения базовых знаний и умений в математике, программировании и основ первичного анализа данных на Python.
148,00ч
Модуль 2 Профильный модуль
Обучение в формате вебинаров под руководством преподавателей-практиков, интересными домашними заданиями, персонализированной обратной связью, реальными командными и личными проектами! Слушатели осваивают первичный анализ данных с помощью библиотек Python, погружаются в математические задачи, необходимые для глубокого понимания методов анализа данных, после чего переходят к методам машинного обучения и нейронным сетям на практике!
90 000 p
Авторизуйтесь чтобы записаться

Профстандарт

Специалист по большим данным

06.042

Ответственный за программу