Большие данные Визуализировать данные Решать задачи машинного обучения Python Обрабатывать данные Jupyter Notebook Хранить данные Keras Matplotlib Анализировать данные Scikit-learn NumPy Разрабатывать и создавать программы и приложения Gradient Boosting SQL-запрос Писать программный код

Специалист по Data Science плюс

Яндекс
610,00 часов длительность
Онлайн формат
Базовый уровень
1 поток (закрыт) 16.05.2022-25.10.2023
2 поток (закрыт) 13.06.2022-15.11.2023

Описание

В течение пяти рабочих дней с момента подачи заявки вам на почту придет письмо, в котором расскажем основные условия программы и особенности обучения в Яндекс Практикуме. Обратите внимание, что письмо может попасть в спам.

Описание профессии

Специалист по Data Science структурирует и анализирует большие объёмы данных, применяет машинное обучение для предсказания событий и обнаружения неочевидных закономерностей.

Это расширенная программа, и она подойдёт, даже если вы только начинаете разбираться в Data Science и не хотите ничего упустить. А если базовые знания уже есть, вы сможете их углубить и заполнить пробелы. 

Зарплата специалиста по Data Science:
Junior — 60 000 рублей
Middle — 120 000 рублей
Senior — от 210 000 рублей
Источник данных: Хабр Карьера

На этом курсе вас ждёт полотора года практики

Это самое ценное, что вы получите. Более 600 часов учёбы, попыток, ошибок, отрицания, гнева, торга, расстройства, принятия, снова попыток и радости, что всё наконец работает. Это сложный, но интересный путь, который изменит вашу жизнь.

Чему вы научитесь на курсе:

  • писать ясный, гибкий, эффективный и работающий код программ на Python, оптимизировать его, находить и исправлять в нем ошибки; 
  • писать и выполнять SQL-запросы;
  • работать с данными в различных форматах, с данными, содержащими категориальные переменные, пропущенные значения, с неструктурированными данными;
  • применять методы анализа данных в решении прикладных задач;
  • применять различные методы машинного обучения, выбирать модели оптимальной сложности и обучать их, оценивать их качество в оффлайн и в онлайн-режиме;
  • узнаете такие парадигмы машинного обучения, как: обучение с учителем, обучение без учителя;
  • получите представление об основных моделях машинного обучения (линейные модели, деревья, нейронные сети, ансамбли), об их преимуществах и недостатках, о стратегиях обучения;

За 16,5 месяцев обучения по 9 часов в неделю вы освоите востребованные навыки специалиста по Data Science, соберёте портфолио из 23 проектов Практикума и проектов реальных компаний, наших партнёров.

В расширенной программе вас ждёт:

  • на каждую тему даётся от 2 до 4 недель, нагрузка, в среднем, 9 часов в неделю;
  • еженедельные онлайн-встречи с наставниками-экспертами;
  • дополнительные занятия с экспертами для изучения более сложных инструментов и технологий;
  • Мастерская Практикума: дополнительные проекты от бизнес-заказчиков и партнёров и практика на Kaggle;

 

О компании

Яндекс Практикум — это сервис онлайн-образования, в котором ваш процесс обучения основан на реальных ситуациях. Вы учитесь программированию и с первого урока пишете код; на занятиях по дизайну — работаете с реальными макетами, а на уроках английского сразу начнёте разговаривать. 

 

Почему Яндекс Практикум

Мы изначально спроектировали образовательную среду для онлайн-обучения — вам понадобится компьютер и спокойное место, где вас не будут отвлекать. 

Технологии помогают сделать так, чтобы вам было удобно учиться. Все части курса собраны на одном сайте. Не нужно переключаться
и отвлекаться на что-то ещё. Курсы адаптируются под ваш уровень знаний.

Самостоятельная работа сочетается с регулярным общением с наставниками и возможностью поговорить с поддержкой. Любую проблему можно решить немедленно.

Почему мы верим, что у вас получится:

  • Понятная теория
    Термины и правила подкреплены примерами из жизни. Сложность и длина курса рассчитаны так, чтобы каждую следующую главу вы понимали всё лучше.
  • Онлайн-тренажер
    С первого дня вы учитесь анализу данных на практике. Мы даём знания небольшими частями, которые нужно сразу применить, написав собственный код в онлайн-тренажёре. Пишите код, ошибайтесь, быстро получайте обратную связь и исправляйте ошибки.
     
  • Самостоятельная работа
    Тренажёр — это только часть обучения. Основные навыки вы приобретете по мере решения задач инструментами профессиональных аналитиков, а код-ревьюер даст вам обратную связь. Вас ждут типичные для аналитика задачи из разных сфер бизнеса. Вы решите их и сможете добавить в своё портфолио
     
  • Поддержка
    Команда наставников проверяет и комментирует ваши работы, помогает разобраться в сложностях и обучает собственным профессиональным приёмам аналитики. Техническая поддержка в чате доступна 24/7.

 

78% выпускников Практикума находят работу

 

В этом им помогает особый этап курса — карьерный трек. На нём со студентами работают наши HR-специалисты. Студенты учатся планировать процесс поиска работы, правильно составлять резюме, уверенно держаться на собеседованиях и проходить тестовые задания. Мы разработали эту программу, чтобы каждый выпускник нашёл работу по душе.

78% выпускников находят работу, большинство из них за 4 месяца. Институт образования НИУ ВШЭ подтвердил данные через исследование трудоустройства выпускников.

Часов в программе
140,00 часов
лекции
166,00 часов
практика
170,00 часов
самостоятельная
104,00 часа
промежуточная аттестация
1 час
входная диагностика
30 часов
итоговая аттестация
611,00 часов
всего
Цель программы
Цель: получение слушателями профессиональных компетенций в области анализа данных и машинного обучения, подготовка специалистов в области анализа данных и машинного обучения.
Актуальность
В XXI веке бизнесу и государству особенно важно уметь прогнозировать и предсказывать различные сценарии развития событий, которые повлияют на них. В экономике и других сферах одновременно взаимодействуют множество факторов — от точности прогнозов зависит благосостояние и выживание организаций и стран. Ключевой элемент точных прогнозов — грамотная работа с данными, источники и объём которых значительно увеличиваются ежедневно.
Для это необходимы профессионалы, которые умеют исследовать проблему, формулировать и проверять с помощью инструментов анализа данных гипотезы.
Целью Программы является получение слушателями следующих профессиональных компетенций в области анализа данных:
• способность подготовить данные для анализа
• способность применять анализ данных для решения бизнес-задач
• способность коммуницировать с заказчиком и иными стейкхолдерами проекта для достижения нужного результата
• способность применять для решения задач языки программирования и баз данных, операционные системы, цифровые библиотеки и пакеты программ;
• способность программировать работающие программы на языке Python;
Основная задача программы — подготовить к работе в коммерческих и государственных компаниях специалиста, который владеет теоретическими подходами и концепциями, а также технологическими навыками реализации анализа данных.
Новизна программы состоит в продуманном сочетании теоретической и практической подготовки с постоянной автоматизированной и ручной обратной связью на платформе и от профессионалов-наставников.
Слушатели овладеют инструментами полного цикла прогнозирования развития явлений и значений переменных: от получения и прояснения задачи до очистки и анализа данных, а также решение задачи анализа данных.
Актуальность программы обуславливается растущим спросом на специалистов в области обработки и анализа больших данных.
Входная диагностика 1 час
После подачи заявки вам на почту придет письмо, в котором расскажем основные условия программы и особенности обучения в Яндекс Практикуме.
Итоговая аттестация 30 часов
Дипломный проект

Компетенции

Профессиональные


Основы Python и анализа данных
Знать:

Основы синтаксиса, списки и циклы, операции с таблицами, условия и функции, Pandas для анализа данных.

Уметь:

Основы программирования на Python, предобработка данных, анализ данных и оформление результатов.

Владеть:

Язык программирования Python, библиотека Pandas, среда программирования Jupyter Notebook.

Основы анализа данных
Знать:

Применение Python и Pandas для анализа данных, Анализ данных и оформление результатов, Системное и критическое мышление в работе аналитика, Срезы данных, Взаимосвязь данных, Исследовательский анализ данных

Уметь:

Умение писать код на Python, Изменение типов данных, Работа с пропусками, Поиск дубликатов, Предобработка данных, Категоризация данных, Работа с несколькими источниками данных, Валидация результатов, Проверка гипотез

Владеть:

Python — язык программирования общего назначения, Jupyter Notebook — среда разработки

Основы машинного обучения
Знать:

Описательная статистика, Теория вероятностей, Статистический анализ данных, Модели и алгоритмы, Качество модели, Регрессия, Метрики классификации, Несбалансированная классификация, Метрики регрессии, Метрики бизнеса, Машинное обучение в бизнесе

Уметь:

Улучшение модели, Подготовка признаков, Обучение с учителем, Запуск новой функциональности, Сбор данных

Владеть:

Python — язык программирования общего назначения, библиотека машинного обучения Scikit-Learn

Продвинутое машинное обучение
Знать:

Векторы и векторные операции, Расстояние между векторами, Матрицы и матричные операции, Линейная алгебра в машинном обучении, Модели и алгоритмы машинного обучения ,Градиентный спуск, Градиентный бустинг, Численные методы в машинном обучении, Нейронные сети, Многослойная сеть

Уметь:

Векторные операции, Матричные операции, Анализ алгоритмов, Реализация линейной регрессии, Обучение нейронной сети

Владеть:

Python — язык программирования общего назначения, Библиотека Pytorch

Машинное обучение для больших объёмов данных
Знать:

Базы данных и таблицы, Срезы данных в SQL, Взаимоотношения между таблицами, Типы объединения таблиц, Введение в PySpark, SQL в анализе данных и машинном обучении, Распределенные вычисления, Знакомство со Spark, Введение в командную строку

Уметь:

Извлечение данных с помощью SQL, Агрегирующие функции. Группировка и сортировка данных, Подзапросы и временные таблицы, Кластеризация данных, Обнаружение аномалий в данных, Работа с Git, Работа с GitHub, Работа с файлами

Владеть:

Язык программирования Python, инструменты хранения и извлечения данных SQL, PySpark, Git, GitHub, Hadoop, Алгоритм MapReduce, RDD API, DataFrame API

Машинное обучение в прикладных задачах
Знать:

Векторизация текстов, Языковые представления, Машинное обучение для текстов, Полносвязные нейронные сети, Свёрточные нейронные сети

Уметь:

Анализ и прогнозирование временных рядов, Классификация тональности текста, Обработка естественного языка, компьютерное зрение с использованием нейронных сетей

Владеть:

Python, Библиотека Keras, Embeddings, Word2vec, BERT, RuBERT

Требования

Нет

Образование
  • Высшее образование
  • Среднее профессиональное образование

Модули

свернуть
20,00ч
Модуль 1 Основы Python и анализа данных
Познакомитесь с языком программирования Python, библиотекой Pandas, а также средой программирования Jupyter. Узнаете основные концепции анализа данных и поймёте, чем занимаются аналитики и специалисты по Data Science.
110,00ч
Модуль 3 Основы машинного обучения
Освоите основные концепции машинного обучения. Познакомитесь с библиотекой Scikit-Learn и примените её для создания первого проекта с машинным обучением. Углубитесь в самую востребованную область машинного обучения — обучение с учителем. Узнаете, как обращаться с несбалансированными данными. Узнаете, как машинное обучение (МО) помогает бизнесу, как собирать данные и как продуктовые метрики связаны с показателями МО. Научитесь запускать новую функциональность сервиса, применяя МО. Узнаете, что такое бизнес-метрики, KPI и A/B-тестирование.
100,00ч
Модуль 5 Продвинутое машинное обучение
На практике освоите с нуля главные концепции линейной алгебры. Разберёте ряд алгоритмов и приспособите их к решению практических задач с использованием численных методов. Проанализируете временные ряды. Представите тексты на естественном языке в качестве таблиц с данными. Освоите приближённые вычисления, оценки сложности алгоритма, градиентный спуск. Узнаете, как обучаются нейронные сети и что такое градиентный бустинг. Узнаете, как создавать табличные данные из временных рядов и решать для них задачу регрессии. Научитесь делать числовые векторы из текстов и решать для них задачи классификации и регрессии. Узнаете, как вычисляются признаки TF-IDF и познакомитесь с языковыми представлениями word2vec и BERT.
110,00ч
Модуль 2 Введение в анализ данных
Глубже погрузитесь в язык программирования Python и работу с библиотекой Pandas. Научитесь очищать данные от выбросов, пропусков и дубликатов, а также преобразовывать разные форматы данных. Изучите основы теории вероятностей и статистики. Примените их для исследования основных свойств данных, поиска закономерностей, распределений и аномалий. Отрисуете диаграммы, поупражняетесь в анализе графиков. Научитесь анализировать взаимосвязи в данных методами статистики. Узнаете, что такое статистическая значимость, гипотезы и доверительные интервалы. Научитесь предварительному исследованию данных, сформулируете и проверите гипотезы.
95,00ч
Модуль 4 Машинное обучение для больших объёмов данных
Изучите основы структурированного языка запросов SQL и операции реляционной алгебры. Познакомитесь с PostgreSQL — популярной системой управления базами данных (СУБД). Научитесь писать запросы разного уровня сложности и переводить бизнес-задачи на язык SQL. Также вы познакомитесь с PySpark — библиотекой для распределённой обработки больших объёмов данных. Научитесь решать простые задачи компьютерного зрения с привлечением готовых нейронных сетей и библиотеки Keras. Познакомитесь с Deep learning и обучением без учителя, задачами кластеризации и поиска аномалий.
145,00ч
Модуль 6 Машинное обучение в прикладных задачах
Научитесь анализировать временные ряды. Узнаете, как создавать табличные данные из временных рядов и решать для них задачу регрессии. Научитесь предобрабатывать тексты и решать для них задачи классификации и регрессии. Узнаете, как с помощью различных подходов вычислять эмбеддинги — векторные представления слов. Научитесь пользоваться state-of-the-art моделями, основанными на трансформерах, — современной архитектуре нейронных сетей. Научитесь решать простые задачи компьютерного зрения с привлечением готовых нейронных сетей. Познакомитесь с классическими компьютерном зрении. Заглянете в мир Deep Learning.
20,00ч
Модуль 1 Основы Python и анализа данных
Познакомитесь с языком программирования Python, библиотекой Pandas, а также средой программирования Jupyter. Узнаете основные концепции анализа данных и поймёте, чем занимаются аналитики и специалисты по Data Science.
110,00ч
Модуль 2 Введение в анализ данных
Глубже погрузитесь в язык программирования Python и работу с библиотекой Pandas. Научитесь очищать данные от выбросов, пропусков и дубликатов, а также преобразовывать разные форматы данных. Изучите основы теории вероятностей и статистики. Примените их для исследования основных свойств данных, поиска закономерностей, распределений и аномалий. Отрисуете диаграммы, поупражняетесь в анализе графиков. Научитесь анализировать взаимосвязи в данных методами статистики. Узнаете, что такое статистическая значимость, гипотезы и доверительные интервалы. Научитесь предварительному исследованию данных, сформулируете и проверите гипотезы.
110,00ч
Модуль 3 Основы машинного обучения
Освоите основные концепции машинного обучения. Познакомитесь с библиотекой Scikit-Learn и примените её для создания первого проекта с машинным обучением. Углубитесь в самую востребованную область машинного обучения — обучение с учителем. Узнаете, как обращаться с несбалансированными данными. Узнаете, как машинное обучение (МО) помогает бизнесу, как собирать данные и как продуктовые метрики связаны с показателями МО. Научитесь запускать новую функциональность сервиса, применяя МО. Узнаете, что такое бизнес-метрики, KPI и A/B-тестирование.
95,00ч
Модуль 4 Машинное обучение для больших объёмов данных
Изучите основы структурированного языка запросов SQL и операции реляционной алгебры. Познакомитесь с PostgreSQL — популярной системой управления базами данных (СУБД). Научитесь писать запросы разного уровня сложности и переводить бизнес-задачи на язык SQL. Также вы познакомитесь с PySpark — библиотекой для распределённой обработки больших объёмов данных. Научитесь решать простые задачи компьютерного зрения с привлечением готовых нейронных сетей и библиотеки Keras. Познакомитесь с Deep learning и обучением без учителя, задачами кластеризации и поиска аномалий.
100,00ч
Модуль 5 Продвинутое машинное обучение
На практике освоите с нуля главные концепции линейной алгебры. Разберёте ряд алгоритмов и приспособите их к решению практических задач с использованием численных методов. Проанализируете временные ряды. Представите тексты на естественном языке в качестве таблиц с данными. Освоите приближённые вычисления, оценки сложности алгоритма, градиентный спуск. Узнаете, как обучаются нейронные сети и что такое градиентный бустинг. Узнаете, как создавать табличные данные из временных рядов и решать для них задачу регрессии. Научитесь делать числовые векторы из текстов и решать для них задачи классификации и регрессии. Узнаете, как вычисляются признаки TF-IDF и познакомитесь с языковыми представлениями word2vec и BERT.
145,00ч
Модуль 6 Машинное обучение в прикладных задачах
Научитесь анализировать временные ряды. Узнаете, как создавать табличные данные из временных рядов и решать для них задачу регрессии. Научитесь предобрабатывать тексты и решать для них задачи классификации и регрессии. Узнаете, как с помощью различных подходов вычислять эмбеддинги — векторные представления слов. Научитесь пользоваться state-of-the-art моделями, основанными на трансформерах, — современной архитектуре нейронных сетей. Научитесь решать простые задачи компьютерного зрения с привлечением готовых нейронных сетей. Познакомитесь с классическими компьютерном зрении. Заглянете в мир Deep Learning.
228 000 p
Авторизуйтесь чтобы записаться

Профстандарт

Специалист по большим данным

06.042

Ответственный за программу