III уровень Большие данные Анализировать данные Scikit-learn NumPy Обрабатывать данные Jupyter Notebook Хранить данные Keras Matplotlib Визуализировать данные Решать задачи машинного обучения Python XGBoost Разрабатывать и создавать программы и приложения Gradient Boosting SQL-запрос Писать программный код

Специалист по Data Science

Яндекс
400,00 часов длительность
Онлайн формат
Базовый уровень
12 поток (закрыт) 25.04.2022-14.02.2023
13 поток (закрыт) 09.05.2022-21.02.2023
14 поток (закрыт) 23.05.2022-14.03.2023
15 поток (закрыт) 06.06.2022-28.03.2023
16 поток (закрыт) 20.06.2022-04.04.2023
17 поток (закрыт) 04.07.2022-02.05.2023
18 поток (закрыт) 18.07.2022-09.05.2023
19 поток (закрыт) 01.08.2022-23.05.2023
20 поток (закрыт) 15.08.2022-06.06.2023
21 поток (закрыт) 29.08.2022-20.06.2023
22 поток (закрыт) 12.09.2022-04.07.2023
23 поток (закрыт) 26.09.2022-18.07.2023
24 поток (закрыт) 10.10.2022-01.08.2023
25 поток (закрыт) 24.10.2022-15.08.2023
26 поток (закрыт) 07.11.2022-29.08.2023
27 поток (закрыт) 21.11.2022-12.09.2023
28 поток (закрыт) 05.12.2022-26.09.2023
29 поток (закрыт) 19.12.2022-10.10.2023

Описание

В течение пяти рабочих дней с момента подачи заявки вам на почту придет письмо, в котором расскажем основные условия программы и особенности обучения в Яндекс Практикуме. Обратите внимание, что письмо может попасть в спам.

Описание профессии

Специалист по Data Science структурирует и анализирует большие объёмы данных, применяет машинное обучение для предсказания событий и обнаружения неочевидных закономерностей. Помогает создавать и улучшать продукты в бизнесе, промышленности и науке. Мы хотим научить вас основным инструментам этой профессии: Python и его библиотекам, в том числе Scikit-Learn и XGBoost; Jupyter Notebook, SQL.

Зарплата специалиста по Data Science:
Junior — 60 000 рублей
Middle — 120 000 рублей
Senior — от 210 000 рублей
Источник данных: Хабр Карьера

 

Чему вы научитесь на курсе:

  • писать ясный, гибкий, эффективный и работающий код программ на Python, оптимизировать его, находить и исправлять в нем ошибки; 
  • писать и выполнять SQL-запросы;
  • формулировать и проверять статистические гипотезы;
  • работать с данными в различных форматах, с данными, содержащими категориальные переменные, пропущенные значения, с неструктурированными данными;
  • применять методы анализа данных в решении прикладных задач;
  • применять основные алгоритмы оптимизации, в том числе стохастической;
  • применять различные методы машинного обучения, выбирать модели оптимальной сложности и обучать их, оценивать их качество в оффлайн и в онлайн-режиме;
  • узнаете такие парадигмы машинного обучения, как: обучение с учителем, обучение без учителя;
  • получите представление об основных моделях машинного обучения (линейные модели, деревья, нейронные сети, ансамбли), об их преимуществах и недостатках, о стратегиях обучения;

За 8 месяцев обучения по 12 часов в неделю вы освоите востребованные навыки специалиста по Data Science, соберёте портфолио из 16 проектов и начнёте свой путь в профессию. Вот некоторые из проектов, которые вы будете делать:

  • Проанализируете данные о клиентах банка и определите долю кредитоспособных
  • Найдёте закономерности в данных о продаже игры
  • Разработаете модель для определения стоимости автомобиля с пробегом
  • Построите модель и спрогнозируете пиковые нагрузки в такси
  • Ускорите модерацию комментариев в сообществе, автоматизировав оценку их токсичности
  • Построите модель для определения приблизительного возраста человека по фотографии
  • Построите модель, прогнозирующую отток клиентов в телекоммуникационной компании

 

О компании

Яндекс Практикум — это сервис онлайн-образования, в котором ваш процесс обучения основан на реальных ситуациях. Вы учитесь программированию и с первого урока пишете код; на занятиях по дизайну — работаете с реальными макетами, а на уроках английского сразу начнёте разговаривать. 

 

Почему Яндекс Практикум

Мы изначально спроектировали образовательную среду для онлайн-обучения — вам понадобится компьютер и спокойное место, где вас не будут отвлекать. 

Технологии помогают сделать так, чтобы вам было удобно учиться. Все части курса собраны на одном сайте. Не нужно переключаться
и отвлекаться на что-то ещё. Курсы адаптируются под ваш уровень знаний.

Самостоятельная работа сочетается с регулярным общением с наставниками и возможностью поговорить с поддержкой. Любую проблему можно решить немедленно.

Почему мы верим, что у вас получится:

  • Понятная теория
    Термины и правила подкреплены примерами из жизни. Сложность и длина курса рассчитаны так, чтобы каждую следующую главу вы понимали всё лучше.
  • Онлайн-тренажер
    С первого дня вы учитесь анализу данных на практике. Мы даём знания небольшими частями, которые нужно сразу применить, написав собственный код в онлайн-тренажёре. Пишите код, ошибайтесь, быстро получайте обратную связь и исправляйте ошибки.
     
  • Самостоятельная работа
    Тренажёр — это только часть обучения. Основные навыки вы приобретете по мере решения задач инструментами профессиональных аналитиков, а код-ревьюер даст вам обратную связь. Вас ждут типичные для аналитика задачи из разных сфер бизнеса. Вы решите их и сможете добавить в своё портфолио
     
  • Поддержка
    Команда наставников проверяет и комментирует ваши работы, помогает разобраться в сложностях и обучает собственным профессиональным приёмам аналитики. Техническая поддержка в чате доступна 24/7.

 

78% выпускников Практикума находят работу

 

В этом им помогает особый этап курса — карьерный трек. На нём со студентами работают наши HR-специалисты. Студенты учатся планировать процесс поиска работы, правильно составлять резюме, уверенно держаться на собеседованиях и проходить тестовые задания. Мы разработали эту программу, чтобы каждый выпускник нашёл работу по душе.

78% выпускников находят работу, большинство из них за 4 месяца. Институт образования НИУ ВШЭ подтвердил данные через исследование трудоустройства выпускников.

Часов в программе
85,00 часов
лекции
101,00 час
практика
85,00 часов
самостоятельная
99,00 часов
промежуточная аттестация
1 час
входная диагностика
30 часов
итоговая аттестация
401,00 час
всего
Цель программы
Цель: получение слушателями профессиональных компетенций в области анализа данных и машинного обучения, подготовка специалистов в области анализа данных и машинного обучения.
Актуальность
В XXI веке бизнесу и государству особенно важно уметь прогнозировать и предсказывать различные сценарии развития событий, которые повлияют на них. В экономике и других сферах одновременно взаимодействуют множество факторов — от точности прогнозов зависит благосостояние и выживание организаций и стран. Ключевой элемент точных прогнозов — грамотная работа с данными, источники и объём которых значительно увеличиваются ежедневно.
Для это необходимы профессионалы, которые умеют исследовать проблему, формулировать и проверять с помощью инструментов анализа данных гипотезы.
Целью Программы является получение слушателями следующих профессиональных компетенций в области анализа данных:
• способность подготовить данные для анализа
• способность применять анализ данных для решения бизнес-задач
• способность коммуницировать с заказчиком и иными стейкхолдерами проекта для достижения нужного результата
• способность применять для решения задач языки программирования и баз данных, операционные системы, цифровые библиотеки и пакеты программ;
• способность программировать работающие программы на языке Python;
Основная задача программы — подготовить к работе в коммерческих и государственных компаниях специалиста, который владеет теоретическими подходами и концепциями, а также технологическими навыками реализации анализа данных.
Новизна программы состоит в продуманном сочетании теоретической и практической подготовки с постоянной автоматизированной и ручной обратной связью на платформе и от профессионалов-наставников.
Слушатели овладеют инструментами полного цикла прогнозирования развития явлений и значений переменных: от получения и прояснения задачи до очистки и анализа данных, а также решение задачи анализа данных.
Актуальность программы обуславливается растущим спросом на специалистов в области обработки и анализа больших данных.
Входная диагностика 1 час
После подачи заявки вам на почту придет письмо, в котором расскажем основные условия программы и особенности обучения в Яндекс Практикуме.
Итоговая аттестация 30 часов
Дипломный проект

Компетенции

Профессиональные


Основы Python и анализа данных
Знать:

Основы синтаксиса, списки и циклы, операции с таблицами, условия и функции, Pandas для анализа данных.

Уметь:

Основы программирования на Python, предобработка данных, анализ данных и оформление результатов.

Владеть:

Язык программирования Python, библиотека Pandas, среда программирования Jupyter Notebook.

Основы анализа данных
Знать:

Применение Python и Pandas для анализа данных, Анализ данных и оформление результатов, Системное и критическое мышление в работе аналитика, Срезы данных, Взаимосвязь данных, Исследовательский анализ данных, Описательная статистика, Теория вероятностей, Статистический анализ данных

Уметь:

Умение писать код на Python, Изменение типов данных, Работа с пропусками, Поиск дубликатов, Предобработка данных, Категоризация данных, Работа с несколькими источниками данных, Валидация результатов, Проверка гипотез

Владеть:

Python — язык программирования общего назначения, Jupyter Notebook — среда разработки

Основы машинного обучения
Знать:

Модели и алгоритмы, Качество модели, Регрессия, Метрики классификации, Несбалансированная классификация, Метрики регрессии, Метрики бизнеса, Машинное обучение в бизнесе

Уметь:

Улучшение модели, Подготовка признаков, Обучение с учителем, Запуск новой функциональности, Сбор данных

Владеть:

Python — язык программирования общего назначения, библиотека машинного обучения Scikit-Learn

Продвинутое машинное обучение
Знать:

Векторы и векторные операции, Расстояние между векторами, Матрицы и матричные операции, Линейная алгебра в машинном обучении, Градиентный спуск, Градиентный бустинг, Численные методы в машинном обучении, Анализ временных рядов, Прогнозирование временных рядов, Векторизация текстов, Языковые представления, Машинное обучение для текстов

Уметь:

Векторные операции, Матричные операции, Анализ алгоритмов, Реализация линейной регрессии, Обучение моделей градиентным спуском, Анализ и прогнозирование временных рядов

Владеть:

Python — язык программирования общего назначения, библиотека машинного обучения Scikit-Learn, библиотека для математических операций и работы с векторами numpy, библиотека для градиентного бустинга Catboost

Машинное обучение для больших объёмов данных
Знать:

Базы данных и таблицы, Срезы данных в SQL, Взаимоотношения между таблицами, Типы объединения таблиц, Введение в PySpark, SQL в анализе данных и машинном обучении, Полносвязные нейронные сети, Свёрточные нейронные сети, Компьютерное зрение с использованием нейронных сетей

Уметь:

Извлечение данных с помощью SQL, Агрегирующие функции. Группировка и сортировка данных, Подзапросы и временные таблицы, Кластеризация данных, Обнаружение аномалий в данных

Владеть:

Язык программирования Python, инструменты хранения и извлечения данных SQL, PySpark, библиотека для работы с нейронными сетями Keras

Требования

Нет

Образование
  • Высшее образование
  • Среднее профессиональное образование

Модули

свернуть
20,00ч
Модуль 1 Основы Python и анализа данных
Познакомитесь с языком программирования Python, библиотекой Pandas, а также средой программирования Jupyter. Узнаете основные концепции анализа данных и поймёте, чем занимаются аналитики и специалисты по Data Science.
85,00ч
Модуль 3 Основы машинного обучения
Освоите основные концепции машинного обучения. Познакомитесь с библиотекой Scikit-Learn и примените её для создания первого проекта с машинным обучением. Углубитесь в самую востребованную область машинного обучения — обучение с учителем. Узнаете, как обращаться с несбалансированными данными. Узнаете, как машинное обучение (МО) помогает бизнесу, как собирать данные и как продуктовые метрики связаны с показателями МО. Научитесь запускать новую функциональность сервиса, применяя МО. Узнаете, что такое бизнес-метрики, KPI и A/B-тестирование.
60,00ч
Модуль 5 Машинное обучение для больших объёмов данных
Изучите основы структурированного языка запросов SQL и операции реляционной алгебры. Познакомитесь с PostgreSQL — популярной системой управления базами данных (СУБД). Научитесь писать запросы разного уровня сложности и переводить бизнес-задачи на язык SQL. Также вы познакомитесь с PySpark — библиотекой для распределённой обработки больших объёмов данных. Научитесь решать простые задачи компьютерного зрения с привлечением готовых нейронных сетей и библиотеки Keras. Познакомитесь с Deep learning и обучением без учителя, задачами кластеризации и поиска аномалий.
130,00ч
Модуль 2 Введение в анализ данных
Глубже погрузитесь в язык программирования Python и работу с библиотекой Pandas. Научитесь очищать данные от выбросов, пропусков и дубликатов, а также преобразовывать разные форматы данных. Изучите основы теории вероятностей и статистики. Примените их для исследования основных свойств данных, поиска закономерностей, распределений и аномалий. Отрисуете диаграммы, поупражняетесь в анализе графиков. Научитесь анализировать взаимосвязи в данных методами статистики. Узнаете, что такое статистическая значимость, гипотезы и доверительные интервалы. Научитесь предварительному исследованию данных, сформулируете и проверите гипотезы.
75,00ч
Модуль 4 Продвинутое машинное обучение
На практике освоите с нуля главные концепции линейной алгебры. Разберёте ряд алгоритмов и приспособите их к решению практических задач с использованием численных методов. Проанализируете временные ряды. Представите тексты на естественном языке в качестве таблиц с данными. Освоите приближённые вычисления, оценки сложности алгоритма, градиентный спуск. Узнаете, как обучаются нейронные сети и что такое градиентный бустинг. Узнаете, как создавать табличные данные из временных рядов и решать для них задачу регрессии. Научитесь делать числовые векторы из текстов и решать для них задачи классификации и регрессии. Узнаете, как вычисляются признаки TF-IDF и познакомитесь с языковыми представлениями word2vec и BERT.
20,00ч
Модуль 1 Основы Python и анализа данных
Познакомитесь с языком программирования Python, библиотекой Pandas, а также средой программирования Jupyter. Узнаете основные концепции анализа данных и поймёте, чем занимаются аналитики и специалисты по Data Science.
130,00ч
Модуль 2 Введение в анализ данных
Глубже погрузитесь в язык программирования Python и работу с библиотекой Pandas. Научитесь очищать данные от выбросов, пропусков и дубликатов, а также преобразовывать разные форматы данных. Изучите основы теории вероятностей и статистики. Примените их для исследования основных свойств данных, поиска закономерностей, распределений и аномалий. Отрисуете диаграммы, поупражняетесь в анализе графиков. Научитесь анализировать взаимосвязи в данных методами статистики. Узнаете, что такое статистическая значимость, гипотезы и доверительные интервалы. Научитесь предварительному исследованию данных, сформулируете и проверите гипотезы.
85,00ч
Модуль 3 Основы машинного обучения
Освоите основные концепции машинного обучения. Познакомитесь с библиотекой Scikit-Learn и примените её для создания первого проекта с машинным обучением. Углубитесь в самую востребованную область машинного обучения — обучение с учителем. Узнаете, как обращаться с несбалансированными данными. Узнаете, как машинное обучение (МО) помогает бизнесу, как собирать данные и как продуктовые метрики связаны с показателями МО. Научитесь запускать новую функциональность сервиса, применяя МО. Узнаете, что такое бизнес-метрики, KPI и A/B-тестирование.
75,00ч
Модуль 4 Продвинутое машинное обучение
На практике освоите с нуля главные концепции линейной алгебры. Разберёте ряд алгоритмов и приспособите их к решению практических задач с использованием численных методов. Проанализируете временные ряды. Представите тексты на естественном языке в качестве таблиц с данными. Освоите приближённые вычисления, оценки сложности алгоритма, градиентный спуск. Узнаете, как обучаются нейронные сети и что такое градиентный бустинг. Узнаете, как создавать табличные данные из временных рядов и решать для них задачу регрессии. Научитесь делать числовые векторы из текстов и решать для них задачи классификации и регрессии. Узнаете, как вычисляются признаки TF-IDF и познакомитесь с языковыми представлениями word2vec и BERT.
60,00ч
Модуль 5 Машинное обучение для больших объёмов данных
Изучите основы структурированного языка запросов SQL и операции реляционной алгебры. Познакомитесь с PostgreSQL — популярной системой управления базами данных (СУБД). Научитесь писать запросы разного уровня сложности и переводить бизнес-задачи на язык SQL. Также вы познакомитесь с PySpark — библиотекой для распределённой обработки больших объёмов данных. Научитесь решать простые задачи компьютерного зрения с привлечением готовых нейронных сетей и библиотеки Keras. Познакомитесь с Deep learning и обучением без учителя, задачами кластеризации и поиска аномалий.
112 000 p
Авторизуйтесь чтобы записаться

Профстандарт

Специалист по большим данным

06.042

Ответственный за программу