Специалист по Data Science
Яндекс
Описание
В течение пяти рабочих дней с момента подачи заявки вам на почту придет письмо, в котором расскажем основные условия программы и особенности обучения в Яндекс Практикуме. Обратите внимание, что письмо может попасть в спам.
Описание профессии
Специалист по Data Science структурирует и анализирует большие объёмы данных, применяет машинное обучение для предсказания событий и обнаружения неочевидных закономерностей. Помогает создавать и улучшать продукты в бизнесе, промышленности и науке. Мы хотим научить вас основным инструментам этой профессии: Python и его библиотекам, в том числе Scikit-Learn и XGBoost; Jupyter Notebook, SQL.
Зарплата специалиста по Data Science:
Junior — 60 000 рублей
Middle — 120 000 рублей
Senior — от 210 000 рублей
Источник данных: Хабр Карьера
Чему вы научитесь на курсе:
- писать ясный, гибкий, эффективный и работающий код программ на Python, оптимизировать его, находить и исправлять в нем ошибки;
- писать и выполнять SQL-запросы;
- формулировать и проверять статистические гипотезы;
- работать с данными в различных форматах, с данными, содержащими категориальные переменные, пропущенные значения, с неструктурированными данными;
- применять методы анализа данных в решении прикладных задач;
- применять основные алгоритмы оптимизации, в том числе стохастической;
- применять различные методы машинного обучения, выбирать модели оптимальной сложности и обучать их, оценивать их качество в оффлайн и в онлайн-режиме;
- узнаете такие парадигмы машинного обучения, как: обучение с учителем, обучение без учителя;
- получите представление об основных моделях машинного обучения (линейные модели, деревья, нейронные сети, ансамбли), об их преимуществах и недостатках, о стратегиях обучения;
За 8 месяцев обучения по 12 часов в неделю вы освоите востребованные навыки специалиста по Data Science, соберёте портфолио из 16 проектов и начнёте свой путь в профессию. Вот некоторые из проектов, которые вы будете делать:
- Проанализируете данные о клиентах банка и определите долю кредитоспособных
- Найдёте закономерности в данных о продаже игры
- Разработаете модель для определения стоимости автомобиля с пробегом
- Построите модель и спрогнозируете пиковые нагрузки в такси
- Ускорите модерацию комментариев в сообществе, автоматизировав оценку их токсичности
- Построите модель для определения приблизительного возраста человека по фотографии
- Построите модель, прогнозирующую отток клиентов в телекоммуникационной компании
О компании
Яндекс Практикум — это сервис онлайн-образования, в котором ваш процесс обучения основан на реальных ситуациях. Вы учитесь программированию и с первого урока пишете код; на занятиях по дизайну — работаете с реальными макетами, а на уроках английского сразу начнёте разговаривать.
Почему Яндекс Практикум
Мы изначально спроектировали образовательную среду для онлайн-обучения — вам понадобится компьютер и спокойное место, где вас не будут отвлекать.
Технологии помогают сделать так, чтобы вам было удобно учиться. Все части курса собраны на одном сайте. Не нужно переключаться
и отвлекаться на что-то ещё. Курсы адаптируются под ваш уровень знаний.
Самостоятельная работа сочетается с регулярным общением с наставниками и возможностью поговорить с поддержкой. Любую проблему можно решить немедленно.
Почему мы верим, что у вас получится:
- Понятная теория
Термины и правила подкреплены примерами из жизни. Сложность и длина курса рассчитаны так, чтобы каждую следующую главу вы понимали всё лучше.
- Онлайн-тренажер
С первого дня вы учитесь анализу данных на практике. Мы даём знания небольшими частями, которые нужно сразу применить, написав собственный код в онлайн-тренажёре. Пишите код, ошибайтесь, быстро получайте обратную связь и исправляйте ошибки.
- Самостоятельная работа
Тренажёр — это только часть обучения. Основные навыки вы приобретете по мере решения задач инструментами профессиональных аналитиков, а код-ревьюер даст вам обратную связь. Вас ждут типичные для аналитика задачи из разных сфер бизнеса. Вы решите их и сможете добавить в своё портфолио
- Поддержка
Команда наставников проверяет и комментирует ваши работы, помогает разобраться в сложностях и обучает собственным профессиональным приёмам аналитики. Техническая поддержка в чате доступна 24/7.
78% выпускников Практикума находят работу
В этом им помогает особый этап курса — карьерный трек. На нём со студентами работают наши HR-специалисты. Студенты учатся планировать процесс поиска работы, правильно составлять резюме, уверенно держаться на собеседованиях и проходить тестовые задания. Мы разработали эту программу, чтобы каждый выпускник нашёл работу по душе.
78% выпускников находят работу, большинство из них за 4 месяца. Институт образования НИУ ВШЭ подтвердил данные через исследование трудоустройства выпускников.
Часов в программе
Цель программы
Актуальность
Для это необходимы профессионалы, которые умеют исследовать проблему, формулировать и проверять с помощью инструментов анализа данных гипотезы.
Целью Программы является получение слушателями следующих профессиональных компетенций в области анализа данных:
• способность подготовить данные для анализа
• способность применять анализ данных для решения бизнес-задач
• способность коммуницировать с заказчиком и иными стейкхолдерами проекта для достижения нужного результата
• способность применять для решения задач языки программирования и баз данных, операционные системы, цифровые библиотеки и пакеты программ;
• способность программировать работающие программы на языке Python;
Основная задача программы — подготовить к работе в коммерческих и государственных компаниях специалиста, который владеет теоретическими подходами и концепциями, а также технологическими навыками реализации анализа данных.
Новизна программы состоит в продуманном сочетании теоретической и практической подготовки с постоянной автоматизированной и ручной обратной связью на платформе и от профессионалов-наставников.
Слушатели овладеют инструментами полного цикла прогнозирования развития явлений и значений переменных: от получения и прояснения задачи до очистки и анализа данных, а также решение задачи анализа данных.
Актуальность программы обуславливается растущим спросом на специалистов в области обработки и анализа больших данных.
Входная диагностика 1 час
Итоговая аттестация 30 часов
Компетенции
Профессиональные
Основы Python и анализа данных
Основы синтаксиса, списки и циклы, операции с таблицами, условия и функции, Pandas для анализа данных.
Уметь:Основы программирования на Python, предобработка данных, анализ данных и оформление результатов.
Владеть:Язык программирования Python, библиотека Pandas, среда программирования Jupyter Notebook.
Основы анализа данных
Применение Python и Pandas для анализа данных, Анализ данных и оформление результатов, Системное и критическое мышление в работе аналитика, Срезы данных, Взаимосвязь данных, Исследовательский анализ данных, Описательная статистика, Теория вероятностей, Статистический анализ данных
Уметь:Умение писать код на Python, Изменение типов данных, Работа с пропусками, Поиск дубликатов, Предобработка данных, Категоризация данных, Работа с несколькими источниками данных, Валидация результатов, Проверка гипотез
Владеть:Python — язык программирования общего назначения, Jupyter Notebook — среда разработки
Основы машинного обучения
Модели и алгоритмы, Качество модели, Регрессия, Метрики классификации, Несбалансированная классификация, Метрики регрессии, Метрики бизнеса, Машинное обучение в бизнесе
Уметь:Улучшение модели, Подготовка признаков, Обучение с учителем, Запуск новой функциональности, Сбор данных
Владеть:Python — язык программирования общего назначения, библиотека машинного обучения Scikit-Learn
Продвинутое машинное обучение
Векторы и векторные операции, Расстояние между векторами, Матрицы и матричные операции, Линейная алгебра в машинном обучении, Градиентный спуск, Градиентный бустинг, Численные методы в машинном обучении, Анализ временных рядов, Прогнозирование временных рядов, Векторизация текстов, Языковые представления, Машинное обучение для текстов
Уметь:Векторные операции, Матричные операции, Анализ алгоритмов, Реализация линейной регрессии, Обучение моделей градиентным спуском, Анализ и прогнозирование временных рядов
Владеть:Python — язык программирования общего назначения, библиотека машинного обучения Scikit-Learn, библиотека для математических операций и работы с векторами numpy, библиотека для градиентного бустинга Catboost
Машинное обучение для больших объёмов данных
Базы данных и таблицы, Срезы данных в SQL, Взаимоотношения между таблицами, Типы объединения таблиц, Введение в PySpark, SQL в анализе данных и машинном обучении, Полносвязные нейронные сети, Свёрточные нейронные сети, Компьютерное зрение с использованием нейронных сетей
Уметь:Извлечение данных с помощью SQL, Агрегирующие функции. Группировка и сортировка данных, Подзапросы и временные таблицы, Кластеризация данных, Обнаружение аномалий в данных
Владеть:Язык программирования Python, инструменты хранения и извлечения данных SQL, PySpark, библиотека для работы с нейронными сетями Keras
Требования
Нет
Образование
- Высшее образование
- Среднее профессиональное образование
Модули
свернутьПрофстандарт
Специалист по большим данным
06.042Ответственный за программу
practicumcipro@support.yandex.ru
88007009329