Модуль 5
66,00ч

Разведывательный анализ данных

1. Описательные статистики в контексте EDA
2. Проектирование признаков (Feature Engineering)
3. Статистический анализ данных на Питоне
4. Проектирование экспериментов
5. Kaggle площадка
Часов в программе
11,00 часов
лекции
27,00 часов
практика
20,00 часов
самостоятельная
8,00 часов
промежуточная аттестация
66,00 часов
всего
Материально-технические условия реализации программы:
Вид занятий: внеаудиторные
Требуемое ПО:
Процессор Intel Pentium Silver N5030 1.1 ГГц
Оперативная память (RAM) от 4 ГБ
Операционная система: Windows 10, macOS
Стабильный интернет: от 5/мбит с
Информационные ресуры
-Онлайн курс “Математическая статистика” https://stepik.org/course/326/promo (ОПК-2, ПК-2)
-Документация по работе с Pickle: https://docs.python.org/3/library/pickle.html (ПК-7)
-Документация по работе с Joblib: https://joblib.readthedocs.io/en/latest/ (ПК-7)
-Официальная документация virtualenv https://virtualenv.pypa.io/en/latest/ (ПК-7)
-Список команд Docker https://docs.docker.com/engine/reference/run/ (ПК-7)
-Обновляемый список ресурсов и плагинов для Flask https://github.com/humiaozuzu/awesome-flask (ПК-7)
-Официальное руководство RabbitMQ на русском языке (ПК-7)
-Youtube канал для дополнительного изучения нейронных сетей Arxiv Insights https://www.youtube.com/watch?v=JgvyzIkgxF0&feature=youtu.be (ОПК-2)
-Видео курс «Essence of linear algebra» https://www.youtube.com/playlist?list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab (ОПК-2)
-Онлайн курс «Convex Optimization»: https://lagunita.stanford.edu/courses/Engineering/CVX101/Winter2014/about (ОПК-2, ПК-2)
Образовательные ресуры
-Онлайн курс “Математическая статистика” https://stepik.org/course/326/promo (ОПК-2, ПК-2)
-Документация по работе с Pickle: https://docs.python.org/3/library/pickle.html (ПК-7)
-Документация по работе с Joblib: https://joblib.readthedocs.io/en/latest/ (ПК-7)
-Официальная документация virtualenv https://virtualenv.pypa.io/en/latest/ (ПК-7)
-Список команд Docker https://docs.docker.com/engine/reference/run/ (ПК-7)
-Обновляемый список ресурсов и плагинов для Flask https://github.com/humiaozuzu/awesome-flask (ПК-7)
-Официальное руководство RabbitMQ на русском языке (ПК-7)
-Youtube канал для дополнительного изучения нейронных сетей Arxiv Insights https://www.youtube.com/watch?v=JgvyzIkgxF0&feature=youtu.be (ОПК-2)
-Видео курс «Essence of linear algebra» https://www.youtube.com/playlist?list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab (ОПК-2)
-Онлайн курс «Convex Optimization»: https://lagunita.stanford.edu/courses/Engineering/CVX101/Winter2014/about (ОПК-2, ПК-2)

Учебно-методические материалы

Методы, формы и технологии

Формы подачи материала:
-видео
-текст

Методы:
-асинхронная работа студента на платформе
-синхронная работа на вебинарах с преподавателями
-самостоятельная работа (выполнение заданий)

Методические разработки

Методические разработки:
1.Анализ рынок конкурентов — изучаем, что предлагают другие школы — и рынок вакансий, чтобы давать востребованные знания и навыки.
2.Проработка критериев по набору экспертов и авторов программы
3.Разработка контента в обучающие материалы и проектирование структуры курса
4.Анализ рынка вакансий на предмет актуальности знаний
5.Создание авторами модулей программы.
6.Каждый урок проходит многоуровневое ревью — эксперта, методиста, редактора, студента-тестировщика.
7.Чередование форматов подачи информации (текст — видео— таблица).
8.Обязательно предоставление ссылок на дополнительные источники — документацию и полезные статьи, которые помогут лучше понять тему и расширят кругозор студента
9.В конце каждой темы у нас есть:
-итоговое тестирование, чтобы привести знания теории всистему, большая практическая задача для закрепления всех необходимых навыков модуля.
10.Обработка обратной связи от студентов по каждому модулю

Материалы курса

-Роль EDA в машинном обучении
-Алгоритм и методы EDA
-Знакомство с данными: винные обзоры
-Проверка
-БОНУС. EDA одной строкой кода
-Описательная статистика. Меры центральной тенденции в Python
-Корреляция
-Типы корреляций. Корреляция Пирсона
-Типы корреляций. Ранговые корреляции
-Визуализация корреляций. Матрица корреляций. График рассеивания. Парные отношения в наборе данных
-Создание признаков
-Создание признаков. Внешние источники данных
-Создание признаков. Работа с форматом «дата-время»
-Кодирование признаков. Методы
-Преобразование признаков. Нормализация. Стандартизация
-Отбор признаков. Мультиколлинеарность
-Понятие статистической гипотезы
-Статистическая значимость
-Статистические тесты. Введение
-Тесты на нормальность
-Параметрические тесты
-Непараметрические тесты
-Популярные статистические тесты в Python
-Суть и сферы применения A/B-тестирования
-Алгоритм, принципы и параметры A/B-тестирования
-Анализ результатов A/B-тестирования: кумулятивные метрики
-Анализ результатов A/B-тестирования: статистические тесты
-Анализ результатов A/B-тестирования: доверительные интервалы
-Введение в проектирование экспериментов
-Логирование экспериментов
-Знакомство с Comet.ml
-Основы Kaggle
-Работа с ноутбуками в Kaggle
-Участие в соревновании

Учебная литература

Python для анализа данных / Маккини Уэс. - М.: ДМК Пресс, 2020 - 540 с. (ОПК-3)

Темы

Описательные статистики в контексте EDA Описательные статистики в контексте EDA ч. 2 Проектирование признаков (Feature Engineering) Статистический анализ данных на Python Статистический анализ данных на Python ч.2 Проектирование экспериментов Kaggle площадка Проект 2. EDA + Feature Engineering. Соревнование на kaggle
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
1,00ч
Всего
7,00ч
Лекции
1,00ч
Практические занятия
2,00ч
Самостоятельная работа
2,00ч
Всего
5,00ч
Лекции
2,00ч
Практические занятия
3,00ч
Самостоятельная работа
3,00ч
Всего
8,00ч
Лекции
1,00ч
Практические занятия
3,00ч
Самостоятельная работа
2,00ч
Всего
6,00ч
Лекции
1,00ч
Практические занятия
3,00ч
Самостоятельная работа
1,00ч
Всего
5,00ч
Лекции
1,00ч
Практические занятия
3,00ч
Самостоятельная работа
1,00ч
Всего
5,00ч
Лекции
1,00ч
Практические занятия
3,00ч
Самостоятельная работа
2,00ч
Всего
6,00ч
Лекции
2,00ч
Практические занятия
6,00ч
Самостоятельная работа
8,00ч
Всего
16,00ч
Промежуточная аттестация 8,00 часов
Практические задания в модуле