Модуль 8
72,00ч

Построение и валидация модели: Задача кластеризации

1. Теория вероятностей в контексте Наивного Байесовского классификатора
2. Бустинг & Стекинг (как работают GBMs)
3. Кластеризация и техники понижение размерности
4. Бустинг с использованием кластеризации/PCA на начальном этапе (подумать)
Часов в программе
8,00 часов
лекции
21,00 час
практика
33,00 часа
самостоятельная
10,00 часов
промежуточная аттестация
72,00 часа
всего
Материально-технические условия реализации программы:
Вид занятий: внеаудиторные
Требуемое ПО:
Процессор Intel Pentium Silver N5030 1.1 ГГц
Оперативная память (RAM) от 4 ГБ
Операционная система: Windows 10, macOS
Стабильный интернет: от 5/мбит с
Информационные ресуры
-Онлайн курс “Математическая статистика” https://stepik.org/course/326/promo (ОПК-2, ПК-2)
-Документация по работе с Pickle: https://docs.python.org/3/library/pickle.html (ПК-7)
-Документация по работе с Joblib: https://joblib.readthedocs.io/en/latest/ (ПК-7)
-Официальная документация virtualenv https://virtualenv.pypa.io/en/latest/ (ПК-7)
-Список команд Docker https://docs.docker.com/engine/reference/run/ (ПК-7)
-Обновляемый список ресурсов и плагинов для Flask https://github.com/humiaozuzu/awesome-flask (ПК-7)
-Официальное руководство RabbitMQ на русском языке (ПК-7)
-Youtube канал для дополнительного изучения нейронных сетей Arxiv Insights https://www.youtube.com/watch?v=JgvyzIkgxF0&feature=youtu.be (ОПК-2)
-Видео курс «Essence of linear algebra» https://www.youtube.com/playlist?list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab (ОПК-2)
-Онлайн курс «Convex Optimization»: https://lagunita.stanford.edu/courses/Engineering/CVX101/Winter2014/about (ОПК-2, ПК-2)
Образовательные ресуры
-Онлайн курс “Математическая статистика” https://stepik.org/course/326/promo (ОПК-2, ПК-2)
-Документация по работе с Pickle: https://docs.python.org/3/library/pickle.html (ПК-7)
-Документация по работе с Joblib: https://joblib.readthedocs.io/en/latest/ (ПК-7)
-Официальная документация virtualenv https://virtualenv.pypa.io/en/latest/ (ПК-7)
-Список команд Docker https://docs.docker.com/engine/reference/run/ (ПК-7)
-Обновляемый список ресурсов и плагинов для Flask https://github.com/humiaozuzu/awesome-flask (ПК-7)
-Официальное руководство RabbitMQ на русском языке (ПК-7)
-Youtube канал для дополнительного изучения нейронных сетей Arxiv Insights https://www.youtube.com/watch?v=JgvyzIkgxF0&feature=youtu.be (ОПК-2)
-Видео курс «Essence of linear algebra» https://www.youtube.com/playlist?list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab (ОПК-2)
-Онлайн курс «Convex Optimization»: https://lagunita.stanford.edu/courses/Engineering/CVX101/Winter2014/about (ОПК-2, ПК-2)

Учебно-методические материалы

Методы, формы и технологии

Формы подачи материала:
-видео
-текст

Методы:
-асинхронная работа студента на платформе
-синхронная работа на вебинарах с преподавателями
-самостоятельная работа (выполнение заданий)

Методические разработки

Методические разработки:
1.Анализ рынок конкурентов — изучаем, что предлагают другие школы — и рынок вакансий, чтобы давать востребованные знания и навыки.
2.Проработка критериев по набору экспертов и авторов программы
3.Разработка контента в обучающие материалы и проектирование структуры курса
4.Анализ рынка вакансий на предмет актуальности знаний
5.Создание авторами модулей программы.
6.Каждый урок проходит многоуровневое ревью — эксперта, методиста, редактора, студента-тестировщика.
7.Чередование форматов подачи информации (текст — видео— таблица).
8.Обязательно предоставление ссылок на дополнительные источники — документацию и полезные статьи, которые помогут лучше понять тему и расширят кругозор студента
9.В конце каждой темы у нас есть:
-итоговое тестирование, чтобы привести знания теории всистему, большая практическая задача для закрепления всех необходимых навыков модуля.
10.Обработка обратной связи от студентов по каждому модулю

Материалы курса

Вступление к модулю
Вероятность. Общие понятия
Вероятность. Общие понятия (продолжение)
Условная вероятность
Задачи на условную вероятность
Формула полной вероятности
Задача на формулу полной вероятности
Формула Байеса
Задача на обновление информации
Независимость событий
Дискретная случайная величина
Математическое ожидание
Медиана
Дисперсия и стандартное отклонение
Стандартные дискретные распределения
Задачи на стандартные дискретные распределения
Парные дискретные распределения
Непрерывное равномерное распределение
Нормальное и логнормальное распределение
Экспоненциальное распределение
Когда и целого леса мало
AdaBoost
Градиентный бустинг
Бустинг. Практика
Стекинг
Стекинг. Практика
Задачи и подходы кластеризации
Условия задач кластеризации
Алгоритмы кластеризации
K-means. Практика
EM-алгоритм. Практика
Агломеративная кластеризация. Практика
DBSCAN. Практика
Сравнение алгоритмов
Оценка качества
Коэффициент силуэта. Практика
Однородность. Практика
Полнота. Практика
V-мера. Практика
Кластеризация текстов

Учебная литература

Python для сложных задач. Наука о данных и машинное обучение / Вандер Плас Дж. - СПб.: Питер, 2019 - цифровая книга. (ОПК-3)

Темы

Теория вероятностей в контексте Наивного Алгоритмы на основе Деревьев решений Бустинг & Стекинг (как работают GBMs) Кластеризация и техники понижение размерности, ч.1 Кластеризация и техники понижение размерности, ч.2 Бустинг с использованием кластеризации/PCA на начал
Лекции
1,00ч
Практические занятия
4,00ч
Самостоятельная работа
5,00ч
Всего
10,00ч
Лекции
1,00ч
Практические занятия
4,00ч
Самостоятельная работа
7,00ч
Всего
12,00ч
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
6,00ч
Всего
12,00ч
Лекции
1,00ч
Практические занятия
2,00ч
Самостоятельная работа
2,00ч
Всего
5,00ч
Лекции
1,00ч
Практические занятия
2,00ч
Самостоятельная работа
4,00ч
Всего
7,00ч
Лекции
2,00ч
Практические занятия
5,00ч
Самостоятельная работа
9,00ч
Всего
16,00ч
Промежуточная аттестация 10,00 часов
Решение практических заданий.