Модуль 3

Базовые методы машинного обучения

Тема 3.1 Понятие машинного обучения
Мотивы для создания технологии. Основные определения. Шкалы измерения различных характеристик. Источники, порождающие данные.

Тема 3.2 Задачи машинного обучения
• Ассоциация - нахождение постоянных составляющих (трендов), которые можно использовать для объяснения событий (например, выбор товаров и услуг, определение уровней запасов, схем складирования и др.).
• Последовательность - установление временных серий последовательных действий (транзакций), правил выполнения отдельных транзакций.
• Классификация - выявление признаков, характеризующих группу объектов, распределение объектов по группам для моделирования поведения объектов, прогнозирования значений свойств объектов.
• Кластеризация - распределение по группам или сегментам. В отличие от классификации, кластеры формируются в процессе анализа.
• Прогнозирование - предсказания будущих значений непрерывно изменяющихся переменных и др.

Тема 3.3 Построение модели машинного обучения
Этапы в процессе машинного обучения. Обзор методов машинного обучения.

Тема 3.4 Линейная и логистическая регрессия
Линейная регрессия на примере зависимости роста детей от роста родителей. Логистическая регрессия – это разновидность множественной регрессии, общее назначение которой состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной. Бинарная логистическая регрессия, как следует из названия, применяется в случае, когда зависимая переменная является бинарной (т.е. может принимать только два значения). Иными словами, с помощью логистической регрессии можно оценивать вероятность того, что событие наступит для конкретного испытуемого (больной/здоровый, возврат кредита/дефолт и т.д.). Логистическая регрессия на примере данных, выживших/погибших на Титанике. Ошибки первого и второго рода. ROC-кривая.

Тема 3.5 Деревья решений
Задачи, приводящие к деревьям решений. Алгоритм построения дерева решений. Определение наилучшего разбиения. Прирост информации о множестве объектов. Меры неопределенности. Важность признаков. Работа с пропусками в данных. Специальные алгоритмы построения деревьев.

Тема 3.6 Ансамблевые методы машинного обучения
Случайный лес (Random Forest). Метод градиентного бустинга (Xgboost).

Тема 3.7 Промежуточная аттестация по модулю 3.
Контрольный тест по пройденному материалу.