Цель курса дать систематизированное представление о современных подходах к анализу данных средствами машинного обучения, познакомить с основными принципами и этапами решения задач регрессии и классификации, научить навыкам применения технологий машинного обучения, в том числе ансамблированию алгоритмов, проверке качества алгоритмов с помощью процедур валидации и кросс-валидации, научить слушателей курса техникам сэмлирования в случае отсутствия сбалансированности классов во входной информации, проводить обучение алгоритмов машинного обучения в современных информационных средах (R Studio), в конечном итоге сформировать на базовом уровне компетенцию компетенции цифровой экономики: Спсобность управлять информацией и данными.
Для успешного прохождения курса слушатели должны на продвинутом уровне пользоваться компьютером, иметь базовые навыки в моделирование, знать основы теории вероятности и математической статистики, иметь представление о программировании на языках высокого уровня (на пороговом уровне). Для слушателей курсов предусмотрены входные контрольные задания по теории вероятности (теорема Байеса) и математической статистике (описательные дескриптивные статистики и проверка гипотез – ошибки первого и второго рода).
В результате изучения дисциплины слушатель должен:
знать: классификацию типов наборов данных, методы сбора и подготовки исходных данных, технологии семплирования для получения сбалансированных выборок, основные современные методы анализа количественных и факторных данных; методы валидации и кросс-валидации при обучении алгоритмов машинного обучения; алгоритмы машинного обучения – бинарные модели регрессии, модели регресии (метод лассо и гребневой регрессии); байесовские классификаторы, алгоритмы бустинга, методы деревьев решений и случайного леса); ансамблевые процедуры в машинном обучения; алгоритмы обработки входной информации, с применением современных инструментальных средств, методы предварительной обработки информации (метод главных компонент, кластерный анализ) для возможности применения продвинутых методов анализа данных; метрики качества для оценки алгоритмов машинного обучения.
уметь: проводить качественную чистку данных, проводить восполнение данных; восполнять выборку до сбалансированного объёма; проводить процедуры валидации и кросс-валидации для обучения алгоритмов машинного обучения; использовать метрики качества для оценки алгоритмов машинного обучения; использовать алгоритмы машинного обучения для решения задач классификации; использовать алгоритмы машинного обучения для решения задач регрессии; проводить ансамблирование алгоритмов машинного обучения для повышения точности решения задач классификации и регрессии;
владеть: владеть техниками сэмплирования для восполнения баланса выборок, используя средства среды R Studio; навыками построения моделей на основе алгоритмов машинного обучения для решения задач регрессии и классификации; навыками оценки качества алгоритмов машинного обучения.
а также иметь опыт применения современных методов и подходов анализа данных на базовом уровне средствами машинного обучения.
Компетенция, сформированная в рамках прохождения курса, позволит развиться в профессиональной деятельности ИТ-специалистам, сменить род деятельности в рамках одной области (Информационные технологии).
Цель программы дать систематизированное представление о современных подходах к анализу данных средствами машинного обучения, познакомить с основными принципами и этапами решения задач регрессии и классификации, научить навыкам применения технологий машинного обучения, в том числе ансамблированию алгоритмов, проверке качества алгоритмов с помощью процедур валидации и кросс-валидации, научить слушателей курса техникам сэмлирования в случае отсутствия сбалансированности классов во входной информации, проводить обучение алгоритмов машинного обучения в современных информационных средах (R Studio), в конечном итоге сформировать на базовом уровне компетенцию компетенции цифровой экономики: Управление информацией и данными.
- Образование: высшее, среднее профессиональное
- Квалификация(приветсвуется): инженер, математик
- Наличию опыта профессиональной деятельности: работа в Excel.
- Предварительное освоение иных дисциплин/курсов /модулей: высшая математика, теория вероятностей и математическая статистика, общая теория статистики
Для успешного прохождения курса слушатели должны на продвинутом уровне пользоваться компьютером, иметь базовые навыки в моделирование, знать основы теории вероятности и математической статистики, иметь представление о программировании на языках высокого уровня (на пороговом уровне). Для слушателей курсов предусмотрены входные контрольные задания по теории вероятности (теорема Байеса) и математической статистике (описательные дескриптивные статистики и проверка гипотез – ошибки первого и второго рода)
- Образование: высшее, среднее профессиональное
- Квалификация(приветсвуется): инженер, математик
- Наличию опыта профессиональной деятельности: работа в Excel.
- Предварительное освоение иных дисциплин/курсов /модулей: высшая математика, теория вероятностей и математическая статистика, общая теория статистики
Для успешного прохождения курса слушатели должны на продвинутом уровне пользоваться компьютером, иметь базовые навыки в моделирование, знать основы теории вероятности и математической статистики, иметь представление о программировании на языках высокого уровня (на пороговом уровне). Для слушателей курсов предусмотрены входные контрольные задания по теории вероятности (теорема Байеса) и математической статистике (описательные дескриптивные статистики и проверка гипотез – ошибки первого и второго рода)
свернуть
Задачи, требующие решения на основе машинного обучения. Постановка задач обучения по прецедентам. Объекты и признаки. Типы шкал: бинарные, номинальные, порядковые, количественные
Задания в виде кейса 1 Установка R Studio, определение настрое
Темы
Решение задач регрессии, проверка адекватности модели. Метод наименьших квадратов. Проверка адекватности уравнения регресси. Предпосылки для эффективности несмещенности и состоятельности оценок. Борьба с мультиколлинеарностью, метод LASSO, гребневая регрессия, выбор параметра регуляризации.
Задания в виде кейса 3 Построение регрессии, определение параметров регуляризации
Темы
Модели наивного байесовского классификатора. Принцип максимума апостериорной вероятности. Теорема об оптимальности байесовского классификатора. Оценивание плотности распределения: три основных подхода. Непараметрическое оценивание плотности. Вид разделяющей поверхности. Подстановочный алгоритм, его недостатки и способы их устранения. Параметрический наивный байесовский классификатор. Применение НБК для работы с текстом.
Задания в виде кейса
Технологии сэмплирования. оверсэмплинг, андерсэмплинг, ASMO, SMOTE Проблема неполных данных. Восстановление пропуском. Метод ресамплинга. Цензурирование. Метод исключения некомплектных объектов. Методы с заполнением. Методы взвешивания. Методы, основанные на моделировании.
Задания в виде практического задания
Работа с данными, преобразование данных из узких таблиц в широкую, фильтрация и объединение данных по определенному признаку. Процедуры подготовки данных для исследований. Упорядоченные и неупорядоченные данные. Транзакционные данные. Определение достаточного количества анализируемых объектов. Верификация. Трансформация. Оптимизация признакового пространства. Разделение выборок, кросс-валидация и метрики качества моделей. Селекция алгоритмов машинного обучения. ROC-анализ. Чувствительность и специфичность. Ложноположительные и ложноотрицательные исходы. Площадь под кривой (Area under curve). Особенности применения ROC-кривых в медицинских исследованиях. Сравнение ROC-кривых между собой. Валидациия и кросс-валидация при обучении алгоритмов машинного обучения/ Задания в виде кейса 2 Основные задачи и работа с данными
Темы
Модели множественного выбора с неупорядоченными, бинарными и упорядоченными альтернативами. Условные логит-модель. Вложенные (nested) логит-модели. Оценивание логит-моделей: метод максимального правдоподобия. Интерпретация моделей множественного выбора на основе маржинальных эффектов. Мультиномиальная логит-модель. Примеры моделей с упорядоченными альтернативами. Упорядоченные пробит-модели. Оценка качества для решения задач классификации
Задания в виде кейса 4 Построение классификатора на основе моделей бинарной регрессии.
Темы
Алгоритмы дерева принятия решения. Решающее дерево. Жадная нисходящая стратегия «разделяй и властвуй». Алгоритм ID3. Недостатки жадной стратегии и способы их устранения. Проблема переобучения. Редукция решающих деревьев: предредукция и постредукция, прунинг. CARD-деревья. Алгоритмы случайного леса (Random Forest). Алгоритмы случайного леса: косоугольный, синтетический, изолированный и полностью рандомизированный. Определение важности признаков по алгоритмам, основанным на деревьях решений). Ансамблевые методы: бустинги. Экстремальный градиентный бустинг. Стохастический градиентный бустинг
Задания в виде кейса
Задачи, требующие решения на основе машинного обучения. Постановка задач обучения по прецедентам. Объекты и признаки. Типы шкал: бинарные, номинальные, порядковые, количественные
Задания в виде кейса 1 Установка R Studio, определение настрое
Работа с данными, преобразование данных из узких таблиц в широкую, фильтрация и объединение данных по определенному признаку. Процедуры подготовки данных для исследований. Упорядоченные и неупорядоченные данные. Транзакционные данные. Определение достаточного количества анализируемых объектов. Верификация. Трансформация. Оптимизация признакового пространства. Разделение выборок, кросс-валидация и метрики качества моделей. Селекция алгоритмов машинного обучения. ROC-анализ. Чувствительность и специфичность. Ложноположительные и ложноотрицательные исходы. Площадь под кривой (Area under curve). Особенности применения ROC-кривых в медицинских исследованиях. Сравнение ROC-кривых между собой. Валидациия и кросс-валидация при обучении алгоритмов машинного обучения/ Задания в виде кейса 2 Основные задачи и работа с данными
Темы
Решение задач регрессии, проверка адекватности модели. Метод наименьших квадратов. Проверка адекватности уравнения регресси. Предпосылки для эффективности несмещенности и состоятельности оценок. Борьба с мультиколлинеарностью, метод LASSO, гребневая регрессия, выбор параметра регуляризации.
Задания в виде кейса 3 Построение регрессии, определение параметров регуляризации
Темы
Модели множественного выбора с неупорядоченными, бинарными и упорядоченными альтернативами. Условные логит-модель. Вложенные (nested) логит-модели. Оценивание логит-моделей: метод максимального правдоподобия. Интерпретация моделей множественного выбора на основе маржинальных эффектов. Мультиномиальная логит-модель. Примеры моделей с упорядоченными альтернативами. Упорядоченные пробит-модели. Оценка качества для решения задач классификации
Задания в виде кейса 4 Построение классификатора на основе моделей бинарной регрессии.
Темы
Модели наивного байесовского классификатора. Принцип максимума апостериорной вероятности. Теорема об оптимальности байесовского классификатора. Оценивание плотности распределения: три основных подхода. Непараметрическое оценивание плотности. Вид разделяющей поверхности. Подстановочный алгоритм, его недостатки и способы их устранения. Параметрический наивный байесовский классификатор. Применение НБК для работы с текстом.
Задания в виде кейса
Темы
Алгоритмы дерева принятия решения. Решающее дерево. Жадная нисходящая стратегия «разделяй и властвуй». Алгоритм ID3. Недостатки жадной стратегии и способы их устранения. Проблема переобучения. Редукция решающих деревьев: предредукция и постредукция, прунинг. CARD-деревья. Алгоритмы случайного леса (Random Forest). Алгоритмы случайного леса: косоугольный, синтетический, изолированный и полностью рандомизированный. Определение важности признаков по алгоритмам, основанным на деревьях решений). Ансамблевые методы: бустинги. Экстремальный градиентный бустинг. Стохастический градиентный бустинг
Задания в виде кейса
Технологии сэмплирования. оверсэмплинг, андерсэмплинг, ASMO, SMOTE Проблема неполных данных. Восстановление пропуском. Метод ресамплинга. Цензурирование. Метод исключения некомплектных объектов. Методы с заполнением. Методы взвешивания. Методы, основанные на моделировании.
Задания в виде практического задания
Лакман
Ирина Александровна
БашГУ