III уровень Искусственный интеллект

Анализ данных на основе машинного обучения

БашГУ
72 часа длительность
Онлайн формат
Базовый уровень

Описание

Цель курса дать систематизированное представление о современных подходах к анализу данных средствами машинного обучения, познакомить с основными принципами и этапами решения задач регрессии и классификации, научить навыкам применения технологий машинного обучения, в том числе ансамблированию алгоритмов, проверке качества алгоритмов с помощью процедур валидации и кросс-валидации, научить слушателей курса техникам сэмлирования в случае отсутствия сбалансированности классов во входной информации, проводить обучение алгоритмов машинного обучения в современных информационных средах (R Studio), в конечном итоге сформировать на базовом уровне компетенцию компетенции цифровой экономики: Спсобность управлять информацией и данными.

Для успешного прохождения курса слушатели должны на продвинутом уровне пользоваться компьютером, иметь базовые навыки в моделирование, знать основы теории вероятности и математической статистики, иметь представление о программировании на языках высокого уровня (на пороговом уровне). Для слушателей курсов предусмотрены входные контрольные задания по теории вероятности (теорема Байеса) и математической статистике (описательные дескриптивные статистики и проверка гипотез – ошибки первого и второго рода).

В результате изучения дисциплины слушатель должен:

знать:  классификацию типов наборов данных,  методы сбора и подготовки исходных данных, технологии семплирования для получения сбалансированных выборок, основные современные методы анализа количественных и факторных данных; методы валидации и кросс-валидации при обучении алгоритмов машинного обучения; алгоритмы машинного обучения – бинарные модели регрессии, модели регресии (метод лассо и гребневой регрессии); байесовские классификаторы,  алгоритмы бустинга, методы деревьев решений и случайного леса); ансамблевые процедуры в машинном обучения; алгоритмы обработки входной информации, с применением современных инструментальных средств, методы предварительной обработки информации (метод главных компонент, кластерный анализ) для возможности применения продвинутых методов анализа данных; метрики качества для оценки алгоритмов машинного обучения.

уметь: проводить качественную чистку данных, проводить восполнение данных; восполнять выборку до сбалансированного объёма; проводить процедуры валидации и кросс-валидации для обучения алгоритмов машинного обучения; использовать метрики качества для оценки алгоритмов машинного обучения; использовать алгоритмы машинного обучения для решения задач классификации; использовать алгоритмы машинного обучения для решения задач регрессии; проводить ансамблирование алгоритмов машинного обучения для повышения точности решения задач классификации и регрессии;

владеть: владеть техниками сэмплирования для восполнения баланса выборок, используя средства среды R Studio; навыками построения моделей на основе алгоритмов машинного обучения для решения задач регрессии и классификации; навыками оценки качества алгоритмов машинного обучения.

а также иметь опыт применения современных методов и подходов анализа данных на базовом уровне средствами машинного обучения.

Компетенция, сформированная в рамках прохождения курса, позволит развиться в профессиональной деятельности ИТ-специалистам, сменить род деятельности в рамках одной области (Информационные технологии).

Цель программы
Цель программы дать систематизированное представление о современных подходах к анализу данных средствами машинного обучения, познакомить с основными принципами и этапами решения задач регрессии и классификации, научить навыкам применения технологий машинного обучения, в том числе ансамблированию алгоритмов, проверке качества алгоритмов с помощью процедур валидации и кросс-валидации, научить слушателей курса техникам сэмлирования в случае отсутствия сбалансированности классов во входной информации, проводить обучение алгоритмов машинного обучения в современных информационных средах (R Studio), в конечном итоге сформировать на базовом уровне компетенцию компетенции цифровой экономики: Управление информацией и данными.

Требования

- Образование: высшее, среднее профессиональное

- Квалификация(приветсвуется): инженер, математик

- Наличию опыта профессиональной деятельности: работа в Excel.

- Предварительное освоение иных дисциплин/курсов /модулей: высшая математика, теория вероятностей и математическая статистика, общая теория статистики

Для успешного прохождения курса слушатели должны на продвинутом уровне пользоваться компьютером, иметь базовые навыки в моделирование, знать основы теории вероятности и математической статистики, иметь представление о программировании на языках высокого уровня (на пороговом уровне). Для слушателей курсов предусмотрены входные контрольные задания по теории вероятности (теорема Байеса) и математической статистике (описательные дескриптивные статистики и проверка гипотез – ошибки первого и второго рода)

Иные требования и рекомендации для обучения по программе

- Образование: высшее, среднее профессиональное

- Квалификация(приветсвуется): инженер, математик

- Наличию опыта профессиональной деятельности: работа в Excel.

- Предварительное освоение иных дисциплин/курсов /модулей: высшая математика, теория вероятностей и математическая статистика, общая теория статистики

Для успешного прохождения курса слушатели должны на продвинутом уровне пользоваться компьютером, иметь базовые навыки в моделирование, знать основы теории вероятности и математической статистики, иметь представление о программировании на языках высокого уровня (на пороговом уровне). Для слушателей курсов предусмотрены входные контрольные задания по теории вероятности (теорема Байеса) и математической статистике (описательные дескриптивные статистики и проверка гипотез – ошибки первого и второго рода)

Модули

свернуть
Модуль 1 Введение в курс
Задачи, требующие решения на основе машинного обучения. Постановка задач обучения по прецедентам. Объекты и признаки. Типы шкал: бинарные, номинальные, порядковые, количественные Задания в виде кейса 1 Установка R Studio, определение настрое
Модуль 3 Методы регрессии
Темы Решение задач регрессии, проверка адекватности модели. Метод наименьших квадратов. Проверка адекватности уравнения регресси. Предпосылки для эффективности несмещенности и состоятельности оценок. Борьба с мультиколлинеарностью, метод LASSO, гребневая регрессия, выбор параметра регуляризации. Задания в виде кейса 3 Построение регрессии, определение параметров регуляризации
Модуль 5 Байесовский классификатор
Темы Модели наивного байесовского классификатора. Принцип максимума апостериорной вероятности. Теорема об оптимальности байесовского классификатора. Оценивание плотности распределения: три основных подхода. Непараметрическое оценивание плотности. Вид разделяющей поверхности. Подстановочный алгоритм, его недостатки и способы их устранения. Параметрический наивный байесовский классификатор. Применение НБК для работы с текстом. Задания в виде кейса
Модуль 7 Балансирование выборок
Технологии сэмплирования. оверсэмплинг, андерсэмплинг, ASMO, SMOTE Проблема неполных данных. Восстановление пропуском. Метод ресамплинга. Цензурирование. Метод исключения некомплектных объектов. Методы с заполнением. Методы взвешивания. Методы, основанные на моделировании. Задания в виде практического задания
Модуль 2 Основные задачи и работа с данными
Работа с данными, преобразование данных из узких таблиц в широкую, фильтрация и объединение данных по определенному признаку. Процедуры подготовки данных для исследований. Упорядоченные и неупорядоченные данные. Транзакционные данные. Определение достаточного количества анализируемых объектов. Верификация. Трансформация. Оптимизация признакового пространства. Разделение выборок, кросс-валидация и метрики качества моделей. Селекция алгоритмов машинного обучения. ROC-анализ. Чувствительность и специфичность. Ложноположительные и ложноотрицательные исходы. Площадь под кривой (Area under curve). Особенности применения ROC-кривых в медицинских исследованиях. Сравнение ROC-кривых между собой. Валидациия и кросс-валидация при обучении алгоритмов машинного обучения/ Задания в виде кейса 2 Основные задачи и работа с данными
Модуль 4 Методы классификации
Темы Модели множественного выбора с неупорядоченными, бинарными и упорядоченными альтернативами. Условные логит-модель. Вложенные (nested) логит-модели. Оценивание логит-моделей: метод максимального правдоподобия. Интерпретация моделей множественного выбора на основе маржинальных эффектов. Мультиномиальная логит-модель. Примеры моделей с упорядоченными альтернативами. Упорядоченные пробит-модели. Оценка качества для решения задач классификации Задания в виде кейса 4 Построение классификатора на основе моделей бинарной регрессии.
Модуль 6 Деревья решений, случайный лес и бустинги
Темы Алгоритмы дерева принятия решения. Решающее дерево. Жадная нисходящая стратегия «разделяй и властвуй». Алгоритм ID3. Недостатки жадной стратегии и способы их устранения. Проблема переобучения. Редукция решающих деревьев: предредукция и постредукция, прунинг. CARD-деревья. Алгоритмы случайного леса (Random Forest). Алгоритмы случайного леса: косоугольный, синтетический, изолированный и полностью рандомизированный. Определение важности признаков по алгоритмам, основанным на деревьях решений). Ансамблевые методы: бустинги. Экстремальный градиентный бустинг. Стохастический градиентный бустинг Задания в виде кейса
Модуль 1 Введение в курс
Задачи, требующие решения на основе машинного обучения. Постановка задач обучения по прецедентам. Объекты и признаки. Типы шкал: бинарные, номинальные, порядковые, количественные Задания в виде кейса 1 Установка R Studio, определение настрое
Модуль 2 Основные задачи и работа с данными
Работа с данными, преобразование данных из узких таблиц в широкую, фильтрация и объединение данных по определенному признаку. Процедуры подготовки данных для исследований. Упорядоченные и неупорядоченные данные. Транзакционные данные. Определение достаточного количества анализируемых объектов. Верификация. Трансформация. Оптимизация признакового пространства. Разделение выборок, кросс-валидация и метрики качества моделей. Селекция алгоритмов машинного обучения. ROC-анализ. Чувствительность и специфичность. Ложноположительные и ложноотрицательные исходы. Площадь под кривой (Area under curve). Особенности применения ROC-кривых в медицинских исследованиях. Сравнение ROC-кривых между собой. Валидациия и кросс-валидация при обучении алгоритмов машинного обучения/ Задания в виде кейса 2 Основные задачи и работа с данными
Модуль 3 Методы регрессии
Темы Решение задач регрессии, проверка адекватности модели. Метод наименьших квадратов. Проверка адекватности уравнения регресси. Предпосылки для эффективности несмещенности и состоятельности оценок. Борьба с мультиколлинеарностью, метод LASSO, гребневая регрессия, выбор параметра регуляризации. Задания в виде кейса 3 Построение регрессии, определение параметров регуляризации
Модуль 4 Методы классификации
Темы Модели множественного выбора с неупорядоченными, бинарными и упорядоченными альтернативами. Условные логит-модель. Вложенные (nested) логит-модели. Оценивание логит-моделей: метод максимального правдоподобия. Интерпретация моделей множественного выбора на основе маржинальных эффектов. Мультиномиальная логит-модель. Примеры моделей с упорядоченными альтернативами. Упорядоченные пробит-модели. Оценка качества для решения задач классификации Задания в виде кейса 4 Построение классификатора на основе моделей бинарной регрессии.
Модуль 5 Байесовский классификатор
Темы Модели наивного байесовского классификатора. Принцип максимума апостериорной вероятности. Теорема об оптимальности байесовского классификатора. Оценивание плотности распределения: три основных подхода. Непараметрическое оценивание плотности. Вид разделяющей поверхности. Подстановочный алгоритм, его недостатки и способы их устранения. Параметрический наивный байесовский классификатор. Применение НБК для работы с текстом. Задания в виде кейса
Модуль 6 Деревья решений, случайный лес и бустинги
Темы Алгоритмы дерева принятия решения. Решающее дерево. Жадная нисходящая стратегия «разделяй и властвуй». Алгоритм ID3. Недостатки жадной стратегии и способы их устранения. Проблема переобучения. Редукция решающих деревьев: предредукция и постредукция, прунинг. CARD-деревья. Алгоритмы случайного леса (Random Forest). Алгоритмы случайного леса: косоугольный, синтетический, изолированный и полностью рандомизированный. Определение важности признаков по алгоритмам, основанным на деревьях решений). Ансамблевые методы: бустинги. Экстремальный градиентный бустинг. Стохастический градиентный бустинг Задания в виде кейса
Модуль 7 Балансирование выборок
Технологии сэмплирования. оверсэмплинг, андерсэмплинг, ASMO, SMOTE Проблема неполных данных. Восстановление пропуском. Метод ресамплинга. Цензурирование. Метод исключения некомплектных объектов. Методы с заполнением. Методы взвешивания. Методы, основанные на моделировании. Задания в виде практического задания

Преподаватели

Лакман

Ирина Александровна

БашГУ
Авторизуйтесь чтобы записаться

Ответственный за программу

lackmania@mail.ru

+79279655655