Модуль 5
86,00ч

Методы машинного обучения

Дисциплина знакомит слушателей с задачами машинного обучения, решение которых востребовано в настоящее время. Подробно рассматривается задача регрессии и подходы к ее решению, задача классификации и некоторые метрические и статистические алгоритмы классификации: логистическая регрессия, метод k-ближайших соседей, байесовский классификатор, а также задача кластеризации с алгоритмами: k-средних и иерархическая (или агломеративная) кластеризация. Рассматриваются и более продвинутые подходы: снижение размерности и ансамблевые методы.
Часов в программе
12,00 часов
лекции
12,00 часов
практика
58,00 часов
самостоятельная
4,00 часа
промежуточная аттестация
86,00 часов
всего
Материально-технические условия реализации программы:
Вид занятий: Просмотр онлайн лекций
Требуемое ПО:
Web-браузер - любой из перечисленных:
Chrome, Safari, Internet Explorer
Для работы с текстовыми материалами Adobe Acrobat Reader DC
Вид занятий: Участие в вебинаре
Требуемое ПО:
Операционная система:
Windows - 64-битная x86, 32-битная x86; MacOS - 64-битная x86; Linux - 64-битная x86, 64-битная Power8 / Power9
online.ifmo.ru - облачный сервис, предоставляющий возможность работы с хранилищами данных
https://online.ifmo.ru/pls/apex - Oracle Apex
https://online.ifmo.ru/mongo/ - MongoDb
https://online.ifmo.ru/cassandra/ - Apach Cassandra
https://online.ifmo.ru/pgadmin4/ - PostgreSQL
Альтернативное программное обеспечение доступно по ссылкам:
https://sandbox.neo4j.com - Neo4j
https://www.postgresql.org/download/windows/ - PostgreSQL
https://www.oracle.com/database/technologies/xe-downloads.html - Oracle Express
https://redis.io/download - Redis
https://www.mongodb.com/try/download - MongoDb
https://cassandra.apache.org/download/ - Cassandra
https://neo4j.com/download/ - Neo4j
https://colab.research.google.com — облачная среда для работы с кодом Python в браузере.
http://www.numpy.org — библиотека на языке программирования Python, добавляющая поддержку больших многомерных массивов и матриц.
https://pandas.pydata.org — библиотека на языке программирования Python для обработки и анализа данных.
https://matplotlib.org — библиотека на языке программирования Python для построения графиков.
https://scikit-learn.org — библиотека машинного обучения на языке программирования Python.
Вид занятий: Выполнение практических заданий
Требуемое ПО:
Операционная система:
Windows - 64-битная x86, 32-битная x86; MacOS - 64-битная x86; Linux - 64-битная x86, 64-битная Power8 / Power9
online.ifmo.ru - облачный сервис, предоставляющий возможность работы с хранилищами данных
https://online.ifmo.ru/pls/apex - Oracle Apex
https://online.ifmo.ru/mongo/ - MongoDb
https://online.ifmo.ru/cassandra/ - Apach Cassandra
https://online.ifmo.ru/pgadmin4/ - PostgreSQL
Альтернативное программное обеспечение доступно по ссылкам:
https://sandbox.neo4j.com - Neo4j
https://www.postgresql.org/download/windows/ - PostgreSQL
https://www.oracle.com/database/technologies/xe-downloads.html - Oracle Express
https://redis.io/download - Redis
https://www.mongodb.com/try/download - MongoDb
https://cassandra.apache.org/download/ - Cassandra
https://neo4j.com/download/ - Neo4j
https://colab.research.google.com — облачная среда для работы с кодом Python в браузере.
http://www.numpy.org — библиотека на языке программирования Python, добавляющая поддержку больших многомерных массивов и матриц.
https://pandas.pydata.org — библиотека на языке программирования Python для обработки и анализа данных.
https://matplotlib.org — библиотека на языке программирования Python для построения графиков.
https://scikit-learn.org — библиотека машинного обучения на языке программирования Python.
Вид занятий: Самостоятельная работа
Требуемое ПО:
Операционная система:
Windows - 64-битная x86, 32-битная x86; MacOS - 64-битная x86; Linux - 64-битная x86, 64-битная Power8 / Power9
online.ifmo.ru - облачный сервис, предоставляющий возможность работы с хранилищами данных
https://online.ifmo.ru/pls/apex - Oracle Apex
https://online.ifmo.ru/mongo/ - MongoDb
https://online.ifmo.ru/cassandra/ - Apach Cassandra
https://online.ifmo.ru/pgadmin4/ - PostgreSQL
Альтернативное программное обеспечение доступно по ссылкам:
https://sandbox.neo4j.com - Neo4j
https://www.postgresql.org/download/windows/ - PostgreSQL
https://www.oracle.com/database/technologies/xe-downloads.html - Oracle Express
https://redis.io/download - Redis
https://www.mongodb.com/try/download - MongoDb
https://cassandra.apache.org/download/ - Cassandra
https://neo4j.com/download/ - Neo4j
https://colab.research.google.com — облачная среда для работы с кодом Python в браузере.
http://www.numpy.org — библиотека на языке программирования Python, добавляющая поддержку больших многомерных массивов и матриц.
https://pandas.pydata.org — библиотека на языке программирования Python для обработки и анализа данных.
https://matplotlib.org — библиотека на языке программирования Python для построения графиков.
https://scikit-learn.org — библиотека машинного обучения на языке программирования Python.
Информационные ресуры
https://colab.research.google.com — облачная среда для работы с кодом Python в браузере.
http://www.numpy.org — библиотека на языке программирования Python, добавляющая поддержку больших многомерных массивов и матриц.
https://pandas.pydata.org — библиотека на языке программирования Python для обработки и анализа данных.
https://matplotlib.org — библиотека на языке программирования Python для построения графиков.
Образовательные ресуры
http://www.machinelearning.ru/ — Профессиональный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных.

https://cloud.yandex.ru/services/datasphere - сервис для ML-разработки, предоставляющий все необходимые инструменты и динамически масштабируемые ресурсы для полного цикла разработки машинного обучения

Учебник по машинному обучению от Яндекса
https://academy.yandex.ru/handbook/ml

Учебно-методические материалы

Методы, формы и технологии

Обучение происходит в смешанном формате. Модуль реализуется с помощью :
- онлайн лекций на платформе https://dc-edu.itmo.ru/,
- установочных лекций через видеоконференции Zoom,
- практических заданий с автоматизированной системой проверки,
- мастер-классов и консультаций через видеоконференции Zoom,
- проверочной работы, выполняемой с системой прокторинга.
Послу установочной лекции слушатели изучают материалы онлайн курса, выполняют обучающие и проверочные задания. Регулярно устраиваются мастер-классы и консультации по материалам модуля.

Методические разработки

Обучающие материалы модуля представлены в виде видеолекций, текстовых материалов, обучающих инструкций, размещенных на платформе https://dc-edu.itmo.ru/

Материалы курса

видео-лекции
текстовые материалы лекций
инструкции для выполнения заданий
обучающие задания с автоматизированой системой проверки и подсказками
проверочные задания с автоматизированой системой проверки

Учебная литература

1. Флах, П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных [Электронный ресурс] / П. Флах. — Электрон. дан. — Москва : ДМК Пресс, 2015. — 400 с. — Режим доступа: https://e.lanbook.com/book/69955. — Загл. с экрана.
2. Анализ данных : учебник для академического бакалавриата / В. С. Мхитарян [и др.] ; под ред. В. С. Мхитаряна. — М. : Издательство Юрайт, 2018. — 490 с. — (Серия : Бакалавр. Академический курс). — ISBN 978-5-534-00616-2. — Режим доступа : www.biblio-online.ru/book/CC38E97A-CCE5-4470-90F1-3B6D35ACC0B4.
3. Миркин, Б. Г. Введение в анализ данных : учебник и практикум / Б. Г. Миркин. — М. : Издательство Юрайт, 2018. — 174 с. — (Серия : Авторский учебник). — ISBN 978-5-9916-5009-0. — Режим доступа : www.biblio-online.ru/book/46A41F93-BC46-401C-A30E-27C0FB60B9DE.
Сетевые ресурсы:
1. http://www.machinelearning.ru/ - Профессиональный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных

Темы

Обзор направлений и методов машинного обучения, основные тренды в ИИ, библиотеки для Data Science. Инструменты машинного обучения Задача регрессии Задача классификации: k-NN и наивный байесовский классификатор, логистическая регрессия, SVM, ДПР Задача кластеризации: K-means, DBSCAN, иерархическая кластеризация Снижение размерности, ансамбли, обучение с подкреплением
Лекции
2,00ч
Практические занятия
2,00ч
Самостоятельная работа
1,00ч
Всего
5,00ч
Лекции
2,00ч
Практические занятия
2,00ч
Самостоятельная работа
1,00ч
Всего
5,00ч
Лекции
2,00ч
Практические занятия
2,00ч
Самостоятельная работа
52,00ч
Всего
56,00ч
Лекции
3,00ч
Практические занятия
3,00ч
Самостоятельная работа
2,00ч
Всего
8,00ч
Лекции
3,00ч
Практические занятия
3,00ч
Самостоятельная работа
2,00ч
Всего
8,00ч
Промежуточная аттестация 4,00 часа
Промежуточная аттестация включает в себя комплексное задание на применение методов машинного обучения

Пример задач промежуточной аттестации по модулю:
1) В Базе Данных (инструкция по доступу) есть таблица , в которой содержатся сведения о звездах, полученные в ходе исследовании вселенной (High Time Resolution Universe Survey) с целью определения одного из типа нейтронных звезд — пульсаров. Поле таблицы является откликом, все остальные поля — предикторы.

Данные также доступны в формате CSV.

Вам необходимо получить выборку из таблицы с помощью запросов на основании следующих критериев:

Все строки таблицы, где TARGET = 0 и MIP in [94.66, 95.29];

1) Укажите число строк в полученной выборке

2) Определите выборочное среднее для столбца MIP

3) Выполните линейную нормировку всех значений предикторов полученной выборки. Определите выборочное среднее для столбца MIP после нормировки