Модуль 2
104,00ч

Машинное обучение и анализ данных

Модуль дает базовые навыки применения методов машинного обучения и искусственного интеллекта к интеллектуальному анализу данных. Вы узнаете, какие задачи решает машинное обучение, познакомитесь с методами решении задач обучения с учителем: регрессии и классификации, обучения без учителя: кластеризации, узнаете, что такое ансамбли моделей и обучение с подкреплением.
Часов в программе
20,00 часов
лекции
40,00 часов
практика
40,00 часов
самостоятельная
4,00 часа
промежуточная аттестация
104,00 часа
всего
Материально-технические условия реализации программы:
Вид занятий: Просмотр онлайн лекций
Требуемое ПО:
Web-браузер - любой из перечисленных:
Chrome, Safari, Internet Explorer
Для работы с текстовыми материалами Adobe Acrobat Reader DC
Вид занятий: Выполнение практических заданий
Требуемое ПО:
Операционная система:
Windows - 64-битная x86, 32-битная x86; MacOS - 64-битная x86; Linux - 64-битная x86, 64-битная Power8 / Power9
online.ifmo.ru - облачный сервис, предоставляющий возможность работы с хранилищами данных
https://online.ifmo.ru/pls/apex - Oracle Apex
https://online.ifmo.ru/mongo/ - MongoDb
https://online.ifmo.ru/cassandra/ - Apach Cassandra
https://online.ifmo.ru/pgadmin4/ - PostgreSQL
Альтернативное программное обеспечение доступно по ссылкам:
https://sandbox.neo4j.com - Neo4j
https://www.postgresql.org/download/windows/ - PostgreSQL
https://www.oracle.com/database/technologies/xe-downloads.html - Oracle Express
https://redis.io/download - Redis
https://www.mongodb.com/try/download - MongoDb
https://cassandra.apache.org/download/ - Cassandra
https://neo4j.com/download/ - Neo4j
https://colab.research.google.com — облачная среда для работы с кодом Python в браузере.
http://www.numpy.org — библиотека на языке программирования Python, добавляющая поддержку больших многомерных массивов и матриц.
https://pandas.pydata.org — библиотека на языке программирования Python для обработки и анализа данных.
https://matplotlib.org — библиотека на языке программирования Python для построения графиков.
https://scikit-learn.org — библиотека машинного обучения на языке программирования Python.
Вид занятий: Самостоятельная работа
Требуемое ПО:
Операционная система:
Windows - 64-битная x86, 32-битная x86; MacOS - 64-битная x86; Linux - 64-битная x86, 64-битная Power8 / Power9
online.ifmo.ru - облачный сервис, предоставляющий возможность работы с хранилищами данных
https://online.ifmo.ru/pls/apex - Oracle Apex
https://online.ifmo.ru/mongo/ - MongoDb
https://online.ifmo.ru/cassandra/ - Apach Cassandra
https://online.ifmo.ru/pgadmin4/ - PostgreSQL
Альтернативное программное обеспечение доступно по ссылкам:
https://sandbox.neo4j.com - Neo4j
https://www.postgresql.org/download/windows/ - PostgreSQL
https://www.oracle.com/database/technologies/xe-downloads.html - Oracle Express
https://redis.io/download - Redis
https://www.mongodb.com/try/download - MongoDb
https://cassandra.apache.org/download/ - Cassandra
https://neo4j.com/download/ - Neo4j
https://colab.research.google.com — облачная среда для работы с кодом Python в браузере.
http://www.numpy.org — библиотека на языке программирования Python, добавляющая поддержку больших многомерных массивов и матриц.
https://pandas.pydata.org — библиотека на языке программирования Python для обработки и анализа данных.
https://matplotlib.org — библиотека на языке программирования Python для построения графиков.
https://scikit-learn.org — библиотека машинного обучения на языке программирования Python.
Информационные ресуры
https://colab.research.google.com — облачная среда для работы с кодом Python в браузере.
http://www.numpy.org — библиотека на языке программирования Python, добавляющая поддержку больших многомерных массивов и матриц.
https://pandas.pydata.org — библиотека на языке программирования Python для обработки и анализа данных.
https://matplotlib.org — библиотека на языке программирования Python для построения графиков.
Образовательные ресуры
https://cloud.yandex.ru/services/datasphere - сервис для ML-разработки, предоставляющий все необходимые инструменты и динамически масштабируемые ресурсы для полного цикла разработки машинного обучения

Учебно-методические материалы

Методы, формы и технологии

Обучение происходит в смешанном формате. Модуль реализуется с помощью :
- онлайн лекций на платформе Открытое образование,
- установочных лекций через видеоконференции Zoom,
- практических заданий с автоматизированной системой проверки,
- мастер-классов и консультаций через видеоконференции Zoom,
- проверочной работы, выполняемой с системой прокторинга.
Послу установочной лекции слушатели изучают материалы онлайн курса, выполняют обучающие и проверочные задания. Регулярно устраиваются мастер-классы и консультации по материалам модуля.

Методические разработки

Обучающие материалы модуля представлены в виде видеолекций, текстовых материалов, обучающих инструкций, размещенных на платформе Открытое образование.

Материалы курса

видео-лекции
текстовые материалы лекций
инструкции для выполнения заданий
обучающие задания с автоматизированой системой проверки и подсказками
проверочные задания с автоматизированой системой проверки

Учебная литература

Литература:
1. Флах, П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных [Электронный ресурс] / П. Флах. — Электрон. дан. — Москва : ДМК Пресс, 2015. — 400 с. — Режим доступа: https://e.lanbook.com/book/69955. — Загл. с экрана.
2. Анализ данных : учебник для академического бакалавриата / В. С. Мхитарян [и др.] ; под ред. В. С. Мхитаряна. — М. : Издательство Юрайт, 2018. — 490 с. — (Серия : Бакалавр. Академический курс). — ISBN 978-5-534-00616-2. — Режим доступа : www.biblio-online.ru/book/CC38E97A-CCE5-4470-90F1-3B6D35ACC0B4.
3. Миркин, Б. Г. Введение в анализ данных : учебник и практикум / Б. Г. Миркин. — М. : Издательство Юрайт, 2018. — 174 с. — (Серия : Авторский учебник). — ISBN 978-5-9916-5009-0. — Режим доступа : www.biblio-online.ru/book/46A41F93-BC46-401C-A30E-27C0FB60B9DE.
Сетевые ресурсы:
1. http://www.machinelearning.ru/ - Профессиональный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных

Темы

Введение в машинное обучение. MS Azure Метод главных компонент, библиотеки Python Регрессия, библиотеки Python Задача классификации: k-NN и наивный байесовский классификатор, библиотеки в Python Задача классификации: логистическая регрессия, библиотеки в Python Задача классификации: метод опорных векторов, библиотеки в Python Задача классификации: деревья принятия решений, библиотеки в Python Кластеризация, библиотеки в Python Ансамблевые методы, библиотеки в Python Обучение с подкреплением, библиотеки в Python
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
4,00ч
Всего
10,00ч
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
4,00ч
Всего
10,00ч
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
4,00ч
Всего
10,00ч
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
4,00ч
Всего
10,00ч
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
4,00ч
Всего
10,00ч
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
4,00ч
Всего
10,00ч
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
4,00ч
Всего
10,00ч
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
4,00ч
Всего
10,00ч
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
4,00ч
Всего
10,00ч
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
4,00ч
Всего
10,00ч
Промежуточная аттестация 4,00 часа
Промежуточная аттестация включает в себя комплексное задание на применение методов машинного обучения

Пример задач промежуточной аттестации по модулю:
1) В Базе Данных (инструкция по доступу) есть таблица , в которой содержатся сведения о звездах, полученные в ходе исследовании вселенной (High Time Resolution Universe Survey) с целью определения одного из типа нейтронных звезд — пульсаров. Поле таблицы является откликом, все остальные поля — предикторы.

Данные также доступны в формате CSV.

Вам необходимо получить выборку из таблицы с помощью запросов на основании следующих критериев:

Все строки таблицы, где TARGET = 0 и MIP in [94.66, 95.29];

1) Укажите число строк в полученной выборке

2) Определите выборочное среднее для столбца MIP

3) Выполните линейную нормировку всех значений предикторов полученной выборки. Определите выборочное среднее для столбца MIP после нормировки

Полная версия заданий доступна по ссылке: https://courses.openedu.ru/courses/course-v1:ITMOUniversity+DATANTECH2035+cifru_2035/courseware/d9a8d9f57596407c8e2e8c04518b5d14/8d6e557be12641ebbf1f910cdbd29a13/2?activate_block_id=block-v1%3AITMOUniversity%2BDATANTECH2035%2Bcifru_2035%2Btype%40vertical%2Bblock%405f546233a926458c8aead14b4810cbda

Внимание! Для доступа к материалам курса нужна регистрация слушателей. Для проверки курса мы создали тестовую учетную запись на платформе Открытое образование:
https://courses.openedu.ru/courses/course-v1:ITMOUniversity+DATANTECH2035+cifru_2035/course/
Login dc@itmo.ru
Password 43cdf_dc