Большие данные Визуализировать данные MongoDB PostgreSQL Python NoSQL Обрабатывать данные Писать программный код Анализировать данные Решать задачи машинного обучения Собирать данные Передавать данные Machine learning Хранить данные

Технологии анализа данных

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»
270 часов длительность
Онлайн формат
Базовый уровень
1 поток (закрыт) 15.09-15.11.2021
2 поток (закрыт) 15.10-15.12.2021
3 поток (закрыт) 16.11.2021-15.02.2022

Описание

Программа посвящена технологиям работы с большими объемами данных. Слушатели изучат алгоритмы и структуры данных на Python, узнают, какие есть билиотеки для работы с данными и как использовать их потенциал. Мы научим работать с данными различной структуры - начиная с разведочного анализа данных, визуализации и описательных статистик до хранения данных большого объема. Вы изучите алгоритмы машинного обучения, узнаете о том, для решения каких прикладных задач они  подходят и как настраивать параметры методов.

Первая часть курса дает базовые навыки в первичной обработке и хранении данных. Вы научитесь навыкам программирования на Python, обрабатывать данные в электронных таблицах, применять правильные методы визуализации данных и выявлять тренды во временных рядах, применять специальные программные средства для организации хранения и работы с большими объемами сложно структурированных данных. В курсе будут рассмотрены примеры промышленных реляционных СУБД и NoSQL хранилищ.

Вторая часть курса дает базовые навыки применения методов машинного обучения и искусственного интеллекта к интеллектуальному анализу данных. Вы узнаете, какие задачи решает машинное обучение, познакомитесь с методами решении задач обучения с учителем: регрессии и классификации, обучения без учителя: кластеризации, узнаете, что такое ансамбли моделей и обучение с подкреплением.

Курс не требует специальных начальных навыков, доступен тем, кто является пользователем ПК, имеет навык работы с операционной системой Windows, владеет пакетом офисных программ, умеет искать информацию в сети Internet. Навыки программирования желательны, но необязательны. Курс носит практикоориентированный характер. В качестве упражнений пользователи будут обрабатывать наборы данных при помощи инструментов: электронных таблиц, реляционных СУБД и NoSQL хранилищ, библиотек языка программирования Python, а также облачного инструмента Azure ML Studio. Для работы с курсом требуется компьютер с выходом в интернет. Для выполнения упражнений не потребуется установка программных средств на свой компьютер, все рекомендуемые в курсе инструменты доступны удаленно. 

Часов в программе
54 часа
лекции
108 часов
практика
108 часов
самостоятельная
8 часов
промежуточная аттестация
1 час
входная диагностика
8 часов
итоговая аттестация
287 часов
всего
Цель программы
Формирование умений и навыков решать аналитические задачи в области больших данных с помощью принятых в этой области инструментов - языка Python с его библиотеками и SQL. Умение организовывать эффективное хранение больших данных и применять к ним методы машинного обучения.
Актуальность
Каждую секунду мы создаем данные. Мы общаемся в мессенджерах, оплачиваем покупки, фотографируем, пользуемся навигаторами. Вся генерируемая в процессе информация накапливается, сохраняется и используется. Банки мониторят ваши переводы, чтобы вовремя распознать мошенников. Рекомендательные системы отслеживают ваши запросы, чтобы предложить вам товар или услугу. Вся эта информация полезна, если ее удается расшифровать, обработать и интерпретировать. Этим занимается аналитика данных - одно из самых перспективных направлений.
Любая современная компания, от кофейни на углу до крупной производственной организации, имеет задачи, связанные с данными. Работая с ними, аналитик не просто собирает информацию.
Он визуализирует данные, ищет в них закономерности, выявляет проблемные места, выдвигает гипотезы и предлагает оптимальные решения для улучшения бизнес-процессов.
Аналитик данных — ключевой игрок цифровой экономики.
Входная диагностика 1 час
Тест на базовые навыки работы с офисным пакетом программ.

Задания входной диагностики доступны по ссылке: https://docs.google.com/forms/d/1YFqjO2nb69QUN5ja_e26NZqAMhGbt0rGrm4vmSUVGCE/edit
Итоговая аттестация 8 часов
Итоговая аттестация производится на базе двух контрольных работ (по одной в конце каждого модуля), содержащих комплексное задание на применение изученных алгоритмов для решения прикладной задачи (описаны в аттестации к модулям).

Компетенции

Общекультурные


Владает культурой работы с данными
Знать:

терминология в области данных, источники данных, критерии проверки и улучшения качества данных, области применения анализа данных, описательные статистики

Уметь:

умение находить необходимые данные, работать с различными форматами, преобразование данных

Владеть:

владение электронными таблицами, в том числе регулярными выражениями и сводными таблицами, владеет методами визуализации данных

Общепрофессиональные


Владеет навыками программирование на языке Python
Знать:

знание синтаксиса языка Python, конструкций для реализации алгоритмов

Уметь:

умение создавать программный код на языке Python, ипользование библиотек

Владеть:

использование Jupyter Notebooks и библиотек для реализации алгоритмов на языке Python

Профессиональные


Владеет навыками работы с реляционными СУБД
Знать:

проектирование данных в реляционной среде, знание принципов построения структур хранения данных и правил целостности, понимание дополнительных структур для оптимизации работы с данными, знание языка SQL и его процедурных расширений

Уметь:

создание объектов базы данных: таблиц, индексов, процедур и функций с помощью языка SQL и его процедурных расширений, формирование запросов к данным

Владеть:

Проектирование и создание объектов базы данных в среде Oracle Apex, PostgreSQL

Владеет навыками работы с NoSQL хранилищами
Знать:

проектирование данных в терминах NoSQL хранилищ, знание принципов построения структур хранения данных и правил целостности, понимание дополнительных структур для оптимизации работы с данными, знание языка манипулирования данными в хранилище

Уметь:

создание объектов хранилища, формирование запросов к данным

Владеть:

Проектирование, создание объектов базы данных и построение запросов в средах Redis, MongoDb, Cassandra, Neo4j.

Владеет методами машинного обучения для интеллектуального анализа данных
Знать:

Знает основных задачи машинного обучения и методы их решения

Уметь:

Умеет применять подходящие инструменты для решения задач машинного обучения

Владеть:

Владеет концепцией алгоритмов решения задач машинного обучения

Требования

Нет
Образование
  • Высшее образование
  • Среднее профессиональное образование

Модули

свернуть
174ч
Модуль 1 Алгоритмы и структуры данных на Python и SQL
Модуль знакомит с алгоритмами и структурами данных на языке Python, с проектированием реляционных данных и построением запросом на языке SQL. Будут изучена среда разработки Jupyter Notebook на Python с применением библиотек NumPy и pandas. Рассматриваются алгоритмы разведочного анализа данных, работа с временными рядами. Изучаются среды проектирования и организации хранения и работы с большими объемами сложно структурированных данных. В модуле будут рассмотрены примеры промышленных реляционных СУБД и NoSQL хранилищ.
104ч
Модуль 2 Машинное обучение и анализ данных
Модуль дает базовые навыки применения методов машинного обучения и искусственного интеллекта к интеллектуальному анализу данных. Вы узнаете, какие задачи решает машинное обучение, познакомитесь с методами решении задач обучения с учителем: регрессии и классификации, обучения без учителя: кластеризации, узнаете, что такое ансамбли моделей и обучение с подкреплением.
174ч
Модуль 1 Алгоритмы и структуры данных на Python и SQL
Модуль знакомит с алгоритмами и структурами данных на языке Python, с проектированием реляционных данных и построением запросом на языке SQL. Будут изучена среда разработки Jupyter Notebook на Python с применением библиотек NumPy и pandas. Рассматриваются алгоритмы разведочного анализа данных, работа с временными рядами. Изучаются среды проектирования и организации хранения и работы с большими объемами сложно структурированных данных. В модуле будут рассмотрены примеры промышленных реляционных СУБД и NoSQL хранилищ.
104ч
Модуль 2 Машинное обучение и анализ данных
Модуль дает базовые навыки применения методов машинного обучения и искусственного интеллекта к интеллектуальному анализу данных. Вы узнаете, какие задачи решает машинное обучение, познакомитесь с методами решении задач обучения с учителем: регрессии и классификации, обучения без учителя: кластеризации, узнаете, что такое ансамбли моделей и обучение с подкреплением.

Преподаватели

Бойцев

Антон Александрович

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

ординарный доцент

к.ф.-м.н.

https://itmo.ru/ru/viewperson/1546/boycev_anton_aleksandrovich.htm

Волчек

Дмитрий Геннадьевич

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

доцент Высшей школы цифровой

к.т.н.

https://itmo.ru/ru/viewperson/1547/volchek_dmitriy_gennadevich.htm

Графеева

Наталья Генриховна

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

доцент Высшей школы цифровой культуры

к.ф.-м.н.

доцент

https://itmo.ru/ru/viewperson/1548/grafeeva_natalya_genrihovna.htm

Егорова

Ольга Борисовна

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

преподаватель Высшей школы цифровой культуры университета ИТМО

к.фил.н.

https://itmo.ru/ru/viewperson/1545/egorova_olga_borisovna.htm

Михайлова

Елена Георгиевна

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

директор Высшей школы цифровой культуры университета ИТМО

к.ф.-м.н.

доцент

https://itmo.ru/ru/viewperson/1399/mihaylova_elena_georgievna.htm

Романов

Алексей Андреевич

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

доцент Высшей школы цифровой культуры университета ИТМО

к.т.н.

https://itmo.ru/ru/viewperson/1544/romanov_aleksey_andreevich.htm
75 000 p

Указана полная стоимость. Вы сможете получить скидку на этот курс от 50% до 100% по проекту «Цифровые профессии» в зависимости от льготной категории.

Авторизуйтесь чтобы записаться

Профстандарт

ФЕДЕРАЛЬНЫЙ ГОСУДАРСТВЕННЫЙ ОБРАЗОВАТЕЛЬНЫЙ СТАНДАРТ ВЫСШЕГО ОБРАЗОВАНИЯ - МАГИСТРАТУРА ПО НАПРАВЛЕНИЮ ПОДГОТОВКИ 02.04.03 МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ И АДМИНИСТРИРОВАНИЕ ИНФОРМАЦИОННЫХ СИСТЕМ

06.042

Ответственный за программу

e.mikhailova@itmo.ru

+79219979791