III уровень Большие данные

Обработка и анализ больших данных

Университет ИТМО
72 часа длительность
Онлайн формат
Базовый уровень

Описание

Программа посвящена технологиям работы с большими объемами данных. В настоящее время ИКТ изменили всю нашу жизнь - и личную, и производственную сферы. В первую очередь, это связано с накоплением во всех областях деятельности человека огромных массивов данных, которые нужно уметь находить, извлекать, структурировать, сохранять в компактном виде, быстро находить необходимые элементы, агрегировать и анализировать. Анализ данных может помочь решить множество профессиональных задач, например, такие: каков ожидаемый спрос на тот или иной товар? Когда этот спрос был максимальным? Каковы тенденции в изменении цен на рынке? И т.д. Наука о данных занимается большим спектром вопросов. Этот курс дает базовые навыки в первичной обработке и хранении данных. Научит обрабатывать данные в электронных таблицах, применять правильные методы визуализации данных, и выявлять тренды во временных рядах, применять специальные программные средства для организации хранения и работы с большими объемами сложно структурированных данных - реляционные СУБД и NoSQL хранилища.  Курс не требует специальных начальных навыков, доступен тем, кто является пользователем ПК, имеет навык работы с операционной системой Windows, владеет пакетом офисных программ,  умеет искать информацию в сети Internet. Навыков программирования не требуется. Курс носит практикоориентированный характер. В качестве упражнений пользователи будут обрабатывать наборы данных при помощи инструментов: электронных таблиц, реляционных СУБД и NoSQL хранилищ. Для работы с курсом требуется компьютер с выходом в интернет - для выполнения упражнений не потребуется установка программных средств на свой компьютер, все рекомендуемые в курсе инструменты доступны удаленно. 

Цель программы
Курс посвящен технологиям работы с большими объемами данных. Вы получите навыки первичной обработки и разведочного анализа данных с помощью электронных таблиц (Excel/Google sheets). Вы освоите приемы организации хранения и работы  большими объемами данных - реляционные СУБД (Oracle/PostgreSQL) и NoSQL хранилища (MongoDB).

Требования

1. Требуется наличие у слушателей среднего профессионального и/или высшего образования

2. Требуется базовый уровень цифровой культуры: умение работать с офисными программами, с файловой системой, пользоваться сетью Internet

Иные требования и рекомендации для обучения по программе

1. Требуется наличие у слушателей среднего профессионального и/или высшего образования

2. Требуется базовый уровень цифровой культуры: умение работать с офисными программами, с файловой системой, пользоваться сетью Internet

Модули

свернуть
Модуль 1 Первичная обработка данных
1.1 Введение в науку о данных 1.2 Инструменты обработки данных 1.3 Визуализация данных 1.4 Анализ и преобразование данных 1.5 Работа с временными рядами Тема 1.1 Введение в науку о данных Рассматриваются виды и источники данных, принципы разделения и объединения данных, виды шкал, методы очистки данных и заполнения пропуска, контроля диапазонов. Тема 1.2 Инструменты обработки данных Рассматриваются инструменты первичной обработки данных, такие как электронные таблицы (Google-таблицы и Excel), освещаются вопросы сортировки и фильтрации данных, средства агрегации и анализа табличных данных (сводные таблицы) Тема 1.3 Визуализация данных Освещаются задачи и методы визуализации данных в различных инструментах (Google-таблицы и Excel), формы представления количественных и качественных данных. Рассматривается когнитивная визуализация данных. Тема 1.4 Анализ и преобразование данных Рассматриваются методы сглаживания и нормировки данных, вопросы преобразования данных. Подробно описываются виды описательных статистик и методы их рассчета. Тема 1.5 Работа с временными рядами Рассматриваются принципы работы с временными рядами и методы их анализа. Особое внимание уделяется методикам сглаживания временных рядов, определению трендов и сезонных компонент временных рядов.
Модуль 2 Хранение больших данных
Тема 2.1. Системы управления базами данных Рассматривается архитектура информационных систем и основные функции систем управления базами данных. Тема 2.2. Проектирование структурированных данных Рассматриваются основные понятия реляционной (табличной) модели данных, проектирование данных в реляционной модели, правила создания таблиц и определение ограничений целостности. Тема 2.3. SQL - запросы к данным и объекты базы данных Рассматриваются принципы построения запросов к данным на языке SQL, включая проекцию, сортировку, задание условий выборки, соединение нескольких таблиц, теоретико-множественные операции, вложенные запросы. Также в лекции рассматриваются объекты баз данных - представления, процедуры/функции, триггеры. Дается понятие индексов, которые позволяют повысить эффективность выполнения ряда запросов. Тема 2.4. NoSQL хранилища Рассматриваются основные понятия и характеристики NoSQL систем, различные виды и рейтинги NoSQL систем: ключ-значение, документные, колоночные и графовые. Принципы построения запросов к данным в NoSQL хранилищах. Тема 2.5. MongoDB - работа с документным хранилищем Рассматривается организация данных и построение запросов в MongoDB. Приводятся примеры построения запросов в демонстрационной базе MongoDB.
Модуль 1 Первичная обработка данных
1.1 Введение в науку о данных 1.2 Инструменты обработки данных 1.3 Визуализация данных 1.4 Анализ и преобразование данных 1.5 Работа с временными рядами Тема 1.1 Введение в науку о данных Рассматриваются виды и источники данных, принципы разделения и объединения данных, виды шкал, методы очистки данных и заполнения пропуска, контроля диапазонов. Тема 1.2 Инструменты обработки данных Рассматриваются инструменты первичной обработки данных, такие как электронные таблицы (Google-таблицы и Excel), освещаются вопросы сортировки и фильтрации данных, средства агрегации и анализа табличных данных (сводные таблицы) Тема 1.3 Визуализация данных Освещаются задачи и методы визуализации данных в различных инструментах (Google-таблицы и Excel), формы представления количественных и качественных данных. Рассматривается когнитивная визуализация данных. Тема 1.4 Анализ и преобразование данных Рассматриваются методы сглаживания и нормировки данных, вопросы преобразования данных. Подробно описываются виды описательных статистик и методы их рассчета. Тема 1.5 Работа с временными рядами Рассматриваются принципы работы с временными рядами и методы их анализа. Особое внимание уделяется методикам сглаживания временных рядов, определению трендов и сезонных компонент временных рядов.
Модуль 2 Хранение больших данных
Тема 2.1. Системы управления базами данных Рассматривается архитектура информационных систем и основные функции систем управления базами данных. Тема 2.2. Проектирование структурированных данных Рассматриваются основные понятия реляционной (табличной) модели данных, проектирование данных в реляционной модели, правила создания таблиц и определение ограничений целостности. Тема 2.3. SQL - запросы к данным и объекты базы данных Рассматриваются принципы построения запросов к данным на языке SQL, включая проекцию, сортировку, задание условий выборки, соединение нескольких таблиц, теоретико-множественные операции, вложенные запросы. Также в лекции рассматриваются объекты баз данных - представления, процедуры/функции, триггеры. Дается понятие индексов, которые позволяют повысить эффективность выполнения ряда запросов. Тема 2.4. NoSQL хранилища Рассматриваются основные понятия и характеристики NoSQL систем, различные виды и рейтинги NoSQL систем: ключ-значение, документные, колоночные и графовые. Принципы построения запросов к данным в NoSQL хранилищах. Тема 2.5. MongoDB - работа с документным хранилищем Рассматривается организация данных и построение запросов в MongoDB. Приводятся примеры построения запросов в демонстрационной базе MongoDB.

Преподаватели

Михайлова

Елена Георгиевна

Университет ИТМО

Романов

Алексей Андреевич

Университет ИТМО

Графеева

Наталья Генриховна

Университет ИТМО

Егорова

Ольга Борисовна

Университет ИТМО

Волчек

Дмитрий Геннадьевич

Университет ИТМО

Бойцев

Антон Александрович

Университет ИТМО
Авторизуйтесь чтобы записаться

Ответственный за программу

e.mikhailova@itmo.ru

+79219979791