Модуль 3
78,00ч

Профильный модуль: Data Science. Обработка, анализ и визуализация данных на языке Python. Библиотеки pandas, numpy, matplotlib и seaborn

Модуль является профильным и посвящен непосредственно работе с большими данными (Data Science) путем обработки, анализа и визуализации данных на языке Python. В нем будут изучены методы и инструменты первичной обработки данных (сбор, очистка, подготовка, объединение, переформатирование и т.д.), статистики и анализа (постановка гипотезы, фильтрация, группировка, агрегация данных, получение различных видов итогов, разведывательный анализ и т.д.). Освоение работы с библиотеками pandas, numpy, matplotlib и seaborn позволит специалистам собирать, анализировать и визуализировать данные, выдвигать гипотезы и делать выводы на основе данных. Слушатели смогут написать эффективный код на Python, превратить сырые данные в полезную информацию для компании, научатся понимать математику на основе статистики, прогнозировать и визуализировать результаты.
Часов в программе
25,00 часов
лекции
52,00 часа
практика
1,00 час
промежуточная аттестация
78,00 часов
всего
Материально-технические условия реализации программы:
Вид занятий: лекции, практическая, самостоятельная работа
Требуемое ПО:
Интерпретатор языка Python (рекомендуемая версия 3.8.10
обязательная версия Python 3.8), Командная строка или терминал, Текстовый редактор Notepad++, Интегрированная среда разработки, которая включает в себя: редактор программного кода с подсветкой синтаксиса, отладчик языка Python, инспектор переменных программного кода.
Информационные ресуры
1. Открытые источники: www.python.org, https://pythonworld.ru/
2. Информационный раздел для оказания информационно-методической поддержки слушателям курса, где представлены расписание занятий, методические рекомендации по организации обучения, объявления и др. Ссылка: https://do.academyit.ru/course/view.php?id=762#section-1
3. Консультационная и информационная поддержка слушателей на протяжении всего периода обучения осуществляется на форуме
Ссылка на форум: https://do.academyit.ru/mod/forum/view.php?id=43670
Образовательные ресуры
Электронное учебно-методическое пособие Модуль 3. Профильный модуль: Data Science. Обработка, анализ и визуализация данных на языке Python. Библиотеки pandas, numpy, matplotlib и seaborn. Ссылка: https://do.academyit.ru/course/view.php?id=762#section-5

Учебно-методические материалы

Методы, формы и технологии

Лекции, практические задания, самостоятельная работа

Методические разработки

Практические кейсы

Материалы курса

Презентации по темам:
Установка и настройка программного обеспечения. Базовый инструментарий Data Science в Jupyter notebook. Импорт пакета. Важнейшие стандартные пакеты. Подсистема pip. Установка стороннего модуля. Обзор библиотек и инструментов. Необходимые пакеты Python: numpy, pandas, matplotlib, seaborn, Jupyter и другие. Дистрибутив Anaconda, его преимущества и недостатки. Установка пакетов в Linux. Установка пакетов в Windows. Основные команды и методы работы в Jupyter notebook.
Библиотека numpy. Типы данных библиотеки numpy. Векторы и массивы, специальные типы данных. Понятие массива и его основные характеристики. Принципы вычислений. Универсальные функции. Важнейшие стандартные функции. Работа с массивами и матрицами.
Библиотека pandas и анализ данных. Объект Series. Объект DataFrame. Загрузка данных. Выгрузка данных. Чтение и запись данных в формате Excel. Чтение и запись JSON-файлов. Загрузка данных из интернета и из базы данных SQL. Загрузка CSV-файлов из Интернета. Основы работы с датафреймами. Организация колонок и строчек. Создание срезов объекта Series. Выравнивание данных по меткам индекса. Выполнение логического отбора. Переиндексация объекта Series.
Первичная обработка данных. Сбор данных. Очистка данных. Подготовка данных. Объединение данных. Сцепление и наложение. Слияние данных. Замена значений. Работа с пропущенными значениями и их заполнение. Повторы в данных. Объединение и переформирование данных.
Статистика и анализ. Фильтрация. Группировка. Агрегация. Описательные статистики. Получение итоговых описательных статистик. Измерение центральной тенденции: среднее, медиана и мода. Вычисление дисперсии и стандартного отклонения. Вычисление ковариации и корреляции. Распределения. Разведывательный анализ. Постановка гипотезы.
Библиотека matplotlib. Визуализация данных. Оформление и кастомизация графиков. Библиотека seaborn. Наглядная визуализация сложных данных. Виды графиков, их корректное использование и интерпретация. Принципы хорошей визуализации, основные ошибки при визуализации данных.

Учебная литература

Уэс Маккини, Python и анализ данных. Первичная обработка данных с применением pandas, NumPy и Ipython, перевод с английского А. А. Слинкина. — 2-ое изд., испр. и доп. — М.: ДМК Пресс, 2020. — 540 с.
Хахаев И. А. Практикум по алгоритмизации и программированию на Python. – М.: Национальный открытый университет «ИНТУИТ», 2016.
Python: Искусственный интеллект, большие данные и облачные вычисления/ Дейтел П., Дейтел Х. – СПб.: Питер, 2020.
Блягоз, З. У. Теория вероятностей и математическая статистика. Курс лекций : учебное пособие / З. У. Блягоз. - СПб.: Лань, 2018. - 224 с.
Статьи по Big Data - https://www.osp.ru/theme/big-data

Темы

Тема 3.1. Установка и настройка программного обеспечения. Базовый инструментарий Data Science в Jupyter notebook. Импорт пакета. Важнейшие стандартные пакеты. Подсистема pip. Установка стороннего модуля. Обзор библиотек и инструментов. Необходимые пакеты Тема 3.2. Библиотека numpy. Типы данных библиотеки numpy. Векторы и массивы, специальные типы данных. Понятие массива и его основные характеристики. Принципы вычислений. Универсальные функции. Важнейшие стандартные функции. Работа с массивами и матрицами. Тема 3.3. Библиотека pandas и анализ данных. Объект Series. Объект DataFrame. Загрузка данных. Выгрузка данных. Чтение и запись данных в формате Excel. Чтение и запись JSON-файлов. Загрузка данных из интернета и из базы данных SQL. Загрузка CSV-файлов из Тема 3.4. Первичная обработка данных. Сбор данных. Очистка данных. Подготовка данных. Объединение данных. Сцепление и наложение. Слияние данных. Замена значений. Работа с пропущенными значениями и их заполнение. Повторы в данных. Объединение и переформиро Тема 3.5. Статистика и анализ. Фильтрация. Группировка. Агрегация. Описательные статистики. Получение итоговых описательных статистик. Измерение центральной тенденции: среднее, медиана и мода. Вычисление дисперсии и стандартного отклонения. Вычисление ков Тема 3.6. Библиотека matplotlib. Визуализация данных. Оформление и кастомизация графиков. Библиотека seaborn. Наглядная визуализация сложных данных. Виды графиков, их корректное использование и интерпретация. Принципы хорошей визуализации, основные ошибки
Лекции
4,00ч
Практические занятия
8,00ч
Всего
12,00ч
Лекции
4,00ч
Практические занятия
8,00ч
Всего
12,00ч
Лекции
4,00ч
Практические занятия
8,00ч
Всего
12,00ч
Лекции
5,00ч
Практические занятия
12,00ч
Всего
17,00ч
Лекции
4,00ч
Практические занятия
8,00ч
Всего
12,00ч
Лекции
4,00ч
Практические занятия
8,00ч
Всего
12,00ч
Промежуточная аттестация 1,00 час
Выполнение практического задания.