Модуль 2
179,00ч

Работа с данными

Модуль предполагает интенсивное обучение и познакомит слушателя с основным инструментом обработки больших данных, специальными базами данных для хранения и обработки потоковых данных, узнать как применять ее для обработки потоковых данных. Изучение основных облачных провайдеров для работы с данными позволит позволит создать облачную базу данных и запустить свой первый Pipeline в облаке. Слушатель сможет узнать как работать с data lakes в облаках, научиться использовать spark для обработки данных в них.
Часов в программе
43,00 часа
лекции
126,00 часов
практика
10,00 часов
промежуточная аттестация
179,00 часов
всего
Материально-технические условия реализации программы:
Вид занятий: Видеолекции
Требуемое ПО:
MS Office, Google Docs
Информационные ресуры
Компетенции и инструменты аналитика. Роль аналитики в принятии решений
https://docs.google.com/spreadsheets/d/1_Fre_SjKhqqGquZMOe6AM3hIK3mKB_h16IJDP_FBrFk
Ошибки и провалы при интерпретации аналитических показателей
https://ru.wikipedia.org/wiki/Нулевая_гипотеза
Разбор кейсов реальных бизнесов. поиск инсайдов в данных
https://vwo.com/tools/ab-test-siginficance-calculator/
https://vwo.com/downloads/ab_testing_significance_calculator.xls
https://docs.google.com/spreadsheets/d/1U-dwmNhdmuFqmFiJqk8OUZN1OOHA8QeoXS2YlnwZgIQ/edit#gid=702666562
Образовательные ресуры
Ресурсы LMS ООО «Нетология»

Учебно-методические материалы

Методы, формы и технологии

Видеолекции
Лонгриды
Скринкасты
Презентации

Методические разработки

Шаблоны
Чек-листы
Глоссарий

Материалы курса

Видеолекции по Модулям

Учебная литература

Wong D.M. The Wall Street journal guide to information graphics: the dos and don’ts of presenting data, facts, and figures / D.M. Wong, New York: Norton, 2013. 1

Темы

Data Lake и Hadoop Продвинутые методы работы с данными Работа с потоковыми данными Работа с данными в облаке Введение в Data Science и Machine Learning. Методологии DevOps и MLOps
Лекции
4,00ч
Практические занятия
10,00ч
Всего
14,00ч
Лекции
5,00ч
Практические занятия
15,00ч
Всего
20,00ч
Лекции
5,00ч
Практические занятия
13,00ч
Всего
18,00ч
Лекции
5,00ч
Практические занятия
18,00ч
Всего
23,00ч
Лекции
24,00ч
Практические занятия
70,00ч
Всего
94,00ч
Промежуточная аттестация 10,00 часов
Промежуточная аттестация по модулю предполагает выполнение слушателем индивидуального практического задания.

Предлагаем закрепить последний блок занятий практическими навыками. Работать будем в облаке Google Cloud Platform.

1. Прежде всего нужно иметь активный аккаунт в GCP. У кого еще нет аккаунта с квотой $300 - инструкция по ссылке:
[https://docs.google.com/document/d/1izDUUttbskI0R2GbGWYPptusI-p\_8A1PCBDiOZB-zZg/edit?usp=sharing](https://docs.google.com/document/d/1izDUUttbskI0R2GbGWYPptusI-p_8A1PCBDiOZB-zZg/edit?usp=sharing)
2. План лабораторной работы:
[https://docs.google.com/document/d/1nOfAAPg4QlxqQT8BmDKKGJlUsoTSOtZtzJcTfz1levY/edit?usp=sharing](https://docs.google.com/document/d/1nOfAAPg4QlxqQT8BmDKKGJlUsoTSOtZtzJcTfz1levY/edit?usp=sharing)
Что внутри:
- конфигурируем окружение
- создаем Dataproc (Spark-кластер)
- загружаем датасет (Credit Card Default)
- копируем и анализируем данные в BigQuery
- выгружаем в GCS в формате .parquet при помощи Dataflow, используя шаблон
- загружаем данные при помощи Spark
- работаем с данными через Spark SQL в Jupyter
Бонус:
- работа с данными через Pandas и визуализация
В документе более подробное описание задания и комментарии по выполнению.
3. Вопросы для самопроверки:
- Вывести количество верно спрогнозированных просрочек
- Вывести медиану кредитного лимита в зависимости от возраста клиента
Ответы на эти вопросы (в виде выгрузки или скриншотов) нужно вложить в тред.
Для ответа на эти вопросы потребуется сформировать SQL-запрос(ы) и выполнить его в BigQuery и в Jupyter (Spark SQL), соответственно

Для зачета необходимо набрать минимум 50 баллов.