Модуль 1
110,00ч

МОДУЛЬ 1. БАЗОВЫЙ

Модуль предполагает введение в основы инженерии больших данных, содержание профессии «Инженер данных». Отдельные темы посвящены коллективной работе в Git, работе в Docker, изучению языка программирования Python, обзору других языков программирования (JAVA, C#), использованию библиотек Python для вычислений, обработки данных и их визуализации. Введение в базы данных и теорию хранения данных, изучение реляционных баз данных, баз данных NoSQL, массово-параллельной обработки и анализа данных, облачных хранилищ данных, Data Lake, колоночных СУБД и Clickhouse, BI-систем и визуализации данных
Часов в программе
29,00 часов
лекции
54,00 часа
практика
23,00 часа
самостоятельная
4,00 часа
промежуточная аттестация
110,00 часов
всего
Материально-технические условия реализации программы:
Вид занятий: Лекционные занятия
Требуемое ПО:
Веб-браузеры Google Chrome, Mozila Firefox, Opera, Microsoft Edge, Яндекс.Браузер и др.
Вид занятий: Практические занятия, самостоятельная работа
Требуемое ПО:
Веб-браузеры Google Chrome, Mozila Firefox, Opera, Microsoft Edge, Яндекс.Браузер и др.
Anaconda 2.7 или 3.5
Доступ к облачным вычислительным ресурсам.
Информационные ресуры
1. https://ai.2035.university/ - сайт УНТИ 2035 “Обучение в области искусственного интеллекта”
2. https://xn--80aapampemcchfmo7a3c9ehj.xn--p1ai/projects/tsifrovaya-ekonomika - сайт Национального проекта “Цифровая экономика”
3. https://xn--80aapampemcchfmo7a3c9ehj.xn--p1ai/projects/tsifrovaya-ekonomika/p-iskusstvennyy-intellekt-p - сайт федерального проекта “Искусственный интеллект” Национального проекта “Цифровая экономика”
4. https://sprint.1t.ru/ - сайт образовательной платформы ООО “1Т”
5. https://trends.rbc.ru/trends/tag/ai - раздел “Искусственный интеллект” на сайте РБК.
6. https://www.tadviser.ru/index.php/%D0%9F%D1%80%D0%BE%D0%B4%D1%83%D0%BA%D1%82:%D0%98%D1%81%D0%BA%D1%83%D1%81%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82_(%D0%98%D0%98,_Artificial_intelligence,_AI) - раздел “Искусственный интеллект” на сайте “TAdviser”. Государство. Бизнес. Технологии.
7. https://rb.ru/opinion/inzhener-dannyh/ - “Инженер данных: что это за специалист и как им стать?” на сайте - RB.RU
8. https://rb.ru/opinion/data-engineer-modeli-data-scientist/ - “В России катастрофически не хватает инженеров данных – кому и зачем они нужны” на сайте - RB.RU
Образовательные ресуры
1. Воронцов К. В. Машинное обучение: курс лекций // MachineLearning.ru. - URL: http://www.recognition.su/wiki/index.php?title=Машинное_обучение_(курс_лекций%2C_К.В.Воронцов).
2. Проектирование баз данных: Распределенные базы и хранилища данных. Агрегирование // Национальный Открытый Университет «ИНТУИТ». URL: http://www.intuit.ru/studies/professional_retraining/953/courses/214/lecture/5508/
3. Бесплатные материалы по Data Engineering от преподавателей МФТИ https://fpmi-edu.ru/free-de
4. Курс “Машинное обучение”. https://ru.coursera.org/specializations/gcp-data-machine-learning#courses
5. Курс “Big Data Specialization”. https://www.coursera.org/specializations/big-data
6. Курс “Big Data и Data Science: начни погружение с нуля” https://stepik.org/course/101687/promo
7. Open Machine Learning Course
https://mlcourse.ai/book/index.html

Учебно-методические материалы

Методы, формы и технологии

Для достижения планируемых результатов обучение строится с использованием следующих:
методов: case-study, метод проектов, модульное обучение, проблемное обучение, контекстное обучение;
форм: лекции с использованием мультимедиа, практические занятия, самостоятельная работа, практика на базе привлекаемой организации.

Кроме того, обучение строится с применением технологий электронного обучения и дистанционных образовательных технологий.

Методические разработки

Обучающие материалы дисциплины представлены в виде видеолекций, текстовых и графических материалов, размещенных на образовательной платформе sprint.1T.

Материалы курса

Видеолекции
Текстовые материалы лекций
Инструкции для выполнения заданий
Обучающие задания с автоматизированной системой проверки и подсказками
Проверочные задания с автоматизированной системой проверки

Учебная литература

1. Джон Д. Келлехер, Брайан Мак-Нейми, Аоифе д’Арси. Основы машинного обучения для аналитического прогнозирования: алгоритмы, рабочие примеры и темати­ческие исследования. – Диалектика-Вильямс, 2019 – 656 с.
2. Фальк Ким. Рекомендательные системы на практике. Практическое пособие. - Москва: ДМК Пресс, 2020. - 448 с.
3. Мартин Клеппман. Высоконагруженные приложения. Программирование, масштабирование, поддержка. − СПб: Питер, 2018. − 740 с.
4. Конвински Энди, Венделл Патрик, Захария Матей, Карау Холден. Изучаем Spark. Молниеносный анализ данных. - Москва: ДМК Пресс, 2015. - 304 с.
5. Машинное обучение с использованием Python. Сборник рецептов: Пер. с англ. Front Cover. Элбон Крис. БХВ-Петербург, 2020. − 384 с.
6. Нархид Ния, Шапира Гвен, Палино Тодд. Apache Kafka. Потоковая обработка и анализ данных. - Санкт-Петербург: Питер, 2021 - 320 с.
7. Алекс Петров. Распределенные данные. Алгоритмы работы современных систем хранения информации. − СПб: Питер, 2021. − 336 с.
8. Жан-Жорж Перрен: Spark в действии. С примерами Java, Python и Scala. - Москва: ДМК Пресс, 2021. - 636 с.
9. Дэви Силен, Арно Мейсман, Мохамед Али. Основы Data Science и Big Data. Python и наука о данных. – СПб.: Питер, 2017 – 336 с.: ил – (Серия «Библиотека программиста»).
10. Бычков А.Г. Сборник задач по теории вероятностей, математической статистике и методам оптимизации. Учебное пособие. - Москва: Издательство ФОРУМ, 2022. - 192 с.
11. Карпова И.П. Базы данных. Учебное пособие. - Санкт-Петербург: Питер, 2021. - 240 с.
12. Кузнецов В.А., Черепахин А.А. Системный анализ, оптимизация и принятие решений. - Москва: КУРС, 2018. - 256 с.
13. Поляков В.М., Агаларов З.С. Методы оптимизации. Учебное пособие. - Москва: Дашков и К., 2022. - 86 с.

Темы

Раздел 1.1 Введение в инженерию больших данных. Тема 1. Введение в профессию инженер данных Тема 2. Коллективная работа в Git Тема 3. Введение в Docker Тема 4. Основы синтаксиса и структур в Python. Обзор других языков программирования (JAVA, C#) Тема 5. Использование библиотек NumPy, SciPy для вычислений Тема 6. Обработка данных в Python. Библиотека Pandas Тема 7. Библиотеки Python для визуализации данных Раздел 1.2 Технологии хранения и обработки больших данных. Тема 1. Введение в базы данных и теорию хранения данных Тема 2. Реляционные базы данных Тема 3. Базы данных NoSQL Тема 4. Массово параллельная обработка и анализ данных Тема 5. Облачные хранилища данных. Введение в DWH Тема 6. Data Lake (озеро данных) и процессы работы с ним: ETL или ELT Тема 7. Колоночные СУБД и Clickhouse Тема 8. BI-системы и визуализация данных
Лекции
1,00ч
Практические занятия
2,00ч
Самостоятельная работа
1,00ч
Всего
4,00ч
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
2,00ч
Всего
8,00ч
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
2,00ч
Всего
8,00ч
Лекции
2,00ч
Практические занятия
2,00ч
Самостоятельная работа
1,00ч
Всего
5,00ч
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
2,00ч
Всего
8,00ч
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
1,00ч
Всего
7,00ч
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
1,00ч
Всего
7,00ч
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
2,00ч
Всего
8,00ч
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
2,00ч
Всего
8,00ч
Лекции
2,00ч
Практические занятия
6,00ч
Самостоятельная работа
2,00ч
Всего
10,00ч
Лекции
2,00ч
Самостоятельная работа
2,00ч
Всего
4,00ч
Лекции
2,00ч
Практические занятия
6,00ч
Самостоятельная работа
1,00ч
Всего
9,00ч
Лекции
2,00ч
Практические занятия
2,00ч
Самостоятельная работа
1,00ч
Всего
5,00ч
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
2,00ч
Всего
8,00ч
Лекции
2,00ч
Практические занятия
4,00ч
Самостоятельная работа
1,00ч
Всего
7,00ч
Промежуточная аттестация 4,00 часа
Решение практико-ориентированных задач (кейсов).