III уровень Большие данные

Big Data в вузе

АНО ДПО "СофтЛайн Эдюкейшн"
72 часа длительность
Онлайн формат
Базовый уровень

Описание

Большие Данные (или Big Data) – одно из направлений федерального проекта «Цифровые технологии», запущенного в рамках национальной программы «Цифровая экономика Российской Федерации». Системы класса Больших данных позволяют организовывать сбор, хранение и обработку как структурированных, так и неструктурированных данных, практически в неограниченных объемах. В вузах использование больших данных позволит повысить: качество образовательного процесса за счет развития предсказательной аналитики, конкурентоспособность образовательных программ и прогнозирование успешности их реализации за счет рекомендательных методик, полученных на основе анализа больших данных. Технологии Big Data позволят создавать и внедрять в вузы комплексный мониторинг успеваемости студентов, посещаемости занятий, библиотек, использования электронных и информационных ресурсов вуза, вовлеченности студентов не только в учебный процесс, но и в целом жизнь университета (например, участие в общеуниверситетских и факультетских мероприятиях, в научных сообществах и т.д.). И наконец, системы анализа больших данных обеспечат возможность персонализации учебного процесса. Программа повышения квалификации направлена на формирование профессиональной компетенции «Способен ставить и решать прикладные задачи по подготовке данных в вузе для проведения аналитических работ по исследованию больших данных с использованием инструментов Hadoop Common». Для успешного освоения программы обучающимся необходимо владеть базовыми компетенциями цифровой грамотности, в том числе навыками владения ПК и ОС Linux на уровне среднего или продвинутого пользователя; компетенциями в области алгоритмизации, базовыми знаниями в области языков программирования Java, Python и SQL. В процессе обучения по программе обучающимся рекомендуется просмотреть и прослушать все видеолекции и видеоролики по практическим занятиям, выполнить по каждой теме обязательные практические задания, проработать самостоятельно дополнительные материалы и выполнить задания для самостоятельной работы, после этого необходимо выполнить тесты по каждой теме и для успешного завершения обучения выполнить итоговый тест (70% верных ответов). Обучающиеся в результате освоения программы: будут знать сущность понятия «большие данные» и примеры применимости больших, в том числе в сфере высшего образования, концепцию распределенных вычислений MapReduce и особые техники использования MapReduce, компоненты программно-технических архитектур Hadoop и распределенной файловой системы HDFS, особенности реляционных и нереляционных баз данных и примеры использования этих баз данных в высшем образовании; существующие приложения Hadoop и интерфейсы взаимодействия с ними; походы к извлечению знаний из данных применительно к вузу; подходы и технологии обработки и анализа текстовых данных в вузе; будут уметь использовать возможности имеющейся в вузе технологической инфраструктуры больших данных, выбранные инструментальные средства для хранения, преобразования и обработки больших данных в вузе, а также облачные варианты технологической инфраструктуры больших данных применительно к вузу, будут иметь практический опыт работы с распределённой файловой системой HDFS; написания программного кода на Java и на Python для решения MapReduce задач применительно к высшему образованию; запуска MapReduce задач с помощью YARN; написания SQL-подобных запросов для создания выборок в Hive; написания скриптов Pig Latin для подготовки данных в вузе и проведения аналитических работ. В качестве бонуса в курсе предлагается развёртывание виртуальной машины с предустановленной инфраструктурой обработки больших данных. Результаты обучения по программе повышения квалификации будут востребованы при решении профессиональных задач по подготовке данных в вузе для проведения аналитических работ по исследованию больших данных. Данные исследования являются актуальными как для высшего образования, так и в целом для развития системы образования, они могут составлять один или нескольких этапов комплексных образовательных проектов, в том числе и для высшего образования. Полученная компетенция также может быть востребована в проектах по цифровизации высшего образования при участии специализированных информационно-вычислительных центров или их отдельных служб и подразделений.

Цель программы
Формирование профессиональных компетенций, необходимых для решения прикладных задач по подготовке данных в вузе для проведения аналитических работ по исследованию Больших данных с использованием инструментов Hadoop Common

Требования

Образование: среднее профессиональное, высшее

Квалификация: уровень квалификации не ниже 6

Наличие опыта профессиональной деятельности: обработка и анализ данных

Предварительное освоение иных дисциплин/курсов/модулей:

Иные требования и рекомендации для обучения по программе

Образование: среднее профессиональное, высшее

Квалификация: уровень квалификации не ниже 6

Наличие опыта профессиональной деятельности: обработка и анализ данных

Предварительное освоение иных дисциплин/курсов/модулей:

Модули

свернуть
Модуль 1 Модуль 1. Введение в Большие данные
Модуль 1. Введение в Большие данные в высшем образовании Тема 1.1. Большие данные в высшем образовании Понятия данных, информации и знаний; - Понятие Больших данных; - Признаки Больших данных; - Сравнение с классическими инструментами; - Примеры использования Больших данных в задачах высшего образования.
Модуль 3 Модуль 3. Развертывание Hadoop
Модуль 3. Развертывание Hadoop Тема 3.1. Развертывание инфраструктуры Hadoop - Принцип развёртывания кластера Hadoop; - Управляемые услуги «облачных» поставщиков инфраструктуры; - Развертывание виртуальной машины Cloudera QuickStart VM
Модуль 5 Модуль 5. Написание скриптов Hadoop
Модуль 5. Написание скриптов Hadoop Тема 5.1. Скрипты Pig для данных сферы высшего образования - Инструмент скриптов Pig; - Режимы работы Pig; - Синтаксис Pig Latin; - Обработка данных с помощью Pig
Модуль 7 Модуль 7. Введение в Data Lake в ВО
Модуль 7. Введение в Data Lake в высшем образовании Тема 7.1. Data Lake (Озеро Данных) в высшем образовании - Понятие озера данных; - Построение корпоративного озера данных; - Принципы управления данными.
Модуль 9 Итоговая аттестация
Итоговая аттестация
Модуль 2 Модуль 2 Введение в Hadoop
Модуль 2 Введение в Hadoop Тема 2.1. Технология и инструменты Hadoop - Что такое Hadoop; - История возникновения и развития; - Поставщики Hadoop; - Экосистема Hadoop
Модуль 4 Модуль 4. Ядро Hadoop
Модуль 4. Ядро Hadoop Тема 4.1. Файловая система HDFS - Принцип устройства файловых систем; - Распределенная файловая система HDFS; - Форматы хранения данных в HDFS; - Работа в HDFS с помощью Java API; - Работа в HDFS с помощью shell команд Тема 4.2. Вычислительное ядро Hadoop - Концепция вычислений MapReduce; - Архитектура MapReduce ver1; - Архитектура YARN; - Особенные случаи использования MapReduce. Тема 4.3. Запуск MapReduce задач для данных из сферы высшего образования - Создание и запуск MapReduce задач на языке Java; - Создание и запуск MapReduce задач на языке Python.
Модуль 6 Модуль 6. Базы данных Hadoop
Модуль 6. Базы данных Hadoop Тема 6.1. SQL и NoSQL базы данных - Понятие реляционных баз данных; - Понятие NoSQL баз данных; - Типы NoSQL баз данных; - SQL и NoSQL инструменты в Hadoop. Тема 6.2. Работа с инструментом Hive для данных из сферы высшего образования - Hive - SQL инструмент в Hadoop; - Архитектура Hive; - Модель данных Hive; - Диалект HiveQL; - Расширение функций Hive с помощью Python скриптов; - Выборка и обработка данных в Hive.
Модуль 8 Модуль 8. Интеллектуальный анализ Больших данных
Модуль 8. Интеллектуальный анализ Больших данных сферы высшего образования Тема 8.1. Извлечение знаний из данных сферы высшего образования - История возникновения и развития машинного обучения; - Формальная постановка задач и типы задач; - Оценка качества, метрики, переобучение. Тема 8.2. Обработка текстовых данных сферы высшего образования - Основы предобработки текстовых данных; - Введение в задачи обработки естественного языка.
Модуль 1 Модуль 1. Введение в Большие данные
Модуль 1. Введение в Большие данные в высшем образовании Тема 1.1. Большие данные в высшем образовании Понятия данных, информации и знаний; - Понятие Больших данных; - Признаки Больших данных; - Сравнение с классическими инструментами; - Примеры использования Больших данных в задачах высшего образования.
Модуль 2 Модуль 2 Введение в Hadoop
Модуль 2 Введение в Hadoop Тема 2.1. Технология и инструменты Hadoop - Что такое Hadoop; - История возникновения и развития; - Поставщики Hadoop; - Экосистема Hadoop
Модуль 3 Модуль 3. Развертывание Hadoop
Модуль 3. Развертывание Hadoop Тема 3.1. Развертывание инфраструктуры Hadoop - Принцип развёртывания кластера Hadoop; - Управляемые услуги «облачных» поставщиков инфраструктуры; - Развертывание виртуальной машины Cloudera QuickStart VM
Модуль 4 Модуль 4. Ядро Hadoop
Модуль 4. Ядро Hadoop Тема 4.1. Файловая система HDFS - Принцип устройства файловых систем; - Распределенная файловая система HDFS; - Форматы хранения данных в HDFS; - Работа в HDFS с помощью Java API; - Работа в HDFS с помощью shell команд Тема 4.2. Вычислительное ядро Hadoop - Концепция вычислений MapReduce; - Архитектура MapReduce ver1; - Архитектура YARN; - Особенные случаи использования MapReduce. Тема 4.3. Запуск MapReduce задач для данных из сферы высшего образования - Создание и запуск MapReduce задач на языке Java; - Создание и запуск MapReduce задач на языке Python.
Модуль 5 Модуль 5. Написание скриптов Hadoop
Модуль 5. Написание скриптов Hadoop Тема 5.1. Скрипты Pig для данных сферы высшего образования - Инструмент скриптов Pig; - Режимы работы Pig; - Синтаксис Pig Latin; - Обработка данных с помощью Pig
Модуль 6 Модуль 6. Базы данных Hadoop
Модуль 6. Базы данных Hadoop Тема 6.1. SQL и NoSQL базы данных - Понятие реляционных баз данных; - Понятие NoSQL баз данных; - Типы NoSQL баз данных; - SQL и NoSQL инструменты в Hadoop. Тема 6.2. Работа с инструментом Hive для данных из сферы высшего образования - Hive - SQL инструмент в Hadoop; - Архитектура Hive; - Модель данных Hive; - Диалект HiveQL; - Расширение функций Hive с помощью Python скриптов; - Выборка и обработка данных в Hive.
Модуль 7 Модуль 7. Введение в Data Lake в ВО
Модуль 7. Введение в Data Lake в высшем образовании Тема 7.1. Data Lake (Озеро Данных) в высшем образовании - Понятие озера данных; - Построение корпоративного озера данных; - Принципы управления данными.
Модуль 8 Модуль 8. Интеллектуальный анализ Больших данных
Модуль 8. Интеллектуальный анализ Больших данных сферы высшего образования Тема 8.1. Извлечение знаний из данных сферы высшего образования - История возникновения и развития машинного обучения; - Формальная постановка задач и типы задач; - Оценка качества, метрики, переобучение. Тема 8.2. Обработка текстовых данных сферы высшего образования - Основы предобработки текстовых данных; - Введение в задачи обработки естественного языка.
Модуль 9 Итоговая аттестация
Итоговая аттестация

Преподаватели

Милков

Максим Леонидович

АНО ДПО "СофтЛайн Эдюкейшн"
Авторизуйтесь чтобы записаться

Ответственный за программу

edu2035@softline.com

+7(495)2320023