Инженер данных
1Т
Описание
Программа является программой повышения квалификации и разработана с учетом потребностей слушателей, которые хотят продолжить карьеру в IT в качестве инженера данных.
#инженер_данных #data_engineer #большие_данные #big_data
Программа предназначена для изучения основ профессии Data Engineer и позволит получить знания, умения и навыки в следующих направлениях:
– выбирать адекватные методы и инструментальные средства решения задач искусственного интеллекта;
– разрабатывать и применять методы машинного обучения для решения задач;
– использовать инструментальные средства для решения задач машинного обучения;
– создавать и поддерживать системы искусственного интеллекта на основе нейросетевых моделей и методов;
– разрабатывать системы анализа больших данных;
– создавать и внедрять одну или несколько сквозных цифровых субтехнологий искусственного интеллекта.
Программа рассчитана на слушателей, имеющих базовое математическое или техническое образование.
Полученные компетенции позволят вам стать востребованным специалистом на рынке труда в условиях его цифровой трансформации.
Основной формой реализации Программы является очно-заочная форма с использованием электронного обучения и дистанционных образовательных технологий.
Количество часов, отведённое на выполнение практических заданий, в т.ч. в режиме самостоятельной работы, составляет 185 часов (более 70%).
Часов в программе
Цель программы
Актуальность
Следовательно, первоочередным на нынешнем этапе является формирование принципиально новых направлений деятельности во всех отраслях экономики на основе технологий искусственного интеллекта, что предполагает одновременно дальнейшее развитие целостной системы устойчивого воспроизводства и привлечения кадров при тесном сотрудничестве и взаимодействии научных и образовательных организаций, предпринимательского сообщества, государственных корпораций и компаний, создание новых высокопроизводительных рабочих мест и повышение уровня занятости населения, оптимизация процессов подбора и обучения кадров.
На сегодняшний день данные – это жизнеобеспечение любой компании, «кровь» предприятия, без чего невозможно его существование. Поэтому в любой сфере национальной экономики функционирование организации должно быть реализовано на основе гибкого управления данными, в том числе большими (Big Data), и оно станет успешным, если все её бизнес-процессы и организационная структура построены на основе сквозной интеграции информационных потоков, их непрерывной и прогнозной предиктивной аналитики.
Одна из ключевых задач инженера данных – сделать процесс анализа данных в компании максимально удобным для аналитиков, обеспечить их очищенными достоверными данными в должном количестве и в должный срок, а это, в свою очередь, будет обеспечено посредством ряда следующих шагов:
− определение основных источников данных и их сбор;
− выделение внутренней информации (финансовые отчеты, корпоративные базы данных, заявки на сайте и внешние источники – социальные сети, новостные заголовки, Интернет вещей;
− «очистка» данных;
− построение архитектуры процесса обработки данных и визуализация процесса разработки продукта;
− разработка моделей процессов;
− использование необходимого инструментария хранения и обработки больших массивов данных;
− превращение моделей в готовый продукт или сервис.
Входная диагностика 1 час
Итоговая аттестация 2 часа
Компетенции
Общепрофессиональные
Способен разрабатывать оригинальные алгоритмы и программные средства, в том числе с использованием современных интеллектуальных технологий, для решения профессиональных задач
Содержание профессии «Инженер данных»: потребность и ценность, задачи, навыки, инструменты в классификации данных. Обязанности и функция в команде.
Технологии DataScience и BigData для решения практических задач. Данные и источники, характеристики, корреляция.
Синтаксис и структуры в Python.
Использование библиотек NumPy, SciPy для вычислений, их отличия.
Обработка данных в Python. Библиотека Pandas.
Библиотеки визуализации Python Matplotlib, Seaborn, Plotly, Bokeh, Altair, Folium
Синтаксис языка программирования С++
Сопоставление хэш-таблицы и map в С++
Формулировать задачи инженера данных, основные вызовы, стоящие перед ним.
Различать структурированные, полуструктурированные и неструктурированные данные.
Решать практические задачи используя базовые конструкции и структуры языка Python (основные функции для работы со списками и кортежами, структуру словарей и множеств).
Решать практические задачи на Python используя библиотеки Pandas
Решать практические задачи на Python используя библиотеки Matplotlib, Seaborn, Plotly
Решать практические задачи на С++ используя циклы, условия, функции и классы
Установки и настройки среды разработки Python (Anaconda или др.)
Решения задач на Python используя библиотеки NumPy и Scipy
Загрузки датасета, преобразования и осуществления срезов данных, проведения описательного анализа, построения графиков распределения, визуализации разных признаков, их распределения, агрегирования признаков, выявления топа коррелируемых признаков, оценки взаимосвязи
Профессиональные
Способен классифицировать и идентифицировать задачи искусственного интеллекта, выбирать адекватные методы и инструментальные средства решения задач искусственного интеллекта
Определения, история развития и главные тренды ИИ. Формирование концепции искусственного интеллекта, основные направления исследований, этапы развития и проблемы. Рынок технологий искусственного интеллекта. Рынок ИИ в России. Мировой рынок ИИ.
Процесс, стадии и методологии разработки решений на основе ИИ.
Архитектура и принципы работы промышленных решений, созданных на основе ИИ. Области применения искусственного интеллекта.
Проводить классификацию знаний.
Строить модель знаний в виде графа.
Применять аналитические, вычислительные и системно-аналитические методы для решения прикладных задач в области управления объектами техники, технологии, организационными системами.
Навыками использования основных методов, способов и средств получения, хранения, переработки информации.
Навыками применения современных средств и языков разработки интеллектуальных систем.
Способен разрабатывать и применять методы машинного обучения для решения задач
Методы машинного обучения;
Постановка основных классов задач в машинном обучении.
Основной аппарат комбинаторики и мат. статистики. Регрессионный анализ и сжатие данных.
Методы оптимизации;
SQL базы данных (GreenPlum, Postgres, Oracle);
NoSQL базы данных (Cassandra, MongoDB,
ElasticSearch, Neo4J, Hbase);
Виды представления данных: табличные, графовые, временные ряды
Работать с программным инструментарием Data Mining и Machine Learning
Проводить анализ качества построенной модели линейной регрессии с помощью библиотеки Scikit-Learn
Сравнивать различные алгоритмы по эффективности
Применять методы оптимизации с использованием глобальных верхних оценок, зависящих от параметра
Работы с библиотекой машинного обучения Scikit-Learn
Построения модели линейной регрессии с помощью библиотеки Scikit-Learn
Решения оптимизационных задач
Способен использовать инструментальные средства для решения задач машинного обучения
Технологии кластеризации и классификации.
Деревья решений.
Потоковая обработка данных (data streaming, event processing);
Шины данных (kafka);
Языки программирования и библиотеки (Python, R);
Языки программирования и библиотеки (C++);
Платформы данных (облачные и внутрикорпоративные);
Качество данных, подходы и инструменты;
Инструменты анализа данных и Machine Learning (Rapid Miner);
Массово параллельные вычисления для ускорения машинного обучения (GPU) в задачах машинного обучения.
Преимущества графических процессоров для глубокого обучения
Проводить анализ качества построенной модели логистической регрессии
Применять алгоритмы кластеризации данных
Производить импорт библиотек RAPIDS в Python
Построения модели логистической регрессии с помощью библиотеки Scikit-Learn.
Реализации алгоритма построения дерева с критерием информационного
выигрыша и критерием Джини и определению класса по мажоритарному классу в листе
Работы с RAPIDS – открытыми библиотеками NVIDIA для Python
Способен создавать и поддерживать системы искусственного интеллекта на основе нейросетевых моделей и методов
Нейронные сети. Генетические алгоритмы.
Онлайн подход к обучению на больших данных на примере линейных моделей.
Архитектура нейронных сетей.
Эффективное использование нескольких GPU.
LSH. Кластеризация больших данных.
Параллельные алгоритмы для обработки BigData.
Архитектура и принципы работы промышленных решений, созданных на основе
искусственного интеллекта
Обучать модели на выборке (в несколько гигабайт)
Применять Apache Spark в оптимизации гиперпараметров
Работать с системой поддержки принятия решений
Сравнивать экспериментальные графики (обучающая выборка и тестовая выборка)
Работать с Keras (Deep Learning и Python)
Использовать кластеризацию k-средних для построения модели
Использования Vowpal Wabbit в задаче классификации
Использования метода стохастического градиентного спуска SGD
Использования алгоритмов K-Means
Способен разрабатывать системы анализа больших данных
Обработка данных с помощью (Hadoop/Hive/Spark)
Конвейер данных (Storm, Kafka)
Назначение, область применения, структура, принципы работы MapReduce
Распределенные файловые системы (HDFS, Object Storage): структура, достоинства, недостатки и сфера применения
Статистические методы анализа данных
Технологии анализа данных.
Платформы данных (облачные и внутрикорпоративные). Цифровая платформа анализа данных.
Экосистема Hadoop и элементы Системы Обработки
Данных. Аналоги из экосистем GCP, AWS.
Инструменты с открытым исходным кодом для анализа больших данных
Процессы ETL в анализе BigData
Язык запросов MDX
Моделирование данных
Совместное использование базы данных. Безопасность данных.
Реляционные базы данных SQL: GreenPlum, Postgres, Oracle
Базы данных NoSQL: Cassandra, MongoDB, ElasticSearch, Neo4J, Hbase.
Массово параллельная обработка и анализ данных. Особенности организации СУБД.
Облачные хранилища данных (Data Warehouses)
Data Lake (озеро данных): назначение, компоненты, проблемы. Потоковая обработка данных (data streaming, event processing).
Применять методы бакетирования и партиционирования в Apache Hive и Spark в зависимости от поставленной задачи
Строить архитектуру обработки данных в реальном времени – Apache Kafka
Применять MapReduce для решения практических задач.
Применять средства анализа данных на персональных компьютерах
Проводить анализ данных используя методологию CRISP-DM.
Применять методы анализа на графах
Выбирать облачные технологии или on-premises инфраструктуру в зависимости от задачи
Применять Rapid Miner для решения практических задач
Создавать логическую и физическую модель базы данных
Разрабатывать запросы для загрузки данных в формате JSON в СУБД MongoDB
Моделировать данные в хранилище Data Warehouses
Настройки кластера Apache Spark и Hive на Hadoop
Обработки данных с помощью (Hadoop/Hive/Spark)
Установки и настройки Storm и Kafka
Установки, настройки, запуска MapReduce
Обработки данных с помощью библиотеки tidyverse. Статистического анализа данных в R.
Извлечения данных из источника, очистки данных, обогащения,
трансформирования и проведения интеграции в единую целевую модель
Установки базы данных PostgreSQL и PGAdmin, создания базы данных для решения практической задачи, приведения ее к 3NF, проведения ее денормализации
Использования СУБД MongoDB для решения практической задачи
Разработки консольной утилиты для преобразования информации в формате CSV в формат JSON
Способен создавать и внедрять одну или несколько сквозных цифровых субтехнологий искусственного интеллекта
Особенности построения рекомендательных систем на больших данных. Content-based, collaborative filtering, ALS, iALS.
Цифровая платформа анализа данных;
Работа с распределенной кластерной системой;
ETL процессы и инструменты;
Уровни предоставления данных (ODS, DDL,семантический слой, модель данных);
Системы поддержки принятия решений
Создавать систему рекомендаций (по продуктам)
Правильно оценивать риски при реализации проекта, ставить задачу и проверять результат, на качественном уровне понимать плюсы и минусы различных инструментов
Обучения модели content-based и collaborative фильтрации, проверки работы модели, написания выводов
Требования
Требования к компетенциям, которыми должен обладать гражданин при поступлении на Образовательную программу:
Способен использовать и адаптировать существующие математические методы и системы программирования для разработки и реализации алгоритмов решения прикладных задач;
Способен применять и модифицировать математические модели для решения задач в области профессиональной деятельности;
Владеет широкой общей подготовкой (базовыми знаниями) для решения практических задач в области информационных систем и технологий;
Способен использовать современные компьютерные технологии поиска информации для решения поставленной задачи, критического анализа этой информации и обоснования принятых идей и подходов к решению;
Способен выбирать и оценивать способ реализации информационных систем и устройств (программно-, аппаратно- или программно-аппаратно-) для решения поставленной задачи.
Образование
- Высшее образование
- Среднее профессиональное образование
Квалификация
Владение необходимыми профессиональными компетенциями
• Знание синтаксиса языка
• Понимание базовых структур данных
• Владение основами ООП (класс, объект)
SQL
• Знание базового синтаксиса (SELECT, WHERE, GROUP BY, HAVING)
• Умение составлять подзапросы и делать все виды JOIN
• Навык работы с оконными функциями
ИНФРАСТРУКТУРА
• Умение работать с командной строкой
• Навыки работы с Docker
• Знание базовых команд Linux
• Опыт работы с Git
Иные требования и рекомендации для обучения по программе
Требования к компетенциям, которыми должен обладать гражданин при поступлении на Образовательную программу:
Способен использовать и адаптировать существующие математические методы и системы программирования для разработки и реализации алгоритмов решения прикладных задач;
Способен применять и модифицировать математические модели для решения задач в области профессиональной деятельности;
Владеет широкой общей подготовкой (базовыми знаниями) для решения практических задач в области информационных систем и технологий;
Способен использовать современные компьютерные технологии поиска информации для решения поставленной задачи, критического анализа этой информации и обоснования принятых идей и подходов к решению;
Способен выбирать и оценивать способ реализации информационных систем и устройств (программно-, аппаратно- или программно-аппаратно-) для решения поставленной задачи.
Модули
свернутьПреподаватели

Рабин
Алексей Владимирович
Санкт-Петербургский государственный университет аэрокосмического приборостроения (ГУАП)
Директор центра координации научных исследований
Доктор технических наук
Доцент кафедры аэрокосмических компьютерных и программных систем
https://1t.ru/teacher-rabin
Васильев
Роберт Андреевич
Компания «Z-Union», ООО «Реал-В»
CEO, управляющий партнер, ООО «Реал-В» - генеральный директор
http://course.alrii.ru/#rec430127293
Душкин
Роман Викторович
Агентство Искусственного Интеллекта
директор по науке и технологиям
http://course.alrii.ru/#rec430127293

Белоглазов
Александр Анатольевич
ФГБОУ ВО «Московский государственный гуманитарно-экономический университет»
доцент кафедры информационных технологий и прикладной математики
кандидат технических наук


Кузин
Антон Алексеевич
МТУСИ
Старший преподаватель кафедры «Математическая кибернетика и информационные технологии», факультет информационных технологий
https://1t.ru/teacher-kuzinПрофстандарт
Специалист по большим данным
06.042Специальность
Инженер данных (Data Engineer)
Ответственный за программу
+78006003180