Инженер данных
1Т
Описание
Программа является программой повышения квалификации и разработана с учетом потребностей слушателей, которые хотят продолжить карьеру в IT в качестве инженера данных.
#инженер_данных #data_engineer #большие_данные #big_data
Программа предназначена для изучения основ профессии Data Engineer и позволит получить знания, умения и навыки в следующих направлениях:
- выбирать адекватные методы и инструментальные средства решения задач искусственного интеллекта;
- разрабатывать и применять методы машинного обучения для решения задач;
- использовать инструментальные средства для решения задач машинного обучения;
- создавать и поддерживать системы искусственного интеллекта на основе нейросетевых моделей и методов;
- обеспечивать сбор, хранение и управление потоками данных в реальном времени;
- создавать и внедрять одну или несколько сквозных цифровых субтехнологий искусственного интеллекта.
Полученные компетенции позволят вам стать востребованным специалистом на рынке труда в условиях его цифровой трансформации.
Основной формой реализации Программы является очно-заочная форма с использованием электронного обучения и дистанционных образовательных технологий.
Количество часов, отведённое на выполнение практических заданий, в т.ч. в режиме самостоятельной работы, составляет более 70%.
Часов в программе
Цель программы
Актуальность
Специалисты – Инженеры данных отвечают за сбор, преобразование, управление данными, а также извлечение полезных для бизнеса сведений из массивов больших данных и мониторинг их жизненного цикла. При этом весьма важными навыками являются такие, как создание и поддержка инфраструктуры больших данных, обеспечение сбора, хранения и управление потоками данных в реальном времени, анализ структурированных и неструктурированных данных с помощью методов статистики, алгоритмов машинного обучения (Machine Learning) и предиктивной аналитики, что актуализирует задачу подготовки кадров соответствующей квалификации (инженеров данных) с учетом потребностей бизнеса к квалификации специалистов в области искусственного интеллекта.
Входная диагностика 1 час
Итоговая аттестация 8 часов
Компетенции
Общепрофессиональные
Способен разрабатывать оригинальные алгоритмы и программные средства, в том числе с использованием современных интеллектуальных технологий, для решения профессиональных задач
Содержание профессии «Инженер данных»: потребность и ценность, задачи, навыки, инструменты в классификации данных. Обязанности и функция в команде.
Данные и источники, характеристики, корреляция.
GitFlow и стратегии работы с версиями.
Как устроена работа в системах контроля версий.
Docker и его компоненты.
Синтаксис и структуры в Python.
Синтаксис языков программирования JAVA/С#.
Использование библиотек NumPy, SciPy для вычислений, их отличия.
Обработка данных в Python. Библиотека Pandas.
Библиотеки визуализации Python Matplotlib, Seaborn, Plotly, Bokeh, Altair, Folium
Формулировать задачи инженера данных, основные вызовы, стоящие перед ним.
Различать структурированные, полуструктурированные и неструктурированные данные.
Решать практические задачи используя базовые конструкции и структуры языка Python (основные функции для работы со списками и кортежами, структуру словарей и множеств).
Решать практические задачи на Python используя библиотеки Pandas
Решать практические задачи на Python используя библиотеки Matplotlib, Seaborn, Plotly
Установки и настройки среды разработки Python (Anaconda или др.)
Решения задач на Python используя библиотеки NumPy и Scipy
Загрузки датасета, преобразования и осуществления срезов данных, проведения описательного анализа, построения графиков распределения, визуализации разных признаков, их распределения, агрегирования признаков, выявления топа коррелируемых признаков, оценки взаимосвязи
Профессиональные
Способен классифицировать и идентифицировать задачи искусственного интеллекта, выбирать адекватные методы и инструментальные средства решения задач искусственного интеллекта
Определения, история развития и главные тренды ИИ. Формирование концепции искусственного интеллекта, основные направления исследований, этапы развития и проблемы. Рынок технологий искусственного интеллекта. Рынок ИИ в России. Мировой рынок ИИ.
Процесс, стадии и методологии разработки решений на основе ИИ.
Архитектура и принципы работы промышленных решений, созданных на основе ИИ. Области применения искусственного интеллекта.
Проводить классификацию знаний.
Строить модель знаний в виде графа.
Применять аналитические, вычислительные и системно-аналитические методы для решения прикладных задач в области управления объектами техники, технологии, организационными системами.
Навыками использования основных методов, способов и средств получения, хранения, переработки информации.
Навыками применения современных средств и языков разработки интеллектуальных систем.
Способен разрабатывать и применять методы машинного обучения для решения задач
Методы машинного обучения;
Постановка основных классов задач в машинном обучении.
Основной аппарат комбинаторики и мат. статистики. Регрессионный анализ и сжатие данных.
Методы оптимизации;
SQL базы данных (GreenPlum, Postgres, Oracle);
NoSQL базы данных (Cassandra, MongoDB,
ElasticSearch, Neo4J, Hbase);
Виды представления данных: табличные, графовые, временные ряды.
Работать с программным инструментарием Data Mining и Machine Learning
Проводить анализ качества построенной модели линейной регрессии с помощью библиотеки Scikit-Learn
Сравнивать различные алгоритмы по эффективности
Применять методы оптимизации с использованием глобальных верхних оценок, зависящих от параметра.
Работы с библиотекой машинного обучения Scikit-Learn
Построения модели линейной регрессии с помощью библиотеки Scikit-Learn
Решения оптимизационных задач
Способен использовать инструментальные средства для решения задач машинного обучения
Технологии кластеризации и классификации.
Деревья решений.
Потоковая обработка данных (data streaming, event processing);
Шины данных (kafka);
Языки программирования и библиотеки (Python, R);
Платформы данных (облачные и внутрикорпоративные);
Качество данных, подходы и инструменты;
Инструменты анализа данных и Machine Learning (Rapid Miner);
Массово параллельные вычисления для ускорения машинного обучения (GPU) в задачах машинного обучения;
Преимущества графических процессоров для глубокого обучения.
Проводить анализ качества построенной модели логистической регрессии
Применять алгоритмы кластеризации данных
Производить импорт библиотек RAPIDS в Python
Построения модели логистической регрессии с помощью библиотеки Scikit-Learn.
Реализации алгоритма построения дерева с критерием информационного
выигрыша и критерием Джини и определению класса по мажоритарному классу в листе
Работы с RAPIDS – открытыми библиотеками NVIDIA для Python
Способен создавать и поддерживать системы искусственного интеллекта на основе нейросетевых моделей и методов
Нейронные сети. Генетические алгоритмы.
Онлайн подход к обучению на больших данных на примере линейных моделей.
Архитектура нейронных сетей.
Эффективное использование нескольких GPU.
LSH. Кластеризация больших данных.
Параллельные алгоритмы для обработки BigData.
Архитектура и принципы работы промышленных решений, созданных на основе
искусственного интеллекта
Обучать модели на выборке (в несколько гигабайт)
Применять Apache Spark в оптимизации гиперпараметров
Работать с системой поддержки принятия решений
Сравнивать экспериментальные графики (обучающая выборка и тестовая выборка)
Работать с Keras (Deep Learning и Python)
Использовать кластеризацию k-средних для построения модели
Использования Vowpal Wabbit в задаче классификации
Использования метода стохастического градиентного спуска SGD
Использования алгоритмов K-Means
Способен разрабатывать системы анализа больших данных
Обработка данных с помощью (Hadoop/Hive/Spark)
Конвейер данных (Storm, Kafka)
Назначение, область применения, структура, принципы работы MapReduce
Распределенные файловые системы (HDFS, Object Storage): структура, достоинства, недостатки и сфера применения
Статистические методы анализа данных
Технологии анализа данных.
Платформы данных (облачные и внутрикорпоративные). Цифровая платформа анализа данных.
Экосистема Hadoop и элементы Системы Обработки
Данных. Аналоги из экосистем GCP, AWS.
Инструменты с открытым исходным кодом для анализа больших данных
Процессы ETL в анализе BigData
Язык запросов MDX
Моделирование данных
Совместное использование базы данных. Безопасность данных.
Реляционные базы данных SQL: GreenPlum, Postgres, Oracle
Базы данных NoSQL: Cassandra, MongoDB, ElasticSearch, Neo4J, Hbase.
Массово параллельная обработка и анализ данных. Особенности организации СУБД.
Облачные хранилища данных (Data Warehouses)
Data Lake (озеро данных): назначение, компоненты, проблемы. Потоковая обработка данных (data streaming, event processing).
Применять методы бакетирования и партиционирования в Apache Hive и Spark в зависимости от поставленной задачи
Строить архитектуру обработки данных в реальном времени – Apache Kafka
Применять MapReduce для решения практических задач.
Применять средства анализа данных на персональных компьютерах
Проводить анализ данных используя методологию CRISP-DM.
Применять методы анализа на графах
Выбирать облачные технологии или on-premises инфраструктуру в зависимости от задачи
Применять Rapid Miner для решения практических задач
Создавать логическую и физическую модель базы данных
Разрабатывать запросы для загрузки данных в формате JSON в СУБД MongoDB
Моделировать данные в хранилище Data Warehouses
Настройки кластера Apache Spark и Hive на Hadoop
Обработки данных с помощью (Hadoop/Hive/Spark)
Установки и настройки Storm и Kafka
Установки, настройки, запуска MapReduce
Обработки данных с помощью библиотеки tidyverse. Статистического анализа данных в R.
Извлечения данных из источника, очистки данных, обогащения,
трансформирования и проведения интеграции в единую целевую модель
Установки базы данных PostgreSQL и PGAdmin, создания базы данных для решения практической задачи, приведения ее к 3NF, проведения ее денормализации
Использования СУБД MongoDB для решения практической задачи
Разработки консольной утилиты для преобразования информации в формате CSV в формат JSON
Способен создавать и внедрять одну или несколько сквозных цифровых субтехнологий искусственного интеллекта
Особенности построения рекомендательных систем на больших данных. Content-based, collaborative filtering, ALS, iALS.
Цифровая платформа анализа данных;
Работа с распределенной кластерной системой;
ETL процессы и инструменты;
Уровни предоставления данных (ODS, DDL,семантический слой, модель данных);
Системы поддержки принятия решений.
Создавать систему рекомендаций (по продуктам)
Правильно оценивать риски при реализации проекта, ставить задачу и проверять результат, на качественном уровне понимать плюсы и минусы различных инструментов.
Обучения модели content-based и collaborative фильтрации, проверки работы модели, написания выводов.
Требования
Слушатели должны обладать следующими знаниями, умениями и владеть навыками:
PYTHON
• Знание синтаксиса языка
• Понимание базовых структур данных
• Владение основами ООП (класс, объект)
SQL
• Знание базового синтаксиса (SELECT, WHERE, GROUP BY, HAVING)
• Умение составлять подзапросы и делать все виды JOIN
• Навык работы с оконными функциями
ИНФРАСТРУКТУРА
• Умение работать с командной строкой
• Навыки работы с Docker
• Знание базовых команд Linux
• Навыки работы с Git
Образование
- Высшее образование
- Среднее профессиональное образование
Квалификация
Владение необходимыми профессиональными компетенциями
Способен использовать и адаптировать существующие математические методы и системы программирования для разработки и реализации алгоритмов решения прикладных задач;
Способен применять и модифицировать математические модели для решения задач в области профессиональной деятельности;
Владеет широкой общей подготовкой (базовыми знаниями) для решения практических задач в области информационных систем и технологий;
Способен использовать современные компьютерные технологии поиска информации для решения поставленной задачи, критического анализа этой информации и обоснования принятых идей и подходов к решению;
Способен выбирать и оценивать способ реализации информационных систем и устройств (программно-, аппаратно- или программно-аппаратно-) для решения поставленной задачи.
Иные требования и рекомендации для обучения по программе
Слушатели должны обладать следующими знаниями, умениями и владеть навыками:
PYTHON
• Знание синтаксиса языка
• Понимание базовых структур данных
• Владение основами ООП (класс, объект)
SQL
• Знание базового синтаксиса (SELECT, WHERE, GROUP BY, HAVING)
• Умение составлять подзапросы и делать все виды JOIN
• Навык работы с оконными функциями
ИНФРАСТРУКТУРА
• Умение работать с командной строкой
• Навыки работы с Docker
• Знание базовых команд Linux
• Навыки работы с Git
Модули
свернутьПреподаватели

Булаева
Наталья Александровна
«Союз участников отношений в сфере образования»
Вице-президент
Кандидат экономических наук
https://1t.ru/teacher-bulaeva
Кузин
Антон Алексеевич
МТУСИ
Старший преподаватель кафедры «Математическая кибернетика и информационные технологии», факультет информационных технологий
https://1t.ru/teacher-kuzin
Рабин
Алексей Владимирович
Санкт-Петербургский государственный университет аэрокосмического приборостроения (ГУАП)
Директор центра координации научных исследований
Доктор технических наук
Доцент кафедры аэрокосмических компьютерных и программных систем
https://1t.ru/teacher-rabin
Ерохин
Кирилл Сергеевич
ООО "Альмира"
Руководитель отдела Data Science

Набока
Михаил Викторович
Индивидуальный предприниматель
Сертифицированный BI Data Analyst
Кандидат технических наук

Семененко
Анатолий Сергеевич
1Т
Системный аналитик, преподаватель ДПО
https://1t.ru/teacher-semenenkoПрофстандарт
Специалист по большим данным
06.042Специальность
Инженер данных (Data Engineer)
Ответственный за программу
+79993333307