Инженер данных
1ТОписание
Программа является программой повышения квалификации и разработана с учетом потребностей слушателей, которые хотят продолжить карьеру в IT в качестве инженера данных.
#инженер_данных #data_engineer #большие_данные #big_data
Программа предназначена для изучения основ профессии Data Engineer и позволит получить знания, умения и навыки в следующих направлениях:
- выбирать адекватные методы и инструментальные средства решения задач искусственного интеллекта;
- разрабатывать и применять методы машинного обучения для решения задач;
- использовать инструментальные средства для решения задач машинного обучения;
- создавать и поддерживать системы искусственного интеллекта на основе нейросетевых моделей и методов;
- обеспечивать сбор, хранение и управление потоками данных в реальном времени;
- создавать и внедрять одну или несколько сквозных цифровых субтехнологий искусственного интеллекта.
Полученные компетенции позволят вам стать востребованным специалистом на рынке труда в условиях его цифровой трансформации.
Основной формой реализации Программы является очно-заочная форма с использованием электронного обучения и дистанционных образовательных технологий.
Количество часов, отведённое на выполнение практических заданий, в т.ч. в режиме самостоятельной работы, составляет более 70%.
Часов в программе
Цель программы
Актуальность
Специалисты – Инженеры данных отвечают за сбор, преобразование, управление данными, а также извлечение полезных для бизнеса сведений из массивов больших данных и мониторинг их жизненного цикла. При этом весьма важными навыками являются такие, как создание и поддержка инфраструктуры больших данных, обеспечение сбора, хранения и управление потоками данных в реальном времени, анализ структурированных и неструктурированных данных с помощью методов статистики, алгоритмов машинного обучения (Machine Learning) и предиктивной аналитики, что актуализирует задачу подготовки кадров соответствующей квалификации (инженеров данных) с учетом потребностей бизнеса к квалификации специалистов в области искусственного интеллекта.
Входная диагностика 1 час
Итоговая аттестация 8 часов
Компетенции
Общепрофессиональные
Способен разрабатывать оригинальные алгоритмы и программные средства, в том числе с использованием современных интеллектуальных технологий, для решения профессиональных задач
Содержание профессии «Инженер данных»: потребность и ценность, задачи, навыки, инструменты в классификации данных. Обязанности и функция в команде.
Данные и источники, характеристики, корреляция.
GitFlow и стратегии работы с версиями.
Как устроена работа в системах контроля версий.
Docker и его компоненты.
Синтаксис и структуры в Python.
Синтаксис языков программирования JAVA/С#.
Использование библиотек NumPy, SciPy для вычислений, их отличия.
Обработка данных в Python. Библиотека Pandas.
Библиотеки визуализации Python Matplotlib, Seaborn, Plotly, Bokeh, Altair, Folium
Формулировать задачи инженера данных, основные вызовы, стоящие перед ним.
Различать структурированные, полуструктурированные и неструктурированные данные.
Решать практические задачи используя базовые конструкции и структуры языка Python (основные функции для работы со списками и кортежами, структуру словарей и множеств).
Решать практические задачи на Python используя библиотеки Pandas
Решать практические задачи на Python используя библиотеки Matplotlib, Seaborn, Plotly
Установки и настройки среды разработки Python (Anaconda или др.)
Решения задач на Python используя библиотеки NumPy и Scipy
Загрузки датасета, преобразования и осуществления срезов данных, проведения описательного анализа, построения графиков распределения, визуализации разных признаков, их распределения, агрегирования признаков, выявления топа коррелируемых признаков, оценки взаимосвязи
Профессиональные
Способен классифицировать и идентифицировать задачи искусственного интеллекта, выбирать адекватные методы и инструментальные средства решения задач искусственного интеллекта
Определения, история развития и главные тренды ИИ. Формирование концепции искусственного интеллекта, основные направления исследований, этапы развития и проблемы. Рынок технологий искусственного интеллекта. Рынок ИИ в России. Мировой рынок ИИ.
Процесс, стадии и методологии разработки решений на основе ИИ.
Архитектура и принципы работы промышленных решений, созданных на основе ИИ. Области применения искусственного интеллекта.
Проводить классификацию знаний.
Строить модель знаний в виде графа.
Применять аналитические, вычислительные и системно-аналитические методы для решения прикладных задач в области управления объектами техники, технологии, организационными системами.
Навыками использования основных методов, способов и средств получения, хранения, переработки информации.
Навыками применения современных средств и языков разработки интеллектуальных систем.
Способен разрабатывать и применять методы машинного обучения для решения задач
Методы машинного обучения;
Постановка основных классов задач в машинном обучении.
Основной аппарат комбинаторики и мат. статистики. Регрессионный анализ и сжатие данных.
Методы оптимизации;
SQL базы данных (GreenPlum, Postgres, Oracle);
NoSQL базы данных (Cassandra, MongoDB,
ElasticSearch, Neo4J, Hbase);
Виды представления данных: табличные, графовые, временные ряды.
Работать с программным инструментарием Data Mining и Machine Learning
Проводить анализ качества построенной модели линейной регрессии с помощью библиотеки Scikit-Learn
Сравнивать различные алгоритмы по эффективности
Применять методы оптимизации с использованием глобальных верхних оценок, зависящих от параметра.
Работы с библиотекой машинного обучения Scikit-Learn
Построения модели линейной регрессии с помощью библиотеки Scikit-Learn
Решения оптимизационных задач
Способен использовать инструментальные средства для решения задач машинного обучения
Технологии кластеризации и классификации.
Деревья решений.
Потоковая обработка данных (data streaming, event processing);
Шины данных (kafka);
Языки программирования и библиотеки (Python, R);
Платформы данных (облачные и внутрикорпоративные);
Качество данных, подходы и инструменты;
Инструменты анализа данных и Machine Learning (Rapid Miner);
Массово параллельные вычисления для ускорения машинного обучения (GPU) в задачах машинного обучения;
Преимущества графических процессоров для глубокого обучения.
Проводить анализ качества построенной модели логистической регрессии
Применять алгоритмы кластеризации данных
Производить импорт библиотек RAPIDS в Python
Построения модели логистической регрессии с помощью библиотеки Scikit-Learn.
Реализации алгоритма построения дерева с критерием информационного
выигрыша и критерием Джини и определению класса по мажоритарному классу в листе
Работы с RAPIDS – открытыми библиотеками NVIDIA для Python
Способен создавать и поддерживать системы искусственного интеллекта на основе нейросетевых моделей и методов
Нейронные сети. Генетические алгоритмы.
Онлайн подход к обучению на больших данных на примере линейных моделей.
Архитектура нейронных сетей.
Эффективное использование нескольких GPU.
LSH. Кластеризация больших данных.
Параллельные алгоритмы для обработки BigData.
Архитектура и принципы работы промышленных решений, созданных на основе
искусственного интеллекта
Обучать модели на выборке (в несколько гигабайт)
Применять Apache Spark в оптимизации гиперпараметров
Работать с системой поддержки принятия решений
Сравнивать экспериментальные графики (обучающая выборка и тестовая выборка)
Работать с Keras (Deep Learning и Python)
Использовать кластеризацию k-средних для построения модели
Использования Vowpal Wabbit в задаче классификации
Использования метода стохастического градиентного спуска SGD
Использования алгоритмов K-Means
Способен разрабатывать системы анализа больших данных
Обработка данных с помощью (Hadoop/Hive/Spark)
Конвейер данных (Storm, Kafka)
Назначение, область применения, структура, принципы работы MapReduce
Распределенные файловые системы (HDFS, Object Storage): структура, достоинства, недостатки и сфера применения
Статистические методы анализа данных
Технологии анализа данных.
Платформы данных (облачные и внутрикорпоративные). Цифровая платформа анализа данных.
Экосистема Hadoop и элементы Системы Обработки
Данных. Аналоги из экосистем GCP, AWS.
Инструменты с открытым исходным кодом для анализа больших данных
Процессы ETL в анализе BigData
Язык запросов MDX
Моделирование данных
Совместное использование базы данных. Безопасность данных.
Реляционные базы данных SQL: GreenPlum, Postgres, Oracle
Базы данных NoSQL: Cassandra, MongoDB, ElasticSearch, Neo4J, Hbase.
Массово параллельная обработка и анализ данных. Особенности организации СУБД.
Облачные хранилища данных (Data Warehouses)
Data Lake (озеро данных): назначение, компоненты, проблемы. Потоковая обработка данных (data streaming, event processing).
Применять методы бакетирования и партиционирования в Apache Hive и Spark в зависимости от поставленной задачи
Строить архитектуру обработки данных в реальном времени – Apache Kafka
Применять MapReduce для решения практических задач.
Применять средства анализа данных на персональных компьютерах
Проводить анализ данных используя методологию CRISP-DM.
Применять методы анализа на графах
Выбирать облачные технологии или on-premises инфраструктуру в зависимости от задачи
Применять Rapid Miner для решения практических задач
Создавать логическую и физическую модель базы данных
Разрабатывать запросы для загрузки данных в формате JSON в СУБД MongoDB
Моделировать данные в хранилище Data Warehouses
Настройки кластера Apache Spark и Hive на Hadoop
Обработки данных с помощью (Hadoop/Hive/Spark)
Установки и настройки Storm и Kafka
Установки, настройки, запуска MapReduce
Обработки данных с помощью библиотеки tidyverse. Статистического анализа данных в R.
Извлечения данных из источника, очистки данных, обогащения,
трансформирования и проведения интеграции в единую целевую модель
Установки базы данных PostgreSQL и PGAdmin, создания базы данных для решения практической задачи, приведения ее к 3NF, проведения ее денормализации
Использования СУБД MongoDB для решения практической задачи
Разработки консольной утилиты для преобразования информации в формате CSV в формат JSON
Способен создавать и внедрять одну или несколько сквозных цифровых субтехнологий искусственного интеллекта
Особенности построения рекомендательных систем на больших данных. Content-based, collaborative filtering, ALS, iALS.
Цифровая платформа анализа данных;
Работа с распределенной кластерной системой;
ETL процессы и инструменты;
Уровни предоставления данных (ODS, DDL,семантический слой, модель данных);
Системы поддержки принятия решений.
Создавать систему рекомендаций (по продуктам)
Правильно оценивать риски при реализации проекта, ставить задачу и проверять результат, на качественном уровне понимать плюсы и минусы различных инструментов.
Обучения модели content-based и collaborative фильтрации, проверки работы модели, написания выводов.
Требования
Слушатели должны обладать следующими знаниями, умениями и владеть навыками:
PYTHON
• Знание синтаксиса языка
• Понимание базовых структур данных
• Владение основами ООП (класс, объект)
SQL
• Знание базового синтаксиса (SELECT, WHERE, GROUP BY, HAVING)
• Умение составлять подзапросы и делать все виды JOIN
• Навык работы с оконными функциями
ИНФРАСТРУКТУРА
• Умение работать с командной строкой
• Навыки работы с Docker
• Знание базовых команд Linux
• Навыки работы с Git
Образование
- Высшее образование
- Среднее профессиональное образование
Квалификация
Владение необходимыми профессиональными компетенциями
Способен использовать и адаптировать существующие математические методы и системы программирования для разработки и реализации алгоритмов решения прикладных задач;
Способен применять и модифицировать математические модели для решения задач в области профессиональной деятельности;
Владеет широкой общей подготовкой (базовыми знаниями) для решения практических задач в области информационных систем и технологий;
Способен использовать современные компьютерные технологии поиска информации для решения поставленной задачи, критического анализа этой информации и обоснования принятых идей и подходов к решению;
Способен выбирать и оценивать способ реализации информационных систем и устройств (программно-, аппаратно- или программно-аппаратно-) для решения поставленной задачи.
Иные требования и рекомендации для обучения по программе
Слушатели должны обладать следующими знаниями, умениями и владеть навыками:
PYTHON
• Знание синтаксиса языка
• Понимание базовых структур данных
• Владение основами ООП (класс, объект)
SQL
• Знание базового синтаксиса (SELECT, WHERE, GROUP BY, HAVING)
• Умение составлять подзапросы и делать все виды JOIN
• Навык работы с оконными функциями
ИНФРАСТРУКТУРА
• Умение работать с командной строкой
• Навыки работы с Docker
• Знание базовых команд Linux
• Навыки работы с Git
Модули
свернутьПреподаватели
Булаева
Наталья Александровна
«Союз участников отношений в сфере образования»
Вице-президент
Кандидат экономических наук
https://1t.ru/teacher-bulaevaКузин
Антон Алексеевич
МТУСИ
Старший преподаватель кафедры «Математическая кибернетика и информационные технологии», факультет информационных технологий
https://1t.ru/teacher-kuzinРабин
Алексей Владимирович
Санкт-Петербургский государственный университет аэрокосмического приборостроения (ГУАП)
Директор центра координации научных исследований
Доктор технических наук
Доцент кафедры аэрокосмических компьютерных и программных систем
https://1t.ru/teacher-rabinЕрохин
Кирилл Сергеевич
ООО "Альмира"
Руководитель отдела Data Science
Набока
Михаил Викторович
Индивидуальный предприниматель
Сертифицированный BI Data Analyst
Кандидат технических наук
Семененко
Анатолий Сергеевич
1Т
Системный аналитик, преподаватель ДПО
https://1t.ru/teacher-semenenkoПрофстандарт
Специалист по большим данным
06.042Специальность
Инженер данных (Data Engineer)
Ответственный за программу
+79993333307