III уровень Искусственный интеллект

Инженер данных

260 часов длительность
Онлайн формат
Продвинутый уровень
1 поток (закрыт) 05.06-04.09.2023
2 поток (закрыт) 04.09-04.12.2023

Описание

Программа является программой повышения квалификации и разработана с учетом потребностей слушателей, которые хотят продолжить карьеру в IT в качестве инженера данных. 

#инженер_данных #data_engineer #большие_данные #big_data

Программа предназначена для изучения основ профессии Data Engineer и позволит получить знания, умения и навыки в следующих направлениях:

  • выбирать адекватные методы и инструментальные средства решения задач искусственного интеллекта;
  • разрабатывать и применять методы машинного обучения для решения задач;
  • использовать инструментальные средства для решения задач машинного обучения;
  • создавать и поддерживать системы искусственного интеллекта на основе нейросетевых моделей и методов;
  • обеспечивать сбор, хранение и управление потоками данных в реальном времени;
  • создавать и внедрять одну или несколько сквозных цифровых субтехнологий искусственного интеллекта.

Полученные компетенции позволят вам стать востребованным специалистом на рынке труда в условиях его цифровой трансформации.

Основной формой реализации Программы является очно-заочная форма с использованием электронного обучения и дистанционных образовательных технологий.

Количество часов, отведённое на выполнение практических заданий, в т.ч. в режиме самостоятельной работы, составляет более 70%.

 

Часов в программе
69 часов
лекции
120 часов
практика
54 часа
самостоятельная
8 часов
промежуточная аттестация
1 час
входная диагностика
8 часов
итоговая аттестация
260 часов
всего
Цель программы
Целью программы является получение слушателями компетенций, необходимых для профессиональной деятельности инженера данных для разработки и применения технологических решений в области искусственного интеллекта и в смежных областях.
Актуальность
На сегодняшний день данные – это жизнеобеспечение любой компании, «кровь» предприятия, без чего невозможно его существование. Поэтому в любой сфере национальной экономики функционирование организации должно быть реализовано на основе гибкого управления данными, в том числе большими (Big Data), и оно станет успешным, если все её бизнес-процессы и организационная структура построены на основе сквозной интеграции информационных потоков, их непрерывной и прогнозной предиктивной аналитики.

Специалисты – Инженеры данных отвечают за сбор, преобразование, управление данными, а также извлечение полезных для бизнеса сведений из массивов больших данных и мониторинг их жизненного цикла. При этом весьма важными навыками являются такие, как создание и поддержка инфраструктуры больших данных, обеспечение сбора, хранения и управление потоками данных в реальном времени, анализ структурированных и неструктурированных данных с помощью методов статистики, алгоритмов машинного обучения (Machine Learning) и предиктивной аналитики, что актуализирует задачу подготовки кадров соответствующей квалификации (инженеров данных) с учетом потребностей бизнеса к квалификации специалистов в области искусственного интеллекта.
Входная диагностика 1 час
Входная диагностика состоит из решения тестового задания из 20 вопросов. Слушатель выбирает утверждения, которые он считает верными. Выбранные утверждения демонстрируют степень его владения компетенциями в области искусственного интеллекта и методов машинного обучения.
Итоговая аттестация 8 часов
Решение практико-ориентированных задач (кейсов)

Компетенции

Общепрофессиональные


Способен разрабатывать оригинальные алгоритмы и программные средства, в том числе с использованием современных интеллектуальных технологий, для решения профессиональных задач
Знать:

Содержание профессии «Инженер данных»: потребность и ценность, задачи, навыки, инструменты в классификации данных. Обязанности и функция в команде.
Данные и источники, характеристики, корреляция.
GitFlow и стратегии работы с версиями.
Как устроена работа в системах контроля версий.
Docker и его компоненты.
Синтаксис и структуры в Python.
Синтаксис языков программирования JAVA/С#.
Использование библиотек NumPy, SciPy для вычислений, их отличия.
Обработка данных в Python. Библиотека Pandas.
Библиотеки визуализации Python Matplotlib, Seaborn, Plotly, Bokeh, Altair, Folium

Уметь:

Формулировать задачи инженера данных, основные вызовы, стоящие перед ним.
Различать структурированные, полуструктурированные и неструктурированные данные.
Решать практические задачи используя базовые конструкции и структуры языка Python (основные функции для работы со списками и кортежами, структуру словарей и множеств).
Решать практические задачи на Python используя библиотеки Pandas
Решать практические задачи на Python используя библиотеки Matplotlib, Seaborn, Plotly

Владеть:

Установки и настройки среды разработки Python (Anaconda или др.)
Решения задач на Python используя библиотеки NumPy и Scipy
Загрузки датасета, преобразования и осуществления срезов данных, проведения описательного анализа, построения графиков распределения, визуализации разных признаков, их распределения, агрегирования признаков, выявления топа коррелируемых признаков, оценки взаимосвязи

Профессиональные


Способен классифицировать и идентифицировать задачи искусственного интеллекта, выбирать адекватные методы и инструментальные средства решения задач искусственного интеллекта
Знать:

Определения, история развития и главные тренды ИИ. Формирование концепции искусственного интеллекта, основные направления исследований, этапы развития и проблемы. Рынок технологий искусственного интеллекта. Рынок ИИ в России. Мировой рынок ИИ.
Процесс, стадии и методологии разработки решений на основе ИИ.
Архитектура и принципы работы промышленных решений, созданных на основе ИИ. Области применения искусственного интеллекта.

Уметь:

Проводить классификацию знаний.
Строить модель знаний в виде графа.
Применять аналитические, вычислительные и системно-аналитические методы для решения прикладных задач в области управления объектами техники, технологии, организационными системами.

Владеть:

Навыками использования основных методов, способов и средств получения, хранения, переработки информации.
Навыками применения современных средств и языков разработки интеллектуальных систем.

Способен разрабатывать и применять методы машинного обучения для решения задач
Знать:

Методы машинного обучения;
Постановка основных классов задач в машинном обучении.
Основной аппарат комбинаторики и мат. статистики. Регрессионный анализ и сжатие данных.
Методы оптимизации;
SQL базы данных (GreenPlum, Postgres, Oracle);
NoSQL базы данных (Cassandra, MongoDB,
ElasticSearch, Neo4J, Hbase);
Виды представления данных: табличные, графовые, временные ряды.

Уметь:

Работать с программным инструментарием Data Mining и Machine Learning
Проводить анализ качества построенной модели линейной регрессии с помощью библиотеки Scikit-Learn
Сравнивать различные алгоритмы по эффективности
Применять методы оптимизации с использованием глобальных верхних оценок, зависящих от параметра.

Владеть:

Работы с библиотекой машинного обучения Scikit-Learn
Построения модели линейной регрессии с помощью библиотеки Scikit-Learn
Решения оптимизационных задач

Способен использовать инструментальные средства для решения задач машинного обучения
Знать:

Технологии кластеризации и классификации.
Деревья решений.
Потоковая обработка данных (data streaming, event processing);
Шины данных (kafka);
Языки программирования и библиотеки (Python, R);
Платформы данных (облачные и внутрикорпоративные);
Качество данных, подходы и инструменты;
Инструменты анализа данных и Machine Learning (Rapid Miner);
Массово параллельные вычисления для ускорения машинного обучения (GPU) в задачах машинного обучения;
Преимущества графических процессоров для глубокого обучения.

Уметь:

Проводить анализ качества построенной модели логистической регрессии
Применять алгоритмы кластеризации данных
Производить импорт библиотек RAPIDS в Python

Владеть:

Построения модели логистической регрессии с помощью библиотеки Scikit-Learn.
Реализации алгоритма построения дерева с критерием информационного
выигрыша и критерием Джини и определению класса по мажоритарному классу в листе
Работы с RAPIDS  –  открытыми библиотеками NVIDIA для Python

Способен создавать и поддерживать системы искусственного интеллекта на основе нейросетевых моделей и методов
Знать:

Нейронные сети. Генетические алгоритмы.
Онлайн подход к обучению на больших данных на примере линейных моделей.
Архитектура нейронных сетей.
Эффективное использование нескольких GPU.
LSH. Кластеризация больших данных.
Параллельные алгоритмы для обработки BigData.
Архитектура и принципы работы промышленных решений, созданных на основе
искусственного интеллекта

Уметь:

Обучать модели на выборке (в несколько гигабайт)
Применять Apache Spark в оптимизации гиперпараметров
Работать с системой поддержки принятия решений
Сравнивать экспериментальные графики (обучающая выборка и тестовая выборка)
Работать с Keras (Deep Learning и Python)
Использовать кластеризацию k-средних для построения модели

Владеть:

Использования Vowpal Wabbit в задаче классификации
Использования метода стохастического градиентного спуска SGD
Использования алгоритмов K-Means

Способен разрабатывать системы анализа больших данных
Знать:

Обработка данных с помощью (Hadoop/Hive/Spark)
Конвейер данных (Storm, Kafka)
Назначение, область применения, структура, принципы работы MapReduce
Распределенные файловые системы (HDFS, Object Storage): структура, достоинства, недостатки и сфера применения
Статистические методы анализа данных
Технологии анализа данных.
Платформы данных (облачные и внутрикорпоративные). Цифровая платформа анализа данных.
Экосистема Hadoop и элементы Системы Обработки
Данных. Аналоги из экосистем GCP, AWS.
Инструменты с открытым исходным кодом для анализа больших данных
Процессы ETL в анализе BigData
Язык запросов MDX
Моделирование данных
Совместное использование базы данных. Безопасность данных.
Реляционные базы данных SQL: GreenPlum, Postgres, Oracle
Базы данных NoSQL: Cassandra, MongoDB, ElasticSearch, Neo4J, Hbase.
Массово параллельная обработка и анализ данных. Особенности организации СУБД.
Облачные хранилища данных (Data Warehouses)
Data Lake (озеро данных): назначение, компоненты, проблемы. Потоковая обработка данных (data streaming, event processing).

Уметь:

Применять методы бакетирования и партиционирования в Apache Hive и Spark в зависимости от поставленной задачи
Строить архитектуру обработки данных в реальном времени – Apache Kafka
Применять MapReduce для решения практических задач.
Применять средства анализа данных на персональных компьютерах
Проводить анализ данных используя методологию CRISP-DM.
Применять методы анализа на графах
Выбирать облачные технологии или on-premises инфраструктуру в зависимости от задачи
Применять Rapid Miner для решения практических задач
Создавать логическую и физическую модель базы данных
Разрабатывать запросы для загрузки данных в формате JSON в СУБД MongoDB
Моделировать данные в хранилище Data Warehouses

Владеть:

Настройки кластера Apache Spark и Hive на Hadoop
Обработки данных с помощью (Hadoop/Hive/Spark)
Установки и настройки Storm и Kafka
Установки, настройки, запуска MapReduce
Обработки данных с помощью библиотеки tidyverse. Статистического анализа данных в R.
Извлечения данных из источника, очистки данных, обогащения,
трансформирования и проведения интеграции в единую целевую модель
Установки базы данных PostgreSQL и PGAdmin, создания базы данных для решения практической задачи, приведения ее к 3NF, проведения ее денормализации
Использования СУБД MongoDB для решения практической задачи
Разработки консольной утилиты для преобразования информации в формате CSV в формат JSON

Способен создавать и внедрять одну или несколько сквозных цифровых субтехнологий искусственного интеллекта
Знать:

Особенности построения рекомендательных систем на больших данных. Content-based, collaborative filtering, ALS, iALS.
Цифровая платформа анализа данных;
Работа с распределенной кластерной системой;
ETL процессы и инструменты;
Уровни предоставления данных (ODS, DDL,семантический слой, модель данных);
Системы поддержки принятия решений.

Уметь:

Создавать систему рекомендаций (по продуктам)
Правильно оценивать риски при реализации проекта, ставить задачу и проверять результат, на качественном уровне понимать плюсы и минусы различных инструментов.

Владеть:

Обучения модели content-based и collaborative фильтрации, проверки работы модели, написания выводов.

Требования

Слушатели должны обладать следующими знаниями, умениями и владеть навыками:

PYTHON

• Знание синтаксиса языка
• Понимание базовых структур данных
• Владение основами ООП (класс, объект)

 SQL

• Знание базового синтаксиса (SELECT, WHERE, GROUP BY, HAVING)
• Умение составлять подзапросы и делать все виды JOIN
• Навык работы с оконными функциями

ИНФРАСТРУКТУРА

• Умение работать с командной строкой
• Навыки работы с Docker
• Знание базовых команд Linux
• Навыки работы с Git

Образование
  • Высшее образование
  • Среднее профессиональное образование
Квалификация
К обучению на программе допускаются: предприниматели, работники и владельцы компаний IT-сектора, имеющие высшее образование или среднее профессиональное (либо получающие высшее или среднее профессиональное образование), а также мотивированные специалисты из других профессиональных сфер и студенты, обучающиеся в области информационных технологий, а также по иным специальностям, которые заинтересованы в получении новых компетенций по специальности «Инженер данных».
Владение необходимыми профессиональными компетенциями
Требования к уровню подготовленности, которыми должен обладать гражданин при поступлении на курс:

Способен использовать и адаптировать существующие математические методы и системы программирования для разработки и реализации алгоритмов решения прикладных задач;
Способен применять и модифицировать математические модели для решения задач в области профессиональной деятельности;
Владеет широкой общей подготовкой (базовыми знаниями) для решения практических задач в области информационных систем и технологий;
Способен использовать современные компьютерные технологии поиска информации для решения поставленной задачи, критического анализа этой информации и обоснования принятых идей и подходов к решению;
Способен выбирать и оценивать способ реализации информационных систем и устройств (программно-, аппаратно- или программно-аппаратно-) для решения поставленной задачи.
Иные требования и рекомендации для обучения по программе

Слушатели должны обладать следующими знаниями, умениями и владеть навыками:

PYTHON

• Знание синтаксиса языка
• Понимание базовых структур данных
• Владение основами ООП (класс, объект)

 SQL

• Знание базового синтаксиса (SELECT, WHERE, GROUP BY, HAVING)
• Умение составлять подзапросы и делать все виды JOIN
• Навык работы с оконными функциями

ИНФРАСТРУКТУРА

• Умение работать с командной строкой
• Навыки работы с Docker
• Знание базовых команд Linux
• Навыки работы с Git

Модули

свернуть
110ч
Модуль 1 МОДУЛЬ 1. БАЗОВЫЙ
Модуль предполагает введение в основы инженерии больших данных, содержание профессии «Инженер данных». Отдельные темы посвящены коллективной работе в Git, работе в Docker, изучению языка программирования Python, обзору других языков программирования (JAVA, C#), использованию библиотек Python для вычислений, обработки данных и их визуализации. Введение в базы данных и теорию хранения данных, изучение реляционных баз данных, баз данных NoSQL, массово-параллельной обработки и анализа данных, облачных хранилищ данных, Data Lake, колоночных СУБД и Clickhouse, BI-систем и визуализации данных
141ч
Модуль 2 МОДУЛЬ 2. ПРОФИЛЬНЫЙ
Модуль предполагает изучение систем обработки и анализа больших данных, а также машинного обучения и искусственного интеллекта. Отдельные темы посвящены изучению программного инструментария Data Mining и Machine Learning; основного аппарата комбинаторики и математической статистики; регрессионного анализа и сжатия данных. Будут рассмотрены технологии кластеризации и классификации данных, деревья решений, технологии нейронных сетей и генетических алгоритмов, методы оптимизации машинного обучения, GPU. Представлены методы и технологии онлайн-обучения и линейных моделей, рекомендательных систем, LSH. Введение в искусственный интеллект и роль искусственного интеллекта в бизнесе
110ч
Модуль 1 МОДУЛЬ 1. БАЗОВЫЙ
Модуль предполагает введение в основы инженерии больших данных, содержание профессии «Инженер данных». Отдельные темы посвящены коллективной работе в Git, работе в Docker, изучению языка программирования Python, обзору других языков программирования (JAVA, C#), использованию библиотек Python для вычислений, обработки данных и их визуализации. Введение в базы данных и теорию хранения данных, изучение реляционных баз данных, баз данных NoSQL, массово-параллельной обработки и анализа данных, облачных хранилищ данных, Data Lake, колоночных СУБД и Clickhouse, BI-систем и визуализации данных
141ч
Модуль 2 МОДУЛЬ 2. ПРОФИЛЬНЫЙ
Модуль предполагает изучение систем обработки и анализа больших данных, а также машинного обучения и искусственного интеллекта. Отдельные темы посвящены изучению программного инструментария Data Mining и Machine Learning; основного аппарата комбинаторики и математической статистики; регрессионного анализа и сжатия данных. Будут рассмотрены технологии кластеризации и классификации данных, деревья решений, технологии нейронных сетей и генетических алгоритмов, методы оптимизации машинного обучения, GPU. Представлены методы и технологии онлайн-обучения и линейных моделей, рекомендательных систем, LSH. Введение в искусственный интеллект и роль искусственного интеллекта в бизнесе

Преподаватели

Булаева

Наталья Александровна

«Союз участников отношений в сфере образования»

Вице-президент

Кандидат экономических наук

https://1t.ru/teacher-bulaeva

Кузин

Антон Алексеевич

МТУСИ

Старший преподаватель кафедры «Математическая кибернетика и информационные технологии», факультет информационных технологий

https://1t.ru/teacher-kuzin

Рабин

Алексей Владимирович

Санкт-Петербургский государственный университет аэрокосмического приборостроения (ГУАП)

Директор центра координации научных исследований

Доктор технических наук

Доцент кафедры аэрокосмических компьютерных и программных систем

https://1t.ru/teacher-rabin

Ерохин

Кирилл Сергеевич

ООО "Альмира"

Руководитель отдела Data Science

Набока

Михаил Викторович

Индивидуальный предприниматель

Сертифицированный BI Data Analyst

Кандидат технических наук

Семененко

Анатолий Сергеевич

Системный аналитик, преподаватель ДПО

https://1t.ru/teacher-semenenko
Авторизуйтесь чтобы записаться

Профстандарт

Специалист по большим данным

06.042

Специальность

Инженер данных (Data Engineer)

Ответственный за программу

data@1t.ru

+79993333307