III уровень Искусственный интеллект

Инженер данных

ООО «1Т»
260 часов длительность
Онлайн формат
Продвинутый уровень
1 поток (закрыт) 14.09-15.12.2022
2 поток (закрыт) 04.10-20.12.2022

Описание

Программа является программой повышения квалификации и разработана с учетом потребностей слушателей, которые хотят продолжить карьеру в IT в качестве инженера данных. 

#инженер_данных #data_engineer #большие_данные #big_data

Программа предназначена для изучения основ профессии Data Engineer и позволит получить знания, умения и навыки в следующих направлениях:

– выбирать адекватные методы и инструментальные средства решения задач искусственного интеллекта;

– разрабатывать и применять методы машинного обучения для решения задач;

– использовать инструментальные средства для решения задач машинного обучения;

– создавать и поддерживать системы искусственного интеллекта на основе нейросетевых моделей и методов;

– разрабатывать системы анализа больших данных;

– создавать и внедрять одну или несколько сквозных цифровых субтехнологий искусственного интеллекта.

Программа рассчитана на слушателей, имеющих базовое математическое или техническое образование.

Полученные компетенции позволят вам стать востребованным специалистом на рынке труда в условиях его цифровой трансформации.

Основной формой реализации Программы является очно-заочная форма с использованием электронного обучения и дистанционных образовательных технологий.

Количество часов, отведённое на выполнение практических заданий, в т.ч. в режиме самостоятельной работы, составляет 185 часов (более 70%).

Часов в программе
65 часов
лекции
126 часов
практика
62 часа
самостоятельная
4 часа
промежуточная аттестация
1 час
входная диагностика
2 часа
итоговая аттестация
260 часов
всего
Цель программы
Целью программы повышения квалификации «Инженер данных» является совершенствование и (или) получение новых профессиональных компетенций, необходимых для профессиональной деятельности, и (или) повышение профессионального уровня в области искусственного интеллекта и больших данных при реализации проектов и разработки новых решений на основе данных.
Актуальность
Федеральный проект «Искусственный интеллект» предусматривает повышение уровня кадрового обеспечения российского рынка технологий искусственного интеллекта, внедрение инновационных решений в разные сферы хозяйствования, повышение доступности и качества данных, необходимых для развития технологий искусственного интеллекта.
Следовательно, первоочередным на нынешнем этапе является формирование принципиально новых направлений деятельности во всех отраслях экономики на основе технологий искусственного интеллекта, что предполагает одновременно дальнейшее развитие целостной системы устойчивого воспроизводства и привлечения кадров при тесном сотрудничестве и взаимодействии научных и образовательных организаций, предпринимательского сообщества, государственных корпораций и компаний, создание новых высокопроизводительных рабочих мест и повышение уровня занятости населения, оптимизация процессов подбора и обучения кадров.
На сегодняшний день данные – это жизнеобеспечение любой компании, «кровь» предприятия, без чего невозможно его существование. Поэтому в любой сфере национальной экономики функционирование организации должно быть реализовано на основе гибкого управления данными, в том числе большими (Big Data), и оно станет успешным, если все её бизнес-процессы и организационная структура построены на основе сквозной интеграции информационных потоков, их непрерывной и прогнозной предиктивной аналитики.
Одна из ключевых задач инженера данных – сделать процесс анализа данных в компании максимально удобным для аналитиков, обеспечить их очищенными достоверными данными в должном количестве и в должный срок, а это, в свою очередь, будет обеспечено посредством ряда следующих шагов:
− определение основных источников данных и их сбор;
− выделение внутренней информации (финансовые отчеты, корпоративные базы данных, заявки на сайте и внешние источники – социальные сети, новостные заголовки, Интернет вещей;
− «очистка» данных;
− построение архитектуры процесса обработки данных и визуализация процесса разработки продукта;
− разработка моделей процессов;
− использование необходимого инструментария хранения и обработки больших массивов данных;
− превращение моделей в готовый продукт или сервис.
Входная диагностика 1 час
Входная диагностика состоит из решения тестового задания из 45 вопросов. Слушатель выбирает утверждения, которые он считает верными. Выбранные утверждения демонстрируют степень его владения компетенциями в области искусственного интеллекта и методов машинного обучения.
Итоговая аттестация 2 часа
Решение практических кейсов

Компетенции

Общепрофессиональные


Способен разрабатывать оригинальные алгоритмы и программные средства, в том числе с использованием современных интеллектуальных технологий, для решения профессиональных задач
Знать:

Содержание профессии «Инженер данных»: потребность и ценность, задачи, навыки, инструменты в классификации данных. Обязанности и функция в команде.
Технологии DataScience и BigData для решения практических задач. Данные и источники, характеристики, корреляция.
Синтаксис и структуры в Python.
Использование библиотек NumPy, SciPy для вычислений, их отличия.
Обработка данных в Python. Библиотека Pandas.
Библиотеки визуализации Python Matplotlib, Seaborn, Plotly, Bokeh, Altair, Folium
Синтаксис языка программирования С++
Сопоставление хэш-таблицы и map в С++

Уметь:

Формулировать задачи инженера данных, основные вызовы, стоящие перед ним.
Различать структурированные, полуструктурированные и неструктурированные данные.
Решать практические задачи используя базовые конструкции и структуры языка Python (основные функции для работы со списками и кортежами, структуру словарей и множеств).
Решать практические задачи на Python используя библиотеки Pandas
Решать практические задачи на Python используя библиотеки Matplotlib, Seaborn, Plotly
Решать практические задачи на С++ используя циклы, условия, функции и классы

Владеть:

Установки и настройки среды разработки Python (Anaconda или др.)
Решения задач на Python используя библиотеки NumPy и Scipy
Загрузки датасета, преобразования и осуществления срезов данных, проведения описательного анализа, построения графиков распределения, визуализации разных признаков, их распределения, агрегирования признаков, выявления топа коррелируемых признаков, оценки взаимосвязи

Профессиональные


Способен классифицировать и идентифицировать задачи искусственного интеллекта, выбирать адекватные методы и инструментальные средства решения задач искусственного интеллекта
Знать:

Определения, история развития и главные тренды ИИ. Формирование концепции искусственного интеллекта, основные направления исследований, этапы развития и проблемы. Рынок технологий искусственного интеллекта. Рынок ИИ в России. Мировой рынок ИИ.
Процесс, стадии и методологии разработки решений на основе ИИ.
Архитектура и принципы работы промышленных решений, созданных на основе ИИ. Области применения искусственного интеллекта.

Уметь:

Проводить классификацию знаний.
Строить модель знаний в виде графа.
Применять аналитические, вычислительные и системно-аналитические методы для решения прикладных задач в области управления объектами техники, технологии, организационными системами.

Владеть:

Навыками использования основных методов, способов и средств получения, хранения, переработки информации.
Навыками применения современных средств и языков разработки интеллектуальных систем.

Способен разрабатывать и применять методы машинного обучения для решения задач
Знать:

Методы машинного обучения;
Постановка основных классов задач в машинном обучении.
Основной аппарат комбинаторики и мат. статистики. Регрессионный анализ и сжатие данных.
Методы оптимизации;
SQL базы данных (GreenPlum, Postgres, Oracle);
NoSQL базы данных (Cassandra, MongoDB,
ElasticSearch, Neo4J, Hbase);
Виды представления данных: табличные, графовые, временные ряды

Уметь:

Работать с программным инструментарием Data Mining и Machine Learning
Проводить анализ качества построенной модели линейной регрессии с помощью библиотеки Scikit-Learn
Сравнивать различные алгоритмы по эффективности
Применять методы оптимизации с использованием глобальных верхних оценок, зависящих от параметра

Владеть:

Работы с библиотекой машинного обучения Scikit-Learn
Построения модели линейной регрессии с помощью библиотеки Scikit-Learn
Решения оптимизационных задач

Способен использовать инструментальные средства для решения задач машинного обучения
Знать:

Технологии кластеризации и классификации.
Деревья решений.
Потоковая обработка данных (data streaming, event processing);
Шины данных (kafka);
Языки программирования и библиотеки (Python, R);
Языки программирования и библиотеки (C++);
Платформы данных (облачные и внутрикорпоративные);
Качество данных, подходы и инструменты;
Инструменты анализа данных и Machine Learning (Rapid Miner);
Массово параллельные вычисления для ускорения машинного обучения (GPU) в задачах машинного обучения.
Преимущества графических процессоров для глубокого обучения

Уметь:

Проводить анализ качества построенной модели логистической регрессии
Применять алгоритмы кластеризации данных
Производить импорт библиотек RAPIDS в Python

Владеть:

Построения модели логистической регрессии с помощью библиотеки Scikit-Learn.
Реализации алгоритма построения дерева с критерием информационного
выигрыша и критерием Джини и определению класса по мажоритарному классу в листе
Работы с RAPIDS  –  открытыми библиотеками NVIDIA для Python

Способен создавать и поддерживать системы искусственного интеллекта на основе нейросетевых моделей и методов
Знать:

Нейронные сети. Генетические алгоритмы.
Онлайн подход к обучению на больших данных на примере линейных моделей.
Архитектура нейронных сетей.
Эффективное использование нескольких GPU.
LSH. Кластеризация больших данных.
Параллельные алгоритмы для обработки BigData.
Архитектура и принципы работы промышленных решений, созданных на основе
искусственного интеллекта

Уметь:

Обучать модели на выборке (в несколько гигабайт)
Применять Apache Spark в оптимизации гиперпараметров
Работать с системой поддержки принятия решений
Сравнивать экспериментальные графики (обучающая выборка и тестовая выборка)
Работать с Keras (Deep Learning и Python)
Использовать кластеризацию k-средних для построения модели

Владеть:

Использования Vowpal Wabbit в задаче классификации
Использования метода стохастического градиентного спуска SGD
Использования алгоритмов K-Means

Способен разрабатывать системы анализа больших данных
Знать:

Обработка данных с помощью (Hadoop/Hive/Spark)
Конвейер данных (Storm, Kafka)
Назначение, область применения, структура, принципы работы MapReduce
Распределенные файловые системы (HDFS, Object Storage): структура, достоинства, недостатки и сфера применения
Статистические методы анализа данных
Технологии анализа данных.
Платформы данных (облачные и внутрикорпоративные). Цифровая платформа анализа данных.
Экосистема Hadoop и элементы Системы Обработки
Данных. Аналоги из экосистем GCP, AWS.
Инструменты с открытым исходным кодом для анализа больших данных
Процессы ETL в анализе BigData
Язык запросов MDX
Моделирование данных
Совместное использование базы данных. Безопасность данных.
Реляционные базы данных SQL: GreenPlum, Postgres, Oracle
Базы данных NoSQL: Cassandra, MongoDB, ElasticSearch, Neo4J, Hbase.
Массово параллельная обработка и анализ данных. Особенности организации СУБД.
Облачные хранилища данных (Data Warehouses)
Data Lake (озеро данных): назначение, компоненты, проблемы. Потоковая обработка данных (data streaming, event processing).

Уметь:

Применять методы бакетирования и партиционирования в Apache Hive и Spark в зависимости от поставленной задачи
Строить архитектуру обработки данных в реальном времени – Apache Kafka
Применять MapReduce для решения практических задач.
Применять средства анализа данных на персональных компьютерах
Проводить анализ данных используя методологию CRISP-DM.
Применять методы анализа на графах
Выбирать облачные технологии или on-premises инфраструктуру в зависимости от задачи
Применять Rapid Miner для решения практических задач
Создавать логическую и физическую модель базы данных
Разрабатывать запросы для загрузки данных в формате JSON в СУБД MongoDB
Моделировать данные в хранилище Data Warehouses

Владеть:

Настройки кластера Apache Spark и Hive на Hadoop
Обработки данных с помощью (Hadoop/Hive/Spark)
Установки и настройки Storm и Kafka
Установки, настройки, запуска MapReduce
Обработки данных с помощью библиотеки tidyverse. Статистического анализа данных в R.
Извлечения данных из источника, очистки данных, обогащения,
трансформирования и проведения интеграции в единую целевую модель
Установки базы данных PostgreSQL и PGAdmin, создания базы данных для решения практической задачи, приведения ее к 3NF, проведения ее денормализации
Использования СУБД MongoDB для решения практической задачи
Разработки консольной утилиты для преобразования информации в формате CSV в формат JSON

Способен создавать и внедрять одну или несколько сквозных цифровых субтехнологий искусственного интеллекта
Знать:

Особенности построения рекомендательных систем на больших данных. Content-based, collaborative filtering, ALS, iALS.
Цифровая платформа анализа данных;
Работа с распределенной кластерной системой;
ETL процессы и инструменты;
Уровни предоставления данных (ODS, DDL,семантический слой, модель данных);
Системы поддержки принятия решений

Уметь:

Создавать систему рекомендаций (по продуктам)
Правильно оценивать риски при реализации проекта, ставить задачу и проверять результат, на качественном уровне понимать плюсы и минусы различных инструментов

Владеть:

Обучения модели content-based и collaborative фильтрации, проверки работы модели, написания выводов

Требования

Требования к компетенциям, которыми должен обладать гражданин при поступлении на Образовательную программу:

Способен использовать и адаптировать существующие математические методы и системы программирования для разработки и реализации алгоритмов решения прикладных задач;

Способен применять и модифицировать математические модели для решения задач в области профессиональной деятельности;

Владеет широкой общей подготовкой (базовыми знаниями) для решения практических задач в области информационных систем и технологий;

Способен использовать современные компьютерные технологии поиска информации для решения поставленной задачи, критического анализа этой информации и обоснования принятых идей и подходов к решению;

Способен выбирать и оценивать способ реализации информационных систем и устройств (программно-, аппаратно- или программно-аппаратно-) для решения поставленной задачи.

Образование
  • Высшее образование
  • Среднее профессиональное образование
Квалификация
Специалист (Математические науки, Инженерное дело, технологии и технические науки), бакалавр (Математические науки, Инженерное дело, технологии и технические науки) или магистр (Математические науки, Инженерное дело, технологии и технические науки)
Владение необходимыми профессиональными компетенциями
PYTHON
• Знание синтаксиса языка
• Понимание базовых структур данных
• Владение основами ООП (класс, объект)

SQL
• Знание базового синтаксиса (SELECT, WHERE, GROUP BY, HAVING)
• Умение составлять подзапросы и делать все виды JOIN
• Навык работы с оконными функциями

ИНФРАСТРУКТУРА
• Умение работать с командной строкой
• Навыки работы с Docker
• Знание базовых команд Linux
• Опыт работы с Git
Иные требования и рекомендации для обучения по программе

Требования к компетенциям, которыми должен обладать гражданин при поступлении на Образовательную программу:

Способен использовать и адаптировать существующие математические методы и системы программирования для разработки и реализации алгоритмов решения прикладных задач;

Способен применять и модифицировать математические модели для решения задач в области профессиональной деятельности;

Владеет широкой общей подготовкой (базовыми знаниями) для решения практических задач в области информационных систем и технологий;

Способен использовать современные компьютерные технологии поиска информации для решения поставленной задачи, критического анализа этой информации и обоснования принятых идей и подходов к решению;

Способен выбирать и оценивать способ реализации информационных систем и устройств (программно-, аппаратно- или программно-аппаратно-) для решения поставленной задачи.

Модули

свернуть
49ч
Модуль 1 Введение в инженерию больших данных. Языки программирования (Python/C++)
Модуль ориентирован на введение в технологии DataScience и BigData для решения практических задач. Предусматривает изучение языков программирования Python и C++. Вы научитесь программировать на Python и C++, работать с библиотеками Python
44ч
Модуль 3 Хранение данных на основе БД. Моделирование данных. Хранилища данных. Data Lake
Модуль направлен на освоение технологий моделирования данных, работу с различными базами данных, изучение массово параллельной обработки и анализа данных, облачных хранилищ данных (Data Warehouses), Data Lake (озеро данных). Вы научитесь работать с базами данных и хранилищами данных, моделировать данные для решения практических задач
23ч
Модуль 5 Искусственный интеллект
Модуль направлен на формирование знаний в области искусственного интеллекта, его роли в бизнесе. Кроме того, вы научитесь создавать систему рекомендаций (по продуктам). Вы пройдете практику на базе организации, занимающейся внедрением технологий искусственного интеллекта
59ч
Модуль 2 Системы обработки и анализа больших данных.
В данном модуле вы получите знания об обработке данных с помощью (Hadoop/Hive/Spark), конвейере данных (Storm, Kafka), Map Reduce, распределенной файловой системе HDFS. Кроме того, научитесь применять статистические методы анализа данных, технологии анализа данных, использовать платформы данных, инструменты с открытым исходным кодом для анализа больших данных. Вы получите базовые знания и умения ETL при анализе больших данных
82ч
Модуль 4 Машинное обучение
Модуль ориентирован на изучение и овладение программным инструментарием Data Mining и Machine Learning, технологиями кластеризации и классификации, методами оптимизации машинного обучения на больших данных, программами рекомендательных систем. Вы углубите свои знания и умения в области машинного обучения на больших данных
49ч
Модуль 1 Введение в инженерию больших данных. Языки программирования (Python/C++)
Модуль ориентирован на введение в технологии DataScience и BigData для решения практических задач. Предусматривает изучение языков программирования Python и C++. Вы научитесь программировать на Python и C++, работать с библиотеками Python
59ч
Модуль 2 Системы обработки и анализа больших данных.
В данном модуле вы получите знания об обработке данных с помощью (Hadoop/Hive/Spark), конвейере данных (Storm, Kafka), Map Reduce, распределенной файловой системе HDFS. Кроме того, научитесь применять статистические методы анализа данных, технологии анализа данных, использовать платформы данных, инструменты с открытым исходным кодом для анализа больших данных. Вы получите базовые знания и умения ETL при анализе больших данных
44ч
Модуль 3 Хранение данных на основе БД. Моделирование данных. Хранилища данных. Data Lake
Модуль направлен на освоение технологий моделирования данных, работу с различными базами данных, изучение массово параллельной обработки и анализа данных, облачных хранилищ данных (Data Warehouses), Data Lake (озеро данных). Вы научитесь работать с базами данных и хранилищами данных, моделировать данные для решения практических задач
82ч
Модуль 4 Машинное обучение
Модуль ориентирован на изучение и овладение программным инструментарием Data Mining и Machine Learning, технологиями кластеризации и классификации, методами оптимизации машинного обучения на больших данных, программами рекомендательных систем. Вы углубите свои знания и умения в области машинного обучения на больших данных
23ч
Модуль 5 Искусственный интеллект
Модуль направлен на формирование знаний в области искусственного интеллекта, его роли в бизнесе. Кроме того, вы научитесь создавать систему рекомендаций (по продуктам). Вы пройдете практику на базе организации, занимающейся внедрением технологий искусственного интеллекта

Преподаватели

Рабин

Алексей Владимирович

Санкт-Петербургский государственный университет аэрокосмического приборостроения (ГУАП)

директор центра координации научных исследований

доктор технических наук

Васильев

Роберт Андреевич

Компания «Z-Union», ООО «Реал-В»

CEO, управляющий партнер, ООО «Реал-В» - генеральный директор

http://course.alrii.ru/#rec430127293

Душкин

Роман Викторович

Агентство Искусственного Интеллекта

директор по науке и технологиям

http://course.alrii.ru/#rec430127293

Амелин

Владислав Владимирович

Z-union, АЛРИИ

CTO, сооснователь

http://course.alrii.ru/#rec430127293

Белоглазов

Александр Анатольевич

ФГБОУ ВО «Московский государственный гуманитарно-экономический университет»

доцент кафедры информационных технологий и прикладной математики

кандидат технических наук

Юров

Юрий Аркадьевич

Z-union

ML/DL разработчик

Кузин

Антон Алексеевич

МТУСИ

старший преподаватель кафедры «Математическая кибернетика и информационные технологии», факультет информационных технологий

https://1t.ru/teacher-kuzin
Авторизуйтесь чтобы записаться

Профстандарт

Специалист по большим данным

06.042

Специальность

Инженер данных (Data Engineer)

Ответственный за программу

engineer@1t.ru

+78006003180