III уровень

Инженер данных

Московский физико-технический институт (Национальный исследовательский университет)
256 часов длительность
Онлайн формат
Базовый уровень
1 поток 17.06-23.09.2024
2 поток 19.08-25.11.2024

Описание

Программа направлена на повышение квалификации инженеров данных. Невозможно разработать практически полезную систему искусственного интеллекта без качественных данных для обучения. Сбором и подготовкой данных для обучения моделей искусственного интеллекта занимаются инженеры данных. Таким образом, наличие в команде сильного инженера данных во много определяет успех реализации проекта искусственного интеллекта.

Во время обучения вы научитесь: собирать данные для обучения моделей искусственного интеллекта из разных источников: баз данных, интернет, социальных сетей; работать с реляционными базами данных с использованием языка SQL; обучать простые модели машинного обучения; использовать предварительно обученные модели машинного обучения; обрабатывать большие данные; автоматизировать сбор наборов данных и обучение моделей в виде потоков работ MLOps.

Программа подойдет: разработчикам Python начального и среднего уровня, которые хотят освоить новую профессию Инженер данных; специалистам в области машинного обучения начального и среднего уровня, которые хотят научиться готовить данные для обучения моделей.

Для успешного освоения программы необходимы знания начального уровня в следующих областях: Язык программирования Python. Реляционные базы данных. Компьютерные сети, в первую очередь протоколы HTTP и DNS.

Основные модули программы: Жизненный цикл систем искусственного интеллекта. Подготовка данных для систем искусственного интеллекта. Язык SQL и работа с базами данных. Основы машинного обучения и нейронные сети. Инструменты работы с большими данными. Основы автоматизация машинного обучения MLOps.

После окончания программы вы сможете работать на следующих позициях: Инженер данных (Data Engineer); Разработчик машинного обучения/искусственного интеллекта (AI/ML Engineer).

Часов в программе
30 часов
лекции
82 часа
практика
81 час
самостоятельная
12 часов
промежуточная аттестация
1 час
входная диагностика
50 часов
итоговая аттестация
256 часов
всего
Цель программы
Целью реализации дополнительной профессиональной программы повышения квалификации «Инженер данных» является получение и совершенствование компетенций, необходимых для профессиональной деятельности инженеров данных – специалистов, которые готовят качественные данные для обучения моделей искусственного интеллекта.
Актуальность
Нейросети и машинное обучение уже показали миру, насколько эффективны могут быть практически в любой сфере. Однако современные алгоритмы сами по себе не могут показывать выдающийся результат, если их не обучать на большом количестве качественных данных. Невозможно разработать практически полезную систему искусственного интеллекта без качественных данных для обучения. Сбором и подготовкой данных для обучения моделей искусственного интеллекта занимаются инженеры данных. Получается, что сам процесс сбора и подготовки данных является не менее важным, чем построение моделей. Таким образом, наличие в команде сильного инженера данных во много определяет успех реализации проекта искусственного интеллекта. Благодаря этому инженеры данных являются высоко востребованными специалистами.
Входная диагностика 1 час
Тестирование
Итоговая аттестация 50 часов
Итоговая аттестация выполняется в форме защиты проекта.

Компетенции

Профессиональные


ПК-1.р. Способен классифицировать и идентифицировать задачи искусственного интеллекта, выбирать адекватные методы и инструментальные средства решения задач искусственного интеллекта
Знать:

- Типы задач искусственного интеллекта
- Методы и инструменты систем искусственного интеллекта

Уметь:

ПК-1.1.р. Классифицирует и идентифицирует задачи систем искусственного интеллекта в зависимости от особенностей проблемной и предметной областей
ПК-1.2.р. Выбирает методы и инструментальные средства искусственного интеллекта для решения задач в зависимости от особенностей проблемной области

Владеть:

Компетенция предполагает владение следующими инструментами: Python, sklearn, HuggingFace, TensorFlow

ПК-5.р. Способен использовать инструментальные средства для решения задач машинного обучения
Знать:

- Классы задач машинного обучения и особенности их применения
- Методы и алгоритмы машинного обучения

Уметь:

ПК-5.1.р. Осуществляет оценку и выбор инструментальных средств для решения поставленной задачи
ПК-5.2.р Разрабатывает модели машинного обучения для решения задач
ПК-5.3.р. Создает, поддерживает и использует системы искусственного интеллекта, включающие разработанные модели и методы, с применением выбранных инструментов машинного обучения

Владеть:

Владение следующими инструментами: Python, sklearn, HuggingFace, TensorFlow, SQL

ПК-6.р. Способен создавать и поддерживать системы искусственного интеллекта на основе нейросетевых моделей и методов
Знать:

Компетенция предполагает владение следующими знаниями:
- Классы задач машинного обучения и особенности их применения;
- Методы и алгоритмы машинного обучения.

Уметь:

ПК-6.1.р. Осуществляет оценку и выбор моделей искусственных нейронных сетей и инструментальных средств для решения поставленной задачи
ПК-6.2.р. Разрабатывает системы искусственного интеллекта на основе моделей искусственных нейронных сетей и инструментальных средств

Владеть:

Компетенция предполагает владение следующими инструментами: Python, sklearn, HuggingFace, TensorFlow, SQL

ПК-8.р. Способен разрабатывать системы анализа больших данных
Знать:

- Типы задач искусственного интеллекта
- Методы и инструменты систем искусственного интеллекта
- Классы задач машинного обучения и особенности их применения

Уметь:

ПК-8.1.р. Разрабатывает программные компоненты извлечения, хранения, подготовки больших данных с учетом вариантов использования больших данных, определений, словарей и эталонной архитектуры больших данных
ПК-8.2.р. Разрабатывает программные компоненты обработки, удаленной, распределенной и объединенной аналитики, использования результатов анализа, описания и управления качеством и достоверностью больших данных

Владеть:

Компетенция предполагает владение следующими инструментами: Python, Apache Spark, ClickHouse

ПК-9.р. Способен создавать и внедрять одну или несколько сквозных цифровых субтехнологий искусственного интеллекта
Знать:

Компетенция предполагает формирование следующих знаний: методы и инструменты обработки больших данных

Уметь:

ПК-9.1.р. Участвует в реализации проектов в области сквозной цифровой субтехнологии «Компьютерное зрение»
ПК-9.5.р. Участвует в реализации проектов в области перспективных сквозных цифровых субтехнологий искусственного интеллекта

Владеть:

Владеет следующими инструментами: Python, sklearn, HuggingFace, TensorFlow, SQL, dvc, ClearML

ПК-4.р. Способен разрабатывать и применять методы машинного обучения для решения задач
Знать:

Классы задач машинного обучения и особенности их применения

Уметь:

ПК-4.1.р. Проводит анализ требований и определяет необходимые классы задач машинного обучения
ПК-4.3.р. Принимает участие в оценке и выборе используемых методов машинного обучения

Владеть:

Компетенция предполагает владение следующими инструментами: Python, sklearn, HuggingFace, TensorFlow

A/03.6. Способен осуществлять подготовку данных для проведения аналитических работ по исследованию больших данных
Знать:

Знания современных методов и инструментальных средств анализа больших данных

Уметь:

Умения осуществлять взаимодействие с внутренними и внешними поставщиками данных из гетерогенных источников

Владеть:

Владение инструментами определения источников больших данных для анализа, идентификации внешних и внутренних источников данных для проведения аналитических работ; получения и фильтрации больших объемов данных из гетерогенных источников ; извлечения, проверки и очистки больших объемов данных из гетерогенных источников; агрегации и разработки представления больших объемов данных из гетерогенных источников; оценки соответствия набора данных предметной области и задачам аналитических работ.

Общепрофессиональные


ОПК-2. Способен использовать современные информационные технологии и программные средства, в том числе отечественного производства, при решении задач профессиональной деятельности
Знать:

современных информационных технологий и программных средств, в том числе отечественного производства при решении задач профессиональной деятельности

Уметь:

выбирать современные информационные технологии и программные средства, в том числе отечественного производства при решении задач профессиональной деятельности

Владеть:

методиками использования программных средств для решения практических задач

Требования

Рекомендуется изучение курса по Python для искусственного интеллекта, например: https://stepik.org/course/110361/promo, или знания в объеме материалов данного курса.

Квалификация
Разработчик начального или среднего уровня
Опыт профессиональной дятельности
Разработка программного обеспечения на Python (или другом языке программирования) от 1 года.
Владение необходимыми профессиональными компетенциями
- Программирование на Python
- Работа с реляционными базами данных
- Работа с компьютерными сетями
Иные требования и рекомендации для обучения по программе

Рекомендуется изучение курса по Python для искусственного интеллекта, например: https://stepik.org/course/110361/promo, или знания в объеме материалов данного курса.

Модули

свернуть
25ч
Модуль 1 Жизненный цикл систем искусственного интеллекта
Цель: изучить жизненный цикл систем искусственного интеллекта. Задачи: познакомиться с основными этапами жизненного цикла систем искусственного интеллекта; рассмотреть примеры проектов создания систем искусственного интеллекта и их продвижения по жизненному циклу; познакомиться с подходом к созданию систем искусственного интеллекта Data-centric AI.
32ч
Модуль 3 Язык SQL и работа с базами данных
Цель: научиться эффективно работать с реляционными базами данных. Задачи: научиться выгружать данные из реляционных баз с помощью SQL; научиться работаь с реляционными базами данных из Python Python.
36ч
Модуль 5 Инструменты работы с большими данными
Цель: познакомиться с инструментами работы с большими данными. Задачи: познакомиться с инструментом распределенной обработки больших данных Apache Spark; познакомиться с базой данных для обработки больших данных ClickHouse.
32ч
Модуль 2 Подготовка данных для систем искусственного интеллекта
Цель: научиться использовать Python для подготовки данных для систем искусственного интеллекта. Задачи: - познакомиться с библиотеками работы с данными в Python; научиться работать с файлами разного типа в Python; научиться загружать данные из интернет и социальных сетей.
44ч
Модуль 4 Основы машинного обучения и нейронные сети
Цель: познакомиться с понятием машинного обучения. Задачи: - познакомиться с понятием машинного обучения. - изучить основы классических алгоритмов машинного обучения. - изучить основы нейронных сетей.
36ч
Модуль 6 Основы автоматизации машинного обучения MLOps
Цель: изучить основы автоматизации машинного обучения MLOps
25ч
Модуль 1 Жизненный цикл систем искусственного интеллекта
Цель: изучить жизненный цикл систем искусственного интеллекта. Задачи: познакомиться с основными этапами жизненного цикла систем искусственного интеллекта; рассмотреть примеры проектов создания систем искусственного интеллекта и их продвижения по жизненному циклу; познакомиться с подходом к созданию систем искусственного интеллекта Data-centric AI.
32ч
Модуль 2 Подготовка данных для систем искусственного интеллекта
Цель: научиться использовать Python для подготовки данных для систем искусственного интеллекта. Задачи: - познакомиться с библиотеками работы с данными в Python; научиться работать с файлами разного типа в Python; научиться загружать данные из интернет и социальных сетей.
32ч
Модуль 3 Язык SQL и работа с базами данных
Цель: научиться эффективно работать с реляционными базами данных. Задачи: научиться выгружать данные из реляционных баз с помощью SQL; научиться работаь с реляционными базами данных из Python Python.
44ч
Модуль 4 Основы машинного обучения и нейронные сети
Цель: познакомиться с понятием машинного обучения. Задачи: - познакомиться с понятием машинного обучения. - изучить основы классических алгоритмов машинного обучения. - изучить основы нейронных сетей.
36ч
Модуль 5 Инструменты работы с большими данными
Цель: познакомиться с инструментами работы с большими данными. Задачи: познакомиться с инструментом распределенной обработки больших данных Apache Spark; познакомиться с базой данных для обработки больших данных ClickHouse.
36ч
Модуль 6 Основы автоматизации машинного обучения MLOps
Цель: изучить основы автоматизации машинного обучения MLOps

Преподаватели

Созыкин

Андрей Владимирович

Московский физико-технический институт (Национальный исследовательский университет)

Заместитель директора центра развития ИТ-образования МФТИ

кандидат технических наук

https://www.asozykin.ru/

Кошелев

Антон Александрович

Банк Уралсиб

Руководитель группы математического моделирования

кандидат физико-математических наук

Борисов

Василий Ильич

УрФУ

доцент

кандидат технических наук

https://urfu.ru/ru/about/personal-pages/personal/person/v.i.borisov/

Долганов

Антон Юрьевич

УрФУ

доцент

кандидат технических наук

https://urfu.ru/ru/about/personal-pages/Personal/person/anton.dolganov/

Чернышов

Юрий Юрьевич

Сайберлимфа

исследователь

кандидат физико-математических наук

Якупов

Азат Шавкатович

Лаборатория DataLab Казанского Федерального Университета

Руководитель лаборатории, архитектор данных, преподаватель

https://docs.yandex.ru/docs/view?url=ya-disk-public%3A%2F%2F5tPwniB%2BSGw4SYW0dl4%2FGkYrY4s6YIeNVXsnhX1xYj0jYMGytpMis36zuvjyB66PsLK2WbwBkR%2F%2FqfmVHoPilw%3D%3D%3A%2F%D0%AF%D0%BA%D1%83%D0%BF%D0%BE%D0%B2%20%D0%90.%D0%A8..pdf&name=%D0%AF%D0%BA%D1%83%D0%BF%D0%BE%D0%B2%20%D0%90.%D0%A8..pdf&nosw=1

Ронкин

Михаил Владимирович

Уральский федеральный университет

преподаватель

к.т.н.

https://sciencedata.urfu.ru/portal/ru/persons/--(9f605ba0-4452-45e3-90d8-e20bbc574bdb)/activities.html

Черноскутов

Михаил Александрович

Уральский федеральный университет

Старший преподаватель

https://sciencedata.urfu.ru/portal/ru/persons/--(b94a0f40-ede8-4f52-9dec-56c7c223e552).html
Авторизуйтесь чтобы записаться

Профстандарт

Специалист по большим данным

06.042

Специальность

Инженер данных (Data Engineer)

Отрасль

Промышленность

Ответственный за программу

elenasyrtsova@list.ru

+79127096478