III уровень

Архитектор данных

Московский физико-технический институт (Национальный исследовательский университет)
256 часов длительность
Онлайн формат
Базовый уровень
1 поток 17.06-23.09.2024
2 поток 19.08-25.11.2024

Описание

Программа посвящена технологиям работы с цифровыми данными (реляционными, потоковыми, большими данными) и проектированию архитектуры данных. Слушатели научатся организовывать хранение структурированных (реляционных) и больших данных, писать запросы на SQL, обнаруживать закономерности и аномалии методами машинного обучения, применять методы машинного и глубокого обучения для решения прикладных задач в том числе в области автоматической обработки естественного языка и компьютерного зрения, представлять собственные решения.
Обучение проходит в смешанном формате — предоставляются материалы онлайн-курса, а также проводятся регулярные вебинары-мастер-классы (в режиме реального времени, и в записи) и консультации. Поддержка обучающихся производится также с помощью мессенджера Телеграм. Обязательными для слушателей являются навыки программирования на любом высокоуровневом языке программирования. Преимуществом будет умение программировать на языке SQL, Python. Курс носит практико- ориентированный характер. В качестве упражнений пользователи будут обрабатывать наборы данных при помощи инструментов: реляционных СУБД и NoSQL хранилищ, библиотек языка программирования Python.

Часов в программе
30 часов
лекции
80 часов
практика
83 часа
самостоятельная
12 часов
промежуточная аттестация
1 час
входная диагностика
50 часов
итоговая аттестация
256 часов
всего
Цель программы
Целью реализации дополнительной профессиональной программы повышения квалификации «Архитектор данных» является формирование компетенций, необходимых для профессиональной деятельности специалиста в области работы с цифровыми данными, большими данными и подготовке цифровых данных в их дальнейшем использовании для искусственного интеллекта при реализации проектов и разработки новых решений на основе данных
Актуальность
Программа "Архитектор данных" предназначена для специалистов, занимающихся сбором и анализом больших объемов информации с целью прогнозирования и управления процессами через цифровые данные. Участники программы получат знания, навыки и компетенции в области архитектуры данных и создания цифровых продуктов и сервисов, в том числе на базе искусственного интеллекта. Программа разработана для широкого круга специалистов, желающих расширить свои профессиональные возможности в области работы с данными.
Входная диагностика 1 час
Тестирование
Итоговая аттестация 50 часов
Защита проекта

Компетенции

Общепрофессиональные


Способен понимать принципы работы современных информационных технологий и программных средств, в том числе отечественного производства, и использовать их при решении задач профессиональной̆ деятельности
Знать:

Современные методы и инструментальные средства анализа больших данных
Технологии и программное обеспечение систем хранения и обработки информации

Уметь:

Организовывать разработку и согласование технического задания
Управлять внедрением информационно-технологических проектов

Владеть:

Методы машинного и глубокого обучения для решения прикладных задач, инструменты анализа данных

Способен участвовать в разработке стандартов, норм и правил, а также технической̆ документации, связанной̆ с профессиональной̆ деятельностью
Знать:

Особенности разработки информационно-технологических проектов

Уметь:

Взаимодействовать с пользователями аналитики и поставщиками данных, инструментария и сервисов
Проводить переговоры и совещания по тематике технологий больших данных с целью формирования и согласования технического задания на создание методической и технологической инфраструктуры больших данных
Разрабатывать и согласовывать проектную и эксплуатационную документацию информационно-технологических проектов

Владеть:

Методы машинного и глубокого обучения для решения прикладных задач, инструменты анализа данных

Профессиональные


Способен разрабатывать, согласовывать и управлять реализацией рабочего проекта методической и технологической инфраструктуры больших данных
Знать:

Современные методы и инструментальные средства анализа больших данных
Рекомендации по использованию и опыт использования методов анализа больших данных
Рекомендации по использованию, опыт использования и интеграции современных инструментальных средств сбора, хранения, обработки и анализа больших данных
Рекомендации по использованию и опыт использования разнородных источников данных и информации в задачах анализа больших данных
Современная технологическая инфраструктура высокопроизводительных и распределенных вычислений

Уметь:

Разрабатывать и реализовывать информационно-технологические проекты
Управлять внедрением информационно-технологических проектов
Разрабатывать и согласовывать проектную и эксплуатационную документацию информационно-технологических проектов
Проводить презентации и согласования информационно-технологических проектов

Владеть:

Методы машинного и глубокого обучения для решения прикладных задач, инструменты анализа данных, язык программирования Python, SQL, реляционные и NoSQL СУБД

Готов управлять получением, хранением, передачей, обработкой больших данных
Знать:

Потребности организации в обеспечении данными и информацией
Основы информационных систем и технологий
Основы анализа данных
Этапы жизненного цикла больших данных
Этапы анализа больших данных
Архитектуры и модели данных, адаптированные к технологиям больших данных
Архитектуры и модели баз и хранилищ данных, адаптированные к технологиям больших данных
Этапы жизненного цикла базы данных и хранилища данных
Технологии и программное обеспечение систем хранения и обработки информации
Источники больших данных
Методы и инструменты получения и приобретения больших данных
Методы и инструменты извлечения, преобразования и загрузки больших данных
Методы и инструменты передачи информации
Технологии, методы и инструментальные средства обработки больших данных

Уметь:

Пользоваться методами оценки эффективности системы хранения и обработки данных организации
Разрабатывать системы хранения и обработки данных
Проводить интеграцию систем хранения и обработки данных
Разрабатывать модели данных, адаптированных к технологиям больших данных
Пользоваться методами и инструментами получения, хранения, передачи, обработки больших данных

Владеть:

Методы машинного и глубокого обучения для решения прикладных задач, инструменты анализа данных, язык программирования Python, SQL, реляционные и NoSQL СУБД

Готов управлять отношениями с поставщиками данных и пользователями аналитики больших данных
Знать:

Методы доставки больших данных и оценки стоимости доставки данных
Источники больших данных и условия работы с ними
Современные возможности приобретения и использования больших данных

Уметь:

Взаимодействовать с пользователями аналитики и поставщиками данных, инструментария и сервисов

Владеть:

Основные методы и инструменты для анализа данных

Готов управлять качеством больших данных
Знать:

Метрики качества больших данных
Базовые характеристики качества больших данных
Методы и технологии управления качеством больших данных

Уметь:

Определять происхождение данных и оценивать источники больших данных
Определять и устранять проблемные зоны при обеспечении качества больших данных
Измерять и оценивать качество больших данных

Владеть:

Методы машинного и глубокого обучения для решения прикладных задач, инструменты анализа данных, язык программирования Python, SQL, реляционные и NoSQL СУБД

Готов управлять защитой и обеспечением конфиденциальности больших данных
Знать:

Принципы обеспечения безопасных вычислений в распределенных вычислительных средах
Принципы обеспечения безопасности в нереляционных базах данных
Принципы обеспечения безопасности при обработке потоковых данных в реальном времени

Уметь:

Выявлять и формулировать требования к обеспечению информационной безопасности и конфиденциальности при анализе больших данных

Владеть:

Методы машинного и глубокого обучения для решения прикладных задач, инструменты анализа данных, язык программирования Python, SQL, реляционные и NoSQL СУБД

Способен классифицировать и идентифицировать задачи искусственного интеллекта, выбирать адекватные методы и инструментальные средства решения задач искусственного интеллекта
Знать:

Различные типы задач искусственного интеллекта
Принципы работы основных методов и инструментальных средств искусственного интеллекта
Методы сбора и анализа данных для задач искусственного интеллекта
Принципы управления проектами

Уметь:

Классифицирует и идентифицирует задачи систем искусственного интеллекта в зависимости от особенностей проблемной и предметной областей
Выбирает методы и инструментальные средства искусственного интеллекта для решения задач в зависимости от особенностей проблемной области
Собирает исходную информацию и формирует требования к решению задач с использованием методов искусственного интеллекта

Владеть:

Методы машинного и глубокого обучения для решения прикладных задач, инструменты анализа данных, язык программирования Python, SQL, реляционные и NoSQL СУБД

Способен разрабатывать и применять методы машинного обучения для решения задач
Знать:

Методы сбора, очистки и подготовки данных
Основные задачи машинного обучения
Метрики оценки качества моделей машинного обучения
Критерии качества моделей машинного обучения
Основные алгоритмы машинного обучения

Уметь:

Проводит анализ требований и определяет необходимые классы задач машинного обучения
Определяет метрики оценки результатов моделирования и критерии качества построенных моделей
Принимает участие в оценке и выборе используемых методов машинного обучения

Владеть:

Методы машинного и глубокого обучения для решения прикладных задач, инструменты анализа данных, язык программирования Python, SQL, реляционные и NoSQL СУБД

Способен использовать системы искусственного интеллекта на основе нейросетевых моделей и методов
Знать:

Принципы работы различных типов нейронных сетей
Основные архитектуры нейронных сетей
Метрики оценки качества работы нейронных сетей

Уметь:

Осуществляет оценку и выбор моделей искусственных нейронных сетей и инструментальных средств для решения поставленной задачи

Владеть:

Методы машинного и глубокого обучения для решения прикладных задач, инструменты анализа данных, язык программирования Python, SQL, реляционные и NoSQL СУБД

Способен осуществлять сбор и подготовку данных для систем искусственного интеллекта
Знать:

Принципы работы различных типов нейронных сетей
Основные архитектуры нейронных сетей
Метрики оценки качества работы нейронных сетей

Уметь:

Выполняет подготовку и разметку структурированных и неструктурированных данных для машинного обучения

Владеть:

Методы машинного и глубокого обучения для решения прикладных задач, инструменты анализа данных, язык программирования Python, SQL, реляционные и NoSQL СУБД

Способен осуществлять сбор и подготовку данных для систем искусственного интеллекта
Знать:

Открытые наборы данных
Специализированные библиотеки
Репозитории кода

Уметь:

Осуществляет поиск данных в открытых источниках, специализированных библиотеках и репозиториях

Владеть:

Методы машинного и глубокого обучения для решения прикладных задач, инструменты анализа данных, язык программирования Python, SQL, реляционные и NoSQL СУБД

Способен создавать и внедрять одну или несколько сквозных цифровых субтехнологий искусственного интеллекта
Знать:

Машинное обучение
Компьютерное зрение
Обработка изображений
Алгоритмы глубокого обучения
Обработка естественного языка
Рекомендательные системы
Системы поддержки принятия решений
Нейросетевая архитектура
Интерпретация нейронных сетей

Уметь:

Участвует в реализации проектов в области сквозной цифровой субтехнологии «Компьютерное зрение»
Участвует в реализации проектов в области сквозной цифровой субтехнологии «Обработка естественного языка»
Участвует в реализации проектов в области сквозной цифровой субтехнологии «Рекомендательные системы и системы поддержки принятия решений»
Участвует в реализации проектов в области перспективных сквозных цифровых субтехнологий искусственного интеллект

Владеть:

Методы машинного и глубокого обучения для решения прикладных задач, инструменты анализа данных, язык программирования Python, SQL, реляционные и NoSQL СУБД

Требования

Обязательными для слушателей являются навыки программирования на любом высокоуровневом языке программирования

Квалификация
Для успешного освоения программы требуется одна из следующих квалификаций:
• Разработчик систем машинного обучения
• Руководитель проектов в области ИТ
• Специалист в одной из прикладных предметных областей внедрения искусственного интеллекта (финансовые технологии, телеком, промышленное производство, медицина и т.п.)
• Программист ( дата инженер)
Опыт профессиональной дятельности
наличие опыта профессиональной деятельности в рамках работы с цифровыми данными, их обработкой и хранением приветствуется
Предварительное освоение иных дисциплин/курсов /модулей
приветствуется предварительное освоение курсов по работе с SQL, языком программирования Python и аналитикой данных
Владение необходимыми профессиональными компетенциями
Программа повышения квалификации требует следующих знаний и умений:
- Умение работать с реляционными (табличными) базами данных через формализованный язык запросов SQL
- Умение работать с большими (неструктурированными и полуструктурированными) данными
- Умение собирать функциональные требования по будущему цифровому сервису / продукту
- Знание анализа бизнес целей с учетом построения цифрового сервиса / продукта
- Знание принципов построения ER диаграмм (концептуальной схемы модели данных)
- Знание принципов построения логических диаграмм связей отношений (логической схемы модели данных)
- Знание принципов построения физической модели связей отношений
- Знание алгоритмов трансформации цифровых данных
- Знание работы алгоритмов классического машинного обучения
- Знание работы алгоритмов глубокого обучения (включая алгоритмы Компьютерного Зрения, NLP)
Иные требования и рекомендации для обучения по программе

Обязательными для слушателей являются навыки программирования на любом высокоуровневом языке программирования

Модули

свернуть
37ч
Модуль 1 Введение в роль Архитектора данных
Целью изучения модуля 1 «Введение в роль Архитектора данных» является формирование знаний и понимания ролей и задач архитектора данных, погружение в основные термины и определения архитектуры данных, включая концепции, методы и технологии, используемые для проектирования и управления данными в организации, а также формирование знаний для понимания бизнес-значения цифровых данных Задачи Модуля 1: 1. Ознакомить с ролью архитектора данных, обязанностями и функциями архитектора данных в организации 2. Ознакомить с обязанностями и функциями архитектора данных в рамках цифровой трансформации бизнес-процессов предприятия 3. Сформировать представления об основных современных компонентах архитектуры данных и архитектуры машинного обучения, познакомить с концепцией и компонентами архитектуры данных, в т.ч. с хранилищами данных, ETL-процессами, метаданными, интеграцией данных и т. д. 4. Ознакомить с существующими стандартами цифровых данных в рамках регулирования, контроля и политик взаимодействия с цифровыми данными (data governance)
38ч
Модуль 3 Основы машинного обучения
Целью изучения модуля 3 «Основы машинного обучения» является формирование знаний по работе с классическими алгоритмами машинного обучения, включая задачи регрессии, классификации, кластеризации. Включая формирование знаний по подготовке цифровых данных для алгоритмов машинного обучения. Задачи Модуля 3: 1. Ознакомить с понятием машинного обучения 2. Научить решать задачи регрессии, классификации и кластеризации 3. Овладеть методами подготовки цифровых данных для их использования в алгоритмах классического машинного обучения 4. Научить работать с существующими библиотеками в языке программирования Python для работы с алгоритмами классического машинного обучения
22ч
Модуль 5 Управление проектами в ИТ-индустрии в области искусственного интеллекта
Целью изучения модуля 5 «Управление проектами в ИТ-индустрии в области искусственного интеллекта» является формирование знаний по сбору требований поставленной бизнес задачи, подготовкой и описанием этапов работы с исследованиями цифровых данных в рамках стандарта CRISP-DM. Включая формирование знаний по созданию / наполнению команды инженеров, способных решать цифровые задачи по работе с цифровыми данными. Задачи Модуля 5: 1. Ознакомить с понятием жизненного цикла цифрового продукта 2. Сформировать представление о современной роли инженеров, связанных с обработкой данных 3. Научить использовать международный стандарт CRISP-DM для работ, связанных с исследованием данных 4. Ознакомить с метриками качества цифрового продукта
44ч
Модуль 2 Обработка цифровых данных
Целью изучения модуля 2 «Обработка цифровых данных» является формирование знаний по работе с цифровыми структурированными данными формализованным языком SQL, включающий языки DML и DDL реляционных баз данных. Включая формирование знаний по работе с неструктурированными данными в рамках стека больших данных, используя язык программирования Python и соответствующие модули, отвечающие за работу с цифровыми данными (включая процессы по трансформации, деперсонализации, стандартизации цифровых данных). Задачи Модуля 2: 1. Научить работать на языке SQL, DML, DDL 2. Сформировать умение создавать модели данных, используя мировые стандарты проектирования такие как Реляционная модель данных, Снежинка, EAV, Data Vault 3. Научить работать с объектами виртуализации и материализации по подготовке данных для дальнейшего использования 4. Научить работать на языке Python и с его продвинутыми техниками, такими как ООП, работа с итераторами и генераторами, многопоточностью 5. Научить работать с данными в РСУБД и Больших Данных, используя библиотеки языка Python 6. Научить работать с библиотеками Python Flask и Fast API для создания цифровых сервисов, продуктов из данных
44ч
Модуль 4 Нейронные сети и алгоритмы глубокого обучения
Целью изучения модуля 4 «Нейронные сети и алгоритмы глубокого обучения» является формирование знаний по работе с алгоритмами глубокого обучения, включая разнообразные архитектуры нейронных сетей для задач регрессии, классификации, компьютерного зрения и NLP. Включая формирование знаний по работе с современными языковыми моделями LLM. Задачи Модуля 4: 1. Ознакомить с понятием глубокого обучения 2. Научить работать с нейронными сетями разнообразных архитектур 3. Научить работать с существующими библиотеками в языке программирования Python для работы с алгоритмами глубокого обучения 4. Научить использовать современные языковые модели LLM.
20ч
Модуль 6 Дополнительные главы по дата инженерии и исследованию данных
Целью изучения модуля 6 «Дополнительные главы по дата инженерии и исследованию данных» является формирование знаний по работе с дополнительными компонентами и библиотеками дата инженерии, включая виртуализацию, транспортный слой передачи данных, описания логических слоев хранения и обработки данных. Включая формирование знаний по описанию и реализации метрик качества данных и применение AutoML техник. Задачи Модуля 6: 1. Ознакомить с понятием виртуализации ресурсов цифровых сервисов 2. Научить создавать логические слои данных для хранения и обработки данных 3. Научить использовать метрики качества для цифровых данных, получаемых в непрерывном цикле и в рамках batch наполнения хранилища 4. Научить работать с библиотеками AutoML для первичного исследования данных
37ч
Модуль 1 Введение в роль Архитектора данных
Целью изучения модуля 1 «Введение в роль Архитектора данных» является формирование знаний и понимания ролей и задач архитектора данных, погружение в основные термины и определения архитектуры данных, включая концепции, методы и технологии, используемые для проектирования и управления данными в организации, а также формирование знаний для понимания бизнес-значения цифровых данных Задачи Модуля 1: 1. Ознакомить с ролью архитектора данных, обязанностями и функциями архитектора данных в организации 2. Ознакомить с обязанностями и функциями архитектора данных в рамках цифровой трансформации бизнес-процессов предприятия 3. Сформировать представления об основных современных компонентах архитектуры данных и архитектуры машинного обучения, познакомить с концепцией и компонентами архитектуры данных, в т.ч. с хранилищами данных, ETL-процессами, метаданными, интеграцией данных и т. д. 4. Ознакомить с существующими стандартами цифровых данных в рамках регулирования, контроля и политик взаимодействия с цифровыми данными (data governance)
44ч
Модуль 2 Обработка цифровых данных
Целью изучения модуля 2 «Обработка цифровых данных» является формирование знаний по работе с цифровыми структурированными данными формализованным языком SQL, включающий языки DML и DDL реляционных баз данных. Включая формирование знаний по работе с неструктурированными данными в рамках стека больших данных, используя язык программирования Python и соответствующие модули, отвечающие за работу с цифровыми данными (включая процессы по трансформации, деперсонализации, стандартизации цифровых данных). Задачи Модуля 2: 1. Научить работать на языке SQL, DML, DDL 2. Сформировать умение создавать модели данных, используя мировые стандарты проектирования такие как Реляционная модель данных, Снежинка, EAV, Data Vault 3. Научить работать с объектами виртуализации и материализации по подготовке данных для дальнейшего использования 4. Научить работать на языке Python и с его продвинутыми техниками, такими как ООП, работа с итераторами и генераторами, многопоточностью 5. Научить работать с данными в РСУБД и Больших Данных, используя библиотеки языка Python 6. Научить работать с библиотеками Python Flask и Fast API для создания цифровых сервисов, продуктов из данных
38ч
Модуль 3 Основы машинного обучения
Целью изучения модуля 3 «Основы машинного обучения» является формирование знаний по работе с классическими алгоритмами машинного обучения, включая задачи регрессии, классификации, кластеризации. Включая формирование знаний по подготовке цифровых данных для алгоритмов машинного обучения. Задачи Модуля 3: 1. Ознакомить с понятием машинного обучения 2. Научить решать задачи регрессии, классификации и кластеризации 3. Овладеть методами подготовки цифровых данных для их использования в алгоритмах классического машинного обучения 4. Научить работать с существующими библиотеками в языке программирования Python для работы с алгоритмами классического машинного обучения
44ч
Модуль 4 Нейронные сети и алгоритмы глубокого обучения
Целью изучения модуля 4 «Нейронные сети и алгоритмы глубокого обучения» является формирование знаний по работе с алгоритмами глубокого обучения, включая разнообразные архитектуры нейронных сетей для задач регрессии, классификации, компьютерного зрения и NLP. Включая формирование знаний по работе с современными языковыми моделями LLM. Задачи Модуля 4: 1. Ознакомить с понятием глубокого обучения 2. Научить работать с нейронными сетями разнообразных архитектур 3. Научить работать с существующими библиотеками в языке программирования Python для работы с алгоритмами глубокого обучения 4. Научить использовать современные языковые модели LLM.
22ч
Модуль 5 Управление проектами в ИТ-индустрии в области искусственного интеллекта
Целью изучения модуля 5 «Управление проектами в ИТ-индустрии в области искусственного интеллекта» является формирование знаний по сбору требований поставленной бизнес задачи, подготовкой и описанием этапов работы с исследованиями цифровых данных в рамках стандарта CRISP-DM. Включая формирование знаний по созданию / наполнению команды инженеров, способных решать цифровые задачи по работе с цифровыми данными. Задачи Модуля 5: 1. Ознакомить с понятием жизненного цикла цифрового продукта 2. Сформировать представление о современной роли инженеров, связанных с обработкой данных 3. Научить использовать международный стандарт CRISP-DM для работ, связанных с исследованием данных 4. Ознакомить с метриками качества цифрового продукта
20ч
Модуль 6 Дополнительные главы по дата инженерии и исследованию данных
Целью изучения модуля 6 «Дополнительные главы по дата инженерии и исследованию данных» является формирование знаний по работе с дополнительными компонентами и библиотеками дата инженерии, включая виртуализацию, транспортный слой передачи данных, описания логических слоев хранения и обработки данных. Включая формирование знаний по описанию и реализации метрик качества данных и применение AutoML техник. Задачи Модуля 6: 1. Ознакомить с понятием виртуализации ресурсов цифровых сервисов 2. Научить создавать логические слои данных для хранения и обработки данных 3. Научить использовать метрики качества для цифровых данных, получаемых в непрерывном цикле и в рамках batch наполнения хранилища 4. Научить работать с библиотеками AutoML для первичного исследования данных

Преподаватели

Якупов

Азат Шавкатович

Лаборатория DataLab Казанского Федерального Университета

Руководитель лаборатории, архитектор данных, преподаватель

https://docs.yandex.ru/docs/view?url=ya-disk-public%3A%2F%2F5tPwniB%2BSGw4SYW0dl4%2FGkYrY4s6YIeNVXsnhX1xYj0jYMGytpMis36zuvjyB66PsLK2WbwBkR%2F%2FqfmVHoPilw%3D%3D%3A%2F%D0%AF%D0%BA%D1%83%D0%BF%D0%BE%D0%B2%20%D0%90.%D0%A8..pdf&name=%D0%AF%D0%BA%D1%83%D0%BF%D0%BE%D0%B2%20%D0%90.%D0%A8..pdf&nosw=1

Кошелев

Антон Александрович

Банк Уралсиб

Руководитель группы математического моделирования

кандидат физико-математических наук

Созыкин

Андрей Владимирович

Московский физико-технический институт (Национальный исследовательский университет)

Заместитель директора центра развития ИТ-образования МФТИ

кандидат технических наук

https://www.asozykin.ru/

Долганов

Антон Юрьевич

УрФУ

доцент

кандидат технических наук

https://urfu.ru/ru/about/personal-pages/Personal/person/anton.dolganov/

Чернышов

Юрий Юрьевич

Сайберлимфа

исследователь

кандидат физико-математических наук

Борисов

Василий Ильич

УрФУ

доцент

кандидат технических наук

https://urfu.ru/ru/about/personal-pages/personal/person/v.i.borisov/

Ронкин

Михаил Владимирович

Уральский федеральный университет

преподаватель

к.т.н.

https://sciencedata.urfu.ru/portal/ru/persons/--(9f605ba0-4452-45e3-90d8-e20bbc574bdb)/activities.html

Черноскутов

Михаил Александрович

Уральский федеральный университет

Старший преподаватель

https://sciencedata.urfu.ru/portal/ru/persons/--(b94a0f40-ede8-4f52-9dec-56c7c223e552).html
Авторизуйтесь чтобы записаться

Профстандарт

Специалист по большим данным

06.042

Специальность

Архитектор данных (Data Architect)

Отрасль

Промышленность

Ответственный за программу

syrtsova.el@mipt.ru

+79127096478