III уровень

Аналитик данных

Московский физико-технический институт (Национальный исследовательский университет)
256 часов длительность
Онлайн формат
Базовый уровень
1 поток 17.06-23.09.2024
2 поток 19.08-25.11.2024

Описание

Программа посвящена технологиям анализа данных и машинного обучения. Вы изучите классические алгоритмы машинного обучения и глубокие нейронные сети, научитесь готовить наборы данных для обучения моделей, а также применять машинное обучение для решения практических задач компьютерного зрения и обработки естественного языка.

Обучение проходит в смешанном формате — предоставляются материалы онлайн-курса, а также проводятся регулярные вебинары (в режиме реального времени и в записи) и консультации. Поддержка обучающихся производится с помощью мессенджера Телеграм.

В качестве упражнений вы будете решать практико-ориентированные задачи по ашинному обучения от компаний-партнеров МФТИ с использованием готовых библиотек машинного обучения на Python.

Обязательными для слушателей являются навыки программирования на любом высокоуровневом языке, преимуществом будет умение программировать на языке Python. Также необходимы базовые знания линейной алгебры (операции с векторами и матрицами), теории вероятностей и математической статистики.

Стек технологий, используемый в программе:

- Язык программирования Python.

- Библиотеки анализа данных NumPy, Pandas.

- Библиотеки визуализации данных Matplotlib, seaborn.

- Библиотека алгоритмов классического машинного обучения scikit-learn.

- Библиотеки глубоких нейронных сетей PyTorch, HuggingFace.

Часов в программе
38 часов
лекции
66 часов
практика
87 часов
самостоятельная
24 часа
промежуточная аттестация
1 час
входная диагностика
40 часов
итоговая аттестация
256 часов
всего
Цель программы
Целью реализации дополнительной профессиональной программы повышения квалификации «Аналитик данных» является получение компетенций, необходимых для профессиональной деятельности специалиста в области анализа данных с использованием машинного обучения и нейронных сетей, преимущественно для задач компьютерного зрения и обработки естественного языка
Актуальность
В настоящее время специальности Аналитик данных и Data Scientist являются одними из самых востребованных и высокооплачиваемых на ИТ-рынке. На нашей программе вы познакомитесь с самыми современными методами и моделями искусственного интеллекта, наиболее эффективными архитектурами нейронных сетей, включая архитектуру Transformer и основанными на ней нейросетями GPT, BERT и T5. В программе подробно рассматривается подготовка данных для обучения моделей, так как качественные данные являются ключевым фактором, который обеспечивает высокую точность работы моделей. Также вы узнаете, как обучать модели машинного обучения на небольшом количестве данных с помощью переноса обучения (transfer learning). Это важно для решения прикладных задач, потому что на практике данных для обучения почти всегда мало, а подготовка дополнительных данных стоит дорого.
Входная диагностика 1 час
Тестирование
Итоговая аттестация 40 часов
Защита проекта

Компетенции

Профессиональные


A/03.6.Способен выполнять подготовку данных для проведения аналитических работ по исследованию больших данных
Знать:

Знать:
Теоретические и прикладные основы анализа больших данных
Современный опыт использования анализа больших данных
Типы больших данных: метаданные, полуструктурированные, структурированные, неструктурированные
Виды источников данных: созданные человеком, созданные машинами
Источники информации, в том числе информации, необходимой для обеспечения деятельности в предметной области заказчика исследования
Российские и международные стандарты информационной безопасности
Облачные технологии, облачные сервисы

Уметь:

Уметь:
Определять требования к поставщикам данных из гетерогенных источников
Разрабатывать и оценивать модели больших данных
Проводить интеграцию и преобразование больших объемов данных
Оценивать соответствие наборов данных задачам анализа больших данных

Владеть:

Владеть:
Методами извлечения информации и знаний из гетерогенных, мультиструктурированных, неструктурированных источников, в том числе при потоковой обработке
Инструментами очистки данных для проведения аналитических работ

А/04.6 Способен выполнять проведение аналитического исследования с применением технологий больших данных в соответствии с требованиями заказчика
Знать:

Знать:
Содержание и последовательность выполнения этапов аналитического проекта
Нейронные сети: полносвязные, свёрточные нейронные сети, методы обучения нейронных сетей
Семантический анализ: обработка естественного языка, сентиментный анализ, анализ текста
Алгоритмы машинного обучения: обучение с учителем, обучение без учителя
Машинное обучение: классификация, кластеризация, обнаружение выбросов
Анализ изображений

Уметь:

Уметь:
Планировать аналитические работы с использованием технологий больших данных
Адаптировать и развертывать модели в предметной среде
Решать задачи классификации, кластеризации, регрессии
Решать проблемы переобучения и недообучения алгоритма
Формировать предложения по использованию результатов анализа
Оформлять результаты аналитического исследования для представления заказчику
Разъяснять заказчику результаты аналитической работы

Владеть:

Владеть:
Технологиями анализа данных: статистический анализ, семантический анализ, анализ изображений, машинное обучение
Основами управления аналитическими работами

Общепрофессиональные


ОПК-2 Способен понимать принципы работы современных информационных технологий и программных средств, в том числе отечественного производства, и использовать их при решении задач профессиональной деятельности
Знать:

Знать:
Современные методы и инструментальные средства анализа данных
Технологии и программное обеспечение анализа данных, в том числе отечественного производства

Уметь:

Уметь:
Применять методы и инструментальные средства анализа данных для решения практических задач

Владеть:

Владеть:
Инструментальными средства анализа данных для решения практических задач

ОПК-8 Способен разрабатывать алгоритмы и программы, пригодные для практического применения
Знать:

По результатам освоения данной компетенции слушатель будет знать алгоритмы машинного обучения

Уметь:

Уметь:
Разрабатывать программы для решения практических задач с использованием машинного обучения

Владеть:

Владеть:
Инструментальными средствами разработки алгоритмов машинного обучения

Профессиональные


ПК-1.р Способен классифицировать и идентифицировать задачи искусственного интеллекта, выбирать адекватные методы и инструментальные средства решения задач искусственного интеллекта
Знать:

Знать:
Лучшие практики применения искусственного интеллекта в различных проблемных и предметных областях
Модели искусственного интеллекта

Уметь:

Уметь:
ПК-1.1.р. Классифицирует и идентифицирует задачи систем искусственного интеллекта в зависимости от особенностей проблемной и предметной областей
ПК-1.2.р. Выбирает методы и инструментальные средства искусственного интеллекта для решения задач в зависимости от особенностей проблемной области
ПК-1.3.р. Собирает исходную информацию и формирует требования к решению задач с использованием методов искусственного интеллекта

Владеть:

Владеть:
Инструментальными средствами решения задач искусственного интеллекта

ПК-4.р Способен разрабатывать и применять методы машинного обучения для решения задач
Знать:

Знать:
Классы задач машинного обучения
Алгоритмы и методы машинного обучения
Метрики оценки качества решения задачи машинного обучения

Уметь:

Уметь:
ПК-4.1.р. Проводит анализ требований и определяет необходимые классы задач машинного обучения
ПК-4.2.р. Определяет метрики оценки результатов моделирования и критерии качества построенных моделей
ПК-4.3.р. Принимает участие в оценке и выборе используемых методов машинного обучения

Владеть:

Владеть:
Методами и инструментами анализа требований к решению задач с использованием машинного обучения

ПК-5.р Способен использовать инструментальные средства для решения задач машинного обучения
Знать:

Знать:
Язык программирования Python
Библиотеки на Python для машинного обучения

Уметь:

Уметь:
ПК-5.1.р. Осуществляет оценку и выбор инструментальных средств для решения поставленной задачи
ПК-5.2.р. Разрабатывает модели машинного обучения для решения задач

Владеть:

Владеть:
Инструментальными средствами для решения задач машинного обучения на языке Python

ПК-.6.п Способен осуществлять сбор и подготовку данных для систем искусственного интеллекта
Знать:

В результате освоения данной компетенции слушатель будет знать:
Библиотеки на Python для работы с данными

Уметь:

Уметь:
ПК-6.1.п. Осуществляет поиск данных в открытых источниках, специализированных библиотеках и репозиториях
ПК-6.2.п. Выполняет подготовку и разметку структурированных и неструктурированных данных для машинного обучения

Владеть:

Владеть:
Инструментальными средствами сбора и обработки данных на языке Python

ПК-8.п Способен использовать одну или несколько сквозных цифровых субтехнологий искусственного интеллекта
Знать:

Знать:
Модели и методы искусственного интеллекта, используемые для решения задач компьютерного зрения
Модели и методы искусственного интеллекта, используемые для решения задач обработки естественного языка

Уметь:

Уметь:
ПК-8.1.п. Решает прикладные задачи и участвует в реализации проектов в области сквозной цифровой субтехнологии «Компьютерное зрение»
ПК-8.2.п. Решает прикладные задачи и участвует в реализации проектов в области сквозной цифровой субтехнологии «Обработка естественного языка»

Владеть:

Владеть:
Предварительно обученными моделями для решения задач компьютерного зрения
Предварительно обученными моделями для решения задач обработки естественного языка

Требования

Рекомендуется изучение курса по Python для искусственного интеллекта, например: https://stepik.org/course/110361/promo, или знания в объеме материалов данного курса.

Квалификация
Для успешного освоения программы требуется одна из следующих квалификаций:
– Разработчик на Python среднего уровня (предпочтительно)
– Разработчик на Python начального уровня
– Разработчик на любом языке программирования среднего уровня
Предварительное освоение иных дисциплин/курсов /модулей
Программа повышения квалификации требует следующих знаний и умений:
- Знания языка программирования Python на среднем уровне.
- Знание основ линейной алгебры, теории вероятностей и математической статистики.
Иные требования и рекомендации для обучения по программе

Рекомендуется изучение курса по Python для искусственного интеллекта, например: https://stepik.org/course/110361/promo, или знания в объеме материалов данного курса.

Модули

свернуть
17ч
Модуль 1 Введение в машинное обучение
Целью изучения модуля 1 «Введение в машинное обучение» является изучение базовых понятий машинного обучения, типами задач машинного обучения, оценкой качества решения задач машинного обучения. Задачи Модуля 1: 1. Знакомство с подходом к решению задач с использованием машинного обучения, отличиями от программирования. 2. Изучение типов задач машинного обучения (классификация, регрессия, кластеризация, снижение размерности, обнаружение выбросов). 3. Изучение наборов данных, которые используются в машинном обучении. 4. Знакомство с оценкой качества работы алгоритмов машинного обучения. Понятие переобучение.
40ч
Модуль 3 Классические алгоритмы машинного обучения
Целью изучения модуля 3 «Классические алгоритмы машинного обучения» является формирование знаний по работе с классическими алгоритмами машинного обучения, включая задачи регрессии, классификации, кластеризации. Задачи Модуля 3: 1. Ознакомить с понятием машинного обучения 2. Научить решать задачи регрессии, классификации и кластеризации 3. Овладеть методами подготовки цифровых данных для их использования в алгоритмах классического машинного обучения 4. Научить работать с существующими библиотеками в языке программирования Python для работы с алгоритмами классического машинного обучения
48ч
Модуль 5 Нейронные сети для компьютерного зрения
Целью изучения модуля 5 «Нейронные сети для компьютерного зрения» является знакомство с подходами к решению задач компьютерного зрения с использованием нейронных сетей. Задачи Модуля 5: 1. Знакомство с задачами компьютерного зрения, которые могут быть решены с применением нейронных сетей. 2. Изучение подготовки данных для обучения нейронных сетей для задач компьютерного зрения. 3. Изучение сверточных нейронных сетей и их применения для решения задач компьютерного зрения. 4. Изучение предварительно обученных нейронных сетей для компьютерного зрения. 5. Изучение применения переноса обучения в задачах компьютерного зрения.
26ч
Модуль 2 Библиотеки Python для работы с данными
Целью изучения модуля 2 «Библиотеки Python для работы с данными» изучением готовых библиотек на Python, которые применяются для работы с данными. Задачи Модуля 2: 1. Изучить библиотеку NumPy для высокопроизводительной работы с данными в Python. 2. Изучить библиотеку Pandas для работы с табличными данными в Python. 3. Научить визуализировать данные с помощью библиотек на Python.
36ч
Модуль 4 Глубокие нейронные сети
Целью модуля 4 «Глубокие нейронные сети» является изучения модели искусственного нейрона, искусственных нейронных сетей, алгоритмов обучения нейронных сетей, библиотек для обучения нейронных сетей на Python. Задачи Модуля 4: 1. Изучение модели искусственного нейрона 2. Изучение нейронных сетей, в том числе глубоких нейронных сетей 3. Изучение алгоритмов обучения нейронных сетей 4. Изучение библиотек для обучение нейронных сетей на Python
48ч
Модуль 6 Нейронные сети для обработки естественного языка
Целью изучения модуля 6 «Нейронные сети для обработки естественного языка» является изучение архитектур нейронных сетей, которые применяются для решения задач обработки текстов. Задачи Модуля 6: 1. Знакомство с задачами обработки естественного языка, которые могут быть решены с применением нейронных сетей. 2. Изучение подготовки текстов для обработки нейронными сетями. 3. Изучение нейронных сетей с архитектурой Transformer и их применения для решения задач компьютерного зрения. 4. Изучение предварительно обученных нейронных сетей для обработки естественного языка. 5. Изучение применения переноса обучения в задачах обработки естественного языка.
17ч
Модуль 1 Введение в машинное обучение
Целью изучения модуля 1 «Введение в машинное обучение» является изучение базовых понятий машинного обучения, типами задач машинного обучения, оценкой качества решения задач машинного обучения. Задачи Модуля 1: 1. Знакомство с подходом к решению задач с использованием машинного обучения, отличиями от программирования. 2. Изучение типов задач машинного обучения (классификация, регрессия, кластеризация, снижение размерности, обнаружение выбросов). 3. Изучение наборов данных, которые используются в машинном обучении. 4. Знакомство с оценкой качества работы алгоритмов машинного обучения. Понятие переобучение.
26ч
Модуль 2 Библиотеки Python для работы с данными
Целью изучения модуля 2 «Библиотеки Python для работы с данными» изучением готовых библиотек на Python, которые применяются для работы с данными. Задачи Модуля 2: 1. Изучить библиотеку NumPy для высокопроизводительной работы с данными в Python. 2. Изучить библиотеку Pandas для работы с табличными данными в Python. 3. Научить визуализировать данные с помощью библиотек на Python.
40ч
Модуль 3 Классические алгоритмы машинного обучения
Целью изучения модуля 3 «Классические алгоритмы машинного обучения» является формирование знаний по работе с классическими алгоритмами машинного обучения, включая задачи регрессии, классификации, кластеризации. Задачи Модуля 3: 1. Ознакомить с понятием машинного обучения 2. Научить решать задачи регрессии, классификации и кластеризации 3. Овладеть методами подготовки цифровых данных для их использования в алгоритмах классического машинного обучения 4. Научить работать с существующими библиотеками в языке программирования Python для работы с алгоритмами классического машинного обучения
36ч
Модуль 4 Глубокие нейронные сети
Целью модуля 4 «Глубокие нейронные сети» является изучения модели искусственного нейрона, искусственных нейронных сетей, алгоритмов обучения нейронных сетей, библиотек для обучения нейронных сетей на Python. Задачи Модуля 4: 1. Изучение модели искусственного нейрона 2. Изучение нейронных сетей, в том числе глубоких нейронных сетей 3. Изучение алгоритмов обучения нейронных сетей 4. Изучение библиотек для обучение нейронных сетей на Python
48ч
Модуль 5 Нейронные сети для компьютерного зрения
Целью изучения модуля 5 «Нейронные сети для компьютерного зрения» является знакомство с подходами к решению задач компьютерного зрения с использованием нейронных сетей. Задачи Модуля 5: 1. Знакомство с задачами компьютерного зрения, которые могут быть решены с применением нейронных сетей. 2. Изучение подготовки данных для обучения нейронных сетей для задач компьютерного зрения. 3. Изучение сверточных нейронных сетей и их применения для решения задач компьютерного зрения. 4. Изучение предварительно обученных нейронных сетей для компьютерного зрения. 5. Изучение применения переноса обучения в задачах компьютерного зрения.
48ч
Модуль 6 Нейронные сети для обработки естественного языка
Целью изучения модуля 6 «Нейронные сети для обработки естественного языка» является изучение архитектур нейронных сетей, которые применяются для решения задач обработки текстов. Задачи Модуля 6: 1. Знакомство с задачами обработки естественного языка, которые могут быть решены с применением нейронных сетей. 2. Изучение подготовки текстов для обработки нейронными сетями. 3. Изучение нейронных сетей с архитектурой Transformer и их применения для решения задач компьютерного зрения. 4. Изучение предварительно обученных нейронных сетей для обработки естественного языка. 5. Изучение применения переноса обучения в задачах обработки естественного языка.

Преподаватели

Созыкин

Андрей Владимирович

Московский физико-технический институт (Национальный исследовательский университет)

Заместитель директора центра развития ИТ-образования МФТИ

кандидат технических наук

https://www.asozykin.ru/

Борисов

Василий Ильич

УрФУ

доцент

кандидат технических наук

https://urfu.ru/ru/about/personal-pages/personal/person/v.i.borisov/

Кошелев

Антон Александрович

Банк Уралсиб

Руководитель группы математического моделирования

кандидат физико-математических наук

Долганов

Антон Юрьевич

УрФУ

доцент

кандидат технических наук

https://urfu.ru/ru/about/personal-pages/Personal/person/anton.dolganov/

Ронкин

Михаил Владимирович

Уральский федеральный университет

преподаватель

к.т.н.

https://sciencedata.urfu.ru/portal/ru/persons/--(9f605ba0-4452-45e3-90d8-e20bbc574bdb)/activities.html

Якупов

Азат Шавкатович

Лаборатория DataLab Казанского Федерального Университета

Руководитель лаборатории, архитектор данных, преподаватель

https://docs.yandex.ru/docs/view?url=ya-disk-public%3A%2F%2F5tPwniB%2BSGw4SYW0dl4%2FGkYrY4s6YIeNVXsnhX1xYj0jYMGytpMis36zuvjyB66PsLK2WbwBkR%2F%2FqfmVHoPilw%3D%3D%3A%2F%D0%AF%D0%BA%D1%83%D0%BF%D0%BE%D0%B2%20%D0%90.%D0%A8..pdf&name=%D0%AF%D0%BA%D1%83%D0%BF%D0%BE%D0%B2%20%D0%90.%D0%A8..pdf&nosw=1

Черноскутов

Михаил Александрович

Уральский федеральный университет

Старший преподаватель

https://sciencedata.urfu.ru/portal/ru/persons/--(b94a0f40-ede8-4f52-9dec-56c7c223e552).html

Чернышов

Юрий Юрьевич

Сайберлимфа

исследователь

кандидат физико-математических наук

Авторизуйтесь чтобы записаться

Профстандарт

Специалист по большим данным

06.042

Специальность

Аналитик данных (Data Scientist)

Отрасль

Промышленность

Ответственный за программу

elenasyrtsova@list.ru

+7(912)7096478