III уровень

Аналитик данных

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»
252 часа длительность
Онлайн формат
Базовый уровень
1 поток 01.06-30.09.2024
2 поток 25.07-25.11.2024
3 поток 01.09-25.11.2024

Описание

Обучение проходит в смешанном формате — предоставляются материалы онлайн-курса, интерактивная обучающая среда для выполнения упражнений, а также проводятся регулярные вебинары-мастер-классы (в режиме реального времени, и в записи) и консультации. Поддержка обучающихся производится также с помощью чата в Телеграм и электронной почты.

Программа ориентирована на слушателей, не имеющих фундаментального образования в сфере информационных технологий. Желательно иметь минимальные навыки программирования на любом высокоуровневом языке программирования. Преимуществом будет умение программировать на языке Python. Курс носит практикоориентированный характер. В качестве упражнений пользователи будут обрабатывать наборы данных при помощи инструментов: реляционных СУБД и NoSQL хранилищ, а также ориентированных на методы машинного обучения библиотек языка программирования Python. В качестве обучающих упражнений в программе будут использованы практико-ориентированные кейсы от компании Диджитал Дизайн по актуальным темам в области искусственного интеллекта.

Часов в программе
60 часов
лекции
60 часов
практика
84 часа
самостоятельная
12 часов
промежуточная аттестация
1 час
входная диагностика
36 часов
итоговая аттестация
253 часа
всего
Цель программы
Дать навыки применения методов обработки и хранения больших данных современными инструментами, а также навыки применения машинного обучения к интеллектуальному анализу данных для решения прикладных задач, в том числе в области автоматической обработки текстов и компьютерного зрения.
Актуальность
Дополнительная профессиональная программа переподготовки «Аналитик данных» рассчитана на подготовку специалистов в машинном обучении и науках о данных.
Основная цель программы — сформировать навыки применения методов обработки и хранения больших данных современными инструментами, а также навыки применения методов математической статистики, машинного обучения и глубокого обучения к интеллектуальному анализу данных для решения прикладных задач, в том числе в области автоматической обработки текстов и компьютерного зрения.
Преимуществом программы является не только возможность глубокого изучения методов машинного обучения, но и ее нацеленность на получение практических знаний. В качестве выпускной квалификационной работы слушателям необходимо будет выполнить обязательный проект.
Слушатели, прошедшие обучение в рамках данной программы, смогут претендовать на позиции начинающих разработчиков, аналитиков и ML-инженеров в компаниях различных отраслей экономики. Потребность в таких специалистах в настоящее время огромна.
Входная диагностика 1 час
Входная диагностика содержит вопросы на умение пользоваться файловой системой, знание основ логических операций и азов программирования.
Итоговая аттестация 36 часов
Итоговая аттестация проводится в формате реализации и защиты итогового проекта. Цель проекта: продемонстрировать владение навыками постановки и решения задач анализа данных с помощью изученных методов и алгоритмов.

Компетенции

Общепрофессиональные


Способен классифицировать и идентифицировать задачи искусственного интеллекта, выбирать адекватные методы и инструментальные средства решения задач искусственного интеллекта
Знать:

Классифицирует и идентифицирует задачи систем искусственного интеллекта в зависимости от особенностей проблемной и предметной областей
Терминология в области данных, источники данных, критерии проверки и улучшения качества данных, области применения анализа данных, описательные статистики

Уметь:

Выбирает методы и инструментальные средства искусственного интеллекта для решения задач в зависимости от особенностей проблемной области
Собирает исходную информацию и формирует требования к решению задач с использованием методов искусственного интеллекта
Умение находить необходимые данные, работать с различными форматами, преобразование данных, оценка качества данных

Владеть:

Владение электронными таблицами, в том числе регулярными выражениями и сводными таблицами, владеет методами визуализации данных
Python и библитеки

Профессиональные


Способен выполнять анализ больших данных
Знать:

Использует знания о вариантах использования больших данных, определениях, словарях и эталонной архитектуре больших данных для эффективного извлечения, хранения, подготовки больших данных
Проектирование данных в реляционной среде, знание принципов построения структур хранения данных и правил целостности, понимание дополнительных структур для оптимизации работы с данными, знание языка SQL и его процедурных расширений
Проектирование данных в терминах NoSQL хранилищ, знание принципов построения структур хранения данных и правил целостности, понимание дополнительных структур для оптимизации работы с данными, знание языка манипулирования данными в хранилище

Уметь:

Выполняет обработку, удаленную, распределенную и объединенную аналитику, описание и управление качеством и достоверностью, использует результаты анализа больших данных
Создание объектов базы данных: таблиц, индексов, процедур и функций с помощью языка SQL и его процедурных расширений, формирование запросов к данным
Создание объектов NoSQL хранилища, формирование запросов к данным

Владеть:

PostgreSQL
Python и библитеки
Redis, MongoDb, Cassandra, Neo4j

Способен разрабатывать и применять методы машинного обучения для решения задач
Знать:

Знания основных задачи машинного обучения и методы их решения
Проводит анализ требований и определяет необходимые классы задач машинного обучения

Уметь:

Определяет метрики оценки результатов моделирования и критерии качества построенных моделей
Принимает участие в оценке и выборе используемых методов машинного обучения
Умеет применять подходящие инструменты для решения задач машинного обучения

Владеть:

Владеет концепцией алгоритмов решения задач машинного обучения при помощи  Python и его библиотек

Способен использовать инструментальные средства для решения задач машинного обучения
Знать:

Осуществляет оценку и выбор инструментальных средств для решения поставленной задачи

Уметь:

Разрабатывает модели машинного обучения для решения задач

Владеть:

Владеет концепцией алгоритмов решения задач машинного обучения при помощи  Python и его библиотек

Общепрофессиональные


Способен осуществлять сбор и подготовку данных для систем искусственного интеллекта
Знать:

Осуществляет поиск данных в открытых источниках, специализированных библиотеках и репозиториях

Уметь:

Выполняет подготовку и разметку структурированных и неструктурированных данных для машинного обучения
Проводит разведочный анализ данных

Владеть:

Python и библиотеки
SQL/PostgreSQL
Электронные таблицы

Профессиональные


Способен использовать одну или несколько сквозных цифровых субтехнологий искусственного интеллекта
Знать:

Знает задачи и технологии в области сквозной цифровой субтехнологии «Компьютерное зрение»
Знает задачи и технологии в области сквозной цифровой субтехнологии «Обработка естественного языка»
Знает задачи и технологии в области сквозной цифровой субтехнологии «Рекомендательные системы и системы поддержки принятия решений»
Знает задачи и технологии в области сквозной цифровой субтехнологии «Распознавание и синтез речи»
Знает задачи и технологии в области перспективных сквозных цифровых субтехнологий искусственного интеллекта

Уметь:

Решает прикладные задачи и участвует в реализации проектов в области сквозной цифровой субтехнологии «Компьютерное зрение»
Решает прикладные задачи и участвует в реализации проектов в области сквозной цифровой субтехнологии «Обработка естественного языка»
Решает прикладные задачи и участвует в реализации проектов в области сквозной цифровой субтехнологии «Рекомендательные системы и системы поддержки принятия решений»
Решает прикладные задачи и участвует в реализации проектов в области сквозной цифровой субтехнологии «Распознавание и синтез речи»
Решает прикладные задачи и участвует в реализации проектов в области перспективных сквозных цифровых субтехнологий искусственного интеллекта

Владеть:

Python и его библиотеки, инструменты МО, инструменты решения задач компьютерного зрения

Требования

Нет

Владение необходимыми профессиональными компетенциями
• Базовые знания цифровой культуры;
• Знания математики в рамках школьной программы;
• Минимальные навыки программирования на высокоуровневом языке программирования.

Модули

свернуть
72ч
Модуль 1 Разведочный анализ данных и основы Python для анализа данных
Модуль знакомит с этапами анализа данных и начинает с первых шагов. Сбор данных из разных источников, структурирование, объединение данных, нормировки и шкалы, агрегирование и визуализация данных. Особое внимание уделяется анализу временных рядов, заполнению пропусков, удалению шумов, определению периодов и прогнозированию. Рассматриваются вопросы, связанные с построением целевых функций и регулярные выражения. В качестве инструментов первичной обработки данных используются электронные таблицы (Яндекс документы) и язык программирования Python. Изучения раздела начинается с основ программирования на языке Python, использование библиотек Numpy и Pandas. В качестве среды разработки используется Jupyter Notebook и Google Colab. Изучаются приемы работы с различными форматами данных.
72ч
Модуль 3 Машинное обучение и прикладной искусственный интеллект
Раздел знакомит слушателей с задачами машинного обучения, решение которых востребовано в настоящее время. Подробно рассматривается задача понижения размерности, регрессии и подходы к ее решению, задача классификации и некоторые метрические и статистические алгоритмы классификации: логистическая регрессия, метод k-ближайших соседей, а также задача кластеризации с алгоритмами: k-средних и иерархическая (или агломеративная) кластеризация. Дается обзор методов глубокого обучения. Модуль показывает подходы к решению задач компьютерного зрения, интеллектуального анализа текстов, синтеза речи, рекомендательных систем с помощью методов машинного и глубокого обучения.
72ч
Модуль 2 Хранение структурированных и неструктурированных данных, SQL и NoSQL
Модуль рассматривает вопросы, связанные с организацией современных баз данных. Особое внимание уделяется проектированию структурированных данных, описанию ограничений целостности. Изучаются SQL DDL и DML. Рассматриваются запросы с агрегированием и соединением, аналитические функции. Также дается представление об оптимизации запросов и применении индексов. Модуль знакомит с основами проектирования и использования NoSQL хранилищ данных. Рассматриваются технологии, характерные для NoSQL-систем, классификация и приемы работы с наиболее популярными представителями хранилищ типа ключ-значение, документных хранилищ, колоночных и графовых.
72ч
Модуль 1 Разведочный анализ данных и основы Python для анализа данных
Модуль знакомит с этапами анализа данных и начинает с первых шагов. Сбор данных из разных источников, структурирование, объединение данных, нормировки и шкалы, агрегирование и визуализация данных. Особое внимание уделяется анализу временных рядов, заполнению пропусков, удалению шумов, определению периодов и прогнозированию. Рассматриваются вопросы, связанные с построением целевых функций и регулярные выражения. В качестве инструментов первичной обработки данных используются электронные таблицы (Яндекс документы) и язык программирования Python. Изучения раздела начинается с основ программирования на языке Python, использование библиотек Numpy и Pandas. В качестве среды разработки используется Jupyter Notebook и Google Colab. Изучаются приемы работы с различными форматами данных.
72ч
Модуль 2 Хранение структурированных и неструктурированных данных, SQL и NoSQL
Модуль рассматривает вопросы, связанные с организацией современных баз данных. Особое внимание уделяется проектированию структурированных данных, описанию ограничений целостности. Изучаются SQL DDL и DML. Рассматриваются запросы с агрегированием и соединением, аналитические функции. Также дается представление об оптимизации запросов и применении индексов. Модуль знакомит с основами проектирования и использования NoSQL хранилищ данных. Рассматриваются технологии, характерные для NoSQL-систем, классификация и приемы работы с наиболее популярными представителями хранилищ типа ключ-значение, документных хранилищ, колоночных и графовых.
72ч
Модуль 3 Машинное обучение и прикладной искусственный интеллект
Раздел знакомит слушателей с задачами машинного обучения, решение которых востребовано в настоящее время. Подробно рассматривается задача понижения размерности, регрессии и подходы к ее решению, задача классификации и некоторые метрические и статистические алгоритмы классификации: логистическая регрессия, метод k-ближайших соседей, а также задача кластеризации с алгоритмами: k-средних и иерархическая (или агломеративная) кластеризация. Дается обзор методов глубокого обучения. Модуль показывает подходы к решению задач компьютерного зрения, интеллектуального анализа текстов, синтеза речи, рекомендательных систем с помощью методов машинного и глубокого обучения.

Преподаватели

Михайлова

Елена Георгиевна

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

директор Высшей школы цифровой культуры университета ИТМО

к.ф.-м.н.

доцент

https://itmo.ru/ru/viewperson/1399/mihaylova_elena_georgievna.htm

Графеева

Наталья Генриховна

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

доцент Высшей школы цифровой культуры

к.ф.-м.н.

доцент

https://itmo.ru/ru/viewperson/1548/grafeeva_natalya_genrihovna.htm

Бойцев

Антон Александрович

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

ординарный доцент

к.ф.-м.н.

https://itmo.ru/ru/viewperson/1546/boycev_anton_aleksandrovich.htm

Егорова

Ольга Борисовна

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

преподаватель Высшей школы цифровой культуры университета ИТМО

к.фил.н.

https://itmo.ru/ru/viewperson/1545/egorova_olga_borisovna.htm

Азимов

Рустам Шухратуллович

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

Преподаватель

https://disser.spbu.ru/zashchita-uchenoj-stepeni-spbgu/799-azimov-rustam-shukhratullovich.html

Романов

Алексей Андреевич

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

доцент Высшей школы цифровой культуры университета ИТМО

к.т.н.

https://itmo.ru/ru/viewperson/1544/romanov_aleksey_andreevich.htm

Самарин

Алексей Владимирович

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

преподаватель

Токман

Мария Александровна

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

преподаватель

кандидат физ.-мат.наук

https://isu.ifmo.ru/person/296813

Волчек

Дмитрий Геннадьевич

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

доцент Высшей школы цифровой

к.т.н.

https://itmo.ru/ru/viewperson/1547/volchek_dmitriy_gennadevich.htm

Малых

Валентин Андреевич

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

доцент

кандидат тех.наук

https://val.maly.hk/
Авторизуйтесь чтобы записаться

Профстандарт

Специалист по большим данным

06.042

Специальность

Аналитик данных (Data Scientist)

Ответственный за программу

e.mikhailova@itmo.ru

+79219979791