III уровень Искусственный интеллект

Аналитик данных

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»
252 часа длительность
Онлайн формат
Базовый уровень
1 поток (закрыт) 14.09-15.12.2022
2 поток (закрыт) 04.10-20.12.2022

Описание

Обучение проходит в смешанном формате — предоставляются материалы онлайн-курса, интерактивная обучающая среда для выполнения упражнений, а также проводятся регулярные вебинары-мастер-классы (в режиме реального времени, и в записи) и консультации.

Программа ориентирована на слушателей различной направленности. Обязательными являются навыки программирования на любом высокоуровневом языке программирования. Преимуществом будет умение программировать на языке Python. Курс носит практико-ориентированный характер. В качестве упражнений пользователи будут обрабатывать наборы данных при помощи инструментов: реляционных СУБД и NoSQL хранилищ, библиотек языка программирования Python. В качестве обучающих упражнений в программе будут использованы практико-ориентированные кейсы от компании «Диджитал Дизайн» по следующим актуальным темам:

  • Тематическое тегирование документов. Автоматическая маршрутизация документов на основе тематического тегирования.
  • Выделение смысловых сущностей (адрес, номер документа и т.д.) в тексте документа
  • Автоматическое выявление смысловых связей между документами
  • Диаризация (разделение единой звуковой дорожки) по спикерам для числа спикеров более двух
  • Генерация текстовых комментариев к определенным участкам кода.

и другие.

Часов в программе
1 час
входная диагностика
36 часов
итоговая аттестация
37 часов
всего
Цель программы
Дать навыки применения методов обработки и хранения больших данных современными инструментами, а также навыки применения методов математической статистики, машинного обучения и глубокого обучения к интеллектуальному анализу данных для решения прикладных задач, в том числе в области автоматической обработки текстов и компьютерного зрения.
Актуальность
Дополнительная профессиональная программа переподготовки «Аналитик данных» рассчитана на подготовку специалистов в машинном обучении и науках о данных.
Основной целью программы является сформировать навыки применения методов обработки и хранения больших данных современными инструментами, а также навыки применения методов математической статистики, машинного обучения и глубокого обучения к интеллектуальному анализу данных для решения прикладных задач, в том числе в области автоматической обработки текстов и компьютерного зрения.
Преимуществом программы является не только возможность глубокого изучения методов машинного обучения, но и ее нацеленность на получение практических знаний. В качестве выпускной квалификационной работы слушателям необходимо будет выполнить обязательный проект.
Слушатели, прошедшие обучение в рамках данной программы, смогут претендовать на позиции начинающих разработчиков, аналитиков и ML-инженеров в компания различных отраслей экономики. Потребность в таких специалистах в настоящее время огромна.
Входная диагностика 1 час
Входная диагностика содержит вопросы на умение пользоваться файловой системой, знание основ логических операций и азов программирования.
Итоговая аттестация 36 часов
Итоговая аттестация проводится в формате реализации и защиты итогового проекта. Цель проекта: продемонстрировать владение навыками постановки и решения задач анализа данных с помощью изученных методов и алгоритмов.

Компетенции

Общекультурные


Культура работы с данными
Знать:

Терминология в области данных, источники данных, критерии проверки и улучшения качества данных, области применения анализа данных, описательные статистики

Уметь:

Умение находить необходимые данные, работать с различными форматами, преобразование данных

Владеть:

Владение электронными таблицами, в том числе регулярными выражениями и сводными таблицами, владеет методами визуализации данных

Общепрофессиональные


Владеет навыками программирование на языке Python
Знать:

Знание синтаксиса языка Python, конструкций для реализации алгоритмов

Уметь:

Умение создавать программный код на языке Python, ипользование библиотек

Владеть:

Использование Jupyter Notebooks и библиотек для реализации алгоритмов на языке Python

Владеет навыками работы с реляционными СУБД
Знать:

Проектирование данных в реляционной среде, знание принципов построения структур хранения данных и правил целостности, понимание дополнительных структур для оптимизации работы с данными, знание языка SQL и его процедурных расширений

Уметь:

Создание объектов базы данных: таблиц, индексов, процедур и функций с помощью языка SQL и его процедурных расширений, формирование запросов к данным

Владеть:

Проектирование и создание объектов базы данных в среде Oracle Apex, PostgreSQL

Статистическое оценивание данных
Знать:

Основные статистические параметры выборок, виды распределений

Уметь:

Точечное и интервальное оценивание, построение гипотез

Владеть:

Использование Jupyter Notebooks и библиотек для реализации алгоритмов на языке Python, электронные таблицы

Профессиональные


Навык работы с NoSQL хранилищами
Знать:

Проектирование данных в терминах NoSQL хранилищ, знание принципов построения структур хранения данных и правил целостности, понимание дополнительных структур для оптимизации работы с данными, знание языка манипулирования данными в хранилище

Уметь:

Создание объектов хранилища, формирование запросов к данным

Владеть:

Проектирование, создание объектов базы данных и построение запросов в средах Redis, MongoDb, Cassandra, Neo4j.

Владеет методами машинного обучения
Знать:

Знает основных задачи машинного обучения и методы их решения

Уметь:

Умеет применять подходящие инструменты для решения задач машинного обучения

Владеть:

Владеет концепцией алгоритмов решения задач машинного обучения при помощи  Python и его библиотек

Применяет методы машинного обучения для интеллектуального анализа данных
Знать:

Знает сферу применения и особенности методов машинного обучения

Уметь:

Умеет применять методы машинного обучения для решения прикладных задач

Владеть:

Владеет библиотеками Python для задач интеллектуального анализа данных

Знание основ искусственного интеллекта
Знать:

Знает методы и сферы применения методов искусственного интеллекта

Уметь:

Умеет применять методы машинного и глубоко обучения, статистическое оценивание для решения задач искусственного интелекта.

Владеть:

Владеет библиотеками Python для задач интеллектуального анализа данных

Владеет методами глубокого обучения
Знать:

Понятие полносвязной сети
Сверточные нейронные сети
Рекуррентные нейронные сети
Глубокое обучение с подкреплением, капсульные и сиамские нейросети, применение к теории игр

Уметь:

Применение нейросетевых подходов в задачах автоматической обработки естественного языка и компьютерного зрения: популярные архитектуры и промышленные решения

Владеть:

Инструменты построения и обучения нейронных сетей, оптимизаторы. Процесс и методология разработки архитектуры, GPU

Требования

Для обучение потребуется компьютер с устойчивым выходом в интернет

Образование
  • Высшее образование
Предварительное освоение иных дисциплин/курсов /модулей
линейная алгебра
основы высшей математики
основы логики
Владение необходимыми профессиональными компетенциями
базовое владение языком программирования высокого уровня
Иные требования и рекомендации для обучения по программе

Для обучение потребуется компьютер с устойчивым выходом в интернет

Модули

свернуть
Модуль 1 Хранение и обработка данных
Модуль освещает вопросы, связанные с представлением данных, разведочным анализом, визуализацией. Рассматриваются методы работы с временными рядами. Изучаются вопросы, связанные с организацией современных баз данных. Особое внимание уделяется проектированию и разработке баз данных, основанных на реляционной модели. Рассматриваются технологии, характерные для NoSQL-систем, классификация и приемы работы с наиболее популярными представителями хранилищ типа ключ-значение, документных хранилищ, колоночных и графовых.
Модуль 3 Методы машинного обучения
Модуль знакомит слушателей с задачами машинного обучения, решение которых востребовано в настоящее время. Подробно рассматривается задача регрессии и подходы к ее решению, задача классификации и некоторые метрические и статистические алгоритмы классификации: логистическая регрессия, метод k-ближайших соседей, байесовский классификатор, а также задача кластеризации с алгоритмами: k-средних и иерархическая (или агломеративная) кластеризация. Рассматриваются и более продвинутые подходы: снижение размерности и ансамблевые методы.
Модуль 2 Приемы статистической обработки данных
Модуль знакомит слушателей с основами теории вероятностей: изучаются одномерные и многомерные случайные величины, их характеристики, закон больших чисел и центральная предельная теорема. Изучение статистики начинается с выборочных характеристик, продолжается точечным оцениванием неизвестных параметров генеральной совокупности, сравниваются точечные и интервальные методы оценивания. Рассказывается про задачу проверки гипотез и подробно обсуждаются критерии согласия.
Модуль 4 Глубокое обучение и его практические применения
Модуль знакомит слушателей с основными понятиями глубокого обучения. Обсуждаются наиболее популярные и эффективные для решения прикладных задач архитектуры современных нейронных сетей, в том числе многослойные сверточные и рекуррентные нейронные сети. Рассматривается применение методов глубокого обучения для решения прикладных задач в области компьютерного зрения и автоматического обработки текстов.
Модуль 1 Хранение и обработка данных
Модуль освещает вопросы, связанные с представлением данных, разведочным анализом, визуализацией. Рассматриваются методы работы с временными рядами. Изучаются вопросы, связанные с организацией современных баз данных. Особое внимание уделяется проектированию и разработке баз данных, основанных на реляционной модели. Рассматриваются технологии, характерные для NoSQL-систем, классификация и приемы работы с наиболее популярными представителями хранилищ типа ключ-значение, документных хранилищ, колоночных и графовых.
Модуль 2 Приемы статистической обработки данных
Модуль знакомит слушателей с основами теории вероятностей: изучаются одномерные и многомерные случайные величины, их характеристики, закон больших чисел и центральная предельная теорема. Изучение статистики начинается с выборочных характеристик, продолжается точечным оцениванием неизвестных параметров генеральной совокупности, сравниваются точечные и интервальные методы оценивания. Рассказывается про задачу проверки гипотез и подробно обсуждаются критерии согласия.
Модуль 3 Методы машинного обучения
Модуль знакомит слушателей с задачами машинного обучения, решение которых востребовано в настоящее время. Подробно рассматривается задача регрессии и подходы к ее решению, задача классификации и некоторые метрические и статистические алгоритмы классификации: логистическая регрессия, метод k-ближайших соседей, байесовский классификатор, а также задача кластеризации с алгоритмами: k-средних и иерархическая (или агломеративная) кластеризация. Рассматриваются и более продвинутые подходы: снижение размерности и ансамблевые методы.
Модуль 4 Глубокое обучение и его практические применения
Модуль знакомит слушателей с основными понятиями глубокого обучения. Обсуждаются наиболее популярные и эффективные для решения прикладных задач архитектуры современных нейронных сетей, в том числе многослойные сверточные и рекуррентные нейронные сети. Рассматривается применение методов глубокого обучения для решения прикладных задач в области компьютерного зрения и автоматического обработки текстов.

Преподаватели

Бойцев

Антон Александрович

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

ординарный доцент

к.ф.-м.н.

https://itmo.ru/ru/viewperson/1546/boycev_anton_aleksandrovich.htm

Графеева

Наталья Генриховна

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

доцент Высшей школы цифровой культуры

к.ф.-м.н.

доцент

https://itmo.ru/ru/viewperson/1548/grafeeva_natalya_genrihovna.htm

Михайлова

Елена Георгиевна

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

директор Высшей школы цифровой культуры университета ИТМО

к.ф.-м.н.

доцент

https://itmo.ru/ru/viewperson/1399/mihaylova_elena_georgievna.htm

Волчек

Дмитрий Геннадьевич

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

доцент Высшей школы цифровой

к.т.н.

https://itmo.ru/ru/viewperson/1547/volchek_dmitriy_gennadevich.htm

Романов

Алексей Андреевич

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

доцент Высшей школы цифровой культуры университета ИТМО

к.т.н.

https://itmo.ru/ru/viewperson/1544/romanov_aleksey_andreevich.htm

Егорова

Ольга Борисовна

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

преподаватель Высшей школы цифровой культуры университета ИТМО

к.фил.н.

https://itmo.ru/ru/viewperson/1545/egorova_olga_borisovna.htm

Самарин

Алексей Владимирович

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

преподаватель

Азимов

Рустам Шухратуллович

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет ИТМО»

Преподаватель

https://disser.spbu.ru/zashchita-uchenoj-stepeni-spbgu/799-azimov-rustam-shukhratullovich.html
Авторизуйтесь чтобы записаться

Профстандарт

Специалист по большим данным

06.042

Специальность

Аналитик данных (Data Scientist)

Ответственный за программу

e.mikhailova@itmo.ru

+7(921)9979791