Большие данные

Инженер Data Science

GeekBrains
599,00 часов длительность
Онлайн формат
Базовый уровень
2 поток (закрыт) 28.05.2022-28.08.2023
3 поток (закрыт) 25.06.2022-25.09.2023
4 поток (закрыт) 04.09.2022-04.10.2024
5 поток (закрыт) 17.09.2022-17.10.2024

Описание

#инженер #data #science

Инженер Data Science умеют преобразовывать большие массивы данных и применять их для решения конкретных задач. Именно поэтому их так ценят в бизнесе. Применяя методы машинного обучения, они строят прогнозы и повышают эффективность бизнес-процессов в любой отрасли. Мы поможем стать таким специалистом с нуля и найти работу.

Кому подойдёт программа

  • Тем, кто хочет получить востребованную профессию,трудоустроиться или создать собственный бизнес с нуля.
  • Тем, кто хочет сменить работу и получить актуальную высокооплачиваемую специальность в IT.

Вы научитесь

  • Основам языка программирования Python
  • Алгоритмы и структуры данных на Python
  • Основам работы с операционными системами Linux
  • Основам высшей математики
  • Теории вероятностей
  • Методам математической статистики
  • Методам машинного обучения
  • Стратегии создания рекомендательных систем
  • Методам сбора и обработки данных в сети Интернет
  • Типовым методам анализа данных
  • Основам работы с HADOOP
  • Основным алгоритмам анализа данных
  • и многое другое

Преимущества программы 

  • Бессрочный доступ к обновлениям и открытие уроков 
  • Полный набор требуемых навыков для работы в IT
  • Портфолио из реализованных проектов
  • Диплом о профессиональной подготовке установленного образца
  • Основы разработки с нуля
  • Занятия онлайн и в записи
  • Удобный график обучения
  • Гарантия трудоустройства или запуск собственного бизнеса

Вместе мы позаботимся о вашем профессиональном будущем

  • Актуальная программа. Мы обновляем программу ежегодно: проводим исследования, изучаем вакансии продуктового аналитика, новые инструменты аналитики и источники данных.
  • Практикующие преподаватели. Вас будут обучать эксперты из компаний международного уровня, которые внедряют культуру аналитики и выступают на профильных конференциях.
  • Живое общение. В программе 90% вебинаров с преподавателями: вы сможете задать вопросы по теме и быстро получить обратную связь. В чате с одногруппниками будете поддерживать связь и обсуждать интересующие вас вопросы.
  • Куратор. Поможет вам освоиться в личном кабинете, в процессе обучения всегда будет на связи и поможет найти ответы на вопросы.
  • Специалисты техподдержки. Помогут, если возникнут сложности с личным кабинетом или загрузкой занятий.

Ваши результаты

  • Трудоустройство по профессии. Вы освоите специальность с нуля и сможете претендовать на реальные вакансии.  
  • Возможность открыть бизнес. После обучения вы сможете попасть в бизнес-акселератор, где реализуете и протестируете свою идею.

Практические занятия составляют более 50% от общего объема программы профессиональной переподготовки.

Часов в программе
239,00 часов
лекции
101,00 час
практика
236,00 часов
самостоятельная
20,00 часов
промежуточная аттестация
1 час
входная диагностика
2 часа
итоговая аттестация
599,00 часов
всего
Цель программы
Целью программы профессиональной переподготовки является получение слушателями компетенций, необходимых для выполнения нового вида профессиональной деятельности, специализированной в области инженирии данных.
Актуальность
Data Science (DS) — междисциплинарная область на стыке статистики, математики, системного анализа и машинного обучения, которая охватывает все этапы работы с данными. Она предполагает исследование и анализ сверхбольших массивов информации и ориентирована в первую очередь на получение практических результатов.
Специалисты по DS на основе больших данных могут создавать модели, которые предсказывают, что случится завтра. В том числе и предсказывать спрос на те или иные товары и услуги.
Компании используют Data Science вне зависимости от размера бизнеса, так как понимают, что неструктурированная информация содержит очень важные для компании знания, способные повлиять на результаты бизнеса
Входная диагностика 1 час
тестирование
Итоговая аттестация 2 часа
итоговая аттестация проводится в форме защиты индивидуального итогового проекта.

Компетенции

Профессиональные


ПК-1 - способность самостоятельно ставить конкретные задачи научных исследований в области науки о данных и решать их с помощью современной аппаратуры и информационных технологий с использованием новейшего российского и зарубежного опыта
Знать:

Знать основы науки о данных и основы интеллектуального анализа и моделирования данных как составной части современных фундаментальных и прикладных исследований, классификацию задач интеллектуального анализа данных и области применения интеллектуального анализа данных.

Уметь:

Уметь применять методы науки о данных и интеллектуального анализа и моделирования данных при решении задач фундаментальных и прикладных исследований в различных областях знаний

Владеть:

применять методы науки о данных и интеллектуального анализа и моделирования данных при решении задач фундаментальных и прикладных исследований в различных областях знаний, анализировать и интерпретировать полученные модели данных ;
владеть приемами и методами науки о данных, интеллектуального анализа и моделирования данных

ПК-3 - способность разрабатывать и применять математические методы, системное и прикладное программное обеспечение для решения задач научной и проектно-технологической деятельности
Знать:

Знать основы интеллектуального анализа и моделирования данных как составной части решения задач научной и проектно-технологической деятельности, решать вопросы их применимости при решении конкретных задач.

Уметь:

Уметь применять методы интеллектуального анализа и моделирования данных для решения задач научной и проектно-технологической деятельности., анализировать и интерпретировать полученные модели данных.

Владеть:

Владеть приемами и методами интеллектуального анализа и моделирования данных, выявления взаимосвязи факторов, выявления главных факторов.

ПК-6 – способность организовывать процессы корпоративного обучения на основе информационных технологий и развития корпоративных баз знаний
Знать:

Знать основы интеллектуального анализа и моделирования данных как составной части корпоративного обучения на основе информационных технологий и развития корпоративных баз знаний, принципы и методы корпоративного обучения на основе информационных технологий и развития корпоративных баз знаний

Уметь:

Уметь применять методы интеллектуального анализа и моделирования данных для решения задач корпоративного обучения на основе информационных технологий и развития корпоративных баз знаний, принципы и методы корпоративного обучения на основе информационных технологий и развития корпоративных баз знаний.

Владеть:

Владеть приемами и методами интеллектуального анализа и моделирования данных при решении задач корпоративного обучения на основе информационных технологий и развития корпоративных баз знаний, приемами и методамикорпоративного обучения на основе информационных технологий и развития корпоративных баз знаний.

ПК-11 – способность разрабатывать аналитические обзоры состояния области прикладной математики и информационных технологий
Знать:

Знать основы интеллектуального анализа и моделирования данных для разработки аналитических обзоров в области прикладной математики и информационных технологий, принципы и методы разработки аналитических обзоров.

Уметь:

Уметь применять методы интеллектуального анализа и моделирования данных при разработке аналитических обзоров в области прикладной математики и информационных технологий, применять принципы и методы разработки аналитических обзоров.

Владеть:

Владеть приемами и методами интеллектуального анализа и моделирования данных при решении задач разработки аналитических обзоров в области прикладной математики и информационных технологий, приемами и методами разработки аналитических обзоров.

Требования

Нет

Образование
  • Высшее образование
  • Среднее профессиональное образование

Модули

свернуть
49,00ч
Модуль 1 Модуль 1. Основы языка Python
Знакомство с Python Встроенные типы и операции с ними Функции Полезные инструменты Работа с файлами Объектно-ориентированное программирование
74,00ч
Модуль 3 Модуль 3. Основы реляционных баз данных. MySQL
Установка окружения. DDL-команды Управление БД. Язык запросов SQL Введение в проектирование БД CRUD-операции Операторы, фильтрация, сортировка и ограничение. Агрегация данных Сложные запросы Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры Оптимизация запросов. NoSQL
60,00ч
Модуль 5 Модуль 5. Теория вероятностей и математическая статистика
Случайные события. Условная вероятность. Формула Байеса. Независимые испытания Дискретные случайные величины. Закон распределения вероятностей. Биномиальный закон распределения. Распределение Пуассона Описательная статистика. Качественные и количественные характеристики популяции. Графическое представление данных Непрерывные случайные величины. Функция распределения и плотность распределения вероятностей. Равномерное и нормальное распределение. Центральная предельная теорема Проверка статистических гипотез. P-значения. Доверительные интервалы. A/B-тестирование Многомерный статистический анализ. Линейная регрессия
53,00ч
Модуль 7 Модуль 7. Введение в высшую математику
Элементарная алгебра Введение в аналитическую геометрию. Графики на плоскости Элементы теории вероятностей Введение в линейную алгебру
50,00ч
Модуль 9 Модуль 9. Алгоритмы анализа данных
Алгоритм линейной регрессии. Градиентный спуск Масштабирование признаков. L1- и L2-регуляризация. Стохастический градиентный спуск Логистическая регрессия. Log Loss Алгоритм построения дерева решений Случайный лес Градиентный бустинг (AdaBoost) Классификация с помощью KNN. Кластеризация K-means Снижение размерности данных
77,00ч
Модуль 2 Модуль 2. Linux. Рабочая станция
Введение. Установка ОС Настройка и знакомство с интерфейсом командной строки Пользователи. Управление Пользователями и группами Загрузка ОС и процессы Устройство файловой системы Linux. Понятие Файла и каталога Введение в скрипты Bash. Планировщики задач crontab и at Управление пакетами и репозиториями. Основы сетевой безопасности Введение в Docker
48,00ч
Модуль 4 Модуль 4. Библиотеки Python для Data Science
Numpy, Matplotlib, Scikit-learn Pandas SciPy
53,00ч
Модуль 6 Модуль 6. Методы сбора и обработки данных из сети Интернет
Основы клиент-серверного взаимодействия. Парсинг API Парсинг HTML. BeautifulSoup, MongoDB Системы управления базами данных MongoDB и SQLite в Python Парсинг HTML. XPath Scrapy Selenium в Python
54,00ч
Модуль 8 Модуль 8. Алгоритмы и структуры данных на Python.
Введение в Алгоритмизацию и простые алгоритмы на Python Циклы, рекурсия, функции Массивы Эмпирическая оценка алгоритмов Коллекции. Модуль Collections Работа с динамической памятью Алгоритмы сортировки Графы Деревья. Хеш-функции
78,00ч
Модуль 10 Модуль 10. Машинное обучение
Data-driven-подход на примере задачи маршрутизации заявок в helpdesk Профилирование пользователей. Сегментация: unsupervised learning (clustering, LDA/ARTM), supervised (multi/binary classification) Связь бизнес-показателей и DS-метрик Uplift-моделирование Задача оттока: варианты постановки, возможные способы решения Задача look-alike Интерпретация прогнозов модели (SHAP): объясняем поведение модели на отдельных наблюдениях Проверяем работу модели на практике: A/B-тестирование Интеграция
49,00ч
Модуль 1 Модуль 1. Основы языка Python
Знакомство с Python Встроенные типы и операции с ними Функции Полезные инструменты Работа с файлами Объектно-ориентированное программирование
77,00ч
Модуль 2 Модуль 2. Linux. Рабочая станция
Введение. Установка ОС Настройка и знакомство с интерфейсом командной строки Пользователи. Управление Пользователями и группами Загрузка ОС и процессы Устройство файловой системы Linux. Понятие Файла и каталога Введение в скрипты Bash. Планировщики задач crontab и at Управление пакетами и репозиториями. Основы сетевой безопасности Введение в Docker
74,00ч
Модуль 3 Модуль 3. Основы реляционных баз данных. MySQL
Установка окружения. DDL-команды Управление БД. Язык запросов SQL Введение в проектирование БД CRUD-операции Операторы, фильтрация, сортировка и ограничение. Агрегация данных Сложные запросы Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры Оптимизация запросов. NoSQL
48,00ч
Модуль 4 Модуль 4. Библиотеки Python для Data Science
Numpy, Matplotlib, Scikit-learn Pandas SciPy
60,00ч
Модуль 5 Модуль 5. Теория вероятностей и математическая статистика
Случайные события. Условная вероятность. Формула Байеса. Независимые испытания Дискретные случайные величины. Закон распределения вероятностей. Биномиальный закон распределения. Распределение Пуассона Описательная статистика. Качественные и количественные характеристики популяции. Графическое представление данных Непрерывные случайные величины. Функция распределения и плотность распределения вероятностей. Равномерное и нормальное распределение. Центральная предельная теорема Проверка статистических гипотез. P-значения. Доверительные интервалы. A/B-тестирование Многомерный статистический анализ. Линейная регрессия
53,00ч
Модуль 6 Модуль 6. Методы сбора и обработки данных из сети Интернет
Основы клиент-серверного взаимодействия. Парсинг API Парсинг HTML. BeautifulSoup, MongoDB Системы управления базами данных MongoDB и SQLite в Python Парсинг HTML. XPath Scrapy Selenium в Python
53,00ч
Модуль 7 Модуль 7. Введение в высшую математику
Элементарная алгебра Введение в аналитическую геометрию. Графики на плоскости Элементы теории вероятностей Введение в линейную алгебру
54,00ч
Модуль 8 Модуль 8. Алгоритмы и структуры данных на Python.
Введение в Алгоритмизацию и простые алгоритмы на Python Циклы, рекурсия, функции Массивы Эмпирическая оценка алгоритмов Коллекции. Модуль Collections Работа с динамической памятью Алгоритмы сортировки Графы Деревья. Хеш-функции
50,00ч
Модуль 9 Модуль 9. Алгоритмы анализа данных
Алгоритм линейной регрессии. Градиентный спуск Масштабирование признаков. L1- и L2-регуляризация. Стохастический градиентный спуск Логистическая регрессия. Log Loss Алгоритм построения дерева решений Случайный лес Градиентный бустинг (AdaBoost) Классификация с помощью KNN. Кластеризация K-means Снижение размерности данных
78,00ч
Модуль 10 Модуль 10. Машинное обучение
Data-driven-подход на примере задачи маршрутизации заявок в helpdesk Профилирование пользователей. Сегментация: unsupervised learning (clustering, LDA/ARTM), supervised (multi/binary classification) Связь бизнес-показателей и DS-метрик Uplift-моделирование Задача оттока: варианты постановки, возможные способы решения Задача look-alike Интерпретация прогнозов модели (SHAP): объясняем поведение модели на отдельных наблюдениях Проверяем работу модели на практике: A/B-тестирование Интеграция

Преподаватели

Кадочников

Алексей

GeekBrains

Круглей

Павел

GeekBrains

преподаватель

220 000 p
Авторизуйтесь чтобы записаться

Профстандарт

Специалист по большим данным

06.042

Ответственный за программу

support@geekbrains.ru

+74992131726