Большие данные

Аналитик больших данных

GeekBrains
405,00 часов длительность
Онлайн формат
Базовый уровень
1 поток (закрыт) 16.04.2022-16.07.2023
2 поток (закрыт) 11.05-11.12.2022
3 поток (закрыт) 28.05.2022-06.11.2023
4 поток (закрыт) 12.06.2022-07.11.2023
5 поток (закрыт) 25.06.2022-07.11.2023
6 поток (закрыт) 10.07.2022-07.11.2023
7 поток (закрыт) 23.07.2022-06.11.2023
8 поток (закрыт) 07.08.2022-07.09.2023
9 поток (закрыт) 20.08.2022-20.09.2023
10 поток (закрыт) 04.09.2022-04.10.2023
11 поток (закрыт) 17.09.2022-17.10.2023
12 поток (закрыт) 02.10.2022-02.11.2023
13 поток (закрыт) 15.10.2022-15.11.2023
14 поток (закрыт) 06.11.2022-06.12.2023
15 поток (закрыт) 19.11.2022-19.12.2023
16 поток (закрыт) 04.12.2022-25.12.2023
17 поток (закрыт) 17.12.2022-25.12.2023

Описание

Аналитик Big Data извлекает ценные данные из большого массива информации: отзывов, прогнозов, результатов исследований. Он помогает бизнесу принимать взвешенные решения: строить гипотезы, запускать продукты, улучшать процессы, планировать развитие. Вы научитесь собирать и анализировать данные, извлекать полезную информацию и находить закономерности. После обучения сможете проверять гипотезы и помогать бизнесу принимать взвешенные решения.

Кому подойдёт программа

  • Тем, кто хочет получить востребованную профессию,трудоустроиться или создать собственный бизнес с нуля.
  • Тем, кто хочет сменить работу и получить актуальную высокооплачиваемую специальность в IT.

 

Траектория и программа обучения

Вы поэтапно изучите общий блок с фундаментальными знаниями о разработке, выберете одну из пяти специализаций и подготовитесь к поиску работы или запуску стартапа.

Посмотрите подробный и наглядный план обучения в нашей <span class="s2">презентации</span>

 

Преимущества программы

  • Бессрочный доступ к обновлениям и открытие уроков 
  • Полный набор требуемых навыков для работы в IT
  • Портфолио из реализованных проектов
  • Диплом о профессиональной подготовке установленного образца
  • Основы разработки с нуля
  • Занятия онлайн и в записи
  • Удобный график обучения
  • Гарантия трудоустройства или запуск собственного бизнеса

Что вас ждёт во время обучения

  • Сопровождение личного куратора на весь период обучения. Он поможет с любыми вопросами. 
  • Подробная обратная связь от преподавателей. Все домашние задания и практические работы лично проверяют эксперты индустрии. 
  • Доступ к чату с одногруппниками в Telegram. Вы сможете общаться и обмениваться опытом с единомышленниками. 

 

Ваши результаты

  • Трудоустройство по профессии. Вы освоите специальность с нуля и сможете претендовать на реальные вакансии.  
  • Возможность открыть бизнес. После обучения вы сможете попасть в бизнес-акселератор, где реализуете и протестируете свою идею.

Длительность: от 12 месяцев (374 часа)

 

Часов в программе
168,00 часов
лекции
69,00 часов
практика
145,00 часов
самостоятельная
20,00 часов
промежуточная аттестация
1 час
входная диагностика
2 часа
итоговая аттестация
405,00 часов
всего
Цель программы
Целью реализации программы профессиональной переподготовки «Разработчик. Аналитик больших данных» является содействие становлению профессиональных компетенций слушателей, необходимых для создания и сопровождения информационных систем (ИС), автоматизирующих задачи сбора, обработки и анализа больших объемов разнообразных данных, применяемых в системах организационного управления, бизнес-процессах и принятия решений, а также для разработки на их основе новых продуктов и услуг с целью повышения эффективности действительности организаций - пользователей ИС.
Актуальность
С каждым годом увеличивается объем генерируемой человеком информации. Соответственно, управление структурированными и неструктурированными данными при помощи современных технологий — сфера, которая становится все более важной. Интересуются большими данными как отдельные компании, так и целые государства. Рынок Big Data ежегодно увеличивается на несколько десятков процентов. Аналитика больших данных позволяет выявлять крайне ценную информацию из структурированных или неструктурированных наборов данных. Благодаря этому бизнес, например, может определять тенденции, прогнозировать производственные показатели и оптимизировать собственные расходы.
Входная диагностика 1 час
тестирование
Итоговая аттестация 2 часа
итоговая аттестация проводится в форме защиты индивидуального итогового проекта.

Компетенции

Профессиональные


ПК 1 – способность выявлять, формировать и согласовывать требования к результатам аналитических работ с применением технологий больших данных
Знать:

• методы машинного обучения;
• стратегии создания рекомендательных систем;
• методы сбора и обработки данных в сети Интернет;
• типовые методы анализа данных;
• основные алгоритмы анализа данных;

Уметь:

• проводить математический анализ больших данных
• создавать, настраивать, сопровождать и анализировать работу рекомендательных систем;
• работать с открытыми данными ;

Владеть:

• использовать утилиты, библиотеки и фреймворк HADOOP;
• осуществлять потоковую обработку данных;
• использовать реляционную систему управления базами данных MySQL;
• проводить анализ данных в Power BI.

ПК 3 — способность проводить аналитические исследования с применением технологий больших данных в соответствии с требованиями заказчика
Знать:

• стратегии создания рекомендательных систем;
• методы сбора и обработки данных в сети Интернет;
• типовые методы анализа данных;
• основы работы с HADOOP;
• основные алгоритмы анализа данных;
• основы реляционных баз данных;
• основы работы с PowerBI;

Уметь:

• проводить математический анализ больших данных;
• создавать модели машинного обучения для анализа данных ;
• проводить интеграцию обученных моделей в ИС организации;
• создавать, настраивать, сопровождать и анализировать работу рекомендательных систем;
• работать с открытыми данными ;
• осуществлять аналитику маркетинговой активности;
• устанавливать и настраивать основные системы аналитики;

Владеть:

• использовать утилиты, библиотеки и фреймворк HADOOP;
• осуществлять потоковую обработку данных;
• использовать реляционную систему управления базами данных MySQL;
• проводить анализ данных в Power BI.
• работать с библиотеками Python: Numpy, Matplotlib, Scikit-learn;

ПК 5 — способность управлять получением, хранением, передачей и обработкой больших данных
Знать:

• методы сбора и обработки данных в сети Интернет;
• типовые методы анализа данных;
• основы работы с HADOOP;
• основные алгоритмы анализа данных;
• основы реляционных баз данных;
• основы работы с PowerBI;
• основы работы с фрейморком Apache Spark;

Уметь:

• создавать модели машинного обучения для анализа данных ;
• проводить интеграцию обученных моделей в ИС организации;
• создавать, настраивать, сопровождать и анализировать работу рекомендательных систем;
• работать с открытыми данными ;
• осуществлять аналитику маркетинговой активности;
• устанавливать и настраивать основные системы аналитики;

Владеть:

• использовать утилиты, библиотеки и фреймворк HADOOP;
• осуществлять потоковую обработку данных;
• использовать реляционную систему управления базами данных MySQL;
• проводить анализ данных в Power BI.

ПК 6 — способность осуществлять кодирование на языках Python для работы с большими данными
Знать:

• основы языка программирования Python;
• алгоритмы и стуктуры данных на Python;
• основы работы с операционными системами Linux;
• основы высшей математики;
• теорию вероятностей;
• методы математической статистики;

Уметь:

• работать с библиотеками Python: Numpy, Matplotlib, Scikit-learn;
• осуществлять кодирование ИС на языке Python;
• проводить математический анализ больших данных;
• создавать модели машинного обучения для анализа данных ;

Владеть:

• использовать утилиты, библиотеки и фреймворк HADOOP;
• осуществлять потоковую обработку данных;
• использовать реляционную систему управления базами данных MySQL;
• проводить анализ данных в Power BI.

Требования

Нет

Образование
  • Высшее образование
  • Среднее профессиональное образование

Модули

свернуть
28,00ч
Модуль 1 Модуль 1. Основы языка Python
Знакомство с Python Встроенные типы и операции с ними Функции Полезные инструменты Работа с файлами Объектно-ориентированное программирование
51,00ч
Модуль 3 Модуль 3. Основы реляционных баз данных. MySQL
Установка окружения. DDL-команды Управление БД. Язык запросов SQL Введение в проектирование БД CRUD-операции Операторы, фильтрация, сортировка и ограничение. Агрегация данных Сложные запросы Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры Оптимизация запросов. NoSQL
34,00ч
Модуль 5 Модуль 5. Базы данных для аналитиков.
Аналитика в бизнес-задачах Изучение характера поведения пользователей Типовые методы анализа данных Типовая аналитика маркетинговой активности Системы web-аналитики Хранилища данных для анализа Системы визуализации данных Прочие типовые структуры БД
36,00ч
Модуль 7 Модуль 7. Алгоритмы анализа данных
Алгоритм линейной регрессии. Градиентный спуск Масштабирование признаков. L1- и L2-регуляризация. Стохастический градиентный спуск Логистическая регрессия. Log Loss Алгоритм построения дерева решений Случайный лес Градиентный бустинг (AdaBoost) Классификация с помощью KNN. Кластеризация K-means Снижение размерности данных
32,00ч
Модуль 9 Модуль 9.Рекомендательные системы
Введение, примеры задач, бизнес- и ML-метрики Бейзлайны и детерминированные алгоритмы item-item Коллаборативная фильтрация Рекомендательные системы на основе контента Поиск похожих товаров и пользователей. Гибридные рекомендательные системы Двухуровневые модели рекомендаций Рекомендательные системы в бизнесе
44,00ч
Модуль 2 Модуль 2. Linux. Рабочая станция
Введение. Установка ОС Настройка и знакомство с интерфейсом командной строки Пользователи. Управление Пользователями и группами Загрузка ОС и процессы Устройство файловой системы Linux. Понятие Файла и каталога Введение в скрипты Bash. Планировщики задач crontab и at Управление пакетами и репозиториями. Основы сетевой безопасности Введение в Docker
32,00ч
Модуль 4 Модуль 4.Методы сбора и обработки данных из сети Интернет
Основы клиент-серверного взаимодействия. Парсинг API Парсинг HTML. BeautifulSoup, MongoDB Системы управления базами данных MongoDB и SQLite в Python Парсинг HTML. XPath Scrapy Selenium в Python Работа с данными
36,00ч
Модуль 6 Модуль 6. BigData. Введение в экосистему Hadoop
Введение в Hadoop HDFS YARN & MR Hive & HUE Форматы хранения ETL NoSQL DWH
49,00ч
Модуль 8 Модуль 8. Машинное обучение в бизнесе
Data-driven-подход на примере задачи маршрутизации заявок в helpdesk Профилирование пользователей. Сегментация: unsupervised learning (clustering, LDA/ARTM), supervised (multi/binary classification) Связь бизнес-показателей и DS-метрик Uplift-моделирование Задача оттока: варианты постановки, возможные способы решения Задача look-alike Интерпретация прогнозов модели (SHAP): объясняем поведение модели на отдельных наблюдениях A/B-тестирование Интеграция
60,00ч
Модуль 10 Модуль 10.Анализ данных в Power BI. Потоковая обработка данных
Знакомство с Power BI, логика работы, интерфейс Power Query: загрузка данных, простой ETL Power Pivot: модель данных, связи, простые агрегаты Power Pivot: язык DAX, понятие контекста Power View: базовые визуализации Power View: дополнительные возможности визуализаций Power BI Service: портал и совместная работа Spark Streaming. Тестовые стримы, чтение файлов в реальном времени. Kafka. Архитектура Spark Streaming. Sinks Lambda архитектура. Spark Streaming + Cassandra Spark Streaming + Spark ML + Cassandra. Применение ML-модели в режиме реального времени
28,00ч
Модуль 1 Модуль 1. Основы языка Python
Знакомство с Python Встроенные типы и операции с ними Функции Полезные инструменты Работа с файлами Объектно-ориентированное программирование
44,00ч
Модуль 2 Модуль 2. Linux. Рабочая станция
Введение. Установка ОС Настройка и знакомство с интерфейсом командной строки Пользователи. Управление Пользователями и группами Загрузка ОС и процессы Устройство файловой системы Linux. Понятие Файла и каталога Введение в скрипты Bash. Планировщики задач crontab и at Управление пакетами и репозиториями. Основы сетевой безопасности Введение в Docker
51,00ч
Модуль 3 Модуль 3. Основы реляционных баз данных. MySQL
Установка окружения. DDL-команды Управление БД. Язык запросов SQL Введение в проектирование БД CRUD-операции Операторы, фильтрация, сортировка и ограничение. Агрегация данных Сложные запросы Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры Оптимизация запросов. NoSQL
32,00ч
Модуль 4 Модуль 4.Методы сбора и обработки данных из сети Интернет
Основы клиент-серверного взаимодействия. Парсинг API Парсинг HTML. BeautifulSoup, MongoDB Системы управления базами данных MongoDB и SQLite в Python Парсинг HTML. XPath Scrapy Selenium в Python Работа с данными
34,00ч
Модуль 5 Модуль 5. Базы данных для аналитиков.
Аналитика в бизнес-задачах Изучение характера поведения пользователей Типовые методы анализа данных Типовая аналитика маркетинговой активности Системы web-аналитики Хранилища данных для анализа Системы визуализации данных Прочие типовые структуры БД
36,00ч
Модуль 6 Модуль 6. BigData. Введение в экосистему Hadoop
Введение в Hadoop HDFS YARN & MR Hive & HUE Форматы хранения ETL NoSQL DWH
36,00ч
Модуль 7 Модуль 7. Алгоритмы анализа данных
Алгоритм линейной регрессии. Градиентный спуск Масштабирование признаков. L1- и L2-регуляризация. Стохастический градиентный спуск Логистическая регрессия. Log Loss Алгоритм построения дерева решений Случайный лес Градиентный бустинг (AdaBoost) Классификация с помощью KNN. Кластеризация K-means Снижение размерности данных
49,00ч
Модуль 8 Модуль 8. Машинное обучение в бизнесе
Data-driven-подход на примере задачи маршрутизации заявок в helpdesk Профилирование пользователей. Сегментация: unsupervised learning (clustering, LDA/ARTM), supervised (multi/binary classification) Связь бизнес-показателей и DS-метрик Uplift-моделирование Задача оттока: варианты постановки, возможные способы решения Задача look-alike Интерпретация прогнозов модели (SHAP): объясняем поведение модели на отдельных наблюдениях A/B-тестирование Интеграция
32,00ч
Модуль 9 Модуль 9.Рекомендательные системы
Введение, примеры задач, бизнес- и ML-метрики Бейзлайны и детерминированные алгоритмы item-item Коллаборативная фильтрация Рекомендательные системы на основе контента Поиск похожих товаров и пользователей. Гибридные рекомендательные системы Двухуровневые модели рекомендаций Рекомендательные системы в бизнесе
60,00ч
Модуль 10 Модуль 10.Анализ данных в Power BI. Потоковая обработка данных
Знакомство с Power BI, логика работы, интерфейс Power Query: загрузка данных, простой ETL Power Pivot: модель данных, связи, простые агрегаты Power Pivot: язык DAX, понятие контекста Power View: базовые визуализации Power View: дополнительные возможности визуализаций Power BI Service: портал и совместная работа Spark Streaming. Тестовые стримы, чтение файлов в реальном времени. Kafka. Архитектура Spark Streaming. Sinks Lambda архитектура. Spark Streaming + Cassandra Spark Streaming + Spark ML + Cassandra. Применение ML-модели в режиме реального времени

Преподаватели

Коваленко

Елена

GeekBrains

преподаватель

Заярный

Андрей

GeekBrains

преподаватель

150 000 p
Авторизуйтесь чтобы записаться

Профстандарт

Специалист по большим данным

06.042

Ответственный за программу

support@geekbrains.ru

+74992131726