Аналитик Big Data извлекает ценные данные из большого массива информации: отзывов, прогнозов, результатов исследований. Он помогает бизнесу принимать взвешенные решения: строить гипотезы, запускать продукты, улучшать процессы, планировать развитие. Вы научитесь собирать и анализировать данные, извлекать полезную информацию и находить закономерности. После обучения сможете проверять гипотезы и помогать бизнесу принимать взвешенные решения.
Кому подойдёт программа
- Тем, кто хочет получить востребованную профессию,трудоустроиться или создать собственный бизнес с нуля.
- Тем, кто хочет сменить работу и получить актуальную высокооплачиваемую специальность в IT.
Траектория и программа обучения
Вы поэтапно изучите общий блок с фундаментальными знаниями о разработке, выберете одну из пяти специализаций и подготовитесь к поиску работы или запуску стартапа.
Посмотрите подробный и наглядный план обучения в нашей <span class="s2">презентации</span>.
Преимущества программы
- Бессрочный доступ к обновлениям и открытие уроков
- Полный набор требуемых навыков для работы в IT
- Портфолио из реализованных проектов
- Диплом о профессиональной подготовке установленного образца
- Основы разработки с нуля
- Занятия онлайн и в записи
- Удобный график обучения
- Гарантия трудоустройства или запуск собственного бизнеса
Что вас ждёт во время обучения
- Сопровождение личного куратора на весь период обучения. Он поможет с любыми вопросами.
- Подробная обратная связь от преподавателей. Все домашние задания и практические работы лично проверяют эксперты индустрии.
- Доступ к чату с одногруппниками в Telegram. Вы сможете общаться и обмениваться опытом с единомышленниками.
Ваши результаты
- Трудоустройство по профессии. Вы освоите специальность с нуля и сможете претендовать на реальные вакансии.
- Возможность открыть бизнес. После обучения вы сможете попасть в бизнес-акселератор, где реализуете и протестируете свою идею.
Длительность: от 12 месяцев (374 часа)
145,00 часов
самостоятельная
20,00 часов
промежуточная аттестация
1 час
входная диагностика
2 часа
итоговая аттестация
Целью реализации программы профессиональной переподготовки «Разработчик. Аналитик больших данных» является содействие становлению профессиональных компетенций слушателей, необходимых для создания и сопровождения информационных систем (ИС), автоматизирующих задачи сбора, обработки и анализа больших объемов разнообразных данных, применяемых в системах организационного управления, бизнес-процессах и принятия решений, а также для разработки на их основе новых продуктов и услуг с целью повышения эффективности действительности организаций - пользователей ИС.
С каждым годом увеличивается объем генерируемой человеком информации. Соответственно, управление структурированными и неструктурированными данными при помощи современных технологий — сфера, которая становится все более важной. Интересуются большими данными как отдельные компании, так и целые государства. Рынок Big Data ежегодно увеличивается на несколько десятков процентов. Аналитика больших данных позволяет выявлять крайне ценную информацию из структурированных или неструктурированных наборов данных. Благодаря этому бизнес, например, может определять тенденции, прогнозировать производственные показатели и оптимизировать собственные расходы.
тестирование
итоговая аттестация проводится в форме защиты индивидуального итогового проекта.
Профессиональные
ПК 1 – способность выявлять, формировать и согласовывать требования к результатам аналитических работ с применением технологий больших данных
Знать:
• методы машинного обучения;
• стратегии создания рекомендательных систем;
• методы сбора и обработки данных в сети Интернет;
• типовые методы анализа данных;
• основные алгоритмы анализа данных;
Уметь:
• проводить математический анализ больших данных
• создавать, настраивать, сопровождать и анализировать работу рекомендательных систем;
• работать с открытыми данными ;
Владеть:
• использовать утилиты, библиотеки и фреймворк HADOOP;
• осуществлять потоковую обработку данных;
• использовать реляционную систему управления базами данных MySQL;
• проводить анализ данных в Power BI.
ПК 3 — способность проводить аналитические исследования с применением технологий больших данных в соответствии с требованиями заказчика
Знать:
• стратегии создания рекомендательных систем;
• методы сбора и обработки данных в сети Интернет;
• типовые методы анализа данных;
• основы работы с HADOOP;
• основные алгоритмы анализа данных;
• основы реляционных баз данных;
• основы работы с PowerBI;
Уметь:
• проводить математический анализ больших данных;
• создавать модели машинного обучения для анализа данных ;
• проводить интеграцию обученных моделей в ИС организации;
• создавать, настраивать, сопровождать и анализировать работу рекомендательных систем;
• работать с открытыми данными ;
• осуществлять аналитику маркетинговой активности;
• устанавливать и настраивать основные системы аналитики;
Владеть:
• использовать утилиты, библиотеки и фреймворк HADOOP;
• осуществлять потоковую обработку данных;
• использовать реляционную систему управления базами данных MySQL;
• проводить анализ данных в Power BI.
• работать с библиотеками Python: Numpy, Matplotlib, Scikit-learn;
ПК 5 — способность управлять получением, хранением, передачей и обработкой больших данных
Знать:
• методы сбора и обработки данных в сети Интернет;
• типовые методы анализа данных;
• основы работы с HADOOP;
• основные алгоритмы анализа данных;
• основы реляционных баз данных;
• основы работы с PowerBI;
• основы работы с фрейморком Apache Spark;
Уметь:
• создавать модели машинного обучения для анализа данных ;
• проводить интеграцию обученных моделей в ИС организации;
• создавать, настраивать, сопровождать и анализировать работу рекомендательных систем;
• работать с открытыми данными ;
• осуществлять аналитику маркетинговой активности;
• устанавливать и настраивать основные системы аналитики;
Владеть:
• использовать утилиты, библиотеки и фреймворк HADOOP;
• осуществлять потоковую обработку данных;
• использовать реляционную систему управления базами данных MySQL;
• проводить анализ данных в Power BI.
ПК 6 — способность осуществлять кодирование на языках Python для работы с большими данными
Знать:
• основы языка программирования Python;
• алгоритмы и стуктуры данных на Python;
• основы работы с операционными системами Linux;
• основы высшей математики;
• теорию вероятностей;
• методы математической статистики;
Уметь:
• работать с библиотеками Python: Numpy, Matplotlib, Scikit-learn;
• осуществлять кодирование ИС на языке Python;
• проводить математический анализ больших данных;
• создавать модели машинного обучения для анализа данных ;
Владеть:
• использовать утилиты, библиотеки и фреймворк HADOOP;
• осуществлять потоковую обработку данных;
• использовать реляционную систему управления базами данных MySQL;
• проводить анализ данных в Power BI.
- Высшее образование
- Среднее профессиональное образование
свернуть
28,00ч
Знакомство с Python
Встроенные типы и операции с ними
Функции
Полезные инструменты
Работа с файлами
Объектно-ориентированное программирование
51,00ч
Установка окружения. DDL-команды
Управление БД. Язык запросов SQL
Введение в проектирование БД
CRUD-операции
Операторы, фильтрация, сортировка и ограничение. Агрегация данных
Сложные запросы
Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
Оптимизация запросов. NoSQL
34,00ч
Аналитика в бизнес-задачах
Изучение характера поведения пользователей
Типовые методы анализа данных
Типовая аналитика маркетинговой активности
Системы web-аналитики
Хранилища данных для анализа
Системы визуализации данных
Прочие типовые структуры БД
36,00ч
Алгоритм линейной регрессии. Градиентный спуск
Масштабирование признаков. L1- и L2-регуляризация. Стохастический градиентный спуск
Логистическая регрессия. Log Loss
Алгоритм построения дерева решений
Случайный лес
Градиентный бустинг (AdaBoost)
Классификация с помощью KNN. Кластеризация K-means
Снижение размерности данных
32,00ч
Введение, примеры задач, бизнес- и ML-метрики
Бейзлайны и детерминированные алгоритмы item-item
Коллаборативная фильтрация
Рекомендательные системы на основе контента
Поиск похожих товаров и пользователей. Гибридные рекомендательные системы
Двухуровневые модели рекомендаций
Рекомендательные системы в бизнесе
44,00ч
Введение. Установка ОС
Настройка и знакомство с интерфейсом командной строки
Пользователи. Управление Пользователями и группами
Загрузка ОС и процессы
Устройство файловой системы Linux. Понятие Файла и каталога
Введение в скрипты Bash. Планировщики задач crontab и at
Управление пакетами и репозиториями. Основы сетевой безопасности
Введение в Docker
32,00ч
Основы клиент-серверного взаимодействия. Парсинг API
Парсинг HTML. BeautifulSoup, MongoDB
Системы управления базами данных MongoDB и SQLite в Python
Парсинг HTML. XPath
Scrapy
Selenium в Python
Работа с данными
36,00ч
Введение в Hadoop
HDFS
YARN & MR
Hive & HUE
Форматы хранения
ETL
NoSQL
DWH
49,00ч
Data-driven-подход на примере задачи маршрутизации заявок в helpdesk
Профилирование пользователей. Сегментация: unsupervised learning (clustering, LDA/ARTM), supervised (multi/binary classification)
Связь бизнес-показателей и DS-метрик
Uplift-моделирование
Задача оттока: варианты постановки, возможные способы решения
Задача look-alike
Интерпретация прогнозов модели (SHAP): объясняем поведение модели на отдельных наблюдениях
A/B-тестирование
Интеграция
60,00ч
Знакомство с Power BI, логика работы, интерфейс
Power Query: загрузка данных, простой ETL
Power Pivot: модель данных, связи, простые агрегаты
Power Pivot: язык DAX, понятие контекста
Power View: базовые визуализации
Power View: дополнительные возможности визуализаций
Power BI Service: портал и совместная работа
Spark Streaming. Тестовые стримы, чтение файлов в реальном времени.
Kafka. Архитектура
Spark Streaming. Sinks
Lambda архитектура. Spark Streaming + Cassandra
Spark Streaming + Spark ML + Cassandra. Применение ML-модели в режиме реального времени
28,00ч
Знакомство с Python
Встроенные типы и операции с ними
Функции
Полезные инструменты
Работа с файлами
Объектно-ориентированное программирование
44,00ч
Введение. Установка ОС
Настройка и знакомство с интерфейсом командной строки
Пользователи. Управление Пользователями и группами
Загрузка ОС и процессы
Устройство файловой системы Linux. Понятие Файла и каталога
Введение в скрипты Bash. Планировщики задач crontab и at
Управление пакетами и репозиториями. Основы сетевой безопасности
Введение в Docker
51,00ч
Установка окружения. DDL-команды
Управление БД. Язык запросов SQL
Введение в проектирование БД
CRUD-операции
Операторы, фильтрация, сортировка и ограничение. Агрегация данных
Сложные запросы
Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
Оптимизация запросов. NoSQL
32,00ч
Основы клиент-серверного взаимодействия. Парсинг API
Парсинг HTML. BeautifulSoup, MongoDB
Системы управления базами данных MongoDB и SQLite в Python
Парсинг HTML. XPath
Scrapy
Selenium в Python
Работа с данными
34,00ч
Аналитика в бизнес-задачах
Изучение характера поведения пользователей
Типовые методы анализа данных
Типовая аналитика маркетинговой активности
Системы web-аналитики
Хранилища данных для анализа
Системы визуализации данных
Прочие типовые структуры БД
36,00ч
Введение в Hadoop
HDFS
YARN & MR
Hive & HUE
Форматы хранения
ETL
NoSQL
DWH
36,00ч
Алгоритм линейной регрессии. Градиентный спуск
Масштабирование признаков. L1- и L2-регуляризация. Стохастический градиентный спуск
Логистическая регрессия. Log Loss
Алгоритм построения дерева решений
Случайный лес
Градиентный бустинг (AdaBoost)
Классификация с помощью KNN. Кластеризация K-means
Снижение размерности данных
49,00ч
Data-driven-подход на примере задачи маршрутизации заявок в helpdesk
Профилирование пользователей. Сегментация: unsupervised learning (clustering, LDA/ARTM), supervised (multi/binary classification)
Связь бизнес-показателей и DS-метрик
Uplift-моделирование
Задача оттока: варианты постановки, возможные способы решения
Задача look-alike
Интерпретация прогнозов модели (SHAP): объясняем поведение модели на отдельных наблюдениях
A/B-тестирование
Интеграция
32,00ч
Введение, примеры задач, бизнес- и ML-метрики
Бейзлайны и детерминированные алгоритмы item-item
Коллаборативная фильтрация
Рекомендательные системы на основе контента
Поиск похожих товаров и пользователей. Гибридные рекомендательные системы
Двухуровневые модели рекомендаций
Рекомендательные системы в бизнесе
60,00ч
Знакомство с Power BI, логика работы, интерфейс
Power Query: загрузка данных, простой ETL
Power Pivot: модель данных, связи, простые агрегаты
Power Pivot: язык DAX, понятие контекста
Power View: базовые визуализации
Power View: дополнительные возможности визуализаций
Power BI Service: портал и совместная работа
Spark Streaming. Тестовые стримы, чтение файлов в реальном времени.
Kafka. Архитектура
Spark Streaming. Sinks
Lambda архитектура. Spark Streaming + Cassandra
Spark Streaming + Spark ML + Cassandra. Применение ML-модели в режиме реального времени
Коваленко
Елена
GeekBrains
преподаватель
Заярный
Андрей
GeekBrains
преподаватель
Авторизуйтесь чтобы записаться
Профстандарт
Специалист по большим данным
06.042
Ответственный за программу