III уровень Большие данные

BigData в медицине

АНО ДПО "СофтЛайн Эдюкейшн"
72 часа длительность
Онлайн формат
Базовый уровень

Описание

Большие Данные (Big Data) – одно из направлений федерального проекта «Цифровые технологии», запущенного в рамках национальной программы «Цифровая экономика Российской Федерации». Системы класса Больших Данных позволяют организовывать сбор, хранение и обработку как структурированных, так и неструктурированных данных, практически в неограниченных объемах. Это позволяет создавать эффективные реестры медицинских данных, включая хранилища медицинских изображений, с целью построения сервисов, облегчающих и повышающих качество труда медицинского персонала, а также повышающих эффективность проведения исследовательских работ. Программа повышения квалификации направлена на формирование профессиональной компетенции «Способен ставить и решать прикладные задачи по подготовке медицинских данных для проведения аналитических работ по исследованию больших данных с использованием инструментов Hadoop Common». Для успешного освоения программы обучающимся необходимо владеть базовыми компетенциями цифровой грамотности, в том числе навыками владения ПК и ОС Linux на уровне среднего или продвинутого пользователя; компетенции в области алгоритмизации, базовыми знаниями в области языков программирования Java, Python и SQL. В процессе обучения по программе обучающимся рекомендуется просмотреть и прослушать все видеолекции и видеоролики по практическим занятиям, выполнить по каждой теме обязательные практические задания, проработать самостоятельно дополнительные материалы и выполнить задания для самостоятельной работы, после этого необходимо выполнить тесты по каждой теме и для успешного завершения обучения выполнить итоговый тест (70% верных ответов). Обучающиеся в результате освоения программы: будут знать сущность понятия «большие данные» и примеры применимости больших данных в медицине, концепцию распределенных вычислений MapReduce и особые техники использования MapReduce, компонент программно-технических архитектур Hadoop и  компоненты распределенной файловой системы HDFS, особенности реляционных и нереляционных баз данных и примеры этих баз данных в медицине; существующие приложения Hadoop и интерфейсы взаимодействия с ними; подходы к извлечению знаний из данных по медицине; подходы и технологии обработки и анализа текстовых данных в медицине; будут уметь использовать возможности имеющейся в медицинской организации технологической инфраструктуры больших данных, выбранные инструментальные средства для хранения, преобразования и обработки больших данных в медицине, а также облачные варианты технологической инфраструктуры больших данных применительно к медицине; будут иметь практический опыт работы с распределённой файловой системой HDFS; написания программного кода на Java и на Python для решения MapReduce задач применительно к медицине; запуска MapReduce задач с помощью YARN; написания SQL-подобных запросов для создания выборок в Hive; написания скриптов Pig Latin для подготовки медицинских данных и проведения аналитических работ. В качестве бонуса в курсе предлагается развёртывание виртуальной машины с предустановленной инфраструктурой обработки больших данных.

Результаты обучения по программе будут востребованы при решении профессиональных задач по подготовке медицинских данных для проведения аналитических работ по исследованию Больших данных. Данные исследования являются актуальными в области доказательной медицины, в фармацевтике и фармакологии, могут составлять один, либо нескольких этапов комплексных проектов медицинской сферы. Полученная компетенция также может быть востребована в проектах цифровизации отрасли медицины при участии медицинских информационно-аналитических и специализированных информационно-вычислительных центров, как в целом, так и конкретных служб и/или подразделений.

Цель программы
Формирование профессиональных компетенций, необходимых для постановки и решения прикладных задач по подготовке медицинских данных для проведения аналитических работ по исследованию Больших данных с использованием инструментов Hadoop Common.

Требования

Образование: среднее профессиональное, высшее

Квалификация: уровень квалификации не ниже 6

Наличие опыта профессиональной деятельности: обработка и анализ данных

Предварительное освоение иных дисциплин/курсов/модулей:

Иные требования и рекомендации для обучения по программе

Образование: среднее профессиональное, высшее

Квалификация: уровень квалификации не ниже 6

Наличие опыта профессиональной деятельности: обработка и анализ данных

Предварительное освоение иных дисциплин/курсов/модулей:

Модули

свернуть
Модуль 1 Модуль 1. Введение в Большие данные
Модуль 1. Введение в Большие данные в медицине Тема 1.1. Большие данные в медицине Понятия данных, информации и знаний; - Понятие Больших данных; - Признаки Больших данных; - Сравнение с классическими инструментами; - Примеры использования Больших данных в задачах медицины.
Модуль 3 Модуль 3. Развертывание Hadoop
Модуль 3. Развертывание Hadoop Тема 3.1. Развертывание инфраструктуры Hadoop - Принцип развёртывания кластера Hadoop; - Управляемые услуги «облачных» поставщиков инфраструктуры; - Развертывание виртуальной машины Cloudera QuickStart VM
Модуль 5 Модуль 5. Написание скриптов Hadoop
Модуль 5. Написание скриптов Hadoop Тема 5.1. Скрипты Pig для данных из медицины - Инструмент скриптов Pig; - Режимы работы Pig; - Синтаксис Pig Latin; - Обработка данных с помощью Pig.
Модуль 7 Модуль 7. Введение в Data Lake
Модуль 7. Введение в Data Lake Тема 7.1. Data Lake (Озеро Данных) в медицине - Понятие озера данных (на примерах из медицины); - Построение корпоративного озера данных (применительно к медицине); - Принципы управления данными (применительно к медицине).
Модуль 9 Итоговая аттестация
Итоговая аттестация
Модуль 2 Модуль 2 Введение в Hadoop
Модуль 2 Введение в Hadoop Тема 2.1. Технология и инструменты Hadoop - Что такое Hadoop; - История возникновения и развития; - Поставщики Hadoop; - Экосистема Hadoop.
Модуль 4 Модуль 4. Ядро Hadoop
Модуль 4. Ядро Hadoop Тема 4.1. Файловая система HDFS - Принцип устройства файловых систем; - Распределенная файловая система HDFS; - Форматы хранения данных в HDFS; - Работа в HDFS с помощью Java API; - Работа в HDFS с помощью shell команд Тема 4.2. Вычислительное ядро Hadoop - Концепция вычислений MapReduce; - Архитектура MapReduce ver1; - Архитектура YARN; - Особенные случаи использования MapReduce. Тема 4.3. Запуск MapReduce задач - Создание и запуск MapReduce задач на языке Java; - Создание и запуск MapReduce задач на языке Python.
Модуль 6 Модуль 6. Базы данных Hadoop
Модуль 6. Базы данных Hadoop Тема 6.1. SQL и NoSQL базы данных - Понятие реляционных баз данных; - Понятие NoSQL баз данных; - Типы NoSQL баз данных; - SQL и NoSQL инструменты в Hadoop. Тема 6.2. Работа с инструментом Hive для данных из медицины - Hive - SQL инструмент в Hadoop; - Архитектура Hive; - Модель данных Hive; - Диалект HiveQL; - Расширение функций Hive с помощью Python скриптов; - Выборка и обработка данных в Hive (на примерах медицинских данных).
Модуль 8 Модуль 8. Интеллектуальный анализ Больших данных
Модуль 8. Интеллектуальный анализ Больших данных в медицине Тема 8.1. Извлечение знаний из данных в медицине - История возникновения и развития машинного обучения; - Примеры задач машинного обучения в медицине; - Формальная постановка задач и типы задач; - Оценка качества, метрики, переобучение. Тема 8.2. Обработка текстовых данных в медицине - Основы предобработки текстовых данных; - Примеры задач обработки естественного языка в медицине; - Введение в задачи обработки естественного языка.
Модуль 1 Модуль 1. Введение в Большие данные
Модуль 1. Введение в Большие данные в медицине Тема 1.1. Большие данные в медицине Понятия данных, информации и знаний; - Понятие Больших данных; - Признаки Больших данных; - Сравнение с классическими инструментами; - Примеры использования Больших данных в задачах медицины.
Модуль 2 Модуль 2 Введение в Hadoop
Модуль 2 Введение в Hadoop Тема 2.1. Технология и инструменты Hadoop - Что такое Hadoop; - История возникновения и развития; - Поставщики Hadoop; - Экосистема Hadoop.
Модуль 3 Модуль 3. Развертывание Hadoop
Модуль 3. Развертывание Hadoop Тема 3.1. Развертывание инфраструктуры Hadoop - Принцип развёртывания кластера Hadoop; - Управляемые услуги «облачных» поставщиков инфраструктуры; - Развертывание виртуальной машины Cloudera QuickStart VM
Модуль 4 Модуль 4. Ядро Hadoop
Модуль 4. Ядро Hadoop Тема 4.1. Файловая система HDFS - Принцип устройства файловых систем; - Распределенная файловая система HDFS; - Форматы хранения данных в HDFS; - Работа в HDFS с помощью Java API; - Работа в HDFS с помощью shell команд Тема 4.2. Вычислительное ядро Hadoop - Концепция вычислений MapReduce; - Архитектура MapReduce ver1; - Архитектура YARN; - Особенные случаи использования MapReduce. Тема 4.3. Запуск MapReduce задач - Создание и запуск MapReduce задач на языке Java; - Создание и запуск MapReduce задач на языке Python.
Модуль 5 Модуль 5. Написание скриптов Hadoop
Модуль 5. Написание скриптов Hadoop Тема 5.1. Скрипты Pig для данных из медицины - Инструмент скриптов Pig; - Режимы работы Pig; - Синтаксис Pig Latin; - Обработка данных с помощью Pig.
Модуль 6 Модуль 6. Базы данных Hadoop
Модуль 6. Базы данных Hadoop Тема 6.1. SQL и NoSQL базы данных - Понятие реляционных баз данных; - Понятие NoSQL баз данных; - Типы NoSQL баз данных; - SQL и NoSQL инструменты в Hadoop. Тема 6.2. Работа с инструментом Hive для данных из медицины - Hive - SQL инструмент в Hadoop; - Архитектура Hive; - Модель данных Hive; - Диалект HiveQL; - Расширение функций Hive с помощью Python скриптов; - Выборка и обработка данных в Hive (на примерах медицинских данных).
Модуль 7 Модуль 7. Введение в Data Lake
Модуль 7. Введение в Data Lake Тема 7.1. Data Lake (Озеро Данных) в медицине - Понятие озера данных (на примерах из медицины); - Построение корпоративного озера данных (применительно к медицине); - Принципы управления данными (применительно к медицине).
Модуль 8 Модуль 8. Интеллектуальный анализ Больших данных
Модуль 8. Интеллектуальный анализ Больших данных в медицине Тема 8.1. Извлечение знаний из данных в медицине - История возникновения и развития машинного обучения; - Примеры задач машинного обучения в медицине; - Формальная постановка задач и типы задач; - Оценка качества, метрики, переобучение. Тема 8.2. Обработка текстовых данных в медицине - Основы предобработки текстовых данных; - Примеры задач обработки естественного языка в медицине; - Введение в задачи обработки естественного языка.
Модуль 9 Итоговая аттестация
Итоговая аттестация

Преподаватели

Милков

Максим Леонидович

АНО ДПО "СофтЛайн Эдюкейшн"
Авторизуйтесь чтобы записаться

Ответственный за программу

edu2035@softline.com

+7(495)2320023