Модуль 6

Анализ и обучение на больших данных. Структурирование, разметка и обогащение данных

Виды представления данных. Табличные, графовые структуры данных. Временные ряды. Хранение структурированных и неструктурированных данных. Проектирование данных, формирование запросов. SQL базы данных (GreenPlan, Postgres, Oracle), NoSQL Базы хранилища (Cassandra, MongoDB, ElasticSearch, Neo4J, Hbase). Методы машинного обучения на больших данных. Основные понятия качества данных. Инструменты управления, качеством данных, интеграцией и очисткой данных, управление метаданнымии. Основные подходы к структурированию данных. Модели данных в системах ИИ (таблицы, иерархические структуры, графы). Классификация и кластеризация данных. Сегментация данных. Модели семантической структуры данных и онтологии. Основные понятия и методы разметки цифровых изображений, разметка текстовых данных, синтаксическая разметка. Понятие и задача обогащения данных. Методы обогащения текстовых данных. Методы обогащения наборов изображений.