III уровень Искусственный интеллект

Интеллектуальный анализ текста на основе машинного обучения

БашГУ
72 часа длительность
Онлайн формат
Базовый уровень

Описание

Цель курса дать систематизированное представление о современных подходах к интеллектуальному анализу текста средствами машинного обучения, познакомить с основными принципами лингвостатистики, научить навыкам применения технологий интеллектуального анализа текста, относящегося к неструктурированной информации, в современных информационных средах (RStudio), в конечном итоге сформировать на базовом уровне компетенцию компетенции цифровой экономики: Управление информацией и данными. В рамках изучения курса у  слушателей будет сформирована компетенция на базовом уровне:

Способность управлять неструктурированной информацией и данными:

В результате изучения дисциплины слушатель должен:

знать: основные метрики лингвостатистики; основные законы лингвостатистики; (Хипса, Ципфа); основные принципы разметки текста; способы векторного представления текста; метрики по реляционному и атрибутивному сходству текста; метрики ассоциации для измерения в коллакациях; способы кластеризации текста; инструмент TF-IDF для анализа главной темы; основные методы латентно-семантического анализа текста; инструменты машинного обучения (наивный байесовский классификатор) для классификации текста; основные метрики оценки качества классификации;

уметь: проводить качественную чистку текста, избавляться от стоп-слов и проводить лемматизацию и стеминг текста; создавать терм-документную матрицу двумя способами; использовать мешочек слов для анализа текста; применять процедуру TF-IDF для анализа главной темы; проводить классификацию текста (например спам/неспам) с помощью наивного байесовского классификатора; определять меру сходства текста и меру ассоциации в коллакациях; применять латентно-семантический анализ текста.

владеть: навыками предподготовки к проведению анализа текста, используя средства среды RStudio; навыками тематического моделирования, используя инструменты алгоритма TF-IDF. 

а также иметь опыт применения современных методов и подходов интеллектуального анализа текста на базовом уровне средствами машинного обучения.

Для успешного прохождения курса слушатели должны на продвинутом уровне пользоваться компьютером, иметь базовые навыки в моделирование, знать основы теории вероятности и математической статистики, иметь представление о программировании на языках высокого уровня (на пороговом уровне). Для слушателей курсов предусмотрены входные контрольные задания по теории вероятности (теорема Байеса) и математической статистике (описательные дескриптивные статистики и проверка гипотез – ошибки первого и второго рода).

Компетенция, сформированная в рамках прохождения курса, позволит развиться в профессиональной деятельности ИТ-специалистам, сменить род деятельности в рамках одной области (Информационные технологии).

Цель программы
Цель программы дать систематизированное представление о современных подходах к интеллектуальному анализу текста средствами машинного обучения, познакомить с основными принципами лингвостатистики, научить навыкам применения технологий интеллектуального анализа текста, относящегося к неструктурированной информации, в современных информационных средах (RStudio), в конечном итоге сформировать на базовом уровне компетенцию компетенции цифровой экономики: Способность управлять неструктурированной информацией и данными.

Требования

Образование: высшее, среднее профессиональное

Квалификация: инженер, математик, филолог

Наличию опыта профессиональной деятельности: работа в Excel.

Предварительное освоение иных дисциплин/курсов /модулей: высшая математика, теория вероятностей и математическая статистика, общая теория статистики, основы лингвистики

Иные требования и рекомендации для обучения по программе

Образование: высшее, среднее профессиональное

Квалификация: инженер, математик, филолог

Наличию опыта профессиональной деятельности: работа в Excel.

Предварительное освоение иных дисциплин/курсов /модулей: высшая математика, теория вероятностей и математическая статистика, общая теория статистики, основы лингвистики

Модули

свернуть
Модуль 1 Введение в лингвостатистику
Темы Задачи, решаемые с применением интеллектуального анализа текста. Определение функции частотности слов. Статистическая мера связи в коллакациях: метод MI. Статистическая мера связи в коллакациях: логарифм правдоподобия. Синтагматическая связь между элементами словосочетаний. Основные законы лингвостатистики: Ципфа, Хипса, Ципфа с поправкой Мандельброта. Определение корпуса текста, разметка текста. Векторное представление текста. Избавление от стоп-слов в корпусе текста. Стэминг и лемматизация. Создание терм-документной матрицы. Формирование мешочка слов. Задания в виде кейса 1 Установка R Studio, определение настроек.
Модуль 3 Латентно-семантический анализ
Темы Латентно-семантический анализ: сравнение двух термов между собой. Латентно-семантический анализ: сравнение двух документов между собой. Латентно-семантический анализ: сравнение терма и документа. Инструмент Word2Vec: алгоритма обучения : CBOW (Continuous Bag of Words). Инструмент Word2Vec: алгоритма обучения:Skip-gram. Инструмент Global2Vec. Задания в виде кейса 3 и тестирования
Модуль 5 Методы классификации размеченного текста
Темы Наивный байесовский классификатор при классификации текста. Принципы валидации данных для обучения моделей классификации текста. Метрики качества классификации текста. ROC-анализ для оценки качества классификации текста. Задания в виде кейса 5 и тестирования
Модуль 2 Тематическое моделирование
Латентно-семантический анализ: сравнение двух термов между собой. Латентно-семантический анализ: сравнение двух документов между собой. Латентно-семантический анализ: сравнение терма и документа. Инструмент Word2Vec: алгоритма обучения : CBOW (Continuous Bag of Words). Инструмент Word2Vec: алгоритма обучения:Skip-gram. Инструмент Global2Vec. Задания в виде кейса 2 и тестирования
Модуль 4 Кластерный анализ
Темы Методы кластеризации. Критерий качества кластеризации. Кластеризация методом Custom Search Folders. Кластеризация текста методом Suffix Tree. Кластеризация текста методом k-средних. Задания в виде кейса 4 и тестирования
Модуль 6 Комплексное задание (проект)
Загрузка и анализ корпуса текста. Предобработка текста. Реализация механизмов стемминга и лемматизации текста. Построение терм-документной матрицы. Реализация механизма частотного анализа текста, построение облака слов для нескольких статей. Выявление коллокации. Вычисление расстояния между статьями в одной и разных категориях, сравнение результатов. Кластеризация текста статей из 5-6 категорий. Реализация бинарной и многоклассовой классификации. Оценка качества полученных моделей. Задания в виде комплексного проекта.
Модуль 1 Введение в лингвостатистику
Темы Задачи, решаемые с применением интеллектуального анализа текста. Определение функции частотности слов. Статистическая мера связи в коллакациях: метод MI. Статистическая мера связи в коллакациях: логарифм правдоподобия. Синтагматическая связь между элементами словосочетаний. Основные законы лингвостатистики: Ципфа, Хипса, Ципфа с поправкой Мандельброта. Определение корпуса текста, разметка текста. Векторное представление текста. Избавление от стоп-слов в корпусе текста. Стэминг и лемматизация. Создание терм-документной матрицы. Формирование мешочка слов. Задания в виде кейса 1 Установка R Studio, определение настроек.
Модуль 2 Тематическое моделирование
Латентно-семантический анализ: сравнение двух термов между собой. Латентно-семантический анализ: сравнение двух документов между собой. Латентно-семантический анализ: сравнение терма и документа. Инструмент Word2Vec: алгоритма обучения : CBOW (Continuous Bag of Words). Инструмент Word2Vec: алгоритма обучения:Skip-gram. Инструмент Global2Vec. Задания в виде кейса 2 и тестирования
Модуль 3 Латентно-семантический анализ
Темы Латентно-семантический анализ: сравнение двух термов между собой. Латентно-семантический анализ: сравнение двух документов между собой. Латентно-семантический анализ: сравнение терма и документа. Инструмент Word2Vec: алгоритма обучения : CBOW (Continuous Bag of Words). Инструмент Word2Vec: алгоритма обучения:Skip-gram. Инструмент Global2Vec. Задания в виде кейса 3 и тестирования
Модуль 4 Кластерный анализ
Темы Методы кластеризации. Критерий качества кластеризации. Кластеризация методом Custom Search Folders. Кластеризация текста методом Suffix Tree. Кластеризация текста методом k-средних. Задания в виде кейса 4 и тестирования
Модуль 5 Методы классификации размеченного текста
Темы Наивный байесовский классификатор при классификации текста. Принципы валидации данных для обучения моделей классификации текста. Метрики качества классификации текста. ROC-анализ для оценки качества классификации текста. Задания в виде кейса 5 и тестирования
Модуль 6 Комплексное задание (проект)
Загрузка и анализ корпуса текста. Предобработка текста. Реализация механизмов стемминга и лемматизации текста. Построение терм-документной матрицы. Реализация механизма частотного анализа текста, построение облака слов для нескольких статей. Выявление коллокации. Вычисление расстояния между статьями в одной и разных категориях, сравнение результатов. Кластеризация текста статей из 5-6 категорий. Реализация бинарной и многоклассовой классификации. Оценка качества полученных моделей. Задания в виде комплексного проекта.

Преподаватели

Лакман

Ирина Александровна

БашГУ
Авторизуйтесь чтобы записаться

Ответственный за программу

lackmania@mail.ru

+79279655655