Модуль 6

Комплексное задание (проект)

Загрузка и анализ корпуса текста. Предобработка текста. Реализация механизмов стемминга и лемматизации текста. Построение терм-документной матрицы. Реализация механизма частотного анализа текста, построение облака слов для нескольких статей. Выявление коллокации. Вычисление расстояния между статьями в одной и разных категориях, сравнение результатов. Кластеризация текста статей из 5-6 категорий. Реализация бинарной и многоклассовой классификации. Оценка качества полученных моделей.
Задания в виде комплексного проекта.