Модуль 1

Введение в лингвостатистику

Темы
Задачи, решаемые с применением интеллектуального анализа текста. Определение функции частотности слов. Статистическая мера связи в коллакациях: метод MI. Статистическая мера связи в коллакациях: логарифм правдоподобия. Синтагматическая связь между элементами словосочетаний. Основные законы лингвостатистики: Ципфа, Хипса, Ципфа с поправкой Мандельброта. Определение корпуса текста, разметка текста. Векторное представление текста. Избавление от стоп-слов в корпусе текста. Стэминг и лемматизация. Создание терм-документной матрицы. Формирование мешочка слов.
Задания в виде кейса 1 Установка R Studio, определение настроек.