Цель курса дать систематизированное представление о современных подходах к интеллектуальному анализу текста средствами машинного обучения, познакомить с основными принципами лингвостатистики, научить навыкам применения технологий интеллектуального анализа текста, относящегося к неструктурированной информации, в современных информационных средах (RStudio), в конечном итоге сформировать на базовом уровне компетенцию компетенции цифровой экономики: Управление информацией и данными. В рамках изучения курса у слушателей будет сформирована компетенция на базовом уровне:
Способность управлять неструктурированной информацией и данными:
В результате изучения дисциплины слушатель должен:
знать: основные метрики лингвостатистики; основные законы лингвостатистики; (Хипса, Ципфа); основные принципы разметки текста; способы векторного представления текста; метрики по реляционному и атрибутивному сходству текста; метрики ассоциации для измерения в коллакациях; способы кластеризации текста; инструмент TF-IDF для анализа главной темы; основные методы латентно-семантического анализа текста; инструменты машинного обучения (наивный байесовский классификатор) для классификации текста; основные метрики оценки качества классификации;
уметь: проводить качественную чистку текста, избавляться от стоп-слов и проводить лемматизацию и стеминг текста; создавать терм-документную матрицу двумя способами; использовать мешочек слов для анализа текста; применять процедуру TF-IDF для анализа главной темы; проводить классификацию текста (например спам/неспам) с помощью наивного байесовского классификатора; определять меру сходства текста и меру ассоциации в коллакациях; применять латентно-семантический анализ текста.
владеть: навыками предподготовки к проведению анализа текста, используя средства среды RStudio; навыками тематического моделирования, используя инструменты алгоритма TF-IDF.
а также иметь опыт применения современных методов и подходов интеллектуального анализа текста на базовом уровне средствами машинного обучения.
Для успешного прохождения курса слушатели должны на продвинутом уровне пользоваться компьютером, иметь базовые навыки в моделирование, знать основы теории вероятности и математической статистики, иметь представление о программировании на языках высокого уровня (на пороговом уровне). Для слушателей курсов предусмотрены входные контрольные задания по теории вероятности (теорема Байеса) и математической статистике (описательные дескриптивные статистики и проверка гипотез – ошибки первого и второго рода).
Компетенция, сформированная в рамках прохождения курса, позволит развиться в профессиональной деятельности ИТ-специалистам, сменить род деятельности в рамках одной области (Информационные технологии).
Цель программы дать систематизированное представление о современных подходах к интеллектуальному анализу текста средствами машинного обучения, познакомить с основными принципами лингвостатистики, научить навыкам применения технологий интеллектуального анализа текста, относящегося к неструктурированной информации, в современных информационных средах (RStudio), в конечном итоге сформировать на базовом уровне компетенцию компетенции цифровой экономики: Способность управлять неструктурированной информацией и данными.
Образование: высшее, среднее профессиональное
Квалификация: инженер, математик, филолог
Наличию опыта профессиональной деятельности: работа в Excel.
Предварительное освоение иных дисциплин/курсов /модулей: высшая математика, теория вероятностей и математическая статистика, общая теория статистики, основы лингвистики
Образование: высшее, среднее профессиональное
Квалификация: инженер, математик, филолог
Наличию опыта профессиональной деятельности: работа в Excel.
Предварительное освоение иных дисциплин/курсов /модулей: высшая математика, теория вероятностей и математическая статистика, общая теория статистики, основы лингвистики
свернуть
Темы
Задачи, решаемые с применением интеллектуального анализа текста. Определение функции частотности слов. Статистическая мера связи в коллакациях: метод MI. Статистическая мера связи в коллакациях: логарифм правдоподобия. Синтагматическая связь между элементами словосочетаний. Основные законы лингвостатистики: Ципфа, Хипса, Ципфа с поправкой Мандельброта. Определение корпуса текста, разметка текста. Векторное представление текста. Избавление от стоп-слов в корпусе текста. Стэминг и лемматизация. Создание терм-документной матрицы. Формирование мешочка слов.
Задания в виде кейса 1 Установка R Studio, определение настроек.
Темы
Латентно-семантический анализ: сравнение двух термов между собой. Латентно-семантический анализ: сравнение двух документов между собой. Латентно-семантический анализ: сравнение терма и документа. Инструмент Word2Vec: алгоритма обучения : CBOW (Continuous Bag of Words). Инструмент Word2Vec: алгоритма обучения:Skip-gram. Инструмент Global2Vec.
Задания в виде кейса 3 и тестирования
Темы
Наивный байесовский классификатор при классификации текста. Принципы валидации данных для обучения моделей классификации текста. Метрики качества классификации текста. ROC-анализ для оценки качества классификации текста.
Задания в виде кейса 5 и тестирования
Латентно-семантический анализ: сравнение двух термов между собой. Латентно-семантический анализ: сравнение двух документов между собой. Латентно-семантический анализ: сравнение терма и документа. Инструмент Word2Vec: алгоритма обучения : CBOW (Continuous Bag of Words). Инструмент Word2Vec: алгоритма обучения:Skip-gram. Инструмент Global2Vec.
Задания в виде кейса 2 и тестирования
Темы
Методы кластеризации. Критерий качества кластеризации. Кластеризация методом Custom Search Folders. Кластеризация текста методом Suffix Tree. Кластеризация текста методом k-средних.
Задания в виде кейса 4 и тестирования
Загрузка и анализ корпуса текста. Предобработка текста. Реализация механизмов стемминга и лемматизации текста. Построение терм-документной матрицы. Реализация механизма частотного анализа текста, построение облака слов для нескольких статей. Выявление коллокации. Вычисление расстояния между статьями в одной и разных категориях, сравнение результатов. Кластеризация текста статей из 5-6 категорий. Реализация бинарной и многоклассовой классификации. Оценка качества полученных моделей.
Задания в виде комплексного проекта.
Темы
Задачи, решаемые с применением интеллектуального анализа текста. Определение функции частотности слов. Статистическая мера связи в коллакациях: метод MI. Статистическая мера связи в коллакациях: логарифм правдоподобия. Синтагматическая связь между элементами словосочетаний. Основные законы лингвостатистики: Ципфа, Хипса, Ципфа с поправкой Мандельброта. Определение корпуса текста, разметка текста. Векторное представление текста. Избавление от стоп-слов в корпусе текста. Стэминг и лемматизация. Создание терм-документной матрицы. Формирование мешочка слов.
Задания в виде кейса 1 Установка R Studio, определение настроек.
Латентно-семантический анализ: сравнение двух термов между собой. Латентно-семантический анализ: сравнение двух документов между собой. Латентно-семантический анализ: сравнение терма и документа. Инструмент Word2Vec: алгоритма обучения : CBOW (Continuous Bag of Words). Инструмент Word2Vec: алгоритма обучения:Skip-gram. Инструмент Global2Vec.
Задания в виде кейса 2 и тестирования
Темы
Латентно-семантический анализ: сравнение двух термов между собой. Латентно-семантический анализ: сравнение двух документов между собой. Латентно-семантический анализ: сравнение терма и документа. Инструмент Word2Vec: алгоритма обучения : CBOW (Continuous Bag of Words). Инструмент Word2Vec: алгоритма обучения:Skip-gram. Инструмент Global2Vec.
Задания в виде кейса 3 и тестирования
Темы
Методы кластеризации. Критерий качества кластеризации. Кластеризация методом Custom Search Folders. Кластеризация текста методом Suffix Tree. Кластеризация текста методом k-средних.
Задания в виде кейса 4 и тестирования
Темы
Наивный байесовский классификатор при классификации текста. Принципы валидации данных для обучения моделей классификации текста. Метрики качества классификации текста. ROC-анализ для оценки качества классификации текста.
Задания в виде кейса 5 и тестирования
Загрузка и анализ корпуса текста. Предобработка текста. Реализация механизмов стемминга и лемматизации текста. Построение терм-документной матрицы. Реализация механизма частотного анализа текста, построение облака слов для нескольких статей. Выявление коллокации. Вычисление расстояния между статьями в одной и разных категориях, сравнение результатов. Кластеризация текста статей из 5-6 категорий. Реализация бинарной и многоклассовой классификации. Оценка качества полученных моделей.
Задания в виде комплексного проекта.
Лакман
Ирина Александровна
БашГУ