Data Science: обработка естественного языка
Нетология
Описание
О профессии
Специалист по обработке естественного языка работает с любым текстом как с данными. Он создает основу работы поисковиков, машинного перевода, чатботов, вирутальных ассистентов. Эти навыки необходимы в большинстве digital-сфер.
Средняя зарплата в Data Science через год работы – 200 000 ₽, по данным исследования hh.ru.
Освойте высокооплачиваемую профессию со скидкой. Государство оплатит от 50% до 100% стоимости обучения.
Кому будет полезен этот курс
Новичкам в Data Science
Вы научитесь создавать сайты и веб-приложения на языке JavaScript и станете квалифицированным специалистом в frontend-разработке.
Разработчикам
Курс даёт хорошую базу для перехода из программирования в Data Science и анализ больших данных. Вас ждёт много практической работы, разбор кейсов и новые полезные знакомства.
Аналитикам
Вы научитесь извлекать максимум из больших массивов данных для быстрой проверки гипотез и построения прогнозов. Систематизируете знания и углубитесь в сферу Data Science.
О Нетологии
Нетология — образовательная платформа. Обучаем современным востребованным профессиям. 35+ тыс. дипломированных выпускников, 10 лет на рынке и 8 направлений обучения.
Наши преимущества
- Преподаватели из крупнейших IT-компаний России
- Обучение на практике и подробная обратная связь
- Готовые кейсы в портфолио и помощь в их оформлении
- Помощь с трудоустройством и поддержка на всех этапах
- Диплом государственного образца
- Возможность получить налоговый вычет — 13%
Чему вы научитесь
- Распознавание и синтез устной речи
- Построение математическое модели для классификации текста
- Поиск и работа с негативными отзывами
- Обучение и программирование голосовых помощников
- Создание алгоритма, преобразующего текст в его сокращённую версию
- Оптимизация бизнес-процессов с помощью машинного обучения
- Текстовый анализ и модерация ненадлежащего контента
По каждому блоку вы выполните домашние задания и получите подробную обратную связь.
Как проходит обучение
- Смотрите видеолекции и участвуете в вебинарах
- Закрепляете знания на практике
- Создаете проект в портфолио
- Получаете диплом и находите новую работу
Диплом подтвердит вашу квалификацию
Мы обучаем по государственной лицензии. При успешной защите итоговых проектов вы получите диплом, который сможете добавить к резюме и показать при устройстве на работу.
Трудоустройство
Поможем найти работу после обучения. У вас будет возможность работать из дома и получать конкурентную зарплату.
- Поможем составить дорожную карту поиска работы
- Научим проходить интервью
- Поможем оформить резюме и портфолио ваших работ
- Научим находить вакансии под выбранную профессию
Часов в программе
Цель программы
Актуальность
Зарплата специалиста по данным исследования HeadHunter:
100 000 ₽ – 150 000 ₽ зарабатывает junior-специалист
200 000 ₽ – 250 000 ₽ зарабатывает middle-специалист
300 000 ₽ – 350 000 ₽ зарабатывает senior-специалист
Входная диагностика 1 час
Итоговая аттестация 40 часов
Компетенции
Профессиональные
Работа с базами данных в SQL
• знать архитектуру и структуру базы данных в общем виде
• понимать алгоритм применения аналитических функций SQL
• ориентироваться в разных форматах файлов
• писать простые SQL запросы, чтобы получать данные из базы данных (БД)
• писать джоины, чтобы создавать новые таблицы
• группировать, фильтровать данные из БД
• импортировать и экспортировать данные в БД
• работать с разными форматами файлов
• использовать базу данных PostgreSQL, чтобы хранить данные
• использовать аналитические функции SQL, чтобы изучать характеристики данных
Анализ данных в Python
• знание основ Python и основ системы контроля версий
Уметь:• умение работать с библиотеками для анализа данных (numpy, scipy, pandas)
• умение работать со статистикой в Python (Основы описательной статистики, статистический анализ данных, методы математической оптимизации)
• владение инструментами Python (знание базовых и продвинутых типов данных, циклов, функций и классов)
Feature engineering и предобработка данных
• знать, как проверять данные на полноту, целостность, валидность, правильность, наличие шумов, ошибок и пропусков
• понимать, как осуществлять сокращение размерности данных алгоритмами PCA, LDA, NMF с помощью sklearn
• уметь описывать основные проблемы данных
• уметь удалять шумы в данных, ошибочные знания, пропуски с помощью numpy и pandas
• уметь обрабатывать текстовые данные, чтобы передавать их в алгоритмы машинного обучения
• использование алгоритмов PCA, LDA, NMF с помощью sklearn для сокращения размерности данных
Построение модели обучения
• знать базовые алгоритмы машинного обучения с помощью библиотеки sklearn
• знать алгоритмы кластеризации
• определять критерии точности модели
• строить деревья решений
• строить модель логистической регрессии
• использовать кросс-валидацию и регуляризацию, чтобы бороться с переобучением
• строить линейную и полиноминальную регрессию
• строить ансамбли моделей
• использовать GridSearch и RandomizedSearch, Model Specific CV, Out of Bag approach для подбора параметров модели
• использовать Random Forest в задачах классификации
Обработка естественного языка (NLP)
• знать особенности анализа тональности текста
• понимать принципы классификации текстов
• знать принципы построения и визуализации моделей скрытых тем
• анализировать тональность текста
• извлекать сущности из текста
• классифицировать тексты
• выполнять простую (токенизация) и сложную (опеределение частей речи и синтаксических зависимостей) проработку текстов
• строить и визуализировать модели скрытых тем
• выделять и визуализровать ключевые слова из текста
• обучать модели распределенного представления слов
• генерировать тексты
• собирать и размечать тексты
• использование Transformers BERT для работы с текстами
Требования
Нет
Образование
- Высшее образование
- Среднее профессиональное образование
Модули
свернутьПреподаватели

Сапрыкин
Артур
Нетология
Data Scientist

Шеянова
Мария
Million Agents
Старший специалист по машинному обучению

Аксенова
Анна
Sber
Аналитик данных

Никишина
Ирина
Нетология
Аналитик данных
Профстандарт
Специалист по большим данным
06.042Ответственный за программу
+78002008167