Skip to content

verschiedenermist/WSD

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 

Repository files navigation

Решение задания по разрешению семантической многозначности (WSD).

В работе реализованы методы кластеризации контекстов многозначных слов и их автоматическое сопоставление со словарными значениями.

Основные шаги:

  1. Сбор данных: выбраны 5 неоднозначных слов (омонимы и многозначные лексемы), собраны их толкования из словаря.
  2. Извлечение контекстов: примеры предложений из корпусов (Corus), проведена лемматизация для корректной обработки словоформ.
  3. Кластеризация значений: разделение контекстов на группы с помощью контекстных эмбеддингов (ELMo, AdaGram), кластеризации (KMeans), после кластеры соотнесены с толкованиями из словаря.
  4. Оценка качества модели: создание тестового корпуса, вычисление accuracy автоматической разметки.
  5. Анализ ошибок: сравнение результатов разных методов WSD, разобраны примеры некорректных предсказаний и возможные причины ошибок.

Используемые библиотеки:

nltk, pymystem3, natasha, conllu, sklearn, pandas, numpy

Контекстные эмбеддинги ELMo, AdaGram

Методы кластеризации KMeans

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published