В работе реализованы методы кластеризации контекстов многозначных слов и их автоматическое сопоставление со словарными значениями.
- Сбор данных: выбраны 5 неоднозначных слов (омонимы и многозначные лексемы), собраны их толкования из словаря.
- Извлечение контекстов: примеры предложений из корпусов (Corus), проведена лемматизация для корректной обработки словоформ.
- Кластеризация значений: разделение контекстов на группы с помощью контекстных эмбеддингов (ELMo, AdaGram), кластеризации (KMeans), после кластеры соотнесены с толкованиями из словаря.
- Оценка качества модели: создание тестового корпуса, вычисление accuracy автоматической разметки.
- Анализ ошибок: сравнение результатов разных методов WSD, разобраны примеры некорректных предсказаний и возможные причины ошибок.
nltk, pymystem3, natasha, conllu, sklearn, pandas, numpy
Контекстные эмбеддинги ELMo, AdaGram
Методы кластеризации KMeans