Данный репозиторий содержит код по курсовой работе на тему "Какие темы всегда с нами? - исследование изменения новостных тематик с течением времени".
Настоящая работа посвящена методам анализа тематики большой текстовой коллекции и ее динамики во времени. В работе используется два подхода к моделированию тем. Первый подход включает в себя построение тематической модели, основанной на аддитивной регуляризации и учитывающей метки времени, чтобы отследить событийность тем. Второй подход использует языковую модель из семейства BERT для построения тематической модели и анализирует, как темы изменяются с течением времени. Основная задача данной работы заключается в построении тематических моделей для коллекции новостных статей с нескольких российских новостных порталов за 10 лет, используя выше упомянутые методы. Цель данного исследования заключается в анализе долговременной динамики новостных тематик и выявлении основных тем, которые постоянно присутствуют в информационном пространстве.
В качестве исходных данных были использованы статьи с российских новостных порталов за последние 10 лет, а именно: Lenta.ru, РИА Новости и Газета.Ru. Для создания коллекции новостных постов с информационного агенства «РИА Новости» был написан парсер для скачивания статей, используя асинхронное программирования. Для других двух источников были взяты готовые датасеты для NLP-задач: Газета.Ru и Lenta.ru
- Gazeta-BERTopic-DTM.ipynb, Lenta-BERTopic_DTM.ipynb, Ria-BERTopic-DTM.ipynb - jupyter notebooks для создания BERTopic модели и графиков развития тематик со временем
- gazeta_model_plsa.ipynb, lenta-model plsa.ipynb, ria_model_plsa.ipynb - jupyter notebooks для создания классической модели ARTM и графиков с метриками качества модели и матрицами
- gazeta_artm_timestamps.ipynb, lenta-artm_timestamps.ipynb, ria_artm_timestamps.ipynb - jupyter notebooks для создания модели ARTM, учитывающей метки времени документов и визуализации графиков с метриками качества модели, матрицами документов