Skip to content

abinakukanova/temporal-topic-modeling-bigartm

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

34 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

temporal-topic-modeling-bigartm

Данный репозиторий содержит код по курсовой работе на тему "Какие темы всегда с нами? - исследование изменения новостных тематик с течением времени".

Настоящая работа посвящена методам анализа тематики большой текстовой коллекции и ее динамики во времени. В работе используется два подхода к моделированию тем. Первый подход включает в себя построение тематической модели, основанной на аддитивной регуляризации и учитывающей метки времени, чтобы отследить событийность тем. Второй подход использует языковую модель из семейства BERT для построения тематической модели и анализирует, как темы изменяются с течением времени. Основная задача данной работы заключается в построении тематических моделей для коллекции новостных статей с нескольких российских новостных порталов за 10 лет, используя выше упомянутые методы. Цель данного исследования заключается в анализе долговременной динамики новостных тематик и выявлении основных тем, которые постоянно присутствуют в информационном пространстве.

В качестве исходных данных были использованы статьи с российских новостных порталов за последние 10 лет, а именно: Lenta.ru, РИА Новости и Газета.Ru. Для создания коллекции новостных постов с информационного агенства «РИА Новости» был написан парсер для скачивания статей, используя асинхронное программирования. Для других двух источников были взяты готовые датасеты для NLP-задач: Газета.Ru и Lenta.ru

About

A Project on Temporal Topic Modeling

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published