Выполнил Тупицин Станислав Павлович
В качестве решения для кейса был создан ряд модулей, а также пример их компановки, которые позволяют производить тематическое(и не только) моделирование текстовых данных.
Блокнот, являющийся решением находится в notebooks/Submission.ipynb
Для отображения графиков в Submission.ipynb предлагается загрузить данный файл или посмотреть его в Google Colab
Установка соответствующего окружения возможна с помощью файла conda-окружения environment.yml или с помощью окружения с версией python 3.10.14 и установленными зависимостями из requirements.txt
Реализованные модули:
preprocessing.py- модуль предобработки текстовых данныхtopic_engine.py- модуль тематического моделированияsentiment_engine.py- модуль анализа тональности текстовrouter.py- пример компановки модулей
Python - 3.10.14
numpy=1.26.4
pandas=2.2.2
bertopic=0.16.4
sentence-transformers=3.2.1
nltk=3.9.1
pymorphy3=2.0.2
spacy=3.7.6
transformers=4.46.2
setuptools=75.4.0
plotly=5.24.1
tqdm=4.67.0
- Занимаемый объем: 370 МБ без учета установленных зависимостей
- Точность кластеризации при тематическом моделировании - 0.68-0.99 в зависимости от данных документов при стандартной конфигурации
- Скорость работы на AMD Ryzen 5 5600H 3.30 GHz, 16 GB RAM - 0.049 с. в среднем на строку данного датасета
