COVID-19 Prediction представляет собой реализацию проекта «Прогнозирование заболеваемости COVID-19» в рамках зимней школы CompTech School 2022.
- 🗂️
.github
- папка содержит конфиг настройки для Github Actions. - 🗂️
docs
- папка содержит проектную документацию. - 🗂️
etl
- папка содержит скрипты для работы с данными. - 🗂️
predict
- папка содержит скрипт для предсказаний моделей .gitignore
- каких файлов не должно быть в удалённом репозитории.dodo.py
- скрипт, отвечающий за последовательность выполнения скриптов для обновления данных.requirements.in
- список библиотек для компиляции зависимостей requirements.txt с помощью библиотеки pip-tools.requirements.txt
- список зависимостей, необходимых для работы скриптов.
Пандемия продолжает влиять на страны по всему миру - COVID‐19 затронул 195 стран с примерно 366 млн подтвержденными случаями заболевания (к январю 2022). Понимание динамики передачи инфекции в каждой стране и прогнозы имеют решающее значение для дальнейших действий по борьбе с пандемией. Целью проекта является разработка и визуализация модели, которая предсказывает заболеваемость COVID-19.
Исходя из имеющихся данных о заболеваемости в разных странах, модель делает предсказания заболеваемости на 30 дней. Подробно о модели можно прочитать в Отчете о научно-исследовательской работе
.
Проект может представлять интерес для государства, ВОЗ, страховых компаний, частных клиник, так как появится возможность:
- предсказывать спрос на медицинские услуги и нагрузку на госпитали,
- принять меры заблаговременно,
- сократить расходы.
Ссылка на дэшборд в Yandex DataLens
Детальная установка и настройка описана в официальной документации сервиса Yandex DataLens.
Для настройки требуется наличие учетной записи Яндекс / SSO.
Указаны в requirements.txt
.
- Перейти на страницу дэшборда в Yandex DataLens.
- В первом фильтре выбрать интересующую страну (например,
Russia
). - Смотреть графики динамики заражений, вакцинаций и смертности.
- Во втором фильтре выбрать интересующую страну для отображения карты схожести.
- Наводить курсор на элементы для отображения дополнительной информации.
Используемые переменные в графиках смертности, заболеваемости, вакцинации и госпитализаций:
location
(Местоположение) - поле, содержащее название страны, для которой отрисовывается график случаев заражений, вакцинаций, смертей.date
(Дата) - поле, содержащее дату в формате "ГГГГ-ММ-ДД".new_cases (smoothed)
(Новые случаи заражения (сглажено)) - те жеНовые случаи заражения
, но сглаженные при помощи фильтра высоких частот.Новые случаи смерти (сглажено)
- те жеНовые случаи смерти
, но сглаженные при помощи фильтра высоких частот.Новые случаи вакцинации (сглажено)
- поле, содержащее количество вакцинированных в заданной стране в течение дня, сглаженные при помощи фильтра высоких частот.Госпитализировано
- поле, содержащее количество случаев госпитализаций на определенную дату в определенной стране. Информация по госпитализациям была найдена в открытом доступе только по США.
Используемые переменные в карте схожести стран:
longitude
(Долгота) - поле, содержащее долготу одной точки страны.latitude
(Широта) - поле, содержащее широту одной точки страны.Coord
(Координаты точки) - поле, содержащее координаты одной точки страны.Страна для отображения
- поле, содержащее название страны. Используется для выбора по селектору(в качестве фильтра).Другая страна
- поле, содержащее название не выбранных стран для отображения. С ними происходит сравнение.Степень отставания
- поле, содержащее количество дней отставания для двух выбранных стран (предполагаемое количество дней до наступления волны заболеваемости COVID-19 в выбранной стране).Степень уверенности
- поле, содержащее степень сходства двух выбранных стран (пирсоновская корреляция двух дискретных функциональных зависимостей прироста количества заболевших в каждой стране).
- Антон Агейков - Data Scientist, капитан команды
- Асем Ибраева - Data Scientist
- Тимофей Акимкин - ML Engineer
- Яна Бучковски - технический писатель
- Татьяна Плевако - DevOps
Куратор: Артем Карасюк