Алексей Куприянов / alexei.kouprianov@gmail.com
Я начну с того, что расскажу о двух группах показателей эпидемической статистики и связи между ними, потом перейду к требованиям, которые теоретические модели предъявляют к изменчивости показателей во времени, и, наконец, к оценке достоверности публикуемых государственными службами показателей.
Показатели, характеризующие развитие эпидемии, можно разделить на две основные группы.
Показатели первой группы говорят нам о скорости развития эпидемического процесса, показатели второй группы говорят о текущем размахе эпидемии. К первой группе относятся количество новых выявленных случаев, госпитализаций, выздоровлений, смертей в день или в другой выбранный промежуток времени (месяц, год), они могут быть представлены в двух видах: показатели за конкретный промежуток времени (например, отраженное в оперативном учете количество умерших за 2024-03-07, n = 1) и накопленные показатели к какому-то моменту времени (например, отраженное в оперативном учете количество умерших с начала эпидемии по 2024-03-07, N = 38277).
Ко второй группе относятся различные оценки числа активных случаев (людей, числящихся больными на настоящий момент), включая данные о загрузке больниц.
Нетрудно заметить, что первая группа объединяет показатели, связанные с изменением состояния человека, вторая — с пребыванием в определенном состоянии.
Показатели второй группы жестко связаны с показателями первой. Число активных случаев определяется формулой
A = C – (R + D)
Где A — количество активных случаев, C — накопленное количество выявленных случаев, R — накопленное количество выздоровевших, D — накопленное количество умерших. По сути, речь идет о том, чтобы понять, сколько из тех, кого зарегистрировали, как заболевших, все еще числятся болеющими (но не выздоровевшими и не умершими). То же самое касается и загрузки больниц, с тем отличием, что место выявленных случаев и выздоровевших занимают госпитализированные и выписанные из больниц.
Требования теоретических моделей к изменению показателей первой группы (скорость развития эпид. процесса) с течением времени
Теоретические ожидания того, каким образом показатели первой группы (скорость развития эпид. процесса) должны меняться со временем, определяются моделями, разработанными в области теории вероятностей, эпидемиологии и — немного — в области социологии.
Эти теоретические модели — не пустые, оторванные от реальности умствования. Они хорошо согласуются с добросовестно и методологически правильно собираемыми данными в разных областях жизни. Что удивительно для научных моделей, они, как мы увидим, не так сильно противоречат “здравому смыслу”.
Модели теории вероятностей многие десятилетия безотказно работают во всех естественных и социальных науках. Разница между “сигналом” и “шумом”, систематическими и случайными отклонениями — основа статистических доказательных методов, история развития которых насчитывает почти полтора столетия. Эпидемические модели хорошо работают не только в области эпидемиологии, но и в любых исследованиях, связанных с распространением чего угодно (предметов материальной культуры, информации) по сети контактов. От социологических моделей нам нужно совсем немного — представление о недельных и годичных циклах деятельности.
Я начну с эпидемиологических моделей, как наиболее важных для нас, потом перейду к вероятностным и социлогическим, а закончу важным общеметодологическим требованиям к объективным показателям.
Чего требуют эпидемиологические модели?
Во-первых, они требуют наличия волновых процессов. Эпидемия состоит из подъемов и спадов заболеваемости. Подъемы обычно называют волнами. В исключительных случаях все заканчивается одной волной. Если эпидемии удастся вырваться за пределы какого-нибудь малого, относительно однородного изолированного сообщества, волн непременно будет много. Этот текст я пишу на спаде третьей волны эпидемии COVID-19 в России.
Подъемы заболеваемости должны сменяться спадами, спады — подъемами, но этот процесс невозможно “остановить”. Стагнация невозможна ни на пике волны, ни на спаде. Показатели не могут многими неделями и месяцами удерживаться на одном уровне.
Во-вторых, они требуют того, чтобы разные показатели были определенным образом согласованы друг с другом. Например, рост выявления новых случаев должен начинаться раньше, чем рост числа выздоровлений и смертей. Рост смертей должен начинаться несколько раньше, чем рост выздоровлений. В общем, совершенно очевидно, что люди сначала заболевают, и только потом уже умирают, что на полное выздоровление уходит больше времени, чем на болезнь с летальным исходом.
Если только не возникает новых мутаций, существенно влияющих на летальность заболевания, эта самая летальность (доля умерших среди всех переболевших) должна быть приблизительно одинакова в течение всего периода до начала массовой вакцинации или разработки специфической терапии и довольно мало отличаться по странам и регионам (если только между ними нет разительных различий в уровне развития системы здравоохранения). При этом летальность обычно заметно отличается по возрастам и иногда — по полу, но и эти различия стабильно удерживаются.
Чего от временных рядов данных требуют модели теории вероятностей? Они требуют довольно абстрактной, но принципиально важной вещи. Они требуют, чтобы данные непременно случайно варьировали. Тренды (устойчивый рост, устойчивый спад, застой на одном уровне) могут быть выявлены отчетливо только при помощи специальных методов, позволяющих убрать из данных “шум” случайного варьирования и “сгладить” график. Основных простых методов два — суммирование данных за несколько дней и метод скользящих средних.
Теория вероятностей позволяет оценить ожидаемый случайный разброс и предсказать, в каких приблизительно пределах должны варьировать данные “естественного” происхождения. Снижение или исчезновение случайного варьирования связано с сознательной манипуляцией данными, которой занимаются недобросовестные наблюдатели.
Чего от временных рядов данных требуют социологические модели? Они, прежде всего, требуют, чтобы в данных наблюдалась “бюрократическая динамика” — глубокие провалы по всем первичным показателям по выходным. Дело в том, что мы наблюдаем за эпидемией через очки огромной бюрократической машины, обеспечивающей сбор данных. Эта машина работает по своим правилам — например, в выходные и праздничные дни регистрация всего происходящего замирает. В эти дни проводят меньше тестов, регистрируют меньше новых случаев, замедляются госпитализация и выписка из больниц, регистрируют меньше смертей. Это не означает, что люди перестают заболевать или умирать (и даже того, что они заболевают и умирают в заметно меньших количествах, чем в будни). Это означает, что бюрократическая машина, собирающая и публикующая данные, в эти дни работает с пониженной интенсивностью. Именно из-за этой бюрократической динамики для выявления тренда нам и требуются семидневные скользящие средние и недельные суммы, сглаживающие эффект выходных.
Второе требование связано с более долговременными эффектами и не столь важно в плане выявления фальсификации данных: крупные подъемы и спады эпидемического процесса связаны с сезонными изменениями характера деятельности людей. Летом или в период рождественских каникул люди меньше контактируют в закрытых помещениях в больших группах и распространение инфекции замедляется.
Наконец, не следует забывать еще об одном важном общеметодологическом требовании. Одни и те же объективные показатели, учитываемые независимыми наблюдателями, должны совпадать с точностью до случайной ошибки наблюдателя.
Прежде, чем мы перейдем к анализу отдельных временных рядов, надо сделать одно важное замечание. Необходимо отличать добросовестный, но неполный учет от сознательных манипуляций данными. Одно дело, когда, не имея физической возможности полностью отслеживать тщательнейшим образом цепочки заражения, не учитывают всех заболевших, или когда на пике эпидемии не успевают учитывать умерших. Другое дело, когда в принципе известные данные умышленно искажаются.
Количество тестов, госпитализаций, смертей в день отвечают всем требованиям, о которых я говорил выше. Они имеют четкую волновую структуру (во всех трех случаях мы видим три волны, при этом вторая выглядит как бы “сдвоенной”), в них присутствует случайное варьирование день ото дня, усугубляемое “бюрократической” составляющей динамики. Их пики сдвинуты друг относительно друга предсказуемым образом — пики тестирования и госпитализаций предшествуют пикам смертности. Чтобы не перегружать текст графикой, здесь приводятся только избранные показатели. Графики по остальным показателям можно посмотреть в регулярных отчетах.
Количество проведенных PCR тестов (рис. 1) — наименее искаженный из этих трех показателей. Важно понимать, что не все тесты приводят к положительному результату (даже в случае, когда человек инфицирован коронавирусом). Если исключить отдельные немногочисленные категории граждан, регулярно проходящие тестирование, волны тестирования связаны с волнами заражения, поскольку материал для тестов отбирается по направлениям из поликлиник у пациентов с симптомами или при поступлении в стационары.
**Рис. 1. Количество PCR-тестов в день демонстрирует все особенности честной динамики:** наличие волн, отсутствие длительных периодов застоя, случайное варьирование день ото дня, провалы по выходным, большой разброс относительно скользящих семидневных средних значенийКоличество госпитализируемых с COVID-19 в день (рис. 2). Судя по всему, этот показатель не подвергался значительным искажениям, но замалчивался в течение двух наиболее острых месяцев третьей волны, со 2 июня по 3 августа 2021 г. Данные за этот период, отраженные на наших графиках, получены неофициально, но из вполне надежного источника.
**Рис. 2. Количество госпитализируемых в день.** Динамика совершенно аналогична динамике количества тестов, за исключением того, что данные за 3 июня — 2 августа 2021 гг. официально не публиковались. Данные за 21 июня — 27 июля 2021 г. получены неофициальным путем.Количество умерших (оперативный учет). Во время первой волны (весна — начало лета 2020 г.) в СМИ просочились сведения о значительных (месяц и более) задержках в установлении причин смерти. В результате, данные попадали в оперативный учет не в полной мере и с запозданием. Также известно, что на пиках второй и третьей волн патологоанатомические службы работали с перегрузкой. В частности, “плато” смертности в конце июня — начале июля 2021 г. обусловлено пределами их пропускной способности. Представления о полном объеме потерь от COVID-19 на пике волн можно получить только ретроспективно из отчетов Росстата. В остальном оперативный учет смертей от COVID-19 поставлен в Петербурге образцово. На спадах волн избыточное (по сравнению с “доковидным” периодом) количество смертей, рассчитанное по данным Росстата, совпадает с данными оперативного учета смертности от COVID-19 (см. рис. 3), на пиках второй и третьей волн — превышает оперативный учет не более, чем в 1.5 раза.
**Рис. 3. Оценки количества смертей от COVID-19 по разным источникам.** Обратите внимание на почти идеальное совпадение количества смертей в оперативном учете (красная линия) и избыточного количества смертей в отчетах Росстата (черная и синяя линии) в периоды спада эпидемического процесса (август 2020, февраль — май 2021).В статистике по Петербургу систематическое отклонение от теоретически ожидаемых значений в течение боле или менее длительного времени показывали два первичных показателя — количество новых выявленных случаев и количество выздоровевших в день.
Количество новых выявленных случаев со второй половины мая 2020 по первую половину августа 2021 было практически лишено как случайного варьирования день ото дня, которого требовала теория вероятностей, так и “бюркратической” недельной динамики. Это хорошо заметно на рис. 4. Серые столбики за этот период практически не требуют дополнительного сглаживания скользящими средними, чтобы четко выявить тренд.
Можно было бы обсуждать “естественные” причины столь странной стабильности, если бы не одно важное обстоятельство. С 9 декабря 2020 по 2 июля 2021 гг. нам были доступны данные из независимого источника — количество новых выявленных случаев по версии Межведомственного городского совета. На графике они изображены красными столбиками. Мы видим, что в них присутствуют как значительные случайные колебания день ото дня, так и глубокие провалы по выходным и по праздникам.
Можно было бы предположить, что на сайте “Стопкоронавирус.рф” публиковали данные, уже сглаженные при помощи метода скользящих средних, однако различия между этими двумя рядами данных невозможно свести к усреднению.
- Во-первых, скользящие средние для данных Межведомственного городского совета (рис. 4, красная линия) не совпадают с данными сайта “Стопкоронавирус.рф”.
- Во-вторых, отличаются накопленные количества новых случаев за период с 9 декабря 2020 по 2 июля 2021 (“Стопкоронавирус.рф”: 285,706, Межведомственный городской совет: 268,547, разница составляет 17,159 случаев).
- В-третьих, данные Межведомственного городского совета не показывают продолжительных плато ни на пиках волн, ни в периоды спада заболеваемости — хорошо видно, что подъем третьей волны начинается практически непосредственно после окончания спада второй (на деле, он начинается раньше, короткий, буквально в пару недель период видимого застоя связан с тем, что, пока вторая волна затухала в одних сегментах общества, третья уже нарастала в других).
- Наконец, что принципиально важно, данные Межведомственного городского совета показывают, что весьма значительный рост третьей волны наблюдался уже в мае, в то время как на сайте “Стопкоронавирус.рф” третья волна “началась” только в конце июня, когда на деле больницы и морги города были уже переполнены.
Данные о новых выявленных случаях находятся в прямом противоречии и с другими рядами данных, добросовестность в сборе которых и согласованность которых друг с другом вызывает куда меньше сомнений. Пики тестирования, госпитализации и смертности во время третьей волны значительно опережают пики выявления новых случаев по версии сайта “стопкоронавирус.рф”, что совершенно невозможно себе представить при естественном развитии событий. Плохо согласуются как с теоретическими ожиданиями, так и с другими данными и “срезанные” плоские вершины пиков выявленных случаев во время второй и третьей волн и заниженная амплитуда третьей волны.
**Рис. 4. Количество новых выявленных случаев COVID-19 по данным сайта *Стопкоронавирус.рф* и по данным Межведомственного городского совета.** Обратите внимание на характер расхождений: большие колебания данных Межведомственного городского совета день ото дня, большую амплитуду второй волны и более ранний подъем третьей, отсутствие “плато” на пиках и спадах волн красных столбиков.Отклонения числа подтвержденных случаев ковид по дням от семидневного скользящего среднего можно оценить количественно. Для этого можно использовать коэффициент сглаживания, равный модулю отклонения значения за конкретный день от семидневного скользящего среднего, деленному на это среднее:
Где
- S — коэффициент сглаживания;
- xi — значение за конкретный день;
- M7 — семидневное скользящее среднее;
Удержание крайне незначительных (много менее 0.1) отклонений от скользящего среднего в течение длительного времени указывают на избыточное сглаживание данных с конца мая 2020 по середину августа 2021 гг. (за исключением краткого периода в конце января — начале февраля 2021 г.). Это также признак сознательной манипуляции данными. Данные, собираемые добросовестно, варьируют в значительно больших пределах (рис. 5).
**Рис. 5. Петербург: сглаженность данных по выявленным случаям относительно скользящего среднего.** Обратите внимание на много большую изменчивость *решительно всех* показателей по сравнению с количеством выявленных случаев по версии сайта “Стопкоронавирус.рф”. В конце августа 2021 г. хорошо заметно восстановление естественной изменчивости.С весны 2020 г. независимые аналитики постоянно критиковали в СМИ публикацию заведомо фальсифицированные данных о числе новых выявленных случаев на сайте “Стопкоронавирус.рф”. Можно только приветствовать возвращение случайного варьирования и недельной “бюрократической” компоненты с 16–17 августа 2021 г. Поскольку “провалы” приходятся на понедельник и вторник (вместо субботы и воскресенья), ясно, что, в отличие от зимы — весны 2020–2021 гг., теперь этот показатель отражает ситуацию не с одно-, а с двухдневным опозданием. Хотелось бы надеяться, что с конца августа 2021 г. число выявленных случаев может вновь использоваться для оценки скорости развития эпидемии. Следует помнить, что этот показатель не дает представлений об амплитуде волны, поскольку выявить всех инфицированных в принципе невозможно. Зато есть возможность своевременно увидеть начало очередной волны и принять меры.
Количество выздоровевших заведомо фальсифицировалось в течение непродолжительного времени, однако это выглядело настолько нелепо, что было достаточно нескольких критических выступлений в СМИ, чтобы очевидная фальсификация этого показателя прекратилась. С 13 сентября по 23 октября 2020 г. число выздоровевших за день было (с очень незначительными отклонениями) равно ровно половине новых выявленных случаев. На рис. ХХ этот период период отображается как ровная горизонтальная линия на отметке 0.5 (см. рис. 6). Хотя в конце октября соотношение между выявленными и выздоровевшими начало варьировать, окончательно ситуация с отчетами о числе выздоровевших исправилась, судя по всему, только к декабрю, незадолго до появления в открытом доступе ежедневных отчетов Межведомственного городского совета.
**Рис. 6. Динамика отношения новых выявленных случаев и выздоровевших.** Обратите внимание на горизонтальную линию в сентябре – начале декабря 2020 г. и на почти идеально ровный участок на отметке 0.5 с 13 сентября по 23 октября 2020 г.Как уже написано выше, оценка числа активных случаев жестко связана с тремя первичными показателями — количеством выявленных случаев, количеством умерших и количеством выздоровевших. Если один из этих первичных показателей фальсифицировали с мая 2020 по август 2021, другой, как минимум, с сентября по ноябрь 2020, а третий публиковали с перебоями, то результат арифметических действий с ними не будет иметь ничего общего с реальностью. Собственно, это мы и наблюдали в течение всего времени развития эпидемии.
Из-за тотальной фальсификации числа выявленных случаев расчетное число активных случаев время от времени было то значительно выше, то значительно ниже реального. С этим показателем связан расчетный артефакт, свидетельствовующий о фальсификации эпид. статистики, так называемый “дагестанский отскок” — впервые выявлен в данных по Дагестану, но с тех пор обнаружен в большей части российских регионов. В том числе, в данных по Петербургу он наблюдается трижды. Речь идет о резком кратковременном снижении числа активных случаев на фоне продолжающегося роста заражений. Кажется, что люди начинают выздоравливать и умирать прямо в день выявления болезни. 9 июля 2021 г. расчетное число активных случаев в Петербурге по версии сайта “Стопкоронавирус.рф” упало до 711 человек. На этот момент в городе в день от коронавируса умирало более 100 человек, только в больницах, не считая амбулаторных больных, находилось около 10 тыс. пациентов с COVID-19. В виду явной нелепости этого показателя, сайт “стопкоронавирус.рф” после критики в СМИ прекратил его публикацию.
Как и с данными по новым выявленным случаям, благодаря бюллетеням Межведомственного городского совета мы имеем независимые оценки числа активных случаев. Как мы видим, они показывают много лучшее согласие с оценками масштаба и привязки ко времени подъема и спада волн эпидемии, чем расчетный показатель по версии сайта “Стопкоронавирус.рф” (рис. 7). К сожалению, независимые данные о числе активных случаев за период до декабря 2020 и за июнь — июль 2021 г. недоступны, поэтому трудно оценить масштабы первой и третьей волн в полной мере.
**Рис. 7. Динамика числа активных случаев по разным источникам.** Обратите внимание на несовпадение пиков красной и черной линий по времени и амплитуде, в частности на то, что подъем и невидимый из-за разрыва в публикации данных реальный пик третьей волны приходятся на спад расчетного числа активных случаев по версии сайта *Стопкоронавирус.рф.*Несколько лучше обстоят дела с числом больных, находящихся в стационарах. Основной массив данных, связанных с загрузкой стационаров, составлен на основании бюллетеней Межведомственного городского совета за период с 9 декабря 2020 по 2 июня 2021 гг. и портала “Петербург против коронавируса”, который начал работу с 3 августа 2021 г. Эти данные дополнены отдельными сообщениями СМИ за периоды, не покрытые централизованно публикуемой статистикой.
Бюллетени межведомственного городского совета содержали три несовпадающие оценки числа больных в стационарах в разных местах текста. Две из них были достаточно близки друг другу по амплитуде, все три, в целом, давали одинаковую картину в динамике (спады и подъемы начинались по всем трем приблизительно одновременно). Что это за показатели?
-
Во-первых, наиболее заметный и регулярно публикуемый (он публиковался на самом видном месте в сводной таблице ежедневного отчета) показатель: количество пациентов с лабораторно подтвержденным диагнозом COVID-19, находящихся под наблюдением в стационарах (на рис. 8 обозначен зеленым).
-
Во-вторых, показатель, который можно было вычислить косвенным путем из время от времени появлявшихся во вводном абзаце ежедневного отчета или в специальном разделе еженедельного отчета данных о числе коек, отведенных под COVID-19, и о числе свободных коек. Эти данные неоднократно сообщались официальными лицами в СМИ (на рис. 8 обозначен темно-красным).
-
В-третьих, показатель, который можно было вычислить по данным о распределении коек между легкими, средней тяжести и тяжелыми случаями, сообщавшимся в еженедельных отчетах по понедельникам (на рис. 8 обозначен оранжевым).
Первый показатель давал весьма неполное и излишне оптимистичное представление о загрузке больниц. В зависимости от фазы эпидемического процесса и доступных мощностей тестирования он составлял от половины до приблизительно 0.8 реальной загрузки (см. рис. 9).
Причины несовпадения второго и третьего показателя неясны. При всей близости их значений второй был то систематически ниже третьего за те же даты (осень 2020 г.), то систематически выше (весна 2021 г.). Более того, ни общее количество коек в еженедельных отчетах, ни количество свободных коек не совпадало с общим количеством коек и количеством свободных коек, о которых сообщалось во вводных разделах ежедневных отчетов и в разделе еженедельного отчета, посвященном работе стационаров. Хотелось бы надеяться, что в Комздраве все-таки понимали, сколько коек занято, а сколько свободно на самом деле, хотя они и не смогли донести эту информацию до граждан.
Точные данные по третьей волне (июнь — июль 2021 г.) почти полностью скрыты от граждан. В связи с этим, установить, какой именно из трех показателей стали вновь сообщать на портале “Петербург против коронавируса” с 3 августа, на настоящий момент не представляется возможным. Вероятнее всего, речь идет о втором (эта точка зрения и отражена на рис. 8).
**Рис. 9. Доля пациентов с лабораторно подтвержденным диагнозом от общего числа занятых под COVID-19 коек.** Обратите внимание на снижение доли лабораторно подтвержденных диагнозов во второй половине декабря — начале января, связанной со снижением пропускной способности лабораторий на пике второй волны и рост мощностей тестирования к весне.Публикация правдивых данных о ходе эпидемии крайне важна для оценки рисков и своевременного принятия гражданами мер, обеспечивающих личную безопасность и препятствующих бесконтрольному развитию эпидемического процесса. К сожалению, в Петербурге, как и в большинстве регионов России, власти скрывали или систематически фальсифицировали эти данные. Эти заведомо фальсифицированные данные тиражировались СМИ, создавая ложное представление о масштабах проблемы и совершенно искаженное представление о динамике эпидемии.
Несмотря на это, использование комплекса независимых источников и критический подход к ним позволяют довольно верно оценивать как динамику, так и масштабы эпидемии, хотя, нередко, со значительным опозданием.
Данные, тексты и инфографика размещены в этом репозитории на условиях лицензии Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0).