Ссылки

Новость часа

"Хочется показать цифру чуть меньше: не 9600 с чем-то, а 9599". Аналитик данных – об особенностях российской статистики по коронавирусу


В России 26 мая зафиксированы сразу два рекордных суточных показателя по коронавирусу: число смертей пациентов с COVID-19 – 174 – и рекордное число выздоровевших – 12 331. Но к достоверности официальных цифр из России есть много вопросов.

Интересно, что власти Вологодской области решили публиковать статистику по заболевшим коронавирусом спустя сутки после публикации данных федерального оперативного штаба. "Это сделано для того, чтобы исключить расхождение сведений", – говорится в сообщении администрации. При этом Вологодская область в числе тех регионов, где официальная смертность от коронавируса низкая – четверо умерших на почти 700 заболевших.

Директор по исследованиям компании Data Insight Борис Овчинников в эфире программы "Вечер" проанализировал данные, регулярно предоставляемые Минздравом.

Аналитик данных Борис Овчинников – об особенностях российской статистики по коронавирусу
пожалуйста, подождите

No media source currently available

0:00 0:05:36 0:00

– Прочитала вашу аналитику на странице в фейсбуке математической оценки тех цифр, которые дает российский Минздрав официально. Расскажите, к какому выводу вы пришли и как?

– Отправной точкой для мини-исследования стал тот факт, что позавчера в четвертый раз меньше чем за месяц количество выявленных больных за последние сутки, по официальным данным, равнялось четырехзначному числу с двумя девятками на конце. Четырежды – меньше чем за месяц – две последние цифры были девятки.

Нельзя сказать, что это невозможное совпадение, но вероятность того, что так получится случайно, крайне мала. Можно по-разному считать, это обсуждаемый вопрос. Но в любом случае вероятность мала.

Факт вроде того, что в Краснодаре 12 дней подряд показывали 96–99 заболевших каждый день и сейчас до сих пор показывают чуть-чуть меньше цифры – в районе 90. Но по-прежнему с практически нулевым разбросом день ото дня. Или история, когда 17 мая сразу восемь регионов – почти каждый десятый – показали 97 или 98 заболевших за последние сутки. Эти истории уже доказывали, что статистику фальсифицируют на региональном уровне.

– А доказывали, потому что это невозможно исходя из математических моделей?

– Это совсем маловероятные совпадения. Если бы, не дай бог, коронавирусную статистику публиковали и вели на протяжении нескольких сотен лет, то рано или поздно мы бы подобное увидели. А мы это увидели уже на третий месяц.

Федеральная история – это история с обилием цифр 99. Там, на самом деле, еще дважды за этот же период были цифры 98 – шесть раз число, которое чуть меньше круглой сотни. Федеральные цифры нельзя считать безусловным доказательством того, что да, эти цифры кем-то нарисованы, а не получены, как они должны получаться, – суммированием данных по 85 регионам.

Но, повторяюсь, с учетом того, что мы уже знаем про статистику на региональном уровне, на мой взгляд, они наводят на веские подозрения, что даже те цифры – часто уже искаженные, – которые присылают регионы, потом еще дополнительно корректируются, подгоняются под заданный некий целевой общефедеральный показатель.

– А какая цель?

– Тут уже можно строить разные предположения от относительно благоприятно-умеренной версии, что просто хочется показать цифру чуть меньше: не 9600 с чем-то, а 9599.

– Это как ценники в магазине?

– Да, совершенно верно. Но точно так же, возможно, это является свидетельством того, что неправильно говорить "реальные цифры", потому что реальные цифры, возможно, вообще никто не знает.

Но даже те цифры, которые получаются при суммировании первоначальных региональных сообщений, возможно, намного – на тысячи человек – выше, чем та официальная цифра по России в целом, которая в итоге публикуется.

И мы уже не знаем, какое из двух предположений ближе к истине. Но само понимание того, что есть веские основания предполагать махинации со статистикой, в том числе на федеральном уровне, на мой взгляд, в первую очередь означает непригодность этих данных для какого-то осмысленного анализа, прогнозирования и принятия решений. И это, на мой взгляд, очень печально и опасно.

– Борис, а если сейчас на федеральном уровне принять политическое решение: никаких махинаций. Можно ли получить достоверную статистику в итоге?

– Получить, наверное, можно. Это не так сложно. Другое дело, что очень сложно, если вообще возможно, теперь убедить общество или по крайней мере самых внимательных и притязательных потребителей статистических данных в том, что теперь все считается правильно и достоверно. Это очень сложно, и я даже, честно говоря, не очень понимаю конкретные механизмы, как бы это можно было сделать, увы.

Карты распространения и смертности от коронавируса в мире
XS
SM
MD
LG