Цифры врут. Как не дать статистике обмануть себя - Том Чиверс
Шрифт:
Интервал:
Закладка:
Но это допущение может резко изменить результаты моделирования, поэтому важно понимать, по какой причине оно принято или отвергнуто. В критической публикации Лондонской школы экономики было показано, что если бы «Экономисты за Брекзит» учитывали в своей модели экономическую гравитацию, то результат изменился бы с 4 %-го роста экономики до спада, «эквивалентного 2,3 %-ному падению дохода на душу населения Великобритании», даже если сохранить все остальные допущения.
Мы не собираемся сейчас объявлять победителя: должны пройти годы, прежде чем можно будет хоть с какой-то уверенностью судить о последствиях Брекзита. И поскольку сам Брекзит вызвал ожесточенные споры, оценка его влияния на экономику наверняка тоже будет неоднозначной, независимо от того, слышали ли спорящие об уравнении гравитации.
Так в чем же дело с моделью Имперского колледжа и ее явно меняющимися результатами? Прав ли был Хитченс, критикуя ее?
В двух словах: не совсем. И дело не в безупречности модели, а в неуместности критики со стороны Хитченса. Написав, что Фергюсон пересмотрел свою модель и спрогнозировал 5700 умерших, он просто ошибся: это были результаты другой модели, разработанной другой группой ученых Имперского колледжа (с факультета электротехники, а не эпидемиологии). Это была гораздо более простая модель, подставлявшая британские данные в китайскую кривую. И к моменту публикации Хитченса один из авторов той модели уже откорректировал свой прогноз, повысив оценку до по меньшей мере 20 000 умерших.
А что насчет уменьшения с 500 000 до 20 000? Почему это произошло?
Изменились допущения модели. Одно – или даже несколько из них – касались поведения людей и его влияния на распространение болезни. До объявления локдауна предполагалось, что люди в основном будут перемещаться как обычно, контактируя друг с другом и распространяя вирус. После введения ограничений рассчитывалось, что это будет происходить в значительно меньших масштабах. Когда это новое допущение ввели в модель, она выдала другое число. Фактически в публикации от 16 марта помимо прочего моделировалась и ситуация в случае объявления чего-то вроде локдауна и предсказывалось намного меньшее число умерших, чем было бы без этого.
Важно помнить: если вы читаете, что некая модель прогнозирует что-то – вторую волну заболевания, экономическую рецессию, глобальное потепление на 3 °C или победу тори на следующих выборах, – стоит узнать немного о том, какие допущения лежат в ее основе. Но в новостных сводках эта полезная информация зачастую теряется.
Глава 19
Ошибка техасского стрелка
Перед парламентскими выборами 2017 года в Великобритании компании, проводившие исследования общественного мнения, почти в унисон уверяли, что лейбористам грозит грандиозный провал. Но за десять дней до голосования компания YouGov обнародовала шокирующие результаты опроса (на самом деле не опроса, а модели опроса): тори потеряют около 20 мест, и партия действующего премьер-министра Терезы Мэй лишится большинства.
Вечером в день выборов обнаружилось, что тори потеряли 13 мест, а предложенная компанией YouGov «многоуровневая регрессионная модель с посткластеризацией» (MRP) наголову разбила конкурентов: результат голосования с запасом укладывался в пределы допустимой погрешности.
Два с половиной года спустя, когда пост Терезы Мэй уже занимал Борис Джонсон, проходили новые выборы. На этот раз все устремили взгляды на MRP-модель компании YouGov (последняя версия была выпущена за несколько дней до голосования); согласно ей получалось, что консерваторы победят с перевесом всего в 28 голосов. «Новый опрос от YouGov показывает, что на этих выборах голоса разделятся почти поровну», – писал один уважаемый политический обозреватель.
Идея о том, что мы можем предвидеть события – пандемию коронавируса, финансовый кризис, результаты последних выборов – соблазнительна. И когда нам встречается человек, что-то правильно предсказавший, хочется верить, что он обладает удивительным даром и что нам нужно к нему прислушаться. Но нужно ли?
* * *
В 2019 году в Калифорнии передвинули вышку сотовой связи. Казалось бы: что такого? Тем не менее об этой новости написали по всему миру.
Вышка располагалась возле начальной школы в городе Рипоне. Ее передвинули после того, как у четырех детей младше десяти лет диагностировали рак. Онкологические заболевания в таком возрасте встречаются крайне редко.
Но сотовые вышки не вызывают рак. (Как добропорядочные популяризаторы науки мы, наверное, должны были бы написать: «нет достоверных доказательств, что вышки сотовой связи вызывают рак», но нам сказали, что для большинства людей фраза «Нет достоверных доказательств» звучит как «Ты ничего не докажешь, коп!». Нет медицинских данных о связи между мобильниками и раком, нет серьезных научных оснований считать, что такая связь существует, так что мы со спокойной душой заявляем: сотовые вышки не вызывают рак.)
Что же привело к вспышке онкологических заболеваний? Возможно, была какая-то причина – говорили, например, о загрязнении грунтовых вод – но равновероятно, что никакой причины не было. Ежегодно в США онкологические заболевания диагностируются у 11 000 детей младше 15 лет. За три года – а в Рипоне диагнозы были поставлены в 2016–2018-м – следовало ожидать, что рак обнаружат примерно у 33 000 детей. В США 89 000 начальных школ; простой расчет Пуассона (см. врезку) показывает: примерно в 50 из них за любые три года число заболевших превысит три.
Эту врезку читать необязательно, но, если вы хотите поподробнее узнать, как работает формула распределения Пуассона, не пропускайте ее.
Маловероятно, что в каждой школе США число онкологических заболеваний совпадет со среднестатистическим. В реальности оно будет колебаться вокруг среднего: где-то больных будет больше, где-то – меньше. Это колебание на графике похоже на нормальное распределение, которое мы обсуждали в главе 3. Но для того чтобы выяснить, насколько часто конкретный результат появится в заданный промежуток времени, рассмотрим несколько иное распределение – распределение Пуассона.
В 1837 году французский математик Симеон Дени Пуассон опубликовал статью о вероятности тех или иных судебных решений. Он изучал, сколько несправедливо осужденных следует ожидать во французских судах при заданных значениях некоторых переменных, таких как число судей на заседании, вероятность ошибки каждого из них и априорная вероятность виновности подозреваемого.
Для этого требовалось решить такую задачу: если некое событие происходит в среднем Х раз в год (или в час, или в любой заданный промежуток времени), какова вероятность, что оно произойдет Y раз в год? На графике распределение Пуассона выглядит так; кривая получается за счет соединения точек.
По мере уменьшения среднего кривая становится выше и сдвигается влево; при увеличении среднего кривая уплощается и сдвигается вправо. По оси Y указана вероятность, до максимального значения – 1, а по оси X – количество событий. Надо найти на оси X, сколько раз случилось искомое событие, тогда на оси Y будет указана его вероятность.
Допустим, вам известно, что в среднем в данном школьном округе ежегодно заболевают раком 15 учеников; какова вероятность, что в этом году их будет 20? Подставив эти числа (или просто,