Цифры врут. Как не дать статистике обмануть себя - Том Чиверс
Шрифт:
Интервал:
Закладка:
Прогнозирование опирается на модели. Прогноз – это предсказание: экономика вырастет на 2 % или за выходные выпадет 12 мм осадков. Модель – это основа прогнозов, имитация части мира.
Думая о моделях, мы представляем себе что-то замысловатое, вроде математики и уравнений. Зачастую модели действительно сложны, но бывают и простыми.
Представьте, что вы хотите выяснить, с какой вероятностью в ближайший час пойдет дождь. Сейчас мы построим модель – «взгляд из окна». Первое, что нужно сделать, посмотрев в окно, – это решить, какая информация поможет сделать прогноз.
Очевидный кандидат – облачность. Если небо сияет голубизной и не видно ни тучки, то осадки крайне маловероятны. Если оно полностью затянуто облаками, то дождь, скорее всего, пойдет. Если серединка на половинку – шансы равны.
Начало положено. Еще можно учесть цвет облаков: насколько они темные? Можно было бы добавить кучу других факторов: местоположение, время года, температуру воздуха, скорость ветра. Но мы ограничимся двумя характеристиками.
Писать каждый раз «облачность, умноженная на темноту облаков, равняется вероятности дождя» довольно утомительно, поэтому мы введем сокращения. Облачность обозначим буквой C, вероятность дождя – R, а чтобы придать нашим записям наукообразный вид, среднюю темноту облаков – греческой буквой бета – β (это ведь наша модель – как хотим, так и называем). Получилось уравнение: βC = R.
Это уравнение и есть наша модель.
Мы выглянули в окно и увидели, что небо затянуто облаками, но они совсем светлые, так что по шкале облачности у нас вышло 100 %, а по серой шкале – 10 %. Умножим 100 % на 10 % и получим 10 %, так что вероятность дождя по нашей формуле – 10 %. Это наш результат.
Возможно, он очень плох. Нужна обратная связь: делаем прогноз по нашей модели, смотрим, как часто он сбывается (идет ли дождь во всех предсказанных случаях?) и корректируем модель. Если оказалось, что цвет облаков играет более важную роль, его вес повышают. И наоборот. Модель готова. Можно создавать гораздо более сложные – модель британского метеоцентра содержит более миллиона строк кода, – но принцип один и тот же: вы вводите в модель данные и получаете результат.
Другим примером могут служить модели инфекционных заболеваний, ставшие столь популярными в эпоху коронавируса. Классической является модель SIR, в которой все население делится на три категории: восприимчивых к заболеванию (S), инфицированных (I) и выздоровевших и более не восприимчивых (R). В этой модели люди по сути рассматриваются как точки, взаимодействующие случайным образом. Исходя из предположений о том, насколько вероятна передача заболевания от инфицированного восприимчивому и через сколько времени восприимчивый сам становится инфицированным, можно получить прогноз скорости распространения заболевания среди реального населения. Модель можно усложнить, добавляя новые параметры, такие как перемешивание людей в малых группах или разные степени восприимчивости, а также учитывая данные о реальной распространяемости. Разумеется, ваша модель – это не реальный мир, поэтому усложнение вовсе не обязательно сделает ее более точной. Так что необходимо проверять, насколько ее результаты совпадают с реальностью.
В конце концов иногда (например, относительно прогноза погоды), экспериментируя и учитывая обратную связь, можно получить довольно точные и надежные прогнозы. Но все они не абсолютно достоверны. Надо отметить, что часто даже «прогнозирование» настоящего получается с трудом: в отношении трех последних кризисов большинство экономистов не считали, что происходит рецессия, даже после того, как она началась. В таких сложных сферах, как экономика, трудно разобраться.
* * *
Так что же насчет финансовых прогнозов? Как мы уже упоминали, в марте 2019 года OBR предсказывало рост экономики на 1,2 % в 2020-м и чуть более быстрый рост позже. Но при этом предусматривался 95 %-ный интервал неопределенности от –0,8 до 3,2 % в 2020-м.
Беда в том, что в заголовках обычно не хватает места для формулировок типа «экономика будет развиваться где-то в интервале между довольно серьезной рецессией и значительным бумом», поэтому в печать обычно попадает среднее значение – 1,2 %.
(В данном случае реальный результат вышел далеко за пределы 95 %-ного интервала неопределенности: произошло колоссальное, двузначное падение ВВП. Но это, вероятно, нормально, потому что опустошительные пандемии случаются реже, чем один раз в двадцать лет, так что результат не обязан совпадать с вашим 95 %-ным прогнозом.)
Читатели должны понимать, как делаются прогнозы и что они не являются ни мистическим предвидением будущего, ни случайными догадками. Это результаты более или менее точных статистических моделей, а конкретные числа (1,2 %, 50 тысяч умерших и прочее) – центральные точки в весьма широких диапазонах неопределенности.
Еще важнее, что СМИ обязаны сообщать об этой неопределенности, потому что сообщения «в этом году экономика вырастет на 1,2 %» и «в этом году экономика может слегка упасть или значительно вырасти, а может произойти что-то среднее, но, по нашим представлениям, она, скорее всего, вырастет примерно на 1,2 %» могут вызвать совершенно разную реакцию. Нам бы хотелось, чтобы СМИ начали обращаться с читателями как со взрослыми людьми, которые способны справляться с неопределенностью.
Глава 18
Допущения в моделях
В конце марта 2020-го в The Mail on Sunday появилась статья обозревателя Питера Хитченса, известного своей комически-ворчливой интонацией. В ней он издевался над моделями, на базе которых строили прогнозы о распространении коронавируса и количестве погибших от него в Великобритании и во всем мире. В тот момент в Соединенном Королевстве было около тысячи подтвержденных смертей от ковида, но двумя неделями ранее Имперский колледж Лондона обнародовал результаты, полученные на основании модели профессора Нила Фергюсона с коллегами, и согласно им это число – если не принять мер – может достичь полумиллиона[33]. В день публикации этого прогноза, 16 марта, в стране объявили локдаун.
И к моменту выхода статьи Хитченса оценка изменилась. «Фергюсон дважды пересмотрел свое мрачное пророчество, снизив число сначала менее чем до 20 тысяч, а потом, в пятницу, до 5700», – писал он, считая математика «одним из главных виновников возникшей паники».
Так ли это? Верно ли, что результаты модели так сильно изменились? Говорит ли это о ее бесполезности в целом?
В предыдущей главе мы обсуждали, что такое моделирование и как оно работает. Стоит подумать и о том, как получаются результаты. Как модель Имперского колледжа спрогнозировала полмиллиона умерших, если другие – такие как опубликованная 26 марта Оксфордская модель – давали на первый взгляд совершенно иные прогнозы? (А если Хитченс прав, то почему собственная модель Имперского колледжа чуть позже таких цифр уже не выдавала?)
Ответ связан со сделанными