Обман в науке - Бен Голдакр
Шрифт:
Интервал:
Закладка:
Увеличение числа детей, употребляющих кокаин, на 45 человек означало бы массовую эпидемию наркомании, если бы произошло в одной школе или в нескольких группах из дюжины детей в разных школах, или мини-эпидемию в группе школ. Или 45 детей, независимо покупающих и употребляющих кокаин в одиночку, без друзей, что мне кажется маловероятным.
Это немедленно делает наше увеличение менее статистически значимым. Небольшое увеличение 0,5 % было значимым, поскольку оно касалось большой выборки в 9000 субъектов — как 9000 подбрасываний монеты — но то, что практически любой знает об исследованиях, подобных этому, — чем больше выборка, тем более значимыми, вероятно, будут результаты. Но если это не независимые параметры, тогда вы должны рассматривать их как меньшую выборку, и результаты станут менее значимыми. Как скажут статистики, нужно «сделать поправку на группировку». Это делается с помощью формул, которые вызывают головную боль. Все, что вам нужно знать, это то, что причины, по которым нужно делать эту поправку, прозрачны и ясны, как мы только что видели (фактически, как и со многими другими инструментами, знать, когда использовать статистические инструменты, — это одно, а знать, как они устроены, — другое). Когда вы делаете поправку на группировку, тем самым существенно снижаете значимость результатов. Сохранится ли вообще увеличение потребления кокаина, которое первоначально было объявлено увеличением вдвое, а затем на 35,7 %? Не сохранится. Поскольку существует еще одна проблема с этими данными: их слишком много. В этом обзоре десятки параметров: данные по растворителям, по сигаретам, по кетамину, по марихуане и т. д. В стандартной практике исследований как значимые принимаются только те данные, в которых p = 0,05 или меньше. Как уже говорилось, пи-величина означает, что на каждую сотню сравнений, которые вы делаете, пять случайно являются положительными. В этом обзоре множество параметров, и часть из них, несомненно, показала случайное увеличение — к ним может относиться и увеличение использования кокаина. Если вы будете бросать пару игральных костей достаточно долго, две шестерки три раза подряд могут выпасть неоднократно. Вот почему статистики делают «поправку на множественные сравнения», то есть поправку на «бросание костей» много раз. Она, как и поправка на группировку, особенно жестока для данных и часто сильно снижает их значимость.
Углубляться в данные — опасное дело. Вы могли бы — ничего не зная о том, как работает статистика — сказать, что правительственный обзор показал существенное увеличение употребления кокаина — 35,7 %. Но знатоки, которые составляли этот обзор, знали о «группировке» и о поправке Бонферрони на множественные сравнения. Они не глупы, статистика — это их работа.
Возможно, поэтому они и написали в резюме, в пресс-релизе и в самом обзоре, что не было изменений с 2004 по 2005 год. Но журналисты не хотели этому верить: они попытались заглянуть под капот и думали, что обнаружили новости. Увеличение сдвинулось с 0,5 % — цифра, которая может означать постепенную тенденцию, а может и не означать ничего — и попало на первую полосу «Таймс» в статью об удвоении употребления кокаина. Вы можете не доверять пресс-релизам, но если вы ничего не знаете о статистике, тогда у вас есть большой шанс, заглянув под капот, найти там целую историю.
О’кей, назад к простомуСуществует несколько очень простых способов создать нелепую статистику и два самых любимых — выбрать необычную группу людей и задать им глупый вопрос. Давайте скажем, что 70 % женщин хотят, чтобы принцу Чарльзу запретили вмешиваться в общественную жизнь. Ой, подождите, 70 % женщин, которые посещают мой веб-сайт, хотят, чтобы принцу Чарльзу запретили вмешиваться в общественную жизнь. Вы видите, куда мы движемся. Конечно, в опросах, которые являются добровольными, существует предвзятость выбора: регистрируются только голоса тех людей, которые потрудились заполнить бланк опроса.
Прекрасный пример этого — статья в «Телеграф» в последние дни 2007 года под заголовком «Врачи говорят “нет” абортам в своих кабинетах». «Семейные врачи угрожают выступлением против планов правительства разрешить им делать аборт в их кабинетах», как утверждает газета Daily Telegraph. Выступлением? «По данным опроса, четыре из пяти семейных врачей не хотят проводить аборты в своих кабинетах, несмотря на то что эта идея сейчас проходит тестирование в пилотных проектах Государственной службы здравоохранения».
Откуда они берут эти цифры? Из системного опроса врачей, охотясь за теми, кто не желает отвечать? Из телефонных звонков им на работу? Из почтового опроса? Нет. Это было голосование врачей в онлайне. Вот вопрос и варианты ответов: врачи общей практики должны проводить аборты в своих кабинетах (полностью согласен, согласен, не знаю, не согласен, категорически не согласен).
Следует внести ясность. Лично я не совсем понял вопрос. Они обязаны или им следует? В каких обстоятельствах? При дополнительной подготовке, при наличии времени, за деньги? При дополнительных системах на случай неблагоприятного исхода? И не забывайте, что это веб-сайт, на который врачи заходят, чтобы пожаловаться. Может, они говорят «нет», потому что недовольны лишней работой или низкой моралью?
И кроме того, что здесь означает аборт? Посмотрев комментарии на форуме, я понял, что многие врачи говорят о хирургическом аборте, а не просто об относительно безопасных оральных пилюлях для прерывания беременности. Доктора же не такие сообразительные. Вот несколько цитат:
«Возмутительная идея. Как врачи общей практики могут проводить аборты в своих кабинетах? А что если возникнут осложнения, например перфорация матки или кишечника?»
«Кабинеты врачей — это места, где присутствуют инфекционные заболевания. Идея проведения там стерильных процедур, затрагивающих брюшные органы, — абсурд».
«Единственная возможность проведения таких операций — это наличие специальных хирургических стационаров одного дня, полностью оборудованных и укомплектованных персоналом — анестезиологом, гинекологом… Любая операция — это риск, и возможно, нам надо пройти гинекологическую хирургическую подготовку, чтобы выполнять аборты».
«О чем мы вообще говорим? Давайте делать аборты в наших кабинетах, гостиных, на кухнях, в гаражах, магазинах на углу, как в прежние времена».
А вот мое любимое:
«Я думаю, что вопрос плохо сформулирован, и надеюсь, что [врачебный веб-сайт] не будет предоставлять результаты этого опроса в Daily Telegraph».
Вас побьютБыло бы неправильно предположить, что те оплошности, которые мы освещали до сих пор, ограничены низшими эшелонами общества — врачами, журналистами. Некоторые из наиболее отрезвляющих примеров касаются самой верхушки.
В 2006 году, после появления правительственного отчета, СМИ сообщили, что одно убийство в неделю совершается психически нездоровым человеком. Газеты упрекнули психиатров в том, что они делают недостаточно для предотвращения подобных убийств. Все согласятся, я уверен, с любой разумной мерой по уменьшению риска насилия, и было бы своевременно обсудить публично этическую сторону изоляции психически больных (хотя, честно говоря, я был бы также не против обсуждения превентивной изоляции других групп риска — алкоголиков, хулиганов, людей, склонных к насилию, и т. д.).
Но чтобы завязать такую дискуссию, необходимо понимать математику предсказания очень редких событий. Давайте возьмем конкретный пример и посмотрим на ВИЧ-тест. Какие черты любой диагностической процедуры мы измеряем, чтобы судить о ее пользе? Статистики скажут, что анализ крови на ВИЧ имеет высокую чувствительность 0,999. Это означает, что если у вас есть вирус, то анализ крови покажет его наличие с вероятностью 99,9 %. Они также скажут, что этот тест имеет высокую специфичность — 0,9999, то есть если вы не инфицированы, то тест будет отрицательным с вероятностью 99,99 %. Шикарный тест[51].
Но если вы посмотрите на этот тест с точки зрения того, кого тестируют, математика станет слегка противоречивой. Поскольку, как это ни странно, значение, или прогностическая ценность, положительного или отрицательного теста того или иного человека меняется в разных ситуациях, в зависимости от того, насколько редким является событие, которое определяется с помощью этого теста. Чем реже событие в данной популяции, тем хуже становится тест, даже если это тот же самый тест.
Это легче понять на конкретном примере. Допустим, что распространенность ВИЧ-инфекции среди людей в группе высокого риска в данной местности 1,5 %. Мы проводим наш анализ крови на 10 000 человек и можем ожидать 151 положительный результат; из них 150 будут истинно положительными (люди действительно имеют этот вирус) и один — ложноположительным, поскольку (исходя из вышесказанного) мы можем ожидать один неправильный результат на 10 000 анализов. Поэтому, если у вас положительный результат в этих обстоятельствах, это означает, что шанс, что вы действительно заражены вирусом, составит 150 из 151. Это высокая прогностическая ценность.