Как лгать при помощи статистики - Дарелл Хафф
Шрифт:
Интервал:
Закладка:
Если вы не против, начнем с того, что одарим вас двумя ребятишками – сыном и дочкой. Питер и Линда (если уж на то пошло, мы могли бы подобрать им имена и помоднее) недавно прошли тест на уровень умственного развития, как это случается в школе с множеством детей. В наши дни из всякого рода тестов на умственные способности сотворили прямо-таки фетиш и разводят вокруг них шаманские пляски. И не исключено, что вам придется выдержать небольшую словесную баталию, чтобы добыть результаты теста. Это сведения весьма эзотерического свойства, недоступные для понимания непосвященных, и потому принято считать, что они будут сохраннее, оставаясь в руках одних только психологов и педагогов. Вероятно, это не лишено смысла. Как бы там ни было, но вы выяснили, что у Питера коэффициент умственного развития (IQ) составил 98, а у Линды – 101. А вам, разумеется, известно, что в тесте на IQ коэффициент 100 принят за средний, то есть нормальный уровень.
Ага. Линда у нас одареннее Питера. Это означает, что ее умственное развитие выше среднего. А у Питера – ниже среднего, но не будем придавать этому особого значения.
Умозаключения подобного толка – сущая чепуха.
Просто чтобы расставить все по своим местам, отметим прежде всего, что не играет особой роли, что там измеряет тест на умственное развитие, поскольку это в любом случае не совсем то, что мы обычно подразумеваем под интеллектом. Подобного рода тесты упускают из виду такие важные свойства, как инициативность и творческое воображение. Они не принимают в расчет и сложившиеся на социальной почве суждения, музыкальные и художественные способности испытуемых, не говоря уже о таких личностных качествах, как прилежание и уравновешенность. Ну а главное, в школах чаще всего проводятся быстрые и дешевые групповые тесты, результаты которых во многом зависят от умения читать: не важно, насколько одарен ученик, – если он плохо читает, шанса блеснуть у него нет.
Давайте считать, что мы учитываем все вышесказанное и соглашаемся воспринимать IQ всего лишь как меру несколько туманно определенного умения оперировать предложенными отвлеченными понятиями. Интеллектуальные способности Питера и Линды проверялись с помощью усовершенствованного теста Стэнфорда – Бине, а его принято считать самым лучшим в этой области, в том числе и потому, что он проводится индивидуально и не требует каких-то особенных способностей к чтению.
Идем дальше. Как заявляется, тест на IQ производит выборочную проверку интеллекта. Как и любой другой показатель, полученный методом выборки, IQ содержит статистическую погрешность, отражающую степень точности или достоверности данного показателя.
Задавать предусмотренные тестом вопросы – это все равно как если вы, чтобы оценить качество кукурузных початков, бродите по полю и тут и там очищаете от листьев початки у произвольно выбранных растений. К тому моменту, когда вы раскурочите и обследуете, скажем, с сотню початков, вы составите довольно точное представление о положении дел на поле в целом. Полученные данные будут достаточно точны, чтобы сопоставить состояние этого поля с каким-нибудь другим – при условии, что эти два поля не слишком похожи. Потому что в этом случае вам пришлось бы обследовать большее число початков, причем оценивать каждый, исходя из некоего точно определенного критерия качества.
То, насколько точной может считаться ваша выборка, призванная дать представление обо всем поле, есть мера, которую можно выразить количественно: это вероятная ошибка и стандартная ошибка.
Предположим, вам требуется определить размеры немалого числа полей, причем измерять предстоит шагами, следуя вдоль изгородей. Первое, что вам следует сделать, – это проверить, насколько точна ваша система измерения, и для этого нужно несколько раз промерить шагами расстояние, длиною, как вы считаете, 100 ярдов. Вполне возможно, что в среднем погрешность подобного измерения составит 3 ярда. Иными словами, половина ваших промеров даст результат, отличающийся от 100 ярдов на 3 ярда в ту или другую сторону, а в другой половине случаев вы ошибетесь больше, чем на 3 ярда.
Тогда вероятная ошибка ваших измерений составит 3 ярда на 100 ярдов, или 3 %. Значит, длину каждой изгороди, которую вы измерили шагами и определили равной 100 ярдам, можно будет занести в реестр как 100 ± 3 ярда.
(Большинство статистиков на сегодняшний день отдают предпочтение другому, но сопоставимому параметру, называемому стандартной ошибкой. За основу берется порядка двух третей случаев вместо ровно половины, и потом, стандартной ошибкой пользоваться значительно удобнее с точки зрения математики. Но для наших целей мы можем так и продолжить оперировать вероятной ошибкой, которая до сих пор в ходу применительно к тесту Стэнфорда – Бине.)
Как и в случае с нашим гипотетическим измерением полей, вероятная ошибка теста на IQ Стэнфорда – Бине определяется как 3 %. Это ни в коей мере не говорит о том, насколько в основе своей хорош данный тест, а просто указывает, с какой надежностью он измеряет то, что призван измерять. Итак, определенный у Питера IQ можно было бы полнее выразить в виде 98 ± 3, а коэффициент IQ Линды – в виде 101 ± 3.
Это означает, что у IQ Питера равные шансы оказаться где-то в диапазоне от 95 до 101: коэффициент его интеллекта может быть с равной вероятностью как выше этих 98, так и ниже. Аналогично и у Линды вероятность попасть в интервал от 98 до 104 ничуть не лучше, чем пятьдесят на пятьдесят. Из этого вы можете легко сделать вывод, что в одном случае из четырех IQ Питера может действительно быть выше 101, и существует такая же вероятность, что IQ Линды ниже 98. Но тогда Питер не хуже, а лучше, и притом с преимуществом порядка трех пунктов, а то и больше.
Все сказанное подводит нас к тому выводу, что единственно правильным будет рассматривать IQ и результаты многих других выборочных исследований не сами по себе, а с учетом размаха отклонений. Тогда «нормальным» будет считаться показатель не 100 пунктов, а в пределах, скажем, от 90 до 110. В этом случае будет некоторый смысл сравнивать ребенка, чей IQ попадает в эти рамки, с ребенком, чей коэффициент интеллекта выше или ниже данного диапазона. А вот проводить сравнения между цифрами, имеющими маленькую разницу, бессмысленно. Вам следует постоянно помнить об этом плюсе или минусе, то есть ошибке в ту или другую сторону, даже (или особенно) если ее пределы не указаны.
Те, кто пренебрегает ошибкой, которая изначально присуща любым исследованиям на основе выборки, рискуют совершить поразительно глупые поступки. Иные редакторы журналов носятся с результатами опросов читателей так, словно это истина в последней инстанции, и главным образом по той причине, что совершенно не понимают, как их трактовать. Если им скажут, что одну статью читает 40 % мужской аудитории, а другую – только 35 %, они немедленно требуют больше статей наподобие первой.
Для журнала разница между показателями 35 и 40 % читательской аудитории действительно может быть значимой, а что касается самого опроса, то на деле этой разницы может и не быть вовсе. По финансовым соображениям выборка из читательской аудитории сводится к нескольким сотням респондентов, особенно после того, как отсеивают тех, кто вообще не читает данный журнал. Для журнала, адресованного главным образом женской аудитории, число мужчин в выборке может быть крайне мало. К тому моменту, когда опрошенные разделятся на категории тех, кто сообщил, что «прочитал всю», «прочитал почти всю», «прочитал часть» или «не читал вовсе» статью, ставшую предметом исследования, может оказаться, что эти 35 % рассчитаны на основе всего-то горстки ответов. Вероятная ошибка, что кроется за этим внушительным показателем 35 %, может быть столь велика, что для редактора полагаться на него – все равно что хвататься за тоненькую соломинку.
Случается, что большую шумиху разводят по поводу разницы с точки зрения математики реальной и доказуемой, но столь крохотной, что ее значение ничтожно. Кто так поступает, явно пренебрегает старой доброй поговоркой, что разница разнице рознь и имеет значение только та, что делает погоду. Наглядный пример тому – сыр-бор фактически на пустом месте, который с таким успехом и с такой выгодой для себя затеяли производители сигарет Old Gold.
Все начиналось довольно невинно – сидел себе редактор журнала Reader’s Digest, покуривал сигареты, но тем не менее к курению относился с большим неодобрением. И вот его журнал развил бурную деятельность и привлек целые полчища усердных лаборантов, чтобы провести анализ дыма от сигарет нескольких разных марок. Далее журнал опубликовал на своих страницах результаты исследований, показывающие, сколько никотина и всякого прочего содержится в дыме сигарет разных марок. Вывод, который сделал журнал и который явно следовал из подробно расписанных результатов, состоял в том, что все марки сигарет практически одинаковы по содержанию вредных веществ и потому не имеет никакого значения, сигареты какой марки вы курите.