Как лгать при помощи статистики - Дарелл Хафф
Шрифт:
Интервал:
Закладка:
Мы начали с того, что проанализировали цифру, которая, как подсказывает здравый смысл, вряд ли соответствует действительности. А теперь давайте разберемся с возможной причиной серьезной ошибки: почему эти самые $25 111 указываются в качестве среднего дохода неких людей, чей фактический средний доход с таким же успехом может быть и вполовину меньше названной суммы?
Причина тому – процедура составления выборки, и именно она представляет собой сердцевину большей части статистических данных, которые встречаются в самых разнообразных сферах. Основа этой процедуры довольно проста, а вот старания усовершенствовать ее на поверку только заводили на всяческие глухие окольные тропы, иногда весьма малопочтенные. Если у вас есть мешок бобов, часть из которых красного, а часть белого цвета, то единственный способ точно определить, сколько у вас белых бобов и сколько красных, – это пересчитать их. Однако есть и более простой способ приблизительно оценить количество красных и белых бобов – зачерпнуть пригоршню и сосчитать, сколько в ней будет белых бобов и сколько красных, исходя из предположения, что и в общем объеме белые и красные бобы содержатся в такой же пропорции. Если взятая вами для исследования пригоршня бобов, то есть выборка, достаточно велика и правильно отобрана, то для большинства надобностей она будет вполне репрезентативной. В противном случае выборка даст вам значительно менее точное представление о целом, чем сколько-нибудь обоснованные прикидки, а ее единственным достоинством будет разве что иллюзорное впечатление научной точности. Как ни печально, а выводы на основе такого рода выборок (необъективных или слишком малых, чтобы верно отразить свойства целого, или страдающих обоими этими изъянами) как раз и лежат в основе большинства из того, о чем нам доводится читать, или того, что мы, как нам представляется, знаем.
Упомянутые газетой сведения о доходах выпускников Йельского университета основаны на выборке. В этом можно не сомневаться, поскольку, как подсказывает здравый смысл, невозможно опросить всех выпускников 1924 г. Наверняка среди них довольно много людей, чье место проживания сейчас, спустя четверть века после выпуска, неизвестно.
А среди тех, чьи адреса известны, многие не стали бы заполнять анкету, тем более с вопросами такого щекотливого свойства. Для некоторых анкет, рассылаемых по почте, 5–10 % ответивших уже считается достаточно высоким результатом. Данная анкета, надо полагать, добилась большего успеха, но ее результат явно далек от стопроцентного.
Итак, мы выяснили, что размер дохода вычислен на основе выборки, составленной из всех выпускников, адреса которых были известны и которые ответили на анкету. Репрезентативная ли это выборка? Иными словами, можно ли считать эту группу выпускников равной с точки зрения доходов группе выпускников, не представленных в выборке, то есть тех, чьи адреса не удалось раздобыть, и тех, кто не пожелал заполнить анкету?
Так кто же эти заблудшие овечки из числа выпускников Йельского университета, которые прошли по категории «адрес неизвестен»? Возможно ли, что они хорошо зарабатывают – ну, скажем, это дельцы с Уолл-стрит, директора компаний, руководители разных сортов? Нет, установить адреса людей состоятельных не составило бы труда. Большинство из самых преуспевающих выпускников того курса можно было бы найти в справочнике «Кто есть кто в Америке» или в других изданиях, даже если сами эти люди не пожелали поддерживать контакты с ассоциацией выпускников. Вполне правдоподобной представляется догадка, что найти не удалось имена тех выпускников, кто двадцать пять лет назад покинул стены Йельского университета с дипломом бакалавра гуманитарных наук, но так и не сумел заявить о себе чем-нибудь выдающимся. Это простые клерки, механики, бродяги, безработные алкоголики или перебивающиеся с хлеба на воду писатели и художники… в общем, те, кто только вшестером, если не больше, могли бы общими усилиями наскрести те самые $25 111 в год. Люди подобного сорта не так уж часто изъявляют желание встретиться со своими однокашниками, хотя бы по той причине, что не могут позволить себе подобную поездку.
Так кто они, те люди, что выкинули в ближайшую мусорную корзину анкету выпускника, присланную по почте? Знать наверняка мы не можем, но будет резонно предположить, что многие из них просто не могут похвастаться своими заработками. Они чем-то напоминают парня, который получил свою первую зарплату и увидел, что к чеку пришпилена записка. В ней выражалась уверенность, что он считает размер своей заработной платы конфиденциальной информацией и не станет обсуждать ее в разговорах с коллегами. «Не беспокойтесь, – говорит этот парень своему боссу, – я стыжусь размера этой суммы не меньше вас».
Итак, нам уже ясно, что в выборку не были включены две группы выпускников, чьи доходы, скорее всего, уменьшили бы средний показатель годового заработка. И вот сумма $25 111 получает наконец свое объяснение. Если эта цифра и вправду в чем-то верна, то она относится всего лишь к определенной группе йельских выпускников 1924 г. – к тем, чьи адреса известны и кто пожелал открыто заявить, сколько зарабатывает в год. Но даже этот вывод следует основывать на том допущении, что все эти достойные господа сказали правду.
А такое предположение не следует с ходу принимать за само собой разумеющееся. Как показывает опыт проведения выборочного исследования одной из категорий, а именно изучения рыночной конъюнктуры, такое допущение едва ли вообще имеет право на существование. Как-то раз был проведен сплошной опрос населения, который имел целью изучить читательскую аудиторию популярных журналов. Основной вопрос, который задавали исследователи, один за другим обходя дома, был сформулирован так: «Какие журналы читают члены вашей семьи?» Когда результаты опроса свели в таблицы и проанализировали, выяснилось, что огромное количество американцев обожают Harper’s, а вот журнал True Story[4] читают очень немногие. Между тем у издателей имелись в то время данные, которые очень четко показывали, что True Story выпускается миллионными тиражами, а Harper’s – в сотни тысяч экземпляров. «Должно быть, мы опрашивали не тот контингент, какой следовало бы», – сказали себе организаторы опроса. Но нет: опросы проводились в самых разных районах по всей стране. В таком случае единственное разумное объяснение таково: значительная часть респондентов (так называют людей, когда они принимают участие в подобных опросах) попросту сказала неправду. В итоге практически единственное, что удалось выявить при помощи данного опроса, – порядочный снобизм населения.
В итоге стало понятно, что, если требуется определить, что читает определенная группа людей, нет смысла спрашивать их об этом. Можно собрать намного больше сведений, если обходить дома этих людей под тем предлогом, что вы хотите купить старые журналы, и спрашивать, найдется ли у них что-нибудь в этом роде. А затем вам останется всего лишь пересчитать добытые экземпляры научного журнала Yale Review и душещипательного чтива Love Romances. Однако даже такой отчасти сомнительный способ, безусловно, не даст представления о том, какие издания читает ваш контингент, а только укажет, какие издания попадают в руки этим людям.
Подобным образом в следующий раз, когда вы прочитаете, что средний американец (в наши дни вы узнаете об этом субъекте много всякой всячины, причем по большей части все это слегка неправдоподобно) чистит зубы 1,02 раза в день – эту цифру я придумал прямо сейчас, но она ничем не уступает любой другой, – задайте себе вопрос: каким образом кому-то удалось собрать такие сведения? Неужели женщина, начитавшаяся бесчисленных рекламных объявлений, где утверждается, что люди, не чистящие зубов, оскорбляют общественные устои, сознается совершенно незнакомому человеку, что делает это нерегулярно? Такого рода статистика может представлять интерес только для тех, кто хочет определить, что говорят люди о чистке зубов, но она мало что скажет о том, как часто щетка соприкасается с зубами респондентов.
Река, как нас учат, не может подняться выше своих истоков. Это верно, такое было бы возможно, только если где-нибудь неподалеку от нее находилась бы насосная станция. И в такой же степени верно утверждение, что результат выборочного исследования не может быть лучше выборки, на которой оно основано. К тому моменту, когда собранные данные, пройдя сквозь все процедуры статистических манипуляций, сведены к средним показателям, выраженным с точностью до десятых долей, они уже приобретают некий ореол убедительности, от которой не останется и следа, если повнимательнее взглянуть на сам процесс выборочного исследования.