Вероятности и неприятности. Математика повседневной жизни - Сергей Борисович Самойленко
Шрифт:
Интервал:
Закладка:
Меняет свои свойства при зацикливании и нормальное (гауссовское) распределение. Его циклический аналог уже не будет устойчивым, а суммы случайных величин начнут сходиться не к нему. На окружности эту роль играет распределение фон Мизеса с такой функцией плотности вероятности:
Среднее значение для этого распределения равно μ, а величина 1/k влияет на дисперсию. В приведенном выражении I0 — модифицированная функция Бесселя, одна из целого семейства специальных функций. Функции Бесселя обычно появляются, если в задаче есть осевая симметрия. Например, с их помощью описывается профиль круговых волн, разбегающихся по воде от упавшей капли.
Впрочем, когда дисперсия данных мала и x незначительно отклоняется от среднего значения μ, косинус можно разложить в степенной ряд, в котором главную роль играет квадратичный член. Таким образом, когда влияние цикличности становится незначительным, то и распределение фон Мизеса оказывается похожим на «обычное» гауссовское. Никуда от него не денешься — в отличие от мифического «среднего пилота» или усредненной «идеальной женщины», случайные величины, подчиняющиеся нормальному распределению, встречаются повсеместно!
Сравниваем и ищем с помощью вероятности
Наш опыт работы с вероятностным подходом учит тому, что вероятность можно вычислить, но дать ей однозначную интерпретацию непросто. Еще сложнее измерить эту характеристику явления или процесса. Хорошо, когда можно применить частотную интерпретацию: пронаблюдать достаточно долго за процессом или его моделью и получить оценку распределения управляющих параметров. Но вероятности возникают и по-другому.
В самом начале книги упоминался спам-фильтр, который каждому сообщению в электронной почте ставит в соответствие вероятность того, что это спам — назойливая реклама, рассылаемая безадресно. Это что за вероятность? К какому множеству сообщений она относится? Когда эксперт в интервью утверждает, что вероятность победы того или иного кандидата на государственный пост составляет, скажем, 75 %, сколько раз он собирается проводить выборы, чтобы реально измерить это число и проверить свои выводы? А если это нельзя измерить, как проверять утверждение? Понятно, что в случае с выборами утверждение о вероятности чисто умозрительное и к математике не имеет отношения — число здесь отражает в лучшем случае некую «уверенность по стобалльной шкале». Но бесстрастные автоматы, классифицирующие сообщения в почте, изображения с городских камер или предаварийные состояния сложной техники, выдают результат именно на языке вероятностей.
Эти вопросы заставляют рассуждать о вероятности уже не только как о мере, но и как о характеристике, позволяющей сравнивать трудно сравнимые вещи.
Спам-фильтр сообщает нам о степени благонадежности текста, честно вычисляя условную вероятность того, что сообщение рекламное, исходя и из частотности характерных слов, и, что очень важно, спама среди прочих сообщений (это позволяет избежать ошибок вроде тех, что обсуждались в главе 3: про тест на содержание алкоголя в крови и истинность научных публикаций). А в результате мы получаем некое число, по которому можем ранжировать сообщения, имея в виду степень «близости» или «похожести» текста на спам. Причем оно не показывает степень близости к какому-то одному «идеальному спаму», его и не существует вовсе; спам — некое очень сложное подпространство в пространстве возможных сообщений.
Можно посчитать, какая доля сообщений, принятая фильтром за спам, действительно им оказалась. Однако это измерение покажет некоторую суммарную характеристику эффективности фильтра и его настроек, например выбранного порога близости к спаму, но ничего не скажет о частотной интерпретации результата: «с вероятностью 87 % данное сообщение — спам».
Вероятность в такой роли используется в современном подходе к поиску самолета или судна, потерпевшего крушение в океане. Эта методика называется байесовским поиском, поскольку в ее основе лежит понятие условной вероятности, рассчитываемой согласно теореме Байеса. В начале поисково-спасательных работ обследуемый участок территории разбивается на отдельные клетки (квадраты), потом с учетом направления движения судна или самолета строится априорное распределение вероятности того, что искомый объект находится в том или ином квадрате. Поисковые работы далее проводятся в двух основных направлениях: проверка наиболее вероятных квадратов и отсечение маловероятных. Таким образом, вероятность превращается в метрику, позволяющую сравнивать квадраты между собой: не просто прочесывать местность, перебирая их по порядку, а сосредоточиваться на наиболее вероятных участках, экономя драгоценное время.
Во время поисковых работ квадраты, оказавшиеся пустыми, отсекаются. При этом они не просто вычеркиваются — остается некоторая ненулевая вероятность того, что искомый объект все же находился там, но не был обнаружен. Регулярно производится пересчет вероятностей для всех клеток с учетом этой новой информации, и карта меняется: на ней более отчетливо проступают области приоритетного поиска. Такие итерации могут продолжаться долго, сама длительность поиска тоже добавляет информации к вычисляемым вероятностям. В конце концов, если искомое будет найдено, оно, скорее всего, окажется в квадрате, для которого вычисленная таким образом вероятность заметно меньше единицы. И вовсе не обязательно заветный квадрат будет иметь наибольшую вероятность оказаться «тем самым».
Здесь можно вспомнить закон Бука из книги о законах Мёрфи: «Ключи всегда находишь в последнем кармане». Перебирая карманы в поиске ключей на пороге дома, вы не вычисляете вероятность их наличия в карманах, оставшихся не проверенными. Скорее всего, вы начинаете с самых привычных, потом переключаетесь на более оригинальные места (задние и внутренние карманы), а не найдя там, видимо, вновь станете перепроверять уже обследованные карманы. Интуитивно мы решаем задачу поиска ключей так же, как ведутся современные поисково-спасательные работы. Так что упоминавшийся в самом начале книги закон Бука, гласящий, что ключ всегда в последнем кармане, конечно, тривиален, но это связано с очень сильным упрощением процесса. Ключ запросто может оказаться в кармане, который вы уже проверили, но недостаточно аккуратно.
* * *Сравнивайте разумно, не ищите в жизни норму и не бойтесь отклонений от нее. Сама математика подсказывает нам, что в сложном мире людей корректно говорить можно лишь о степени подобия, но не о сравнении. Так что нет резона вести нескончаемые споры в поисках истины, стоит прислушаться и постараться услышать иное мнение, увидеть взгляд из другого, сопряженного пространства, обогащая тем самым свое восприятие мира.
Мудрецы