Рассказ предка. Путешествие к заре жизни. - Ричард Докинз
Шрифт:
Интервал:
Закладка:
{Британская Библиотека плюс Хенгврт} против {Церковь Христа плюс Эджертон}.
Эти разделения противоречат друг другу. Мы не можем построить дерево, в котором каждое изменение случается только однажды. Лучшее дерево, которое мы можем создать, является следующим (отметьте, что это – бескорневое дерево). Оно минимизирует конфликт, требуя только, чтобы делительная черта появилась или исчезла дважды.
Фактически в этом случае у меня нет большой уверенности в нашем предположении. Конвергенции или реверсии распространены в текстах, особенно когда значение стиха не изменяется. У средневекового писца могло возникнуть небольшое раскаяние при изменении правописания, и даже меньшее при вставке или удалении знака препинания, такого как делительная черта. Лучшими индикаторами взаимоотношений были бы такие изменения, как перестановка слов. Генетические аналоги – «редкие геномные изменения»: такие события, как большие вставки, делеции или дупликации ДНК. Мы можем явно учесть их, присваивая больший или меньший вес различным типам изменений. Изменения, известные как общие или ненадежные, являются легковесными, и используются при подсчете дополнительных изменений. Изменениям, о которых известно, что они редкие или являются надежными индикаторами родства, придается надбавка в весе. Тяжелая надбавка к изменению означает, что мы вовсе не хотим посчитать ее дважды. Самое экономное дерево в этом случае то, у которого самый малый общий вес.
Метод экономичности широко используется для построения эволюционных деревьев. Но если конвергенции или реверсии распространены – как во многих последовательностях ДНК, а также в наших чосеровских текстах – экономичность может вводить в заблуждение. Это проблема, печально известная как «притяжение длинных ветвей». Вот, что она означает.
Кладограммы, корневые или бескорневые, передают только порядок перехода. Филограммы или филогенетические деревья (по-греческий phylon = раса/племя/класс), похожи на них, но используют также и длину ветвей для передачи информации. Обычно длина ветви обозначает эволюционное расстояние: длинные ветви представляют большие изменения, короткие – небольшие изменения. Первая строка «Кентерберийских рассказов» приводит к следующей филограмме:
В этой филограмме ветви не слишком отличаются по длине. Но вообразите, что случилось бы, если бы какие-либо две рукописи сильно изменились по сравнению с двумя другими. Ветви, ведущие к ним, протянулись бы очень далеко. Но пропорции изменений не стали бы уникальными. Они просто стали бы идентичными с изменениями в другом месте дерева, но (и в этом все дело), особенно с изменениями на другой длинной ветви. Это справедливо потому, что большинство изменений, так или иначе, сосредоточены на длинных ветвях. Достаточное количество эволюционных изменений ложно связывает две длинных ветви и заглушает истинный сигнал. Основанная на простом подсчете числа изменений, экономичность ложно группирует концы особенно длинных ветвей. Метод экономичности заставляет длинные ветви ошибочно «притягивать» друг друга.
Проблема «притяжения длинных ветвей» – главная головная боль биологических таксономистов. Она поднимает голову всякий раз, когда распространены конвергенции и реверсии, и, к сожалению, мы не можем надеяться избежать ее, рассматривая больше текста. Наоборот, чем больше текст, который мы рассматриваем, тем больше ошибочных общих черт мы находим и сильнее укрепляется наша убежденность в неправильном ответе. Такие деревья, как говорят, лежат в угрожающе звучащей «зоне Фельзенштайна», названной в честь выдающегося американского биолога Джо Фельзенштайна. К сожалению, информация ДНК особенно уязвима к притяжению длинных ветвей. Главная причина в том, что существует только четыре буквы в коде ДНК. Если большинство различий являются изменениями единственной буквы, независимая случайная мутация в той же букве особенно вероятна. Притяжение длинных ветвей создает для нас минное поле. Ясно, что в этих случаях мы нуждаемся в альтернативе экономичности. Она сводится к форме техники, известной как анализ вероятности, которая все больше и больше помогает в биологической таксономии.
Анализ вероятности использует даже больше компьютерной производительности, чем экономичность, потому что теперь важна длина ветвей. Таким образом, мы имеем дело с намного большими деревьями, потому что, в дополнение к рассмотрению всех возможных образцов ветвления, мы должны также рассматривать все возможные длины ветвей – Гераклова задача. Это означает, что, несмотря на умные сокращенные методы, сегодняшние компьютеры могут справиться с анализом вероятности, вовлекающим лишь небольшое число видов.
«Вероятность» не является неопределенным термином. Напротив, у нее есть точное значение. Для дерева специфической формы (не забываем включать длины ветвей) из всех возможных эволюционных путей, которые могли бы создать филогенетическое дерево такой же формы, только крошечное число образует точно те же тексты, которые мы теперь видим. «Вероятность» данного дерева – исчезающе маленькая вероятность окончиться фактическими существующими текстами, а не любыми другими текстами, которые могли быть созданы таким деревом. Хотя значение вероятности для дерева является крошечной, мы все еще можем использовать сравнение одного очень маленького значения с другим как способ оценки.
В анализе вероятностей есть различные альтернативные методы получения «лучшего» дерева. Самое простое – искать одно дерево с самой высокой вероятностью: наиболее вероятное дерево. Не безосновательно такой способ имеет название «максимальная вероятность», но только то, что это – единственное наиболее вероятное дерево, не означает, что другие возможные деревья намного менее вероятны. Позже было предложено, чтобы вместо того, чтобы доверять единственному наиболее вероятному дереву, мы рассматривали все возможные деревья, но оказывали пропорционально большее доверие более вероятным. Этот подход, альтернативный максимальной вероятности, известен как филогения Байеса (Bayesian phylogeny). Если много вероятных деревьев согласуются в специфической точке ветвления, то мы считаем, что у нее есть высокая вероятность того, чтобы быть правильной. Конечно, так же, как в максимальной вероятности, мы не можем рассмотреть все возможные деревья, но есть способы сокращенных вычислений, и они работают вполне прилично.
Наша уверенность в дереве, которое мы, наконец, выбираем, будет зависеть от нашей уверенности, что его различные ветви правильны, и мы обычно помещаем значения вероятностей около каждой точки ветвления. Вероятности вычисляем автоматически, используя метод Байеса, но для других способов, таких как экономичность или максимальная вероятность, мы нуждаемся в альтернативных мерах. Обычно используется метод «bootstrap», который неоднократно производит повторную выборку различных данных, чтобы выяснить, насколько большие отклонения создаются в окончательном дереве – другими словами, насколько дерево устойчиво к ошибке. Чем выше значение «bootstrap», тем больше заслуживает доверия точка разветвления, но даже эксперты бьются над тем, как точно истолковать, что говорит нам специфическая величина «bootstrap». Подобные методы – «складной нож» и «индекс распада». Все они – меры того, насколько мы должны доверять каждой точке ветвления дерева.
Прежде, чем мы оставим литературу и возвратимся к биологии, вот итоговая диаграмма эволюционных отношений между первыми 250 строчками 24 рукописей Чосера. Это филограмма, в которой не только схема ветвления, но и длины линий имеют значение. Вы можете непосредственно прочитать, какие рукописи незначительно отличаются друг от друга, а какие сильно отклонились. Филограмма бескорневая – в ней не зафиксировано, какая из этих 24 рукописей наиболее близка к «оригиналу».
Пришло время возвращаться к нашим гиббонам. За эти годы многие люди пытались выяснить наши родственные отношения с гиббонами. Экономичность предсказала четыре группы гиббонов. На следующей странице – корневая кладограмма, основанная на физических особенностях.
Эта кладограмма убедительно показывает, что виды Hylobates образуют группу, также как Nomascus. У обеих групп относительно высокие значения bootstrap (числа на линиях). Но в нескольких местах не решен порядок перехода. Даже притом, что выглядит, как будто бы Hylobates и Bunopithecus формируют группу, значение bootstrap 63 неубедительно для тех, кто обучен читать подобные руны. Морфологических особенностей недостаточно, чтобы построить дерево.
Поэтому Кристиан Рос и Томас Гайсман (Christian Roos, Thomas Geissmann) из Германии обратились к молекулярной генетике, а именно к участку митохондриальной ДНК, названному «областью контроля». Используя ДНК шести гиббонов, они расшифровали последовательности, выровняли их буква к букве и выполнили для них исследования на присоединение соседа, экономичность и максимальную вероятность. Максимальная вероятность, лучший из этих трех методов при преодолении притяжения длинных ветвей, дал самый убедительный результат. Его заключительный вердикт относительно гиббонов показан выше, и Вы можете увидеть, что он разрешает вопрос отношений между этими четырьмя группами. Величины bootstrap были достаточно, чтобы убедить меня использовать полученное дерево для филогении в начале этой главы.