Кому мешает ДНК-генеалогия? - Анатолий Клёсов
Шрифт:
Интервал:
Закладка:
Пример: имеются 275 111-маркерных гаплотипов гаплогруппы N1C1. В них суммарно имеются 6270 мутаций. Общий предок жил 6270/275/0.198 = 115 → 130 условных поколения, или 3250±330 лет назад (округленно). Калькулятор Килина-Клёсова дал 3233±326 лет назад.
Поправка на возвратные мутации производится или по специальным таблицам[82], [83], или по формуле, приведенной в этой книге выше[84].
Вопрос 73: Можно подробнее о квадратичном (пермутационном) методе, и расчете погрешностей при его использовании?
Квадратичный метод, в отличие от линейного, есть в двух основных вариантах – с использованием базового гаплотипа и без ориентации на базовый гаплотип. В первом случае считаются не мутации от базового гаплотипа, а квадраты мутаций. Например, в серии из трех 12-маркерных гаплотипов
13 24 16 10 11 15 12 12 10 13 11 30
13 25 16 11 11 15 12 12 10 13 11 30
13 24 16 11 11 15 12 12 11 13 11 30
с базовым гаплотипом
13 24 16 11 11 15 12 12 10 13 11 30
и тремя мутациями от базового гаплотипа (выделены), линейный метод дает 3/3/0.02 = 50 → 53 условных поколения, то есть 1325±780 лет до общего предка. Столь большая погрешность вызвана малым числом гаплотипов в серии, причем гаплотипов коротких, и малым числом мутаций. Напомню, что расчет погрешности в данном случае проводится извлечением квадратного корня из трех (мутаций), что дает 1.732, далее его обратной величины (1/1.732 = 0.577), возведением ее в квадрат (0.5772 = 0.333), прибавлением 0.01 (это – квадрат принятой погрешности величины константы скорости мутации, которая принимается равной ±10 %, то есть ±0.1), что дает 0.343, и, наконец, извлечением квадратного корня из последней величины, что дает 0.586 (то есть ±58.6 %). Это и есть величина погрешности определения времени до общего предка при трех мутациях в серии гаплотипов. При величине 1325 лет погрешность равна 1325x0.586, то есть ±780 лет.
Надо сказать, что в описанном (упрощенном) варианте есть много допущений. Допущения есть всегда, в любом варианте расчета погрешностей. Например, в данном случае мы принимаем, что погрешность определения константы скорости мутации в 12-маркерных гаплотипах (ее величина равна 0.02 мутаций на гаплотип на условное поколение) составляет ±10 %. Это – эмпирическая величина, полученная при изучении серии данных документальной генеалогии. Такую же погрешность мы принимаем и в случае 67-маркерных гаплотипов, хотя сопоставление ДНК-генеалогических данных с многочисленными данными документальной генеалогии показало, что реальная погрешность равна ±3 %, и в этом случае в примере выше к величине 0.333 следует прибавлять не 0.01, а 0.0009, и итоговая погрешность получится не ±58.6 %, а 57.8 %, что практически одно и то же. Это получается, потому что при всего трех мутациях именно столь малое их число практически полностью определяет погрешность времени до общего предка серии гаплотипов. Только при большом числе гаплотипов и большом числе мутаций общую погрешность начинает определять погрешность определения константы скорости мутаций. Например, при 1000 мутаций в серии гаплотипов погрешность вычисляется, как описано выше, извлечением квадратного корня из 1000 (мутаций), что дает 31.62, далее его обратной величины (0.0316), возведением ее в квадрат (0.001), прибавлением 0.01 (при 10 % погрешности величины константы скорости мутации), что дает 0.011, и, наконец, извлечением квадратного корня из последней величины, что дает 0.105 (то есть ±10.5 %). Это и есть величина погрешности определения времени до общего предка при 1000 мутациях в серии гаплотипов. При величине 1325 лет погрешность тогда равна 1325±140 лет. А если погрешность константы скорости мутаций равна ±3 %, то к величине 0.001 (после возведения в квадрат) следует прибавить не 0.01, а 0.0009, и итоговая погрешность получится не 10.5 %, а 4.4 %, или 1324±60 лет до общего предка.
Но мы предпочитаем иметь преувеличенную погрешность, чем даже реальную, потому что это повышает доверие к получаемым результатам. Бывает, что число мутаций в реальных генеалогиях по разным причинам оказывается заниженным или завышенным по сравнению со средними величинами, и расчетная величина вылетает за пределы указанных погрешностей, вызывая недоверие и претензии к расчетам. Пусть лучше мы перестрахуемся и дадим завышенные погрешности.
Возвращаемся к квадратичным методам расчетов. В данном случае базовый гаплотип не рассматривается, и производится расчет разницы в аллелях «всех между всеми». В случае приведенных выше трех 12-маркерных гаплотипов с тремя мутациями сумма квадратов их попарных отклонений друг от друга (в мутированных маркерах) равна 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 = 12, деленная на 2, поскольку в каждом маркере число квадратов мутаций считалось дважды, деленное на число маркеров в гаплотипе (12) и на квадрат числа гаплотипов (9), и, наконец, на величину константы скорости мутации на маркер для 12-маркерных гаплотипов (0.00167). Получаем 12/2/12/9/0.00167 = 33 условных поколений, то есть 825±480 лет до общего предка. В квадратичных методах расчетов поправка на возвратные мутации не вводится, она уже учтена самим методом расчета.
Как видим, мы имеем некоторую проблему. Линейный метод показал для этих трех гаплотипов с тремя мутациями 1325±780 лет до общего предка, квадратичный метод – 825±480 лет до общего предка. В принципе, обе величины находятся в пределах погрешности расчетов, но утешение от этого малое. Причина проста – три мутации на трех гаплотипах – это не статистика. Методы, описанные выше, базируются на статистическом распределении аллелей и мутаций в гаплотипах. Аналогия – если вы бросите монету три раза, или четыре для четности, то вероятность получения 50 %-ного выпадения орла и решки будет малой. Давайте попробуем для иллюстрации. Буду использовать компьютерные «броски» для объективности. Итак,
– первая четверка бросков, все четыре орла
– вторая попытка, решка и три орла
– третья попытка, решка и три орла
– четвертая попытка, три решки и орел
– пятая попытка, решка и три орла
– шестая попытка, две решки и два орла
– седьмая попытка, три решки и орел
– восьмая попытка, две решки и два орла
– девятая попытка, три решки и орел
– десятая попытка, решка и три орла
Результат налицо – из десятка попыток по четыре броска, только два раза выпали две решки и два орла. В целом же из сорока бросков 17 раз выпала решка, и 23 раза орел. Ну как, будем считать вероятность выпадания того или другого? Или здравый смысл остановит такие расчеты? Кстати, с доверительным интервалом в две сигма (95 %) решка и орел выпадут из сорока бросков 20±6 раз для решки, и 20±6 раз для орла, так что никакого противоречия у нашего опыта со статистикой нет. А из четырех бросков получится 2±2 для решки и 2±2 раза для орла. Тоже все в порядке, никаких неожиданностей.
А люди берут три-четыре коротких гаплотипа, а то и два, и удивляются, почему результаты «бегают по всему полю».
Вопрос 74: Автоматический калькулятор Килина-Клёсова
Давайте теперь проверим, какой результат ближе к реальности в случае трех коротких гаплотипов, рассмотренных выше – расчет по линейному методу (1325±780 лет до общего предка) или квадратичному (825±480 лет до общего предка). Кликаем на линк, ведущий к калькулятору Килина-Клёсова[85] на сайте http://dna-academy.ru/kilm-klyosov/, вводим все три серии аллелей под соответствующими маркерами, и через долю секунды получаем результат – 1304±764 лет до общего предка линейным методом и 863±456 лет – квадратичным.
Мы видим, что при столь малом числе гаплотипов и мутаций датировки нестабильны. Но в такой ситуации я бы рекомендовал склоняться к линейному методу, поскольку расчет по трем аллелям, пусть и для 12 маркеров, вряд ли является удовлетворительным. Но еще лучше – просто давать обе датировки, поясняя, какая получена каким методом.
Рис. 14. Расчет времени до общего предка для демонстрационной серии из трех гаплотипов в 12-маркерном формате на калькуляторе Килина-Клёсова. Соответствующие колонки показывают 1304±764 лет до общего предка для линейного метода, и 863±456 лет для квадратичного метода, что, впрочем, совпадает в пределах погрешности расчетов. Остальными колонками следует пренебречь.
Как работает калькулятор Килина-Клёсова? Он многофункциональный, и здесь нет возможности объяснять все его функции, кроме основной – быстро производить расчеты по гаплотипам от любых коротких (вплоть до единичных, отдельных маркеров) до 111-маркерных, в количествах до 10 тысяч гаплотипов. Калькулятор моментально, в ходе расчетов, определяет степень диперсии аллелей по каждому маркеру, и показывает ее количественную величину. Можно выставлять пороговую величину степени дисперсии, тогда калькулятор выбрасывает соответствующие маркеры из расчетов. Это особенно полезно, когда серия гаплотипов содержит включения посторонних гаплотипов, или нижестоящих субкладов, у которых некоторые маркеры имеют другие значения, чем у основной серии. Например, в серии гаплотипов гаплогруппы R1a значение маркера DYS392 обычно имеет величину 11, а в отдельной ветви «Старая европейская ветвь» это значение равно в основном (или исключительно) 13. Калькулятор «знает», что маркер DYS392 настолько «медленный» (константа скорости мутации равна 0.0004 мутаций на маркер на условное поколение), что, например, для тысячи гаплотипов в среднем должно наблюдаться примерно 40 мутаций за сто условных поколений, потому что 40/1000/0.0004 =100 условных поколений. При увеличении количества аллелей DYS393=13 в серии гаплотипов, дисперсия возрастает и в итоге превышает граничную величину 2.6, обычно используемую при расчетах. При величине 2.61 маркер блокируется, оставляя все остальные – незаблокированные – функциональными. Если в рассматриваемой серии гаплотипов блокируются сразу несколько маркеров, то это указание на то, что что-то с выборкой не так.