Кому мешает ДНК-генеалогия? - Анатолий Клёсов
Шрифт:
Интервал:
Закладка:
Рис. 11. Расчет времени до общего предка для 27 гаплотипов в 12-маркерном формате из Киргизского проекта FTDNA. Поскольку гаплотипы 12-маркерные, то же расстояние до общего предка (TMRCA), 1304±283 лет, повторено в колонке для 225-, 37-, 67– и 111-маркерных гаплотипов. Колонка для 6-маркерных гаплотипов показывает 1425±453 лет до общего предка, что является тем же самым в пределах погрешности расчетов. Остальными колонками следует пренебречь.
Так вот, рассчитать время жизни общего предка можно разными способами. Можно – используя все 12 индивидуальных констант (k) скоростей мутаций, и считать по каждому маркеру, раздельно. Их величины приведены выше, в ответах на вопрос 65. Тогда результатом расчета будет набор из 12 «времен жизни до общего предка», который следует усреднить Это – очень непродуктивный метод расчета, и так вручную никто не считает (тем более всего для 27 гаплотипов, с крайне бедной статистикой). Но это – основа для машинных (компьютерных) расчетов, особенно для сотен и тысяч гаплотипов, и итоговое усреднение проводится по всему полю данных. Именно так работает калькулятор Килина-Клёсова[66], в который заложены значения констант скоростей для 111 маркеров, и расчет проводится по массиву данных до 10 тысяч гаплотипов практически в любом формате. Время расчета даже для 10 тысяч 111-маркерных гаплотипов занимает всего несколько секунд. В данном случае у шести маркеров из 12 мутаций нет, так что для них формальное «время до общего предка» равно нулю, но оно усредняется с результатами по шести оставшимся маркерам, и суммарно оно оказывается равно 1304±283 лет до общего предка (без округлений). Скриншот калькулятора с экрана компьютера приведен на рис 11.
Мы видим и сами гаплотипы, которые вводятся в соответствующие ячейки в формате Excel – или вручную, или копируются целиком из соответствующего файла, и число мутаций по каждому маркеру (третья строка снизу на сером фоне), сумма которых равна в данном случае 27. В формате Excel сумму их не обязательно подсчитывать вручную, можно просто все высветить курсором и прочитать сумму на экране. Программа также показывает базовые (предковые) значения аллелей (шестая строка снизу на сером фоне), и много другой важной информации. Датировка времени жизни общего предка читается в колонке LM12, что означает «линейный метод (расчета) по 12-маркерным гаплотипам». В колонках для 25-, 37-, 67– и 111-маркерных гаплотипов появляется то же самое число лет, что и для 12-маркерных гаплотипов, и странно было бы ожидать другого. В других колонках числа не являются правильными, потому что для них просчитывается только часть маркеров (колонки для 17-маркерных и 22-маркерных гаплотипов, и обозначенные ККК, то есть квадратичный расчет для 111– и 22-маркерных гаплотипов). Для проверки работы калькулятора можно разделить число мутаций на число гаплотипов и на константу скорости мутации для 12-маркерных гаплотипов, 27/27/0.02 = 50 условных поколений без введения поправки на возвратные мутации, которая равна 1.0433. Эта поправка рассчитывается, как показано в ответе на вопрос 61. В данном случае средняя величина числа мутаций на маркер равна 27/27/12 = 0.0833, и формула для расчета поправки приобретает вид
где величина поправочного коэффициента (1+e0.0833)/2 равна 1.0433, и вместо 50 условных поколений получаем 52.165, что соответствует 1304 годам до общего предка, то есть в точности то, что выдал калькулятор. Погрешность при 27 мутациях рассчитывается путем обратной величины квадратного корня из 27, что есть 0.19245, возведением полученной величины в квадрат и прибавлением 0.01 (10 %-й погрешности для константы скорости мутации), получая 0.0470, и после извлечения квадратного корня получаем общую погрешность в ±21.69 %. Окончательно записываем, что датировка общего предка рассмотренной серии из 27 гаплотипов равна 1304±283, в точности то, что рассчитал калькулятор, только в данном случае он рассчитал за долю секунды.
Надо заметить, что калькулятор выдает такую точность, которая не только бессмысленна, но и неправильна, потому что расстояние до общего предка с точностью до одного года не бывает, и погрешность с точностью до одного года не определяется. Поэтому полученную величину следует округлить, например, так: 1300±280 лет до общего предка.
Еще один способ расчета называется логарифмическим[67], в котором мутации даже не считаются. Поскольку в серии из 27 гаплотипов 9 базовых, то получаем [ln(27/9)]/0.02 = 55 → 58 условных поколений, то есть 1450±500 лет до общего предка. Как видно, это в пределах погрешности расчетов совпадает с величиной, полученной и линейным способом, и с помощью калькулятора Килина-Клёсова. Для концептуальных выводов это вполне приемлемо. Концептуальными здесь называются выводы (или результаты), которые ставят задачей расчеты с точностью, которая позволяет сделать принципиальные выводы, например, исторического характера. Как известно, историки и археологи часто оперируют концептуальными положениями, например, что скифы играли роль на исторической арене примерно с 7-го века до начала нашей эры, сарматы – с начала нашей эры до примерно 4-го века нашей эры, кельты – примерно с 4-го века до н. э., хотя есть варианты. Иначе говоря, в этих случаях датируются не конкретные события, а концептуальные. ДНК-генеалогия часто очень полезна в таких случаях. Например, что общий предок этнических русских гаплогруппы R1a и общий предок индийцев высших каст гаплогруппы R1a жил практически в одно и то же время. В пределах погрешности измерений, это был – концептуально – один и тот же общий предок. Никто не ожидает там датировку с точностью до года или около того. Речь – о концепции, а не о точной формальной датировке.
Вопрос 68: Как измеряют константы скоростей мутаций?
Часто приходится слышать, что если скорости мутаций такие малые, что одна мутация происходит порой раз в несколько тысяч лет, то как же их измеряют? Скептики тут же заключают, что эти величины недостоверны, поскольку эксперименты длиной в тысячи лет невозможны. Это только показывает ментальную удаленность скептиков от науки. Аналогия – времена полураспада многих радиоактивных элементов составляют тысячелетия или намного большие времена – например, период полураспада радия-226 составляет 1620 лет, а урана-238 – 4.5 миллиарда лет. Никто из исследователей не сидит и не ждет, пока половина вещества распадется.
Один из подходов при измерении величин констант скоростей мутаций – сопоставление гаплотипов в парах отец-сын. Если изучается группа, например, в 2000 пар отец-сын, то среднее количество мутаций между их гаплотипами определяется по формуле x/2000/k = 1, где х – количество мутаций, k – константа скорости мутаций.
Чтобы понять, сколько мутаций можно ожидать в таких опытах, приведем список диапазонов констант скоростей мутаций[68](в числе мутаций за условное поколение, то есть за 25 лет), из полного списка выше.
Ниже приведены самые «медленные» 22 маркера в 67-маркерной панели:
DYS472 0.000008
DYS436 0.000040
DYS425 0.000042
DYS568 0.000050
DYS490 0.000070
DYS426 0.000090
DYS455 0.000100
DYS450 0.000110
DYS492 0.000150
DYS640 0.000150
DYS641 0.000170
DYS594 0.000170
DYS388 0.000220
DYS454 0.000300
DYS590 0.000340
DYS438 0.000350
DYS392 0.000400
DYF395Sib 0.000400
DYF395Sia 0.000400
DYS459a 0.000400
DYS578 0.000430
DYS617 0.000500
Все они, кроме DYS459a, образуют «медленную» 22-маркерную панель для расчетов особенно удаленных по времени общих предков серий гаплотипов. Маркер DYS459a в 22-маркерную панель не включен, поскольку для него характерен так называемый палиндромный, или «мультимаркерный» эффект, при котором при мутациях маркеры меняются синхронно, парами. Правда, этот эффект присущен также маркерам DYF395S, но так уж сложилось, что они вошли в эту панель. Вместо DYS459a в 22-маркерную панель введен DYS531.
Самые медленные маркеры панели от маркеров от 68 до 111 следующие:
DYS632 0.000100
DYS494 0.000100
DYS435 0.000110
DYS593 0.000120
DYS726 0.000170
DYS636 0.000230
DYS638 0.000270
DYS575 0.000300
DYS434 0.000300
DYS462 0.000300
DYS445 0.000500
DYS716 0.000500
Самые «быстрые» маркеры в 111-маркерной панели следующие:
DYS710 0.007300
CDYb 0.007000
DYS449 0.006800
CDYa 0.006600
DYS712 0.006200
DYS458 0.006200
DYS576 0.006000
DYS570 0.004700
DYS714 0.004500
DYS456 0.004320
DYS442 0.004300
DYS481 0.004000
Мы видим, что самые «медленные» маркеры мутируют со средней скоростью от 0.000008 мутаций в поколение (то есть в среднем раз в 125 тысяч поколений, или более чем в 3 миллиона лет) до 0.00050 мутаций в поколение (в среднем раз в 2000 поколений, или примерно раз в 50 тысяч лет). Можно эти числа объяснить по-другому – наиболее «медленные» мутации происходят в среднем раз на 125 тысяч рождений мальчиков (DYS472), или раз на 125 тысяч пар отец-сын, до одного раза на 2000 рождений мальчиков, или один раз на 2000 пар отец-сын. Отсюда уже ясно, что большинство из приведенные выше «медленных» маркеров практически бесполезны на парах отец-сын, потому что подавляющее большинство из них вообще не дадут мутаций даже на 2000 парах, в лучшем случае некоторые дадут одну мутацию, из которых константу скорости не вычислить, погрешность таких расчетов составит плюс-минус 100 % даже при доверительном интервале в 68 % (одна сигма). Поразительно, что популяционные генетики используют такие «скорости мутаций», расчитанные из одной мутации, или даже без единой мутации в парах отец-сын (приведенные, например, в работах[69], [70]), даже не задумываясь, что смысла в этом нет практически никакого. Естественно, получают при этом невоспроизводимые «времена жизни общих предков», и объявляют, что по мутациям в гаплотипах считать нельзя (D. Pontikos[71]; Busby et al[72]).