Кому мешает ДНК-генеалогия? - Анатолий Клёсов
Шрифт:
Интервал:
Закладка:
Вопрос 39: Какие требования предъявляются к выборкам гаплотипов для расчетов в ДНК-генеалогии?
Как уже пояснялось выше, если взять любую выборку, тупо считать количество мутаций в гаплотипах, и разделить его на число гаплотипов и на константу скорости мутации, то что-то, конечно, получится. Именно так и проводят «расчеты» популяционные генетики. Но на самом деле там скорее всего получится некое бессмысленное число в поколениях или годах до якобы общего предка. Но откуда известно, что для данной выборки общий предок был один? А ведь так всегда и работают попгегетики, усредняя любые выборки. Поскольку после некоторых проб и ошибок ими было найдено, что таким образом происходит «умоложение» общих предков выборок, то попгенетики не нашли ничего лучшего, как втрое занизить величину константы скорости мутаций. Собственно, они ее «константой» никогда и не называли, просто «популяционная скорость мутаций». Вот так и работали – за счет усреднения время до общего предка занижали в неизвестное число раз, а за счет искусственного занижения «скорости мутаций» его опять увеличивали, правда, опять в неизвестное число раз, по принципу – «авось скомпенсируется». А оно не компенсировалось, а либо получалось значительно заниженным, либо значительно завышенным. Когда общий предок выборки был случайно один, то завышение времени до него составляло обычно 280–350 %. Так и работали, и вот такими завышенными датировками заполонили академические журналы.
Честь нанесения такого ущерба науке, если попгенетику называть наукой, принадлежит Л.А. Животовскому, сотруднику Института общей генетики РАН. На основании какого-то вывиха здравого смысла, эту «популяционную скорость» узаконили после 2004 года, и более десяти лет в академических журналах гнали откровенный мусор. Широко известны «датировки» «общего предка» гаплогруппы R1a в Индии, которые Животовский с соавторами (эстонская школа попгенетики) загнали в 12–15 тысяч лет назад, когда они на самом деле составляют 3500–4000 лет назад, для разных выборок. Это на долгие годы не только затормозило изучение истории ариев в Индии, но и направило изучение истории по ложному пути. Этим отличился, например, некто Семененко из Воронежа, представляющийся как «индолог», для которого главный аргумент для отстаивания этих безумных датировок был, что они опубликованы «уважаемыми людьми», «известными специалистами». Нет и не может быть таких критериев в науке, а если их применять, то только как вторичные, вспомогательные.
Возвращаясь к исходному вопросу, только те мутации в гаплотипах имеет смысл рассчитывать, экстраполируя ко времени общего предка, которые подчиняются определённым количественным закономерностям. ДНК-генеалогия оперирует тремя экспериментальными факторами: 1) наличием снипов, относящих человека к определённому роду; 2) наличием мутаций, позволяющих оценивать время, прошедшее от общего предка совокупности гаплотипов и – при больших выборках – от начала самого рода, от самого далёкого из предков ныне живущих потомков данного рода (то есть здесь считаются сами мутации); 3) закономерностями переходов гаплотипов в их мутированные формы, без численного учёта самих мутаций (то есть здесь мутации не считаются, считаются немутированные гаплотипы).
Это позволяет оценить, насколько достоверны расчёты времени жизни общего предка по мутациям, и даёт ещё один, независимый способ расчетов. Методы, в которых считаются мутации, называются линейным, квадратичным и пермутационным,[51]из которых наиболее прост линейный метод. Метод, в котором считаются немутированные гаплотипы, называется логарифмическим. В принципе, он использует формулы химической кинетики первого порядка (дополнительно вводя поправку на возвратные мутации). В линейном методе общее число мутаций в серии гаплотипов делится на число гаплотипов и на константу скорости мутации для данных гаплотипов, как было показано выше. В логарифмическом методе берется логарифм отношения общего числа гаплотипов к числу немутированных гаплотипов, и делится на константу скорости мутации, как тоже было показано выше.
Очень важно понять, что если линейный и логарифмический методы дают разные времена до общих предков, то выборка «кривая», то есть неоднородная, и происходит от нескольких общих предков, как минимум от двух. Получаемые времена до общих предков тогда лишены определенного смысла, предок «фантомный».
Приведем пример. Имеем неоднородную выборку из 300 гаплотипов в 25-маркерном формате, в которой 200 гаплотипов происходят от общего предка, который жил 3000 лет назад, и 100 гаплотипов – от предка, который жил 800 лет назад. Если мы построим дерево гаплотипов, то сразу увидим, что 200 гаплотипов образуют одну большую и глубокую (высокую) ветвь, и 100 гаплотипов – плоскую ветвь. Тогда сразу можно разделить ветви, и каждую из двух ветвей обсчитывать отдельно. В первой ветви из 200 гаплотипов все 25-маркерные гаплотипы будут разными (то есть логарифмический метод с ними работать не будет), что уже покажет, что общий предок жил более 2500 лет назад (при 2500 годах в выборке могли бы быть два одинаковых гаплотипа, потому что [ln(200/2)]/0.046 = 100 условных поколений, или 2500 лет до общего предка). На все 200 гаплотипов будет 1104 мутаций от базового гаплотипа, что даст 1104/200/0.046 = 120 условных поколений, или 120х25 = 3000 лет до общего предка (вкладом возвратных мутаций здесь для простоты пренебрегаем).
Во второй ветви из 100 гаплотипов в 25-маркерном формате 23 гаплотипа будут идентичными друг другу. Это даст [ln(100/23)]/0.046 = 32 условных поколений, то есть 800 лет до общего предка. Иначе говоря, если смешать эти 200 и 100 гаплотипов, то в этой смеси 23 гаплотипа будут одинаковыми (из молодой ветви), и мы получим [ln(зоо/2э)]/о.046 = 56 условных поколений, то есть якобы 1400 лет до общего предка якобы одного для всех 300 гаплотипов. А мутаций во всей составной, неоднородной выборке будет 1251, если базовые гаплотипы обеих ветвей случайно совпадут. Тогда линейный метод даст 1251/300/0.046 = 91 условное поколение, или 2275 лет до якобы общего (фантомного) общего предка. Если базовые гаплотипы обеих ветвей будут разными, то время до фантомного общего предка будет практически любым между 3000 и 800 лет.
Итак, подводим итоги. Выборка составная, неоднородная, общие предки жили 3000 и 800 лет назад. Линейный метод дал фантомного общего предка 2275 лет назад, логарифмический -1400 лет назад. То, что эти времена не совпали друг с другом, говорит о том, что так считать нельзя, и выборки надо разделять. Обычно разделение проводится с использованием деревьев гаплотипов (см. следующий раздел).
Вопрос 40: Выборки в ДНК-генеалогии обычно несоизмеримо малые по сравнению с реальными величинами самих популяций. Как таким выборкам можно доверять? Есть «мнения», что выборки должны иметь как минимум 10 тысяч гаплотипов, чтобы получать относительно разумные данные.
Это совершенно ненаучная постановка вопроса, опять «по понятиям», по «мнениям», ни на чем не основанным. На это можно задать встречный вопрос, который уже был задан выше в настоящей книге – чтобы понять, что море соленое, нужно ли пробовать воду из всех бухточек? А как же химики делают анализ растворов, беря пробу всего лишь в долю миллилитра из ведра, цистерны, озера? Когда делают анализ крови, что, всю кровь из вас выкачивают? Нет. Значит, вопрос о размере пробы поставлен некорректно. Вопрос на самом деле сводится не к каким-то с потолка взятым числам, а к к тому, равномерно ли перемешана система, чтобы по малой пробе, или выборке, судить о всей системе. Этот вопрос в ДНК-генеалогии давно проработан, и результаты сопоставительных исследований показаны, например, в следующей таблице:
Таблица. История определений времени до общего предка гаплогруппы R1a на «пост-советском пространстве» по разным сериям гаплотипов.[52]
Из таблицы видно, что при последовательном переходе от серии из 26 гаплотипов до 2000 гаплотипов, и при увеличении числа мутаций в них в двести с лишним раз расчетное время до общего предка этих гаплотипов, в данном случае проживавшего на Русской равнине около пяти тысяч лет назад, получается практически одинаковым, в пределах погрешности расчетов. Это значит, что гаплотипы гаплогруппы R1a на пост-советском пространстве перемешаны достаточно хорошо, и все выборки вполне репрезентативны.
Конечно, могут быть и другие ситуации. Например, в горах в каждой долине состав гаплотипов (и гаплогрупп/субкладов) может заметно различаться, в отличие от того, что может наблюдаться на равнине, где гаплотипы более перемешаны за тысячелетия. Но в любом случае расчеты и выводы по гаплотипам относятся только к той конкретной выборке, которая рассматривалась, и только сопоставление разных выборок может показать, насколько система «перемешана», и решить вопрос об обобщении результатов расчетов и выводов на всю популяцию региона, или только ее конкретную часть. Но пока репрезентативность разных выборок наблюдается и в горах. Например, разные выборки осетин и карачаево-балкарцев дают воспроизводимые результаты для каждого из этих этносов. Перемешивание между ними обнаружено, но очень незначительное, практически не влияющее на результаты расчетов.