Кому мешает ДНК-генеалогия? - Анатолий Клёсов
Шрифт:
Интервал:
Закладка:
Вопрос 52: Что такое тандемная мутация в ДНК-генеалогии?
ТАНДЕМНАЯ МУТАЦИЯ в гаплотипе – это изменение числа аллелей в маркере. Происходит в среднем в маркере примерно раз в 500 поколений, хотя для каждого маркера своя скорость мутаций, которая для первых 37 маркеров варьируется от одного раза в 11100 поколений (DYS426, раз примерно в 280 тысяч лет) до одного раза в 140 поколений (CDYb, раз примерно в 3500 лет). Среди 67 маркеров есть такие, в которых мутация происходит раз в 125 тысяч поколений, то есть раз в 3.1 миллионов лет. По скоростям мутаций это сопоставимо со снипами. В популяции обычно наблюдается множественность аллелей в одних и тех же маркерах, то есть вариации аллелей. Совокупность этих вариаций позволяет рассчитывать время, когда жил один или несколько наиболее отдаленных предков популяции. Разные маркеры имеют разные скорости мутации в маркере, поэтому диапазоны вариации аллелей в разных маркерах разные.
Например, DYS426 – очень «медленный» маркер, всё человечество имеет всего четыре варианта аллелей – 10, 11, 12 и 13. Действительно, этот маркер имеет малую скорость мутации, она по оценкам равна 0.00009 мутаций на маркер на условное поколение. Это значит, что через пять тысяч лет среди тысячи наших современников всего у пятнадцати произойдет мутация в этом маркере – за 5 тысяч лет! Это несложно проверить, используя логарифмическую формулу, описанную выше: [ln(1000/985)]/0.00009 = 168 → 202 условных поколения, то есть 5050 лет.
Напротив, наиболее часты мутации в маркерах DYS449, CDYa, CDYb, у которых на Земле обнаружено 12, 13 и 13 разных аллелей, а именно от 25 до 36, от 28 до 40, и от 31 до 43, соответственно.
Вопрос 53: Поясните понятие «среднее число мутаций на маркер»
Это – важнейшая величина в ДНК-генеалогии, она напрямую связана с гаплотипом прямого предка, от значения аллелей которого и отсчитываются мутации. В серии гаплотипов современников, потомков одного общего предка (то есть принадлежащих одной ДНК-генеалогической линии) насчитывается определённое суммарное количество мутаций. Чем больше прошло времени от общего предка серии гаплотипов (популяции), тем больше суммарное количество мутаций в рассматриваемой серии гаплотипов. Таким образом, отношение этого суммарного количества мутаций во всех маркерах (от всех аллелей) к общему числу маркеров есть мера того, как давно жил общий предок. Это есть базовое положение ДНК-генеалогии. Это отношение можно откалибровать в поколениях или годах по абсолютной шкале времени при наличии хронологических «реперных точек».
Поскольку число маркерах в гаплотипах достигает – для обычно используемых гаплотипов в ДНК-генеалогии – 111, то в каждом маркере за определенное число лет от общего предка накапливается определенное среднее количество мутаций. Например, в серии из 968 гаплотипов гаплогруппы I1 за 3690±370 лет, прошедшие от общего предка современных носителей гаплогруппы, в маркере DYS19 накопилось 263 мутации. При известной константе скорости мутации для маркера DYS19, полученной независимым путем и усредненной по всем выборкам и по всем гаплогруппам, и равной 0.00179 мутаций на маркер за условное поколение, получаем, что общий предок жил примерно 263/968/0.00179 = 152 условных поколений назад, или примерно 152x25 = 3800 лет назад. Как видим, это в пределах погрешности измерений, поскольку величина 3690±370 лет, показанная выше, была рассчитана по всем 968 гаплотипам в 111-маркерном формате. Мы постоянно пишем «примерно», потому все такие расчеты носят статистический характер. Даже 263 мутации, полученные прямым путем, все равно «примерные», и по законам статистики имеют погрешность ±6.2 %, что дает 263±16 мутаций, и это при щадящей достоверности в одну «сигма», то есть с надежностью 68 %. При надежности в 95 % это было бы 263±32 мутации. Далее, при расчетах по всем гаплотипам поправка на возвратные мутации вводилась, а при расчетах по одному маркеру она для простоты не вводилась. Наконец, величина константы скорости мутации (0.00179 мутаций на маркер за условное поколение) тоже определена с определенной погрешностью. Все это заставляет для корректности писать «примерно».
Еще пример, для особенно древнего общего предка, на этот раз гаплогруппы I2, который жил 9575±960 лет назад. В маркере DYS426 в серии из 244 гаплотипов накопилось всего 8 мутаций, поскольку это один из самых «медленных» маркеров, его константа скорости мутации равна 0.00009 мутаций на маркер за условное поколение. Получаем, что общий предок жил примерно 8/244/0.00009 = 364 условных поколений назад, или примерно 364х25 = 9100 лет назад. Это опять в пределах погрешности измерений, поскольку величина 9575±960 лет, показанная выше, была рассчитана по всем 244 гаплотипам в 111-маркерном формате.
Надо добавить, что величины констант скоростей мутаций определяли при изучении многих тысяч гаплотипов. В первой обширной статье по этой теме[54], опубликованной в 2011 году, и подводящей итоги четырехлетних исследований, рассматривали 3160 гаплотипов, из них 2488 гаплотипов в 67-маркерном формате, а в недавней статье[55] рассматривалисьь уже 11850 гаплотипов в 111-маркерном формате.
Вопрос 54: Как рассчитывают погрешности в ДНК-генеалогии?
ОБЩАЯ ОТНОСИТЕЛЬНАЯ ПОГРЕШНОСТЬ, важная величина, указывающая на доверительный интервал, или надежность определения расстояния до времени жизни общего предка рассматриваемой популяции. По правилам математической статистики, расчет погрешности обычно производится для «одной сигма» или «двух сигма», что соответствует 68 % и 95 % доверительному интервалу, соответственно. Для одной сигма берется обратная величина квадратного корня из общего числа мутаций в серии гаплотипов, возводится в квадрат, к ней прибавляется 0.01 (это квадрат средней погрешности величины константы скорости мутации, при принимаемой ее погрешности ±10 %, то есть 0.1), и из полученной суммы извлекается квадратный корень.
Например, при 100 мутациях (от базового гаплотипа) в серии гаплотипов получаем:
Таким образом, погрешность расчетов для 100 мутаций в серии равна ±14.14 %, или, округленно, 14 %. Это – для доверительного интервала 68 % (одна сигма).
Для доверительного интервала 95 % (два сигма) полученная величина удваивается, то есть погрешность расчетов составляет ±28 %. Но опыт показывает, что для расчетов реальных, документированных генеалогий, задавание доверительного интервала в одну сигма является реалистичным. Дело в том, что требование 95 %-ной точности нереально для ограниченных серий гаплотипов. Более того, после рассмотрения многих сотен экспериментальных серий гаплотипов выяснилось, что закладываемая погрешность для констант скоростей мутаций ±10 % является завышенной, на практике она не превышает ±2.5 %. Поэтому при 100 мутациях в серии гаплотипов погрешность при одной сигме составляет не ±14.14 %, а ±10.31 %.
Тем не менее, мы рекомендуем (и делаем это сами) давать результаты расчетов при завышенной погрешности, как описано выше. Лучше так, чем быть обвиненными в завышении «точности расчетов».
Погрешности рассчитываются по тем же правилам для количества мутаций и для скоростей мутаций в отдельных маркерах, и в гаплотипах, содержащих любое количество маркеров. Например, в маркере DYS391 для серии из 275 гаплотипов гаплогруппы N1c1 наблюдается 59 мутаций. По правилам статистики при одной сигма эти 59 мутаций на самом деле соответствуют 59±8 мутаций, так что неопределенность, или погрешность начинаются уже здесь. Погрешность получена как обратная величина квадратного корня, переведенная в величину 13.02 %. Если переводить это число мутаций в среднее число мутаций на маркер, получаем 59/275 = 0.2145, но погрешности целесообразно записывать уже в конце расчетов, чтобы не усложнять вычисления. С учетом поправки на возвратные мутации (пояснено ниже) получаем, что среднее число мутаций на маркер равно 0.2402, и поскольку значение константы скорости мутации для маркера DYS391 равно 0.0022, получаем, что «возраст» для маркера DYS391 для данной серии гаплотипов равен 0.2402/0.0022 = 96 условных поколений, или 2400 лет. Погрешность здесь уже больше, чем рассчитанные выше ±13.02 %, потому что к ней добавляется погрешность определения константы скорости мутации, которая в данном случае не менее ±30 %. В итоге обратную величину квадратного корня из 59 возводим в квадрат (получая 0.01695), прибавляем 0.09 (квадрат погрешности в определении константы скорости мутации), извлекаем квадратный корень из полученной суммы, и находим, что погрешность (которое еще называют средним квадратичным отклонением) равна в данном случае ±32.7 %. Мы видим, что при введение в расчеты константы скорости мутации погрешность более чем удвоилась. Получаем, что маркер DYS391 в данной серии указывает на «возраст» выборки 2400±800 лет.
Но когда расчет ведется по всем маркерам сразу, а не его индивидуальным величинам, то число аллелей и мутаций в них идет на тысячи, и погрешность получаемого «возраста» резко снижается, но никогда не становится меньше, чем погрешность определения константы скорости мутации. Последняя обычно принимается за ±10 %, хотя определенно меньше этой величины, как пояснено выше.