ДНК-генеалогия. Основные принципы, описание современного состояния науки, методы расчетов времен жизни предков родов, племен, ДНК-генеалогических линий

4. Определения.

5. Общие принципы ДНК-генеалогии.

5.1. Введение.

5.2. Систематическое рассмотрение основ и принципов ДНК-генеалогии.

5.2.1. Основные положения ДНК-генеалогии.

5.2.2. «Научные» и «коммерческие» выборки гаплотипов.

5.2.3. Кинетика мутаций гаплотипов, их калибровка и проверка. Принципы датировки. Основа исторических реконструкций.

5.2.3.1. Семейство Мак-Доналдов, таблица Чандлера и деревья гаплотипов.

 

4. Определения

ДНК, дезоксирибонуклеиновая кислота, сохраняет и реализует генетическую программу развития и функционирования организма человека (в контексте настоящей книги). Находится в ядре клетки в составе 46 хромосом, одна из которых, самая маленькая по размеру – мужская половая хромосома, или Y-хромосома. В ней содержится примерно 50 миллионов нуклеотидов, повторяющихся структурных единиц ДНК – аденина, гуанина, тимина и цитозина. Все 46 хромосом в совокупности состоят из трёх миллиардов нуклеотидов, и в их составе примерно 30 тысяч генов, в среднем по 652 гена на хромосому. В Y-хромосоме всего 27 генов, остальная часть – некодирующая, «никчёмная», как её часто называют. В ней находится много повторов нуклеотидных цепочек, часть которых генетики и выбрали в качестве гаплотипов для ДНК-генеалогии. Копирование, или репликацию ДНК выполняет ДНК-зависимая ДНК-полимераза (в составе большого комплекса, реплисомы), которая иногда допускает ошибки, называемые мутациями.

Y-ХРОМОСОМА, мужская половая хромосома (см. ДНК).

МАРКЕР, или локус, сегмент, участок Y-хромосомы (в контексте данной книги), выбранный для определения числа повторов нуклеотидов для целей ДНК-генеалогии. Число повторов нуклеотидов в локусе называют «аллель». Маркеры нумеруют и присваивают им индексы, например, DYS19, то есть «DNA Y Segment, локус номер 19». В этом конкретном локусе повторяется четвёрка (квадруплет) ТАГА, то есть тимин-аденин-гуанин-аденин, причём повторяется у разных людей от 11 до 19 раз подряд. Число повторов – индивидуальная характеристика человека, и при увеличении числа маркеров эта характеристика становится всё более индивидуальной. В ранних научных исследованиях типировали (то есть определяли последовательности) от 5 до 9 маркеров, в современных – от 10 до 22 маркеров, в коммерческих работах обычно типируют от 12 до 67 маркеров (стандартные варианты – 12, 17, 25, 37 и 67 маркеров).

АЛЛЕЛЬ, число тандемных повторов определенных блоков нуклеотидов в маркерах (см. Гаплотип).

ГАПЛОТИП, совокупность аллелей, то есть наборов повторов в локусах, или маркерах. Гаплотип записывается в виде набора чисел, которые и отражают число аллелей в каждом маркере. Например, типичный гаплотип среди славян Русской равнины:

в 12-маркерном формате (формате FTDNA)

13 25 16 11 11 14 12 12 10 13 11 30

в 25-маркерном формате

13 25 16 11 11 14 12 12 10 13 11 30 – 15 9 10 11 11 24 14 20 32 12 15 15 16

(здесь поставлено тире между первой и второй панелью маркеров, точнее – аллелей),

в 37-маркерном формате

13 25 16 11 11 14 12 12 10 13 11 30 – 15 9 10 11 11 24 14 20 32 12 15 15 16 – 11 11 19 23 16 16 18 19 34 39 13 11

 в 67-маркерном формате

13 25 16 11 11 14 12 12 10 13 11 30 – 15 9 10 11 11 24 14 20 32 12 15 15 16 – 11 11 19 23 16 16 18 19 34 39 13 11 – 11 8 17 17 8 12 10 8 11 10 12 22 22 15 10 12 12 13 8 14 23 21 12 12 11 13 11 11 12 13

 

ФОРМАТ FTDNA – форма записи гаплотипов, принятая компанией Family Tree DNA (США). Примеры даны в разделе выше. Порядок маркеров в 12-, 25-, 37- и 67-маркерных гаплотипах следующий (в верхней строке – порядковый номер маркера, в нижней – номер маркера, или локуса DYS):

 

1

2

3

4

5

6

7

8

9

10

393

390

19

391

385a

385b

426

388

439

389-1

11

12

13

14

15

16

17

18

19

20

392

389-2

458

459a

459b

455

454

447

437

448

21

22

23

24

25

26

27

28

29

30

449

464a

464b

464c

464d

460

GATA H4

YCA IIa

YCA IIb

456

31

32

33

34

35

36

37

38

39

40

607

576

570

CDYa

CDYb

442

438

531

578

395S1a

41

42

43

44

45

46

47

48

49

50

395S1b

590

537

641

472

406S1

511

425

413a

413b

51

52

53

54

55

56

57

58

59

60

557

594

436

490

534

450

444

481

520

446

61

62

63

64

65

66

67

 

617

568

487

572

640

492

565

 

 

ДЕРЕВО ГАПЛОТИПОВ, серия гаплотипов, рассортированная с помощью специальной компьютерной программы и представленная в виде круговой или линейной диаграммы. Эта диаграмма группирует гаплотипы по динамике их мутаций во всех маркерах, и таким образом представляет дерево в виде совокупности ветвей гаплотипов, соответствующих их предполагаемым ДНК-генеалогическим линиям. Например, среди гаплотипов гаплогруппы R1a1 встречаются гаплотипы с «типовой» мутацией, в которой маркер DYS388=12 заменён на DYS=10. Это отдельная (и древняя) ДНК-генеалогическая линия, потому что и многие остальные мутации более присущи этой линии «10», по сравнениями с мутациями для линии «12». Действительно, на дереве гаплотипов линия «10» выделяется в отдельную, которую следует анализировать отдельно. В настоящей книге деревья гаплотипов строились с помощью программы PHYLIP [Felsenstein, 2005].

ГАПЛОГРУППА, совокупность гаплотипов, объединённая «групповой» необратимой мутацией, присущей определённому человеческому роду, то есть потомков одного «патриарха», как правило, тысячелетия назад. Эти мутации («снипы») выбирают по определённым критериям. Гаплогруппой также называют сам род в таких выражениях, как «гаплогруппа мигрировала шесть тысяч лет назад на восток», понимая, естественно, что мигрировали носители данной гаплогруппы. В настоящее время классификация включает 20 основных гаплогрупп, от А до Т в алфавитном порядке, и сотни «нисходящих» гаплогрупп и субкладов. Индекс гаплогруппы с надстрочным * (например, I*) показывает, что «нисходящих» мутаций у их носителей в классификации нет. Это – прямые потомки данной гаплогруппы или субклада.

БИНАРНАЯ ГАПЛОГРУППА, устаревшее название гаплогруппы, приводится здесь потому, что всё ещё часто встречается в публикациях. То же, что и «биаллельная гаплогруппа», потому что у мутации, её определящей (снип, SNP, см. ниже) есть всего два состояния – либо мутация есть, либо её нет. То есть в соответствующем участке ДНК есть две аллели – исходная и мутированная. В отличие он них, тандемные мутации, или тандемные повторы (см. ниже) являются, как правило, множественными и имеются в популяции в виде различных аллелей, то есть «полиаллельными».

СУБКЛАД, подчинённая, «нижестоящая» гаплогруппа, ДНК-генеалогическая ветвь в пределах той же гаплогруппы, все члены которой имеют не только мутацию основной гаплогруппы, но и дополнительную мутацию, общую только для данной ветви. Например, гаплогруппа R имеет «подчинённые», или «дочерние» гаплогруппы R1 и R2; R1, в свою очередь, имеет R1a и R1b и так далее. R1b в настоящее время имеет 35 «официальных» субкладов, утвержденных Международным обществом генетической генеалогии.

МУТАЦИЯ, в ДНК-генеалогии ошибка при копировании последовательности Y-хромосомальной ДНК, в результате которой (ошибки) или меняется число аллелей в определённом локусе (STR мутации, от Short Tandem Repeats), или происходит модификация гаплогруппы (SNP мутации, от Single Nucleotide Polymorphism).

МУТАЦИЯ В ГАПЛОТИПЕ, ТАНДЕМНАЯ МУТАЦИЯ, изменение числа аллелей в маркере. Происходит в среднем примерно раз в 500 поколений, хотя для каждого маркера своя скорость мутаций, которая для первых 37 маркеров варьируется от одного раза в 1100 поколений (примерно 28 тысяч лет) до одного раза в 28 поколений (примерно 700 лет). В популяции обычно наблюдается множественность аллелей в одних и тех же маркерах, то есть вариации аллелей. Совокупность этих вариаций позволяет рассчитывать время, когда жил один или несколько ближайших предков популяции (в последнем случае популяция подразделяется на ветви). Разные маркеры имеют разные скорости мутации в маркере, поэтому диапазоны вариации аллелей в разных маркерах разные.

Например, DYS426 – очень «медленный» маркер, всё человечество как популяции имеет всего четыре варианта аллелей – 10, 11, 12 и 13. При этом в гаплогруппах E3a, G и J2 все 100% аллелей в изученных популяциях равны 11 (на примере 330, 454 и 915 человек, соответственно. В гаплогруппах E3b и I1 – I2 99% аллелей в этом маркере также равно 11 (на примере 1185 и 5700 человек, соответственно). Напротив, в гаплогруппах R1a и R1b 99% аллелей в том же маркере равны 12 (на примере 1574 и 22129 человек, соответственно). На аллели 10 и 13 в том же маркере приходится около 1% случаев. Примеры наиболее множественных аллелей, с высокими скостями мутаций – DYS449, CDYa, CDYb, у которых на Земле обнаружено 12, 13 и 13 аллелей, соответственно, а именно от 25 до 36, от 28 до 40, и от 31 до 43, соответственно.

СРЕДНЕЕ ЧИСЛО МУТАЦИЙ НА МАРКЕР, важнейшая величина в ДНК-генеалогии, она напрямую связана с гаплотипом прямого предка, от значения аллелей которого и отсчитываются мутации. В серии гаплотипов современников, потомков одного общего предка (то есть принадлежащих одной ДНК-генеалогической линии) насчитывается определённое суммарное количество мутаций. Чем больше прошло времени от общего предка серии гаплотипов (популяции), тем больше суммарное количество мутаций в рассматриваемой серии гаплотипов. Таким образом, отношение этого суммарного количества мутаций во всех маркерах (от всех аллелей) к общему числу маркеров есть мера того, как давно жил общий предок. Это есть базовое положение ДНК-генеалогии. Это отношение можно откалибровать в поколениях или годах по абсолютной шкале времени при наличии хронологических «реперных точек».

Например, в серии из 110 25-маркерных гаплотипов гаплогруппы R1a1 на постсоветском пространстве (в основном тестированы этнические русские и украинцы) имеется 804 мутации, то есть среднее число мутаций на маркер составляет 804/110/25 = 0.292. Для сравнения, среднее число мутаций у индийцев той же гаплогруппы R1a1 (то есть того же рода) равно 191/30/25 = 0.255. Из этого уже следует, что общий предок рассматриваемой популяции индийцев жил позже, чем общий предок рассматриваемой популяции славян. Ещё пример – среднее число мутаций для западно- и центральноевропейских гаплотипов гаплогруппы R1b1b2 равно 1340/197/25 = 0.272, то есть общий предок славян, живущих в настоящее время на постсоветском пространстве, заметно древнее, чем общий предок современных западноевропейцев указанной гаплогруппы (наиболее распространенной в Европе).

ОБЩАЯ ОТНОСИТЕЛЬНАЯ ПОГРЕШНОСТЬ, важная величина, указывающая на доверительный интервал, или надежность определения среднего числа мутаций на маркер (см. выше) или рассчитываемого времени жизни общего предка рассматриваемой популяции. Для среднего числа мутаций на маркер упрощённая величина погрешности при 95%-ном доверительном интервале равна обратной величине квадратного корня из общего числа мутаций в выборке (здесь пренебрегается симметричностью мутаций в гаплотипах, учёт которой часто требует лишь несущественной поправки). Например, для трёх примеров выше погрешности средних величин числа мутаций на маркер равны 3,53% (для 110 гаплотипов славян), 7,24% (для 30 гаплотипов индийцев) и 2,73% (для 197 гаплотипов западноевропейцев), и сами величины равны 0.292±0.010, 0.255±0.018 и 0.272±0.007 мутаций на маркер, соответственно, при 95%-ном доверительном интервале. Для 5%-ной погрешности в определении средних скоростей мутации общая относительная погрешность (одна сигма) для рассматриваемых случаев равна √3.352+52= 6.1%,√7.242+52= 8.8% и √ 2.732+52= 5.7%.

В наших исследованиях мы брали удвоенную величину погрешности для средней скорости мутации, то есть величину «два сигма», чтобы получить погрешности при 95%-ном доверительном интервале, и таким образом получали √3.352+102= 10.6%, √7.242+102= 12.35% и √ 2.732+102= 10.4%. Применяя величину средней скорости мутации для 25-маркерных гаплотипов, равную 0.00183 (см. ниже) и вводя поправку на возвратные мутации, получим для трёх рассматриваемых случаев 4725±500, 4050±500 и 4375±450 лет до общих предков соответствующих популяций восточных славян (R1a1), индийцев (R1a1) и западноевропейцев (R1b1b2). Это означает, что общие предки указанных популяций жили в пределах данных временных интервалов с вероятностью 95%.

СНИП, «гаплогруппо-образующая мутация», от английского сокращения SNP (Single Nucleotide Polymorphism), практически необратима, происходит, как правило, на одном нуклеотиде, превращая один нуклеотид в другой. Это приводит к появлению своебразной «метки», которая практически навсегда наследуется потомками. Именно поэтому каждый род (в понятиях ДНК-генеалогии) носит характерную метку и может быть надёжно и количественно отличим один от другого. Снипы обозначают индексами, например, М17 (это – «входная» мутация гаплогруппы R1a1), Р25 («входная» мутация в гаплогруппу R1b1), L21, то же самое S145 (мутация, определяющая субклад R1b1b2a1a2f) и так далее. Первая буква снипа показывает, в каком научном коллективе снип идентифицирован:

  • М, лаборатория под руководством Peter Underhill, Stanford University (США);
  • Р, лаборатория, руководимая Michael Hammer, University of Arizona (США);
  • S, лаборатория, руководимая James F. Wilson, Edinburgh University (Шотландия);
  • L, исследовательский центр под названием Family Tree DNA’s Genomics Research Center под руководством Thomas Krahn (США).
  • U, университет центральной Флориды (Lynn M. Sims и Jack Ballantyne) и университет Gonzaga (Dennis Garvey);
  • V, университет La Sapienza, Rosaria Scozzari and Fulvio Cruciani (Рим, Италия);
  • N, лаборатория биоинформатики, Институт биофизики КАН, Пекин (Китай).

СКОРОСТЬ МУТАЦИИ, средняя частота изменения числа повторов в локусе, или маркере, обычно измеряется в числе мутаций на поколение. Средняя скорость мутаций составляет 0.00183 на маркер на поколение для первых 12-ти и первых 25-ти маркеров в стандартном формате гаплотипов (см. выше). Для первых 37-и маркеров средняя скорость мутаций составляет 0.00243 на маркер на поколение, для первых 67-ти маркеров – 0.00216 на маркер на поколение. В неопределённых ситуациях часто принимается в виде «канонической» величины 0.002 мутаций на маркер на поколение.

В реальных условиях скорости мутаций измеряют по мутациям в гаплотипах в одном поколении на большом числе пар отец-сын. Пример – при сравнительном изучении 1752 пар гаплотипов в 17-маркерном формате было выявлено 84 мутации. Из них 83 были одношаговые (98,8%) и одна – двухшаговая (1,2% от всех). Поскольку все 1752 гаплотипа содержали 1752 × 17 = 29784 маркера, то средняя скорость мутаций соответствовала 84 / 29784 = 0.00282 мутации на маркер на поколение, медиана была равна 0.0025 мутации на маркер на поколение. Из этих 84 мутаций 43 мутации были «вверх» (число повторов в аллели возросло) и 41 – «вниз».

Самая высокая скорость мутаций была в маркере DYS458 (0.0074 мутаций за поколение), самая низкая – в маркере DYS448 (0.0003 мутаций за поколение, то есть примерно в 25 раз медленнее). Когда все отцы были подразделены на две (неравные) группы – те, у кого произошла мутация в гаплотипах, и те, у кого мутаций не было, то средний возраст первых и вторых составил – при рождении сына – 34.4±11.6 лет (округленно 34±12) и 30.3±10.2 лет (округлённо 30±10). Хотя разница в возрасте и имела место, эти величины находятся в пределах погрешности эксперимента. Объединение всех опубликованных данных подобных экспериментов выявило 331 мутацию на 135212 маркерах, то есть средняя скорость оказалась равна 0.00244 мутации на маркер за поколение. При сопоставлении скоростей мутаций с генеалогическими данными и историческими событиями (при калибровке) средняя скорость мутаций в 17-маркерных гаплотипах составила 0.0020 мутаций на маркер на поколение.

СРЕДНЯЯ СКОРОСТЬ МУТАЦИИ НА ГАПЛОТИП, для первых 6-ти маркеров в «научном формате», DYS19, 388, 390, 391, 393, 393 – 0.088 мутаций на гаплотип на поколение, для первых 12-ти маркеров (первая панель маркеров в формате FTDNA) – 0.022 мутации на гаплотип на поколение, для первых 25-ти маркеров – 0.046 мутаций на гаплотип на поколение, для первых 37-ти маркеров – 0.09 мутаций на гаплотип на поколение, для 67-ми маркеров – 0.145 мутаций на гаплотип на поколение. Отсюда сразу можно заключить, что если два 67-маркерных гаплотипа отличаются, например, на 6 мутаций, то они разошлись от общего предка, который жил 6/2/0.145 = 21 поколение назад, или 525 лет назад. Однако для таких расчётов надо знать, что оба гаплотипа относятся к одной гаплогруппе, и понимать, что для двух гаплотипов и столь немногих мутаций подобные расчёты могут быть только оценочными. Например, в данном конкретном случае оценка равна 525±220 лет с 95%-ной надёжностью.

«БУТЫЛОЧНОЕ ГОРЛЫШКО» ПОПУЛЯЦИИ, резкое или медленное сокращение популяции до критического, после чего популяция либо выживает, либо терминируется. Причинами «бутылочного горлышка» могут быть события, катастрофические в отношении популяции (природные катаклизмы, эпидемии, войны), либо медленное вымирание популяции. Обычно выжившая популяция «обнуляет» набор своих мутаций в гаплотипах до гаплотипа выжившего члена популяции, и он становится «общим предком» для потомков. Исследования показывают, что многие популяции в прошлом имели пульсирующий характер и многие популяции терминировались, не проходили «бутылочное горлышко». Многие древние популяции остались во «фрагментах», в серии относительно недавних популяций, «кластеров», которые очень значительно отличаются друг от друга по гаплотипам, оставаясь внутри одной и той же гаплогруппы. Примеры – гаплотипы американских индейцев, африканские гаплотипы, гаплотипы Русской равнины, ряд европейских гаплотипов.

Для описания этих явлений часто используют понятие «генетический дрейф». Именно из-за генетического дрейфа и соответствующих «бутылочных горлышек» у гаплогрупп E, G, I, J на 99 – 100% преобладает аллель DYS426=11, а у гаплогрупп R на 99% преобладает DYS426=12. Иначе говоря, сдвиг аллели у далёких предков от 11 к 12 в результате «генетического дрейфа» так и остался в потомках соответствующих гаплогрупп. Подобный (по сути) генетический дрейф привёл к тому, что в «быстром» маркере DYS449 в разных гаплогруппах осталось не более 30% наиболее частой аллели (ср. С 99% или 100% в «медленных» маркерах), и она «плывёт» от величины DYS=28 (гаплогруппа I) к 29 (J2), 30 (R1b), 31 (E3a и G) и 32 (E3b и R1a).

ОБЩИЙ ПРЕДОК ПОПУЛЯЦИИ, предполагаемый носитель «базового», или «предкового» гаплотипа. Время жизни общего предка популяции вычисляется по совокупности гаплотипов его потомков, принимая во внимание число мутаций, накопившееся в популяции, нормированное на гаплотип или на маркер, и константу скорости мутации, или частоту мутации в расчёте на поколение. Расчёты времён жизни общих предков популяций позволяют делать предположения о времени и направлениях миграций популяций в древности, о передвижениях популяций. Поскольку, передвигаясь, популяции оставляли следы в виде материальных признаков, ресурсов, это позволяет проводить интерпретацию археологических данных в отношении носителей этих признаков, их принадлежности к определённым родам и племенам, связанных родственными взаимоотношениями. Аналогично, популяции, передвигаясь, приводили к перемещению языков, диалектов, и определение общих предков и времён их жизни даёт возможность прослеживать динамику языков в отношении соответствующих родов и племён, связанных родственными взаимоотношениями.

 

По книге: Клёсов А.А., Тюняев А.А. ПРОИСХОЖДЕНИЕ ЧЕЛОВЕКА по данным археологии, антропологии и ДНК-генеалогии, Бостон – Москва, 2009 г.

http://www.organizmica.ru