Демография миграций в эпоху неолита и бронзового века

C ресурса Генофонд.ру (автор: Надежда Маркина)

 

Статья американских и шведских исследователей (Goldberg  et al.),опубликованная на сайте препринтов, вновь обращается к дискуссионной проблеме миграций в эпоху неолита и бронзового века.  В работе исследуется вопрос о доле мужского и женского населения  в составе мигрирующих групп, которые сформировали  генофонд  Центральной Европы. Авторы проверяют исходную гипотезу, что миграции из Анатолии в раннем неолите и миграции из понто-каспийских степей в течение позднего неолита и бронзового века были преимущественно мужскими.

Для ответа на это т вопрос авторы опираются не на Y-хромосому, передающуюся по отцовской линии,  и не на митохондриальную ДНК, передающуюся по материнской, как традиционно поступают генетики, а  Х-хромосому. Они вычисляют отношение эффективного размера популяции по Х-хромосоме к эффективному размеру популяции по аутосомам (неполовым хромосомам). Поскольку мужчины имеют одну Х-хромосому, а женщины – две, то в популяции с одинаковым соотношением мужчин и женщин отношение Х-хромосомы к аутосомам должно быть ¾. Отклонение от этой цифры говорит о разной демографической истории по мужской и женской линиям. Такова логика, лежащая в основе метода исследования, подробнее с ним можно познакомиться в тексте статьи.

Авторы изучили опубликованные образцы древней ДНК раннего и позднего неолита и бронзового века, проанализировав более 1,2 млн SNP, в том числе без малого 50 тысяч SNP на Х-хромосоме. Исследуемые образцы относились к популяциям охотников-собирателей, земледельцев Анатолии и понто-каспийских степей.

 

new-1

Схематическая демографическая история земледельцев Центральной Европы в течение неолита и бронзового века.

 

В противоположность существующему мнению, результаты не подтвердили, что миграции в неолите из Анатолии в Европу были преимущественно мужскими. Анализ  показал примерно одинаковое соотношение мужского и женского населения среди мигрантов. А вот миграция из понто-каспийских степей в Центральную Европу в  течение позднего неолита и бронзового века , действительно, была преимущественно мужской: по подсчетам  среди мигрантов на 5-14 мужчин приходилась одна женщина. Авторы показали, что эта миграция была растянута по времени на несколько поколений. В соответствии со своим мужским характером, именно она принесла в Европу технологические инновации.

 

new-2

Доли мужского (синие стрелки) и женского (розовые стрелки) населения в составе неолитической и степной миграций.

 

ALDER анализ происхождения белорусов и поляков

В качестве одного из метода проверки надежности импутированных снипов для анализа популяционной истории различных этнических групп, я использовал метод ALDER (он представляет собой более продвинутую версию алгоритма ROLOFF, описанного в известной работе Patterson et al. 2012).

Метод ALDER  выявляет нюансы популяционной истории через оценку двух важных параметров: а) рекомбинации — процесса обмена участками между разными молекулами ДНК, который напоминает перемешивание игральных карт в колоде (у человека он обязательно происходит при образовании половых клеток) и б) неравновесия по сцеплению — явления, при котором несколько участков ДНК передаются вместе блоками, которые формируются несколько по-разному в разных популяциях из-за того, что в разных популяциях наследуются разные комбинации сегментов ДНК. Таким образом, метод основан на выявлении специфических для каждой популяции сцепленных участков ДНК и на оценке доли общих сегментов в выборках сравниваемых популяций. При этом метод ALDER на основе оценки неравновесия по сцеплению определяет правдоподобность того, что две выбранные группы являются предковыми по отношению к анализируемым популяциям. Кроме того, метод позволяет также установить время смешения через оценку доли рекомбинаций на поколение.
Как было сказано выше, метод ALDER представляет собой расширенный вариант алгоритма ROLLOFF.Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатура LD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории,  чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения  LD в адмиксе напрямую связана с числом поколений, прошедших с момента адмикса,  так как c возрастанием числа поколений увлечивается число рекомбинаций произошедших между  двумя отдельными SNP-ами. Проще говоря: Rolloff соответствует экспоненциальной кривой угасания уровня LD от расстояния, и эта скорость экспоненциального снижения как раз и используется  для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.В качестве двух тестовых популяций я использовал две группы — выборку белорусов (данные публичной коллекции эстонского биоцентра, вошедшие позднее в стандартный набор популяций лаборатории Райха, а также данные белорусов, собранные мной в проекте MDLP) и выборку поляков (из публичной коллекции эстонского биоцентра, а также данные поляков из выборки моего проекта MDLP).   В 2012 году я уже проводил анализ ROLLOFF белорусов, поэтому было интересно посмотреть, как изменится картина после добавления новых палеогеномов и импутированных (негенотипированных) снипов. Для полноты эксперимента, я также включил данные поляков, чтобы посмотреть, работает ли метод на данных, полученных с помощью других платформ генотипирования (NB:когда я проводил анализ, у меня еще не было данных поляков из кураторской базы данных лаборатории Reich).

В качественных референсных популяций (кандидатов в предковые популяции) я использовал набор из 400 популяций в моей расширенной выборки.  Программа работает в три этапа:

  • На первом этапе определяется статистическая значимость сравнения амплитуд угасания 2-референсной LD(в случае наличия такой значимость программа пишет success)

Cледующие комбинации дали положительный результат

Belarusian Andronovo.SG Chukchis
Belarusian Andronovo.SG Koryaks
Belarusian Armenian_Martuni Karelia_HG
Belarusian Bashkir Turkish_Jewish
Belarusian Nordic_LN.SG Villabruna
Belarusian Turkish_Jewish Uzbek
Belarusian Anatolia_Neolithic Brahui
Belarusian Anatolia_Neolithic Burusho
Belarusian Anatolia_Neolithic Itelmen
Belarusian Anatolia_Neolithic Koryak
Belarusian Anatolia_Neolithic Mixtec
Belarusian Anatolia_Neolithic Pathan
Belarusian Anatolia_Neolithic Mala
Belarusian Anatolia_Neolithic Turkmen
Belarusian Anatolia_Neolithic Uygur
Belarusian Druze Selkup
Belarusian Mala Syrian
Belarusian Mixtec Spain_EN
Belarusian Anatolia_Neolithic Brahui
Belarusian Anatolia_Neolithic Burusho
Belarusian Anatolia_Neolithic Chukchi
Belarusian Anatolia_Neolithic Selkup
Belarusian Anatolia_Neolithic Sindhi
Belarusian Anatolia_Neolithic Uygur
Belarusian British-Roman Koryak
Belarusian British-Roman Mixtec
Belarusian Chukchi Mala
Belarusian Itelmen Uzbek_WGA
Belarusian LBK_EN Selkup
Belarusian Selkup Turkish_Trabzon
Belarusian Abhkasian Lahu
Belarusian Ami_Coriell Uzbek_WGA
Belarusian Anatolia_Neolithic Chukchi
Belarusian Anatolia_Neolithic Daur
Anatolia_Neolithic Han
Anatolia_Neolithic Han_NChina
Anatolia_Neolithic Miao
Anatolia_Neolithic Turkmen
Belarusian Atayal_Coriell Uzbek_WGA
Belarusian British-Roman Mixtec
Belarusian Chukchi Mala
Belarusian Dai Greek_Islands
Belarusian Dai Uzbek_WGA
Belarusian Daur North_Ossetian
Belarusian Daur Uzbek_WGA
Belarusian Eskimo_Chaplin LBK_EN
Belarusian Georgian Lahu
Belarusian Georgian Yi
Belarusian Greek_Islands Han
Belarusian Greek_Islands Miao
Belarusian Greek_Islands Mixtec
Belarusian Greek_Islands Nganasan
Belarusian Greek_Islands Ulchi
Belarusian Greek_Islands Xibo
Belarusian Han Uzbek_WGA
Belarusian Han Yemenite_Jew
Belarusian Han_NChina Uzbek_WGA
Belarusian Han_NChina Yemenite_Jew
Belarusian Japanese Uzbek_WGA
Belarusian Korean Uzbek_WGA
Belarusian Lahu Turkish_Jew
Belarusian Lahu Uzbek_WGA
Belarusian Lahu Yemenite_Jew
Belarusian LBK_EN Selkup
Belarusian Miao Uzbek_WGA
Belarusian Miao Yemenite_Jew
Belarusian Naxi Uzbek_WGA
Belarusian Oroqen Uzbek_WGA
Belarusian She Uzbek_WGA
Belarusian Tu Uzbek_WGA
Belarusian Tujia Uzbek_WGA
Belarusian Tujia Yemenite_Jew
Belarusian Ulchi Uzbek_WGA
Belarusian Uzbek_WGA Xibo
Belarusian Uzbek_WGA Yi
Belarusian Uzbek_WGA Yukagir_Tundra
Belarusian Yemenite_Jew Yi
  • На втором — cоответствие скоростей угасания LD в попарном сравнении с референсными популяциями (программа выдает предупреждение, если амплитуды угасания LD несовместимы).  Как видно, большинство триплетов (таргетная популяция + 2 референса) имеет несовместимые амплитуды угасания LD.

DATA: success (warning: decay rates inconsistent) 0.028 Belarusian Andronovo.SG Chukchis 4.64 2.80 2.11 85% 244.96 +/- 44.45 0.00055485 +/- 0.00011964 262.22 +/- 50.30 0.00029724 +/- 0.00010632 105.99 +/- 50.22 0.00013405 +/- 0.00003707
DATA: success (warning: decay rates inconsistent) 3.8e-05 Belarusian Andronovo.SG Koryaks 5.86 2.80 2.36 85% 241.36 +/- 36.30 0.00059837 +/- 0.00010219 262.22 +/- 50.30 0.00029724 +/- 0.00010632 105.75 +/- 44.80 0.00011083 +/- 0.00002791
DATA: success (warning: decay rates inconsistent) 0.037 Belarusian Armenian_Martuni Karelia_HG 4.58 2.20 3.48 53% 206.14 +/- 39.11 0.00072944 +/- 0.00015918 324.91 +/- 90.64 0.00018302 +/- 0.00008311 189.01 +/- 42.42 0.00043186 +/- 0.00012423
DATA: success (warning: decay rates inconsistent) 0.044 Belarusian Bashkir Turkish_Jewish 4.55 2.70 2.53 83% 121.78 +/- 24.93 0.00009384 +/- 0.00002064 153.64 +/- 48.19 0.00006384 +/- 0.00002366 296.25 +/- 73.05 0.00014988 +/- 0.00005929
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Nordic_LN.SG Villabruna 4.54 2.19 5.01 30% 160.01 +/- 35.24 0.00086280 +/- 0.00018037 139.86 +/- 63.88 0.00033916 +/- 0.00014340 117.88 +/- 23.51 0.00043952 +/- 0.00008295
DATA: success (warning: decay rates inconsistent) 0.0032 Belarusian Turkish_Jewish Uzbek 5.07 2.53 2.35 112% 116.58 +/- 23.00 0.00008493 +/- 0.00001382 296.25 +/- 73.05 0.00014988 +/- 0.00005929 83.46 +/- 35.51 0.00004275 +/- 0.00001721
DATA: success (warning: decay rates inconsistent) 0.0066 Belarusian Anatolia_Neolithic Brahui 4.18 4.42 2.87 37% 63.78 +/- 15.17 0.00000803 +/- 0.00000192 92.46 +/- 19.49 0.00001427 +/- 0.00000323 88.94 +/- 27.82 0.00000775 +/- 0.00000270
DATA: success (warning: decay rates inconsistent) 0.019 Belarusian Anatolia_Neolithic Burusho 3.93 4.42 2.19 47% 93.43 +/- 9.05 0.00001536 +/- 0.00000390 92.46 +/- 19.49 0.00001427 +/- 0.00000323 149.25 +/- 37.02 0.00001357 +/- 0.00000621
DATA: success (warning: decay rates inconsistent) 0.035 Belarusian Anatolia_Neolithic Itelmen 3.79 4.42 2.15 64% 69.11 +/- 15.92 0.00002889 +/- 0.00000762 92.46 +/- 19.49 0.00001427 +/- 0.00000323 134.23 +/- 58.31 0.00003278 +/- 0.00001523
DATA: success (warning: decay rates inconsistent) 0.023 Belarusian Anatolia_Neolithic Koryak 3.90 4.42 2.30 30% 82.94 +/- 21.28 0.00003363 +/- 0.00000828 92.46 +/- 19.49 0.00001427 +/- 0.00000323 111.83 +/- 48.56 0.00002562 +/- 0.00000985
DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.90 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Mixtec 3.87 4.42 2.73 71% 71.36 +/- 14.69 0.00003027 +/- 0.00000782 92.46 +/- 19.49 0.00001427 +/- 0.00000323 149.36 +/- 43.83 0.00002944 +/- 0.00001080
DATA: success (warning: decay rates inconsistent) 0.019 Belarusian Anatolia_Neolithic Pathan 3.93 4.42 2.02 42% 104.78 +/- 14.08 0.00001497 +/- 0.00000380 92.46 +/- 19.49 0.00001427 +/- 0.00000323 141.03 +/- 36.42 0.00001165 +/- 0.00000577
DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success (warning: decay rates inconsistent) 0.026 Belarusian Anatolia_Neolithic Uygur 3.87 4.42 2.54 56% 71.95 +/- 14.95 0.00001528 +/- 0.00000395 92.46 +/- 19.49 0.00001427 +/- 0.00000323 127.39 +/- 37.67 0.00001541 +/- 0.00000606
DATA: success (warning: decay rates inconsistent) 0.02 Belarusian Druze Selkup 3.93 2.02 3.14 73% 51.53 +/- 13.06 0.00001224 +/- 0.00000311 110.46 +/- 43.38 0.00001040 +/- 0.00000516 59.53 +/- 18.98 0.00000945 +/- 0.00000299
DATA: success (warning: decay rates inconsistent) 0.044 Belarusian Mala Syrian 3.73 3.87 2.84 28% 72.39 +/- 19.33 0.00000805 +/- 0.00000216 87.55 +/- 18.75 0.00001071 +/- 0.00000277 96.31 +/- 27.52 0.00000993 +/- 0.00000350
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Mixtec Spain_EN 3.85 2.73 2.67 26% 114.65 +/- 21.37 0.00005462 +/- 0.00001417 149.36 +/- 43.83 0.00002944 +/- 0.00001080 117.07 +/- 30.31 0.00002193 +/- 0.00000820
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Anatolia_Neolithic Brahui 3.70 3.45 2.55 32% 63.07 +/- 15.18 0.00000871 +/- 0.00000235 81.39 +/- 21.48 0.00001207 +/- 0.00000349 87.19 +/- 27.66 0.00000771 +/- 0.00000303
DATA: success (warning: decay rates inconsistent) 0.039 Belarusian Anatolia_Neolithic Burusho 3.74 3.45 2.00 61% 89.47 +/- 10.12 0.00001582 +/- 0.00000423 81.39 +/- 21.48 0.00001207 +/- 0.00000349 152.62 +/- 45.80 0.00001482 +/- 0.00000742
DATA: success (warning: decay rates inconsistent) 0.0013 Belarusian Anatolia_Neolithic Chukchi 4.52 3.45 2.79 35% 77.64 +/- 16.37 0.00003602 +/- 0.00000797 81.39 +/- 21.48 0.00001207 +/- 0.00000349 110.36 +/- 39.54 0.00002861 +/- 0.00000981
DATA: success (warning: decay rates inconsistent) 0.038 Belarusian Anatolia_Neolithic Selkup 3.74 3.45 2.41 38% 55.27 +/- 13.63 0.00002155 +/- 0.00000576 81.39 +/- 21.48 0.00001207 +/- 0.00000349 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Anatolia_Neolithic Sindhi 3.83 3.45 2.68 61% 65.40 +/- 9.12 0.00001072 +/- 0.00000280 81.39 +/- 21.48 0.00001207 +/- 0.00000349 122.70 +/- 32.60 0.00001132 +/- 0.00000423
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.00000250 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Uygur 3.85 3.45 2.16 37% 70.37 +/- 13.51 0.00001582 +/- 0.00000411 81.39 +/- 21.48 0.00001207 +/- 0.00000349 102.34 +/- 33.39 0.00001107 +/- 0.00000512
DATA: success (warning: decay rates inconsistent) 0.021 Belarusian British-Roman Koryak 3.89 2.37 2.28 74% 62.36 +/- 16.01 0.00003903 +/- 0.00000934 52.03 +/- 19.63 0.00002305 +/- 0.00000974 113.23 +/- 49.75 0.00002665 +/- 0.00001027
DATA: success (warning: decay rates inconsistent) 0.0084 Belarusian British-Roman Mixtec 4.11 2.37 2.50 80% 64.78 +/- 15.52 0.00004703 +/- 0.00001145 52.03 +/- 19.63 0.00002305 +/- 0.00000974 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success (warning: decay rates inconsistent) 0.01 Belarusian Chukchi Mala 4.06 2.79 4.06 60% 172.83 +/- 30.55 0.00002691 +/- 0.00000663 110.36 +/- 39.54 0.00002861 +/- 0.00000981 93.18 +/- 21.71 0.00001222 +/- 0.00000301
DATA: success (warning: decay rates inconsistent) 0.047 Belarusian Itelmen Uzbek_WGA 3.69 2.36 2.20 54% 142.22 +/- 27.73 0.00006725 +/- 0.00001821 129.35 +/- 53.29 0.00003152 +/- 0.00001338 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.009 Belarusian LBK_EN Selkup 4.09 2.18 2.41 67% 67.83 +/- 16.58 0.00002655 +/- 0.00000641 115.11 +/- 38.65 0.00001960 +/- 0.00000899 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 0.05 Belarusian Selkup Turkish_Trabzon 3.68 2.41 2.11 32% 56.53 +/- 15.37 0.00001451 +/- 0.00000330 57.06 +/- 20.02 0.00000933 +/- 0.00000386 77.83 +/- 33.34 0.00000751 +/- 0.00000355
DATA: success (warning: decay rates inconsistent) 0.017 Belarusian Abhkasian Lahu 4.21 2.47 2.97 174% 32.04 +/- 6.68 0.00001002 +/- 0.00000238 3.95 +/- 1.60 0.00000098 +/- 0.00000024 57.34 +/- 19.33 0.00001384 +/- 0.00000369
DATA: success (warning: decay rates inconsistent) 0.00018 Belarusian Ami_Coriell Uzbek_WGA 5.15 2.09 2.20 63% 162.32 +/- 22.43 0.00007649 +/- 0.00001486 118.09 +/- 56.57 0.00002688 +/- 0.00001279 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0041 Belarusian Anatolia_Neolithic Chukchi 4.52 3.45 2.79 35% 77.64 +/- 16.37 0.00003602 +/- 0.00000797 81.39 +/- 21.48 0.00001207 +/- 0.00000349 110.36 +/- 39.54 0.00002861 +/- 0.00000981
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Daur 4.12 3.45 2.63 47% 73.39 +/- 17.81 0.00002378 +/- 0.00000569 81.39 +/- 21.48 0.00001207 +/- 0.00000349 118.84 +/- 40.98 0.00002486 +/- 0.00000947
DATA: success 0.05 Belarusian Anatolia_Neolithic Han 3.96 3.45 3.00 17% 79.39 +/- 18.74 0.00002687 +/- 0.00000678 81.39 +/- 21.48 0.00001207 +/- 0.00000349 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.00002310 +/- 0.00000644
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.20 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.00000250 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success (warning: decay rates inconsistent) 0.00046 Belarusian Atayal_Coriell Uzbek_WGA 4.97 2.02 2.20 53% 179.16 +/- 31.95 0.00008213 +/- 0.00001654 130.82 +/- 54.40 0.00002576 +/- 0.00001275 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian British-Roman Mixtec 4.11 2.37 2.50 80% 64.78 +/- 15.52 0.00004703 +/- 0.00001145 52.03 +/- 19.63 0.00002305 +/- 0.00000974 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success (warning: decay rates inconsistent) 0.033 Belarusian Chukchi Mala 4.06 2.79 4.06 60% 172.83 +/- 30.55 0.00002691 +/- 0.00000663 110.36 +/- 39.54 0.00002861 +/- 0.00000981 93.18 +/- 21.71 0.00001222 +/- 0.00000301
DATA: success (warning: decay rates inconsistent) 0.009 Belarusian Dai Greek_Islands 4.35 3.05 2.28 32% 122.32 +/- 24.18 0.00004797 +/- 0.00001103 88.71 +/- 29.04 0.00001846 +/- 0.00000511 102.11 +/- 26.83 0.00001569 +/- 0.00000687
DATA: success (warning: decay rates inconsistent) 0.049 Belarusian Dai Uzbek_WGA 3.97 3.05 2.20 87% 160.47 +/- 30.16 0.00006276 +/- 0.00001582 88.71 +/- 29.04 0.00001846 +/- 0.00000511 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0015 Belarusian Daur North_Ossetian 4.73 2.63 2.09 122% 42.94 +/- 8.92 0.00000724 +/- 0.00000153 118.84 +/- 40.98 0.00002486 +/- 0.00000947 178.58 +/- 51.90 0.00001887 +/- 0.00000901
DATA: success (warning: decay rates inconsistent) 0.047 Belarusian Daur Uzbek_WGA 3.97 2.63 2.20 62% 164.70 +/- 29.83 0.00008292 +/- 0.00002087 118.84 +/- 40.98 0.00002486 +/- 0.00000947 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.00086 Belarusian Eskimo_Chaplin LBK_EN 4.84 2.29 2.18 73% 53.65 +/- 11.08 0.00002657 +/- 0.00000479 63.81 +/- 27.89 0.00001618 +/- 0.00000586 115.11 +/- 38.65 0.00001960 +/- 0.00000899
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Georgian Lahu 4.10 2.89 2.97 166% 43.55 +/- 10.61 0.00001537 +/- 0.00000311 5.27 +/- 1.82 0.00000079 +/- 0.00000023 57.34 +/- 19.33 0.00001384 +/- 0.00000369
DATA: success (warning: decay rates inconsistent) 0.05 Belarusian Georgian Yi 3.96 2.89 3.26 179% 35.28 +/- 8.91 0.00000897 +/- 0.00000226 5.27 +/- 1.82 0.00000079 +/- 0.00000023 93.65 +/- 25.60 0.00002033 +/- 0.00000624
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3.00 15% 108.92 +/- 26.70 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.50 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.20 2.28 3.37 15% 118.40 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.90 0.00002845 +/- 0.00000805
DATA: success (warning: decay rates inconsistent) 0.042 Belarusian Greek_Islands Xibo 4.00 2.28 2.59 37% 101.05 +/- 22.65 0.00003689 +/- 0.00000922 102.11 +/- 26.83 0.00001569 +/- 0.00000687 70.25 +/- 27.10 0.00001649 +/- 0.00000507
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success (warning: decay rates inconsistent) 1.8e-05 Belarusian Han Uzbek_WGA 5.56 3.00 2.20 83% 145.83 +/- 21.23 0.00006518 +/- 0.00001171 93.68 +/- 31.25 0.00002137 +/- 0.00000623 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.023 Belarusian Han Yemenite_Jew 4.14 3.00 2.19 41% 101.08 +/- 19.78 0.00002665 +/- 0.00000644 93.68 +/- 31.25 0.00002137 +/- 0.00000623 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.00017 Belarusian Han_NChina Uzbek_WGA 5.15 3.58 2.20 76% 147.58 +/- 21.48 0.00006493 +/- 0.00001261 101.71 +/- 28.43 0.00002310 +/- 0.00000644 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.021 Belarusian Han_NChina Yemenite_Jew 4.16 3.58 2.19 47% 88.25 +/- 14.91 0.00002464 +/- 0.00000593 101.71 +/- 28.43 0.00002310 +/- 0.00000644 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Japanese Uzbek_WGA 3.99 2.51 2.20 76% 158.76 +/- 32.98 0.00007182 +/- 0.00001802 101.02 +/- 40.27 0.00002259 +/- 0.00000766 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.034 Belarusian Korean Uzbek_WGA 4.05 3.28 2.20 72% 147.50 +/- 22.94 0.00006552 +/- 0.00001618 106.54 +/- 29.46 0.00002451 +/- 0.00000748 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0022 Belarusian Lahu Turkish_Jew 4.65 2.97 3.22 53% 53.69 +/- 9.97 0.00001763 +/- 0.00000379 57.34 +/- 19.33 0.00001384 +/- 0.00000369 92.56 +/- 21.52 0.00000780 +/- 0.00000242
DATA: success (warning: decay rates inconsistent) 7.8e-06 Belarusian Lahu Uzbek_WGA 5.70 2.97 2.20 119% 125.65 +/- 17.75 0.00006183 +/- 0.00001084 57.34 +/- 19.33 0.00001384 +/- 0.00000369 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.028 Belarusian Lahu Yemenite_Jew 4.10 2.97 2.19 85% 73.51 +/- 17.32 0.00002186 +/- 0.00000534 57.34 +/- 19.33 0.00001384 +/- 0.00000369 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.029 Belarusian LBK_EN Selkup 4.09 2.18 2.41 67% 67.83 +/- 16.58 0.00002655 +/- 0.00000641 115.11 +/- 38.65 0.00001960 +/- 0.00000899 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 3e-05 Belarusian Miao Uzbek_WGA 5.47 3.63 2.20 89% 141.79 +/- 17.01 0.00005964 +/- 0.00001090 86.31 +/- 23.79 0.00001726 +/- 0.00000411 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.012 Belarusian Miao Yemenite_Jew 4.29 3.63 2.19 49% 96.51 +/- 17.73 0.00002466 +/- 0.00000575 86.31 +/- 23.79 0.00001726 +/- 0.00000411 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.036 Belarusian Naxi Uzbek_WGA 4.04 2.35 2.20 87% 150.57 +/- 27.26 0.00006598 +/- 0.00001633 88.34 +/- 37.62 0.00001891 +/- 0.00000714 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0037 Belarusian Oroqen Uzbek_WGA 4.54 2.50 2.20 75% 159.87 +/- 26.32 0.00007776 +/- 0.00001713 102.18 +/- 40.85 0.00002369 +/- 0.00000834 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.043 Belarusian She Uzbek_WGA 3.99 3.16 2.20 70% 177.32 +/- 34.01 0.00008208 +/- 0.00002055 108.68 +/- 31.62 0.00002238 +/- 0.00000708 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.029 Belarusian Tu Uzbek_WGA 4.09 2.28 2.20 85% 150.44 +/- 31.12 0.00006074 +/- 0.00001485 91.29 +/- 40.04 0.00001929 +/- 0.00000802 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.001 Belarusian Tujia Uzbek_WGA 4.80 2.09 2.20 61% 164.13 +/- 25.59 0.00008133 +/- 0.00001693 120.48 +/- 57.69 0.00002290 +/- 0.00001057 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.00002290 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.0053 Belarusian Ulchi Uzbek_WGA 4.47 3.37 2.20 65% 153.49 +/- 25.35 0.00007000 +/- 0.00001567 114.38 +/- 33.90 0.00002845 +/- 0.00000805 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.00055 Belarusian Uzbek_WGA Xibo 4.93 2.20 2.59 105% 129.90 +/- 24.58 0.00005579 +/- 0.00001132 225.56 +/- 61.89 0.00007507 +/- 0.00003406 70.25 +/- 27.10 0.00001649 +/- 0.00000507
DATA: success (warning: decay rates inconsistent) 0.00062 Belarusian Uzbek_WGA Yi 4.91 2.20 3.26 83% 156.22 +/- 22.94 0.00007252 +/- 0.00001478 225.56 +/- 61.89 0.00007507 +/- 0.00003406 93.65 +/- 25.60 0.00002033 +/- 0.00000624
DATA: success (warning: decay rates inconsistent) 0.011 Belarusian Uzbek_WGA Yukagir_Tundra 4.31 2.20 2.55 61% 182.09 +/- 32.35 0.00008497 +/- 0.00001970 225.56 +/- 61.89 0.00007507 +/- 0.00003406 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success (warning: decay rates inconsistent) 0.048 Belarusian Yemenite_Jew Yi 3.97 2.19 3.26 41% 130.87 +/- 22.50 0.00003478 +/- 0.00000876 142.22 +/- 61.15 0.00001902 +/- 0.00000870 93.65 +/- 25.60 0.00002033 +/- 0.00000624

После отсеивания не очень пригодных для дальнейшего анализа триплетов  у нас осталась следующие комбинации:

DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.9 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.05 Belarusian Anatolia_Neolithic Han 3.96 3.45 3 17% 79.39 +/- 18.74 0.00002687 +/- 0.00000678 81.39 +/- 21.48 0.00001207 +/- 0.00000349 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.0000231 +/- 0.00000644
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.2 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3 15% 108.92 +/- 26.7 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.5 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.2 2.28 3.37 15% 118.4 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.9 0.00002845 +/- 0.00000805
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.0000229 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.0000087

На третьем этапе программа определяет статистическая значимость комбинации (p-статистику):

P-значение (англ. P-value) — величина, используемая при тестировании статистических гипотез. Фактически это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода). Проверка гипотез с помощью P-значения является альтернативой классической процедуре проверки через критическое значение распределения.

Обычно P-значение равно вероятности того, что случайная величина с данным распределением (распределением тестовой статистики при нулевой гипотезе) примет значение, не меньшее, чем фактическое значение тестовой статистики.

Отберем значения P меньше 0.05

DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.0000231 +/- 0.00000644
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.5 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.9 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.2 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.2 2.28 3.37 15% 118.4 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.9 0.00002845 +/- 0.00000805
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.0000229 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.0000087
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3 15% 108.92 +/- 26.7 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623

Получаем следующие пары (с датировкой адмикса в поколениях и годах)

Таргет Референс 1 Референс 2 Поколения Погрешность Года Погрешность
Belarusian Anatolia_Neolithic Turkmen 85.64 +/- 28.96 2483.56 +/- 839.84
Belarusian Anatolia_Neolithic Turkmen 72.89 +/- 23.73 2113.81 +/- 688.17
Belarusian Anatolia_Neolithic Han_NChina 101.71 +/- 28.43 2949.59 +/- 824.47
Belarusian Anatolia_Neolithic Turkmen 72.89 +/- 23.73 2113.81 +/- 688.17
Belarusian Greek_Islands Mixtec 121.19 +/- 40.18 3514.51 +/- 1165.22
Belarusian Greek_Islands Yukagir_Tundra 119.62 +/- 45.23 3468.98 +/- 1311.67
Belarusian Anatolia_Neolithic Mala 87.55 +/- 18.75 2538.95 +/- 543.75
Belarusian Anatolia_Neolithic Miao 86.31 +/- 23.79 2502.99 +/- 689.91
Belarusian Greek_Islands Ulchi 114.38 +/- 33.9 3317.02 +/- 983.1
Belarusian Tujia Yemenite_Jew 142.22 +/- 61.15 4124.38 +/- 1773.35
Belarusian Greek_Islands Miao 86.31 +/- 23.79 2502.99 +/- 689.91
Belarusian Greek_Islands Nganasan 97.92 +/- 45.95 2839.68 +/- 1332.55
Belarusian Greek_Islands Han 93.68 +/- 31.25 2716.72 +/- 906.25
Belarusian Anatolia_Neolithic Han 93.68 +/- 31.25 2716.72 +/- 906.25

О чем свидетельствует результаты? Результаты указывают на наличие сигнала смешивания предковых популяций белорусов с неолитическими земледельцами (ближневосточные популяции и популяции ближнего Востока здесь выступают в качестве суррогата неолитических популяций), и с рядом восточноазиатских, сибирских и америндских популяций (здесь они выступают в качестве суррогата сибирского вклада в генофонд восточной Европы) cо средним интервалом смешения примерно 2850 +- 950 лет назад, т.е в период бронзового века.

Ниже приведены графики угасания LD в комбинации Anatolian-Neolithic + Mala

Затем я уменьшил масштаб подгонки (fitting) кривых угасания LD до 0.5 сантиморганид и взял в качестве референса  палеогеномы с хорошим покрытием

Эксперимент с Loschbour + Stuttgart оказался неудачным.

Более правдоподобна комбинация андроновцев (Andronovo) и чукчей (дата адмикса — 125+-60 поколений тому назад)

Вторая попытка подгонки референсных популяций Loschbour и Stuttgart в качестве предковых групп оказался более удачным (дата адмикса — приблизительно 445 +- 56 поколений тому назад, времена энеолита)

Адмикс с сибирскими палеопопуляциями (MA1) примерно в два раза «моложе» (258 +- 42 поколения, бронзовый век)

Еще один вариант адмикса между палеолитическими жителями Европы и MA1 (датировка — 393 +- 75 поколений)

Теперь о поляках. К сожалению, результаты оказались гораздо более зашумленными, так как использовались данные генотипирования на платформе Illumina, имеющей меньшее пересечение снипов со снипами платформы Affymetrix HumanOrigins. Несмотря на это, программа ALDER нашла три комбинации, пусть и с несовместимой амплитудой угасания LD.

DATA: success (warning: decay rates inconsistent) 0.011 Pole Eskimo_Sireniki Irish-BA 3.87 2.01 2.53 40% 146.66 +/- 27.30 0.00035747 +/- 0.00009228 161.51 +/- 69.51 0.00013202 +/- 0.00006577 107.56 +/- 33.31 0.00015435 +/- 0.00006109
DATA: success (warning: decay rates inconsistent) 0.0068 Pole Eskimo_Sireniki Remedello_BA.SG 3.99 2.01 2.57 49% 110.88 +/- 21.02 0.00024049 +/- 0.00006022 161.51 +/- 69.51 0.00013202 +/- 0.00006577 182.60 +/- 39.99 0.00014922 +/- 0.00005796
DATA: success (warning: decay rates inconsistent) 0.035 Pole Eskimo_Chaplin Remedello_BA.SG 3.59 2.51 2.57 56% 102.38 +/- 21.46 0.00022199 +/- 0.00006181 126.26 +/- 42.96 0.00009643 +/- 0.00003846 182.60 +/- 39.99 0.00014922 +/- 0.00005796

Здесь тоже виден слабый сигнал адмикса популяций бронзового века из Западной Европы (Remedello и ирландского бронзового века) c америндскими популяциями.

Впрочем, дополнительный анализ в программе ROLLOFF (с уменьшенным масштабом подгонки — fitting) выдал правдоподобные (c низким значением P) варианты. Например, вариант Bichon + Georgian_Kakheti: 151.41 +/-38.18, p= 4.7e-06

Очень хорошим вариантом оказался вариант адмикса Esperstedt_MN-Halberstadt_LBA: (дата адмикса — 163.80 +/- 34.11), p=4.8e-07

Вторая фаза нового проекта

Две недели назад я сообщил об окончании первой фазы своего нового проекта (на первом этапе работы удалось собрать надежную выборку из более чем 5000 образцов более чем 250 различных этно-популяционных групп людей по всему миру.

Как я уже рапортовал ранее, самой сложной из запланированных на втором этапе задач являлась импутирование (импутация) отсутствующих генотипов.  Читатели моего блога помнят, что две предыдущие экспериментальные попытки импутирования больших выборок     — в 2013  и в 2015  — закончились неудачно (или, если говорить точнее, качество импутированных генотипов не оправдало моих завышенных ожиданий). В предыдущих опытах я задействовал мощную комбинацию программ ShapeIT и IMPUTE и  метод импутирования снипов за счет использования большой референсной панели аутосомных гаплотипов (из 1000 genomes),  гарантирующей более аккуратное определение генотипов.

На этот раз, я решил не повторять ошибок, и обратился к использованию других программ — в частности , к  Minimac3, хорошо зарекомендовавшую себя в работе с геномами 1000G.  К моему счастью, я набрел на недавно появившиеся публичные сервера, работающие с «облачным» сервисом импутирования Cloudgene. геномов.
Серверы импутирования геномов позволяют использовать полную референсную панель гаплотипов для точного определения недостающих генотипов в анализируемых данных. Пользователи подобных серверов могут загружать (предварительно фазированные или несфазированные) данные генотипов на сервер. Процедура импутирования  будет осуществляться на удаленном сервере, и по окончанию этого процесса рассчитанные данные доступны пользователю для скачивания. Наряду с импутированием, подобные сервисы позволяют провести процедуру контроля качества (QC) и фазировки данных в качестве предварительного этапа процесса импутирования генотипов.

Прототипы серверов импутирования уже доступны в институте Сангера и Мичиганского университета. В дополнение к вышеназванным серверам, можно упомянуть прототип сервера поэтапной полномасштабной  фазировки генотипов анализируемых образцов (прототип создан биоинформатиками Оксфордского университета). На мой взгляд, самое простое и доступное решение задачи импутирования на удаленном сервере было разработано сотрудниками   Мичиганского университета. Дополнительное преимущество этому решению дает грамотная документация по использованию сервиса.

Основная рабочая лошадка сервиса — это комбинация двух или трех программ — две програмы для фазирования диплоидных генотипов в гаплоидную фазу  ShapeIT и Hapi-UR , а в качестве основного ПО для самого процесса импутирования (определения) недостающих генотипов — вышеупомянутую программу Minimac3.

Описание эксперимента с импутированием генотипов на удаленном сервере

В самом начале,  я разбил свою выборку на пять когорт (т.к. референсные панели на сервере также разбиты на «этнографические группы»):

  1. европейцы (европейцы + кавказцы) — 1715 образцов -87169 снипа
  2. азиаты (+американские аборигены и аборигены островов Тихого Океана) — 2356 образцов — 87044 снипа
  3. африканцы — 1054 образца — 86754 снипов
  4. палеогеномы древних жителей Евразии, Африки и Америки -340 — 594500 снипов
  5. смешанные группы — преимущественно мозабиты, пуэрто-риканцы и др.
QC-Report
На рисунке показана корреляция между частотами аллелей в изучаемоей выборке (здесь: европейская когорта) и частотами аллелей в референсной панели

К моему вящему неудовльствию,  некоторые образцы в сводной выборке не прошли контроль качества — в первую очередь это касается образцов европейцев из базы данных POPRES, а также выборок статьи  Xing et al. (2010). Скорее всего, их нужно будет импутировать отдельно.

Несмотря на значительную скорость обработки генотипов на удаленном сервере, к настоящему времени эксперимент еще не доведен до конца.  Пока я планирую ограничиться импутированием генотипов в 3 первых когортах (т.к. импутирование палеогеномов с помощью современных референсных панелей гаплотипов вероятнее всего приведет к искажению истинного разнообразия палеогеномов за счет проекции на современные группы населения, хотя авторы статьи Gamba et al. 2014 в сопроводительном материале к своей статье утверждают обратное).

После окончания фазирования и последующей обработки генотипов европейской когорты в программе Plink (были отсеяны все варианты с вероятностью ниже 0.9) ,  я получил выборку из 1715 европейцев с 25 215 169 снипами против изначальных 87169, т.е число снипов в выборке увеличилось в 290 раз!
В азиатской когорте соотношение импутированных генотипов к исходным составило чуть меньшую величину 19 048 308 / 87044 = 219.

Проверка результатов

Разумеется, все полученные результаты нуждались в дополнительной проверке качества генотипирования.
Cначала я объединил импутированную европейскую когорту с когортой палеогеномов (которая не была импутирована) и рассчитал в программе PLINK 1.9 матрицу IBS (т.е. сходства образцов в выборке между собой, эта метрика отдаленно напоминает Global Similarity в клиентских отчетах 23andme), а затем усреднил данные по популяциям и произвел по усредненным значениям иерархическую кластеризацию по признакам сходства (IBS, identity by state). Результат превзошел все мои пессимистические ожидания

 

 

Как становится очевидно из приведенной выше кластерограммы,  в целом взаимное расположение популяций в кластерах соответствует (в общих чертах) взаимному географическому положению. Присутствуют, правда, и некоторые огрехи. Так, например, венгры очутились в одном кластере с русскими из Курска,  норвежцы — с русскими из Смоленска, а усредненные «русские» — с американцами европейского происхождения из штата Юта и французами. Трудно сказать, в чем здесь причина, тем более что матрица была составлена по значениям IBS (идентичности по состоянию), а не IBD (идентичности по происхождению).  Более подробные данные о попарных значениях IBS между популяциями выборки можно посмотреть в этой таблице

Импутированная азиатская когорта (несмотря на расширение географии за счет включения образцов коренного населения Америки и аборигенов бассейна Тихого океана)  тоже  оказалась на удивление надежной. Я пока не буду останавливаться на подробностях изучения этой когорты, вместо этого я размещаю здесь результаты MDS- мультдименсионального шкалирования образцов выборки, образованной в ходе слияния 2 импутированных когорт (европейской и азиатской) с 1 неимпутированной (палеогеномы). Цветовое обозначение точек соответствует определенным кластерам, выявленных в выборке с помощью алгоритма MCLUST (cледуя рекомендациям Диенека Понтикоса). Всего этих кластеров 15 и они обозначены последовательностью чисел от 1 до 15, и каждый из этих кластеров имеет свою четкую географическую привязку:

  • 1 — кластер популяций ближнего Востока и  Анатолии
  • 2 — кластер популяций северного Кавказа
  • 3 — «индоевропейский» кластер древних популяций Синташта, шнуровой культуры, Ямной культуры и т.д.
  •  4 — кластер аборигенных жителей Америки (эскимосов и индейцев)
  • 5 — суперкластер популяций средиземноморского и восточноевропейского региона
  • 6 — сибирский кластер алтайских и самодийских популяций
  • 7 — кластер популяций западной и северной Европы
  • 8 — кластер палеосибирских популяций (таких как чукчи, ительмены и коряки)
  • 9 — кластер аборигенных (австронезийских и тай-кадайских) популяций юго-восточной Азии (даи, атаяла и ами)
  • 10 — кластер неолитических популяций
  • 11 — еще один ближневосточно-средиземноморский кластер (ашкеназим, сардинцы и так далее)
  • 12 — кластер североиндийских популяций
  • 13 — кластер центральноазиатских популяций
  • 14 — поволжские популяции
  • 15 — разные групп индусов

 

Обновление проекта: окончание первой фазы

После нескольких лет практически полного пассивного бездействия в области изучения генетической вариативности популяций населения Восточной Европы, я решил продолжить свои скромные изыскания в этом вопросе. Примерно год ушел на пересборку и соединение различных выборок популяций (выборки разных исследований содержат разное количество частично перекрывающихся снипов, и это обстоятельство существенно влияет на качество и значимость получаемыых в анализе таких выборок результатов). К сожалению, разница в частотах минорных снипов в выборках одних и тех же этнических групп, но генотипированных на разных платформах Illumina и Affy,  приводит к существенному снижению качества импутирования недостающих маркеров. Это очень плохо, так как во многих из разработанных методик анализа генетического разнообразия,  надежность результатов напрямую зависит от полноты генотипирования, т.е. в идеале во всех популяциях должны быть равномерно представлены все снипы, т.е маркеры из полного объединенного набора.  Вопреки моим ожиданиям, у этой проблемы не существует тривиального решения, поэтому я решил отложить задачу импутации отсутствующих генотипов в образцах выборки на дальнейшее (чуть позже я поделюсь своими соображениями о том, как сделать результат импутирования более точным).

Ровно год назад я сообщил о том, что в основу (базу) новой выборки будут положены полный публичный кураторский набор контрольных популяционных групп лаборатории Райха, что и было выполнено частично, хотя запланированную процедуру импутирования так и не удалось завершить в силу огромной компьютерной ресурсозатратности задачи.

Все же, с учетом тяжелых уроков всех предыдущих ошибок (в том числе и при работе с палеогеномами человека), мне все же удалось собрать набор из примерно 6500 сэмплов из более чем 250 этно-популяционных групп со всего земного шара. На этом можно считать первую фазу законченной.

В качестве предварительной иллюстрации надежности результатов можно привести график PCA (анализа главных компонентов генетической вариативности в западноевразийских популяциях из описанной выше сводной выборки, после применения соответствующих фильтров контроля качества снипов).

West-Eurasia (modern and ancient samples)

Как мне кажется, получился неплохой график PC (анализа главных компонент) древних и современных групп народонаселения, причем  хорошо видно на какие современные группы накладываются палеогеномы.
Но теперь другая проблема — я не могу сохранить этот график в формате PDF (видимо, разработчики Plotly отключили эту опцию в бесплатной версии). Можно выгрузить графику в файл png, но в отличие от векторного формата pdf, png — формат растровый, и улучшить качество графики уже не получится.

Поэтому я сделал альтернативные варианты (без использования пакета Plotly) графика с изображением положения популяций в пространстве двух главных компонентов генетического разнообразия Евразии.

После несколько лет практически полного отсутствия активности в области изучения генетической вариативности популяций населения Восточной Европы, я решил продолжить свои скромные изыскания в этом вопросе. Примерно год ушел на пересборку и соединение различных выборок популяций (выборки разных исследований содержат разное количество частично перекрывающихся снипов, и это обстоятельство существенно влияет на статистическое качество). К сожалению, разница в частотах минорных снипов в выборках одних и тех же этнических групп, но генотипированных на разных платформах Illumina и Affy,  приводит к существенному снижению импутирования недостающих маркеров. Это очень плохо, так как во многих из предложенных методик анализа генетического разнообразия,  надежность результатов напрямую зависит от полноты генотипирования, т.е. в идеале во всех популяциях должны быть равномерно представлены все снипы, т.е маркеры из полного объединенного набора.  Вопреки моим ожиданиям, у этой проблемы не существует тривиального решения, поэтому я решил отложить задачу импутации отсутствующих генотипов в образцах выборки на дальнейшее (чуть позже я поделюсь своими соображениями о том, как сделать результат импутирования более точным).

Ровно год назад я сообщил о том, что в основу (базу) новой выборки будут положены полный публичный кураторский набор контрольных популяционных групп лаборатории Райха, что и было выполнено частично, хотя запланированную процедуру импутирования так и не удалось завершить в силу огромной компьютерной ресурсозатратности задачи.

Все же, с учетом тяжелых уроков всех предыдущих ошибок (в том числе и при работе с палеогеномами человека), мне все же удалось собрать набор из примерно 6500 сэмплов из более чем 250 этно-популяционных групп со всего земного шара. На этом можно считать первую фазу законченной.

В качестве предварительной иллюстрации надежности результатов можно привести график PCA (анализа главных компонентов генетической вариативности в западноевразийских популяциях из описанной выше сводной выборки, после применения соответствующих фильтров контроля качества снипов).

West-Eurasia (modern and ancient samples)

Как мне кажется, получился неплохой график PC (анализа главных компонент) древних и современных групп народонаселения, причем  хорошо видно на какие современные группы накладываются палеогеномы.
Но теперь другая проблема — я не могу сохранить этот график в формате PDF (видимо, разработчики Plotly отключили эту опцию в бесплатной версии). Можно выгрузить графику в файл png, но в отличие от векторного формата pdf, png — формат растровый, и улучшить качество графики уже не получится.

Поэтому я сделал альтернативные варианты (без использования пакета Plotly) графика с изображением положения популяций в пространстве двух главных компонентов генетического разнообразия Евразии.

Первые палеогеномы человека из Ирландии

Известный ресурс Генофонд.ру опубликовал неплохой русскоязычный разбор новой статьи, в которой приведены результаты изучения древних ирландских палеогеномов. Я ограничусь несколькими комментариями, которые касаются непосредственно анализа аутосомной части этих палеогеномов.

Анализ главных компонент (РСА) четырех древних ирландских геномов в сравнении с 78 другими древними геномами и 677 геномами современных популяций показал, что неолитический ирландский геном (Ballynahatty) попал в кластер с другими неолитическими европейскими геномами, а геномы бронзового века (Irish Bronze Age, Rathlin, 3,2,1) – в кластер геномов бронзового века Центральной и Северной Европы.

Анализ главных компонент древних ирландских геномов – неолитического (Ballynahatty) и бронзового века (Irish Bronze Age, Rathlin, 3,2,1), 78 других древних геномов и 677 геномов современных популяций Европы (на основе 354 212 SNP-маркеров).

Анализ главных компонент древних ирландских геномов – неолитического (Ballynahatty) и бронзового века (Irish Bronze Age, Rathlin, 3,2,1), 78 других древних геномов и 677 геномов современных популяций Европы (на основе 354 212 SNP-маркеров).

Анализ по методу ADMIXTURE (при заданном числе предковых популяций К=11) во всех древних геномах Ирландии выявляет большую долю компонента охотников-собирателей (красный цвет) и также большую долю компонента неолитических земледельцев (оранжевый цвет). В геномах бронзового века появляется и степной компонент (голубой цвет). Три ирландских генома бронзового века по предковому спектру сходны с одновременными им континентальными геномами.

Спектр предковых компонентов ADMIXTURE (при К=11). Ирландские геномы (неолитический и бронзового века) обозначены зелеными метками.

Спектр предковых компонентов ADMIXTURE (при К=11).
Ирландские геномы (неолитический и бронзового века) обозначены зелеными метками.

Проанализировав геномы древних жителей Ирландии, ученые пришли к выводу, что предки современных ирландцев происходили из Восточной и Южной Европы.

Генетики из дублинского Тринити-колледжа вместе с археологами университета Квинс в Белфасте исследовали скелет крестьянки, относящийся к периоду неолита.Возраст хорошо сохранившихся останков оценивается в 5200 лет. Захоронение было обнаружено в 1855 году неподалеку от Белфаста. По словам ученых, геном женщины имеет много общего с геномом современных жителей Испании и Сардинии.
Предки крестьянки, в свою очередь, как полагают исследователи, пришли в Европу с Ближнего Востока, где в свое время появилось первое земледелие. Помимо этого, в распоряжении команды ученых оказались останки троих мужчин с острова Ратлин, живших в бронзовом веке примерно 4200 лет назад. Геном этих мужчин отличался от генома крестьянки – треть структуры ДНК свидетельствует о том, что их предки происходили из понтийских степей Причерноморья, расположенных на территории современных России и Украины.

Я решил проверить их выводы и самостоятельно собрал описанные 4 генома из имеющихся в открытом доступе fastq-файлов  (ENA — Европейский Архив Нуклеотидов), а затем проанализировал геномы в своей новой модели этно-популяционного калькулятора.
Итак, для начала геном неолитической «фермерши» из Белфата. Результаты согласуются с выводами ирландских генетиков. Примерно 45% генома носит неолитическое происхождение (фермеры с Ближнего Востока), 17% — от кавказских охотников собирателей времен палеолита, и 16% от охотников-собирателей западной Европы. Что самое важное — так это практически полное отсутствие степного компонента EHG (восточных охотников-собирателей), 1.14 процентов скорее всего появилось либо в результате ошибок определения генотипов при сборке генома, либо в результате посмертных изменений ДНК.

Neolithic 44.65
Caucasian-HG 17.09
WHG-UHG 16.17
Subsaharian 5.82
NorthAfrican 5.43
Ancestor 3.2
SouthEastAsian 2.92
EastAfrican 1.78
EHG 1.14
Australian 0.95
NearEast 0.43
Siberian 0.34
Amerindian 0.09
Arctic 0.01
ANI 0
Oceanic 0

Далее останки первого мужчины RM217 из захоронений бронзового века на острове Ратлин. Степной EHG у него уже присутствует в значимых долях, и вместе с компонентом западноевропейских охотников-собирателей составляет примерно треть генома, а вместе с родственным североиндийским компонентом ANI — почти половину генома. Caucasian-HG остался примерно таким же, как и у неолитической крестьянки, а главное отличие — в уменьшении неолитического компонента.

WHG-UHG 27.32
Neolithic 18.3
EHG 17.16
Caucasian-HG 13.16
ANI 7.98
Subsaharian 5.56
Ancestor 4.16
Amerindian 3.38
Oceanic 1.28
Siberian 0.86
EastAfrican 0.8
Australian 0.03
Arctic 0
NearEast 0
NorthAfrican 0
SouthEastAsian 0

Результаты двух других мужчин RSK1 и RSK2 с того же Ратлина характеризуются схожим распределением компонентов — с той лишь разницей, что из-за худшего качества прочтения этоих геномов, амплитуда частот более резкая (результат «зашумленности» прочтений геномов).

WHG-UHG 28.82
Neolithic 24.7
EHG 18.55
Caucasian-HG 13.45
Amerindian 3.48
ANI 3.2
Subsaharian 2.22
Siberian 2.03
NearEast 1.36
Ancestor 0.77
Australian 0.73
Oceanic 0.64
SouthEastAsian 0.05
Arctic 0
EastAfrican 0
NorthAfrican 0

Еще раз о палеогеномах европейцев (к работе Haak et. al. 2015)

Еще когда появились первые анонсы препринта статьи Haak et al. 2015,  можно было сделать интуитивные предположения о том, что использованные в работе образцы палеогеномов будут всесторонне изучены не только авторами статьи, но и многочисленными любителями, причем ожидаемая степень детализации полученной картины генетического разнообразия  будет предположительно выше именно у последних (т.е всевозможных геномнных блоггеров).

Так оно и вышло. Давид Веселовский из Eurogenes провел целый ряд экспериментов с объединенным базовым набром «геномов» современных популяций и так называемых древних геномов.  В частности, в одном из своих анализов он задействовал новую программу qpAdm из последней версии пакета Admixtools,  и в ходе пробного моделирования геномов представителей ямной культуры из самарской культуры был наилучшая аппроксимация (fit, подгонка) была получена в комбинации  51.4% генома  охотников-собирателей Самары и  48.6 современных грузин (STD 0,032, chisq 3,890, р-value 2.20661e-22). Образцы палеогеномов представителей  шнуровой керамики могут быть в свою очередь смоделированы как 73% геномов ямников + 27% палеогеномов Esperstedt_MN (STD 0,060, chisq 2,621, р-value 9.74968e-06).

Это интересный результат, главным образом потому данные лингвистики позволяют предположить, что ранние индоевропейцы — по-видимому, кочевники ямной культуры или их предки — были в тесном контакте с прото-картвельскими популяциями.  Похожий результат был получен авторами статьи (у которых представители ямной культуры выступали как 50% -50% смесь геномов карельских охотников-собирателей и армян), а также в моих экспериментах, в которых геномы современных белорусов были представлены  гибридной моделью  современных геномов армян и палегеномов шведских охотников-собирателей Motala.

Впрочем, я согласен с Веселовским — главная проблема с подобными ретроспективными анализами заключается в том, что про причине отсутствия большого количества достоверных древних палеогеномов, популяционные генетики часто вынуждены моделировать древние популяции посредством комбинаций современных популяций. Как отмечает Веселовский, в генофонде современных грузин присутствует (по его оценке) 20% так называемого ANE-компонента, который, вероятно, прибыл на Кавказ из Евразийской степи. Если это так, то алгоритм qpAdm  может переоценить «кавказский» компонент в геномах ямников, по крайней мере, на 10%.

В другом своем анализе Веселовский уделил особое внимание  проблеме происхождения одного из основных компонентов в геноме древних ямников. Так например, анализ Admixture в Haak et al. 2015 включает в себя ряд интригующих компонентов с К = 16 до К = 20, которые, как правило составляют более 40% от генетической структуры потенциально прото-индо-европейских геномов ямников. Веселовский выделил компонент сигнализирующий этот тип «адмикса» и подробно изучил его. Заслуживает внимание тот факт, что компонент достигает своего пика на Кавказе и в горах Гиндукуша, и в целом показывает сильную корреляцию с регионами относительно высокой частоты связанных с палеогеномом MA1  компонентами происхождения (ANE). С другой стороны, другой компонент ямников достигает пиковых значений у  ранних европейских фермеров (EEF), у которых отсутствует компоент ANE.

Выделенные Веселовским 3 основные компоненты-составляющие геномов ямников были преобразованы в синтетические популяции (центрально-азиатская, европейская и неолитическая европейская), которые в свою очередь использовались в качестве подмножества для вычисления векторов загрузки (loadings) в PCA анализе полного набора современных популяций.

https://drive.google.com/file/d/0B9o3EYTdM8lQak82NFVYSUJfWGc/preview

Очевидно, более детальный расклад и анализ вклада различных компонентов геномов палеоевропейцев в геном современных жителей Европы можно найти в подробном анализе Сергея Козлова  «Палеоевропейцы из работы Haak et al, 2015 в свете анализа на IBD-сегменты«.

Как я уже упоминал ранее, мой опыт с «выведением» предкового аутосомного компонента индоевропейцев (обозначенного в статье Lazaridis et al. 2013 сокращением ANE) полностью удался. Поскольку всем очевидно, что этот компонент родственен «североиндийскому предковому компоненту» (ANI — обозначение из статьи Reich et al. 2009 и Moorjani et al 2011) о структуре генофонда индийских этнических групп), я взял 10 индийских этнических групп, имеющихся в кураторском наборе лаборатории Райха и проанализировал эту выборку в Admixture на пропорции вхождения их геномов в 2 априорно заданные кластеры. Первый кластер ANE был априорно задан 40 синтетическим индивидами, сгенерированными в программе Plink на основании расчитанных ранее частот аллелей «чистого» компонента ANE. В качестве дополнительного контрольного образца я использовал геном Malta1, т.к. он содержит в себе наивысшее содержание компонента ANE. Второй кластер был задан 4 индивидами Onge (одна из аборигенных народностей Андаманских островов). Как неоднократно указывалось в литературе, именно жители Андаманских островов являются самыми «чистыми» носителями т.н «южно-индийского» предкового компонента ASI (на континенте чистых носителей этого «компонента» не осталось, в том числе и среди популяций дравидов, ведда и мунда). После нескольких экспериментов по эвристическому методу проб и ошибок, я получил более или менее приемлимое разделение индивидов на 2 кластера, а затем вычислил частоты аллелей в каждом из этих кластеров. Любопытно, что в ходе опыта, удалось не только выделить компонент ANI, но и добиться неплохого уровня дискримнации между компонентом ANI, ANE, и благодаря этому, оба компонента могут быть включены в мой следующий этно-популяционный калькулятор.

Надежность компонентов я проверил на собственных данных. В рабочей модели калькулятора K14 удельное распределение этно-генографических компонентов моего генома выглядит следующим образом:

68.75% — европейский мезолитический компонент
13.12% — северо-евразийский компонент ANE
10.23% — европейский неолитический компонент
4% — ANI (северо-индийский предковый компонент)
1.6% — кавказский компонент
1.2% — алтайский компонент
0.2% — сибирский компонент

Затем я использовал 120 древних образцов аутосомной ДНК человека (начиная с верхнего палеолита до бронзового и железного веков) из последней работы и проработал их в бета-версии своего этно-популяционного калькулятора K14. Я надеялся выделить компонент ANE из ANI, но из таблицы видно, что это фактически один и тот же компонент

Когда я закончу полномерную импутацию всего набора данных от лаборатории Райха, я займусь проведением аналогичных экспериментов. А пока — примерно месяц назад я сообщил о начале первого этапа своего нового проекта. Согласно первоначальному замыслу, на первый этап — фазирование и импутация данных выборок из статей Haak et al .2015 (preprint) и Lazaridis et al. 2014 — я отводил месяц. Так оно и получилось.

В качестве затравки для импутирования я использовал набор 424329 снипов на 22 аутосомных хромосамх. Набор состоял из снипов, прошедших стандратный геномный контроль качества. Фазирование и импутация снипов я проводил с помощью пайплайна Molgenis.

По окончанию этого вычислительно-емкого процесса, мною был получен набор из примерно 5 миллионов снипов; после отсева не входящих в панели Illumina снипов у меня осталось 913841 снипов.

Ниже приведена похромосомная статистика снипов до и после импутации данных.
Как видно, на всех хромосомах (за исключением 19 и 20) количество снипов увеличилось примерно в два раза.

Для оценки качества импутации я сравнил импутированные генотипы своих данных с известными данными из своих сырых данных (снипы с иллюминовского чипсета 23andme) на предмет конкорданса (соответствия).
Оказалось, что у 6.5% импутированных генотипов оба варианта не совпадали с генотипам в rawdata от 23andme, у 17.33% — не совпадал один из двух вариантов. Таким образом, качество импутации составляет примерно 76.18%, что неплохо, учитывая что среднее значение качества импутации в программе IMPUTE v2 + SHAPEIT составляет примерно 69%.

11071088_10206257613949054_7906454924722989677_nChromosome Pre-imputation Post-imputation Percentage of imputed snps

1 36638 88155 41.56
2 40140 90003 44.60
3 33218 62030 53.55
4 23594 54462 43.32
5 19731 55284 35.69
6 27979 56485 49.53
7 22804 49172 46.38
8 23072 48756 47.32
9 19369 42438 45.64
10 25340 49666 51.02
11 23145 46434 49.84
12 16967 45668 37.15
13 14998 35626 42.10
14 15529 36429 42.63
15 14663 27844 52.66
16 15034 33806 44.47
17 7799 24949 31.26
18 11697 27709 42.21
19 7102 17715 40.09
20 12654 5054 -39.94
21 6495 2572 -39.60
22 6361 13584 46.83
424329 913841 36.74

Для проверки полезности полученного набора (объединенного набора «реальных» и импутированных снипов), я соединил его с 112 образцами человеческих палеогеномов из новой статьи Haak et al. 2015. Полученный таким образом набор я проанализировал методом выделения главных компонент, первые две из которых я впоследствии использовал для построения графика главных компонент. Как мне кажется, получилось красиво и правдоподобно.

Two first principal components

 

Через неделю работы в GoogleCloud, получил результаты второго цикла обработки (импутации и фазировки) палеогеномов. Напомню, задачей ставилось увеличение числа снипов палеогеномов до уровня, позволяющего проводить исследования с привлечением сторонних данных по современным человеческим популяциям (т.е не только по тем популяциям, которые включены в кураторский набор лаборатории Рейха, но и другим наборам, генотипированным на платформе Illumina; и что самое главное — с привлечением данных конкретных пользователей 23andme и FTDNA).

И если результатами первой части я был вполне доволен, то этого нельзя сказать о второй части. Теперь я понимаю, что ошибка содержалась в самом дизайне цикла второй части, в которой для импутации и фазирования использовались только реальные и «симуляционные» палеогеномы. В результате, хотя импутация и улучшила взаимное позиционирование палеогеномов в пространстве главных компонент генетического разнообразия, однако при слиянии импутированного в автономном режиме набора палеогеномов с набор полученным в первой части проекта, получилась картина. в которой палеогеномы образуют как бы параллельную субструктуру по отношению к современным популяциям.
Данное обстоятельство объясняется тем, что у древних геномов людей больше общего разнообразия между собой, чем с геномами современных людей (у которых в результате многочисленных генетических дрейфов и бутылочных горлышек большая часть разнообразия была потеряна). По этому причине, при независимой импутации древних геномов их сходство между собой только усилилось, а дистанция с современными популяциями увеличилась. Примечательно при этом, что пропорции вилкообразного разделения генетического разнообразия такие же, как и у современных людей.

На графике PCA эта ситуация прослеживается особенно хорошо, где отчетиливо видно наложение этих двух V-вилок друг на друга (см. нижний график)

Это означает одно — работу над проектом надо продолжить

Тезисные выводы статьи о эволюции «динарской подгруппы» гаплогруппы I2a

На протяжении последних двух месяцев я уделил много cвободного времени организации собранного мной на протяжении последних 6 лет материала и экспериментальных данных, касающихся демографической истории популяции носителей «мужской» (Y-хромосомной) гаплогруппы I2a, причем в фокусе исследования находился тот вариант, который наиболее распространен в Восточной Европе — т.н «динарская ветвь» или «динарская субклада». К началу декабря окончательный вариант статьи (объемом в 50 страниц) был подготовлен к реценизированию, которое должно занять несколько месяцев.

Пару дней назад один из рецензентов, историк Вячеслав Носевич из Беларуси, опубликовал публичный вариант рецензии статьи (этот вариант рецензии я размещу чуть ниже).

Пока ожидается рецензия второго рецензента, я хочу познакомить читателя с главными выводами исследования


Выводы исследования

 

Перед тем как приступить к  обсуждению результатов исследования, необходимо вкратце сформулировать в виде тезисов основные результаты анализов, проведенных в рамках системного метода:

  1. Гаплогруппа I2a1b2a1 определяется снипами CTS176/S2621, CTS1293/S2632, CTS1802/S2638, CTS5375/S2679, CTS5985/S2687, CTS7218/S2702, CTS8239/S2715, CTS8486/S2722, CTS11030/S2768, L178/S328 (и пр.). Согласно данным экспериментальной филогении (эспериментальному дереву гаплогрупп) Yfull (2014) и ISOGG, эта клада разбивается на субклады новыми снипами I-S17250 (к этой субкладе принадлежат все из протестированных представителей т.н «южного динарского Y-STR кластера» и часть представителей т.н. «северного динарского кластера», в то время как у остальной части обнаружено «предковое значение» аллели снипа I-S17250 –), I2a1b2a1b — Y4460 (Y3106, в эту кладу входят выходцы из Беларуси, Латвии, Росии, Польши), и Z17855 (в эту «безымянную» субкладу, еще не принятую в номенклатуре ISOGG, входит часть болгар, македонцев и украинцев).
  2. Самый большую подгруппу образуют дочерние кластеры самой большой субклады I-S17250 (обозначенной в дереве ISOGG как I2a1b2a1a): I2a1b2a1a1-Z16971(Y5596,Y5595, обнаружена у представителей небольшого кавказско-украинского кластера, чей возраст по расчетам дисперсии Y-STR составляет 1000 лет), I2a1b2a1a2-Y4882 (Y4883, представлена в выборке беларусов, украинцев и поляков), I2a1b2a1a3-A356/Z16983 (Y4790, Y4789, данные снипы найдены у части представителей описанного выше «южного-динарского» кластера). Данное распределение субклад гаплогруппы I2a1b2a1 показывает, что разнообразие субклад (ветвей) этой гаплогруппы гораздо выше в восточной Европе, где ареалы распространения дочерних субклад динарского субклала в значительной степени накладываются друг на друга. На Балканах и в южной Европе разнообразие дочерних субклад I2a1b2a1 ниже.
  3. Исходя из имеющихся ныне фактов, можно сделать вывод о том, что так называемый северно-динарский Y-STR кластер I2a1b2a1 («Dinaric-N») соответствует той части родительской ветви I2a1b2a1CTS5966, которая не входит в субкладу I2a1b2a1a3- Z16982/ Z16983/A356 (последняя включает значительную часть южно-динарского Y-STR кластера)[1]. У большинства представителей всей динарской гаплогруппы I2a1b2a1 обнаружены мутировавшие аллели в Y-снипах Y3548, S17250, и YP205. Cледовательно, варианты Y-хромосомы гаплогруппы I2a1b2a1, не имеющие эти три снип-мутации, представляют собой самое ранее кладистическое разделение гаплогруппы I2a1b2a1-CTS5966, видимо незадолго до последующей популяционной экспансией. Прямая патрилинейная родословная носителей этих «предковых вариантов» прослеживается в регионы юго-восточной Польши и смежных регионов западной Украине. Кроме того, в ходе коммерческих исследований проекта FTDNA I2a, у одного из представителей субклада «Disles» (I2a1b2a-CTS10936) — ближайшего (и возможно «родительского») по отношению к корневому уровню «динарской субклады» были определены 2 предковых (-) значения снипов, играющих важное значение в кладистическом разделении «динарского субклада» — CTS10936 + CTS10228- CTS5966-. Примечательно, что этот мужчина по прямой линии тоже происходит из южной Польши. Подводя итог сказанному, можно заметить, что распространение гаплогруппы I2a1b2a1CTS5966 началось в регионе западной Украины или юго-восточной Польше, где до сих пор сохранились «реликтовые» клады (ветви) I2a1b2a1CTS5966 с  «предковыми значениям» трех снипов.[2]
  4. Таким образом, более раннее разделение субклады I2a1b2a1 по 2 DYS-локусам на два кластера – южной и северный — не отражает истинной филогении: по состоянию на конец 2014 года субклад разделяется на 2-3 группы с дальнейшим разбиением на подгруппы; однако в настоящий момент из-за недостатка статистических данных трудно сказать, какие из данных мутаций являются приватными (генеалогическими), а какие актуальны для этнопопуляционных построений.

[1]  Кроме этих снипов, формирующих четко выраженные клады в структуре дерева I2a1b2a1, в одном из  тестов Geno 2.0  у представителя этой гаплогруппы были обнаружен снип CTS8429, чье положение в структуре дерева I2a1b2a1 неизвестно. Стоит также упоминуть снип YP206 (находящийся под снипом  S17250);  зафиксированный в полных геномных данных двух сардинцев из работ Francalacci et al. (2013); а также одноуровневые снипу YP206 ( M1345/CTS934).

[2] В частной переписке К.Нордтведт высказал мнение о том, что первичный ареал распространения этой  гаплогруппы находился в Польше, к югу от Вистулы.

  1. Генография субклад I2a носит нон-инклюзивный характер по отношению других субклад I2a, иными словами ареалы распространения отдельных субклад I2a практически не пересекаются. Распространение I2a1b-M423 в восточной Европе (где представлена главным образом ее «динарская субклада» I2a1b2a1) характеризуется резким градиентом частот: частоты Y хромосом этой субклады резко уменьшаются по мере удаления к западу от Балкан – так, например, этот субклад практически отсутствует у итальянцев, немцев, французов, и швейцарцев. При движении на северо-восток уменьшение частот гораздо более плавное, I2a1b-M423 сохраняет заметные частоты среди населения, говорящего на славянских языках. Распространение частот гаплогруппы I2a1b-M423 в восточной Европе носит бимодальный характер – с максимальным пиком (30-50 %) на Балканах, и с менее выраженным пиком (20-30%) в карпатско-полесском регионе. Наибольшие частоты распространения I2a1b встречаются у жителей Боснии-Герцеговины и хорватов Далмации от 40 до 60%, у сербов и македонцев 20-30%, примерно столько же в Молдавии у гагаузов.
  2. Благодаря находкам древнй ДНК удалось уточнить место первоначального распространения гаплогруппы I2a1b M423 (северо-западная часть Европы), по-крайней мере одной из ее древнейших исчезнувших ветвей, выделившейся из родительской гаплогруппы примерно 8700-9000 лет назад. Образец Лошбур (Loshbour) принадлежит к ветви, параллельной современным дочерним субкладам, которая отделилась от основной ветви не позднее чем 10 000 лет тому назад: к этой исчезнувшей ветви принадлежат и несколько образцов ДНК жителей шведской мезолитической стоянки Motala (Motala 3, Motala 12), которая существовала синхронно Лошбуру. Видимо, в этом же регионе и произошло выделение предковой ветви I2a1b2a12/CTS5966, так как ближайшая к динарской субкладе сестринская субклада I2a1b2a* (так называемый кластер Disles) встречается как в Польше, так и на британских островах, а следующая по удаленности клада (островная субкладаIsles I2a1b1 (L161.1/S185)) встречается практически исключительно на британских островах (подобный изолированный характер может быть связан с обособлением этой ветви в мезолите как следствие гипотетического затоплением Доггерланда около 8500 лет тому назад (Weninger 2008)). Кроме того, оба найденных (в захоронениях древних жителей Паноннской равнины) образцов ДНК гаплогруппы I, (образец NE7 — I2a2a-L1228 и образец KO1 – I2a-L68) принадлежат к параллельным ветвям, ни одна из которых не является предковой ветвью динарской субклады I2a1b2a1.  Исходя из этого можно сделать осторожное предположение о том, что представители динарской субклады I2a1b2a1L147.2/CTS5966 появились на Балканах гораздо позднее неолитического периода.
  3. Визуальное изучение структур минимального остовного и штейрновского деревьев филогенетической сети гаплотипов I2a1b2a1 показало, что большое скопление гаплотипов вокруг большых узлов обеих деревьев  имеет типичную форму филогенетического старкластера  Подобная форма филогенетических кластеров в основном наблюдается в тех случаях, когда происходит быстрый демографический рост одного конкретной филогенетической линии, и этот рост приводит к появлению серии одновременных мутационных событий. Большинство из гаплотипов, входящий в большой узел графа, принадлежат к этнопулам жителей южной Европы (главным образом, Балкан) Исходя из этого можно предположить что экспансия носителей I2a1b2a1-L2/CTS5966 на территории Балкан сопровождалась быстрым демографическим ростом попуялции.
  4. На реконструированной карте место «выделения» I2a1b родительской популяции современных представителей субклады I2a1b2a1 -разместилось чуть южнее швейцарских Альп (обозначено большой красной точкой) (Рисунок 10), примерно в 420 километрах к юго-востоку от места обнаружения древнейшего (8000 лет до настоящего времени) образца ДНК мужчины, принадлежавшего к гаплогруппе I2a1b (Loschbour-Heffingen, Luxembourg) и примерно в 650 километрах к югу от Лихтенштейнской пещеры, в которые были обнаружены 4 скелета мужчин с древнейшими (3000 лет до настоящего времени, культура полей погребения) из найденных образцов гаплогруппы I2a2b, а также в 920 к юго-западу от местонахождения неолитического поселения Apc-Berekalja (Венгрия), где был обнаружен древнейший из найденных образцов I2a2a (возрастом в 6700 лет ). Заметная близость реконструированного места выделения предковой линии I2a1b2a1 к местам нахождения древнейших образцов гаплогруппы I2a в Европе подтверждает правдоподобность подобной реконструкции.
  5. При сопоставлении интервалов возрастов гаплогруппы (т.е расчетных времен жизни ближайшего общего предка гаплогруппы) I2a1b2a1, мы получили среднее медианное значение интервала полученных возрастов. Оно составляет 2757 лет, стандартное отклонение 404 лет (2757 ± 404), верхний предел интервала TMRCA перекрывается с интервалом TMRCA, вычисленного с помощью ρ-статистики 3400 ± 200 лет: Примечательно также, что время расхождения Y-STR кластеров внутри филогенетического дерева лежит в интервале 1700-1300 год до настоящего времени. Это означает, что в этот период времени (т.е между 4 и 7 веками нашей эры) гаплогруппа I2a1b2a1 находилась в активной стадии экспансии.
  6. Безусловный пик-максимум распространения I2a1b2a1 приходится на Балканы (особенно на регион Боснии-Герцеговины), а один из пиков значений дисперсии (разнообразия) гаплотипов — на полесско-карпатский регион Восточной Европы. Исходя из общего правила о приоритете разнообразия (дисперсии) над частотой распространений генетических линий при определении «начальной точки экспансии», предпочтение было отдано дисперсии как  более устойчивому индикатору, в то время, как частоты гаплогрупп больше подвергнуты флуктуациям.
  7. Полученные этнопулы или этнические кластеры имеют специфический: например в выборке выделяется характерный еврейский кластер (украинские и белорусские евреи-представители этого кластера имеют редкие характерные значения Y-STR локусов: DYS537 = 11, DYS464a = 13, DYS456 = 14, DYS458 = 18, DYS576 = 19,DYS570 = 16) с самой высокой интерпопуляционной дистанцией от остальных кластеров и самым низким разнообразием азывает на недавнее происхождение кластера как следствие чистого эфекта основателя, имевшего место примерно 500 лет назад. Боснийско-герцеговинский кластер (второй после еврейского кластера по величине интерпопуляционной дистанции), но с более высоким уровнем разнообразия указывает на более удаленный по времени популяционный эфект основателя. В то время, как географически близкий к боснийско-гецеговинскому кластеру хорватский кластер  I2a1b2a1 характеризуется относительно низким уровнем молекулярного разнообразия (многие хорватские гаплотипы I2a1b2a1 имеют характерный гаплотипный мотив DYS19=14), и незначительной дистанцией с другими популяциями, что отражается в более низком значении индекса стандартного разнообразия (что подразумевает изменение размера эффективной популяции). Данный эффект можно объяснить кумулятивным действием двух параллельных популяционных эффектов -эффекта основателя и эффекта «бутылочного горлышка»
  8. Полученные в ходе анализа молекулярного разнообразия I2a1b2a1 данные свидетельствуют в пользу нашего предположения о том гаплогруппа I2a1b2a1 не является автохтонной гаплогруппой Балкан и Динарских Альп, в противном случае наблюдалась более существенная корреляция между популяцией носителей этой гаплогруппы и антротипом. Поскольку популяции I2a1b2a1 лучше коррелируют с языком, а не с антротипом, то можно сделать два вывода: 1) экспансия носителей субклада I2a1b2a1 произошла недавно, т.к. не утерялась связь представителей генетической линии с языком; 2) поскольку славянские языки были явно привнесены на Балканы, то нужно признать, что I2a1b2a1 были в числе генетических линий, представители которых привнесли славянские языки на Балканы.
  9. По мнению авторов статьи (Boattini et al. 2011) генофонд (включая генофонд Y хромосом) изолированной популяции арберешей не только должен отражать структуру генетического пула алабанцев 500 летней давности, но и служить своего рода «эталоном» генофонда древних балканских популяций. Принимая во внимание низкую частоту встречаемости динарского субклада I2a1b2a1 у современных арбарешей, можно предположить, что субклада I2a1b2a1 встречалась в генофонде популяцих южной части Балканского полуострова 500 лет назад гораздо реже, чем сейчас. Очевидно, что в ходе дальнейших демографических процессов %-ная доля I2a1b2a1 в генофонде южнобалканских популяций значительно увеличилась.
  10. Гипотетическое направление миграций можно восстановить с помощью проекции градиентов значений индекса молекулярного разнообразия на векторную карту со стрелеками, отображающими направление уменьшения значений индекса молекулярного разнообразия. Примечательно, что стрелки направления уменьшения разнообразия гаплотипов в значительной мере перекрываются с маршрутами славянской экспансии.
  11. Результаты теста Мантеля говорят о том, что в выборке I2a1b2a1 не наблюдается статистически значимой корреляции между географической и генетической дистанцией.

Обсуждение выводов исследования

 

Как представляется автору этой статьи, вопрос происхождения и миграции носителей «динарской субклады» I2a1b2a1 невозможно изучить вне интердисциплинарной подхода, т.е подхода в котором тезисы результатов популяционно-генетического исследования будут рассмотрены в более широком ключе, c привлечением данных из исторических наук. В этой связи необходимо посмотреть на эту проблему глазами историка, тем более что время экспансии «динарцев» отлично накладывается на временной интервал экспансии славян на Балканы в «историческое время».

В силу фрагментарности обзора мы не будем касаться не менее важных вопросов о том, как и когда гаплогруппа I появилась в Европе, а также вопросов о времени и месте разделения базальной ветви I на гаплогруппы I1 и I2. В настоящее время мы не располагаем достаточным количеством фактов в пользу одной из многочисленных и равновероятных версий сценария, и поэтому просто обойдем эти вопросы стороны в надежде на предстоящее изучение древней ДНК жителей Европы среднего палеолита и мезолита. По имеющимся в настоящее время данным палеогенетики, гаплгогруппа I (и одна из ее двух основных ветвей — I2a) была широко распространена в западной и северной Европе уже вскоре после окончания последнего ледникового максимума (последняя ледниковая эпоха закончилась между 15 000 и 10 000 годами до н. э., а древнейшие образцы палео-ДНК с гаплогруппой I2a1b датируются 6 тыс. до н.э). Около 14 000 лет до настоящего времени из гаплогруппы I2a выделились I2a1a-M26/PF4056 (эта группа мигрировала к югу от швейцарских Альп в сторону Пиренейского полуострова, и I2a1b-M423, которая мигироровала на север вслед за отступающим ледником и тундровой фауной. Примерно 10 000 лет назад, где-то на территории современной Германии из I2a1b выделились линия  I2a1b1 (кластер «Isles», мигрировавший на Британские острова) и линия I2a1b2 (динарский кластер и кластер Disles). Можно предполагать, что в последующее время I2a1b2 была связана со свидерской культурой — археологической культуры финального палеолита (9 – 8 тыс. до н.э.) на территории Центральной и Восточной Европы, которая была представлена стоянками тундровых охотников на северного оленя, которые использовали стрелы с кремневыми наконечниками. Гипотетическое развитие дальнейшей истории общности носителей I2a1b2 — непосредственных предков I2a1b2a1 – можно выстроить в виде цепочки приемственности культур вплоть до культур участвовавших в этногенезе славян, однако из-за недостаточных сведений о мужском палеогенофонде представителей этих культур данная реконструкция не может быть использована как основание для дальнейших заключений.

К сожалению, cпециальных популяционно-генетических исследований гаплогруппе I крайне мало. Достаточно сказать, что последние специальные исследования по этой гаплогруппе были опубликованы почти 10 лет назад в 2004,2006, 2007 годах – (Rootsi et al. 2004; Roewer et al. 2005; Underhill et al. 2007). Остальные работы, особенно касающиеся Y-хромосомного разнообразия популяций на территории Балкан и бывшей Югославии, преимущественно повторяют выводы озвученные в вышеупомянутых трех работах, ничего не добавляя от себя (Marjanović et al.2005; Peričić et al. 2005; Rebała et al. 2007). Более новые работы со специфическим фокусом на гаплогруппе I1 (Shtrunov 2010) и (De Beule 2010) были незаслуженно обойдены вниманием научного сообщества, так как были написаны «любителями» и опубликованы в неакадемических изданиях.  Поэтому именно работы эстонской исследовательницы-популяционного генетика Роотси задали целый ряд основных положений-гипотез по вопросу происхождения гаплогруппы I, закрепившихся позднее в научных и научно-популярных (Википедия) источниках. Со временем данное положение стало общим местом статей популяционных генетиков при описании особенностей генофонда различных популяций. Если на заре популяционной генетики, выводы делались лишь на основании распределения частот гаплогрупп (большой группы схожих гаплотипов) Y хромосом, то с накоплением фактического материала и совершенствованием методов исследования  появилась возможность кроме частоты учитывать  молекулярное разнообразие и генетические дистанции. Уже без этих исследований выводы на основании только частот являются неполными, а часто и совершенно неверными.

В настоящее время, исходя из описаного выше опыта полисистемного анализа и синтеза молекулярно-генетических (филогенетических и статистических), исторических, археологических данных, а также данных археогенетики (древняя ДНК), можно предположить динарская субклада I2a1b2a1 в массовом количестве появились на Балканах не ранее 2-3 в.н.э и не позднее 6-7 в.н.э., что точно соответствует времени великого переселения народов. В числе значительных миграций населения на Балканы в этом период времени можно назвать миграцию готов, гепидов с севера, а также более позднюю по времени экспансии славян (вернее, генофонда общности, которая говорила на славянском или протославянском языках), которые и принесли с собой этот субклад на Балканы.  Кроме этих двух вариантов, можно рассмотреть и третий вариант, согласно которому субклад I2a1b2a1 уже присутствовал на генофонде балканских популяций на момент начала переселения народов (эта гипотеза предполагает что первоначально популяционная общность носителей  I2a1b2a1 была так или иначе  с дако-фракийским кругом археологических культур). В статье 2010 года (Носевич 2010), Вячеслав Носевич напрямую связывает носителей I2a1b2a1 с фракийским субстратом в формировании славян, отмечая что более высокая концентрация I2а1b2a1 на Полесье по сравнению с Западной Украиной и Словакией говорит в пользу это предположения. Традиционно считается, что вся гаплогруппа I2a cвязана с кругом культур балканского неолита и в том числе, c культурами близкими к трипольцам. Такой вариант возможен, однако окончательный вариант должны дать палеогенетического исследования останков представителей этих культур. Но, если гаплогруппа I2а и присутствовали у трипольцев, их вряд ли можно считать коренным элементом (ядро которого составляли выходцы с Ближнего Востока), скорее всего они представляли остатки местного мезолитического элемента, инкорпорированного в состав этой культуры.

При взвешенном сопоставлении эмпирических статистических данных о характере распространения и разнообразия I2a1b2a1 с различными моделеми миграциий тезис о связи доисторических носителей I2a1b2a1 с фрако-дакийцами представляется несколько натянутым. Этот тезис завязан целико на интерполяции современных частот гаплогрупп на гаплогруппные частоты в прошлом — однако манипуляции с современными частотами в целях реконструкции гипотетических частот распространения в генофонде древних народов всегда вызывают закономерные вопросы. По-крайней мере, подобные эксперименты возможны только исходя из генетических данных полученных в результате анализа останков из захоронений соотвествующих культур или народностей. В противном случае – расчеты могут оказаться совершено произвольны, и им нельзя будет доверять. Однако даже если мы будем из реконструкции предковых частот, то увидем, что I2a1b2a1 вряд ли могла присутствовать в столь значительных количествах у фракийцев, так как и у современных «потомков фракийцев и даков» (болгаров и румын) как частоты распространения, так и уровень дисперсии гаплотипов I2a1b значительно ниже чем у тех же словаков и западных украинцев.  Далее, «балкано-иллирийско-фракийская гипотеза» совершенно не объясняет высокие частоты т.н. «динарской субклады» I2a1b2a1 в Полесье. Не объясняет эта теории и того, что филогенетически I2a1b2a1  не образует удалённых кластеров, что невозможно объяснить допуская автохтонность носителей этой гаплогруппы на Балканах. Ведь за тысячи лет эта линия должна была разветвиться. Но сегодняшние её носители исключительно близки друг к другу и подавляющее их число — славяне.

Тезис о связи носителей I2a1b2a1 c германских субстратом в этногенезе славян также вызывает определенные вопросы. Можно предположить, что присутствие носителей I2a1b2a1 вполне может быть связано как с особенностью ранних (прото-)славянских популяций, так и с непосредственной инвазией северных германцев (например, готов). По крайней мере сейчас уже доказно, что более 8 тысяч лет назад параллельная ветвь носителей I2a1b-M423 проживали в том числе на юге Скандинавии, а зафиксированные в историческое время (эру великого переселения народов) места проживания готов в Восточной Европы (королевство остготов на Балканах и «черняховская» культура в западной Украине) По крайней мере, среди современных этнических скандинавских германцев гаплогруппа I2a1b2a1 не встречается, также как и в Испании, Италии (где  находились королевства готов в раннем средневековье), зато с заметной частотой встречается по всему славянскому ареалу :очень высокие концентрации действительно отмечаются на Балканах, но и у западных славян присутствие его значительно, 8-10% у чехов и поляков, до 20% у словаков).

Довольно высокие частоты распространения и высокий уровень внутригаплогруппного разнообразия, специфическая топология филогенетических деревьев гаплогруппы I2a1b2a1, а также факт нахождения «реликтовых вариантов» гаплогруппы I2a1b2a1 в Польше и Западной Украины  свидетельствует о формировании предкового пула этой субклады в северо-восточной Европе в 1 тыс. до нашей эры и экспансии в 1 тыс. нашей эры. В свете представленных в виде тезисов основных выводо исследованиях, наиболее предпочтителен вариант распространения гаплогруппы I2a1b2a1 на Балканах и всей восточной Европе во время славянской экспансии. Новизна предложенного нами варианта заключается в том, что  коренным образом противоречит принятому в оффициальной популяционной генетике представлению о Балканах, как «прародине» популяции I2a2b (см. раздел (Гаплогруппа I2a общие сведения и обзор публикаций)). Обычно в качестве одного из главных аргументов против версии распространения гаплогруппы I2a1b2a1 вместе с миграциями славянской выдвигается тезис о  однородности состава гаплогрупп у  ранних славян (предполагается, что они принадлежали к различными субкладам R1a1-Z283, (Rebala et al. 2007) особенно R1a1-M458 (Underhill et al. 2009), современный эпицентр распространения которой приходится на ареал пшеворской культуры). Данный аргумент не может быть воспринят так как последние исследования генофонда неолитических культур Европы показали, что уже генофонд этих ранних культур был далеко неоднородны, а в бронзовом веке и позднее степень смешения должна была только увеличится хотя бы в сиду большей мобильности населения. Более вероятным представляется сценарий, в котором уже ранняя славянская общность (которая определяется лингвистическими и археологическими, а не генетическом признаками) была достаточно гетерогенна и включала в себя, наряду с типичными «славянскими» сублкадами R1a1-Z283 (прежде всего дочерних субклад R1a1-M458 и R1a1-Z280), и субклады других гаплогрупп, в частности и I2a1b2a1. В этом случае  ранние славяне образовались в результате «наслоения» R1a-Z280 и/или R1a-M458 на I2a1b2a1. Эта (одна из возможных) модель этногенеза соответствует одной из существующих моделей происхождения славянских языков: неиндоевропейский субстрат оторвал балтов от славян и дал отчёт их самостоятельному существованию в истории как языковой группе, так и целому археологических ряду культур связанных с ними.

 


Первая рецензия В.Л.Носевича

К вопросу о предыстории славян