ALDER анализ происхождения белорусов и поляков

В качестве одного из метода проверки надежности импутированных снипов для анализа популяционной истории различных этнических групп, я использовал метод ALDER (он представляет собой более продвинутую версию алгоритма ROLOFF, описанного в известной работе Patterson et al. 2012).

Метод ALDER  выявляет нюансы популяционной истории через оценку двух важных параметров: а) рекомбинации — процесса обмена участками между разными молекулами ДНК, который напоминает перемешивание игральных карт в колоде (у человека он обязательно происходит при образовании половых клеток) и б) неравновесия по сцеплению — явления, при котором несколько участков ДНК передаются вместе блоками, которые формируются несколько по-разному в разных популяциях из-за того, что в разных популяциях наследуются разные комбинации сегментов ДНК. Таким образом, метод основан на выявлении специфических для каждой популяции сцепленных участков ДНК и на оценке доли общих сегментов в выборках сравниваемых популяций. При этом метод ALDER на основе оценки неравновесия по сцеплению определяет правдоподобность того, что две выбранные группы являются предковыми по отношению к анализируемым популяциям. Кроме того, метод позволяет также установить время смешения через оценку доли рекомбинаций на поколение.
Как было сказано выше, метод ALDER представляет собой расширенный вариант алгоритма ROLLOFF.Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатура LD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории,  чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения  LD в адмиксе напрямую связана с числом поколений, прошедших с момента адмикса,  так как c возрастанием числа поколений увлечивается число рекомбинаций произошедших между  двумя отдельными SNP-ами. Проще говоря: Rolloff соответствует экспоненциальной кривой угасания уровня LD от расстояния, и эта скорость экспоненциального снижения как раз и используется  для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.В качестве двух тестовых популяций я использовал две группы — выборку белорусов (данные публичной коллекции эстонского биоцентра, вошедшие позднее в стандартный набор популяций лаборатории Райха, а также данные белорусов, собранные мной в проекте MDLP) и выборку поляков (из публичной коллекции эстонского биоцентра, а также данные поляков из выборки моего проекта MDLP).   В 2012 году я уже проводил анализ ROLLOFF белорусов, поэтому было интересно посмотреть, как изменится картина после добавления новых палеогеномов и импутированных (негенотипированных) снипов. Для полноты эксперимента, я также включил данные поляков, чтобы посмотреть, работает ли метод на данных, полученных с помощью других платформ генотипирования (NB:когда я проводил анализ, у меня еще не было данных поляков из кураторской базы данных лаборатории Reich).

В качественных референсных популяций (кандидатов в предковые популяции) я использовал набор из 400 популяций в моей расширенной выборки.  Программа работает в три этапа:

  • На первом этапе определяется статистическая значимость сравнения амплитуд угасания 2-референсной LD(в случае наличия такой значимость программа пишет success)

Cледующие комбинации дали положительный результат

Belarusian Andronovo.SG Chukchis
Belarusian Andronovo.SG Koryaks
Belarusian Armenian_Martuni Karelia_HG
Belarusian Bashkir Turkish_Jewish
Belarusian Nordic_LN.SG Villabruna
Belarusian Turkish_Jewish Uzbek
Belarusian Anatolia_Neolithic Brahui
Belarusian Anatolia_Neolithic Burusho
Belarusian Anatolia_Neolithic Itelmen
Belarusian Anatolia_Neolithic Koryak
Belarusian Anatolia_Neolithic Mixtec
Belarusian Anatolia_Neolithic Pathan
Belarusian Anatolia_Neolithic Mala
Belarusian Anatolia_Neolithic Turkmen
Belarusian Anatolia_Neolithic Uygur
Belarusian Druze Selkup
Belarusian Mala Syrian
Belarusian Mixtec Spain_EN
Belarusian Anatolia_Neolithic Brahui
Belarusian Anatolia_Neolithic Burusho
Belarusian Anatolia_Neolithic Chukchi
Belarusian Anatolia_Neolithic Selkup
Belarusian Anatolia_Neolithic Sindhi
Belarusian Anatolia_Neolithic Uygur
Belarusian British-Roman Koryak
Belarusian British-Roman Mixtec
Belarusian Chukchi Mala
Belarusian Itelmen Uzbek_WGA
Belarusian LBK_EN Selkup
Belarusian Selkup Turkish_Trabzon
Belarusian Abhkasian Lahu
Belarusian Ami_Coriell Uzbek_WGA
Belarusian Anatolia_Neolithic Chukchi
Belarusian Anatolia_Neolithic Daur
Anatolia_Neolithic Han
Anatolia_Neolithic Han_NChina
Anatolia_Neolithic Miao
Anatolia_Neolithic Turkmen
Belarusian Atayal_Coriell Uzbek_WGA
Belarusian British-Roman Mixtec
Belarusian Chukchi Mala
Belarusian Dai Greek_Islands
Belarusian Dai Uzbek_WGA
Belarusian Daur North_Ossetian
Belarusian Daur Uzbek_WGA
Belarusian Eskimo_Chaplin LBK_EN
Belarusian Georgian Lahu
Belarusian Georgian Yi
Belarusian Greek_Islands Han
Belarusian Greek_Islands Miao
Belarusian Greek_Islands Mixtec
Belarusian Greek_Islands Nganasan
Belarusian Greek_Islands Ulchi
Belarusian Greek_Islands Xibo
Belarusian Han Uzbek_WGA
Belarusian Han Yemenite_Jew
Belarusian Han_NChina Uzbek_WGA
Belarusian Han_NChina Yemenite_Jew
Belarusian Japanese Uzbek_WGA
Belarusian Korean Uzbek_WGA
Belarusian Lahu Turkish_Jew
Belarusian Lahu Uzbek_WGA
Belarusian Lahu Yemenite_Jew
Belarusian LBK_EN Selkup
Belarusian Miao Uzbek_WGA
Belarusian Miao Yemenite_Jew
Belarusian Naxi Uzbek_WGA
Belarusian Oroqen Uzbek_WGA
Belarusian She Uzbek_WGA
Belarusian Tu Uzbek_WGA
Belarusian Tujia Uzbek_WGA
Belarusian Tujia Yemenite_Jew
Belarusian Ulchi Uzbek_WGA
Belarusian Uzbek_WGA Xibo
Belarusian Uzbek_WGA Yi
Belarusian Uzbek_WGA Yukagir_Tundra
Belarusian Yemenite_Jew Yi
  • На втором — cоответствие скоростей угасания LD в попарном сравнении с референсными популяциями (программа выдает предупреждение, если амплитуды угасания LD несовместимы).  Как видно, большинство триплетов (таргетная популяция + 2 референса) имеет несовместимые амплитуды угасания LD.

DATA: success (warning: decay rates inconsistent) 0.028 Belarusian Andronovo.SG Chukchis 4.64 2.80 2.11 85% 244.96 +/- 44.45 0.00055485 +/- 0.00011964 262.22 +/- 50.30 0.00029724 +/- 0.00010632 105.99 +/- 50.22 0.00013405 +/- 0.00003707
DATA: success (warning: decay rates inconsistent) 3.8e-05 Belarusian Andronovo.SG Koryaks 5.86 2.80 2.36 85% 241.36 +/- 36.30 0.00059837 +/- 0.00010219 262.22 +/- 50.30 0.00029724 +/- 0.00010632 105.75 +/- 44.80 0.00011083 +/- 0.00002791
DATA: success (warning: decay rates inconsistent) 0.037 Belarusian Armenian_Martuni Karelia_HG 4.58 2.20 3.48 53% 206.14 +/- 39.11 0.00072944 +/- 0.00015918 324.91 +/- 90.64 0.00018302 +/- 0.00008311 189.01 +/- 42.42 0.00043186 +/- 0.00012423
DATA: success (warning: decay rates inconsistent) 0.044 Belarusian Bashkir Turkish_Jewish 4.55 2.70 2.53 83% 121.78 +/- 24.93 0.00009384 +/- 0.00002064 153.64 +/- 48.19 0.00006384 +/- 0.00002366 296.25 +/- 73.05 0.00014988 +/- 0.00005929
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Nordic_LN.SG Villabruna 4.54 2.19 5.01 30% 160.01 +/- 35.24 0.00086280 +/- 0.00018037 139.86 +/- 63.88 0.00033916 +/- 0.00014340 117.88 +/- 23.51 0.00043952 +/- 0.00008295
DATA: success (warning: decay rates inconsistent) 0.0032 Belarusian Turkish_Jewish Uzbek 5.07 2.53 2.35 112% 116.58 +/- 23.00 0.00008493 +/- 0.00001382 296.25 +/- 73.05 0.00014988 +/- 0.00005929 83.46 +/- 35.51 0.00004275 +/- 0.00001721
DATA: success (warning: decay rates inconsistent) 0.0066 Belarusian Anatolia_Neolithic Brahui 4.18 4.42 2.87 37% 63.78 +/- 15.17 0.00000803 +/- 0.00000192 92.46 +/- 19.49 0.00001427 +/- 0.00000323 88.94 +/- 27.82 0.00000775 +/- 0.00000270
DATA: success (warning: decay rates inconsistent) 0.019 Belarusian Anatolia_Neolithic Burusho 3.93 4.42 2.19 47% 93.43 +/- 9.05 0.00001536 +/- 0.00000390 92.46 +/- 19.49 0.00001427 +/- 0.00000323 149.25 +/- 37.02 0.00001357 +/- 0.00000621
DATA: success (warning: decay rates inconsistent) 0.035 Belarusian Anatolia_Neolithic Itelmen 3.79 4.42 2.15 64% 69.11 +/- 15.92 0.00002889 +/- 0.00000762 92.46 +/- 19.49 0.00001427 +/- 0.00000323 134.23 +/- 58.31 0.00003278 +/- 0.00001523
DATA: success (warning: decay rates inconsistent) 0.023 Belarusian Anatolia_Neolithic Koryak 3.90 4.42 2.30 30% 82.94 +/- 21.28 0.00003363 +/- 0.00000828 92.46 +/- 19.49 0.00001427 +/- 0.00000323 111.83 +/- 48.56 0.00002562 +/- 0.00000985
DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.90 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Mixtec 3.87 4.42 2.73 71% 71.36 +/- 14.69 0.00003027 +/- 0.00000782 92.46 +/- 19.49 0.00001427 +/- 0.00000323 149.36 +/- 43.83 0.00002944 +/- 0.00001080
DATA: success (warning: decay rates inconsistent) 0.019 Belarusian Anatolia_Neolithic Pathan 3.93 4.42 2.02 42% 104.78 +/- 14.08 0.00001497 +/- 0.00000380 92.46 +/- 19.49 0.00001427 +/- 0.00000323 141.03 +/- 36.42 0.00001165 +/- 0.00000577
DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success (warning: decay rates inconsistent) 0.026 Belarusian Anatolia_Neolithic Uygur 3.87 4.42 2.54 56% 71.95 +/- 14.95 0.00001528 +/- 0.00000395 92.46 +/- 19.49 0.00001427 +/- 0.00000323 127.39 +/- 37.67 0.00001541 +/- 0.00000606
DATA: success (warning: decay rates inconsistent) 0.02 Belarusian Druze Selkup 3.93 2.02 3.14 73% 51.53 +/- 13.06 0.00001224 +/- 0.00000311 110.46 +/- 43.38 0.00001040 +/- 0.00000516 59.53 +/- 18.98 0.00000945 +/- 0.00000299
DATA: success (warning: decay rates inconsistent) 0.044 Belarusian Mala Syrian 3.73 3.87 2.84 28% 72.39 +/- 19.33 0.00000805 +/- 0.00000216 87.55 +/- 18.75 0.00001071 +/- 0.00000277 96.31 +/- 27.52 0.00000993 +/- 0.00000350
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Mixtec Spain_EN 3.85 2.73 2.67 26% 114.65 +/- 21.37 0.00005462 +/- 0.00001417 149.36 +/- 43.83 0.00002944 +/- 0.00001080 117.07 +/- 30.31 0.00002193 +/- 0.00000820
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Anatolia_Neolithic Brahui 3.70 3.45 2.55 32% 63.07 +/- 15.18 0.00000871 +/- 0.00000235 81.39 +/- 21.48 0.00001207 +/- 0.00000349 87.19 +/- 27.66 0.00000771 +/- 0.00000303
DATA: success (warning: decay rates inconsistent) 0.039 Belarusian Anatolia_Neolithic Burusho 3.74 3.45 2.00 61% 89.47 +/- 10.12 0.00001582 +/- 0.00000423 81.39 +/- 21.48 0.00001207 +/- 0.00000349 152.62 +/- 45.80 0.00001482 +/- 0.00000742
DATA: success (warning: decay rates inconsistent) 0.0013 Belarusian Anatolia_Neolithic Chukchi 4.52 3.45 2.79 35% 77.64 +/- 16.37 0.00003602 +/- 0.00000797 81.39 +/- 21.48 0.00001207 +/- 0.00000349 110.36 +/- 39.54 0.00002861 +/- 0.00000981
DATA: success (warning: decay rates inconsistent) 0.038 Belarusian Anatolia_Neolithic Selkup 3.74 3.45 2.41 38% 55.27 +/- 13.63 0.00002155 +/- 0.00000576 81.39 +/- 21.48 0.00001207 +/- 0.00000349 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Anatolia_Neolithic Sindhi 3.83 3.45 2.68 61% 65.40 +/- 9.12 0.00001072 +/- 0.00000280 81.39 +/- 21.48 0.00001207 +/- 0.00000349 122.70 +/- 32.60 0.00001132 +/- 0.00000423
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.00000250 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Uygur 3.85 3.45 2.16 37% 70.37 +/- 13.51 0.00001582 +/- 0.00000411 81.39 +/- 21.48 0.00001207 +/- 0.00000349 102.34 +/- 33.39 0.00001107 +/- 0.00000512
DATA: success (warning: decay rates inconsistent) 0.021 Belarusian British-Roman Koryak 3.89 2.37 2.28 74% 62.36 +/- 16.01 0.00003903 +/- 0.00000934 52.03 +/- 19.63 0.00002305 +/- 0.00000974 113.23 +/- 49.75 0.00002665 +/- 0.00001027
DATA: success (warning: decay rates inconsistent) 0.0084 Belarusian British-Roman Mixtec 4.11 2.37 2.50 80% 64.78 +/- 15.52 0.00004703 +/- 0.00001145 52.03 +/- 19.63 0.00002305 +/- 0.00000974 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success (warning: decay rates inconsistent) 0.01 Belarusian Chukchi Mala 4.06 2.79 4.06 60% 172.83 +/- 30.55 0.00002691 +/- 0.00000663 110.36 +/- 39.54 0.00002861 +/- 0.00000981 93.18 +/- 21.71 0.00001222 +/- 0.00000301
DATA: success (warning: decay rates inconsistent) 0.047 Belarusian Itelmen Uzbek_WGA 3.69 2.36 2.20 54% 142.22 +/- 27.73 0.00006725 +/- 0.00001821 129.35 +/- 53.29 0.00003152 +/- 0.00001338 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.009 Belarusian LBK_EN Selkup 4.09 2.18 2.41 67% 67.83 +/- 16.58 0.00002655 +/- 0.00000641 115.11 +/- 38.65 0.00001960 +/- 0.00000899 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 0.05 Belarusian Selkup Turkish_Trabzon 3.68 2.41 2.11 32% 56.53 +/- 15.37 0.00001451 +/- 0.00000330 57.06 +/- 20.02 0.00000933 +/- 0.00000386 77.83 +/- 33.34 0.00000751 +/- 0.00000355
DATA: success (warning: decay rates inconsistent) 0.017 Belarusian Abhkasian Lahu 4.21 2.47 2.97 174% 32.04 +/- 6.68 0.00001002 +/- 0.00000238 3.95 +/- 1.60 0.00000098 +/- 0.00000024 57.34 +/- 19.33 0.00001384 +/- 0.00000369
DATA: success (warning: decay rates inconsistent) 0.00018 Belarusian Ami_Coriell Uzbek_WGA 5.15 2.09 2.20 63% 162.32 +/- 22.43 0.00007649 +/- 0.00001486 118.09 +/- 56.57 0.00002688 +/- 0.00001279 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0041 Belarusian Anatolia_Neolithic Chukchi 4.52 3.45 2.79 35% 77.64 +/- 16.37 0.00003602 +/- 0.00000797 81.39 +/- 21.48 0.00001207 +/- 0.00000349 110.36 +/- 39.54 0.00002861 +/- 0.00000981
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Daur 4.12 3.45 2.63 47% 73.39 +/- 17.81 0.00002378 +/- 0.00000569 81.39 +/- 21.48 0.00001207 +/- 0.00000349 118.84 +/- 40.98 0.00002486 +/- 0.00000947
DATA: success 0.05 Belarusian Anatolia_Neolithic Han 3.96 3.45 3.00 17% 79.39 +/- 18.74 0.00002687 +/- 0.00000678 81.39 +/- 21.48 0.00001207 +/- 0.00000349 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.00002310 +/- 0.00000644
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.20 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.00000250 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success (warning: decay rates inconsistent) 0.00046 Belarusian Atayal_Coriell Uzbek_WGA 4.97 2.02 2.20 53% 179.16 +/- 31.95 0.00008213 +/- 0.00001654 130.82 +/- 54.40 0.00002576 +/- 0.00001275 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian British-Roman Mixtec 4.11 2.37 2.50 80% 64.78 +/- 15.52 0.00004703 +/- 0.00001145 52.03 +/- 19.63 0.00002305 +/- 0.00000974 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success (warning: decay rates inconsistent) 0.033 Belarusian Chukchi Mala 4.06 2.79 4.06 60% 172.83 +/- 30.55 0.00002691 +/- 0.00000663 110.36 +/- 39.54 0.00002861 +/- 0.00000981 93.18 +/- 21.71 0.00001222 +/- 0.00000301
DATA: success (warning: decay rates inconsistent) 0.009 Belarusian Dai Greek_Islands 4.35 3.05 2.28 32% 122.32 +/- 24.18 0.00004797 +/- 0.00001103 88.71 +/- 29.04 0.00001846 +/- 0.00000511 102.11 +/- 26.83 0.00001569 +/- 0.00000687
DATA: success (warning: decay rates inconsistent) 0.049 Belarusian Dai Uzbek_WGA 3.97 3.05 2.20 87% 160.47 +/- 30.16 0.00006276 +/- 0.00001582 88.71 +/- 29.04 0.00001846 +/- 0.00000511 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0015 Belarusian Daur North_Ossetian 4.73 2.63 2.09 122% 42.94 +/- 8.92 0.00000724 +/- 0.00000153 118.84 +/- 40.98 0.00002486 +/- 0.00000947 178.58 +/- 51.90 0.00001887 +/- 0.00000901
DATA: success (warning: decay rates inconsistent) 0.047 Belarusian Daur Uzbek_WGA 3.97 2.63 2.20 62% 164.70 +/- 29.83 0.00008292 +/- 0.00002087 118.84 +/- 40.98 0.00002486 +/- 0.00000947 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.00086 Belarusian Eskimo_Chaplin LBK_EN 4.84 2.29 2.18 73% 53.65 +/- 11.08 0.00002657 +/- 0.00000479 63.81 +/- 27.89 0.00001618 +/- 0.00000586 115.11 +/- 38.65 0.00001960 +/- 0.00000899
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Georgian Lahu 4.10 2.89 2.97 166% 43.55 +/- 10.61 0.00001537 +/- 0.00000311 5.27 +/- 1.82 0.00000079 +/- 0.00000023 57.34 +/- 19.33 0.00001384 +/- 0.00000369
DATA: success (warning: decay rates inconsistent) 0.05 Belarusian Georgian Yi 3.96 2.89 3.26 179% 35.28 +/- 8.91 0.00000897 +/- 0.00000226 5.27 +/- 1.82 0.00000079 +/- 0.00000023 93.65 +/- 25.60 0.00002033 +/- 0.00000624
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3.00 15% 108.92 +/- 26.70 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.50 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.20 2.28 3.37 15% 118.40 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.90 0.00002845 +/- 0.00000805
DATA: success (warning: decay rates inconsistent) 0.042 Belarusian Greek_Islands Xibo 4.00 2.28 2.59 37% 101.05 +/- 22.65 0.00003689 +/- 0.00000922 102.11 +/- 26.83 0.00001569 +/- 0.00000687 70.25 +/- 27.10 0.00001649 +/- 0.00000507
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success (warning: decay rates inconsistent) 1.8e-05 Belarusian Han Uzbek_WGA 5.56 3.00 2.20 83% 145.83 +/- 21.23 0.00006518 +/- 0.00001171 93.68 +/- 31.25 0.00002137 +/- 0.00000623 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.023 Belarusian Han Yemenite_Jew 4.14 3.00 2.19 41% 101.08 +/- 19.78 0.00002665 +/- 0.00000644 93.68 +/- 31.25 0.00002137 +/- 0.00000623 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.00017 Belarusian Han_NChina Uzbek_WGA 5.15 3.58 2.20 76% 147.58 +/- 21.48 0.00006493 +/- 0.00001261 101.71 +/- 28.43 0.00002310 +/- 0.00000644 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.021 Belarusian Han_NChina Yemenite_Jew 4.16 3.58 2.19 47% 88.25 +/- 14.91 0.00002464 +/- 0.00000593 101.71 +/- 28.43 0.00002310 +/- 0.00000644 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Japanese Uzbek_WGA 3.99 2.51 2.20 76% 158.76 +/- 32.98 0.00007182 +/- 0.00001802 101.02 +/- 40.27 0.00002259 +/- 0.00000766 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.034 Belarusian Korean Uzbek_WGA 4.05 3.28 2.20 72% 147.50 +/- 22.94 0.00006552 +/- 0.00001618 106.54 +/- 29.46 0.00002451 +/- 0.00000748 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0022 Belarusian Lahu Turkish_Jew 4.65 2.97 3.22 53% 53.69 +/- 9.97 0.00001763 +/- 0.00000379 57.34 +/- 19.33 0.00001384 +/- 0.00000369 92.56 +/- 21.52 0.00000780 +/- 0.00000242
DATA: success (warning: decay rates inconsistent) 7.8e-06 Belarusian Lahu Uzbek_WGA 5.70 2.97 2.20 119% 125.65 +/- 17.75 0.00006183 +/- 0.00001084 57.34 +/- 19.33 0.00001384 +/- 0.00000369 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.028 Belarusian Lahu Yemenite_Jew 4.10 2.97 2.19 85% 73.51 +/- 17.32 0.00002186 +/- 0.00000534 57.34 +/- 19.33 0.00001384 +/- 0.00000369 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.029 Belarusian LBK_EN Selkup 4.09 2.18 2.41 67% 67.83 +/- 16.58 0.00002655 +/- 0.00000641 115.11 +/- 38.65 0.00001960 +/- 0.00000899 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 3e-05 Belarusian Miao Uzbek_WGA 5.47 3.63 2.20 89% 141.79 +/- 17.01 0.00005964 +/- 0.00001090 86.31 +/- 23.79 0.00001726 +/- 0.00000411 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.012 Belarusian Miao Yemenite_Jew 4.29 3.63 2.19 49% 96.51 +/- 17.73 0.00002466 +/- 0.00000575 86.31 +/- 23.79 0.00001726 +/- 0.00000411 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.036 Belarusian Naxi Uzbek_WGA 4.04 2.35 2.20 87% 150.57 +/- 27.26 0.00006598 +/- 0.00001633 88.34 +/- 37.62 0.00001891 +/- 0.00000714 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0037 Belarusian Oroqen Uzbek_WGA 4.54 2.50 2.20 75% 159.87 +/- 26.32 0.00007776 +/- 0.00001713 102.18 +/- 40.85 0.00002369 +/- 0.00000834 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.043 Belarusian She Uzbek_WGA 3.99 3.16 2.20 70% 177.32 +/- 34.01 0.00008208 +/- 0.00002055 108.68 +/- 31.62 0.00002238 +/- 0.00000708 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.029 Belarusian Tu Uzbek_WGA 4.09 2.28 2.20 85% 150.44 +/- 31.12 0.00006074 +/- 0.00001485 91.29 +/- 40.04 0.00001929 +/- 0.00000802 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.001 Belarusian Tujia Uzbek_WGA 4.80 2.09 2.20 61% 164.13 +/- 25.59 0.00008133 +/- 0.00001693 120.48 +/- 57.69 0.00002290 +/- 0.00001057 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.00002290 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.0053 Belarusian Ulchi Uzbek_WGA 4.47 3.37 2.20 65% 153.49 +/- 25.35 0.00007000 +/- 0.00001567 114.38 +/- 33.90 0.00002845 +/- 0.00000805 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.00055 Belarusian Uzbek_WGA Xibo 4.93 2.20 2.59 105% 129.90 +/- 24.58 0.00005579 +/- 0.00001132 225.56 +/- 61.89 0.00007507 +/- 0.00003406 70.25 +/- 27.10 0.00001649 +/- 0.00000507
DATA: success (warning: decay rates inconsistent) 0.00062 Belarusian Uzbek_WGA Yi 4.91 2.20 3.26 83% 156.22 +/- 22.94 0.00007252 +/- 0.00001478 225.56 +/- 61.89 0.00007507 +/- 0.00003406 93.65 +/- 25.60 0.00002033 +/- 0.00000624
DATA: success (warning: decay rates inconsistent) 0.011 Belarusian Uzbek_WGA Yukagir_Tundra 4.31 2.20 2.55 61% 182.09 +/- 32.35 0.00008497 +/- 0.00001970 225.56 +/- 61.89 0.00007507 +/- 0.00003406 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success (warning: decay rates inconsistent) 0.048 Belarusian Yemenite_Jew Yi 3.97 2.19 3.26 41% 130.87 +/- 22.50 0.00003478 +/- 0.00000876 142.22 +/- 61.15 0.00001902 +/- 0.00000870 93.65 +/- 25.60 0.00002033 +/- 0.00000624

После отсеивания не очень пригодных для дальнейшего анализа триплетов  у нас осталась следующие комбинации:

DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.9 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.05 Belarusian Anatolia_Neolithic Han 3.96 3.45 3 17% 79.39 +/- 18.74 0.00002687 +/- 0.00000678 81.39 +/- 21.48 0.00001207 +/- 0.00000349 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.0000231 +/- 0.00000644
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.2 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3 15% 108.92 +/- 26.7 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.5 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.2 2.28 3.37 15% 118.4 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.9 0.00002845 +/- 0.00000805
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.0000229 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.0000087

На третьем этапе программа определяет статистическая значимость комбинации (p-статистику):

P-значение (англ. P-value) — величина, используемая при тестировании статистических гипотез. Фактически это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода). Проверка гипотез с помощью P-значения является альтернативой классической процедуре проверки через критическое значение распределения.

Обычно P-значение равно вероятности того, что случайная величина с данным распределением (распределением тестовой статистики при нулевой гипотезе) примет значение, не меньшее, чем фактическое значение тестовой статистики.

Отберем значения P меньше 0.05

DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.0000231 +/- 0.00000644
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.5 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.9 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.2 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.2 2.28 3.37 15% 118.4 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.9 0.00002845 +/- 0.00000805
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.0000229 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.0000087
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3 15% 108.92 +/- 26.7 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623

Получаем следующие пары (с датировкой адмикса в поколениях и годах)

Таргет Референс 1 Референс 2 Поколения Погрешность Года Погрешность
Belarusian Anatolia_Neolithic Turkmen 85.64 +/- 28.96 2483.56 +/- 839.84
Belarusian Anatolia_Neolithic Turkmen 72.89 +/- 23.73 2113.81 +/- 688.17
Belarusian Anatolia_Neolithic Han_NChina 101.71 +/- 28.43 2949.59 +/- 824.47
Belarusian Anatolia_Neolithic Turkmen 72.89 +/- 23.73 2113.81 +/- 688.17
Belarusian Greek_Islands Mixtec 121.19 +/- 40.18 3514.51 +/- 1165.22
Belarusian Greek_Islands Yukagir_Tundra 119.62 +/- 45.23 3468.98 +/- 1311.67
Belarusian Anatolia_Neolithic Mala 87.55 +/- 18.75 2538.95 +/- 543.75
Belarusian Anatolia_Neolithic Miao 86.31 +/- 23.79 2502.99 +/- 689.91
Belarusian Greek_Islands Ulchi 114.38 +/- 33.9 3317.02 +/- 983.1
Belarusian Tujia Yemenite_Jew 142.22 +/- 61.15 4124.38 +/- 1773.35
Belarusian Greek_Islands Miao 86.31 +/- 23.79 2502.99 +/- 689.91
Belarusian Greek_Islands Nganasan 97.92 +/- 45.95 2839.68 +/- 1332.55
Belarusian Greek_Islands Han 93.68 +/- 31.25 2716.72 +/- 906.25
Belarusian Anatolia_Neolithic Han 93.68 +/- 31.25 2716.72 +/- 906.25

О чем свидетельствует результаты? Результаты указывают на наличие сигнала смешивания предковых популяций белорусов с неолитическими земледельцами (ближневосточные популяции и популяции ближнего Востока здесь выступают в качестве суррогата неолитических популяций), и с рядом восточноазиатских, сибирских и америндских популяций (здесь они выступают в качестве суррогата сибирского вклада в генофонд восточной Европы) cо средним интервалом смешения примерно 2850 +- 950 лет назад, т.е в период бронзового века.

Ниже приведены графики угасания LD в комбинации Anatolian-Neolithic + Mala

Затем я уменьшил масштаб подгонки (fitting) кривых угасания LD до 0.5 сантиморганид и взял в качестве референса  палеогеномы с хорошим покрытием

Эксперимент с Loschbour + Stuttgart оказался неудачным.

Более правдоподобна комбинация андроновцев (Andronovo) и чукчей (дата адмикса — 125+-60 поколений тому назад)

Вторая попытка подгонки референсных популяций Loschbour и Stuttgart в качестве предковых групп оказался более удачным (дата адмикса — приблизительно 445 +- 56 поколений тому назад, времена энеолита)

Адмикс с сибирскими палеопопуляциями (MA1) примерно в два раза «моложе» (258 +- 42 поколения, бронзовый век)

Еще один вариант адмикса между палеолитическими жителями Европы и MA1 (датировка — 393 +- 75 поколений)

Теперь о поляках. К сожалению, результаты оказались гораздо более зашумленными, так как использовались данные генотипирования на платформе Illumina, имеющей меньшее пересечение снипов со снипами платформы Affymetrix HumanOrigins. Несмотря на это, программа ALDER нашла три комбинации, пусть и с несовместимой амплитудой угасания LD.

DATA: success (warning: decay rates inconsistent) 0.011 Pole Eskimo_Sireniki Irish-BA 3.87 2.01 2.53 40% 146.66 +/- 27.30 0.00035747 +/- 0.00009228 161.51 +/- 69.51 0.00013202 +/- 0.00006577 107.56 +/- 33.31 0.00015435 +/- 0.00006109
DATA: success (warning: decay rates inconsistent) 0.0068 Pole Eskimo_Sireniki Remedello_BA.SG 3.99 2.01 2.57 49% 110.88 +/- 21.02 0.00024049 +/- 0.00006022 161.51 +/- 69.51 0.00013202 +/- 0.00006577 182.60 +/- 39.99 0.00014922 +/- 0.00005796
DATA: success (warning: decay rates inconsistent) 0.035 Pole Eskimo_Chaplin Remedello_BA.SG 3.59 2.51 2.57 56% 102.38 +/- 21.46 0.00022199 +/- 0.00006181 126.26 +/- 42.96 0.00009643 +/- 0.00003846 182.60 +/- 39.99 0.00014922 +/- 0.00005796

Здесь тоже виден слабый сигнал адмикса популяций бронзового века из Западной Европы (Remedello и ирландского бронзового века) c америндскими популяциями.

Впрочем, дополнительный анализ в программе ROLLOFF (с уменьшенным масштабом подгонки — fitting) выдал правдоподобные (c низким значением P) варианты. Например, вариант Bichon + Georgian_Kakheti: 151.41 +/-38.18, p= 4.7e-06

Очень хорошим вариантом оказался вариант адмикса Esperstedt_MN-Halberstadt_LBA: (дата адмикса — 163.80 +/- 34.11), p=4.8e-07

Еще раз о палеогеномах европейцев (к работе Haak et. al. 2015)

Еще когда появились первые анонсы препринта статьи Haak et al. 2015,  можно было сделать интуитивные предположения о том, что использованные в работе образцы палеогеномов будут всесторонне изучены не только авторами статьи, но и многочисленными любителями, причем ожидаемая степень детализации полученной картины генетического разнообразия  будет предположительно выше именно у последних (т.е всевозможных геномнных блоггеров).

Так оно и вышло. Давид Веселовский из Eurogenes провел целый ряд экспериментов с объединенным базовым набром «геномов» современных популяций и так называемых древних геномов.  В частности, в одном из своих анализов он задействовал новую программу qpAdm из последней версии пакета Admixtools,  и в ходе пробного моделирования геномов представителей ямной культуры из самарской культуры был наилучшая аппроксимация (fit, подгонка) была получена в комбинации  51.4% генома  охотников-собирателей Самары и  48.6 современных грузин (STD 0,032, chisq 3,890, р-value 2.20661e-22). Образцы палеогеномов представителей  шнуровой керамики могут быть в свою очередь смоделированы как 73% геномов ямников + 27% палеогеномов Esperstedt_MN (STD 0,060, chisq 2,621, р-value 9.74968e-06).

Это интересный результат, главным образом потому данные лингвистики позволяют предположить, что ранние индоевропейцы — по-видимому, кочевники ямной культуры или их предки — были в тесном контакте с прото-картвельскими популяциями.  Похожий результат был получен авторами статьи (у которых представители ямной культуры выступали как 50% -50% смесь геномов карельских охотников-собирателей и армян), а также в моих экспериментах, в которых геномы современных белорусов были представлены  гибридной моделью  современных геномов армян и палегеномов шведских охотников-собирателей Motala.

Впрочем, я согласен с Веселовским — главная проблема с подобными ретроспективными анализами заключается в том, что про причине отсутствия большого количества достоверных древних палеогеномов, популяционные генетики часто вынуждены моделировать древние популяции посредством комбинаций современных популяций. Как отмечает Веселовский, в генофонде современных грузин присутствует (по его оценке) 20% так называемого ANE-компонента, который, вероятно, прибыл на Кавказ из Евразийской степи. Если это так, то алгоритм qpAdm  может переоценить «кавказский» компонент в геномах ямников, по крайней мере, на 10%.

В другом своем анализе Веселовский уделил особое внимание  проблеме происхождения одного из основных компонентов в геноме древних ямников. Так например, анализ Admixture в Haak et al. 2015 включает в себя ряд интригующих компонентов с К = 16 до К = 20, которые, как правило составляют более 40% от генетической структуры потенциально прото-индо-европейских геномов ямников. Веселовский выделил компонент сигнализирующий этот тип «адмикса» и подробно изучил его. Заслуживает внимание тот факт, что компонент достигает своего пика на Кавказе и в горах Гиндукуша, и в целом показывает сильную корреляцию с регионами относительно высокой частоты связанных с палеогеномом MA1  компонентами происхождения (ANE). С другой стороны, другой компонент ямников достигает пиковых значений у  ранних европейских фермеров (EEF), у которых отсутствует компоент ANE.

Выделенные Веселовским 3 основные компоненты-составляющие геномов ямников были преобразованы в синтетические популяции (центрально-азиатская, европейская и неолитическая европейская), которые в свою очередь использовались в качестве подмножества для вычисления векторов загрузки (loadings) в PCA анализе полного набора современных популяций.

https://drive.google.com/file/d/0B9o3EYTdM8lQak82NFVYSUJfWGc/preview

Очевидно, более детальный расклад и анализ вклада различных компонентов геномов палеоевропейцев в геном современных жителей Европы можно найти в подробном анализе Сергея Козлова  «Палеоевропейцы из работы Haak et al, 2015 в свете анализа на IBD-сегменты«.

Как я уже упоминал ранее, мой опыт с «выведением» предкового аутосомного компонента индоевропейцев (обозначенного в статье Lazaridis et al. 2013 сокращением ANE) полностью удался. Поскольку всем очевидно, что этот компонент родственен «североиндийскому предковому компоненту» (ANI — обозначение из статьи Reich et al. 2009 и Moorjani et al 2011) о структуре генофонда индийских этнических групп), я взял 10 индийских этнических групп, имеющихся в кураторском наборе лаборатории Райха и проанализировал эту выборку в Admixture на пропорции вхождения их геномов в 2 априорно заданные кластеры. Первый кластер ANE был априорно задан 40 синтетическим индивидами, сгенерированными в программе Plink на основании расчитанных ранее частот аллелей «чистого» компонента ANE. В качестве дополнительного контрольного образца я использовал геном Malta1, т.к. он содержит в себе наивысшее содержание компонента ANE. Второй кластер был задан 4 индивидами Onge (одна из аборигенных народностей Андаманских островов). Как неоднократно указывалось в литературе, именно жители Андаманских островов являются самыми «чистыми» носителями т.н «южно-индийского» предкового компонента ASI (на континенте чистых носителей этого «компонента» не осталось, в том числе и среди популяций дравидов, ведда и мунда). После нескольких экспериментов по эвристическому методу проб и ошибок, я получил более или менее приемлимое разделение индивидов на 2 кластера, а затем вычислил частоты аллелей в каждом из этих кластеров. Любопытно, что в ходе опыта, удалось не только выделить компонент ANI, но и добиться неплохого уровня дискримнации между компонентом ANI, ANE, и благодаря этому, оба компонента могут быть включены в мой следующий этно-популяционный калькулятор.

Надежность компонентов я проверил на собственных данных. В рабочей модели калькулятора K14 удельное распределение этно-генографических компонентов моего генома выглядит следующим образом:

68.75% — европейский мезолитический компонент
13.12% — северо-евразийский компонент ANE
10.23% — европейский неолитический компонент
4% — ANI (северо-индийский предковый компонент)
1.6% — кавказский компонент
1.2% — алтайский компонент
0.2% — сибирский компонент

Затем я использовал 120 древних образцов аутосомной ДНК человека (начиная с верхнего палеолита до бронзового и железного веков) из последней работы и проработал их в бета-версии своего этно-популяционного калькулятора K14. Я надеялся выделить компонент ANE из ANI, но из таблицы видно, что это фактически один и тот же компонент

Когда я закончу полномерную импутацию всего набора данных от лаборатории Райха, я займусь проведением аналогичных экспериментов. А пока — примерно месяц назад я сообщил о начале первого этапа своего нового проекта. Согласно первоначальному замыслу, на первый этап — фазирование и импутация данных выборок из статей Haak et al .2015 (preprint) и Lazaridis et al. 2014 — я отводил месяц. Так оно и получилось.

В качестве затравки для импутирования я использовал набор 424329 снипов на 22 аутосомных хромосамх. Набор состоял из снипов, прошедших стандратный геномный контроль качества. Фазирование и импутация снипов я проводил с помощью пайплайна Molgenis.

По окончанию этого вычислительно-емкого процесса, мною был получен набор из примерно 5 миллионов снипов; после отсева не входящих в панели Illumina снипов у меня осталось 913841 снипов.

Ниже приведена похромосомная статистика снипов до и после импутации данных.
Как видно, на всех хромосомах (за исключением 19 и 20) количество снипов увеличилось примерно в два раза.

Для оценки качества импутации я сравнил импутированные генотипы своих данных с известными данными из своих сырых данных (снипы с иллюминовского чипсета 23andme) на предмет конкорданса (соответствия).
Оказалось, что у 6.5% импутированных генотипов оба варианта не совпадали с генотипам в rawdata от 23andme, у 17.33% — не совпадал один из двух вариантов. Таким образом, качество импутации составляет примерно 76.18%, что неплохо, учитывая что среднее значение качества импутации в программе IMPUTE v2 + SHAPEIT составляет примерно 69%.

11071088_10206257613949054_7906454924722989677_nChromosome Pre-imputation Post-imputation Percentage of imputed snps

1 36638 88155 41.56
2 40140 90003 44.60
3 33218 62030 53.55
4 23594 54462 43.32
5 19731 55284 35.69
6 27979 56485 49.53
7 22804 49172 46.38
8 23072 48756 47.32
9 19369 42438 45.64
10 25340 49666 51.02
11 23145 46434 49.84
12 16967 45668 37.15
13 14998 35626 42.10
14 15529 36429 42.63
15 14663 27844 52.66
16 15034 33806 44.47
17 7799 24949 31.26
18 11697 27709 42.21
19 7102 17715 40.09
20 12654 5054 -39.94
21 6495 2572 -39.60
22 6361 13584 46.83
424329 913841 36.74

Для проверки полезности полученного набора (объединенного набора «реальных» и импутированных снипов), я соединил его с 112 образцами человеческих палеогеномов из новой статьи Haak et al. 2015. Полученный таким образом набор я проанализировал методом выделения главных компонент, первые две из которых я впоследствии использовал для построения графика главных компонент. Как мне кажется, получилось красиво и правдоподобно.

Two first principal components

 

Через неделю работы в GoogleCloud, получил результаты второго цикла обработки (импутации и фазировки) палеогеномов. Напомню, задачей ставилось увеличение числа снипов палеогеномов до уровня, позволяющего проводить исследования с привлечением сторонних данных по современным человеческим популяциям (т.е не только по тем популяциям, которые включены в кураторский набор лаборатории Рейха, но и другим наборам, генотипированным на платформе Illumina; и что самое главное — с привлечением данных конкретных пользователей 23andme и FTDNA).

И если результатами первой части я был вполне доволен, то этого нельзя сказать о второй части. Теперь я понимаю, что ошибка содержалась в самом дизайне цикла второй части, в которой для импутации и фазирования использовались только реальные и «симуляционные» палеогеномы. В результате, хотя импутация и улучшила взаимное позиционирование палеогеномов в пространстве главных компонент генетического разнообразия, однако при слиянии импутированного в автономном режиме набора палеогеномов с набор полученным в первой части проекта, получилась картина. в которой палеогеномы образуют как бы параллельную субструктуру по отношению к современным популяциям.
Данное обстоятельство объясняется тем, что у древних геномов людей больше общего разнообразия между собой, чем с геномами современных людей (у которых в результате многочисленных генетических дрейфов и бутылочных горлышек большая часть разнообразия была потеряна). По этому причине, при независимой импутации древних геномов их сходство между собой только усилилось, а дистанция с современными популяциями увеличилась. Примечательно при этом, что пропорции вилкообразного разделения генетического разнообразия такие же, как и у современных людей.

На графике PCA эта ситуация прослеживается особенно хорошо, где отчетиливо видно наложение этих двух V-вилок друг на друга (см. нижний график)

Это означает одно — работу над проектом надо продолжить

Генетический компонент северных евразийцев (ANE) в свете новых данных

Начало февраля порадовало важным событием: на  сервере Bioraxiv размещен препринт монументальной статьи Haak et al. (Iosif Lazaridis , Nick Patterson , Nadin Rohland , Swapan Mallick , Bastien Llamas , Guido Brandt , Susanne Nordenfelt , Eadaoin Harney , Kristin Stewardson , Qiaomei Fu , Alissa Mittnik , Eszter Bánffy , Christos Economou , Michael Francken , Susanne Friederich , Rafael Garrido Pena , Fredrik Hallgren , Valery Khartanovich , Aleksandr Khokhlov , Michael Kunst , Pavel Kuznetsov , Harald Meller , Oleg Mochalov , Vayacheslav Moiseyev , Nicole Nicklisch , Sandra L. Pichler , Roberto Risch , Manuel A. Rojo Guerra , Christina Roth , Anna Szécsényi-Nagy , Joachim Wahl , Matthias Meyer , Johannes Krause , Dorcas Brown , David Anthony , Alan Cooper , Kurt Werner Alt , David Reich) «Massive migration from the steppe is a source for Indo-European languages in Europe».  Несмотря на то, что сама статья еще находится на стадии препринта, уже сейчас очевидна глубина проработки материала. Нет никаких сомнений в том, что это объемное, вдумчивое и тщательное исследование  войдет в число главных работ в области индоевропеистики. По своей сути, коллектив авторов подвел в этой работе итоги всех предыдущих исследований введенных  «полных геномов» древних жителей Европы (возрастом в 8 000 -4 000 лет),  введенных в научных оборот за последние 2-3 года. Благодаря систематическому подходу к материалу и синтезу предыдущих наработок,  а также за счет использования  новейших физико-химических методов экстрагирования палео-ДНК вкупе с передовым современейшим биоинформатическим программным обеспечением,  авторы смогли строго и скурпулезно подойти к одному из важнейших вопросов истории, лингвистики и археологии — к вопросу о происхождении индоевропейцев.  К чести авторов, они признают, что даже после столь внушительного по своим размерам и качеству исследования, вопрос о первичном месте происхождения индоевропейцев остается открытым, и поэтому собственно обсуждение релевантности исследования палео-ДНК в свете существующих 4 главных теорий  происхождения индоевропейцев занимает в работе относительно мало места (стр.134-139).  Впрочем, вряд ли кто всерьез ожидал от этого исследования окончательного ответа на все вопросы индоевропеистики.  Тем не менее, подробный анализ аутосомного генома, а также однородительских маркеров (митохондриального генома и  Y-хромосомы) представителей целого ряда культур неолита, медногл и бронзового века восточной и западной Европы, и в особенности представителей Ямной культуры,  дает новую подпитку вечному спору между сторонниками разных версий происхождения индоевропейцев (т.к. многие вслед за Гимбутас связывают ямную культуру с общностью протоиндоевропейцев).

annurev-linguist-030514-124812.f2

Зато остальная часть этой 172-страничной работы настолько богата (насыщена) фактическим материалом, что любой, даже самый искушенный, читатель попгенетической литературы получит большое удовольствие от приобщения к плодам многолетней работы умнейших ученых.   А работа, действительно, проделана огромная. Ученые воссоздали геномные данные 69 европейцев, живших между 8 000-3000 лет тому назад, за счет обогащения амплифицированных библиотек палео-ДНК. Эти библиотеки палео-ДНК они использовали для целевого отбора  394577 таргентных полиморфизмов (снипов) в панелях Affymetrix Human Origins. Обогащение именно этих специально отобранных таргентных позиций позволило снизить необходимые для анализа древней ДНК объемы секвенирования в среднем примерно в 250 (!) раз, что позволило авторам изучить на порядок больше лиц в сравнении с предыдущими исследованиями, и получить более полные знания о прошлом.

map

В работе показано, что уже 8,000-5,000 лет  назад население западной и восточной Европы следовали противоположным траекториям развития.

На заре евпропейского неолита, примерно 8,000-7,000 лет назад, отдельныетесно связанные родством и отличные от коренных европейских охотников-собирателей, группы  ранних земледельцев появились в Германии, Венгрии и Испании, в то время как Россия была населена особой группой восточных охотников-собирателей, имеющих родство с населением сибирского палеолита (24 000 л.н.в) , эта группа древних северо-евразийцев (ANE), представлена образцом MA1 (мальчик с палеолитической стоянки Malta-1 из южной Сибири); кроме того, этот компонент неплохо аппроксимируется «сибирской частью» генома изолированных индейцев Южной Америки (каритиана). Два образца охотников-собирателей из России (Карелия и Самары) образуют кластер «восточно-европейских охотников-собирателей «(EHG); пост-мезолитические охотники-собиратели  из Люксембурга, Испании и Венгрии (WHG) находятся на противоположенном конце клина охотников-собирателей, в то время как охотники-собиратели  Швеции  (SHG) находятся посередине. Интересно отметить, что геном охотника-собирателя из Карелии представляет собой смесь 38-40% компонента ANE и 60-62% компонента WHG, причем величина ANE значительно выше 20% ANE, выведенных для  шведского-охотника собирателя Motala-12 в предыдущем исследовании Lazaridis et al 2014).
В соответствии с тем, что EHG являются обмен население больше аллелей с «древних Северной евразийцев» (ГУ 7), чем любой другой.

pca

Примерно  6-5 тысяч лет назад,  на большой части  Европы назад  произошел новый «подъем» потомков мезолитических охотников-собирателей, но в России  степные скотоводы Ямной культуры время произошли от смешивания  предыдущих племен восточно-европейских охотников-собирателей с населением ближневосточного происхождения.  Население Ямной культуры отличалось от своих предшественников -восточно-европейских охотников-собирателей EHG —  меньшим количеством обших аллелей с MA1 (| Z | = 6,7), что  свидетельствует о процессе дисперсии носителей ANE  на территории европейских степей где-то между 5 000-3 000 гг. до н.э. Уменьшение числа общих с образцом MA1 аллелей, вероятно объясняется появлением «примеси» от популяции или популяций, тесно связанных с
популяциями современного ближнего Востока, т.к. самая отрицательная f3-статистика  (отрицательная статистика однозначно свидетельствует о примеси) наблюдается при моделировании жителей Ямной культуры как продукта смешивания носителей компонента EHG  и современных популяций ближнего Востока, таких как армян (Z = -6,3).

Непосредственный контакт между населением западной и восточной Европой состоялся   ~ 4500 лет назад, а в геноме поздне-неолитического населения культуры шнуровой керамики на территории Германии прослеживается 75%-ный «генетический» вклад «степного» компонента представителей ямной культуры. Таким образом геном жителей культуры шнуровой керамики «документирует» массовую миграцию населения с восточной периферии Европы в ее центральные области. Данный «степной» компонент Yamna (гибрид EHG и ближневосточных популяций) сохранялась в значительных пропорциях у всех имеюшисхя образцах из центральной Европы как минимум до ~ 3000 г.н.э, и повсеместно встречается у современных европейцев.

 

admix2

 

Если географическая дихотомия неолитического и мезолитического генетических компонентов в Европе была отмечена еще в работах пионеров популяционной генетки вроде Л. Кавалли-Сфорца, то данные этой работы позволяют вставить последнее звено в решении головоломки. На основании данных можно предположить, каким именно образом третий генетический компонент европейцев (ANE) попал из Сибири  в Европу: сначала этот компонент несли представители EHG,  затем он перешло к «ямникам» (смешанная популяция восточно-европейских охотников-собирателей и населения ближневосточного типа), а затем от ямников к представителям культуры шнуровой керамики, которые представляли собой смесь представителей ямной культуры с средне-неолитическими европейцами.  В настоящее время этот компонент имеет плавное распределение на территории Европы, и по этой причине, мы можем использовать его в анализах структуры как генофонда целых народов, так и генома отдельно взятых людей.

В январе я провел небольшой  эксперимент c «чистым вариантом» аутосомного компонента ANE (ancestral North-Euarasians), впервые описаном в известной работе Lazaridis et al. 2014. Процедура вывода третьего генетического компонента в генофонде европейцев (ANE) оказалась гораздо сложнее, чем я предполагал в начале. Основная сложность заключалась в том, что в отличии от мезолитических и неолитческих сэмплов, у нас нет хорошого образца палеоДНК носителей компонента ANE. Пришлось заниматься реконструкцией генома, используя в качестве заменителей геном MA1 и не-восточноазиатскую часть генома индейцев каритиана. Технически, данный «компонент» был «синтезирован» в программе Plink с помощью 2последовательных запусков генерации «синтетических» популяций на основании частот аллелей аутосомных снипов, вычисленных в3 последовательных запусках программы Admixture.

Я получил компонент с максимально приближенным значениями к значениям компонента ANE в разных популяциях мира в работе Lazaridis et al. 2014. Изучение этого компонента важно для понимания многих неясных моментов истоии древних популяций в восточной Европе и на северном Кавказе. Последние статьи и анонсы лаборатории Давида Рейха к новой статье о составляющих аутосомного генофонда представителей ямной культуры и культуры шнуровой керамики дают основания полагать, что компонент ANE в Евразии могли разносить потоки миграции индоевропейцев, а генетическое разнообразие жителей Европы и Кавказа практически вписывается внутри класссического треугольника (клинов) генетических компонентов ANE-WHG-EEF (см.  ниже график PCA).

10896832_10205857624789575_5582535068712806983_n

Формально,эта гипотеза проверяется с помощью инструментов f3-статистики (A; B,C) — формального теста на статистическую значимость предполагаемого варианта присутствия адмикса двух популяций-доноров в популяции-рецепиенте.

Я решил проверить надежность модели путем представления ряда европейских и кавказских популяций в виде продукта гибридизации носителей компонента ANE с «неолитическим» и «пост-мезолитическим» населением Европы (результаты ниже,  Z в последней колонке.

 

North-Caucas Caucasian ANE -0.0006748 5.13E-05 -13.166
Mesolithic-North Loschbour ANE -0.0011573 0.0001605 -7.21171
Mediterranean-Neolithic Otzi ANE -0.0012012 0.0002376 -5.05634
Mesolithic-North LaBrana ANE -0.0010358 0.0002097 -4.94043
Italian-East Otzi ANE -0.0012473 0.0005013 -2.48825
Italian-East Italian-West ANE -0.0005022 0.0004325 -1.16129
Maltese Otzi ANE -0.0001611 0.0004147 -0.388512
Assyrian-1 Caucasian ANE -0.0002994 0.0009656 -0.310081
Spanish-Canar Loschbour ANE -0.0002557 0.0011264 -0.227017
Italian-East Maltese ANE 2.36E-05 0.0003026 0.0779574
Italian-East Caucasian ANE 6.32E-05 0.000274 0.230808
Spanish-Canar Otzi ANE 0.0003307 0.0012476 0.265081
Assyrian-1 Italian-West ANE 0.0003321 0.0012207 0.272035

Практически все полученные варианты для современных популяций в тесте f3 дали отрицательную Z-оценку.

Буквой Z обозначается стандартная оценка, основанная на нормальном распределении. Иначе говоря, Z-o. является мерой отклонения от среднего, выраженной в единицах стандартного отклонения. Z –оценка будет иметь отрицательную величину, если показатели адмикса будут выше медианного значения.
Очень высокие или очень низкие (отрицательные) Z-оценки, связанные с очень маленькими p-значениями, располагаются в хвостах нормального распределения, и является значимыми, а не случайными. А значит, компонент ANE был индуцирован мною правильно.

 

 

Что еще любопытно, так это то, что третья составляющая современных европейцев — компонент ANE в моем эксперименте плавно разделился на две подсоставляющих — MA1 (древние сибиряки эпохи палеолита) и Кавказ (в качестве основы я брал геномы грузин и армян).

То есть, скорее всего компонент ANE появился в результате смешивания «труъ» древних северных евразийцев и кавказцев. Собственно, об этом намекал Рейх в анонсе своей публикации результатов анализа геномов жителей ямной культуры.

Вероятно, что кавказские популяции (особенно в Дагестане), характеризующиеся высоким уровнем гомо- и аутозиготности в определенном смысле «законсервировали» в своем геноме тот первый массовый вброс компонента ANE в свой генофонд. И по этой причине, например, без специальной методики, в программе Admixture практически весь компонент ANE маскируется бимодальным компонентом, вроде знаменитого Caucas-Gedrosia в одном из первых этно-популяционных калькуляторов проекта Dodecad. Похоже, что генетика может в очередной раз частично примирить две антиномные теории (вернее, целые кластеры теорий) происхождения ИЕ — анатолийскую и степную. Нечто подобное наблюдалось после прочтения геномов неандертальцев и получения убедительных фактов гибридизации предков соврменного человека и архаических гомининов — неандертальцев, денисовцев. В результате чего теории мультирегионального и монорегионального происхождения человка были хотя бы в отдельных моментах приведены к общему знаменателю.

Как я уже упоминал ранее, мой опыт с «выведением» предкового аутосомного компонента индоевропейцев полностью удался. Поскольку всем очевидно, что этот компонент родственен «североиндийскому предковому компоненту» (ANI — обозначение из статьи Reich et al. 2009 и Moorjani et al 2011) о структуре генофонда индийских этнических групп), я взял 10 индийских этнических групп, имеющихся в кураторском наборе лаборатории Райха и проанализировал эту выборку в Admixture на пропорции вхождения их геномов в 2 априорно заданные кластеры. Первый кластер ANE был априорно задан 40 синтетическим индивидами, сгенерированными в программе Plink на основании расчитанных ранее частот аллелей «чистого» компонента ANE. В качестве дополнительного контрольного образца я использовал геном Malta1, т.к. он содержит в себе наивысшее содержание компонента ANE. Второй кластер был задан 4 индивидами Onge (одна из аборигенных народностей Андаманских островов). Как неоднократно указывалось в литературе, именно жители Андаманских островов являются самыми «чистыми» носителями т.н «южно-индийского» предкового компонента ASI (на континенте чистых носителей этого «компонента» не осталось, в том числе и среди популяций дравидов, ведда и мунда). После нескольких экспериментов по эвристическому методу проб и ошибок, я получил более или менее приемлимое разделение индивидов на 2 кластера, а затем вычислил частоты аллелей в каждом из этих кластеров. Любопытно, что в ходе опыта, удалось не только выделить компонент ANI, но и добиться неплохого уровня дискримнации между компонентом ANI, ANE, и благодаря этому, оба компонента могут быть включены в мой следующий этно-популяционный калькулятор.

Надежность компонентов я проверил на собственных данных. В рабочей модели калькулятора K14 удельное распределение этно-генографических компонентов моего генома выглядит следующим образом:

68.75% — европейский мезолитический компонент
13.12% — северо-евразийский компонент ANE
10.23% — европейский неолитический компонент
4% — ANI (северо-индийский предковый компонент)
1.6% — кавказский компонент
1.2% — алтайский компонент
0.2% — сибирский компонент

R Graphics Output

 

 

Публикации и работа с палеогеномами

Как я уже отмечал в своих предыдущих записях, за последние годы был опубликован ряд работ, посвященных попыткам генотипирования останков древних людей — от живших несколько тысячелетий назад до «усть-ишимца» с предположительным возрастом около 45 тысяч лет, неандертальцев и «денисовки». Количество таких расшифровок растет все быстрее, что не может не вызывать оптимизма.  Вторая половина 2014 года особенно примечательна как количеством подобных публикаций, так и числом полных геномных NGS-сиквенсов древних людей, размещенных в публичных репозиториях (банках геномных данных). Так, в сентябре в Nature была опубликована окончательная версия работы Lazaridis et al. 2014  «Ancient human genomes suggest three ancestral populations for present-day Europeans». Работа получила широкое освещение в СМИ, поскольку аналитическая выборка сэмплов в этом исследовании включала значительное количествао заново генотипированных (на чипе Affymetrix HumanOrigin) образцов ДНК из древних палеолитических стоянок Сибири (Афонтова Гора, Малта), представителя древней индейской культуры Кловис и палеоэскимоса Cаккак. В работе был представлен  целый  ряд образцов древней ДНК представителей европейских мезолитических и неолитических культур, опубликованных в более ранних работах 2012-2014 годов: Skoglund et a. 2014 «Genomic Diversity and Admixture Differs for Stone-Age Scandinavian Foragers and Farmers»(шведские земледельцы и охотники собиратели эпохи неолита); Olalde et al. 2014 «Derived immune and ancestral pigmentation alleles in a 7,000-year-old Mesolithic European» (дДНК мезолитического населения Иберийского полуострова) и т.д.

В этой связи необходимо также отметить статью Carpenter et al. 2013 «Pulling out the 1%: whole-genome capture for the targeted enrichment of ancient DNA sequencing libraries»в которой целый авторский коллектив представил результаты исследований древних образцов ДНК найденных в захоронениях бронзового века II тыс. д.н.э (Болгария и Дания).  В следующей работе опубликованной в конце октября, Gamba et al. 2014. «Genome flux and stasis in a five millennium transect of European prehistory»,  читателям была представлена хронологическая перспектива на процесс изменения генофонда населения популяций живших на территории  Паннонской равнины на протяжении 5000 лет (с эпохи неолита до конца железного века), проиллюстрированная на примере изучения 13 образцов древней ДНК. Параллельно вместе с этим Wellcome Trust Sanger Institute разместил геномные «риды» геномов древних англосаксов и бриттов (сама статья еще находится в процессе пре-публикации, презентация статьи была представлена на последней конференции AJHG).

Более важные публикации появилась совсем недавно. В частности, таковой публикацией является статья Fu et al. 2014 «Genome sequence of a 45,000-year-old modern human from western Siberia» о  геноме так называемого «усть-ишимца» (возраст останков которого датируются 45 000 д.н.э) и статья Seguin-Orlando et al. 2014 «Genomic structure in Europeans dating back at least 36,200 years», посвященная обсуждению результатов анализа ДНК знаменитого «папусоида»  с палеолитической стоянки Костенки-14.Тело мужчины, жившего 37 тыс. лет назад и найденное в 1954 г. на юго-западе России, оказалось источником старейшей европейской ДНК. Анализ его генома, опубликованный на прошлой неделе, показывает, что большинство разнообразных европейских генетических комбинаций существуют более 30 тыс.лет и пережили последний ледниковый период. Генетики обнаружили что ДНК Костенки-14 является близкородственным по отношению к раннеевропейским охотникам-собирателям, современным европейцам и жителям Сибири.
В то же время другой древний геном, данные о котором были опубликованы несколько недель назад, принадлежащий сорокапятитысячелетнему западному сибиряку, известному как Усть-Ишим, имел родство как с европейцами, так и с азиатами.  Любопытно, что в этой статье подтверждается то о чем я говорил гораздо раньше: процент неандертальских генов у древних евразийцев был выше чем у современных (о чем я упоминал в одной из своих заметок в этом блоге).

Трудами известного геномного блоггера Феликса Чандракумара большинство из них было переведено в простой и доступный формат, аналогичный файлам raw data от FTDNA и 23andMe. В GEDMatch можно поиграть с этнокалькуляторами и даже попытаться сравнить свой геном с геномами древних людей.Для этого следует взять из таблицы (кот. видна, если пройти по ссылке) номера, которыми обозначены древние геномы.

Sample Name Sample Location GEDMatch Sex Y-DNA Mt-DNA Approx. Age by authors My Analysis or Comments
Altai Neanderthal Denisova Cave, Siberia F999902 Female 50,000 years
Denisova Denisova Cave, Siberia F999903 Female 30,000 years
Palaeo-Eskimo Qeqertarsuaq, Greenland F999906 Male Q1a D2a1 4,000 years Palaeo-Eskimo 2000 BC DNA
Clovis-Anzick-1 Montana, North America F999919 Male Q-Z780 D4h3a 12,500 years Matches Living people.
Mal’ta South-Central Siberia F999914 Male R U 24,000 years Matches Living people on X Chromosome.
La Braña-Arintero León, Spain F999915 Male C-V183 U5b2c1 7,000 years Analyzing La Braña-Arintero Ancient DNA
Motala-12 Östergötland, Sweden F999917 Male I-L460 U2e1 7,000 years My Analysis of Motala-12 ancient DNA
LBK Stuttgart, Germany F999916 Female T2c2 7,500 years Matches Living people
Loschbour  Loschbour, Luxembourg F999918 Male I-L460 U5b1a 8,000 years Matches Living people
Ajvide58 Sweden F999924 Male I-CTS772 U4d 5000 years Ajvide58 DNA Analysis
Gökhem2 Sweden F999934 Female H1c 5000 years Gökhem2 Ancient DNA Analysis
Hinxton-2 Cambridgshire, UK F999921 Female H2a2b1 1300 years Hinxton-2 Analysis
Hinxton-3 Cambridgshire, UK F999922 Female K1a4a1a2b 1300 years Hinxton-3 Analysis
Hinxton-4 Cambridgshire, UK F999925 Male R-DF25 H1ag1 2000 years Hinxton-4 has X-Matches with living people
Hinxton-5 Cambridgshire, UK F999926 Female H2a2a1 1300 years Hinxton5 Ancient DNA Analysis
KO1 Tiszaszőlős-Domaháza, Hungary F999931 Male I-L68 R3 5650-5780 cal BC Analysis of Neolithic KO1 genome
NE1 Polgár-Ferenci-hát, Hungary F999937 Female U5b2c 5070-5310 cal BC NE1 Ancient DNA Analysis
NE5 Kompolt-Kigyósér, Hungary F999927 Male C-F3393 J1c 4990-5210 cal BC Ancient Hungarian Genome NE5 Analysis
NE6 Apc-Berekalja I., Hungary F999932 Male C-P255 K1a3a3 4950-5300 cal BC Analysis of Hungarian genome-NE6
NE7 Apc-Berekalja I., Hungary F999928 Male I-L1228 N1a 4360-4490 cal BC Ancient Hungarian genome — NE7
CO1 Apc-Berekalja I., Hungary F999930 Female H 2700-2900 cal BC Analysis of Copper age genome CO1
BR2 Ludas-Varjú-dűlő, Hungary F999933 Male J-M67 K1a1a 1110-1270 cal  BC Ancient BR2 matches living people
IR1 Ludas-Varjú-dűlő, Hungary F999929 Male N-M231 G2a1 830-980 cal BC Ancient Hungarian genome — IR1
Tyrolean Iceman
(ERP001144)
Tisenjoch Pass, Oetztal Alps Male 5300 years Pending
Ust’-Ishim Ust’-Ishim, Siberia F999935 Male K-M526 R 45,000 years Ust’-Ishim matches with living people!
Kostenki14 European Russia F999936 Male C-V199 U2b 38,700-36,200 years Kostenki14 Ancient DNA Analysis
Sample Name Sample Location Sex Y-DNA Mt-DNA Approx. Age by authors
Mezmaiskaya Neanderthal Mezmaiskaya Cave Female 29,000 years
Tianyuan Tianyuan Cave, China R 40,000 years
Afontova Gora-2 South-Central Siberia Male R1? R 17,000 years
Motala-1 Östergötland, Sweden Female U5a1 7,000 years
Motala-9 Östergötland, Sweden Female U5a2 or U5a1f1a1 7,000 years
Motala-6 Östergötland, Sweden Male U5a2d 7,000 years
Motala-2 Östergötland, Sweden Male F-P139 U5e1 7,000 years
Motala-4 Östergötland, Sweden Female U5a2d 7,000 years
Motala-3 Östergötland, Sweden Male I-M258 U2e1 7,000 years
Hinxton-1 Cambridgshire, UK Male R-L151 K1a1b1b 2000 years
Ajvide53 Sweden Female U4d 5000 years
Ajvide59 Sweden Male I-PF3796 U5b2c1 5000 years
Gökhem7 Sweden Female H 5000 years
Ire8 Sweden Male I-CTS6343 U4d 5000 years
StoraFörvar11 Stora Karlsö, Sweden Male I-CTS4077 U5a1f1a 7500 years
Gökhem4 Sweden Male CF-M3690 H 5000 years
Gökhem5 Sweden Female K1e 5000 years
Ajvide52 Sweden Male HIJK-F929 HV0a 5000 years
Ajvide70 Sweden Female U4d 5000 years
NE4 Polgár-Ferenci-hát, Hungary Female J1c 5050-5290 cal BC
NE3 Garadna, Hungary Female X2b 5010-5210 cal BC
BR1 Kompolt-Kigyósér, Hungary Female K1c1 1980-2190 cal BC
KO2 Berettyóújfalu-Morotva-liget, Hungary Female K1 5570-5710 cal BC
NE2 Debrecen Tócópart Erdõalja, Hungary Female HV 5060-5290 cal BC
V2 Vratitsa, Bulgaria Male U2e1’2’3 1500-1100 BC
M4 Borum Eshøj, Denmark Male B2 1350 BC
K8 Krushare, Bulgaria Male R 450-400 BC
NA43 Laguna de los Condores, Peru Male B4b’d’e 1000-1500 AD
AusAboriginal Western Austalian Male F-M235 O1a 100 years
NA41 Laguna de los Condores, Peru Male L3 1000-1500 AD
P192-1 Svilengrad, Bulgaria Male U3b 800-500 BC
T2G2 Stambolovo, Bulgaria Male H1c9a 850-700 BC
NA42 Laguna de los Condores, Peru Male D1 1000-1500 AD
NA50 Laguna de los Condores, Peru B4b’d’e 1000-1500 AD
NA47 Laguna de los Condores, Peru L3 1000-1500 AD
NA40 Laguna de los Condores, Peru L3 1000-1500 AD
NA39 Laguna de los Condores, Peru Male B2 1000-1500 AD
Feld1 Neanderthal Neander Valley, Germany 42,000 years
Sid1253 Neanderthal El Sidron cave, Asturias, Spain 49,000 years
Vi33.16 Neanderthal Vindija cave, Croatia Female 38,310 years
Vi33.25 Neanderthal Vindija cave, Croatia Female
Vi33.26 Neanderthal Vindija cave, Croatia Female 44,450 years

В своем блоге Феликс размещает аналитические отчеты по каждому из проведенных анализов, отчеты включают графическое отображения «состава различных геномных компонентов происхождения» каждого из образцов в калькуляторах Gedmatch (включая мой последний калькулятор K23b), фенотипические признаки (предположительный цвет кожи и глаз), возраст на момент смерти и т.д.
Пытаясь ответить на вопрос,  насколько  правдоподобны (в смысле реального генеалогического родства) результаты совпадения сегментов древних и современных людей, Феликс приводит замечательные вычисления оценки правдоподобия совпадений в геномах современных людей и древних образцов. К сожалению, рассуждения замечательные, но вызывающие определенные вопросы, которые я озвучу в другой заметке.

Так или иначе, поставленная Феликсом на поток и практически полностью автоматизированная работа с древними геномами заслуживает безусловного признания, поскольку в силу разделения труда позволяет другими исследователям-любителям полностью сконцетрировать свое внимание на процессе непосредственного анализа полученных данных, вместо того чтобы тратить свои ресурсы на процесс извлечения снипов из «сырых» геномных данных. Благодаря этому разделению труда,  Давид Веселовский из проекта Eurogenes провел ряд замечательных экспериментов с этими данными (включая PCA, Treemix и вычисление генного дрейфа с помощью f3). В основном выводы этих экспериментов повторят то, что было написано в статьях профильных генетиков, за исключением одного интересного вывода на основании графа Treemix, в котором отображено направление процессов обмена генами между различными древними популяциями:

«В отношении Kostenki14, графики  Treemix  подтверждают один из основных выводов работы Seguin-Orlando et al. 2014, согласно которой  главны компонент образца  Kostenki-14  является базальным «предковым» компонентом более поздних европейцев (Basal_Eurasian). Тем не менее, два последних графика показывают, что этот базальный «компонент» не тот же самый «базальный» компонент в геноме неолитического образца из Штутгарта, связанного с базальным евразийским  компонентом, который был описан  в работе Lazaridis et al. 2013″.

Другой геномный блоггер, Сергей Козлов, использовал те же самые данные палеогеномов (взятые с сайта Ф. Чандракумара) для создания замечательных карт, иллюстрирующих количество и интенсивность общих IBD-сегментов палеогеномов и геномов современных популяций.

Я решил не оставаться в стороне и провел собственный анализ PCA и кластеризации популяций по значениям компонентов генетического разнообразия.

Ниже приведены иллюстрации к моему опыту кластеризации собственного генома с геномами древних жителей Евразии. В качестве входных данных алгоритма ward-кластеризации в программе R, я использовал собственные значения 4 векторов главных компонентов (PC) разнообразия. Эти векторы, в свою очередь, были получены путем вычислений в большом массиве (2024 образца) генетических данных (примерно 110 тысяч снип-полиморфизмов) представителей современных и древних популяций. Мой геном (обозначенный как Vadim) представляет собой набор, полученныq в ходе импутации по датасету Human Origin значения снипов информативных с точки зрения эволюционного происхождения, и используется в качестве контрольной группы.

Для начала график PCA, и положение палеогеномов на этом графике.

10805810_10205228379818844_2683994891484833194_n

В аналитической выборке я задействовал снипы геномов высших и низших приматов (дендрограмма выборка укоренена на геноме мармозетки), древних гоминидов (денисовского человека и неандертальцев). Остальное — как я и упоминал выше — представляет собой совокупность снипов современных и древних популяций.

Благодаря характеру выборки и характеру используемых снипов, я могу взглянуть на свое происхождение с наиболее широкой перспективы, позволяющей проследить индивидуальный эволюционный путь от древнейших людей до наших современников.
Можно сказать, что я проделал самое далекое (из всех предыдущих) генеалогическое путешествие в собственное прошлое. Разумеется, без предыдущего выделения обработки образцов древнего ДНК новейшими биохимическими методами, а также публикации данных — это путешствие длинной в сотни тысяч лет не могло бы просто состоятся. Так что огромное спасибо всем биохимикам, генетикам и биоинформатиков работавшим с образцами древней ДНК.

Полученные мной кластерные дендрограммы вышли очень большого разрешения. В силу этого, имеет смысл изучить топологию, структуры и расположение популяционных групп-кластеров в полномасштабном варианте, иначе могут возникнуть интересные вопросы.

1557253_10205127321932460_4975988878575720296_o 10801887_10205156832150197_5471832914364777784_n (1) 10801887_10205156832150197_5471832914364777784_n 247121_10205156832710211_7030394711716209950_n 1235004_10205156831950192_4536397005560655073_n 1379610_10205156832350202_753531489446222277_n 10411811_10205156831710186_6596784203743263163_n

Поэтому — я подготовил соответствующие файлы PDF и разместил ссылки на эти файлы для удобного просмотра.

tree1

tree2

tree3

tree4

tree5

tree6

tree7

tree8

tree9

tree10

tree11

tree12

tree13

tree14

tree15

tree16

Здесь их опубликовать не представляется возможным, и по этой причине я ограничу себя размещением тех фрагментов трех вариантов кластерных диаграмм, на которых присутствуют древние образцы.
Забегая вперед, можно заметить, что образцы ДНК древних людей (т.е людей современного анатомического типа — homo sapiens sapiens), строго говоря, разбиваются на три органические суперкластера — древних сибириков (или евразийцев), древних европейских охотников-собирателей, и ранних неолитических европейских земледельцев. В основной своей части состав и топология популяционных кластеров стабилен в разных вариантах, наибольшие видоизменения заметны у тех образцов, чье множество снипов имеет меньшее пересечение с общим набором снипов. Отсюда довольно таки тривиальный вывод: чем меньше общее число снипов — тем больше флуктуаций наблюдается в расположении древних образцов внутри ветвей кластерной дендрограммы.

Кластер древних евразийцев наиболее стабилен (т.к. там всего два древних генома Afontova Gora 2 (AG2) и знаменитый мальчик с сибирской стоянки Malta (MA1); причем оба образца взяты из одного источника данных). Из современных популяций к этому кластеру наиболее органично примыкают различные группы населения центральной Азии — от таджиков до гуджаратов, и от калашей до пуштунов.

Кластер древних охотников-собирателей Европы наиболее неустойчив, и это объясняется прежде всего разным числом снипов в образцах, а также тем что сами образцы взяты из разных исследований. Тем не менее тенденция наглядна — древнейшие европейцы (охотники-собиратели мезолита) наиболее близки по своим аутосомным снипам к жителям современной западной и северной Европы — особенно Британских островов, Скандинавии и Балтийского региона. Практически во всех вариантах прибалтийцы близки к древним жителям Швеции (Готланда), а также мезолитическим образцам La Brana, Motala и Loshbour. Последние также близки к финнам, эстонцам и северным русским. Из более поздних и географически удаленных образцов к ним близки древние образцы из Венгрии неолитического периода, бронозового и железного веков (BR1, NE2 и KO1).

Интересно, что в этот же кластер входят как современные популяции западной Европы (британцы, норвежцы, французы и др.), так и современные жители центральной Европы — чехи хорваты и венгры. Является ли это наследием древних времен (гальштатской общности связываемой с древними кельтами) — трудно сказать. Не этим ли объясняется тот факт, что образцы древних англо-саксов и бриттов (обозначенные здесь как Hixton) иногда кластеризируются с (современными!) венграми, хорватами, иногда с современными англичанами из Кента и корнуэлльцами. При этом некоторые из образцов Hixton остаются близки (в смысле схожести генома) к скандинавам, оркнейцам, шотландцам, и даже литовцам.

Мой собственный «геном» (Vadim) также входит в эту группу, причем в разных вариантах он определенно близок одновременно и древним мезолитическим и эпинеолитическим шведам, а также более поздним образцам из Венгрии (киммерийского мальчика IR1, а также самый «балтийский» из всех древних венгерских обрацов — KO1). Интересно что IR1 («аутосомный геном» «киммерийского » мальчика Y-гаплогрупы N1a из захоронения паннонской культуры бронзового века Mezőcsát примерно 900 год до нашей эры) в первых четырех главных компонентах кластеризируется с моим собственным «аутосомным геномом»). Это наверное объясняет почему мой собственный геном дает хорошие комбинации (fit) к комбинации трапезундских турков и древних жителей Балтийского региона.

Как известно, попгенетики готовят к публикации большую статью, в которой подводятся итоги нескольких лет исследования генофонда представителей древних культуры шнуровой керамики* (известной также как культура боевых топоров) и ямной культуры** (другое название — древнеямная культурно-историческая общность). Безусловно, это исследование обещает пролить свет на некоторые темные места генетических связей жителей этих культур с современным населением Восточной Европы (особенно Польши, Украины, Беларуси и юго-западной части России).

Пока все детали исследования неизвестны, однако благодаря настойчивости некоторых энтузиастов генетической генеалогии (Веселовского и пр.) удалось выяснить, например, что генофонд древние образцы представителей Ямной культуры в рамках формальных тестов (f3 и D-статистик) наилучшим образом аппроксимируются как результат смешения древнего мезолитического населения севера Европы (в работе их представляют карельские образцы, очевидно из известных захоронений Палеострова) и населения, близкого к современным закавказским популяциям (лучший результат дали армяне из Еревана).

Признаюсь, эти сведения приободрили меня. Дело в том, что последние несколько недель я занимался изучением эволюции аутосомного генофонда беларусов (и своего тоже) из недавно опубликованного набора лаборатории Райха (это одна из усеченных версии их знаменитого кураторского набора Human Origin Dataset).
Как и раньше, для анализа я использовал инструменты разработанные программистами той же лаборатории (Admixtools), а также Alder — программу написанную на основе открытого кода Admixtools, и оптимизированную под более детальный анализ процесса смешивания различных предковых групп.

Так вот, до получения сведений о предварительных результатах попгенетиков, я был немного смущен полученной картиной. У меня получилось вот что. С точки зрения формальной оценки (f3-статистки, аналога более известной p-статистки) лучшие пары адмикса для беларусов (с отрицательным значением Z) представляли собой либо комбинацию мезолитического населения Европы (Loshbour) и современного населения современной Анатолии и ближнего Востока, либо комбинацию ‘генов’ неолитических жителей Европы (LBK380, а также современных сардинцев) и современных америндских популяций (происходящих, как нам известно, из восточной Сибири).
Вот начало списка значимых пар:

Mixe Sardinian Vadim -11.811
Sardinian Mixe Vadim -11.811
Karitiana Sardinian Vadim -11.757
Sardinian Karitiana Vadim -11.757
Zapotec Sardinian Vadim -11.638
Sardinian Zapotec Vadim -11.638
Loschbour Georgian_Megrels Vadim -11.599
Georgian_Megrels Loschbour Vadim -11.599
Piapoco Sardinian Vadim -11.482
Sardinian Piapoco Vadim -11.482
Loschbour Turkish_Trabzon  Vadim -11.434
Turkish_Trabzon Loschbour Vadim -11.434
Loschbour Assyrian_WGA Vadim -11.395
Assyrian_WGA Loschbour Vadim -11.395
LBK380 Piapoco Vadim -11.354
Piapoco LBK380 Vadim -11.354
Surui Sardinian Vadim -11.346
Sardinian Surui Vadim -11.346
Loschbour Abkhasian Vadim -11.293
Abkhasian Loschbour Vadim -11.293
Bolivian_LaPaz Sardinian Vadim -11.232
Sardinian Bolivian_LaPaz Vadim -11.232
Loschbour Iranian_Jew Vadim -11.231
Iranian_Jew Loschbour Vadim -11.231

Я выбрал около сотни значимых пар и проверил их достоверность «адмикса) с помощью инструментов D-статистки (qpDstat) в попарном сравнении каждой из значимых комбинаций (начало таблицы):

Vadim Italian_Tuscan : Loschbour Palestinian 0.0293 8.141 best
Vadim Iranian : LBK380 GujaratiC_GIH 0.0245 7.319 best
Vadim Motala12 : Druze Sardinian 0.0125 7.285 best
Vadim Loschbour : Palestinian Albanian 0.0146 7.17 best
Vadim Sardinian : GujaratiC_GIH Iranian 0.0121 7.151 best
Vadim Palestinian : Spanish_Pais_Vasco_IBS GujaratiC_GIH 0.0145 7.126 best
Vadim Egyptian_Comas : Basque_Spanish GujaratiC_GIH 0.0137 7.016 best
Vadim Sardinian : Loschbour Egyptian_Comas 0.0251 6.962 best
Vadim Sardinian : Loschbour Tunisian_Jew 0.0251 6.789 best
Vadim Palestinian : Basque_Spanish GujaratiC_GIH 0.013 6.758 best
Vadim Sardinian : Loschbour Palestinian 0.0237 6.69 best
Vadim Basque_Spanish : Balkar Palestinian 0.0076 6.601 best
Vadim GujaratiC_GIH : Tunisian_Jew Egyptian_Comas 0.0094 6.493 best
Vadim Spanish_Pais_Vasco_IBS : Balkar Palestinian 0.0079 6.458 best
Vadim Loschbour : Druze Italian_WestSicilian 0.0135 6.443 best
Vadim Loschbour : Iranian Albanian 0.0159 6.385 best
Vadim Palestinian : Sardinian Iranian 0.0083 6.344 best

Как видно, лучшая достоверность (обмена генами) у тех пар которые представляют собой комбинацию мезолитических популяций (Loshbour и Motala), популяций Кавказа, южной Европы и центральной Азии.

Это особенно хорошо заметно в тесте f4ratio. Вот например сравнение 2 квадропул, три популяции в каждой из которых идентичны (беларусы, кумыки и Losbour), а четвертая популяция отличается (балкарцы vs. Motala). Результат означает что кроме мезолитического компонента Loshbour (из западной Европы), у беларусов наблюдается эксцесс (28+-0.1%) дополнительного источника мезолитических «генов» (типично для балтийских популяций мезолита вроде Motala)

Vadim Kumyk Loschbour Motala12 : Vadim Kumyk Loschbour Balkar 0.285678 0.096194 2.97

Крайне любопытны и результаты проведенного мной в Alder исследования источников «древного» адмикса у беларусов.
Я выбрал только те пары, в которых амплитуда угасания LD в двух гипотетических популяциях-донорах была сопоставима с амплитудой угасания LD в популяции-реципиенте (т.е у беларусов). Интересно, что только две пары (пенджабцы + Motala) и (иракские евреи + чукчи) дали консистентную попарную подгонку кривой угасания LD с незначительным разбросом амплитуды (15-25%). К слову, комбинация Armenian+Motala-merge (примерно идентичная наиболее устойчивой модели адмикса у жителей ямной культуры) тоже присутствует в списке «успешных» комбинаций, однако кривые угасания LD имеют разную скорость угасания (их амплитуда отличается уже на 55% и поэтому они не консистентны, т.е несовместимы) в попарном режиме сравнения

DATA: success_consistent 0.0042 Belarusian Punjabi_Lahore_PJL Motala_merge 4.49 2.76 2.78 15%
DATA: success_consistent 0.0098 Belarusian Iraqi_Jew Chukchi 4.31 2.2 3.01 25%
DATA: success 0.0065 Belarusian Mongola Motala_merge 4.4 2.64 2.78 28%
DATA: success 0.011 Belarusian Yi Papuan 4.29 2.26 4.66 28%
DATA: success 0.00037 Belarusian Lebanese Papuan 4.98 2.69 4.66 38%
DATA: success 0.041 Belarusian Kusunda Motala_merge 3.98 2.61 2.78 41%
DATA: success 0.013 Belarusian Hezhen Motala_merge 4.25 2.17 2.78 49%
DATA: success 0.037 Belarusian Motala_merge Tu 4.01 2.78 3.13 51%
DATA: success 4.20E-06 Belarusian Kalmyk Motala_merge 5.79 2.36 2.78 54%
DATA: success 0.0086 Belarusian She Motala_merge 4.34 2.58 2.78 54%
DATA: success 0.0019 Belarusian Armenian Motala_merge 4.66 2.14 2.78 55%
DATA: success 0.048 Belarusian Daur Motala_merge 3.94 2.11 2.78 56%
DATA: success 0.0042 Belarusian Motala_merge Miao 4.49 2.78 3.5 59%
DATA: success 0.041 Belarusian Oroqen Motala_merge 3.98 2.28 2.78 59%
DATA: success 0.013 Belarusian Thai Motala_merge 4.25 2.13 2.78 65%
DATA: success 0.043 Belarusian Motala_merge Lahu 3.97 2.78 3.56 71%
DATA: success 0.0049 Belarusian Motala_merge Japanese 4.46 2.78 3.53 72%

Примечательно что для пары Belarusian Armenian Motala_merge  Admixtools датирует смешение 114.67+/-20.5 поколений тому назад. А вот датировка адмикса для двух первых пар (последняя колонка это датировка адмикса
Belarusian Punjabi_Lahore_PJL Motala_merge 4.49 2.76 2.78 15% 142.4+/-27.54
Belarusian Iraqi_Jew Chukchi 4.31 2.2 3.01 25% 43.28+/-9.45 То есь самое позднее 3500 лет до нашего времени.Итак, выводы: в эволюционной перспективе, костяк аутосомного генофонда беларусов составляет субстрат мезолитического генетического компонента Европы, к которому примешиваются два потока — один с юга, с наиболее значимым вливанием во времена неолита (земледельцы из Анатолии и ближнего Востока), другой — видимо более поздний (т.к. он отсутствует у ямников) из Сибири.


*Культура боевых топоров, культура шнуровой керамики (нем. Schnurkeramik) — археологическая культура медного и бронзового веков, распространенная на обширных территориях Центральной и Восточной Европы и датированная 3200 г. до н. э./2300 до н. э. — 2300 г. до н. э./1800 г. до н. э. Племена культуры боевых топоров часто считают первыми индоевропейцами на территории Средней Европы
**Я́мная культу́ра (точнее — Древнея́мная культу́рно-истори́ческая о́бщность) — археологическая культура эпохи позднего медного века — раннего бронзового века (3600—2300 до н. э.). Занимала территорию от Южного Приуралья на востоке до Днестра на западе, от Предкавказья на юге до Среднего Поволжья на севере.В рамках ранней версии курганной гипотезы Марии Гимбутас ямная культура связывалась с поздними протоиндоевропейцами.

 

Кластер древних жителей по своей устойчивости занимает промежуточное место между кластерами древних северных евразийцев и западных европейских охотников-собирателей.
В этот кластер, иерархически близкий популяциям Кавказа и ближнего Востока, предсказуемо входят предстаители самых классических популяции южной Европы — от греков и болгар, до басков и сардинцев. Как уже стало обычным, сардинцы кластеризуются с образцом тирольского человека Этци и женщины из линейноленточной культуры («LBK380»). В большинстве вариантов (2 из трех опубликованных) к этой подгруппе примыкают представители древнейших неолитических культур на территории современной Венгрии — CO1, H4, H3, NE5, NE7). Жители бронзового века (на графике они ошибочно обозначены как Europe оказались посередине между раннеевропейскими охотникам-собирателями и земледельцами.

Добавление к выборке древних геномов «усть-ишимца» и «костенковца» позволило пролить свет на некоторые особенности эволюции популяций центральной и восточной части Евразии. В кластерном анализе (вардовская кластеризация) по 4 первым компонентам PCA усть-ишимец у меня получился в одном кластере с киргизами и кажется селькупами. По первым двум компонентам в том варианте рейховского набора популяций, где нет андаманцев Onge — он попадает в один кластер с австралийскими аборигенами.
Думаю, что onge все же ближе, да к тому же во всех калькуляторах у усть-ишимца максимум «генома» приходится на сочетание южно-индийских и юго-восточноазиатских компонентов.  А вот «костенковец» оказывается ближе всего к чувашам и саамам. Что характерно — в предыдущих вариантах, в которых я не использовал костенковца, место костенковца часто занимал AG-2 (Afontova Gora).  Также заметна разница между кластерными схемами PC1-2 и PC-1-2-3-4.В первом случае костенковец в одном кластере с индусами, а во-втором с с чувашами и саамами. Характерно, что восточноевразийские палеогеномы Тяньюань и Усть-Ишим входят в один кластер (их положение не сильно меняется), а MA1 нет.

Генетические следы экспансии тюркоязычных номадов в Евразии

В самом конце июля,  на  известном ресурсе bioRxiv наконец-то появился препринт давно ожидаемой статьи тартуских генетиков  в составе Баязита Юнусбаева, Майта Метспалу и др., предметом исследования которой является важный вопрос, — оставили ли многочисленные волны экспансии и миграций древних тюрков в структуре генофонда тюркоязычных народов? Следует отметить, что Баязит Юнусбаев и ранее занимался изучением вопроса характера, состава и происхождения генетических компонентов ряда современных тюркских популяций, однако ареал исследований и используемые методы в его предыдущих исследованиях носили ограниченный характер. Свежая работа коллектива тартуских генетиков замечательна уже тем, что в ней было уделено серьезное мнение разработке точного статистико-математического аппарата для определения статистически достоверных геномных cигналов свидетельствующих о определенном характере, направленности и экстенсивности демографических процессов в среде предков современных тюркских популяций.
Наверное, именно по этим причинам работа над подготовкой данных и текста публикации велась довольно долго, не менее 3-4 лет, при том что средний цикл проведений таких исследований на уже готовых генетических данных составляет максимум год-полтора.
Существенным отличием от других подобных работ последнего времени является и заметно явное смещение акцента исследования со ставших уже традционными  методов анализа генетических компонентов (кластеров аллельных частот, которые более или менее коррелируют с географией расселения человеческих популяций), таких как PCA, Admixture) на анализ так называемых IBD сегментов и блогов, имеющих общее генетическое происхождение.  Как недавно показал на убедительных примерах ув. Сергей Козлов, зачастую правильно распланированный и тщательно выверенный анализ IBD дает более точную, в сравнении с Admixture, генетическую картину происхождения человека. Этот метод основан на метрике IBD и принципиально отличается от Admixture. У него есть свои преимущества, часто он дает лучшую прорисовку кластеров предковых популяций, построенных на основе матрицы разделяемых общих сегментов. Есть и свои недостатки — которые объясняются консервативным характером сохранения некоторых участков. Я бы рекомендовал удалить такие сегменты из анализа — в первую очередь большой мультимаркерный гаплотип региона MHC-HLA на 6 хромосоме, а также ряд участков с высоким уровнем LD. Это значительно улучшит результатЭто наблюдение особенно применимо к относительно гомогенным, однородным популяциям северо-восточной Европы.

Возвращаясь к обсуждаемой статье,  можно сказать,  что  краеугольным рабочим методом в этой статье является  расширенный fastIBD анализ большого количества геномных образцов представителей практически всех тюркских народов. В работе присутствуют и более привычные результаты Admixture и PCA анализов структуры генофонда тюркских популяций; однако, на мой личный взгляд, они менее важны в силу тривиальности результатов и легкой повторяемости эксперимента.

Выводы авторов, вынесенные в абстракт статьи, вряд ли вызовут сомнение в своей правильности у большинства историков:

1) Большинство тюркских народов изученых в данной статье, (за исключением тюрков Центральной Азии), генетически напоминают своих географических соседей,  что хорошо согласуются с моделью языковой экспансии, в которой тюркские языки — как языки доминирующей элиты -распространялись  кочевой элитой.

 

Turkic-Speaking Nomads_small
2) 2) Западные тюркские народы в выборке Западной Евразии характеризуются эксцессом длинных хромосомных сегментов, которые идентичны по своему происхождению (IBD) с большей частью населения современной Южной Сибири и Монголии (SSM),  т.е в той области, где историки отмечают концетрацию серию ранних тюркских и не -тюркских степных политических  объединений. При всем этом, наблюдаемый избыток длинных  общих по генеалогическому происхождению IBD сегментов (> 1 сентиморгана) между популяциями из региона Южной Сибирии и Монголии и тюркских народов всей Западной Евразии была статистически значимой.
Untitled
3) Примененные в исследовании методы датировки событий генетического смешения групп популяций (метод ALDER и SPCO) показали у тюрских народов присутствие сигнала смешивания различных предковых группы в интервале между ~ 9-17-ыми векми нашей эры. Несмотря на принципиальную разницу между этими методами, они дали идентичные результаты, что придает дополнительную надежность вычисленному интервалу И этот интервал перекрывается интервалом тюркских миграций с 5-го по 16 века.

Примечание 1. Мой комментарий

Как я уже отмечал выше, несмотря на всю тривиальность результатов,  эту публикацию Юнусбаева et al. 2014 следует отнести к важным работам, поскольку впервые методы оценки времени слияния популяция — ALDER и SPCO были использованы для анализа популяций без явного намека на смешения, расширявшихся в уже историческое время. Ранее эти методы использовались либо при изучении древних доисторических процессов (например, смешивания неолитического и мезолитического населения Европы). либо с использованием классических «смешанных» популяций (мозабитов, пуэрто-риканцев, карибцев и так далее).
В этой связи, заслуживает внимание результаты ALDER для группы тюркских популяций Центральной Азиии (Table 3 в сапплементе к статье), в третьей колонке которой показана датировка событий «смешивания» в поколениях (которые пересчитаны в 4 колонке на года), и это событие приходится на интервал между 13 и 14 веками нашей эры, то есть во времена Золотой Орды :

Kazakhs Italians (North Italy) Tujia 23.72±1.61 1288±48 0.00039184±0.00002155
Kyrgyz Orcadians Japanese 22.02±1.00 1339±30 0.00035833±0.00001271
Uzbeks Italians (North Italy) Tujia 22.07±1.47 1338±44 0.00036534±0.00001432
Karakalpaks Italians (North Italy) Naxi 22.69±1.89 1319±57 0.00044112±0.00001912

Однако не все просто. Еще в ноябре 2012 года при обсуждении характерных особенностей митохондриальных гаплогрупп жителей Евразии (в статье Клио дер Саркиссян), я решил проверить, насколько эта модель гаплоидной вариативности находит свое подтверждение в анализе диплоидных аутосомных маркеров.

Для этих целей я использовал программу ALDER: Admixture-induced Linkage Disequilibrium for Evolutionary Relationships,  специально разработанную для формального обнаружения в анализируемой популяции сигнала смешивания двух и более  исходных популяций.В качестве эксперимента я выбрал две современные популяции — казахов и узбеков.

Как видно, полученные мной результаты оказались очень похожи на результаты из более поздней статьи Юнусбаева et al. 2014

Из полученных результатов были отобраны только те успешные результаты, которые прошли формальные критерии отбора (статистический значимый уровень экспонентного угасания неравновесного сцепления маркеров(LD curve is significant) и наличие двухсторонней корреляции между кривыми угасания неравновесного сцепления маркеров в обеих референсных популяциях(decay rates are consistent)).

Результаты по узбекам

DATA: success 3.7e-18 Uzbek Italian-Center Mongol 9.54 9.15 5.18 13% 22.94 +/- 2.41 0.00024041 +/- 0.00001438 23.78 +/- 2.60 0.00006319 +/- 0.00000406 26.14 +/- 5.05 0.00006772 +/- 0.00000894
DATA: success 5.8e-33 Uzbek Sicilian Kyrgyz 12.59 8.51 4.94 19% 23.50 +/- 1.87 0.00015817 +/- 0.00001067 25.77 +/- 3.03 0.00005899 +/- 0.00000443 28.44 +/- 5.76 0.00003069 +/- 0.00000506
DATA: success 6.9e-25 Uzbek Sicilian Mongol 11.03 8.51 5.18 7% 24.49 +/- 2.22 0.00024382 +/- 0.00001210 25.77 +/- 3.03 0.00005899 +/- 0.00000443 26.14 +/- 5.05 0.00006772 +/- 0.00000894
DATA: success 4e-23 Uzbek Sicilian Kalmyk 10.66 8.51 5.56 16% 24.46 +/- 2.29 0.00022326 +/- 0.00001473 25.77 +/- 3.03 0.00005899 +/- 0.00000443 28.67 +/- 5.16 0.00006591 +/- 0.00000891
DATA: success 0.00077 Uzbek Sicilian Nogai 5.12 8.51 2.26 10% 23.79 +/- 4.56 0.00001986 +/- 0.00000388 25.77 +/- 3.03 0.00005899 +/- 0.00000443 23.24 +/- 10.27 0.00001138 +/- 0.00000317
DATA: success 9.8e-21 Uzbek Sardinian Kyrgyz 10.14 9.82 4.94 17% 23.96 +/- 2.36 0.00016455 +/- 0.00001038 27.67 +/- 2.82 0.00007013 +/- 0.00000589 28.44 +/- 5.76 0.00003069 +/- 0.00000506
DATA: success 2e-20 Uzbek Sardinian Mongol 10.07 9.82 5.18 10% 25.15 +/- 2.50 0.00025559 +/- 0.00001310 27.67 +/- 2.82 0.00007013 +/- 0.00000589 26.14 +/- 5.05 0.00006772 +/- 0.00000894
DATA: success 6e-13 Uzbek Sardinian Kalmyk 8.20 9.82 5.56 19% 23.64 +/- 2.88 0.00022058 +/- 0.00001440 27.67 +/- 2.82 0.00007013 +/- 0.00000589 28.67 +/- 5.16 0.00006591 +/- 0.00000891
DATA: success 0.00011 Uzbek Sardinian Nogai 5.48 9.82 2.26 17% 24.99 +/- 4.56 0.00002279 +/- 0.00000367 27.67 +/- 2.82 0.00007013 +/- 0.00000589 23.24 +/- 10.27 0.00001138 +/- 0.00000317
DATA: success 1.5e-28 Uzbek German Kyrgyz 11.77 9.19 4.94 25% 22.14 +/- 1.88 0.00012893 +/- 0.00000925 24.85 +/- 2.70 0.00004544 +/- 0.00000443 28.44 +/- 5.76 0.00003069 +/- 0.00000506
DATA: success 6.9e-21 Uzbek German Mongol 10.17 9.19 5.18 7% 24.40 +/- 2.40 0.00021733 +/- 0.00001182 24.85 +/- 2.70 0.00004544 +/- 0.00000443 26.14 +/- 5.05 0.00006772 +/- 0.00000894
DATA: success 2.8e-16 Uzbek German Kalmyk 9.08 9.19 5.56 22% 23.04 +/- 2.54 0.00018456 +/- 0.00001210 24.85 +/- 2.70 0.00004544 +/- 0.00000443 28.67 +/- 5.16 0.00006591 +/- 0.00000891

Результаты казахов:

DATA: success 4.7e-17 Kazakh Italian-Center Kalmyk 9.27 7.06 2.63 17% 22.06 +/- 2.38 0.00022347 +/- 0.00001893 25.42 +/- 3.60 0.00012981 +/- 0.00001327 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 3.5e-18 Kazakh German Kalmyk 9.54 6.39 2.63 18% 21.71 +/- 2.27 0.00021450 +/- 0.00001602 23.54 +/- 3.68 0.00012169 +/- 0.00001026 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 2.6e-23 Kazakh Russian_Center Kalmyk 10.70 6.64 2.63 17% 22.19 +/- 2.07 0.00023388 +/- 0.00001645 21.86 +/- 3.29 0.00012520 +/- 0.00001320 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 2.1e-22 Kazakh Russian_South Kalmyk 10.50 7.12 2.63 25% 20.31 +/- 1.93 0.00021745 +/- 0.00001580 20.82 +/- 2.93 0.00012386 +/- 0.00001116 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 0.019 Kazakh Slovakian Mari 4.48 8.09 3.45 17% 17.26 +/- 3.86 0.00002773 +/- 0.00000574 19.08 +/- 2.36 0.00011870 +/- 0.00001088 16.06 +/- 4.65 0.00003481 +/- 0.00000667
DATA: success 1.6e-29 Kazakh Ukrainian Kalmyk 11.95 6.93 2.63 23% 20.58 +/- 1.41 0.00021665 +/- 0.00001813 20.75 +/- 3.00 0.00011940 +/- 0.00001005 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 1.5e-14 Kazakh Ukrainian-East Kalmyk 8.63 5.90 2.63 23% 20.58 +/- 2.38 0.00022215 +/- 0.00001803 21.97 +/- 3.72 0.00012517 +/- 0.00001419 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 0.0014 Kazakh CEU_V Nogai 5.02 5.49 3.30 17% 20.84 +/- 4.16 0.00001984 +/- 0.00000315 19.20 +/- 3.50 0.00012065 +/- 0.00001375 17.52 +/- 5.31 0.00004319 +/- 0.00000772
DATA: success 0.00025 Kazakh British Mari 5.33 6.99 3.45 24% 20.42 +/- 3.83 0.00003281 +/- 0.00000478 19.18 +/- 2.74 0.00012196 +/- 0.00001159 16.06 +/- 4.65 0.00003481 +/- 0.00000667
DATA: success 0.0064 Kazakh British Nogai 4.71 6.99 3.30 18% 21.09 +/- 4.48 0.00002087 +/- 0.00000321 19.18 +/- 2.74 0.00012196 +/- 0.00001159 17.52 +/- 5.31 0.00004319 +/- 0.00000772
DATA: success 5.8e-22 Kazakh Orcadian Kalmyk 10.41 6.62 2.63 23% 20.59 +/- 1.98 0.00023474 +/- 0.00001737 21.83 +/- 3.30 0.00013779 +/- 0.00001201 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 0.004 Kazakh Bulgarian Nogai 4.80 6.98 3.30 21% 21.66 +/- 4.51 0.00001853 +/- 0.00000339 21.33 +/- 3.06 0.00012336 +/- 0.00001168 17.52 +/- 5.31 0.00004319 +/- 0.00000772
DATA: success 3.1e-19 Kazakh Karelian Kalmyk 9.79 5.77 2.63 21% 21.05 +/- 2.15 0.00019192 +/- 0.00001302 21.12 +/- 3.66 0.00009774 +/- 0.00001073 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 0.011 Kazakh Mari Bosnian 4.60 3.45 6.44 16% 17.56 +/- 3.82 0.00003003 +/- 0.00000554 16.06 +/- 4.65 0.00003481 +/- 0.00000667 18.79 +/- 2.92 0.00012259 +/- 0.00001136
DATA: success 0.0057 Kazakh Mari Greek_Azov 4.73 3.45 9.00 21% 16.97 +/- 3.59 0.00002322 +/- 0.00000431 16.06 +/- 4.65 0.00003481 +/- 0.00000667 19.87 +/- 2.21 0.00010948 +/- 0.00000811
DATA: success 5.2e-33 Kazakh Chuvash Kalmyk 12.60 5.88 2.63 14% 24.10 +/- 1.91 0.00014440 +/- 0.00000896 22.75 +/- 3.87 0.00005482 +/- 0.00000595 26.05 +/- 8.19 0.00002219 +/- 0.00000844

Результаты говорят сами за себя.  Как и в большинстве случаев с центральноазиатскими популяциями, один из компонентов адмикса у узбекв и казахов представлен монголоидным популяциями, наиболее близкими к современным монголам, киргизам и калмыкам. В контексте обсуждаемой работы о древнем митоДНК, этот компонент можно обозначать как «восточноевразийский». Другой компонент у узбеков представлен популяциями близкими по частотам аллелей к  современным западноевропейским популяциям (таким как немцы, cардинцы, сицилийцы и прочие). Кроме того в результатах анализа угасания admixture-LD казахов присутствует хорошо заметный сигнал адмикса с предками современных чувашей, марийцев и карел. Этот феномен, опять-таки в контексте парадигмы исследования древнего ДНК, можно объяснить с помощью грубой аппроксимации: как было убедительно показано в работе Дерсаркиссян, митоДНК древние скифы из ареала современной Кубани и нижнего Поволжья напоминают ряд современных поволжских популяций, а также карелов. Это же касается и сигнала о смешивании с предками более отдаленных европейских популяций (британцев, скандинавов и так далее). В свете аутосомного анализа вынужден согласится с одним из ключевых выводов Дерсаркиссян, согласно которому западноевропейские аллели были привнесены в степени Казахстана и Алтай при посредничестве популяций скифов и сарматов.

Стоит еще отметить, что у узбеков в отличие от казахов поток европейских аллелей имеет несколько иной источник, и скорее всего связан с распространением в Центральной Азии носителей «неолитических средиземнорских аллелей».

Подводя итоги, необходимо сказачть, что определенные трудности представляет интерпретация датировки европейского адмикса у казахов и узбеков. Поскольку этот адмикс датируется примерно одинаковым интервалом 30-25 поколений до нашего времени, что примерно соответсвует периоду завоевательных походов монголов. Однако, представляется трудно допустимым, что европеидное население казахской степи могло сохранится в значительном количестве вплоть до эпохи монголов, или что земледельческое население Средней Азии — сарты — было в генетическом плане европеоидно. Лично я склоняюсь к следущей интерпретации:  смешивание европейского и восточноазиатского компонента произошло намного ранее монгольской эпохи, заниженная дата этого события есть прямое следствие последущего эфекта дрейфа генов и фиксации части аллелей.

Примечание 2. Комментарий профессионального историка

Хорошая работа. Но это — еще самое начало пути. Пока идет процесс верификации используемых методов. Очень важно, что результаты в целом совпали с тем, что говорят исторические источники. Для генетиков это хорошо, но для историков — тривиально. Действительный интерес появится, когда станет возможно давать такие ответы, которые историки своими методами добыть не могут. А этого пока нет.
Я на заре своей научной карьеры аналогичные выводы получил, используя всего один интегрированный фенотипический признак — индекс уплощенности лицевого скелета. По трудозатратам это было несопоставимо. Да, теперь эти выводы обоснованы гораздо надежнее. Но хочется гораздо большего.

Этногеномика беларусов — часть V

Обсуждение результатов и выводы

 

Как отмечалось в введении к нашей статье, главной задачей нашего исследования являлась проверка двух рабочих гипотез, озвученных в предыдущих исследованиях профессиональных попгенетиков. Во-первых, это гипотеза о присутствии трех основных древних компонентов , которая указывает на возможность общего происхождения славян и балтов. Во-вторых, это утверждение о том, что своеобразие аутосомного генофонда беларусов может быть связанно с вкладом балтского субстрата.

После внимательного изучения результатов нашего исследования,можно сказать, что оба из приведенных выше заключений представляют собой крайне упрощеные варианты сложного процесса формирования аутосомного генофонда беларусов. Хотя мы и не можем предоставить окончательных аргументов в пользу или опровержение каждой из этих версий, мы может предоставить более полное и подробное обозрение структуры аутосомного генофонда. В отличие от трех основых компонентов, упомянутых выше, в нашем исследовании мы выделили шесть основных компонентов, типичных для европейцев в целом. Основу генофонда составляет компонент, который мы обозначили как северо-восточно-европейский компонент. Именно этот компонент выделяет беларусов среди других восточных славян, приближая их к современным балтийским популяциям (у литовцев процент компонента составляет 81,9, у латышей — 79,5%, у беларусов -76,4%, у эстонцев — 75,2%). Примечательно, по мере удаления от территории Беларуси на север в с торону Латвии и Эстонии, увеличивается процент северо-европейского генетического компонента (как мы полагаем, этот компонент доминировал в генофонде доисторических жителей Скандинавии в эпоху до распространения финно-угоров и индо-европейцев). С другой стороны, беларусов и других восточных славян отдаляет от балтов и сближает друг к другу более высокий процент так называемого западно-азиатского или кавказского компонента (любопытно, что в этом случае эта закономерность может свидетельствовать в пользу западно-азиатской теории происхождения индо-европейцев).

Далее, как показывает анализ в программе fineStructure, генофонд беларусов характеризируется высокой степенью генетических контактов как с балтами, так и остальными славянами, а также с рядом финно-угорских популяций (например, c эрзя и мокша). О симметричном характере межпопуляционного обмена свидетельствует симметричное расположение популяции беларусов относительно этих трех групп.

Исходяизвышенаписанного,представляетсялогичнымсделатьвыводотом,чтоосновнойкритическийэтапстановленияаутосомногогенофондапришелсянапериодсмешиванияносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,послечегопредковыйаутосомныйгенофондбеларусовприобрелотносительнуюстабильность.Разумеется,даннаямодельнеисключаетпозднейшиеэпизодысмешиванияпопуляций,ноониоставилименьшийследвструктуреаутосомногогенофондабеларусов.Вэтойсвязивозникаеточевидныйвопрос–вкакойименноисторическийпериодпроизошлосмешениеносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,иктобылиихносителями?
В начале сентября 2012 года известная американская лаборатория популяционной генетики доктора Райха опубликовала альфа-версию программного продуктаADMIXTOOOLS1.0. Альфа-версия была разработана для внутреннего использования, поэтому modusoperandiэтого продукта вряд ли является кристально понятным для стороннего пользователя. Положительным аспектом на мой взгляд является то, что ADMIXTOOLSпакет обеспечивает полную совместимость с форматом другой очень популярной программыEIGENSOFT, которая была разработана в той же лаборатории. Это немаловажное обстоятельство намного упрощает процесс обучения в ADMIXTOOLS.

Вышеупомянутый пакет включает в себя 6 приложений, среди которых я считаю наиболее полезнойqp3Popи утилиты для вычисления частотной характеристики аллелей. Впрочем, я не собираюсь обсуждатьqp3popво всех деталях и в контексте данной заметки достаточно отметить, что эта программа реализует тест three_pop(F_3), подробно описанный в известной статье Рейха и соавт. 2009.

Однако другой имплементированный в пакете метод, – метод rolloff– нуждается в более пристальном внимании. Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатураLD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории, чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения LDв адмиксе напрямую связана с числом поколений, прошедших с момента адмикса, так как cвозрастанием числа поколений увлечивается число рекомбинаций произошедших между двумя отдельными SNP-ами. Проще говоря: Rolloffсоответствует экспоненциальной кривой угасания уровня LDот расстояния, и эта скорость экспоненциального снижения как раз и используется для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.

Этот метод открывает интересные перспективы. Для целей этого анализа, я создал специальный набор SNP-данных, который включает в себя около 750 000 cнипов, частично или полностью в 250 различных популяциях человека. Далее, я разбил популяции 3 * 62 000 трио в следующем виде (X, Y, Z), где X и Y – пара рефренсных групп, а Z – белорусы из коллекцииBehar et al.2010. После этого я провел q3Pop анализ этих трио.

Результаты изложены в нижеприведенной таблице

Indian Polish Belarusian -0.000736 0.000251 -2.935
Polish Indian Belarusian -0.000736 0.000251 -2.935
Karitiana Sardinian Belarusian -0.001278 0.000517 -2.471
Sardinian Karitiana Belarusian -0.001278 0.000517 -2.471
Otzi North_Amerind Belarusian -0.002556 0.001126 -2.271
Cirkassian Polish Belarusian -0.000488 0.000231 -2.113
Polish Cirkassian Belarusian -0.000488 0.000231 -2.113
Pima Otzi Belarusian -0.002727 0.00137 -1.99
Pima Sardinian Belarusian -0.000794 0.000431 -1.843
Sardinian Pima Belarusian -0.000794 0.000431 -1.843
Otzi Surui Belarusian -0.002938 0.001931 -1.522
Surui Otzi Belarusian -0.002938 0.001931 -1.522

 

На первый взгляд, результаты нашего эксперимента с 3qPop, кажется, неплохо согласуются с выводами, содержащимися в работеПаттерсон и др. 2012: “Самый поразительный вывод состоит в обнаружени четкого сигнала адмикса в северной Европе, один из элементов которого связан с предками населения наиболее близкого по своей генетике к баскам и жителям Сардинии, а другой – с предками современного населения северо-восточной Азии и Америки. Этот явный сигнал, вероятно, отражает историю смешивания неолитических мигрантов с коренным населением Европы, что подтверждается недавним генетическим анализом древних костей Швеция и секвенированием полного генома Отци Тирольца”. Что касается собственно белорусов, то источники сигнала смешивания с посторонними популяцими менее ясны и расплывчаты. Как было показано ранее, с точки зрения формального анализа примесей (f3 статистики), белорусы могут быть представлены в виде популяционного микса поляков и индусов / черкессов. Первый компонент смеси может быть связан с носителями культуры шнуровой керамики/боевых топоров и культуры колоковидных кубков; второй, в соответствии с результатами, должен быть общим для индусов и черкесов.

 

Белорусы = ((неолитические культуры Европы) + “носители культуры колоковидных кубков”) + (мезолитическое население Европы) + компонент носителей культуры шнуровой керамики)) + скифо-сарматский тип

 

Для оценки дата события базового адмикса в белорусской популяции, мы использовали в качестве референсных популяций поляков и индусов (Примечание: мы снизили порог генетических дистанции в параметрах Rolloff для снижения уровня шума от более поздних адмиксов).

 

rolloff

Как вы можете видеть, сигнал присутствия адмикса обнаруживается гораздо хуже, и в силу этого, погрешности в оценке временного промежутка высоки:

154,158 + -87,024 поколений назад (или, 4470 + -2523 года до настоящего времени / 2510 – +2523 лет до н.э.).

 

Исходя из этого, мы решили модифицировать Rolloff-анализ генофонда белорусов, используя на этот раз в качестве референсов литовцев и пуштунов. Следуя этому совету, я решил предпринять вторую попытку формального анализа адмикса в двух имеющихся у нас выборках беларусов ( выборка беларусов из статьи Behar et al. 2011), и выборка беларусов, собранная в нашем проекте.Ниже приведены результаты эксперимента с двумя этими группам (в отличие результатов нашей предыдущей попытки, результаты данного эксперимента менее “зашумленные”):

rolloff2

 

Интервал числа поколений, прошедших со времен анализируемого адмикса (105.086+-52.59) или 3069 +- 1525 лет до настоящего времени, что соответствует временном интервалу 2 тыс. до нашей эры – 6 век нашей эры. Принимая во внимание эти выводы, мы можем предположить, что основной аутосомный эпизод смешивания предковых популяций беларусов произошел в течении довольно таки продолжительного времени, охватывающего несколько тысяч лет. В этой связи, вопрос о том, кто именно был носителями северо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента, остается открытым.

Этногеномика беларусов — часть IV

Анализ структуры аутосомного генофонда популяции беларусов: результаты анализа этнического адмикса.

 

После проведения анализа этно-популяционного адмикса мы получили следущие результаты, обсуждению которых будет посвящена следущая часть нашего исследования. Результаты представляют собой разбивку аллельных частот на 22 кластера, каждый из которых представляет собой гипотетическую предковую популяцию. Поскольку в цели данного небольшого исследования не входит подробный анализ всех популяций, мы ограничимся сравнительном анализом структуры (компонентов) беларусов c географически близкими популяциями, а также с теми популяциями, которые могли входить в исторические контакты с предками современных беларусов:

admix

 

Рисунок 3. Результатыанализа ADMIXTUREK=22

У рассматриваемых здесь европейских популяций наиболее часто представлены следующие компоненты:

North-East-European,Atlantic_Mediterranean_Neolithic,North-European-Mesolithic, West-Asian, Samoedic, Near_East.

Разберем вкратце каждый из них. В ракурсе нашего исследования самым важным компонентом представляется – северо-восточно-европейский компонент North-East-European, он присутствует почти у всех европейцов, и в самой значительной степени — у балтов и славян: литовцы (81,9), латыши (79,5), беларусы (76,4), эстонцы (75,2), поляки (70,2), русские (67- 70,4), украинцы (62,1- 67,1), сорбы (65,9), карелы (60,2), вепсы (62,5), чехи (57,4), северные немцы (54,6), южные- 42,6, у британцев от 46 до 49, норвежцы- 48,1, шведы- (53,7).

Второй по значимости компонент — Atlantic_Mediterranean_Neolithic (юго-западно-европейский или просто западно-европейский неолитический компонент).[1]У восточноевропейцев он выражен в умеренной степени- чехи (27,8), поляки (18,4), украинцы ( от 17 до 21%), беларусы (13%), русские (от 11 у северных до 17,3 у южных), у коми (8,9 %), манси (8,8 %).

Третьй компонент – северо-европейский мезолитический компонент -North-European-Mesolithic[2]: cаамы (76,4 %), финны (от 30,1 до 37,3 %), вепсы (24,1), карелы (23,2), ижорцы (22, 7). Заметен этот компонент и у северных русских (10,5 %), норвежцев (9,8 %), шведов (7,8 %), эстонцев (7,1 %). У беларусов он практически отсутствует (1.1%).

Четвертый компонент – западно-азиатский (кавказский) West Asian[3]. На интересуемой нас территории этот компонент чаще встречается у казанских татар (9,9 %), южных немцев (8,4), украинцев (от 6,6 до 7,7 %), южных русских (6,2%). На западе высок процент у итальянцев (21,5 % у центральных итальянцев), французов (6,7 %), у беларусов (2.2%).

Пятый компонент — уральский Samoedic. Значительно присутствует у селькупов (68,1%), хантов (64,6), ненцы (37,1), манси (30,9 %-), удмурты (29,6), марийцы (27, 8), шорцы (22,0 %), башкиры (21,7%), чуваши и хакассы по 17,6 %, коми- 16,4 %, казанских татар (11,9 %). У западноевропейцев этот компонент практически не встречается, у русских (от 1,0% у центральных до 4,7 % у северных), у карел (1,6%), словаков (1,4%), западных украинцев (1,7 %), беларусы (0.5%).

Шестой компонент – ближневосточный Near_East[4]У южных немцев (3,5), украинцы (от 2,3 у восточных до 3,8 % у западных), чехи (3,0), беларусы (3,4), словаки (3,2), у русских от 1,0 до 1,5%, у литовцев- 1,4%, у поляков- 1,3 %.

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[1]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[1]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[1]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

Анализ разделяемых аутосомных сегментов между популяциями Северо-Восточной Европы.

С целью верификации результатов анализа главных компонентов генетического разнообразия я подготовил новую выборку популяций, которая включает в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.В ходе нового экспериментального теста в ходе статистической обработки общих по генетическому происхождению сегментов хромосом в составе выборки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, т.е размера той популяции которая участвовала в репродукции или обмене генами в некоем отдаленном временном промежутке. Собственно говоря, эффективная популяция – это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955). Новая программа Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение составило 22 000. Это близко к значениям Neрекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных ниже результатов, даже 22 000 для совокупности эффективного размера элементарных популяций – это более, чем достаточно.

 

finest

Рисунок 4. Расположение популяций в пространстве 1 и 3 главных генетических компонентов

 

Изложим ниже некоторые закономерности размещения популяци

 

  1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
  2. Все литовцы (участники проекта + референсы из вышеупомянутой статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев

  3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.

  4. Ниже находится балканский кластер (румыны, болгары и часть венгров).

  5. К этому кластеру примыкают турки и часть армян

  6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов).

  7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.

  8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

  9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

  10. Левее этой группы популяций находится кластер ашкеназов.

  11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

  12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

  13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

  14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

  15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).[5]

 

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[2]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[3]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[4]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

[5]Такое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции.То есть все эти баски являются многократными родственниками между собой т.е., положение басков на графике есть следствие классического генного дрейфа, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества sharedDNAchunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.

Исходя из этого можно сделать вывод о том что баски эта экстремально-эндогенная популяция изолянтов, при этом генетическое разнообразие басков низко, т.к. размер эффективной популяции басков низок.

ALDer: анализ генеографии дагестанских народов в эволюционной перспективе

В свете наших споров с уважаемой Казимой Булаевой  (один из ведущих российских генетиков), я решил продемонстрировать робастность метода ALDer, предложенного в статье Loh et al.2012 в анализе демографически сложных популяций Дагестана.

В моей коллекции есть SNP-данные лакцев, ногайцев, кумыков, лезгинов, табасаранцев и аваров, однако две последние группы пришлось исключить из теста в силу строгих требований алгоритма ALDer к минимальному количеству сэмплов в каждой из представленных популяций.

Программа ALDer использовалась в двух режимах.

Первый режим — 1-reference weighted LD curve, второй режим — 3+ reference weighted LD curve. Термины нуждаются в грамотном переводе в русскоязычную терминологию, так что пока я оставил их в том виде, в каком они есть.

В режиме 3+ references для вычисления значения корреляции использовались следущие популяции:

ItalianCenter;Sicilian;Sardinian;German;Lithuanian_V;Lithuanian;Latvian;Belarusian;Swedish;Polish_V;Russian_V;Russian_Center;Latvian_V;Inkeri;Russian_South;Ukrainian_V;Slovakian;Czech;Sorb;Estonian;Ukrainian;Belarusian_V;UkrainianEast;UkrainianWest;Mordovian;CEU;CEU_V;British;French;Orcadian;GermanSouth;GermanNorth;German_V;Bulgarian;FinnishNorth;Cirkassian;Russian_cossack;Saami;Udmurd;Komi;Karelian;Vepsa;Mari;Bashkir;Nenets;Hant;Chuvash;Mansi;FinnishSouth;Polish;Gagauz;Moldavian;Romania;Bosnian;Adygei;Croatian;Serbian;Slovenian;Montenegrin;Macedonian;Kosovar;Austrian;Greek_Azov;Greek_Center;Greek_North;Greek_South;Tatar_Crim;Azeri;Tadjik;Kyrgyz;Kazakh;Georgian;Georgian_Imereti;Georgian_Laz;NorthOssetian;Armenian;Kumyk;Chechen;Turk;Turkmen;Uzbek;Mongol;Karakalpak;Lak;Balkarian;Lezgin;Abhkasian;Kalmyk;Syrian;Kurd;Tabassaran;Hakas;Altaic;Tatar_Kryashen;Tartar_Mishar;Parsi;Avar;Nogai;Italian-North;Hungarian

I.

Итак, начну с результатов ногайцев в тесте «3+ reference populations».
Результаты свидетельствуют о наличии синхронного адмикса у предков современных дагестанских ногайцев, имевшего место быть в интервалме между 17.20 +/- 3.32 и 12.49 +/- 2.55 поколениями до настоящего времени.

DATA: success 0.00052 Nogai Sorb Uzbek 5.17 2.15 2.63 15% 17.20 +/- 3.32 0.00006274 +/- 0.00000886 19.29 +/- 8.98 0.00002377 +/- 0.00000606 20.01 +/- 7.60 0.00001471 +/- 0.00000378
DATA: success 0.0022 Nogai Ukrainian-West Karakalpak 4.89 3.08 4.01 17% 12.49 +/- 2.55 0.00006670 +/- 0.00000793 14.31 +/- 3.68 0.00000975 +/- 0.00000316 14.85 +/- 3.70 0.00003094 +/- 0.00000499

Адмикс был двухкомпонентный — преобладающий центральноазиатский, и восточноевропейский. Внизу приведены данные по нижнему значению величины адмикса

Сорбы Mixture fraction % lower bound (assuming admixture): 44.9 +/- 7.2
Каракалпаки Mixture fraction % lower bound (assuming admixture): 55.8 +/- 4.4

Узбеки Mixture fraction % lower bound (assuming admixture): 72.1 +/- 16.1
Западные украинцы Mixture fraction % lower bound (assuming admixture): 52.0 +/- 11.7

II.

Cледущий пример — кумыки.Из всех возможных 2-референсных комбинаций кривых взвешенной LD статистически значимой оказалась только одна комбинация:
DATA: success 3.3e-06 Kumyk Italian-Center Hakas 6.07 2.71 5.82
23% 18.15 +/- 2.99 0.00004734 +/- 0.00000710 15.15 +/- 4.49 0.000004
61 +/- 0.00000170 19.14 +/- 3.29 0.00003496 +/- 0.00000519

Это весьма примечательный результат. Как видно из результатов, кривые угасания LD (cцепления по неравновесию) обеих популяций имеют положительную корреляцию между собой. Время двухстороннего адмикса — 18.15 +/- 2.99, то есть интервал между серединой 14 века и cерединой 16 века.

Примечательно, что величина нижнего порога «cредиземноморского» (Italian-Сenter) компонента адмикса выше чем аналогичная величина «тюркского» (Hakas) компонент адмикса у кумыков (см.ниже):

«итальянцы» -Mixture fraction % lower bound (assuming admixture): 47.9 +/- 8.3

хакасы — mixture fraction % lower bound (assuming admixture): 12.9 +/- 1.4

Можно поспекулировать по поводу исторических интерпретаций данных результатов. Если мы вслед за некоторыми генетиками будем рассматривать хакасов как наиболее близкую к древним тюркам популяцию, то можно предположить общее происхождение тюркского «компонента» кумыков с кыпчаками, либо (что менее вероятно) хазарами. Здесь много свободного места для спекуляций.

«Итальянская» часть адмиксf вызывает больше вопросов, чем ответов. Освежив свои неглубокие познания в истории дагестанского региона, смог вспомнить лишь смутные упоминания о присутствии итальянцев в Дагестане в 14-15 веках. «Согласно Фануччи*, генуэзцы выстроили и заселили поселение Кубачи в Дагестане …»; (Исторические записки. Том 3.,1938 г., Зевакин Е. С. и Пенчко Н. А. «Очерки по истории генуэзских колоний на Западном Кавказе в XIII—XV вв.» (72-129)).
Сами кубачинцы именуют свой аул грозным именем Угбуг, что означает «убийцы, губители». Но, впрочем, имеется в виду не свирепость кубачинцев, а непобедимое кубачинское оружие. В Кубачи живут мастера, которым нет равных. Они исполняют любые тонкие работы с металлом, но их призванием, прежде всего, всегда было оружие и доспехи; но это не просто ремесло, а сакральное искусство, философия, если угодно — магия. Слава кубачинского оружия — распространилась на весь мир.

С VI века в арабских источниках упоминается название Зирихгеран. Это название на фарси означает «страна тех, кто делает доспехи», по-русски получается нечто вроде «бронники» или «кольчужники». Около 1467 года впервые упоминается имя Кубачи (или Гюбечи), слово это тюркское, означает «бронники, изготовители доспехов».

Все три имени аула и живущего в нем народа означают одно — ремесло. И в этом странность: получается, что кубачинцы — народ без древнего, исконного наименования.

Но есть еще одно имя, четвертое. Соседи (лакцы, кайтаги и лезгины) кубачинцев называют странно — пранг-капур, то есть франки. Более того, сами угбуги-кубачи считают, что их род из Франции.

Первым о потомках европейцев на Кавказе сообщил полковник Иоганн Густав Гербер (умер в 1734 году), — он побывал в тех краях в 1727 году. Спустя полвека академик Иоганн Антон Гильденштедт (1745–1781) в описании своего путешествия по Кавказу сообщил, что в Кобачи живут потомки генуэзцев. Они бежали в горы от войск Чингисхана в 1220–1230-х годах, долго оставались христианами, потерпели гонения, скрывались и только после долгих преследований приняли ислам.

Не попал ли «итальянский» адмикс к кумыкам от кубачинцев?

III.

Наконец, лезгины. Точно также как и в случае с лакцами, поражает отсутствие статистически значимой двух-референсной корреляции кривой экспонентного угасания LD (неравновесного сцепления).

Согласно результатам предварительного теста, только две популяции — башкиры и казахи — имеют однорефренсную взвешенную LD-кривую с лезгинами

Pre-test: Does Lezgin have a 1-ref weighted LD curve with…… Bashkir: YES (z = 1.99) Kazakh: YES (z = 2.12)

Датировка казахского и башкирского адмиксов в популяции лезгинов также представляется мне логичной 8+-4 поколений [башкиры] и 9+-3 поколений тому назад [казахи]:

DATA: failure (warning: decay rates inconsistent) 2.6e+03 Lezgin Bashkir Kazakh 0.00 1.99 2.12 194% 500.00 +/- inf -341600.24428451 +/- inf 7.89 +/- 3.96 0.00000246 +/- 0.00000113 9.02 +/- 3.24 0.00000325 +/- 0.00000154

Поскольку decay rates (скорости угасания) казахского и башкирского адмикса не коррелируют между собой, то их источник был разный.Поскольку оба адмикса недавние — в пределах 100-300 лет назад — то как и ожидалось, %-доля этих адмиксов в генофонде лезгинов невелика.

[башкиры] Mixture fraction % lower bound (assuming admixture): 2.7 +/- 1.1
[казахи] Mixture fraction % lower bound (assuming admixture): 3.6 +/- 1.5

Вывод — смешение башкиров/казахов с лезгинами носило случайный и несистематический характер.

 

Популяции Нового Света: f_3 статистика и датировка событий креолизации/метисизации

Итак, теперь можно попытаться проанализировать результаты предыдущего опыта по изучению генетической структуры ряда американских популяций. MDS-анализ показал, что популяции выстраиваются вдоль одного из двух ребер умозрительного треугольника, вершиной которого является популяцию белых американцев из США (штат Юта). Одно из ребер является проекцией градации присутствия в генофонде чистого аборигенного америндского компонента – самыми близкими к белым американцам оказываются метисизированные группы алеутов и индейцев с северо-западного побережья США (индейцы Кольвилль и так далее),  и самой удаленной группой является популяция индейцев Surui из Бразилии. Второе ребро условного треугольника довольно только отражает градацию чистого африканского компонента.  Наиболее близкими к CEU здесь оказываются пуэрто-риканцы и жители островов Карибского моря, однако значительная часть этой группы оказывается смещенной в сторону от основного вектора за счет присутствия в генофонде следов нативного индейского населения Пуэрто-Рико.  Примечательно также расположение на плоте популяции The Lumbee Tribe. В первом цензе США 1790 года Lumbee записывались в разряд лично-свободных цветных людей. Однако уже в середине 19 века Lumbee упорно опровергали утверждения ряда ученых о происхождении Lumbee от беглых черных рабов: современные потомки этой небольшой группы продолжают считать себя потомками от смешанных браков индейцев Северной Каролины с  потомками «потерянных» белых колонистов Каролины начала 18 века.

Однако мой эксперимент разоблачает этот миф. Представители этой группы оказываются рядом с пуэрто-риканцами, благодаря чему можно сделать два убедительных предположения: a) Lumbee возникли в результате сложно процесса смешения всех трех рас  и b) соотношение генетических компонент трех рас в геноме Lumbee приблизительно равно аналогичному соотношению в геноме пуэрто-риканцев. Этот феномен объясняет почему многие из пуэрто-риканцев и афро-американцев, которые пользуются моим геномным калькуляторам для предсказания своего этнического происхождения,  нередко находят в своих результатах совпадение с геномом представителей племени Lumbee.

f3-статистика адмикса

Поскольку  в отличие от моих предыдущих экспериментов с европейскими популяциями данная выборка содержат априорно известные популяции метисов и мулатов, то в целях сопоставления результатов я решил применить новейшие методы анализа геномного адмикса – f3статистику и алгоритм ROLLOFF — для изучения демографической истории популяций Нового Света. В качестве примера я использовал геномные данные пуэрто-риканцев, в анализе использована метрика f3-статистики в версии программы Admixtools. Для иллюстрации достоверности сигнала я выбрал только те пары референсных популяций, чья интерполяция в геном таргетной популяции пуэрто-риканцев дают наибольшее отрицательное значение

parameter file: /storage/hpchome/vadim78/admixtools/examples/test.par

### THE INPUT PARAMETERS

##PARAMETER NAME: VALUE

genotypename: /storage/hpchome/vadim78/admixtools/bin/American.geno

snpname: /storage/hpchome/vadim78/admixtools/bin/American.snps

indivname: /storage/hpchome/vadim78/admixtools/bin/American.ind

popfilename: /storage/hpchome/vadim78/admixtools/examples/amer_qp3test

## qp3Pop version: 204

nplist: 528

number of blocks for block jackknife: 662

snps: 618523

Source1 Source2 Target f_3 std.err Z SNPs
Afro-American Kumiai PuertoRican -0.016575 0.000547 -30.303

601008

Afro-American Tsimsian PuertoRican -0.016280 0.000525 -31.011

601177

Afro-American Huichol PuertoRican -0.015848 0.000498 -31.799

601268

Afro-American Pima PuertoRican -0.014528 0.000455 -31.952

602781

Afro-American Navajo PuertoRican -0.013458 0.000409 -32.877

602871

Afro-American Mixtec PuertoRican -0.015951 0.000431 -36.975

602204

CEU Afro-American PuertoRican -0.017152 0.000232 -73.777

608991

Если сравнивать с результатами ADLER-тестов европейских популяций, то сразу обращает на себя внимание высокие значения Z-score, особенно в сравнении со старыми европейскими популяциями. Разница в амплитуде значений составляет примерно 10-15 раз.  Говоря простым языком, генетический сигнал смешения исходных популяций у пуэрто-риканцев намного сильнее, что свидетельствует о недавном адмиксе.

Интервал активной фазы смешения предковых популяций.

На следующем этапе нашего эксперимента, мы использовали программу ADLER и генетические дистанции снипов, полученные путем интерполяции известных значений генетических дистанций (сантиморганид) и физических дистанции снипов. Конечной целью этого этапа – дать оценку хронологического интервала событий адмикса. Для большего разнообразия я выбрал  латиноамериканских жителей Карибского бассейна.   Из нижеприведенных результатов следует, что у популяции латиноамериканских жителей присутствует сигнал адмикса как с североамериканскими, так и с центрально-американскими индейцами. Временной интервал адмикса в упрощенном виде составляет примерно 17-10 поколений тому назад  т.е примерно в интервале между 1490-1660 годами.

        |

|      ALDER,   v1.0

\..|./

\ \  /       Admixture

\ |/ /      Linkage

\| /       Disequilibrium for

|/        Evolutionary

|         Relationships

|

 

+—————————————————————————+

|  ALDER computes weighted LD decay curves, performs curve-fitting to      |

|  infer admixture dates, and uses the results to test for admixture.      |

|  For full details about options and parameters, please see the README    |

|  file included with this software.                                       |

+—————————————————————————+

 

warning: ignoring ‘jackknife’ parameter, which only applies to raw output

———- contents of parameter file: alder.par ———-

genotypename: /storage/hpchome/vadim78/admixtools/bin/American.geno

snpname: /storage/hpchome/vadim78/admixtools/bin/American.snps

indivname: /storage/hpchome/vadim78/admixtools/bin/American.ind

num_threads: 10

jackknife: YES

output: Caribbean

seed: 24

admixpop: Caribbean_Hispanic

refpops: Mexican;Colombian;Dominican;Ecuadorian;PuertoRican;Bolivian;Totonac;Aleut;Athabask;Navajo;Apache;Mixtec;Huichol;Cochimi;Cucupa;Kumiai;Luiseno;Costanoan;Lumbee;Tlingit;Haida;Eskimo;Miwok;Serrano;Colville;Inuit-West;Inuit-East;Tsimsian;Pima;Maya;Karitiana;Surui;Caribbean_Hispanic;Afro-American;CEU

———- parameter settings used (with defaults for unspecified) ———-

 

Input data files:

genotypename: /storage/hpchome/vadim78/admixtools/bin/American.geno

snpname: /storage/hpchome/vadim78/admixtools/bin/American.snps

indivname: /storage/hpchome/vadim78/admixtools/bin/American.ind

 

Admixed population:

admixpop: Caribbean_Hispanic

 

Reference populations/weights:

refpops: Mexican;Colombian;Dominican;Ecuadorian;PuertoRican;Bolivian;Totonac;Aleut;Athabask;Navajo;Apache;Mixtec;Huichol;Cochimi;Cucupa;Kumiai;Luiseno;Costanoan;Lumbee;Tlingit;Haida;Eskimo;Miwok;Serrano;Colville;Inuit-West;Inuit-East;Tsimsian;Pima;Maya;Karitiana;Surui;Caribbean_Hispanic;Afro-American;CEU

 

Raw weighted LD curve output:

raw_outname: (none)

 

Data filtering:

mincount: 4

 

Curve fitting:

binsize: 0.000500

mindis: -1.000000

maxdis: 0.500000

 

Поскольку нет смысла приводить весь лог эксперимента, я ограничусь лишь теми результатами, которые дали положительные результаты по обоим тестам

 

*** Admixture test summary ***

 

Weighted LD curves are fit starting at 1.2 cM

 

Does Caribbean_Hispanic have a 2-ref weighted LD curve with Mixtec and Tlingit?

2-ref decay z-score:    5.11

2-ref amp_exp z-score:  4.68

YES: curve is significant

 

Do 2-ref and 1-ref curves have consistent decay rates?

1-ref Mixtec — 2-ref z-score:                       0.02   (  0%)

1-ref Tlingit — 2-ref z-score:                      1.11   ( 21%)

1-ref Tlingit — 1-ref Mixtec z-score:               1.76   ( 21%)

YES: decay rates are consistent

 

Test SUCCEEDS (z=4.68, p=0.00054) for Caribbean_Hispanic with {Mixtec, Tlingit} weights

note: p-value is multiplied by 190 for multiple-hypothesis correction

 

DATA:  success 0.00054            Caribbean_Hispanic   Mixtec Tlingit  4.68      5.26      5.97      21%     12.14 +/- 2.37            0.00002098 +/- 0.00000448       12.18 +/- 2.32   0.00015501 +/- 0.00001668       15.03 +/- 1.95   0.00009072 +/- 0.00001520

*** Admixture test summary ***

 

Weighted LD curves are fit starting at 0.9 cM

 

Does Caribbean_Hispanic have a 2-ref weighted LD curve with Mixtec and Haida?

2-ref decay z-score:    7.24

2-ref amp_exp z-score:  4.87

YES: curve is significant

 

Do 2-ref and 1-ref curves have consistent decay rates?

1-ref Mixtec — 2-ref z-score:                      -0.19   ( -3%)

1-ref Haida — 2-ref z-score:                        0.78   ( 18%)

1-ref Haida — 1-ref Mixtec z-score:                 1.06   ( 21%)

YES: decay rates are consistent

 

Test SUCCEEDS (z=4.87, p=0.00021) for Caribbean_Hispanic with {Mixtec, Haida} weights

note: p-value is multiplied by 190 for multiple-hypothesis correction

 

DATA:  success 0.00021            Caribbean_Hispanic   Mixtec Haida  4.87      5.26      5.06      21%     12.61 +/- 1.74            0.00004084 +/- 0.00000838       12.18 +/- 2.32   0.00015501 +/- 0.00001668       15.07 +/- 2.88   0.00006966 +/- 0.00001376

 

*** Admixture test summary ***

 

Weighted LD curves are fit starting at 1.1 cM

 

Does Caribbean_Hispanic have a 2-ref weighted LD curve with Haida and Pima?

2-ref decay z-score:    4.23

2-ref amp_exp z-score:  4.18

YES: curve is significant

 

Do 2-ref and 1-ref curves have consistent decay rates?

1-ref Haida — 2-ref z-score:                        0.15   (  4%)

1-ref Pima — 2-ref z-score:                        -0.53   (-11%)

1-ref Pima — 1-ref Haida z-score:                  -0.72   (-15%)

YES: decay rates are consistent

 

Test SUCCEEDS (z=4.18, p=0.0055) for Caribbean_Hispanic with {Haida, Pima} weights

note: p-value is multiplied by 190 for multiple-hypothesis correction

 

DATA:  success 0.0055  Caribbean_Hispanic   Haida  Pima    4.18      5.06      5.02      15%     14.44 +/- 3.41   0.00004388 +/- 0.00001049       15.07 +/- 2.88   0.00006966 +/- 0.00001376       12.93 +/- 2.57   0.00014421 +/- 0.00001779

 

Заметка о аутосомном генофонде беларусов.Часть III

В начале нового года я решил обновить данные экспериментов с аутосомными снипами беларусов. Обновление в силу схожести методологических приемов будет затрагивать главным образом результаты анализа беларуского генофонда в программе ALDER (технические детали и дизайн эксперимента обсуждались в предыдущих заметках).

В качестве заметки на полях отмечу, что в ходе своих предыдущих экспериментов я убедился в том, что наилучшие результаты дает запуск рабочего цикла программы без указания дефольтных размеров «окон» SNP-ов, в которых и происходит анализ корреляции угасания генетического сцепления.

С целью поддержки совместимости с предыдущими экспериментами, я снова отфильтровал результаты последних экспериментов таким образом, чтобы они соответствовали двум параметрам — a) в анализируемой группе беларусов наблюдалась двухсторонняя корреляция с обеими референсными популяциями; 2) согласованность скорости экспонентного угасания генетического сцепления в адмиксе и в обеих референсных популяциях.

Как и ранее, представляю для ознакомления сводную таблицу, наиболее интересную часть которой должны представлять колонки с возрастом адмикса (в поколениях), датированным на основании наблюдаемого уровня угасания генетического сцепления (выделены красным).

Для начала результат анализа данных собранных по беларуссом в моем научно-исследовательском проекте MDLP (Belorussian_V).

Belarusian_V Lithuanian_V Russian_cossack 36.98+/-3.75
Belarusian_V Lithuanian_V Avar 44.15+/-4.72
Belarusian_V Lithuanian_V Ukrainian 42.14+/-5.22
Belarusian_V Lithuanian_V Abhkasian 42.85+/-5.42
Belarusian_V Lithuanian_V Russian_V 42.09+/-5.02
Belarusian_V Lithuanian_V Russian_Center 42.75+/-5.98
Belarusian_V Lithuanian_V Serbian 48.86+/-7.35
Belarusian_V Lithuanian_V Ukrainian-East 43.69+/-5.89
Belarusian_V Lithuanian_V Cirkassian 43.91+/-7.97
Belarusian_V Lithuanian_V Kumyk 41.10+/-5.98
Belarusian_V Russian_North Belarusian 40.66+/-9.63

Таблица наглядно иллюстрирует географические и хронлогические особенности адмикса. Основу (cубстрат) адмикса составляют популяции похожие на популяции современных литовцев и русских из северной части РФ. Вторую часть — популяции с характерным балкано-кавказским профилем. 

Разброс датировок адмикса также попадает в один интервал (примерно 1450-870 лет до настоящего времени, или в более привычной датировке — VI-XI в. н.э). Это период начала экспансии славян, в ходе которой происходило смешивание с различными балтийскими, фрако-иллирийскими и кавказскими племенами.

Это не первый случай, когда наблюдаемая в геноме закономерность хорошо согласуется с историческими сведениями.

Анализ академической выборки беларусов из коллекции Эстонского Биоцентра в городе Тарту дал результаты с большей временной и спатиальной амплитудой. Поэтому пришлось проводить дополнительную фильтровку данных и выбрать те результаты, которые попадают в ту же хронологическую шкалу, что и результаты первой группы беларусов.

Belarusian Ossetian Saami 49.07+/-4.89
Belarusian Ossetian Norwegian_V 48.9+/-8.66
Belarusian Cirkassian Greek_East 48.72+/-9.97
Belarusian Armenian Greek_North 48.25+/-17.62
Belarusian Greek_Center Norwegian_V 47.07+/-8.74
Belarusian Cirkassian Armenian 46.8+/-11.91
Belarusian Adygei Gagauz 46.79+/-11.34
Belarusian Cirkassian Lezgin 46.34+/-5.87
Belarusian Bashkir Armenian 46.32+/-5.01
Belarusian Lezgin Ossetian 46.23+/-8.39
Belarusian Cirkassian Adygei 45.79+/-10.37
Belarusian Bashkir Sardinian 43.19+/-5.87
Любопытно, что также как и в случае с первой группой беларусов хорошо заметен след генетических контактов с Кавказом и Балканами. Зато северо-европейская составляющая оказалась заменена на скандинавскую примесь (норвежцы и саамы). Но более существенным различием является обнаружение следа контакта со степными тюркскими народами навроде предков башкир.