Формальный анализ смешивания предковых популяций: белорусы, часть 2

Итак, после определения значимых для формального статистического моделирования комбинаций предковых популяций (или вернее, их суррогатов) представляется возможным смоделировать две вещи. Во-первых, необходимое с точки зрения статистики, число «импульсов» или «потоков» смешивания, а во-вторых, пропорции вклада «предковых» групп в генофонд белорусов.

Результаты анализа в программах qp3Pop и qpDstat показали, что в референтной группы белорусов присутствуют сигналы смешивания трех групп — мезолитических охотников-собирателей Европы (WHG), неолитических популяций земледельцев с Ближнего Востока и cибирских охотников-собирателей (чьи потомки в составе индоевропейцев) распространили свои гены по всей Европе.

Но меня больше интересует вопрос оценки величины доли вклада так называемого «базального компонента»(Basal Eurasian):

«четвертый элемент» — тот «базальный» компонент генофонда Европы, который проявился при моделировании истории сложения генофонда Европы в работе [Lazaridis et al., 2014] (см. раздел 8.4, рис 8.20) — предковой евразийской группой, которая внесла свой большой вклад и в геном неолитических земледельцев. Из аналогичной по методам модели, созданной в рассматриваемой работе [Seguin-Orlando et al., 2014], следует (рис. 8.6), что в геном человека из Костенок эти таинственные «базальные евразийцы» внесли не менее важный вклад, чем и верхнепалеолитические западные евразийцы. Также из модели следует, что он имел и общих, хотя и более отдаленных предков с древними северными евразийцами восточного ствола.

В этих целях я решил использовать в качестве суррогата базального евразийского генома геном Mota (древнего жителя Африки), примерно половину генома которого составлял тот самый пресловутый базальный компонент (результат обратных миграций натуфийского населния Ближнего Востока в восточную Африки)

Итак, в начале используем программу qpWave из того же пакета Admixtools

parameter file: qpWave.par

THE INPUT PARAMETERS

##PARAMETER NAME: VALUE
indivname: data.ind
snpname: data.snp
genotypename: data.geno
popleft: left
popright: right
maxrank: 6

qp4wave2 version: 200

left pops:
Levant_N
Mota
WHG
EHG

right pops:
Han
Onge
Papuan
Kostenki14
Ust_Ishim
Siberian_Upper_Paleolithic

0 Levant_N 13
1 Mota 1
2 WHG 2
3 EHG 3
4 Han 33
5 Onge 15
6 Papuan 14
7 Kostenki14 1
8 Ust_Ishim 1
9 Siberian_Upper_Paleolithic 1
jackknife block size: 0.050
snps: 572603 indivs: 84
number of blocks for block jackknife: 719
dof (jackknife): 631.955
numsnps used: 177238
f4info:
f4rank: 0 dof: 15 chisq: 574.447 tail: 9.47752373e-113 dofdiff: 0 chisqdiff: 0.000 taildiff: 1

<cf4info:
f4rank: 1 dof: 8 chisq: 115.553 tail: 2.7408605e-21 dofdiff: 7 chisqdiff: 458.894 taildiff: 5.4614954e-95
B:
scale 1.000
Onge -0.475
Papuan -0.521
Kostenki14 0.069
Ust_Ishim -0.746
Siberian_Upper_Paleolithic 1.986
A:
scale 290.851
Mota -0.932
WHG 0.299
EHG 1.429

f4info:
f4rank: 2 dof: 3 chisq: 8.502 tail: 0.036691843 dofdiff: 5 chisqdiff: 107.050 taildiff: 1.7204978e-21
B:
scale 1.000 1.000
Onge -0.462 -0.050
Papuan -0.522 -0.105
Kostenki14 0.288 2.189
Ust_Ishim -0.733 0.378
Siberian_Upper_Paleolithic 1.973 -0.232
A:
scale 286.604 578.115
Mota -0.951 -1.197
WHG 0.385 0.752
EHG 1.396 -1.001

f4info:
f4rank: 3 dof: 0 chisq: 0.000 tail: 1 dofdiff: 3 chisqdiff: 8.502 taildiff: 0.036691843
B:
scale 1.000 1.000 1.000
Onge -0.400 -0.203 1.065
Papuan -0.459 -0.258 0.882
Kostenki14 0.299 2.175 0.273
Ust_Ishim -0.645 0.116 1.513
Siberian_Upper_Paleolithic 2.031 -0.382 0.850
A:
scale 282.949 595.536 1395.824
Mota -0.857 -1.172 0.944
WHG 0.466 0.827 1.449
EHG 1.431 -0.971 0.093

## end of run

Нас интересует статистика f4rank 2, и как видно она убедительна: chisq: 8.502 tail: 0.036691843 dofdiff: 5 chisqdiff: 107.050 taildiff: 1.7204978e-21.  То есть, для моделирования референсной популяции достаточно трех «источников» (в f4rank 3, т.е с 4 предковыми популяциями, статистика гораздо хуже: chisq: 0.000 tail: 1 dofdiff: 3 chisqdiff: 8.502 taildiff: 0.036691843 ).

Следующим этапом будет оценка пропорций «адмикса», образованного смешением трех «источников»:

 

parameter file: qpAdm.par

THE INPUT PARAMETERS

##PARAMETER NAME: VALUE
genotypename: data.geno
snpname: data.snp
indivname: data.ind
popleft: left
popright: right
maxrank: 8

qpAdm version: 200

left pops:
Belarusian
Mota
WHG
EHG
right pops:
Han
Onge
Papuan
Kostenki14
Ust_Ishim
Siberian_Upper_Paleolithic
0 Belarusian 25
1 Mota 1
2 WHG 2
3 EHG 3
4 Han 33
5 Onge 15
6 Papuan 14
7 Kostenki14 1
8 Ust_Ishim 1
9 Siberian_Upper_Paleolithic 1
jackknife block size: 0.050
snps: 572603 indivs: 96
number of blocks for block jackknife: 719
dof (jackknife): 628.796
numsnps used: 227599
codimension 1
f4info:
f4rank: 2 dof: 3 chisq: 20.724 tail: 0.000120097824 dofdiff: 5 chisqdiff: -20.724 taildiff: 1
B:
scale 1.000 1.000
Onge -0.502 0.176
Papuan -0.562 0.218
Kostenki14 0.442 2.074
Ust_Ishim -0.735 0.779
Siberian_Upper_Paleolithic 1.923 -0.110
A:
scale 285.645 552.926
Mota -1.490 -0.238
WHG 0.017 1.685
EHG 0.883 -0.324
full rank 1
f4info:
f4rank: 3 dof: 0 chisq: 0.000 tail: 1 dofdiff: 3 chisqdiff: 20.724 taildiff: 0.000120097824
B:
scale 1.000 1.000 1.000
Onge -0.502 0.178 0.403
Papuan -0.599 0.280 0.995
Kostenki14 0.455 2.029 -0.773
Ust_Ishim -0.773 0.879 1.373
Siberian_Upper_Paleolithic 1.893 0.008 1.168
A:
scale 288.199 555.700 1346.772
Mota -1.449 -0.056 0.947
WHG 0.026 1.726 0.141
EHG 0.948 -0.132 1.444
best coefficients: 0.318 0.148 0.534
ssres:
0.000295769 0.000789821 0.000059100 0.001247609 0.001271289
0.335431254 0.895733409 0.067025433 1.414909018 1.441765444

Jackknife mean: 0.316895017 0.150748678 0.532356305
std. errors: 0.035 0.067 0.045
error covariance (* 1000000)
1212 -1838 625
-1838 4506 -2668
625 -2668 2043
fixed pat wt dof chisq tail prob
000 0 3 20.724 0.000120098 0.318 0.148 0.534
001 1 4 125.483 0 -0.088 1.088 0.000 infeasible
010 1 4 25.750 3.55457e-05 0.378 0.000 0.622
100 1 4 102.973 2.28952e-21 0.000 0.702 0.298
011 2 5 336.445 0 1.000 0.000 0.000
101 2 5 127.950 6.47788e-26 0.000 1.000 0.000
110 2 5 184.757 0 0.000 -0.000 1.000
best pat: 000 0.000120098 - -
best pat: 010 3.55457e-05 chi(nested): 5.025 p-value for nested model: 0.0249831
best pat: 101 6.47788e-26 chi(nested): 102.201 p-value for nested model: 5.01661e-24

end of run

Итак, лучшими коэффициентам (пропорциями адмикса) являются 0.318 0.148 0.534. То есть референсная популяция белорусов может быть смоделирована как 30 % базального компонента, 15% компонента мезолитических охотников собирателей и 53% компонента жителей степи бронзового века («индоевропейцев»). Очевидно, что большая часть базального компонента попала в Европу вместе неолитическими земледельцами, а оставшаяся часть — была принесена индоевропейцами.

 

ALDER анализ происхождения белорусов и поляков

В качестве одного из метода проверки надежности импутированных снипов для анализа популяционной истории различных этнических групп, я использовал метод ALDER (он представляет собой более продвинутую версию алгоритма ROLOFF, описанного в известной работе Patterson et al. 2012).

Метод ALDER  выявляет нюансы популяционной истории через оценку двух важных параметров: а) рекомбинации — процесса обмена участками между разными молекулами ДНК, который напоминает перемешивание игральных карт в колоде (у человека он обязательно происходит при образовании половых клеток) и б) неравновесия по сцеплению — явления, при котором несколько участков ДНК передаются вместе блоками, которые формируются несколько по-разному в разных популяциях из-за того, что в разных популяциях наследуются разные комбинации сегментов ДНК. Таким образом, метод основан на выявлении специфических для каждой популяции сцепленных участков ДНК и на оценке доли общих сегментов в выборках сравниваемых популяций. При этом метод ALDER на основе оценки неравновесия по сцеплению определяет правдоподобность того, что две выбранные группы являются предковыми по отношению к анализируемым популяциям. Кроме того, метод позволяет также установить время смешения через оценку доли рекомбинаций на поколение.
Как было сказано выше, метод ALDER представляет собой расширенный вариант алгоритма ROLLOFF.Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатура LD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории,  чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения  LD в адмиксе напрямую связана с числом поколений, прошедших с момента адмикса,  так как c возрастанием числа поколений увлечивается число рекомбинаций произошедших между  двумя отдельными SNP-ами. Проще говоря: Rolloff соответствует экспоненциальной кривой угасания уровня LD от расстояния, и эта скорость экспоненциального снижения как раз и используется  для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.В качестве двух тестовых популяций я использовал две группы — выборку белорусов (данные публичной коллекции эстонского биоцентра, вошедшие позднее в стандартный набор популяций лаборатории Райха, а также данные белорусов, собранные мной в проекте MDLP) и выборку поляков (из публичной коллекции эстонского биоцентра, а также данные поляков из выборки моего проекта MDLP).   В 2012 году я уже проводил анализ ROLLOFF белорусов, поэтому было интересно посмотреть, как изменится картина после добавления новых палеогеномов и импутированных (негенотипированных) снипов. Для полноты эксперимента, я также включил данные поляков, чтобы посмотреть, работает ли метод на данных, полученных с помощью других платформ генотипирования (NB:когда я проводил анализ, у меня еще не было данных поляков из кураторской базы данных лаборатории Reich).

В качественных референсных популяций (кандидатов в предковые популяции) я использовал набор из 400 популяций в моей расширенной выборки.  Программа работает в три этапа:

  • На первом этапе определяется статистическая значимость сравнения амплитуд угасания 2-референсной LD(в случае наличия такой значимость программа пишет success)

Cледующие комбинации дали положительный результат

Belarusian Andronovo.SG Chukchis
Belarusian Andronovo.SG Koryaks
Belarusian Armenian_Martuni Karelia_HG
Belarusian Bashkir Turkish_Jewish
Belarusian Nordic_LN.SG Villabruna
Belarusian Turkish_Jewish Uzbek
Belarusian Anatolia_Neolithic Brahui
Belarusian Anatolia_Neolithic Burusho
Belarusian Anatolia_Neolithic Itelmen
Belarusian Anatolia_Neolithic Koryak
Belarusian Anatolia_Neolithic Mixtec
Belarusian Anatolia_Neolithic Pathan
Belarusian Anatolia_Neolithic Mala
Belarusian Anatolia_Neolithic Turkmen
Belarusian Anatolia_Neolithic Uygur
Belarusian Druze Selkup
Belarusian Mala Syrian
Belarusian Mixtec Spain_EN
Belarusian Anatolia_Neolithic Brahui
Belarusian Anatolia_Neolithic Burusho
Belarusian Anatolia_Neolithic Chukchi
Belarusian Anatolia_Neolithic Selkup
Belarusian Anatolia_Neolithic Sindhi
Belarusian Anatolia_Neolithic Uygur
Belarusian British-Roman Koryak
Belarusian British-Roman Mixtec
Belarusian Chukchi Mala
Belarusian Itelmen Uzbek_WGA
Belarusian LBK_EN Selkup
Belarusian Selkup Turkish_Trabzon
Belarusian Abhkasian Lahu
Belarusian Ami_Coriell Uzbek_WGA
Belarusian Anatolia_Neolithic Chukchi
Belarusian Anatolia_Neolithic Daur
Anatolia_Neolithic Han
Anatolia_Neolithic Han_NChina
Anatolia_Neolithic Miao
Anatolia_Neolithic Turkmen
Belarusian Atayal_Coriell Uzbek_WGA
Belarusian British-Roman Mixtec
Belarusian Chukchi Mala
Belarusian Dai Greek_Islands
Belarusian Dai Uzbek_WGA
Belarusian Daur North_Ossetian
Belarusian Daur Uzbek_WGA
Belarusian Eskimo_Chaplin LBK_EN
Belarusian Georgian Lahu
Belarusian Georgian Yi
Belarusian Greek_Islands Han
Belarusian Greek_Islands Miao
Belarusian Greek_Islands Mixtec
Belarusian Greek_Islands Nganasan
Belarusian Greek_Islands Ulchi
Belarusian Greek_Islands Xibo
Belarusian Han Uzbek_WGA
Belarusian Han Yemenite_Jew
Belarusian Han_NChina Uzbek_WGA
Belarusian Han_NChina Yemenite_Jew
Belarusian Japanese Uzbek_WGA
Belarusian Korean Uzbek_WGA
Belarusian Lahu Turkish_Jew
Belarusian Lahu Uzbek_WGA
Belarusian Lahu Yemenite_Jew
Belarusian LBK_EN Selkup
Belarusian Miao Uzbek_WGA
Belarusian Miao Yemenite_Jew
Belarusian Naxi Uzbek_WGA
Belarusian Oroqen Uzbek_WGA
Belarusian She Uzbek_WGA
Belarusian Tu Uzbek_WGA
Belarusian Tujia Uzbek_WGA
Belarusian Tujia Yemenite_Jew
Belarusian Ulchi Uzbek_WGA
Belarusian Uzbek_WGA Xibo
Belarusian Uzbek_WGA Yi
Belarusian Uzbek_WGA Yukagir_Tundra
Belarusian Yemenite_Jew Yi
  • На втором — cоответствие скоростей угасания LD в попарном сравнении с референсными популяциями (программа выдает предупреждение, если амплитуды угасания LD несовместимы).  Как видно, большинство триплетов (таргетная популяция + 2 референса) имеет несовместимые амплитуды угасания LD.

DATA: success (warning: decay rates inconsistent) 0.028 Belarusian Andronovo.SG Chukchis 4.64 2.80 2.11 85% 244.96 +/- 44.45 0.00055485 +/- 0.00011964 262.22 +/- 50.30 0.00029724 +/- 0.00010632 105.99 +/- 50.22 0.00013405 +/- 0.00003707
DATA: success (warning: decay rates inconsistent) 3.8e-05 Belarusian Andronovo.SG Koryaks 5.86 2.80 2.36 85% 241.36 +/- 36.30 0.00059837 +/- 0.00010219 262.22 +/- 50.30 0.00029724 +/- 0.00010632 105.75 +/- 44.80 0.00011083 +/- 0.00002791
DATA: success (warning: decay rates inconsistent) 0.037 Belarusian Armenian_Martuni Karelia_HG 4.58 2.20 3.48 53% 206.14 +/- 39.11 0.00072944 +/- 0.00015918 324.91 +/- 90.64 0.00018302 +/- 0.00008311 189.01 +/- 42.42 0.00043186 +/- 0.00012423
DATA: success (warning: decay rates inconsistent) 0.044 Belarusian Bashkir Turkish_Jewish 4.55 2.70 2.53 83% 121.78 +/- 24.93 0.00009384 +/- 0.00002064 153.64 +/- 48.19 0.00006384 +/- 0.00002366 296.25 +/- 73.05 0.00014988 +/- 0.00005929
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Nordic_LN.SG Villabruna 4.54 2.19 5.01 30% 160.01 +/- 35.24 0.00086280 +/- 0.00018037 139.86 +/- 63.88 0.00033916 +/- 0.00014340 117.88 +/- 23.51 0.00043952 +/- 0.00008295
DATA: success (warning: decay rates inconsistent) 0.0032 Belarusian Turkish_Jewish Uzbek 5.07 2.53 2.35 112% 116.58 +/- 23.00 0.00008493 +/- 0.00001382 296.25 +/- 73.05 0.00014988 +/- 0.00005929 83.46 +/- 35.51 0.00004275 +/- 0.00001721
DATA: success (warning: decay rates inconsistent) 0.0066 Belarusian Anatolia_Neolithic Brahui 4.18 4.42 2.87 37% 63.78 +/- 15.17 0.00000803 +/- 0.00000192 92.46 +/- 19.49 0.00001427 +/- 0.00000323 88.94 +/- 27.82 0.00000775 +/- 0.00000270
DATA: success (warning: decay rates inconsistent) 0.019 Belarusian Anatolia_Neolithic Burusho 3.93 4.42 2.19 47% 93.43 +/- 9.05 0.00001536 +/- 0.00000390 92.46 +/- 19.49 0.00001427 +/- 0.00000323 149.25 +/- 37.02 0.00001357 +/- 0.00000621
DATA: success (warning: decay rates inconsistent) 0.035 Belarusian Anatolia_Neolithic Itelmen 3.79 4.42 2.15 64% 69.11 +/- 15.92 0.00002889 +/- 0.00000762 92.46 +/- 19.49 0.00001427 +/- 0.00000323 134.23 +/- 58.31 0.00003278 +/- 0.00001523
DATA: success (warning: decay rates inconsistent) 0.023 Belarusian Anatolia_Neolithic Koryak 3.90 4.42 2.30 30% 82.94 +/- 21.28 0.00003363 +/- 0.00000828 92.46 +/- 19.49 0.00001427 +/- 0.00000323 111.83 +/- 48.56 0.00002562 +/- 0.00000985
DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.90 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Mixtec 3.87 4.42 2.73 71% 71.36 +/- 14.69 0.00003027 +/- 0.00000782 92.46 +/- 19.49 0.00001427 +/- 0.00000323 149.36 +/- 43.83 0.00002944 +/- 0.00001080
DATA: success (warning: decay rates inconsistent) 0.019 Belarusian Anatolia_Neolithic Pathan 3.93 4.42 2.02 42% 104.78 +/- 14.08 0.00001497 +/- 0.00000380 92.46 +/- 19.49 0.00001427 +/- 0.00000323 141.03 +/- 36.42 0.00001165 +/- 0.00000577
DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success (warning: decay rates inconsistent) 0.026 Belarusian Anatolia_Neolithic Uygur 3.87 4.42 2.54 56% 71.95 +/- 14.95 0.00001528 +/- 0.00000395 92.46 +/- 19.49 0.00001427 +/- 0.00000323 127.39 +/- 37.67 0.00001541 +/- 0.00000606
DATA: success (warning: decay rates inconsistent) 0.02 Belarusian Druze Selkup 3.93 2.02 3.14 73% 51.53 +/- 13.06 0.00001224 +/- 0.00000311 110.46 +/- 43.38 0.00001040 +/- 0.00000516 59.53 +/- 18.98 0.00000945 +/- 0.00000299
DATA: success (warning: decay rates inconsistent) 0.044 Belarusian Mala Syrian 3.73 3.87 2.84 28% 72.39 +/- 19.33 0.00000805 +/- 0.00000216 87.55 +/- 18.75 0.00001071 +/- 0.00000277 96.31 +/- 27.52 0.00000993 +/- 0.00000350
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Mixtec Spain_EN 3.85 2.73 2.67 26% 114.65 +/- 21.37 0.00005462 +/- 0.00001417 149.36 +/- 43.83 0.00002944 +/- 0.00001080 117.07 +/- 30.31 0.00002193 +/- 0.00000820
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Anatolia_Neolithic Brahui 3.70 3.45 2.55 32% 63.07 +/- 15.18 0.00000871 +/- 0.00000235 81.39 +/- 21.48 0.00001207 +/- 0.00000349 87.19 +/- 27.66 0.00000771 +/- 0.00000303
DATA: success (warning: decay rates inconsistent) 0.039 Belarusian Anatolia_Neolithic Burusho 3.74 3.45 2.00 61% 89.47 +/- 10.12 0.00001582 +/- 0.00000423 81.39 +/- 21.48 0.00001207 +/- 0.00000349 152.62 +/- 45.80 0.00001482 +/- 0.00000742
DATA: success (warning: decay rates inconsistent) 0.0013 Belarusian Anatolia_Neolithic Chukchi 4.52 3.45 2.79 35% 77.64 +/- 16.37 0.00003602 +/- 0.00000797 81.39 +/- 21.48 0.00001207 +/- 0.00000349 110.36 +/- 39.54 0.00002861 +/- 0.00000981
DATA: success (warning: decay rates inconsistent) 0.038 Belarusian Anatolia_Neolithic Selkup 3.74 3.45 2.41 38% 55.27 +/- 13.63 0.00002155 +/- 0.00000576 81.39 +/- 21.48 0.00001207 +/- 0.00000349 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Anatolia_Neolithic Sindhi 3.83 3.45 2.68 61% 65.40 +/- 9.12 0.00001072 +/- 0.00000280 81.39 +/- 21.48 0.00001207 +/- 0.00000349 122.70 +/- 32.60 0.00001132 +/- 0.00000423
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.00000250 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Uygur 3.85 3.45 2.16 37% 70.37 +/- 13.51 0.00001582 +/- 0.00000411 81.39 +/- 21.48 0.00001207 +/- 0.00000349 102.34 +/- 33.39 0.00001107 +/- 0.00000512
DATA: success (warning: decay rates inconsistent) 0.021 Belarusian British-Roman Koryak 3.89 2.37 2.28 74% 62.36 +/- 16.01 0.00003903 +/- 0.00000934 52.03 +/- 19.63 0.00002305 +/- 0.00000974 113.23 +/- 49.75 0.00002665 +/- 0.00001027
DATA: success (warning: decay rates inconsistent) 0.0084 Belarusian British-Roman Mixtec 4.11 2.37 2.50 80% 64.78 +/- 15.52 0.00004703 +/- 0.00001145 52.03 +/- 19.63 0.00002305 +/- 0.00000974 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success (warning: decay rates inconsistent) 0.01 Belarusian Chukchi Mala 4.06 2.79 4.06 60% 172.83 +/- 30.55 0.00002691 +/- 0.00000663 110.36 +/- 39.54 0.00002861 +/- 0.00000981 93.18 +/- 21.71 0.00001222 +/- 0.00000301
DATA: success (warning: decay rates inconsistent) 0.047 Belarusian Itelmen Uzbek_WGA 3.69 2.36 2.20 54% 142.22 +/- 27.73 0.00006725 +/- 0.00001821 129.35 +/- 53.29 0.00003152 +/- 0.00001338 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.009 Belarusian LBK_EN Selkup 4.09 2.18 2.41 67% 67.83 +/- 16.58 0.00002655 +/- 0.00000641 115.11 +/- 38.65 0.00001960 +/- 0.00000899 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 0.05 Belarusian Selkup Turkish_Trabzon 3.68 2.41 2.11 32% 56.53 +/- 15.37 0.00001451 +/- 0.00000330 57.06 +/- 20.02 0.00000933 +/- 0.00000386 77.83 +/- 33.34 0.00000751 +/- 0.00000355
DATA: success (warning: decay rates inconsistent) 0.017 Belarusian Abhkasian Lahu 4.21 2.47 2.97 174% 32.04 +/- 6.68 0.00001002 +/- 0.00000238 3.95 +/- 1.60 0.00000098 +/- 0.00000024 57.34 +/- 19.33 0.00001384 +/- 0.00000369
DATA: success (warning: decay rates inconsistent) 0.00018 Belarusian Ami_Coriell Uzbek_WGA 5.15 2.09 2.20 63% 162.32 +/- 22.43 0.00007649 +/- 0.00001486 118.09 +/- 56.57 0.00002688 +/- 0.00001279 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0041 Belarusian Anatolia_Neolithic Chukchi 4.52 3.45 2.79 35% 77.64 +/- 16.37 0.00003602 +/- 0.00000797 81.39 +/- 21.48 0.00001207 +/- 0.00000349 110.36 +/- 39.54 0.00002861 +/- 0.00000981
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Daur 4.12 3.45 2.63 47% 73.39 +/- 17.81 0.00002378 +/- 0.00000569 81.39 +/- 21.48 0.00001207 +/- 0.00000349 118.84 +/- 40.98 0.00002486 +/- 0.00000947
DATA: success 0.05 Belarusian Anatolia_Neolithic Han 3.96 3.45 3.00 17% 79.39 +/- 18.74 0.00002687 +/- 0.00000678 81.39 +/- 21.48 0.00001207 +/- 0.00000349 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.00002310 +/- 0.00000644
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.20 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.00000250 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success (warning: decay rates inconsistent) 0.00046 Belarusian Atayal_Coriell Uzbek_WGA 4.97 2.02 2.20 53% 179.16 +/- 31.95 0.00008213 +/- 0.00001654 130.82 +/- 54.40 0.00002576 +/- 0.00001275 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian British-Roman Mixtec 4.11 2.37 2.50 80% 64.78 +/- 15.52 0.00004703 +/- 0.00001145 52.03 +/- 19.63 0.00002305 +/- 0.00000974 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success (warning: decay rates inconsistent) 0.033 Belarusian Chukchi Mala 4.06 2.79 4.06 60% 172.83 +/- 30.55 0.00002691 +/- 0.00000663 110.36 +/- 39.54 0.00002861 +/- 0.00000981 93.18 +/- 21.71 0.00001222 +/- 0.00000301
DATA: success (warning: decay rates inconsistent) 0.009 Belarusian Dai Greek_Islands 4.35 3.05 2.28 32% 122.32 +/- 24.18 0.00004797 +/- 0.00001103 88.71 +/- 29.04 0.00001846 +/- 0.00000511 102.11 +/- 26.83 0.00001569 +/- 0.00000687
DATA: success (warning: decay rates inconsistent) 0.049 Belarusian Dai Uzbek_WGA 3.97 3.05 2.20 87% 160.47 +/- 30.16 0.00006276 +/- 0.00001582 88.71 +/- 29.04 0.00001846 +/- 0.00000511 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0015 Belarusian Daur North_Ossetian 4.73 2.63 2.09 122% 42.94 +/- 8.92 0.00000724 +/- 0.00000153 118.84 +/- 40.98 0.00002486 +/- 0.00000947 178.58 +/- 51.90 0.00001887 +/- 0.00000901
DATA: success (warning: decay rates inconsistent) 0.047 Belarusian Daur Uzbek_WGA 3.97 2.63 2.20 62% 164.70 +/- 29.83 0.00008292 +/- 0.00002087 118.84 +/- 40.98 0.00002486 +/- 0.00000947 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.00086 Belarusian Eskimo_Chaplin LBK_EN 4.84 2.29 2.18 73% 53.65 +/- 11.08 0.00002657 +/- 0.00000479 63.81 +/- 27.89 0.00001618 +/- 0.00000586 115.11 +/- 38.65 0.00001960 +/- 0.00000899
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Georgian Lahu 4.10 2.89 2.97 166% 43.55 +/- 10.61 0.00001537 +/- 0.00000311 5.27 +/- 1.82 0.00000079 +/- 0.00000023 57.34 +/- 19.33 0.00001384 +/- 0.00000369
DATA: success (warning: decay rates inconsistent) 0.05 Belarusian Georgian Yi 3.96 2.89 3.26 179% 35.28 +/- 8.91 0.00000897 +/- 0.00000226 5.27 +/- 1.82 0.00000079 +/- 0.00000023 93.65 +/- 25.60 0.00002033 +/- 0.00000624
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3.00 15% 108.92 +/- 26.70 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.50 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.20 2.28 3.37 15% 118.40 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.90 0.00002845 +/- 0.00000805
DATA: success (warning: decay rates inconsistent) 0.042 Belarusian Greek_Islands Xibo 4.00 2.28 2.59 37% 101.05 +/- 22.65 0.00003689 +/- 0.00000922 102.11 +/- 26.83 0.00001569 +/- 0.00000687 70.25 +/- 27.10 0.00001649 +/- 0.00000507
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success (warning: decay rates inconsistent) 1.8e-05 Belarusian Han Uzbek_WGA 5.56 3.00 2.20 83% 145.83 +/- 21.23 0.00006518 +/- 0.00001171 93.68 +/- 31.25 0.00002137 +/- 0.00000623 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.023 Belarusian Han Yemenite_Jew 4.14 3.00 2.19 41% 101.08 +/- 19.78 0.00002665 +/- 0.00000644 93.68 +/- 31.25 0.00002137 +/- 0.00000623 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.00017 Belarusian Han_NChina Uzbek_WGA 5.15 3.58 2.20 76% 147.58 +/- 21.48 0.00006493 +/- 0.00001261 101.71 +/- 28.43 0.00002310 +/- 0.00000644 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.021 Belarusian Han_NChina Yemenite_Jew 4.16 3.58 2.19 47% 88.25 +/- 14.91 0.00002464 +/- 0.00000593 101.71 +/- 28.43 0.00002310 +/- 0.00000644 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Japanese Uzbek_WGA 3.99 2.51 2.20 76% 158.76 +/- 32.98 0.00007182 +/- 0.00001802 101.02 +/- 40.27 0.00002259 +/- 0.00000766 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.034 Belarusian Korean Uzbek_WGA 4.05 3.28 2.20 72% 147.50 +/- 22.94 0.00006552 +/- 0.00001618 106.54 +/- 29.46 0.00002451 +/- 0.00000748 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0022 Belarusian Lahu Turkish_Jew 4.65 2.97 3.22 53% 53.69 +/- 9.97 0.00001763 +/- 0.00000379 57.34 +/- 19.33 0.00001384 +/- 0.00000369 92.56 +/- 21.52 0.00000780 +/- 0.00000242
DATA: success (warning: decay rates inconsistent) 7.8e-06 Belarusian Lahu Uzbek_WGA 5.70 2.97 2.20 119% 125.65 +/- 17.75 0.00006183 +/- 0.00001084 57.34 +/- 19.33 0.00001384 +/- 0.00000369 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.028 Belarusian Lahu Yemenite_Jew 4.10 2.97 2.19 85% 73.51 +/- 17.32 0.00002186 +/- 0.00000534 57.34 +/- 19.33 0.00001384 +/- 0.00000369 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.029 Belarusian LBK_EN Selkup 4.09 2.18 2.41 67% 67.83 +/- 16.58 0.00002655 +/- 0.00000641 115.11 +/- 38.65 0.00001960 +/- 0.00000899 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 3e-05 Belarusian Miao Uzbek_WGA 5.47 3.63 2.20 89% 141.79 +/- 17.01 0.00005964 +/- 0.00001090 86.31 +/- 23.79 0.00001726 +/- 0.00000411 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.012 Belarusian Miao Yemenite_Jew 4.29 3.63 2.19 49% 96.51 +/- 17.73 0.00002466 +/- 0.00000575 86.31 +/- 23.79 0.00001726 +/- 0.00000411 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.036 Belarusian Naxi Uzbek_WGA 4.04 2.35 2.20 87% 150.57 +/- 27.26 0.00006598 +/- 0.00001633 88.34 +/- 37.62 0.00001891 +/- 0.00000714 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0037 Belarusian Oroqen Uzbek_WGA 4.54 2.50 2.20 75% 159.87 +/- 26.32 0.00007776 +/- 0.00001713 102.18 +/- 40.85 0.00002369 +/- 0.00000834 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.043 Belarusian She Uzbek_WGA 3.99 3.16 2.20 70% 177.32 +/- 34.01 0.00008208 +/- 0.00002055 108.68 +/- 31.62 0.00002238 +/- 0.00000708 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.029 Belarusian Tu Uzbek_WGA 4.09 2.28 2.20 85% 150.44 +/- 31.12 0.00006074 +/- 0.00001485 91.29 +/- 40.04 0.00001929 +/- 0.00000802 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.001 Belarusian Tujia Uzbek_WGA 4.80 2.09 2.20 61% 164.13 +/- 25.59 0.00008133 +/- 0.00001693 120.48 +/- 57.69 0.00002290 +/- 0.00001057 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.00002290 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.0053 Belarusian Ulchi Uzbek_WGA 4.47 3.37 2.20 65% 153.49 +/- 25.35 0.00007000 +/- 0.00001567 114.38 +/- 33.90 0.00002845 +/- 0.00000805 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.00055 Belarusian Uzbek_WGA Xibo 4.93 2.20 2.59 105% 129.90 +/- 24.58 0.00005579 +/- 0.00001132 225.56 +/- 61.89 0.00007507 +/- 0.00003406 70.25 +/- 27.10 0.00001649 +/- 0.00000507
DATA: success (warning: decay rates inconsistent) 0.00062 Belarusian Uzbek_WGA Yi 4.91 2.20 3.26 83% 156.22 +/- 22.94 0.00007252 +/- 0.00001478 225.56 +/- 61.89 0.00007507 +/- 0.00003406 93.65 +/- 25.60 0.00002033 +/- 0.00000624
DATA: success (warning: decay rates inconsistent) 0.011 Belarusian Uzbek_WGA Yukagir_Tundra 4.31 2.20 2.55 61% 182.09 +/- 32.35 0.00008497 +/- 0.00001970 225.56 +/- 61.89 0.00007507 +/- 0.00003406 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success (warning: decay rates inconsistent) 0.048 Belarusian Yemenite_Jew Yi 3.97 2.19 3.26 41% 130.87 +/- 22.50 0.00003478 +/- 0.00000876 142.22 +/- 61.15 0.00001902 +/- 0.00000870 93.65 +/- 25.60 0.00002033 +/- 0.00000624

После отсеивания не очень пригодных для дальнейшего анализа триплетов  у нас осталась следующие комбинации:

DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.9 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.05 Belarusian Anatolia_Neolithic Han 3.96 3.45 3 17% 79.39 +/- 18.74 0.00002687 +/- 0.00000678 81.39 +/- 21.48 0.00001207 +/- 0.00000349 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.0000231 +/- 0.00000644
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.2 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3 15% 108.92 +/- 26.7 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.5 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.2 2.28 3.37 15% 118.4 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.9 0.00002845 +/- 0.00000805
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.0000229 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.0000087

На третьем этапе программа определяет статистическая значимость комбинации (p-статистику):

P-значение (англ. P-value) — величина, используемая при тестировании статистических гипотез. Фактически это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода). Проверка гипотез с помощью P-значения является альтернативой классической процедуре проверки через критическое значение распределения.

Обычно P-значение равно вероятности того, что случайная величина с данным распределением (распределением тестовой статистики при нулевой гипотезе) примет значение, не меньшее, чем фактическое значение тестовой статистики.

Отберем значения P меньше 0.05

DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.0000231 +/- 0.00000644
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.5 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.9 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.2 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.2 2.28 3.37 15% 118.4 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.9 0.00002845 +/- 0.00000805
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.0000229 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.0000087
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3 15% 108.92 +/- 26.7 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623

Получаем следующие пары (с датировкой адмикса в поколениях и годах)

Таргет Референс 1 Референс 2 Поколения Погрешность Года Погрешность
Belarusian Anatolia_Neolithic Turkmen 85.64 +/- 28.96 2483.56 +/- 839.84
Belarusian Anatolia_Neolithic Turkmen 72.89 +/- 23.73 2113.81 +/- 688.17
Belarusian Anatolia_Neolithic Han_NChina 101.71 +/- 28.43 2949.59 +/- 824.47
Belarusian Anatolia_Neolithic Turkmen 72.89 +/- 23.73 2113.81 +/- 688.17
Belarusian Greek_Islands Mixtec 121.19 +/- 40.18 3514.51 +/- 1165.22
Belarusian Greek_Islands Yukagir_Tundra 119.62 +/- 45.23 3468.98 +/- 1311.67
Belarusian Anatolia_Neolithic Mala 87.55 +/- 18.75 2538.95 +/- 543.75
Belarusian Anatolia_Neolithic Miao 86.31 +/- 23.79 2502.99 +/- 689.91
Belarusian Greek_Islands Ulchi 114.38 +/- 33.9 3317.02 +/- 983.1
Belarusian Tujia Yemenite_Jew 142.22 +/- 61.15 4124.38 +/- 1773.35
Belarusian Greek_Islands Miao 86.31 +/- 23.79 2502.99 +/- 689.91
Belarusian Greek_Islands Nganasan 97.92 +/- 45.95 2839.68 +/- 1332.55
Belarusian Greek_Islands Han 93.68 +/- 31.25 2716.72 +/- 906.25
Belarusian Anatolia_Neolithic Han 93.68 +/- 31.25 2716.72 +/- 906.25

О чем свидетельствует результаты? Результаты указывают на наличие сигнала смешивания предковых популяций белорусов с неолитическими земледельцами (ближневосточные популяции и популяции ближнего Востока здесь выступают в качестве суррогата неолитических популяций), и с рядом восточноазиатских, сибирских и америндских популяций (здесь они выступают в качестве суррогата сибирского вклада в генофонд восточной Европы) cо средним интервалом смешения примерно 2850 +- 950 лет назад, т.е в период бронзового века.

Ниже приведены графики угасания LD в комбинации Anatolian-Neolithic + Mala

Затем я уменьшил масштаб подгонки (fitting) кривых угасания LD до 0.5 сантиморганид и взял в качестве референса  палеогеномы с хорошим покрытием

Эксперимент с Loschbour + Stuttgart оказался неудачным.

Более правдоподобна комбинация андроновцев (Andronovo) и чукчей (дата адмикса — 125+-60 поколений тому назад)

Вторая попытка подгонки референсных популяций Loschbour и Stuttgart в качестве предковых групп оказался более удачным (дата адмикса — приблизительно 445 +- 56 поколений тому назад, времена энеолита)

Адмикс с сибирскими палеопопуляциями (MA1) примерно в два раза «моложе» (258 +- 42 поколения, бронзовый век)

Еще один вариант адмикса между палеолитическими жителями Европы и MA1 (датировка — 393 +- 75 поколений)

Теперь о поляках. К сожалению, результаты оказались гораздо более зашумленными, так как использовались данные генотипирования на платформе Illumina, имеющей меньшее пересечение снипов со снипами платформы Affymetrix HumanOrigins. Несмотря на это, программа ALDER нашла три комбинации, пусть и с несовместимой амплитудой угасания LD.

DATA: success (warning: decay rates inconsistent) 0.011 Pole Eskimo_Sireniki Irish-BA 3.87 2.01 2.53 40% 146.66 +/- 27.30 0.00035747 +/- 0.00009228 161.51 +/- 69.51 0.00013202 +/- 0.00006577 107.56 +/- 33.31 0.00015435 +/- 0.00006109
DATA: success (warning: decay rates inconsistent) 0.0068 Pole Eskimo_Sireniki Remedello_BA.SG 3.99 2.01 2.57 49% 110.88 +/- 21.02 0.00024049 +/- 0.00006022 161.51 +/- 69.51 0.00013202 +/- 0.00006577 182.60 +/- 39.99 0.00014922 +/- 0.00005796
DATA: success (warning: decay rates inconsistent) 0.035 Pole Eskimo_Chaplin Remedello_BA.SG 3.59 2.51 2.57 56% 102.38 +/- 21.46 0.00022199 +/- 0.00006181 126.26 +/- 42.96 0.00009643 +/- 0.00003846 182.60 +/- 39.99 0.00014922 +/- 0.00005796

Здесь тоже виден слабый сигнал адмикса популяций бронзового века из Западной Европы (Remedello и ирландского бронзового века) c америндскими популяциями.

Впрочем, дополнительный анализ в программе ROLLOFF (с уменьшенным масштабом подгонки — fitting) выдал правдоподобные (c низким значением P) варианты. Например, вариант Bichon + Georgian_Kakheti: 151.41 +/-38.18, p= 4.7e-06

Очень хорошим вариантом оказался вариант адмикса Esperstedt_MN-Halberstadt_LBA: (дата адмикса — 163.80 +/- 34.11), p=4.8e-07

О «ближневосточном компоненте» палеолитических охотников-собирателей Европы

Сергей Козлов

О «ближневосточном компоненте» палеолитических охотников-собирателей Европы

Описание
Рассмотрена статья Qiaomei Fu et al. «The genetic history of Ice Age Europe». Проведен анализ европейских палеогеномов возрастом от 37 до 8 тысяч лет из данной статьи и более ранних работ. Аутосомный компонент западных охотников-собирателей (WHG) — преимущественно результат генетического дрейфа, гипотеза авторов о его формировании в результате однократной миграции в Европу около 14 тысяч лет назад носителей ближневосточных аутосомных компонентов несостоятельна. Вместе с тем, обмен генофондом с ближневосточными популяциями несомненно происходил, однако для прояснения его истории необходимы палеогеномы с Ближнего Востока. Подтверждаются выводы из более старых работ о наличии ближневосточного («базального») компонента у образца Костенки-14 (человек с Маркиной Горы), отрицаемые в рассматриваемой статье. Вероятно, он связан с компонентом охотников-собирателей Кавказа (CHG). Опровергается вывод авторов о восточноазиатском влиянии на поздних WHG. Проведено моделирование ряда возможных событий смешения и построено дерево вероятных взаимосвязей аутосомных компонентов с размещением на нем имеющихся палеогеномов.

Обсуждение работы Qiaomei Fu et al на форуме «Молекулярная генеалогия».

Новые палеогеномы из статьи
В рассматриваемой статье впервые произведен временной срез геномов жителей Европы верхнего палеолита. Конечно, единичные геномы у нас были и раньше (Костенки-14, Oase1), однако не хватало системности для построения целостной картины изменений в генофонде европейцев на протяжении этого периода. Статья частично решает эту проблему — прочтено несколько десятков новых геномов. К сожалению, остался неохваченным период 19-28 тысяч лет назад (а с учетом лишь геномов приемлемого качества — 19-30 тлн), но и имеющиеся образцы позволяют сделать ряд интересных выводов.

Коротко о содержании рассматриваемой работы, критика
Авторы подтверждают выводы из более ранних работ об угасании вклада неандертальцев в генофонд современных европейцев с ходом времени (предположительно, на неандертальские участки ДНК действовал отрицательный отбор). Далее они касаются нескольких интересных мелочей (присутствие Y-гаплогруппы R1b в палеолитической Европе — образец Villabruna возрастом 14 тысяч лет, появление «мутации светлоглазости» почти одновременно в Европе и на Кавказе (разумеется, это не отменяет вероятности нахождения более древних образцов с этой мутацией впоследствии) и необычные для региона в наши дни митогаплогруппы). После этого авторы переходят к объединению образцов в кластеры и попытке реконструкции их взаимоотношений. По сути, здесь все просто — европейские палеогеномы из одной эпохи объединяются в один кластер. Классические европейские WHG выступают под псевдонимом «кластер Villabruna», их непосредственные предшественники — el Miron, и ряд геномов возрастом 30 тысяч лет (из них лишь один заслуживающего рассмотрения качества) — кластер Vestonice. Чуть более старые GoyetQ116-1 и костенковец не вошли ни в один кластер. Далее делается очень странный вывод, что с появлением кластера Villabruna (в дальнейшем я буду называть их «WHG» согласно общепринятой терминологии), произошло резкое изменение генофонда в результате вливания компонента, связанного с современными ближневосточными популяциями. Формально приводится и альтернативное объяснение — результат нормальной изменчивости среди охотников-собирателей, и группы с меньшей общностью с Ближним Востоком были замещены группами, изначально имевшими большую общность. Однако в abstract статьи попал лишь первый вариант.

Мое объяснение
Даже из диаграммы, которая должна иллюстрировать точку зрения авторов, следует прямо противоположный ей вывод — изменения, относимые к появлению классических WHG, начались задолго до этого и происходили постепенно. «Ближневосточное влияние» (зеленые ромбики) появляется в заметных масштабах уже в предшествующем кластере el Miron, на пять тысячелетий ранее. Но перед этим кластером находится разрыв в девять тысячелетий, где, вполне возможно, мы тоже могли бы увидеть это влияние. Однако на картинке разрыв закрыт и создается впечатление резкого перехода.
Исходное изображение:

ИсходнаяСхема
Отмасштабированная пропорционально реальной временной шкале картинка:
Безымянный-3
Как я покажу в дальнейшем, общность палеообразцов с классическими WHG и современными северными европейцами (которые являются преимущественно потомками WHG) с ходом времени росла постоянно — от костенковца и GoyetQ116-1 к el Miron, Villabruna и Loschbour. По моим предположениям, основной механизм здесь — дрейф генов. Не надо думать, что это был некий целенаправленный процесс — наоборот, дрейф генов во многом случаен (хотя и отбор наверняка сыграл свою роль), но именно то, что получилось в его результате, и стало европейскими охотниками-собирателями мезолита. Поэтому естественно, что чем ближе к нашему времени, тем выше сходство с итоговым результатом процесса.
Вместе с тем, с ходом времени мы наблюдаем и относительное повышение общности с ближневосточными популяциями, хотя и в заметно меньшем масштабе. Однако трудно сказать, кто, когда, сколько раз и на кого влиял. Допустим в качестве модели, что несущие компонент WHG группы повлияли на ближневосточников в относительно недавнем прошлом. Тогда повышение сходства палеогеномов с WHG автоматически будет немного повышать сходство и с ближневосточниками пропорционально доле WHG в их генофонде, даже если в ту эпоху на Ближнем Востоке о WHG и не слыхали. С другой стороны, небольшие равномерные вливания с Ближнего Востока в Европу могли дать такой же эффект. Или же третья группа, вроде CHG, могла повлиять как на WHG, так и на ближневосточников (необязательно одновременно). Словом, точку здесь поставит лишь хорошая выборка палеогеномов с Ближнего Востока -сравнение с современными популяциями всегда оставит место гаданиям.
Что касается восточноазиатского влияния на часть WHG (внимательные читатели критикуемой работы могли заметить, что оно «проявляется» и у одного из древнейших образцов — GoyetQ116-1), то оно объясняется ошибочностью принятия основой для сравнения образца Kostenki-14. Далее я еще коснусь этого.

Использованные для анализа методы и палеообразцы, причины их выбора
В этой заметке я не стал применять свой излюбленный метод — подсчет сумм общих (IBD) сегментов. Хотя качество некоторых образцов вполне позволяет его применить, трудно понять, как при этом надежно сравнить между собой образцы из эпох, разделенных десятками тысячелетий? Ведь сегменты со временем уменьшаются в размерах, при этом скорость процесса сильно зависит от популяционной истории — в одной выборке быстрее, в другой медленнее… Добавим к этому резко различающееся качество прочтения палеогеномов, и за корректность сравнения поручиться становится совершенно невозможно.
Поэтому я решил пойти путем подсчета доли общих снипов (IBS), как простого и объективного показателя. Чем больше значений снипов совпадает, тем выше генетическая близость. Я не согласен с мнением, что учитывать надо лишь производные (derived) аллели — ведь если оба варианта закрепились в популяции, то для дрейфа генов уже безразлично, какой из них предковый. Для того, чтобы поставить геномы разного качества в одинаковые условия, я случайным образом выбрал для каждого аллеля одно из прочтений и оставил лишь его, то есть создал искусственную гаплоидность, как часто делается с палеогеномами от лаборатории Райха. Обычно я ругаю этот подход, как разрушающий IBD-сегменты, но в данном случае он приносит пользу. Далее я ограничил набор снипов пересечением трех множеств — снипы, используемые мной для сравнения с современными выборками и снипы, прочитанные у образцов Villabruna и GoyetQ116-1. Более логично было бы выбрать в качестве базового образца WHG прочитанный наиболее качественно из всех Loschbour, однако носитель R1b Villabruna в любом случае будет вызывать интерес общественности и подозрения в отличиях от других WHG, поэтому решение было принято в его пользу. Что касается GoyetQ116-1, то из всех древних образцов он наиболее связан с «промежуточным» между палеолитическими европейцами и WHG el-Miron, за что и был выбран в качестве второй опоры. Итоговый набор составил около 107 тысяч снипов. Для сравнения Villabruna и Goyet с el Miron было проведено отдельное уменьшение набора до присутсвующих у всех троих 65 тысячи снипов.
Среди остальных использованных палеообразцов хорошо прочитанные Loschbour, Ust-Ishim, Kostenki, NE1, Kotias отмасштабировались практически без потерь в количестве снипов, Mota1 и Motala12 — с незначительными потерями. Несколько хуже отмасштабировались Vestonice16, «карел» c Оленьего острова I0061, «мальтинец» и один из наиболее ранних геномов неолитчических земледельцев Анатолии I0707, но они также были включены в сравнение, поскольку представляют явный интерес. Судя по сравнению результатов I0707 и его близкого аналога из Европы NE1, подсчеты сохранили корректность.

Таблица результатов и ее применение
Результаты сравнения сведены в таблицу, с которой желающие могут ознакомиться по ссылке. Кроме современных выборок, приведены и выборки из имеющихся палеогеномов (конец таблицы), хотя их качество очень разное. Впрочем, интересующие нас в первую очередь западные охотники-собиратели WHG и ранние неолитические земледельцы Анатолии AEF представлены вполне неплохо, хотя по Анатолии пока, к сожалению, охвачена лишь крайняя западная часть. Наиболее древние европейцы — Kostenki14, GoyetQ116-1, Vestonice16 объединены в выборку pre-WHG. Число в каждой ячейке — доля совпадающих аллелей для текущего образца с этой выборкой — допустим, 65 означает 65% общих снипов (на данном наборе снипов — число сильно зависит от набора).
Несмотря на все ухищрения, призванные поставить геномы в равные условия, прямое сравнение результатов оказалось невозможным — у некоторых образцов чуть больше совпадающих снипов со всеми выборками, у некоторых — чуть меньше. Разница невелика, но в этом методе играют роль даже доли процента. Возможно, причина — в разном качестве прочтения, возможно — индивидуальные особенности образцов или что-то еще. Однако решение проблемы существует. Поскольку увеличение или уменьшение доли совпадающих снипов примерно пропорционально для всех выборок, можно взять соотношение этой доли с выборкой, равно удаленной от всех («outgroup»). В качестве подобного ориентира я решил взять объединение всех четырех используемых мной выборок из Африки южнее Сахары — представителей пигмеев мбути и бьяка, кенийских банту, нигерийского племени йоруба. На графике ниже приведена доля общих снипов для каждого из палеогеномов с соответствующей выборкой (Balt, Druze, WHG и т.д.) после приведения доли общих снипов с африканцами к одинаковому с другими образцами значению путем домножения на коэффициент. Для проверки корректности метода на график помещены другие outgroups, которые в исследуемый период явно не могли участвовать в обмене генами ни с африканцами, ни с исследуемыми палеообразцами — выборка папуасов. Как интерпретировать их результат, я опишу чуть ниже.
График1
Палеогеномы (kya означает тысяч лет назад):
Ust-Ishim — усть-ишимский человек, наиболее древний приемлемо прочитанный геном человека современного типа.
Kostenki-14, GoyetQ116-1, Vestonice16 — древние геномы из Европы
el-Miron — предшественники WHG
Villabruna, Loschbour — WHG
Motala12 — охотник-собиратель из Швеции, представитель группы SHG (охотники-собиратели Скандинавии)
Karelian — образец с Оленьего Острова, так называемый EHG (восточный охотник-собиратель). Malta — древний «сибиряк» со стоянки Мальта, образец аутосомного компонента ANE — предковые северные евразийцы
EHG находятся в промежутке между WHG и ANE и, вероятно, являются их смесью.
I0707 — ранний неолитический земледелец с запада Анатолии
NE1 — ранний неолитический земледелец с территории Венгрии
Kotias — мезолитический охотник-собиратель с Кавказа

Ради интереса я также поместил на график результаты современного восточноевропейца с предками из трех восточнославянских народов (Modern EE).

Левая часть графика иллюстрирует изменения в генофонде европейцев с течением времени (усть-ишимский человек добавлен для сравнения, хотя он и не из Европы), правая — другие представляющие интерес геномы.
При сравнениях палеогеномов с палеовыборками сравнение «сам с собой» пропускалось.

Интерпретация сравнения с выборкой папуасов
Как мы видим, соотношение «родство с папуасами»/»родство с африканцами» для палеоевропейцев представляет собой почти горизонтальную линию. Это значит, что с какой скоростью европейцы «отдрейфовывали» от папуасов, примерно с такой же они отдалялись и от суб-сахарцев. Выглядит логично. Усть-ишимец выше всех, и это тоже логично — ведь он находится наиболее близко во времени к моменту расхождения папусов, восточноазиатов и WHG/ANE — значит, он и должен иметь относительно больше общего с папуасами. С другой стороны, для образца Kotias, имеющего много «базального» компонента, логично иметь заметно более низкое значение этого соотношения — момент расхождения «базальников» и предков остальных не-африканцев (включая папуасов) был очень давно. Ранние земледельцы, как смесь «базальников» и WHG, закономерно находятся в промежутке между WHG и Kotias. Даже неравномерности в графике охотников-собирателей находят свое объяснение — как я покажу позже, у костенковца вероятно небольшое влияние «базальников», и он проваливается на графике. Также я предполагаю небольшое базальное влияние у WHG и el Miron — соответственно, они находятся чуть ниже Goyet, мальтинца и оленеостровца. Итак, контрольная проверка показала применимость метода.

Важная ремарка — когда я в дальнейшем буду писать о росте доли общих снипов (график с течением времени идет вверх), надо понимать, что этот рост относительный. Есть некий базовый «уровень разбегания» — это скорость, с которой мы с каждым поколением отдаляемся от африканцев и папуасов из-за дрейфа генов и других факторов. Если в относительных значениях общность с друзами растет, это не значит, что она точно растет в абсолютных значениях — возможно, она тоже падает, но из-за обмена генами с нами падает медленнее, чем могла бы. А может, с друзами общность медленно растет, но с отстающими от них йеменцами медленно падает. Все зависит от соотношения скорости дрейфа генов, который нас растаскивает, и скорости обмена генами, который объединяет. В данном случае нас интересует, что удается увидеть наличие факта этого обмена.

Интерпретация графика
В первую очередь бросается в глаза пунктирная красная линия вверху — доля общих снипов с выборкой WHG. Как легко заметить, рост был почти непрерывен в течение всего времени, лишь, немного споткнувшись на образце Vestonice (возможно, поэтому в статье отнесли этот кластер к «тупиковой ветви». Впрочем, на сравнении с балтской выборкой такого не происходит, а современные выборки все же качеством на порядок выше — значит, доверия им больше). Ниже сплошной красной линией приведено сравнение с наиболее близкой к WHG выборкой наших современников — жителями восточного побережья Балтики (выборка Balt состоит из 11 литовских образцов, 6 латышских, 2 из Латгалии и одного с российско-латышской границы). Здесь картина аналогична — каждый следующий во времени образец ближе к балтам, чем предыдущий, включая даже Vestonice16. Очевидно, что объяснить это монотонное приближение единоразовой миграцией невозможно, а вот процессы генетического дрейфа укладываются в модель замечательно. Зеленые линии — аналогичная пара для неолитических земледельцев (пунктир) и считающихся (по результатам аутосомного анализа) наряду с армянами их наиболее сохранившимися представителями на Ближнем Востоке друзами Палестины. Здесь мы тоже видим рост, но более медленный по сравнению с ростом сходства с WHG. Если учесть, что порядка четверти генофонда AEF считается полученным от WHG, то примерно половину роста необходимо отнести на этот фактор. Оставшаяся половина и будет искомым обменом генами между «базальниками» и WHG. Для моделирования «базальников» зачастую применяют выборку из Йемена, как наиболее отдаленную от европейцев среди ближневосточников. Неизвестно, насколько это моделирование корректно, однако я включил их в сравнение (голубая линия). Родство с ними также растет, хотя и медленнее, чем с AEF или друзами. Однако, начав заметно ниже папуасов, ближе к нашему времени йеменцы успешно обгоняют их и становятся более близкими к WHG. Ведь обмен генами с йеменцами гораздо менее затруднен географически, чем с папуасами.

Несколько слов о правой половине графика
Представитель сестринской к WHG клады — ANE, мальтинец (24 тлн), обладает относительным сродством с WHG примерно на уровне европейских образцов 30-37 тысяч лет назад. Можно предположить, что момент расхождения был не слишком задолго до этого времени. При этом сродство с «балтской» выборкой относительно выше — поскольку в Восточной Европе присутствует не только WHG, но и доля ANE. У «карела» EHG связь с WHG закономерно выше (поскольку он и сам частично WHG), соответственно выросла и связь с ближневосточниками. То же самое, но в еще большей степени можно сказать про образец из Швеции Motala12 (скандинавские охотники-собиратели — SHG считаются WHG с примесью ANE). На паре AEF/NE1 можно пронаблюдать, как при продвижении в Европу у неолитчиков вырос вклад WHG, зато упал «ближневосточный» компонент. У «палеокавказца» Kotias по сравнению с ними резко падает связь с восточноевропейцами, и менее резко, но тоже падает — с ближневосточниками.

Определенный интерес представляет и сравнение с некоторыми другими современными выборками. Я не стал помещать их на основной график, чтобы избежать его перегруженности, но размещаю более полный вариант ниже.
График2
Сардинцы добавлены, как наиболее яркие современные представители неолитических земледельцев, удмурты — как связанные с EHG, корнцы — с более западным вариантом WHG, калаши — за «калашский» кластер, кеты и южноамериканские индейцы каритиана — за связь с ANE.

Карты для палеогеномов

Теперь перейдем к рассмотрению каждого из палеогеномов отдельно. Для начала несколько слов об усть-ишимце. Хотя он и наиболее близок к общему корню, но все же, судя по всему, в его времена расхождение неафриканского человечества на основные ветви уже состоялось. Ближайшими к усть-ишимцу выборками оказались меланезийцы и папуасы, далее идут жители юго-восточной Азии, тамилы и восточноазиаты.

Каждая карта нормируется отдельно — ярко-красным выделяется наиболее хорошо связанная с этим геномом выборка из представленных, ярко-зеленым — наименее связанная. Не представленные на карте выборки (четыре африканские, две америндские, папуасы и меланезийцы) в нормировании не участвуют, по сравнению с африканцами все неафриканцы были бы просто разными оттенками красного. Карты в этой статье построены согласно доле общих снипов (IBS), по тем же таблицам, что и предыдущий график. Это не IBD-анализ. В более хорошем качестве карты можно загрузить отсюда
UstIshim.png
Хотя европейцы и среднеазиаты чуть ближе к усть-ишимцу, чем североафриканцы и ближневосточники, разница сравнительно невелика. Частично удаление европейцев от усть-ишимца следует отнести на влияние «базальников», но думаю, WHG и сами по себе успели хорошо удалиться от восточной ветви человечества. Поэтому на роль представителя общей для всех базы усть-ишимец не годится.

GoyetQ116-1
По причинам, описанным мной в разделе «Использованные для анализа методы и палеообразцы», из наиболее древних европейских геномов на роль «базового» был выбран GoyetQ116-1. И, как показывает карта, уже 35 тысячелетий назад европейские аутосомы начали приобретать свои основные черты. На первом месте по схожести — уже упоминавшаяся выборка «Balt», она будет попадаться нам вновь и вновь. Родство с остальными европейцами выражено вполне отчетливо. Однако интересно обратить внимание на другие регионы. Во-первых, родство с североафриканскими и ближневосточными популяциями находится на том же уровне, что и родство с восточноазиатами. Видимо, мы поймали тот момент, когда протоевропейцы были равноудалены от этих двух стволов. В дальнейшем родство с восточноазиатами будет ослабевать, а с ближневосточниками — усиливаться. Как говорится, «география-это судьба».

GoyetQ116-1.png
Еще раз повторюсь, что речь идет о современных ближневосточниках. Насколько они репрезентативны по сравнению с населением региона 10, 20, 50 тысяч лет назад — совершенно непонятно.
Очень интересно «вторичное пятно» в Индии. Вероятно, оно было бы соединено яркой полосой с европейским ареалом, если бы не размывшие ее миграции «базальников» с юго-запада и восточноазиатов с северо-востока. При этом в юго-восточной Индии и Бирме ареал связи с прото-WHG перекрывается с ареалом хорошей связанности с усть-ишимцев. Не отсюда ли когда-то разошлись две наших ветки? Я не являюсь специалистом по Y-гаплогруппам, но кажется, с максимумом разнообразия макрогаплогруппы K, включающей в себя в качестве ветвей такие известные гаплогруппы, как N, O, R, Q, это соотносится хорошо (в таком случае, «базальников» можно связать с IJ). Разумеется, сюда также относится оговорка о возможной несхожести современного и древнего населения.

Vestonice16
Картина для Vestonice16 довольно схожа с картой GoyetQ116-1.

Vestonice16.pngПри сравнении видно, что связь с восточной (и в первую очередь Юго-Восточной) Азией несколько ослабла, а связь с западными выборками (как европейскими, так и ближневосточными) слегка усилилась. Однако разница невелика и из-за этого сравнительная карта выглядит некрасиво. Чтобы избежать загромождения излишними иллюстрациями, ее не привожу.

Kostenki14
Как и Вестонице, костенковец весьма схож с GoyetQ116-1. В данном случае мне хочется привести именно карту разницы со вторым палеогеномом, чтобы продемонстрировать его «южный» компонент. Зеленое — больше общего с костенковцем, красное — с Goyet.
GoyetQ116-1VsKostenki14Merged.png
Из-за схожести двух геномов карта очень зашумлена, однако противоположности проявляются хорошо. Ярко-зеленое прекрасно совпадает с областью распространения компонента кавказских охотников-собирателей CHG (ниже будет приведена карта и для них). Видны его максимумы на Кавказе и у калашей, на Балканах, и даже (хотя это может быть погрешностью) замечавшееся при анализе «ямных» геномов пятно в северо-западной Европе. Красное же в юго-восточной Азии — район максимальной «небазальности». Оттенки бурого и близкие к ним разглядывать нет смысла, также, как и отдельные «выбросы».
Как будет показано далее, костенковец наиболее успешно моделируется, как смесь 86% GoyetQ116-1 и 14% Kotias. Строго говоря, мы не можем утверждать, что GoyetQ116-1 представляет чистых прото-WHG, а костенковец является смесью с южанами. Не исключено, что «южный» компонент присутствует и у GoyetQ116-1, просто его меньше. В конце концов, смешение могло произойти еще по пути в Европу.

el Miron
Закончив с наиболее древними геномами, мы можем перейти к рассмотрению динамики европейского генофонда во времени (впрочем, до момента прибытия неолитических земледельцев она довольно однообразна). Поэтому ближайшие карты будут только сравнительными. Итак, красное — выборки, сходство с которыми у образца el Miron (19 тлн) усилилось по сравнению с образцом GoyetQ116-1 (35 тлн). зеленое — выборки, сходство с которыми ослабло. Бурое — возможно, слегка усилилось, возможно, ослабло, но не так сильно, как с зеленым. Об этом я написал в разделе «важная ремарка» после графика.

elMironVsGoyetQ116-1.png

Villabruna

VillabrunaVsElMiron.pngКак видите, прибытие Villabruna никакого переворота не произвело. Как и раньше, с ходом времени сходство с циркумбалтийцами усиливалось, с восточноазиатами — ослабевало, с ближневосточниками — то ли слегка усиливалось, то ли медленно ослабевало, но медленнее, чем с восточноазиатами.

Loschbour
Этот образец настолько схож с предыдущим (см график), что разностная карта показывает один шум. Поэтому я приведу конечный итог — вот к чему пришли WHG спустя 29 тысячелетий:
LoschbourVsGoyetQ116-1.png
А также сравнение — где произошли наибольшие изменения
Сравнение Loschbour и GoyetQ116-1

LoschbourVsGoyetQ116-1.png
Дальше всего «убежали» от протоевропейцев жители юго-восточной Азии, далее идут Индия, Восточная Сибирь и Северная Африка. За пределами основного региона меньше всего «скорость убегания» на Северном Кавказе, у ираноязычных памирцев, греков-киприотов и кетов (везде можно предположить контакты с носителями WHG).

Теперь перейдем к Кавказу и Анатолии. Уже упоминавшийся в пояснениях к карте для костенковца кавказский охотник-собиратель Kotias:

Kotias.png

Интересно попытаться расщепить этот компонент на составляющие. В значительной части он несомненно связан общим корнем с прото-WHG (хорошо выделяются оба значимых для этого компонента региона — Европа и Индия). Попробуем вычленить не-WHG часть путем сравнения с GoyetQ116-1.

KotiasVsGoyetQ116-1.png

В первую очередь закономерно выделяются зоны наибольшего распространения CHG — Кавказ и Афганистан (калаши)/Пакистан/Иран. Однако кроме этого, проявляется и связь с Ближним Востоком, Анатолией, Балканами — регионами распространения ранненеолитических земледельцев. Таким образом, можно предположить, что у CHG имеется связь с ближневосточным аутосомным компонентом (знаменитые «базальники»), который впоследствии стал основой генофонда неолитических земледельцев и через них повлиял на современных европейцев. Потому-то Европа и выглядит на этой карте в целом нейтрально — на юго-востоке персиливает влияние «базальников», на северо-востоке — WHG. И наоборот, Восточная Азия, куда базальники не добрались, оказалась ярко-зеленой — это говорит о том, что время их расхождения с восточноазиатами древнее, чем время расхождения восточноазиатов и WHG.

Тот же самый эффект, но с противоположной стороны мы можем наблюдать, сравнив Kotias и геном ранненеолитического земледельца из Анатолии:KotiasVsAEF.png

Поскольку теперь Kotias менее «базальный», на этот раз Восточная Азия оказалась красной. Хотя наиболее выражен «не-базальный» компонент Kotias в Индии. Поэтому я считаю, что компонент CHG следует считать смешанным между «ближневосточным» (предковым к AEF) и «индийским» (предковым к WHG) компонентом.

Раз уж я неоднократно упомянул AEF, приведу карту и для представителя этой выборки I0707.

AEF.png

Среди наших современников наиболее схожими с ним являются жители острова Сардиния, находящемся в западной части Средиземного Моря. Можно сказать, что компонент ранних земледельцев сохранился там, словно в заповеднике. В целом он лучше представлен в южной Европе, чем на Ближнем Востоке. Хотя не стоит забывать — для анализа у нас есть лишь палеогеномы с крайнего запада Анатолии, на границе с Европой. Вполне возможно, что ближневосточные геномы оказались бы ближе к современным выборкам с Ближнего Востока. Пока же мы можем сказать, что в регионе наиболее схожими с имеющимися образцами неолитчиков оказались армяне, друзы и греки-киприоты.

Наконец, последними я хочу привести две карты для образца возрастом в 24 тысячелетия со стоянки Мальта в Прибайкалье. На основе его анализа в свое время было выдвинуто предположении о существовании «популяции-призрака» — ANE, предковых северных евразийцев, которые повлияли на многих соседей, в том числе на американских индейцев, но сами к нашему времени исчезли. ANE считаются родственной к WHG веткой и не несут восточноазиатского или ближневосточного влияния. В схожести картин можно легко убедиться:

MaltaIBDext.png

Если WHG это западный вариант, то у ANE основная тяжесть приходится на выборки из Западной Сибири (кеты), Урала (манси) и недавных мигрантов из этого же региона (саами). Очевидно, в прошлом ареал ANE простирался заметно восточнее, но к нашим дням они оказались вытеснены мигрантами с юга, из Восточной Азии. Интересно сравнить, каковы же основные отличия ANE от прото-WHG:

MaltaVsGoyetQ116-1.png

Пятно в западной Сибири вполне ожидаемо. Меня более заинтересовало пятно вокруг выборки калашей в средней Азии. Если вспомнить о связи этого же региона с кавказскими охотниками-собирателями, то уместно предположить, что здесь мы нащупали корень не-ближневосточной части CHG. При анализе Admixture мальтинец показывал наличие около 30% CHG, поэтому я долго ломал голову, как связать этот факт с явной не-ближневосточностью мальтинца. Теперь все становится на свои места — взаимосвязь идет через «калашский» компонент.
Что касается отличий прото-WHG от ANE, то они чуть ближе к восточноазиатам (может, их точка отделения чуть юго-восточнее, чем у ANE?), и ближе к «базальникам», что вновь заставляет меня думать о «базальном» влиянии уже у GoyetQ116-1. В конце концов, если у двух других образцов оно есть, может быть и у этого. Но пока более «чистых» образцов у нас нет, сравнить не с кем. С другой стороны, мальтинский образец на одиннадцать тысячелетий моложе — возможно, за это время он сильнее отдрейфовал от остальных веток.

Численная оценка доли вклада каждого компонента в некоторые из адмиксов.
В процессе работы над сравнительными картами у меня возникла мысль, не попробовать ли сделать численную оценку на основе все тех же таблиц общности IBS с современными выборками. Действительно, если я предполагаю, что не-WHG компонент костенковца очень похож на результаты кавказского охотника-собирателя Kotias, то я могу проверить, насколько близка к костенковцу будет комбинация 1% Kotias + 99% GoyetQ116-1, 2% Kotias + 98% GoyetQ116-1 и так далее, проверив сумму среднеквадратичных отклонений по всем столбцам. Для того, чтобы исключить влияние уже упоминавшегося в начале статьи эффекта, для каждой тройки сравниваемых геномов производилось нормирование. Таким образом, суммы IBS с современными выборками по каждому геному совпадали.

Для проверки модели я решил использовать геном, смешанное происхождение которого достоверно известно. Как мы знаем, по мере продвижения в Европу и с ходом тысячелетий исходный генофонд неолитических земледельцев постепенно размывался благодаря влиянию местных охотников-собирателей. Следовательно, геном семитысячелетней давности земледельца из Венгрии NE1 должен хорошо моделироваться, как смесь земледельца из Анатолии AEF (возраст генома на тысячу лет больше) и WHG. Так и получается — если в роли представителя WHG выступает более ранний геном Villabruna, модель предсказывает соотношение 11% WHG на 89% AEF, для более позднего Loschbour соотношение почти такое же — 10% WHG на 90% AEF. Среднеквадратичное отклонение при этом меньше единицы — в дальнейшем будем считать такое значение признаком того, что смешение моделируется хорошо.
Ряд результатов для заинтересовавших меня вариантов моделирования приведен на изображениях ниже:
Оракул01.png
Кратко прокомментирую. При попытке смоделировать NE1, как смесь WHG и CHG отклонение резко возрастает, что говорит о неудачности такой модели по сравнению с предыдущим вариантом. Родственные WHG охотники-собиратели ANE могут частично служить заменой Villabruna, однако результат хуже. Таким образом, результаты моделирования полностью соответствуют здравому смыслу. Я решил попробовать сделать еще один шаг и ввести в модель искусственный образец «базальника», полученный вычитанием из геномов неолитических земледельцев 15-20 процентов вклада WHG. Конечно, точная доля компонента WHG в геномах неолитчиков нам неизвестна, однако это лучше, чем применять в качестве «базального» образца геном AEF.
Результат костенковца действительно лучше всего моделируется, как смесь 86% прото-WHG и 14% CHG (Kotias), что мы и наблюдали на сравнительной карте. Чуть хуже вариант 94% прото-WHG на 6% базальников. Для другого древнего образца из Европы, Vestonice16, картина противоположная — базальники лучше подходят в качестве второй стороны, чем кавказцы. Интересно, что наиболее старые образцы Y-гаплогруппы I пока что найдены именно у представителей кластера Вестонице — возможно, это не случайное совпадение и вливание «базального» компонента связано с приходом носителей этой гаплогруппы.
«Опорный» прото-WHG GoyetQ116-1 не моделируется, как смесь кого-либо из двух других представителей группы и южан. Однако он может быть относительно неплохо смоделирован, как 88% костенковца и 12% мальтинца. Вероятно, это связано с отсутствием «базального» компонента у образца со стоянки Мальта.

Оракул02.png
Носитель R1b Villabruna может быть смоделирован, как смесь одного из своих предшественников и базальников, однако отклонение при этом слишком велико, чтобы считать моделирование успешным.
CHG Kotias плохо моделируется, как смесь каких-либо двух других образцов. Наиболее удачный вариант — 48% Мальта и 52% базальники (что еще раз говорит о его промежуточном положении между двумя кладами).
«Оленеостровец» EHG наиболее хорошо моделируется, как  смесь 51% SHG (Motala12) и 49% ANE (мальтинец), отклонение великовато.

Оракул03.png
«Скандинав» Motala12 хорошо моделируется, как смесь 72% WHG и 28% EHG
Промежуточный между прото- и классическими WHG образец el Miron оптимально моделируется именно как смесь первых (GoyetQ116-1) и вторых (Villabruna). Однако при этом он оказывается ближе к более древним родственникам, хотя расстояние по времени до них гораздо больше. Возможно, это объясняется ускорением дрейфа в эпоху 19-14 тлн, но мне кажется более правдоподобным другое объяснение — WHG это потомки сестринской к el Miron ветви, поэтому часть дрейфа у них прошла отдельно.

Дерево вероятных взаимосвязей
Попытавшись максимально подробно и непротиворечиво свести вместе как данные, полученные в результате вышеописанных исследований, так и информацию из других работ, я изобразил дерево возможных взаимодействий палеообразцов и аутосомных компонентов. Схема достаточно условна, поэтому размещать на ней датировки далее 40 тысяч лет назад не имеет смысла. Гипотетический общий компонент «мальтинца» и охотников собирателей-кавказа я обозначил «Kalash», но надо понимать, что под этим вовсе не подразумеваются современные калаши — просто неким образом связанная с ними древняя предковая популяция. Серыми стрелками между «базальниками» и CHG, «базальниками» и WHG обозначено, что взаимодействия, по-видимому, были, но обозначить их одиночной линией на схеме тяжело. «Уральский» компонент — это часть генофонда народов Урала и западной Сибири, которую можно отнести к европейской ветви, для получения картины современного состояния необходимо объединить ее с восточноазиатским влиянием.

Дерево08.png

Думаю, что на самом деле все гораздо сложнее и запутаннее, чем изображено здесь )) Будем ждать новых расшифровок древних геномов для дальнейшего развития схемы.

Вторая фаза нового проекта

Две недели назад я сообщил об окончании первой фазы своего нового проекта (на первом этапе работы удалось собрать надежную выборку из более чем 5000 образцов более чем 250 различных этно-популяционных групп людей по всему миру.

Как я уже рапортовал ранее, самой сложной из запланированных на втором этапе задач являлась импутирование (импутация) отсутствующих генотипов.  Читатели моего блога помнят, что две предыдущие экспериментальные попытки импутирования больших выборок     — в 2013  и в 2015  — закончились неудачно (или, если говорить точнее, качество импутированных генотипов не оправдало моих завышенных ожиданий). В предыдущих опытах я задействовал мощную комбинацию программ ShapeIT и IMPUTE и  метод импутирования снипов за счет использования большой референсной панели аутосомных гаплотипов (из 1000 genomes),  гарантирующей более аккуратное определение генотипов.

На этот раз, я решил не повторять ошибок, и обратился к использованию других программ — в частности , к  Minimac3, хорошо зарекомендовавшую себя в работе с геномами 1000G.  К моему счастью, я набрел на недавно появившиеся публичные сервера, работающие с «облачным» сервисом импутирования Cloudgene. геномов.
Серверы импутирования геномов позволяют использовать полную референсную панель гаплотипов для точного определения недостающих генотипов в анализируемых данных. Пользователи подобных серверов могут загружать (предварительно фазированные или несфазированные) данные генотипов на сервер. Процедура импутирования  будет осуществляться на удаленном сервере, и по окончанию этого процесса рассчитанные данные доступны пользователю для скачивания. Наряду с импутированием, подобные сервисы позволяют провести процедуру контроля качества (QC) и фазировки данных в качестве предварительного этапа процесса импутирования генотипов.

Прототипы серверов импутирования уже доступны в институте Сангера и Мичиганского университета. В дополнение к вышеназванным серверам, можно упомянуть прототип сервера поэтапной полномасштабной  фазировки генотипов анализируемых образцов (прототип создан биоинформатиками Оксфордского университета). На мой взгляд, самое простое и доступное решение задачи импутирования на удаленном сервере было разработано сотрудниками   Мичиганского университета. Дополнительное преимущество этому решению дает грамотная документация по использованию сервиса.

Основная рабочая лошадка сервиса — это комбинация двух или трех программ — две програмы для фазирования диплоидных генотипов в гаплоидную фазу  ShapeIT и Hapi-UR , а в качестве основного ПО для самого процесса импутирования (определения) недостающих генотипов — вышеупомянутую программу Minimac3.

Описание эксперимента с импутированием генотипов на удаленном сервере

В самом начале,  я разбил свою выборку на пять когорт (т.к. референсные панели на сервере также разбиты на «этнографические группы»):

  1. европейцы (европейцы + кавказцы) — 1715 образцов -87169 снипа
  2. азиаты (+американские аборигены и аборигены островов Тихого Океана) — 2356 образцов — 87044 снипа
  3. африканцы — 1054 образца — 86754 снипов
  4. палеогеномы древних жителей Евразии, Африки и Америки -340 — 594500 снипов
  5. смешанные группы — преимущественно мозабиты, пуэрто-риканцы и др.
QC-Report
На рисунке показана корреляция между частотами аллелей в изучаемоей выборке (здесь: европейская когорта) и частотами аллелей в референсной панели

К моему вящему неудовльствию,  некоторые образцы в сводной выборке не прошли контроль качества — в первую очередь это касается образцов европейцев из базы данных POPRES, а также выборок статьи  Xing et al. (2010). Скорее всего, их нужно будет импутировать отдельно.

Несмотря на значительную скорость обработки генотипов на удаленном сервере, к настоящему времени эксперимент еще не доведен до конца.  Пока я планирую ограничиться импутированием генотипов в 3 первых когортах (т.к. импутирование палеогеномов с помощью современных референсных панелей гаплотипов вероятнее всего приведет к искажению истинного разнообразия палеогеномов за счет проекции на современные группы населения, хотя авторы статьи Gamba et al. 2014 в сопроводительном материале к своей статье утверждают обратное).

После окончания фазирования и последующей обработки генотипов европейской когорты в программе Plink (были отсеяны все варианты с вероятностью ниже 0.9) ,  я получил выборку из 1715 европейцев с 25 215 169 снипами против изначальных 87169, т.е число снипов в выборке увеличилось в 290 раз!
В азиатской когорте соотношение импутированных генотипов к исходным составило чуть меньшую величину 19 048 308 / 87044 = 219.

Проверка результатов

Разумеется, все полученные результаты нуждались в дополнительной проверке качества генотипирования.
Cначала я объединил импутированную европейскую когорту с когортой палеогеномов (которая не была импутирована) и рассчитал в программе PLINK 1.9 матрицу IBS (т.е. сходства образцов в выборке между собой, эта метрика отдаленно напоминает Global Similarity в клиентских отчетах 23andme), а затем усреднил данные по популяциям и произвел по усредненным значениям иерархическую кластеризацию по признакам сходства (IBS, identity by state). Результат превзошел все мои пессимистические ожидания

 

 

Как становится очевидно из приведенной выше кластерограммы,  в целом взаимное расположение популяций в кластерах соответствует (в общих чертах) взаимному географическому положению. Присутствуют, правда, и некоторые огрехи. Так, например, венгры очутились в одном кластере с русскими из Курска,  норвежцы — с русскими из Смоленска, а усредненные «русские» — с американцами европейского происхождения из штата Юта и французами. Трудно сказать, в чем здесь причина, тем более что матрица была составлена по значениям IBS (идентичности по состоянию), а не IBD (идентичности по происхождению).  Более подробные данные о попарных значениях IBS между популяциями выборки можно посмотреть в этой таблице

Импутированная азиатская когорта (несмотря на расширение географии за счет включения образцов коренного населения Америки и аборигенов бассейна Тихого океана)  тоже  оказалась на удивление надежной. Я пока не буду останавливаться на подробностях изучения этой когорты, вместо этого я размещаю здесь результаты MDS- мультдименсионального шкалирования образцов выборки, образованной в ходе слияния 2 импутированных когорт (европейской и азиатской) с 1 неимпутированной (палеогеномы). Цветовое обозначение точек соответствует определенным кластерам, выявленных в выборке с помощью алгоритма MCLUST (cледуя рекомендациям Диенека Понтикоса). Всего этих кластеров 15 и они обозначены последовательностью чисел от 1 до 15, и каждый из этих кластеров имеет свою четкую географическую привязку:

  • 1 — кластер популяций ближнего Востока и  Анатолии
  • 2 — кластер популяций северного Кавказа
  • 3 — «индоевропейский» кластер древних популяций Синташта, шнуровой культуры, Ямной культуры и т.д.
  •  4 — кластер аборигенных жителей Америки (эскимосов и индейцев)
  • 5 — суперкластер популяций средиземноморского и восточноевропейского региона
  • 6 — сибирский кластер алтайских и самодийских популяций
  • 7 — кластер популяций западной и северной Европы
  • 8 — кластер палеосибирских популяций (таких как чукчи, ительмены и коряки)
  • 9 — кластер аборигенных (австронезийских и тай-кадайских) популяций юго-восточной Азии (даи, атаяла и ами)
  • 10 — кластер неолитических популяций
  • 11 — еще один ближневосточно-средиземноморский кластер (ашкеназим, сардинцы и так далее)
  • 12 — кластер североиндийских популяций
  • 13 — кластер центральноазиатских популяций
  • 14 — поволжские популяции
  • 15 — разные групп индусов

 

Обновление проекта: окончание первой фазы

После нескольких лет практически полного пассивного бездействия в области изучения генетической вариативности популяций населения Восточной Европы, я решил продолжить свои скромные изыскания в этом вопросе. Примерно год ушел на пересборку и соединение различных выборок популяций (выборки разных исследований содержат разное количество частично перекрывающихся снипов, и это обстоятельство существенно влияет на качество и значимость получаемыых в анализе таких выборок результатов). К сожалению, разница в частотах минорных снипов в выборках одних и тех же этнических групп, но генотипированных на разных платформах Illumina и Affy,  приводит к существенному снижению качества импутирования недостающих маркеров. Это очень плохо, так как во многих из разработанных методик анализа генетического разнообразия,  надежность результатов напрямую зависит от полноты генотипирования, т.е. в идеале во всех популяциях должны быть равномерно представлены все снипы, т.е маркеры из полного объединенного набора.  Вопреки моим ожиданиям, у этой проблемы не существует тривиального решения, поэтому я решил отложить задачу импутации отсутствующих генотипов в образцах выборки на дальнейшее (чуть позже я поделюсь своими соображениями о том, как сделать результат импутирования более точным).

Ровно год назад я сообщил о том, что в основу (базу) новой выборки будут положены полный публичный кураторский набор контрольных популяционных групп лаборатории Райха, что и было выполнено частично, хотя запланированную процедуру импутирования так и не удалось завершить в силу огромной компьютерной ресурсозатратности задачи.

Все же, с учетом тяжелых уроков всех предыдущих ошибок (в том числе и при работе с палеогеномами человека), мне все же удалось собрать набор из примерно 6500 сэмплов из более чем 250 этно-популяционных групп со всего земного шара. На этом можно считать первую фазу законченной.

В качестве предварительной иллюстрации надежности результатов можно привести график PCA (анализа главных компонентов генетической вариативности в западноевразийских популяциях из описанной выше сводной выборки, после применения соответствующих фильтров контроля качества снипов).

West-Eurasia (modern and ancient samples)

Как мне кажется, получился неплохой график PC (анализа главных компонент) древних и современных групп народонаселения, причем  хорошо видно на какие современные группы накладываются палеогеномы.
Но теперь другая проблема — я не могу сохранить этот график в формате PDF (видимо, разработчики Plotly отключили эту опцию в бесплатной версии). Можно выгрузить графику в файл png, но в отличие от векторного формата pdf, png — формат растровый, и улучшить качество графики уже не получится.

Поэтому я сделал альтернативные варианты (без использования пакета Plotly) графика с изображением положения популяций в пространстве двух главных компонентов генетического разнообразия Евразии.

После несколько лет практически полного отсутствия активности в области изучения генетической вариативности популяций населения Восточной Европы, я решил продолжить свои скромные изыскания в этом вопросе. Примерно год ушел на пересборку и соединение различных выборок популяций (выборки разных исследований содержат разное количество частично перекрывающихся снипов, и это обстоятельство существенно влияет на статистическое качество). К сожалению, разница в частотах минорных снипов в выборках одних и тех же этнических групп, но генотипированных на разных платформах Illumina и Affy,  приводит к существенному снижению импутирования недостающих маркеров. Это очень плохо, так как во многих из предложенных методик анализа генетического разнообразия,  надежность результатов напрямую зависит от полноты генотипирования, т.е. в идеале во всех популяциях должны быть равномерно представлены все снипы, т.е маркеры из полного объединенного набора.  Вопреки моим ожиданиям, у этой проблемы не существует тривиального решения, поэтому я решил отложить задачу импутации отсутствующих генотипов в образцах выборки на дальнейшее (чуть позже я поделюсь своими соображениями о том, как сделать результат импутирования более точным).

Ровно год назад я сообщил о том, что в основу (базу) новой выборки будут положены полный публичный кураторский набор контрольных популяционных групп лаборатории Райха, что и было выполнено частично, хотя запланированную процедуру импутирования так и не удалось завершить в силу огромной компьютерной ресурсозатратности задачи.

Все же, с учетом тяжелых уроков всех предыдущих ошибок (в том числе и при работе с палеогеномами человека), мне все же удалось собрать набор из примерно 6500 сэмплов из более чем 250 этно-популяционных групп со всего земного шара. На этом можно считать первую фазу законченной.

В качестве предварительной иллюстрации надежности результатов можно привести график PCA (анализа главных компонентов генетической вариативности в западноевразийских популяциях из описанной выше сводной выборки, после применения соответствующих фильтров контроля качества снипов).

West-Eurasia (modern and ancient samples)

Как мне кажется, получился неплохой график PC (анализа главных компонент) древних и современных групп народонаселения, причем  хорошо видно на какие современные группы накладываются палеогеномы.
Но теперь другая проблема — я не могу сохранить этот график в формате PDF (видимо, разработчики Plotly отключили эту опцию в бесплатной версии). Можно выгрузить графику в файл png, но в отличие от векторного формата pdf, png — формат растровый, и улучшить качество графики уже не получится.

Поэтому я сделал альтернативные варианты (без использования пакета Plotly) графика с изображением положения популяций в пространстве двух главных компонентов генетического разнообразия Евразии.

Первые палеогеномы человека из Ирландии

Известный ресурс Генофонд.ру опубликовал неплохой русскоязычный разбор новой статьи, в которой приведены результаты изучения древних ирландских палеогеномов. Я ограничусь несколькими комментариями, которые касаются непосредственно анализа аутосомной части этих палеогеномов.

Анализ главных компонент (РСА) четырех древних ирландских геномов в сравнении с 78 другими древними геномами и 677 геномами современных популяций показал, что неолитический ирландский геном (Ballynahatty) попал в кластер с другими неолитическими европейскими геномами, а геномы бронзового века (Irish Bronze Age, Rathlin, 3,2,1) – в кластер геномов бронзового века Центральной и Северной Европы.

Анализ главных компонент древних ирландских геномов – неолитического (Ballynahatty) и бронзового века (Irish Bronze Age, Rathlin, 3,2,1), 78 других древних геномов и 677 геномов современных популяций Европы (на основе 354 212 SNP-маркеров).

Анализ главных компонент древних ирландских геномов – неолитического (Ballynahatty) и бронзового века (Irish Bronze Age, Rathlin, 3,2,1), 78 других древних геномов и 677 геномов современных популяций Европы (на основе 354 212 SNP-маркеров).

Анализ по методу ADMIXTURE (при заданном числе предковых популяций К=11) во всех древних геномах Ирландии выявляет большую долю компонента охотников-собирателей (красный цвет) и также большую долю компонента неолитических земледельцев (оранжевый цвет). В геномах бронзового века появляется и степной компонент (голубой цвет). Три ирландских генома бронзового века по предковому спектру сходны с одновременными им континентальными геномами.

Спектр предковых компонентов ADMIXTURE (при К=11). Ирландские геномы (неолитический и бронзового века) обозначены зелеными метками.

Спектр предковых компонентов ADMIXTURE (при К=11).
Ирландские геномы (неолитический и бронзового века) обозначены зелеными метками.

Проанализировав геномы древних жителей Ирландии, ученые пришли к выводу, что предки современных ирландцев происходили из Восточной и Южной Европы.

Генетики из дублинского Тринити-колледжа вместе с археологами университета Квинс в Белфасте исследовали скелет крестьянки, относящийся к периоду неолита.Возраст хорошо сохранившихся останков оценивается в 5200 лет. Захоронение было обнаружено в 1855 году неподалеку от Белфаста. По словам ученых, геном женщины имеет много общего с геномом современных жителей Испании и Сардинии.
Предки крестьянки, в свою очередь, как полагают исследователи, пришли в Европу с Ближнего Востока, где в свое время появилось первое земледелие. Помимо этого, в распоряжении команды ученых оказались останки троих мужчин с острова Ратлин, живших в бронзовом веке примерно 4200 лет назад. Геном этих мужчин отличался от генома крестьянки – треть структуры ДНК свидетельствует о том, что их предки происходили из понтийских степей Причерноморья, расположенных на территории современных России и Украины.

Я решил проверить их выводы и самостоятельно собрал описанные 4 генома из имеющихся в открытом доступе fastq-файлов  (ENA — Европейский Архив Нуклеотидов), а затем проанализировал геномы в своей новой модели этно-популяционного калькулятора.
Итак, для начала геном неолитической «фермерши» из Белфата. Результаты согласуются с выводами ирландских генетиков. Примерно 45% генома носит неолитическое происхождение (фермеры с Ближнего Востока), 17% — от кавказских охотников собирателей времен палеолита, и 16% от охотников-собирателей западной Европы. Что самое важное — так это практически полное отсутствие степного компонента EHG (восточных охотников-собирателей), 1.14 процентов скорее всего появилось либо в результате ошибок определения генотипов при сборке генома, либо в результате посмертных изменений ДНК.

Neolithic 44.65
Caucasian-HG 17.09
WHG-UHG 16.17
Subsaharian 5.82
NorthAfrican 5.43
Ancestor 3.2
SouthEastAsian 2.92
EastAfrican 1.78
EHG 1.14
Australian 0.95
NearEast 0.43
Siberian 0.34
Amerindian 0.09
Arctic 0.01
ANI 0
Oceanic 0

Далее останки первого мужчины RM217 из захоронений бронзового века на острове Ратлин. Степной EHG у него уже присутствует в значимых долях, и вместе с компонентом западноевропейских охотников-собирателей составляет примерно треть генома, а вместе с родственным североиндийским компонентом ANI — почти половину генома. Caucasian-HG остался примерно таким же, как и у неолитической крестьянки, а главное отличие — в уменьшении неолитического компонента.

WHG-UHG 27.32
Neolithic 18.3
EHG 17.16
Caucasian-HG 13.16
ANI 7.98
Subsaharian 5.56
Ancestor 4.16
Amerindian 3.38
Oceanic 1.28
Siberian 0.86
EastAfrican 0.8
Australian 0.03
Arctic 0
NearEast 0
NorthAfrican 0
SouthEastAsian 0

Результаты двух других мужчин RSK1 и RSK2 с того же Ратлина характеризуются схожим распределением компонентов — с той лишь разницей, что из-за худшего качества прочтения этоих геномов, амплитуда частот более резкая (результат «зашумленности» прочтений геномов).

WHG-UHG 28.82
Neolithic 24.7
EHG 18.55
Caucasian-HG 13.45
Amerindian 3.48
ANI 3.2
Subsaharian 2.22
Siberian 2.03
NearEast 1.36
Ancestor 0.77
Australian 0.73
Oceanic 0.64
SouthEastAsian 0.05
Arctic 0
EastAfrican 0
NorthAfrican 0

Реконструкция миграций по палеоДНК

Сергей Козлов

Реконструкция миграций по палеоДНК

Накопившийся за последние годы объем информации по аутосомной палеоДНК стал уже слишком велик, а потому начал требовать систематизации. Для этой цели я нанес взаимоотношения между собой ряда образцов из Евразии на нижеследующую схему:

ВзаимоотношенияПалеообразцовv3

Стрелки отображают вероятные влияния, однако источником их не обязательно является культура, указанная в ячейке, из которой выходит стрелка. Здесь больше привязка к географии — если влиял и не этот конкретный источник, то какой-то близкий и схожий. Многие ячейки попросту оставлены пустыми. В противоположность этому, остриё каждой стрелки указывает на конкретные образцы из определенной культуры, проанализированные учёными.

Чтобы не загромождать схему, для Европы я не стал создавать множество колонок, поскольку они были бы структурно схожи между собой. Кроме отображенной в таблице Центральной Европы (в основном это образцы из Германии), неплохой временной срез существует по северной Испании, где пещеры хорошо сохранили древние образцы. Совершенно аналогично предыдущему случаю, в мезолите местность населяют охотники-собиратели WHG, далее появляются неолитические земледельцы (аутосомно близкие по всей Европе), после чего в их генофонде понемножку начинает расти доля WHG, вплоть до халколита. Более поздние палеообразцы оттуда мне пока неизвестны.

Охотники-собиратели юго-западной Скандинавии (SHG) по аутосомам находились между WHG и EHG (похоже, что мезолитические охотники-собиратели северо-западной Евразии формировали континуум с плавным переходом от WHG на западе к ANE на востоке). Впоследствии мы видим появление все тех же неолитических земледельцев, а еще позже в регион попадают «ямноподобные» носители CHG, как и в Германии. Среди археологов нередко принято выделять этих пришельцев в отдельную от их аналогов с южного берега Балтики (культура шнуровой керамики) культуру боевых топоров, или ладьевидных топоров. И генетика дает для этого некоторые основания — в отличие от германских шнуровиков, у образца из Швеции вклад CHG заметно ниже, а влияние северных охотников-собирателей — выше. Однако и здесь носители CHG явно свежие пришельцы, ранее этот компонент в регионе не находили.

Третьим регионом, по которому имеется временной срез, является Венгрия. Можно было бы включить ее в центральноевропейскую колонку, однако у венгерских образцов имеется своя специфика. Если на протяжении мезолита-неолита ситуация развивается по привычной схеме, то в эпоху бронзы новоприбывшее население заметно отличается от тех, кто мигрировал в более северные районы. Да, растет доля «кавказского» компонента, но он более «анатолийский», чем «степной-ямный» (казалось бы, именно в степной Венгрии можно в первую очередь ожидать «ямный» компонент). При этом доля «охотничьего» компонента у них также заметно повышена по сравнению с неолитчиками. Возможно, эти люди и ответственны за аутосомный сдвиг у представителей ККК и Унетицкой культуры, отображенный в таблице. С этого момента в Центральной Европе наличествуют все основные имеющиеся в ней в наши дни аутосомные компоненты и население становится достаточно схожим с нашими современниками.

К сожалению, между Волгой и Карпатами до сих пор не проанализировано ни одного образца из обсуждаемого периода (единственный удостоившийся подобной чести — палеолитический образец с Маркиной Горы (Костёнки-14), для нашей цели бесполезен). Поэтому остается лишь строить предположения, какие изменения происходили в генофонде населения Восточноевропейской равнины в это время. Когда будет закрыта эта дыра, на данный момент мне совершенно непонятно. Что касается Средней Азии и Кавказа, то мы можем ожидать появления новых результатов оттуда в обозримом будущем.

 

 

Охотники-собиратели Кавказа и южный генетический полюс ямников

Сергей Козлов

Охотники-собиратели Кавказа и южный генетический полюс ямников.

За прошедший год в научный оборот было введено множество палеогеномов из Европы и евразийской степи. Было доказано, что в западной части Европы произошло как минимум два резких смещения аутосомного ландшафта — сначала на палеоевропейские охотники-собиратели были замещены пришедшими из Анатолии неолитическими земледельцами (впрочем, часть их генофонда все же сохранилась), а впоследствии уже земледельцы оказались сильно потеснены новыми пришельцами, генетически схожими с представителями ямной КИО. Их след хорошо выделяется в современной Европе — во-первых, это относительно недавно обнаруженный, но ставший широко известным среди интересующихся геногеографией компонент ANE, во-вторых же, «загадочный» южный компонент ямников.

Авторы первой из опубликованных работ по аутосомам ямников смоделировали их, как смесь ~50 на 50 мезолитических восточноевропейских охотников-собирателей (EHG) и современных армян (впрочем, еще лучше на эту роль подошли иракские евреи, но их решили пропустить). Эта модель сразу вызвала во мне отрицательное отношение, поскольку у армян хорошо представлен аутосомный компонент неолитических земледельцев, а у ямников он не обнаружен в сколь-нибудь значимых количествах. Таким образом, модель изначально была неверна, но, к сожалению, была растиражирована еще до выхода статьи в свет (благодаря «утечкам» от авторов) и завладела многими умами. Постепенно вокруг слова «армянский» даже перестали ставить кавычки ))

К счастью, над палеогеномами работает целый ряд команд ученых и одна из них решила обратить внимание не только на северные палеообразцы, но и на остававшиеся долгое время в пренебрежении южные. Первой ласточкой стали два охотника-собирателя, жившие (согласно радиоуглеродной оценке) 9 и 13 тысяч лет назад на территории нынешней Грузии. В запаснике у этой команды еще немало могущих представлять интерес образцов древней ДНК, поэтому ждем дальнейших работ.

В качестве основного был использован более поздний из двух образцов, найденный в пещере Kotias. Он прочитан с весьма хорошим для палеогенома качеством (что позволило мне использовать его для подсчета IBD-сегментов). Моделирование показало, что в качестве «южного полюса» генофонда ямников кавказские охотники-собиратели (для них авторы статьи ввели новое сокращенное название — CHG) подходят намного лучше, чем любая из современных выборок:

CHGF3Stat

Это и неудивительно — ведь доминирующим аутосомным компонентом в предпочитаемом мной калькуляторе MDLP K27 у Kotias является Gedrosia-Caucasian, о котором я уже писал:

Однако с точки зрения предковых компонентов Admixture такая модель — далеко не лучший вариант, «южный» ямный компонент скорее связывается с чем-то в промежутке между Восточным Кавказом и Средней Азией. Как и предполагалось, он коррелирует с бимодальным компонентом, условно называемым Gedrosia. Исходя из современных максимумов, его исторический центр находится где-то в южном Прикаспии, возможно, восточнее. Судя по всему, он представляет собой результат смешения «ближневосточного» компонента ENF и ANE, поэтому теоретически исторического центра может и вообще не быть.

Как выяснилось, девять тысячелетий назад этот компонент преобладал и в более западных районах. Что ж, это делает его только еще более подходящим.

Результаты Kotias в K27:

0.42%   Nilotic-Omotic
  2.22% Ancestral-South-Ind.
  3.66% North-European-Balt.
  0.00% Uralic
  0.01% Australo-Melanesian
  1.79% East-Siberian
  0.00% Ancestral-Yayoi
30.28%   Caucasian-Near-East.
  0.00% Tibeto-Burman
  0.00% Austronesian
  0.00% Central-African-Pygm
  1.05% Central-African-HG
  3.66% Nilo-Saharian
  0.00% North-African
52.04%   Gedrosia-Caucasian
  0.00% Cushitic
  0.00% Congo-Pygmean
  1.73% Bushmen
  0.00% South-Meso-Amerind.
  0.00% South-West-European
  0.00% North-Amerindian
  0.00% Arabic
  0.01% North-Circumpolar
  3.13% Kalash
  0.00% Papuan-Australian
  0.00% Baltic-Finnic
  0.00% Bantu

Карта сумм IBD-сегментов Kotias с образцами из современных выборок:

KotiasSnpc-100IBDext

Лидерами по сумме сегментов оказались грузины (приведен список первых 25 результатов):

Georgian 71,79
Abkhazian 70,75
Lezgin 68,27
Greek_Azov 67,15
Balkarian 65,02
Kurd 64,38
Ossetian 62,66
Armenian 61,98
Nogay 60,38
Bosnian 60,23
Slovenian 60,02
Chechen 59,07
Adygei 58,39
Cypriot 58,28
Turkish 55,86
Kosovar 54,64
Ukrainian-West-and-Center 54,17
Bulgarian 53,21
Slovak 53,01
Cornish 52,46
Croatian 52,21
Kumyk 51,96
Makrani 51,91
Syrian 51,78
Greek 51,68

Что ж, можно их поздравить с генетической преемственностью на протяжении десятка тысячелетий. Однако по пропорциям компонентов Admixture грузины и абхазы довольно заметно отличаются от Kotias:

Abkhasian_S3 Georgian_Kaheti_R2 Georgian_West_R4 Svan_R3
Nilotic-Omotic 0,24 0,00 0,52 0,06
Ancestral-South-Indian 0,75 0,92 0,44 0,31
North-European-Baltic 8,58 5,60 6,87 6,93
Uralic 2,17 1,69 0,72 2,34
Australo-Melanesian 0,27 0,07 0,59 0,42
East-Siberean 1,20 0,00 0,20 0,42
Ancestral-Yayoi 0,72 0,00 0,00 0,44
Caucasian-Near-Eastern 40,79 41,08 45,61 42,85
Tibeto-Burman 0,00 1,09 0,12 0,38
Austronesian 0,72 0,20 0,00 0,23
Central-African-Pygmean 0,05 0,06 0,20 0,00
Central-African-Hunter-Gatherers 0,22 0,15 0,29 0,18
Nilo-Saharian 0,55 0,01 0,02 0,15
North-African 0,50 1,17 0,90 0,31
Gedrosia-Caucasian 32,01 31,65 33,18 35,31
Cushitic 1,17 1,56 0,31 0,42
Congo-Pygmean 0,00 0,25 0,18 0,35
Bushmen 0,04 0,00 0,00 0,00
South-Meso-Amerindian 0,27 0,04 0,14 0,12
South-West-European 2,68 5,06 2,73 1,91
North-Amerindian 0,13 0,04 0,13 0,23
Arabic 2,42 6,83 3,56 3,72
North-Circumpolar 0,47 0,09 0,99 0,41
Kalash 2,38 2,33 1,66 1,77
Papuan-Australian 0,42 0,11 0,33 0,32
Baltic-Finnic 1,25 0,00 0,20 0,14
Bantu 0,00 0,00 0,11 0,28

Как видно, компонент Gedrosia-Caucasian у них стал заметно ниже, а более западные и южные Caucasian-Near-Eastern, Arabic, South-West-European — выросли. Вырос и «северный» North-European Baltic. Думаю, что это связано с миграциями в регион новых групп, что несколько размыло изначальный генофонд. Поэтому современные грузины подошли на роль «южного компонента» в меньшей степени по сравнению с Kotias, и древние CHG выглядят на генетической карте более «восточными» (почему я и помещал этот компонент где-то в Прикаспии).

Кроме Кавказа, вызывает интерес явная связь CHG с рядом балканских популяций (и примыкающей к ним правобережной украинской выборке) — вероятно, это неспроста. Причем направление миграций здесь, очевидно, именно от CHG либо их родственников к балканцам.

Думаю, что сами CHG могут быть смоделированы, как смесь ближневосточников и носителей ANE откуда-то с родины компонента Gedrosia. Например, в калькуляторе ANE K7 Kotias получается таким (как обычно, «Африка» отображает архаику палеогеномов):

31.10%   ANE
  5.36% ASE
  0.01% WHG-UHG
  0.00% East_Eurasian
  2.47% West_African
  1.50% East_African
59.56%   ENF

Однако же никаких связей с Сибирью на карте IBD-сегментов он не проявляет. Таким образом, вновь встает вопрос о «южном» и «северном» вариантах ANE. Методами Admixture разделить его пока не удалось (если говорить о «чистом» ANE а не более новых компонентах, куда он входит составной частью). Возможно, он сам по себе является композитом — результатом смеси охотников северной Евразии и пришельцев с юга? Тогда у Kotias проявляется лишь его южная часть. Во всяком случае, мы можем выделить этот «восточный» компонент Kotias  в том числе и методом IBD-анализа, рассмотрев его разность с европейскими неолитическими земледельцами (EEF), выступающими здесь «прокси» ближневосточного компонента:

CHGMinusEEFIBDext

Результат прекрасно совпадает с распределением компонента Gedrosia-Caucasian — один из пиков оказался в Дагестане (лезгины), второй — рядом с исторической Гедрозией. Можно поздравить Вадима Веренича с удачным калькулятором. Любопытно, что соседи лезгинов по Восточному Кавказу — чеченцы и кумыки не оказались ярко выделенными, несмотря на немногим уступающую лезгинам долю ANE. Зато они выделяются у ямников и оленеостровца EHG. Возникает предположение, что либо эти народы в наибольшей степени испытали «ямное» влияние, либо «южный компонент» ямников наиболее связан с ними, либо их ANE относится к чуть другой веточке по сравнению с Kotias, более близкой к ямной. Во всяком случае. здесь есть, над чем подумать.

Теперь сравним Kotias с самими ямными геномами:

CHGMinusYamnayaIBDext

Как видите, связь с ямниками у выборок из Северной Европы и Поволжья-Урала очень сильна по сравнению со связью с CHG. Думаю, что основное объяснение этому — отсутствие у Kotias компонентов WHG и «северного» ANE. Они занимают основную часть как генофонда европейцев, так и ямников. Более интересна ситуация в Азии — в Средней Азии сильнее связь с ямниками, далее при движении на юг, к Индийскому океану, постепенно идет выравнивание в пользу CHG (возможно, это говорит о том, что ямное влияние сокращается и мы видим более «фоновое» родство) и на самом дальнем юге возвращается равновесие (эти популяции уже мало связаны как с ямниками, так и с CHG). «Ямный язык», вдающийся в Китай через алтайцев, уйгуров и Ту — не след ли это тоже индоевропейской миграции? Хотя это может быть и совпадением.

Что касается родного для Kotias Кавказа, то если на западе связь с ним очень сильна, к северо-востоку, как уже писалось, «ямное» влияние нарастает.

Некоторый интерес представляет и сравнение охотников-собирателей Кавказа с уже не раз упоминавшимися в этой заметке западноевразийскими охотниками-собирателями (WHG):

CHGMinusWHGIBDext

Поскольку WHG входит составной частью в генофонд неолитических земледельцев Европы (EEF), то «ближневосточное» влияние в Южной Европе, связанное с их миграциями, частично отфильтруется. Например, считающиеся наиболее схожими с EEF среди наших современников жители острова Сардиния здесь ярко-зеленые. Можно сделать вывод, что на Балканах и в южной Италии влияние CHG довольно серьезно (что мы и видели на первой карте). Хотя из-за влияния «чистого» WHG повсюду в Европе делать точные оценки сложно.

В заключение можно подытожить, что расшифровка геномов охотников-собирателей Кавказа является очередным, и достаточно заметным, шагом в деле восстановления доисторических миграций и формирования современной генетической картины в Евразии.

 

Подготовка к анализу новых образцов палеогеномов

Несколькими постами ранее ув. Сергей Козлов подготовил замечательный по своей глубине русскоязычный обозор новой статьи Allentoft et al. 2015 (еще раз выражаю свою благодарность). В этом обзоре были затронуты преимущественно технические вопросы, в то время как в аналогичном разборе на сайте генофонд.ру было пересказано общее содержание статьи:  » Cтатья большого международного коллектива, опубликованная 11 июня в журнале Nature, посвящена исследованию геномов популяций Евразии в бронзовом веке (изучен период от 3000 до 1000 лет до н.э.). Первый автор Мортен Aллентофт (Morten E. Allentoft) и ведущий автор Эске Виллерслев (Eske Willerslev) представляют Центр географической генетики Музея естественной истории Университета Копенгагена, Дания. Эта статья вызвала огромный интерес у специалистов по истории популяций человека — ведь в ней представлен анализ самого большого массива древних геномов из разных археологических культур эпохи бронзы. На основании анализа древних геномов авторы пробуют реконструировать древние миграции и распространение археологических культур во времени и пространстве. В бронзовом веке, начало которого датируют временем 3500-3300 лет до н.э., в производстве орудий и оружия камень все больше уступает место металлу. Это сопровождается   радикальными культурными и социальными изменениями в жизни людей. Они касаются не только хозяйственного уклада – возникает новое понимание имущественных отношений, семьи и личности. Основной вопрос, на который попытались ответить авторы статьи — были ли эти изменения результатом передачи культурных навыков или результатом миграций населения. Иными словами, «была ли это циркуляция людей или идей». Важнейший вопрос — связаны ли эти события с распространением индоевропейских языков, на которых сейчас говорит большая часть человечества.»

Лавина публикаций древних геномов (кроме вышеупомянутых статей Allentoft et al. 2015, Haak et al. 2015, летом опубликовались статьи Pinhasi et al. Optimal Ancient DNA Yields from the Inner Ear Part of the Human Petrous Bone,  и Fu et al.  An early modern human from Romania with a recent Neanderthal ancestor, однако к сожалению, количество снипов в большинстве образцов палеогеномов недостаточно для проведения развернутых анализов вместе с палеогеномами из других статей) заставила меня ускорить подготовку своей сводной выборки референсных образцов популяций (об этом я писал в предыдущих записях).

Я решил отказаться от полного импутирования древних геномов (очевидно бессмысленного занятия, так как у нас нет надежной референсной панели для импутирования выборочно секвенированных палеогеномв), и вместо этого ограничился импутированным (с помощью панели 1000 Genomes) набором снипов в контрольном наборе популяций лаборатории Райха (Affymetrix Human Origins Fully Public Dataset), этот набор использовался в статье Lazaridis et al. 2014.  

Разумеется, ни одна процедура «импутирования генома» (imputation of genome -сложнопереводимый на русский язык термин) не обходится без ошибок. Поэтому перед тем как приступить к самому анализу, я провел проверку качества выборки. На этот раз, я использовал  инструментарий Python — PyGenClean. Этот инструментий существенно облегчает стандартизацию генетических данных и  контроль качества выходных данных платформы генотипирования. Он минимизирует ошибки манипулирования данными, и ускоряет процесс очистки данных от потенциальных ошибок генотипирования,  а также позволяет составлять информативные графики и автоматически оценивать предварительные параметры последующего статистического анализа.

После отсеивания снипов c низким качеством и индивидов с низкой степенью генотипирования, а также снипов с существенным отклонением от равновесия Харди-Вайнберга, я посмотрел оставшиеся образцы на предмет наличия в выборке «оutliers» (так называемых «статистических выбросов»). До процедуры нахождения выбросов график главных компонент выглядел следующим образом:

И после нахождения выбросов (т.е образцов со стандартным отклонением больше 5 сигм)

Первоначально я планировал анализировать древние геномы вместе с геномами современных людей, однако (как видно из нижеприведенных графиков) палеогеномы гораздо в большей степени отклоняются от реперных точек, бессистемно разбиваясь на группы:

 

Поэтому такую очистку данных лучше проводить в два захода, один — для современных образцов, а другой — для палеогеномов. А затем полученные «качественные» выборки соединять в общую контрольную выборку.
В нашем случае, я так и поступил, получив выборку из 2250 этнопопуляционных образцов и 155 000 снипов.

Вот так выглядит взаимное расположение образцов геномов на PCA графике.

 

Caucasian, North-African, Afro-American, AG2, South-European, Alberstedt-LN, Native-American, Siberian, African, East-Asian, Near-Eastern, Atayal-Coriell, Native-Australian, Australian, Australian-ECCAC, East-European, Baalberge-MN, South-Asian, Volga-Ural, West-European, Bell-Beaker-LN, North-Indian, BenzigerodeHeimburg-LN, South-Indian, Ancient-African, American, Oceanian, South-East-Asian, Arctic, Corded-Ware, Near-East, Denisovan, Denmark-Carlstrup, Denmark-Falshoy, Denmark-Marbjerg, Denmark-Sebberskole, Esperstedt-MN, EuropeanIronAge, North-European, Halberstadt-LBA, Central-Asian, Hixton, Href, HungaryGamba-BA, HungaryGamba-CA, HungaryGamba-EN, HungaryGamba-HG, HungaryGamba-IA, Iceman, Karelia-HG, Karsdorf-LN, Kostenki14, LaBrana1, LateDorset, LBK-EN, WHG, MA1, Mezmaiskaya, MiddleDorset, North-Greek, South-Italian, Piramalai-Kallars, Poland-Polwice, Poland-Szczepankowice, Poland-Unetice, Poland-Chociwiel, Samara-HG, Saqqaq, East-Aasian, Spain-EN, Spain-EN-relative-of-I0410, Spain-MN, Starcevo-EN, Stuttgart, Sweden-Abekas, Sweden-Angamollan, Sweden-Visby, SwedenSkoglund-MHG, SwedenSkoglund-MN, SwedenSkoglund-NHG, Thule, Unetice-EBA, Ust-Ishim, Vindija, Yamnaya

Именно эту выборку я положил в основу своего нового тестового калькулятора K13 (о его создании я расскажу позже) — предназначенный для анализа «глубокого» происхождения популяций. Как всегда, модель нового калькулятора основана на базовой модели известного DIYDodecad калькулятора. Впервые я остался более или менее удовлетворен полученными результатами. Думаю, что от этой модели можно плясать дальше. И хотя модельная кластеризация с помощью алгоритма Mclust дает основание полагать, что используемая мной выборка из 2230 геномов наилучшим образом (т.е без неизбежного при больших значениях K вырождения компонентов) описывается моделью из 8 кластеров, я остановился на K=13 т.е 13 кластерах:

  1. Amerindian — модальный компонент американских индейцев

 

 

  • ANE — модальный компонент северных евразийцев, изолирован из общего с WHG кластера — наивысшие значения в древнесибирских образцах MA1, AG2, а также у андроновцев, синаштинцев, представителей ямной культуры, шнуровиков и т.д. Из ныне живущих популяций самый высокий процент у калашей. Практически совпадает с ANE в статье Lazaridis et al. 2014

 

 

  • Arctic — модальный компонент с пиком в популяциях коряков, чукчей, ительменов и эскимосов

 

 

  • ASI — модальный компонент южноиндийских популяций, у современных популяций наивысший процент у онге, идентичен ASI в работе Reich et al. 2009.

 

 

  • Caucas(us)-Gedrosia — идентичен кластеру, открытому в 2011 году Диенеком Понтикосом

 

 

  • EastAsian — модальный компонент жителей восточной Азии

 

 

  • ENF — компонент древних европейских земледельцев неолита, пик в образцах палеогеномов культуры линейно-ленточной керамики. Тождественен аналогичному компоненту в работах популяционных генетиков (Lazaridis et al. 2014, Haak et al. 2015). В современных этнопулах — наивысшие значения у сардинцев, корсиканцев и басков.

 

 

  • NearEast — модальный компонент жителей ближнего Востока

 

 

  • Oceanian — модальный компонент аборигенных жителей Океании, Австронезии, Меланезии и Микронезии — пик у современных папуасов и австралийских аборигенов

 

 

  • Paleo-African — модальный компонент африканских пигмеев и бушменов

 

 

  • Siberian — модальный компонент народностей юго-восточной Сибири

 

 

  • Subsaharian — второй африканских компонент — пик в популяциях мандинка, йоруба и ишан

 

 

  • WHG-UHG — компонент древних европейских мезолитических охотников-собирателей, пик в образцах палеогеномов мезолитических популяций европейских охотников-собирателей. Тождественен аналогичному компоненту в работах популяционных генетиков (Lazaridis et al. 2014, Haak et al. 2015). Из современных популяций — наивысший процент в популяциях эстонцев, литовцев, финнов и др.

 

 

MDS plot - K13 ancestral population

Как я и предполагал, модель калькулятора оказалась особенно хороша в применении к анализу древних геномов. И на самом деле, на нижеприведенном графике PCA (пространстве 2 главных компонент результатов анализа древних геномов в моем бета-калькуляторе K13) видны замечательные вещи. Расположение геномов хорошо вписывается в треугольник, один из углов которого образуют геномы древних «ямников» (из работы Haak et al. 2015), причем геномы «русских»ямники из работы Allentoft at al.2015 чуть-чуть сдвинуты в сторону древних мезолитических геномов древних европейских охотников-собирателей. За ними (в направлении «неолитического» угла) следуют представители шнуровой культуры, еще дальше — геномы представителей геномов унетицкой культуры и т.д. Второй угол треугольника образован неолитическим геномами, причем если более поздние неолитические геномы сдвигаются ближе к представителям линейно-ленточной культуры (англ. Linear Pottery culture, фр. Culture rubanée, нем. Linearbandkeramische Kultur, LBK — наиболее распространенная неолитическая культура Центральной Европы 5500—4500 гг. до н. э.), то более ранние геномы — геном представительницы более ранней фазы этой культуры (Stuttgart-LBK), а также геномы представителей балканских неолитических культур — Старчево и Винча — очень близки к палеогеному из Barcin (культура Чатал-Хююк, cамые ранние найденные культурные слои относятся к 7400 г. до н. э.). Таким образом генетика подтверждает утверждения археологов о близости неолитических культур Балкан и Анатолии. Более того — данные генетики свидетельствуют о том, что во времена т.н «неолитической революции» происходила не только и не столько миграция технологий (как считали некоторые археологи), но и миграция населения (из Анатолии на Балканы). Причем, судя по моему графику PCA, миграция происходила в несколько, хронологически удаленных, этапов, и — скорее всего — из разных мест. Крайную точку в этому угле треугольника я обозначил как «анатолийские земледельцы» (ближайший к этой точки геном — геном «земледельца» из культуры Старчево — взят из работ Haak et al. 2015).

Для людей, интересующихся вопросами происхождения индоевропейцев, разумеется будет более интересна другая сторона треугольника, которая скорее всего отражает градиент увеличения градиента частот так называемого ANE — «компонента древних северных евразийцев».

Образно говоря, вектор градиента начинается в геномах ямников (больше половины генома которых состояла из этого компонента) и затем идет к геномам представителей синташтинской, афанасьевской, андроновской, окуневской и карасукской культур.
Пару слов об этих культурах (положение геномов представителей которых можно посмотреть на графике).
1) Синташтинская культура формировалась из древнеямных и катакомбных племён и местного населения. Синташтинцев связывают с индоиранскими племенами.
2) Андроновская культура также развивается на базе ямной. На западе она доходила до района Урала и Волги, где контактировала со срубной культурой. На востоке андроновская культура распространилась до Минусинской котловины, частично включив в себя территорию ранней афанасьевской культуры. Андроновцев (также как и синаштинцев) относят к индоиранской сообщности.
3) Афанасьевская культура была создана мигрантами из Восточной Европы, в частности, носителями древнеямной культуры, ассимилировавшими местное население. Сменилась карасукской и окуневской культурами.Наследниками афанасьевцев были племена тагарской культуры, дожившей до III в. до н. э., по другой версии, тагарцы были скифами, а потомки афанасьевцев — тохарами, которых именно скифы-тагарцы вытеснили в Синьцзян.Большинство исследователей ассоциируют афанасьевскую культуру с (прото-)тохарами.
4) Окуневская культура — фнтропологический тип населения этой эпохи был смешанного европеоидно-монголоидного происхождения, с преобладанием монголоидного. Как отмечает А. В. Громов, бросается в глаза их морфологическая разнородность — встречаются как чисто монголоидные черепа, так и типично европеоидные, не обнаруживающими никаких следов монголоидной примеси. Проведя обстоятельный анализ антропологических особенностей населения неолита и ранней бронзы, А. А. Громов пришел к выводу, что физический тип окуневцев сложился в результате смешения местного неолитического населения с выходцами из территории Средней Азии и Казахстана (афанасьевцами)
5) Карасукская культура — развилась на основе окуневской культуры под влиянием андроновской культуры.

Интересно, что геном мальчика с южносибирской палеолитической стоянки MA-1 как раз проецируется между центроидами геномов представителей синташтинской, афанасьевской, андроновской, окуневской и карасукской культур. Эти геномы (вернее их центроиды) занимают на графике значительное место. Самый дальний из них — геном алтайца из эпохи железного века (примерно 50 год до нашей эры). Сразу за ним идут все из имеющихся у меня палеогеномов жителей Америков (палеоэскимосы — в том числе и Saqqaq; и «палеоиндейцы» — Clovis, древние жители Перу и палеогеномы Botocudo). Любопытно что последние — геномы Botocudo — хотя и являются самыми современными (1600 год нашей эры), однако в них хорошо заметен «океанский компонент», именно поэтому они смыкаются на графике с палеогеномом австралийского аборигена. В этой связи я вспоминаю оригинальную теорию Тура Хейердала о наличии доисторических контактов между жителями островов Тихого океана и жителями Южной Америки.

Особое место на графики занимают «живые реликты» — онге, один из коренных андаманских народов (адиваси), геномы так называемого «усть-ишимца» (возраст 45000 лет), костенковца (Kostenki-14, возраст 38 700 -36 200 лет), и недавно опубликованный палеогеном Oase из Румынии (возрастом 37000-42000 лет). Они образуют отдельную группу (особенно близки друг к другу румынский палеогеном Oase и усть-ишимец), однако я терясь в догадках о том, что именно означает столь заметная близость этих геномов.

 

 

Eurasian and American paleogenomes

Еще раз о палеогеномах европейцев (к работе Haak et. al. 2015)

Еще когда появились первые анонсы препринта статьи Haak et al. 2015,  можно было сделать интуитивные предположения о том, что использованные в работе образцы палеогеномов будут всесторонне изучены не только авторами статьи, но и многочисленными любителями, причем ожидаемая степень детализации полученной картины генетического разнообразия  будет предположительно выше именно у последних (т.е всевозможных геномнных блоггеров).

Так оно и вышло. Давид Веселовский из Eurogenes провел целый ряд экспериментов с объединенным базовым набром «геномов» современных популяций и так называемых древних геномов.  В частности, в одном из своих анализов он задействовал новую программу qpAdm из последней версии пакета Admixtools,  и в ходе пробного моделирования геномов представителей ямной культуры из самарской культуры был наилучшая аппроксимация (fit, подгонка) была получена в комбинации  51.4% генома  охотников-собирателей Самары и  48.6 современных грузин (STD 0,032, chisq 3,890, р-value 2.20661e-22). Образцы палеогеномов представителей  шнуровой керамики могут быть в свою очередь смоделированы как 73% геномов ямников + 27% палеогеномов Esperstedt_MN (STD 0,060, chisq 2,621, р-value 9.74968e-06).

Это интересный результат, главным образом потому данные лингвистики позволяют предположить, что ранние индоевропейцы — по-видимому, кочевники ямной культуры или их предки — были в тесном контакте с прото-картвельскими популяциями.  Похожий результат был получен авторами статьи (у которых представители ямной культуры выступали как 50% -50% смесь геномов карельских охотников-собирателей и армян), а также в моих экспериментах, в которых геномы современных белорусов были представлены  гибридной моделью  современных геномов армян и палегеномов шведских охотников-собирателей Motala.

Впрочем, я согласен с Веселовским — главная проблема с подобными ретроспективными анализами заключается в том, что про причине отсутствия большого количества достоверных древних палеогеномов, популяционные генетики часто вынуждены моделировать древние популяции посредством комбинаций современных популяций. Как отмечает Веселовский, в генофонде современных грузин присутствует (по его оценке) 20% так называемого ANE-компонента, который, вероятно, прибыл на Кавказ из Евразийской степи. Если это так, то алгоритм qpAdm  может переоценить «кавказский» компонент в геномах ямников, по крайней мере, на 10%.

В другом своем анализе Веселовский уделил особое внимание  проблеме происхождения одного из основных компонентов в геноме древних ямников. Так например, анализ Admixture в Haak et al. 2015 включает в себя ряд интригующих компонентов с К = 16 до К = 20, которые, как правило составляют более 40% от генетической структуры потенциально прото-индо-европейских геномов ямников. Веселовский выделил компонент сигнализирующий этот тип «адмикса» и подробно изучил его. Заслуживает внимание тот факт, что компонент достигает своего пика на Кавказе и в горах Гиндукуша, и в целом показывает сильную корреляцию с регионами относительно высокой частоты связанных с палеогеномом MA1  компонентами происхождения (ANE). С другой стороны, другой компонент ямников достигает пиковых значений у  ранних европейских фермеров (EEF), у которых отсутствует компоент ANE.

Выделенные Веселовским 3 основные компоненты-составляющие геномов ямников были преобразованы в синтетические популяции (центрально-азиатская, европейская и неолитическая европейская), которые в свою очередь использовались в качестве подмножества для вычисления векторов загрузки (loadings) в PCA анализе полного набора современных популяций.

https://drive.google.com/file/d/0B9o3EYTdM8lQak82NFVYSUJfWGc/preview

Очевидно, более детальный расклад и анализ вклада различных компонентов геномов палеоевропейцев в геном современных жителей Европы можно найти в подробном анализе Сергея Козлова  «Палеоевропейцы из работы Haak et al, 2015 в свете анализа на IBD-сегменты«.

Как я уже упоминал ранее, мой опыт с «выведением» предкового аутосомного компонента индоевропейцев (обозначенного в статье Lazaridis et al. 2013 сокращением ANE) полностью удался. Поскольку всем очевидно, что этот компонент родственен «североиндийскому предковому компоненту» (ANI — обозначение из статьи Reich et al. 2009 и Moorjani et al 2011) о структуре генофонда индийских этнических групп), я взял 10 индийских этнических групп, имеющихся в кураторском наборе лаборатории Райха и проанализировал эту выборку в Admixture на пропорции вхождения их геномов в 2 априорно заданные кластеры. Первый кластер ANE был априорно задан 40 синтетическим индивидами, сгенерированными в программе Plink на основании расчитанных ранее частот аллелей «чистого» компонента ANE. В качестве дополнительного контрольного образца я использовал геном Malta1, т.к. он содержит в себе наивысшее содержание компонента ANE. Второй кластер был задан 4 индивидами Onge (одна из аборигенных народностей Андаманских островов). Как неоднократно указывалось в литературе, именно жители Андаманских островов являются самыми «чистыми» носителями т.н «южно-индийского» предкового компонента ASI (на континенте чистых носителей этого «компонента» не осталось, в том числе и среди популяций дравидов, ведда и мунда). После нескольких экспериментов по эвристическому методу проб и ошибок, я получил более или менее приемлимое разделение индивидов на 2 кластера, а затем вычислил частоты аллелей в каждом из этих кластеров. Любопытно, что в ходе опыта, удалось не только выделить компонент ANI, но и добиться неплохого уровня дискримнации между компонентом ANI, ANE, и благодаря этому, оба компонента могут быть включены в мой следующий этно-популяционный калькулятор.

Надежность компонентов я проверил на собственных данных. В рабочей модели калькулятора K14 удельное распределение этно-генографических компонентов моего генома выглядит следующим образом:

68.75% — европейский мезолитический компонент
13.12% — северо-евразийский компонент ANE
10.23% — европейский неолитический компонент
4% — ANI (северо-индийский предковый компонент)
1.6% — кавказский компонент
1.2% — алтайский компонент
0.2% — сибирский компонент

Затем я использовал 120 древних образцов аутосомной ДНК человека (начиная с верхнего палеолита до бронзового и железного веков) из последней работы и проработал их в бета-версии своего этно-популяционного калькулятора K14. Я надеялся выделить компонент ANE из ANI, но из таблицы видно, что это фактически один и тот же компонент

Когда я закончу полномерную импутацию всего набора данных от лаборатории Райха, я займусь проведением аналогичных экспериментов. А пока — примерно месяц назад я сообщил о начале первого этапа своего нового проекта. Согласно первоначальному замыслу, на первый этап — фазирование и импутация данных выборок из статей Haak et al .2015 (preprint) и Lazaridis et al. 2014 — я отводил месяц. Так оно и получилось.

В качестве затравки для импутирования я использовал набор 424329 снипов на 22 аутосомных хромосамх. Набор состоял из снипов, прошедших стандратный геномный контроль качества. Фазирование и импутация снипов я проводил с помощью пайплайна Molgenis.

По окончанию этого вычислительно-емкого процесса, мною был получен набор из примерно 5 миллионов снипов; после отсева не входящих в панели Illumina снипов у меня осталось 913841 снипов.

Ниже приведена похромосомная статистика снипов до и после импутации данных.
Как видно, на всех хромосомах (за исключением 19 и 20) количество снипов увеличилось примерно в два раза.

Для оценки качества импутации я сравнил импутированные генотипы своих данных с известными данными из своих сырых данных (снипы с иллюминовского чипсета 23andme) на предмет конкорданса (соответствия).
Оказалось, что у 6.5% импутированных генотипов оба варианта не совпадали с генотипам в rawdata от 23andme, у 17.33% — не совпадал один из двух вариантов. Таким образом, качество импутации составляет примерно 76.18%, что неплохо, учитывая что среднее значение качества импутации в программе IMPUTE v2 + SHAPEIT составляет примерно 69%.

11071088_10206257613949054_7906454924722989677_nChromosome Pre-imputation Post-imputation Percentage of imputed snps

1 36638 88155 41.56
2 40140 90003 44.60
3 33218 62030 53.55
4 23594 54462 43.32
5 19731 55284 35.69
6 27979 56485 49.53
7 22804 49172 46.38
8 23072 48756 47.32
9 19369 42438 45.64
10 25340 49666 51.02
11 23145 46434 49.84
12 16967 45668 37.15
13 14998 35626 42.10
14 15529 36429 42.63
15 14663 27844 52.66
16 15034 33806 44.47
17 7799 24949 31.26
18 11697 27709 42.21
19 7102 17715 40.09
20 12654 5054 -39.94
21 6495 2572 -39.60
22 6361 13584 46.83
424329 913841 36.74

Для проверки полезности полученного набора (объединенного набора «реальных» и импутированных снипов), я соединил его с 112 образцами человеческих палеогеномов из новой статьи Haak et al. 2015. Полученный таким образом набор я проанализировал методом выделения главных компонент, первые две из которых я впоследствии использовал для построения графика главных компонент. Как мне кажется, получилось красиво и правдоподобно.

Two first principal components

 

Через неделю работы в GoogleCloud, получил результаты второго цикла обработки (импутации и фазировки) палеогеномов. Напомню, задачей ставилось увеличение числа снипов палеогеномов до уровня, позволяющего проводить исследования с привлечением сторонних данных по современным человеческим популяциям (т.е не только по тем популяциям, которые включены в кураторский набор лаборатории Рейха, но и другим наборам, генотипированным на платформе Illumina; и что самое главное — с привлечением данных конкретных пользователей 23andme и FTDNA).

И если результатами первой части я был вполне доволен, то этого нельзя сказать о второй части. Теперь я понимаю, что ошибка содержалась в самом дизайне цикла второй части, в которой для импутации и фазирования использовались только реальные и «симуляционные» палеогеномы. В результате, хотя импутация и улучшила взаимное позиционирование палеогеномов в пространстве главных компонент генетического разнообразия, однако при слиянии импутированного в автономном режиме набора палеогеномов с набор полученным в первой части проекта, получилась картина. в которой палеогеномы образуют как бы параллельную субструктуру по отношению к современным популяциям.
Данное обстоятельство объясняется тем, что у древних геномов людей больше общего разнообразия между собой, чем с геномами современных людей (у которых в результате многочисленных генетических дрейфов и бутылочных горлышек большая часть разнообразия была потеряна). По этому причине, при независимой импутации древних геномов их сходство между собой только усилилось, а дистанция с современными популяциями увеличилась. Примечательно при этом, что пропорции вилкообразного разделения генетического разнообразия такие же, как и у современных людей.

На графике PCA эта ситуация прослеживается особенно хорошо, где отчетиливо видно наложение этих двух V-вилок друг на друга (см. нижний график)

Это означает одно — работу над проектом надо продолжить