Формальный анализ смешивания предковых популяций: белорусы, часть 2

Итак, после определения значимых для формального статистического моделирования комбинаций предковых популяций (или вернее, их суррогатов) представляется возможным смоделировать две вещи. Во-первых, необходимое с точки зрения статистики, число «импульсов» или «потоков» смешивания, а во-вторых, пропорции вклада «предковых» групп в генофонд белорусов.

Результаты анализа в программах qp3Pop и qpDstat показали, что в референтной группы белорусов присутствуют сигналы смешивания трех групп — мезолитических охотников-собирателей Европы (WHG), неолитических популяций земледельцев с Ближнего Востока и cибирских охотников-собирателей (чьи потомки в составе индоевропейцев) распространили свои гены по всей Европе.

Но меня больше интересует вопрос оценки величины доли вклада так называемого «базального компонента»(Basal Eurasian):

«четвертый элемент» — тот «базальный» компонент генофонда Европы, который проявился при моделировании истории сложения генофонда Европы в работе [Lazaridis et al., 2014] (см. раздел 8.4, рис 8.20) — предковой евразийской группой, которая внесла свой большой вклад и в геном неолитических земледельцев. Из аналогичной по методам модели, созданной в рассматриваемой работе [Seguin-Orlando et al., 2014], следует (рис. 8.6), что в геном человека из Костенок эти таинственные «базальные евразийцы» внесли не менее важный вклад, чем и верхнепалеолитические западные евразийцы. Также из модели следует, что он имел и общих, хотя и более отдаленных предков с древними северными евразийцами восточного ствола.

В этих целях я решил использовать в качестве суррогата базального евразийского генома геном Mota (древнего жителя Африки), примерно половину генома которого составлял тот самый пресловутый базальный компонент (результат обратных миграций натуфийского населния Ближнего Востока в восточную Африки)

Итак, в начале используем программу qpWave из того же пакета Admixtools

parameter file: qpWave.par

THE INPUT PARAMETERS

##PARAMETER NAME: VALUE
indivname: data.ind
snpname: data.snp
genotypename: data.geno
popleft: left
popright: right
maxrank: 6

qp4wave2 version: 200

left pops:
Levant_N
Mota
WHG
EHG

right pops:
Han
Onge
Papuan
Kostenki14
Ust_Ishim
Siberian_Upper_Paleolithic

0 Levant_N 13
1 Mota 1
2 WHG 2
3 EHG 3
4 Han 33
5 Onge 15
6 Papuan 14
7 Kostenki14 1
8 Ust_Ishim 1
9 Siberian_Upper_Paleolithic 1
jackknife block size: 0.050
snps: 572603 indivs: 84
number of blocks for block jackknife: 719
dof (jackknife): 631.955
numsnps used: 177238
f4info:
f4rank: 0 dof: 15 chisq: 574.447 tail: 9.47752373e-113 dofdiff: 0 chisqdiff: 0.000 taildiff: 1

<cf4info:
f4rank: 1 dof: 8 chisq: 115.553 tail: 2.7408605e-21 dofdiff: 7 chisqdiff: 458.894 taildiff: 5.4614954e-95
B:
scale 1.000
Onge -0.475
Papuan -0.521
Kostenki14 0.069
Ust_Ishim -0.746
Siberian_Upper_Paleolithic 1.986
A:
scale 290.851
Mota -0.932
WHG 0.299
EHG 1.429

f4info:
f4rank: 2 dof: 3 chisq: 8.502 tail: 0.036691843 dofdiff: 5 chisqdiff: 107.050 taildiff: 1.7204978e-21
B:
scale 1.000 1.000
Onge -0.462 -0.050
Papuan -0.522 -0.105
Kostenki14 0.288 2.189
Ust_Ishim -0.733 0.378
Siberian_Upper_Paleolithic 1.973 -0.232
A:
scale 286.604 578.115
Mota -0.951 -1.197
WHG 0.385 0.752
EHG 1.396 -1.001

f4info:
f4rank: 3 dof: 0 chisq: 0.000 tail: 1 dofdiff: 3 chisqdiff: 8.502 taildiff: 0.036691843
B:
scale 1.000 1.000 1.000
Onge -0.400 -0.203 1.065
Papuan -0.459 -0.258 0.882
Kostenki14 0.299 2.175 0.273
Ust_Ishim -0.645 0.116 1.513
Siberian_Upper_Paleolithic 2.031 -0.382 0.850
A:
scale 282.949 595.536 1395.824
Mota -0.857 -1.172 0.944
WHG 0.466 0.827 1.449
EHG 1.431 -0.971 0.093

## end of run

Нас интересует статистика f4rank 2, и как видно она убедительна: chisq: 8.502 tail: 0.036691843 dofdiff: 5 chisqdiff: 107.050 taildiff: 1.7204978e-21.  То есть, для моделирования референсной популяции достаточно трех «источников» (в f4rank 3, т.е с 4 предковыми популяциями, статистика гораздо хуже: chisq: 0.000 tail: 1 dofdiff: 3 chisqdiff: 8.502 taildiff: 0.036691843 ).

Следующим этапом будет оценка пропорций «адмикса», образованного смешением трех «источников»:

 

parameter file: qpAdm.par

THE INPUT PARAMETERS

##PARAMETER NAME: VALUE
genotypename: data.geno
snpname: data.snp
indivname: data.ind
popleft: left
popright: right
maxrank: 8

qpAdm version: 200

left pops:
Belarusian
Mota
WHG
EHG
right pops:
Han
Onge
Papuan
Kostenki14
Ust_Ishim
Siberian_Upper_Paleolithic
0 Belarusian 25
1 Mota 1
2 WHG 2
3 EHG 3
4 Han 33
5 Onge 15
6 Papuan 14
7 Kostenki14 1
8 Ust_Ishim 1
9 Siberian_Upper_Paleolithic 1
jackknife block size: 0.050
snps: 572603 indivs: 96
number of blocks for block jackknife: 719
dof (jackknife): 628.796
numsnps used: 227599
codimension 1
f4info:
f4rank: 2 dof: 3 chisq: 20.724 tail: 0.000120097824 dofdiff: 5 chisqdiff: -20.724 taildiff: 1
B:
scale 1.000 1.000
Onge -0.502 0.176
Papuan -0.562 0.218
Kostenki14 0.442 2.074
Ust_Ishim -0.735 0.779
Siberian_Upper_Paleolithic 1.923 -0.110
A:
scale 285.645 552.926
Mota -1.490 -0.238
WHG 0.017 1.685
EHG 0.883 -0.324
full rank 1
f4info:
f4rank: 3 dof: 0 chisq: 0.000 tail: 1 dofdiff: 3 chisqdiff: 20.724 taildiff: 0.000120097824
B:
scale 1.000 1.000 1.000
Onge -0.502 0.178 0.403
Papuan -0.599 0.280 0.995
Kostenki14 0.455 2.029 -0.773
Ust_Ishim -0.773 0.879 1.373
Siberian_Upper_Paleolithic 1.893 0.008 1.168
A:
scale 288.199 555.700 1346.772
Mota -1.449 -0.056 0.947
WHG 0.026 1.726 0.141
EHG 0.948 -0.132 1.444
best coefficients: 0.318 0.148 0.534
ssres:
0.000295769 0.000789821 0.000059100 0.001247609 0.001271289
0.335431254 0.895733409 0.067025433 1.414909018 1.441765444

Jackknife mean: 0.316895017 0.150748678 0.532356305
std. errors: 0.035 0.067 0.045
error covariance (* 1000000)
1212 -1838 625
-1838 4506 -2668
625 -2668 2043
fixed pat wt dof chisq tail prob
000 0 3 20.724 0.000120098 0.318 0.148 0.534
001 1 4 125.483 0 -0.088 1.088 0.000 infeasible
010 1 4 25.750 3.55457e-05 0.378 0.000 0.622
100 1 4 102.973 2.28952e-21 0.000 0.702 0.298
011 2 5 336.445 0 1.000 0.000 0.000
101 2 5 127.950 6.47788e-26 0.000 1.000 0.000
110 2 5 184.757 0 0.000 -0.000 1.000
best pat: 000 0.000120098 - -
best pat: 010 3.55457e-05 chi(nested): 5.025 p-value for nested model: 0.0249831
best pat: 101 6.47788e-26 chi(nested): 102.201 p-value for nested model: 5.01661e-24

end of run

Итак, лучшими коэффициентам (пропорциями адмикса) являются 0.318 0.148 0.534. То есть референсная популяция белорусов может быть смоделирована как 30 % базального компонента, 15% компонента мезолитических охотников собирателей и 53% компонента жителей степи бронзового века («индоевропейцев»). Очевидно, что большая часть базального компонента попала в Европу вместе неолитическими земледельцами, а оставшаяся часть — была принесена индоевропейцами.

 

Формальный анализ модели смешивания предковых популяций: белорусы

Перед подготовкой релиза новых калькуляторов K16 и K11 на Gedmatch, я решил провести пилотный (пробный) анализ референсной популяции белорусов (в которую входят публичные образцы из  базы данных HumanOrigin, EGDP новой панели референсных геномов Эстонского биоцентра, а также данные белорусов — участников моего проекта MDLP). Основным инструментом формального анализа надежности модели будет известный и популярный пакет Admixtools.
Перед тем, как дать краткое описание первых шагов, хочу отметить трудности работы с Admixtools — в первую очередь, крайнее низкую степень документированности (описания) практических аспектов работы большинства входящих в пакет инструментов. Данное обстоятельство существенным образом снижает темп изучения этого все более популярного пакета (с другой стороны, похоже что лаконичность изложения задумывалась изначально, для отсеивания слабо мотивированных дилетантов-любителей). Второе обстоятельство, затрудняющее использование Admixtools, заключается в необходимости компилировать отдельные компоненты пакета.

Пакет содержит шесть программ

 

convertf: программа конвертирования форматов
qp3Pop: формальный анализ сигнала "смешивания" в трех популяциях
qpBound: программа, вычисляющая верхнюю и нижнюю границу смешивания в трех популяциях (2 референсные популяции и 1 одна популяция, предположительно образованная за счет смешивания двух референсных популяций) 
qpDstat: формальный анализ "адмикса" в 4 популяциях
qpF4Ratio: программа для определения пропорций адмикса за счет проведения 2 f4-тестов
rolloff:  программа датировки адмикса.

В приницпе, четкого порядка работы с этими программами нет, однако авторы рекомендуют следовать приведенному списку (т.е. начинать с qp3Pop и заканчивать rolloff)

Outgroup-статистика f3 является крайне полезным аналитическим инструментом для понимания взаимных отношений разных популяций: основная задача теста состоит в определении характера этих отношений. Образована ли целевая популяция (target) за счет смешивания двух рефересных популяций, или же  популяции представляют собой две простые ветви популяционного дерева человечества (т.е. в образовании таргетной популяций не участвовали референсные популяции)

Статистика f3, так же, как два других вида статистик — f4 и f2 — представляют собой меру корреляции частот аллелей между рассматриваемыми популяциями. Все эти виды статистик были введены в научный оборот попгенетики биоинформатиком Ником Паттерсоном в статье 2012 года.

Статистика f3 используется в двух целях:

  1. в качестве теста  сигнала «адмикса» двух популяций-источников (A и B) в «целевой популяции» (С)
  2. для измерения общего разделяемого дрейфа двух тестовых популяций  (А и В) по отношению к  внешней группе (С).


В этой публикации я приведу пример первого случая использования. Статистика f3 в обоих случаях определяется как произведение разниц частот аллелей  между популяции C, А и В, соответственно:

  1. F3=<(c-a)(c-b)>

Итак, первый случай употребления (для определения сигнала смешивания), белорусы выступают в качестве тестовой популяции, две референсные популяции образованы пермутацией имеющихся у меня популяций

Итак, промежуточные результаты (я выбрал только комбинации с негативным значением Z, свидетельствующие о сигнале смешивания) :

Следующий тип статистики — f4, — реализован в программе qpDstat в виде D-статистки. Это формальный тест адмикса четырех групп (таксонов или популяций), позволяющий определить направления потока вливания генов. Немного теории:

Для любых 4-х популяций (W, X, Y, Z), qpDstat вычисляет D-статистику следующего вида

num = (w — х) (у — z)
den = (w + х — 2wx) (у + z — 2yz)

D = num / den

Результат qpDstat показывает направления вливания генов. Таким образом, для 4 групп (W, X, Y, Z) верно следующее положение:

Если значение Z положительное ( + ), то обмен генами происходил либо между W и Y, либо между X и Z
Если значение Z отрицательное (-), то обмен генами происходил либо между W и Z,  либо между X и Y.

 Кроме определения направления генного дрейфа, очень важным практическим применением D-статистики служит определения «левых» и «правых» популяций для теста qpAdm (о нем чуть позднее). Так, например,  комбинация из двух первых популяций left {L,L}  и двух правых популяций {R, R} должна быть выбрана таким образом, чтобы значение Z в D-статистике
a) было неотрицательным, и b) имело высокое абсолютное значения.  Я решил последовать совету и сгенерировал 225822 комбинаций из четырех популяций {W,Y,X,Z}, где W — фиксированная первая таргетная популяция «левого» списка, в нашем случае белорусы, Y — одна из имеющихся групп палеогеномов, X и Z — пермутация из 16 «чистых» современных популяций описанных в работе Lazaridis et al. 2016.

Итак, вот результаты (и снова я не привожу полный список, а только те комбинации, которые могут быть использованы для выбора состава «левых» и «правых» популяций.  и последующего моделирования в qpAdm):

Этюд на тему ДНК-генеалогия.

Мой блог посвящен преимущественно тематике аутосомной ДНК, однако время от времени я затрагиваю тему однородительских маркеров происхождения (Y-ДНК и митоДНК).  Начну заметку издалека.
Среди обывателей села Стахова бытует легенда, о том, что род Вереничей пришли на земли пинского Полесья из Югославии.К сожалению, как и в большинстве подобных легенд, cовершено невозможно разобраться в том, где правда, а где позднейшие выдумки. Так и в этом случае. Ни в одном из имеющихся e меня исторических документах нет даже и намека на балканское происхождение Вереничей. Даже в самых ранних документах (например, в «Ревизии пущ и переходов звериных в бывшем Великом княжестве Литовском с присовокуплением грамот и привилегий на входы в пущи и на земли, составленной старостою мстибоговским Григорием Богдановичем Воловичем в 1559 г. «, или в «Писцовой книге Пинского староства Лаврина Воина, 1561—66«) уже видно, что даже в то время род Вереничей на Полесье считался «издавним«.



Так в ревизии Воловича (1559 года) читаем, что

«Павел Веренич на дворище у Стохови жъ не покладалъ листовъ, только давность, и на другое дворище у Дубой».


Слово давность означает существование в течение долгого времени, издревле, искони. Происходящие от корня этого слова прилагательные и наречия попадаются в разных актах с конца XIII века. Как юридический термин существительное <давность> употреблялось уже весьма рано в западнорусском законодательстве; собственно же в России оно появляется в виде термина лишь с XVIII века. Выражение земская давность было юридическим термином в Литовском Статуте, из которого заимствовано русским законодательство.

 



В строго юридическом смысле срок давности владения определялся десятью годами. Впрочем, здесь давность может употребляться в другом значении. Так, в актовых материалах все той же «Ревизии пущ и переходов звериных в бывшем Великом княжестве Литовском с присовокуплением грамот и привилеев на входы в пущи и на земли, составленная старостою мстибогским Григорием Богдановичем Воловичем» в числе прочих землевладельцев Пинского повета упомянуты Грынь Веренич с братом Павлом «с имений своих стародавних [т.е. с незапамятных времен] военную службу служащих«. Судя по этому, Вереничи могли появится в Стахове уже в середине 15 века, если не раньше.
Когда, откуда, и при каких обстоятельствах — обо всем этом известные мне историко-юридические источники умалчивают. Более поздние документы не только не дают ответа на эти вопросы, а скорее еще больше запутывают ситуацию. Так например в «Выводе фамилии урожденных Стаховских придомка Веренич» (Год 1802 Месяца ноября двадцать второго дня на на сессии Депутации выводовой Губернии Минской) читаем следущее:

«Принесена была просьба от фамилии древней родовитой панской шляхты урождённых Вереничей Стаховских герба “Огончик” (пол-стрелы белой на половине перстня стоящей, в поле красном, над шлемом две женские руки вытянутые вверх) которая на наследственных землях и осадах в повете пинском лежащих от найяснейшых времён королевства Польского, прерогативами шляхетства пользовалась, и клейнотом родовитости неискаженно и непрерывно пользовались. [стр. 616] В потверждение указов найяснейшей воли – линия родословной своей вместе с документами перед депутацией выводовой губернии Минской составлена, потверждена доводами и внесена в дворянские книги Минской губернии в соответстии с законом.Родословие своего дома разделили на две линии. Дух родных братьев Семена и Дмитрия Вереничей Стаховских за родоначальников взяли, и от них до себя довели. И правдивость этого они через доказательства и документы следующим порядком довели. Семен и Дмитрий Вереничи Стаховские братья между собой родные. В повете Пинском осели и дали начало своему роду и фамилии. И в подтверждение своего первого поколения они предъявили привилегию от наияснейшего короля польского Сигизмунда Августа за год тысяча пятьсот шестьдесят шестой от июня двадцатого дня где, между другими для шляхты пинской пожалованиями за военную службу выше упомянутым Семену и Дмитрию Вереничам Стаховским земли в наследственное владение в повете Пинском лежащими дворища Веренича в Стахове и Дубой называющееся им и потомкам их пожаловал…»

Содержание начала текста весьма типично для подобных документов, но здесь нет сведений о точном времени появления Вереничей в Стахове, не говоря уже о явных хронологических несуразицах, которые я разбирал в другой заметке.

  1. Во-первых, под «привелем» 1566 года понимается общий «привилей» Сигизмунда-Августа, данные всей пинской шляхте в подтверждение их землевладельческих и шляхецких прав.
  2. Во-вторых, Семен и Дмитрий жили не в 1566 году, а как минимум на сто лет раньше — около 1456-1466 годов. В доказательство верности моих вычислений можно привести следующие аргументы. В решении судей Главного Трибунала ВКЛ от 1637 года упоминается о привелее кн. Марии Семеновны (+1501) ( в документе ошибочно указано Ярославовны) и ее сына кн. Василия Семеновича (+1495) от 6998 года индикта 8 (1490 года согласно современному летоисчислению), в котором подтверждается совместное владение Волошиным (sic!) Павлом и Ходором Вереничами даниной своей бабки в селе Тупчицы, Согласно родословной, Павел — сын Дмитрия и племянник Семена. В следующем по времени привилее кн. Федора Ивановича Ярославича от 26 апреля 1514 данном дочерям Антона (Андрей?) Дмитриевича Веренича потдверждается их вотчинное права на земли пожалованные их отцу в Стахове, Дубое и Тупчицах. Очевидно, Антон(или Андрей) — тоже сын Дмитрия, и более того, в 1514 году его дочери были уже совершеннолетними.
  3. В-третьих, в переписе войска литовского 1528 года упомянут пинский боярин Верениш (sic!), который служил «сам со своего имения». Далее, из судебного дела от 26 марта 1543 года по иску Пашки Павлова и его братьи Игнатия и Гаврила к Ваське Лозичу, который унаследовал по своей жене Ульяне Лукашевичевой Веренич часть имений Дубой и Стахово. мы узнаем, что в 1543 году внуки Дмитрия (Пашко Павлович и его двоюродные братья Гавриил и Игнат Васильевич) были уже взрослыми, так же как и покойная Ульяна Лукьяновна (дочь Лукьяна Семеновича, внучка Семена Веренича), после смерти которой третья часть дворища Веренич в Дубое и дворища Веренич в Стахово перешла к Ваське Лозичу.

 



Далее, в 1554 году — за 12 лет до указанной в привелее даты — в материалах, собранных в ходе ревизии пущ и переходов лесных -упомянуются Грынь Веренич с (троюродным) братом Павлом с имений своих стародавных военную службу служащих. Как известно, Грынь — внук Семена, а Павел или Пашко — внук Дмитрия. О самих Семене и Дмитрии ни слова, хотя если бы они жили в это время, то скорее всего именно они или их сыновья были бы записаны как старшие в своем роду, но никак не их внуки.В 1559 году, по все той же ревизии Воловича, в числе земян Стаховских опять упоминается Павел Веренич, правда, уже без Гриня. В тексте четко сказано, что Павел не покладал листов (т.е. не предъявил привелея), только давность на дворище у Стахова и другое дворище у Дубоя. Поскольку большую часть книги Воловича составляют привелеи, выданные или подтвержденные королевой Боной, следовательно, от Боны Вереничи привлеев не получали, по крайней мере, на земли в Дубое и Стахове.Все вышесказанное означает, что уже задолго до 1566 года Вереничи владели своими дворищами и землями на основании вотчинного права, и что феодальные права Вереничей на эти земли восходят — как минимум -временам кн. Марии Семеновны и ее сына Василия (то есть к периду между 1475-1490 гг).


Реконструкция позволяет очертить интервал появления Вереничей в Стахове — но с обстоятельствами появления по-прежнему нет никакой ясности. Поскольку скудные исторические свидетельства обходят  этот вопрос сторонй, то можно обратиться к преданиями. Среди старожилов села Стахова якобы сохранилось следующее якобы древнее предание:


Когда-то, давным-давно, жил на Полесье князь Карачинский (sic!). В его владениях находился большой дремучий бор, около которого проходил торговый шлях. По прошествии времени, в этом бору поселилось 100 половцев, которые совершали нападения на проезжающих купцов и селян. Князь, прослышав о разбойниках, повелел своим «палявничим» (охотникам) узнать, где находится разбойничье логово. Один из охотников решил проследить путь до логово половцев и стал делать топором зарубки на деревьях. Услышав стук топора, войны князя отправились в сторону, где раздавалось эхо стука топора. Таким образом, они вышли прямиком на логово разбойников и истребили их. В награду за верную службу, князь наградил находчивого охотника землям, где находился стан половцев. Охотник постоянно носил с собой «Ксендз Лаврентий Янович, каноник венденский, в своей речи на погребении Элжбеты с Стаховских Каренжины, жены вилькомирского судьи, изданной в сборнике «Золотой улов на реках и водах смертности сего мира и т.д» (Вильно 1665 г.) размещает следущее предание, относящиеся к истории Стахова.: «Князь Карачевский, владелец обширных волостей, лежащих на Пинщине, крайне скудными силами 100 половцев положил трупами и на там же месте похоронил, как и по ныне свидетельсвтуют о том курганы того места. За это мужесто правящий князь ему отдал в удел это поле, а также столько земли, сколько мог объять звонкий звук трубы. Отсель то земельное надание стало называтся Стоховым, потому что там похоронено сто убитых врагов.» (веренька, вярэнька), и поэтому его прозвали Веренькой. Его потомки приняли прозвище родоначальника в качестве фамилии.


К сожалению, изучение этого предания показывает его недавнее происхождение. Скорее всего, оно выписано из 9-го тома «Полного географического описания нашего отечества» изданного в 1905 году В.П.Семеновым-Тян-Шанским , куда, в свою очередь перекочевало из известного издания «Słownik geograficzny Królestwa Polskiego» изданного в 1880–1902 гг., а именно из 11 тома, в котором на стр.171-172 была размещена довольно объемная статья Александра Ельского и Эдварда Руликовского о Стахове. Именно с подачи Руликовского в этой статье была размещена выписка из издания 17 века:

«Ксендз Лаврентий Янович, каноник венденский, в своей речи на погребении Элжбеты с Стаховских Каренжины, жены вилькомирского судьи, изданной в сборнике «Золотой улов на реках и водах смертности сего мира и т.д» (Вильно 1665 г.) размещает следущее предание, относящиеся к истории Стахова: «Князь Карачевский, владелец обширных волостей, лежащих на Пинщине, крайне скудными силами 100 половцев положил трупами и на там же месте похоронил, как и по ныне свидетельствуют о том курганы того места. За это мужесто правящий князь ему отдал в удел это поле, а также столько земли, сколько мог объять звонкий звук трубы. Отсель то земельное надание стало называтся Стоховым, потому что там похоронено сто убитых врагов.»

 


В приведенном отрывке приводится родословное предание рода Стаховских герба Огоньчик, (проживавшего в мстиславском, виленском, новогрудском и пр. воеводствах ВКЛ), генеалогическая связь которого с Вереничами пока никак не проясняется. Главным фигурантом здесь выступает князь Карачевский (которого, видимо, Cтаховские считали своим предком), а вовсе не «охотник с сумкой из бересты». Можно с уверенностью сказать, что «легенда старожилов» Стахова появилась самое ранее в начале 20 века в среде «грамотеев» села Стахове как результат переосмысления текста статьи их энциклопедического справочника,  а затем объединения легенды об основании Стахова с народной этимологии фамилии Веренич.



Итак, и этот источник не дал нам ничего ценного. Поскольку возможности документальной генеалогии на этом этапе практически исчерпываются (и открытие новых источников вряд ли предвидится), остается обратится к новой отрасли — ДНК-генеалогии.

Генетическая генеалогия использует ДНК-тесты совместно с традиционными генеалогическими методами исследования. Каждый человек несёт в себе своего рода «биологический документ», который не может быть утерян — это ДНК человека. Методы генетической генеалогии позволяют получить доступ к той части ДНК, которая передаётся неизменной от отца к сыну по прямой мужской линии — Y-хромосоме. ДНК-тест Y-хромосомы позволяет, например, двум мужчинам определить, разделяют ли они общего предка по мужской линии или нет. ДНК-тесты не просто помощь в генеалогических исследованиях — это современный передовой инструмент, который генеалоги могут использовать для того, чтобы установить или опровергнуть родственные связи между несколькими людьми.

Итак, в 2008 году узнал свою Y-хромосомную гаплогруппу (I2a). Немного терминологии для читателей, далеких от науки:

Гаплогруппа (в популяционной генетике человека — науке, изучающей генетическую историю человечества) — группа схожих гаплотипов, имеющих общего предка, у которого в обоих гаплотипах имела место одна и та же мутация — однонуклеотидный полиморфизм.

 

 

Позднее протестировались еще 2 Веренича, и наши гаплогруппы совпали, что подтверждается достоверность официальной родословной. Казалось бы, после всех усилий, можно было бы легко определить ареал, откуда появились предки Вереничей (очевидно, что это ареал с наибольшей частотой или наибольшим разнообразием гаплогруппы I2a). На поверку же все оказалось гораздо сложнее. Географический ареал гаплогруппы I2a (вернее ее восточноевропейской, «динарской» ветви) характеризуется бимодальным распределением — в восточной Европе они приходятся на регион Полесье-Карпаты и на регион Балкан (с макисмальной частотой в Боснии-Герцеговине).

По иронии cудьбы, именно с этими двумя регионами связаны две наиболее вероятные версии происхождения Вереничей. Таким образом, знание одной лишь корневой гаплогруппы мне, по большому счету, не помогло ни подтвердить, ни опровергнуть одну из этих альтернативных версий.

Тупиковая ситуация изменилась лишь после того, как один из Вереничей сделал полный сиквенс Y-хромосомы (BigY в FTDNA). Благодаря ему удалось достаточно точно позиционировать расположение нашей ветви-кластера внутри общей структуры филогенетического дерева I2a.Благодаря присутствию Y-хромосомного сиквенса (YF03602) представителя рода Вереничей в базе данных yfull.com (спасибо за помощь Vladimir Semargl и Vadim Urasin) представляется возможным оценить возраст моего кластера. На настоящий момент в него входит еще один полный сиквенс Y-хромосомы (YF04188), о хозяине которого мне ничего неизвестно.

Возраст линии Вереничей оценивается в 1438 лет до настоящего времени, линии YF04188 — всего лишь в 546 лет.По расчету снип-мутаций возраст I-Y17665 (и возможно I-A7318) оценивается примерно в 1000 лет (т.е. временами Киевской Руси), а возраст родительской ветви A1328 в 1850 лет до настоящего времени (начало нашей эры). Возраст, определенный по снипам, указывает на время выделения ветви I-A1328, хотя возраст последнего общего предка (определенный по значениям других маркеров Y-хромосомы) чуть ниже -1400 лет (т. е примерно 5-6 века нашей эры). То есть ветвь моих прямых предков в это время прошла пресловутое бутылочное горлышко, сопровождаемое, как правило, падением числа представителей линии и уменьшением разнообразия.

Здесь начинается самое интересное.



Недавно, зайдя на сайт проекта I2a в FTDNA, я обнаружил результаты некоего Враньешевич из Черногории. Я бы не обратил на него внимание, если бы он не попал в тот же кластер, что и я (в этот кластер входит ветвь Вереничей, гаплогруппа (I2-A7318, т.е подветвь I-A1328)).Я решил рассчитать возраст I-A1328 с помощью калькулятора semargl.me и стандартных для набора 37 маркеров скорости мутации. К сожалению, в базе данных Semargl немного гаплотипов из конкретно моего кластера и ближайщих к нему братских кластеров. В общем возраст, по ASD методу получилось что возраст моего кластераI (Y17665) — 1050 лет, а при подключении (в качестве outgroup) гаплотипа из I-A1328* возраст кластера I-A1328* составил примерно 1850 лет. То есть, это верхний интервал временного промежутка, когда мог жить последний мой общий предок (MRCA) и Враньешевича.

I2a2 ‘Dinaric’ ..L621>CTS10228>S17250>Y4882>A1328>A7318 (I-A7318)

568 362501 Verenich Werenicz,Werenich,Verenich,Werenitz,Stachowski. Belarus I-A7318

I2a2 ‘Dinaric’ ..L621>CTS10228>S17250>Y4882>A1328 (I-A1328)
564 E13120 Vranjesevic Vranjesevic Milan-Mico, birth 1913, death 1992 Bosnia and Herzegovina I-A1328


Нижний интервал можно определить с помощью калькулятора McDonald. Для вычисления дистанции в годах я сравнил значения 67-маркерного гаплотипа одного из Вереничей с аналогичными маркерами гаплотипа Враньешевича. 10 маркеров имеют другое значения. Получается разница в 10 маркеров на 67 маркерных гаплотипах.

Generations Probability Cumulative
1 0.000000 0.000
2 0.000000 0.000
3 0.000000 0.000
4 0.000004 0.000
5 0.000022 0.000
6 0.000091 0.000
7 0.000279 0.000
8 0.000699 0.001
9 0.001495 0.003
10 0.002825 0.005
11 0.004827 0.010
12 0.007592 0.018
13 0.011137 0.029
14 0.015396 0.044
15 0.020223 0.065
16 0.025408 0.090
17 0.030697 0.121
18 0.035824 0.157
19 0.040537 0.197
20 0.044616 0.242
21 0.047893 0.290
22 0.050258 0.340
23 0.051662 0.391
24 0.052111 0.444
25 0.051660 0.495
26 0.050401 0.546
27 0.048451 0.594
28 0.045943 0.640
29 0.043014 0.683
30 0.039796 0.723
31 0.036412 0.759
32 0.032973 0.792
33 0.029568 0.822
34 0.026274 0.848
35 0.023146 0.871
36 0.020225 0.891
37 0.017537 0.909
38 0.015097 0.924
39 0.012906 0.937
40 0.010961 0.948
41 0.009252 0.957

 

14202591_10210357856572557_5019604267960638228_n-1 14199500_10210357943174722_1769976137139415870_n

Пик гистограммы приходится на интервал между 21-30 поколениями, начиная с 26 поколения кумулятивная вероятность родства достигает убедительных значений достигая 0.95 в 41 поколении. Т.е. нижняя граница приходится примерно интервал в 600-1025 лет до настоящего времени — другими словами между 15 и 10 веками нашей эры.

Разумеется, c генеалогической точки зрения, исследование нижнего интервала (с общим предков в 14-15 веках нашей веры) более перспективен, тем более что я проследил свою прямую мужскую линию до 19 поколения.

Но насколько возможен факт наличия общего прямого мужского предка белоруса и черногорца в 21-30 поколениях? Дает ли генеалогия Вереничей предпосылки для такого утверждения? Прямых предпосылок, разумеется, нет.


Зато есть соображение ономастического характера. Один из сыновей второго родоночальника — Дмитра — Василь носил прозвище Волошин — так обычно в русских землях называли валахов, хотя часто прозвище Волошин не имело этнической коннотации и могло выступать в качестве отыменного прозвища: например, Володшин cын -> Волошин или Власий -> Волос -> Волошин. Наконец, составитель документа или переписчик мог сделать обычную описку. Впрочем, последнее опровергает существование 2 топонимов в окрестностях Стахова — урочища и острова Волошиново — причем именно там находились в 16-17 веках владения потомков Дмитра Веренича (старшим сыном которого являлся Василь Волошин). Кстати, любопытно отметить, что иногда в документах 16 века фамилия Веренич записывается не с окончанием —ч, а с более традиционным для южных славян окончанием — ш (Верениш)

А как же тогда быть с Вранешьевичем? Какое отношение он может иметь к валахам?

Лет 8 тому назад я порылся в исторических документах и обнаружил, что похожая фамилия Вранчич (в хорватском произношении Веранчич) действительно существовала на территории так называемого царства Сербия. После фактического распада Сербского царства (около 1366-1371 года), часть Вранчичей переселилось в Южную Сербию и Черногорию (где потомок Вранчичей воевода Радич Црноевич основал династию Црноевичей, которая в 15 веке праваила Зетой и Черногорией), другая перешла на службу к усилившемуся после падения «црства Српскаго» боснийскому королю Стефану Твртко I, который в 1370 и 1389 годах принял титул короля сербов, Боснии (1379) , Далмации и Хорватии (1389). Эти боснийские Вранчичи после падения Боснии (1463 год) под ударами турков частью переселились в Далмацию (г.Шибеник), которая с1420 была под венецианским владычеством, другая переселилась на границу Герцеговины и Черногории, где владели под турками «хематом» Вранеш, названого так в честь «валашского» князя Херака Вранеша (Вранеш — это герцеговинское диалектное видоизменение имени Вранчич).»Из возможных потомков Вранчичей, оставшихся в восточной Боснии и Герцеговине, особого внимания заслуживает «влашский» (sic!) кнез Херак (Владиславич?) Враньеш.

Казалось бы, вышеприведенные рассуждения выглядят убедительно. На самом же деле, остается главная проблема — дело в том, что фактически на протяжении 14-17 веков неизвестно никаких миграций жителей Балкан и влахов на территорию Полесья. Да, действительно была т.н. валашская колонизация, но она затрагивала главным образом территорию юго-западной Украины (прежде всего «червонной Руси» и «любельской земли», т.е. земли вокруг Львова, Звенигорода, Галича, Теребовля, Санока, Кросно, Белза, Замосця, Холма (Хелма). Причем интенсивность расселения «валахов» даже в этих регионах резко уменьшалось по мере продвижения на север (см. приложенную ниже карту).

14212036_10210384176630542_5840107323456791924_n

Например, на ближайшей к Полесью Волыни встречаются лишь фрагментарные упоминания бояр «Волошинов» в документах Метрики Литовской начала 16 века — они касаются пожалования земель в кременецком повете, т.е на рубеже ВКЛ и русского воеводства короны Польской (причем многие из этих «волошинов» носят чисто румынские имена Негое, Урсул и так далее). Такой же фрагментарный характер носят и земельные пожалования «волошинам» и на Подолье. И уж совсем единичные упоминания Волошинов мы находим в документах Метрики Литовской, касающихся земель современной Беларуси. Правда, на Брестчине одна семья «волошинов» — Ходько, Зань и Васько — получила в начале 16 века привелей на имение Чернско (от них происходит род Черских в брестском воеводстве, который вымер в 17 веке).

ALDER анализ происхождения белорусов и поляков

В качестве одного из метода проверки надежности импутированных снипов для анализа популяционной истории различных этнических групп, я использовал метод ALDER (он представляет собой более продвинутую версию алгоритма ROLOFF, описанного в известной работе Patterson et al. 2012).

Метод ALDER  выявляет нюансы популяционной истории через оценку двух важных параметров: а) рекомбинации — процесса обмена участками между разными молекулами ДНК, который напоминает перемешивание игральных карт в колоде (у человека он обязательно происходит при образовании половых клеток) и б) неравновесия по сцеплению — явления, при котором несколько участков ДНК передаются вместе блоками, которые формируются несколько по-разному в разных популяциях из-за того, что в разных популяциях наследуются разные комбинации сегментов ДНК. Таким образом, метод основан на выявлении специфических для каждой популяции сцепленных участков ДНК и на оценке доли общих сегментов в выборках сравниваемых популяций. При этом метод ALDER на основе оценки неравновесия по сцеплению определяет правдоподобность того, что две выбранные группы являются предковыми по отношению к анализируемым популяциям. Кроме того, метод позволяет также установить время смешения через оценку доли рекомбинаций на поколение.
Как было сказано выше, метод ALDER представляет собой расширенный вариант алгоритма ROLLOFF.Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатура LD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории,  чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения  LD в адмиксе напрямую связана с числом поколений, прошедших с момента адмикса,  так как c возрастанием числа поколений увлечивается число рекомбинаций произошедших между  двумя отдельными SNP-ами. Проще говоря: Rolloff соответствует экспоненциальной кривой угасания уровня LD от расстояния, и эта скорость экспоненциального снижения как раз и используется  для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.В качестве двух тестовых популяций я использовал две группы — выборку белорусов (данные публичной коллекции эстонского биоцентра, вошедшие позднее в стандартный набор популяций лаборатории Райха, а также данные белорусов, собранные мной в проекте MDLP) и выборку поляков (из публичной коллекции эстонского биоцентра, а также данные поляков из выборки моего проекта MDLP).   В 2012 году я уже проводил анализ ROLLOFF белорусов, поэтому было интересно посмотреть, как изменится картина после добавления новых палеогеномов и импутированных (негенотипированных) снипов. Для полноты эксперимента, я также включил данные поляков, чтобы посмотреть, работает ли метод на данных, полученных с помощью других платформ генотипирования (NB:когда я проводил анализ, у меня еще не было данных поляков из кураторской базы данных лаборатории Reich).

В качественных референсных популяций (кандидатов в предковые популяции) я использовал набор из 400 популяций в моей расширенной выборки.  Программа работает в три этапа:

  • На первом этапе определяется статистическая значимость сравнения амплитуд угасания 2-референсной LD(в случае наличия такой значимость программа пишет success)

Cледующие комбинации дали положительный результат

Belarusian Andronovo.SG Chukchis
Belarusian Andronovo.SG Koryaks
Belarusian Armenian_Martuni Karelia_HG
Belarusian Bashkir Turkish_Jewish
Belarusian Nordic_LN.SG Villabruna
Belarusian Turkish_Jewish Uzbek
Belarusian Anatolia_Neolithic Brahui
Belarusian Anatolia_Neolithic Burusho
Belarusian Anatolia_Neolithic Itelmen
Belarusian Anatolia_Neolithic Koryak
Belarusian Anatolia_Neolithic Mixtec
Belarusian Anatolia_Neolithic Pathan
Belarusian Anatolia_Neolithic Mala
Belarusian Anatolia_Neolithic Turkmen
Belarusian Anatolia_Neolithic Uygur
Belarusian Druze Selkup
Belarusian Mala Syrian
Belarusian Mixtec Spain_EN
Belarusian Anatolia_Neolithic Brahui
Belarusian Anatolia_Neolithic Burusho
Belarusian Anatolia_Neolithic Chukchi
Belarusian Anatolia_Neolithic Selkup
Belarusian Anatolia_Neolithic Sindhi
Belarusian Anatolia_Neolithic Uygur
Belarusian British-Roman Koryak
Belarusian British-Roman Mixtec
Belarusian Chukchi Mala
Belarusian Itelmen Uzbek_WGA
Belarusian LBK_EN Selkup
Belarusian Selkup Turkish_Trabzon
Belarusian Abhkasian Lahu
Belarusian Ami_Coriell Uzbek_WGA
Belarusian Anatolia_Neolithic Chukchi
Belarusian Anatolia_Neolithic Daur
Anatolia_Neolithic Han
Anatolia_Neolithic Han_NChina
Anatolia_Neolithic Miao
Anatolia_Neolithic Turkmen
Belarusian Atayal_Coriell Uzbek_WGA
Belarusian British-Roman Mixtec
Belarusian Chukchi Mala
Belarusian Dai Greek_Islands
Belarusian Dai Uzbek_WGA
Belarusian Daur North_Ossetian
Belarusian Daur Uzbek_WGA
Belarusian Eskimo_Chaplin LBK_EN
Belarusian Georgian Lahu
Belarusian Georgian Yi
Belarusian Greek_Islands Han
Belarusian Greek_Islands Miao
Belarusian Greek_Islands Mixtec
Belarusian Greek_Islands Nganasan
Belarusian Greek_Islands Ulchi
Belarusian Greek_Islands Xibo
Belarusian Han Uzbek_WGA
Belarusian Han Yemenite_Jew
Belarusian Han_NChina Uzbek_WGA
Belarusian Han_NChina Yemenite_Jew
Belarusian Japanese Uzbek_WGA
Belarusian Korean Uzbek_WGA
Belarusian Lahu Turkish_Jew
Belarusian Lahu Uzbek_WGA
Belarusian Lahu Yemenite_Jew
Belarusian LBK_EN Selkup
Belarusian Miao Uzbek_WGA
Belarusian Miao Yemenite_Jew
Belarusian Naxi Uzbek_WGA
Belarusian Oroqen Uzbek_WGA
Belarusian She Uzbek_WGA
Belarusian Tu Uzbek_WGA
Belarusian Tujia Uzbek_WGA
Belarusian Tujia Yemenite_Jew
Belarusian Ulchi Uzbek_WGA
Belarusian Uzbek_WGA Xibo
Belarusian Uzbek_WGA Yi
Belarusian Uzbek_WGA Yukagir_Tundra
Belarusian Yemenite_Jew Yi
  • На втором — cоответствие скоростей угасания LD в попарном сравнении с референсными популяциями (программа выдает предупреждение, если амплитуды угасания LD несовместимы).  Как видно, большинство триплетов (таргетная популяция + 2 референса) имеет несовместимые амплитуды угасания LD.

DATA: success (warning: decay rates inconsistent) 0.028 Belarusian Andronovo.SG Chukchis 4.64 2.80 2.11 85% 244.96 +/- 44.45 0.00055485 +/- 0.00011964 262.22 +/- 50.30 0.00029724 +/- 0.00010632 105.99 +/- 50.22 0.00013405 +/- 0.00003707
DATA: success (warning: decay rates inconsistent) 3.8e-05 Belarusian Andronovo.SG Koryaks 5.86 2.80 2.36 85% 241.36 +/- 36.30 0.00059837 +/- 0.00010219 262.22 +/- 50.30 0.00029724 +/- 0.00010632 105.75 +/- 44.80 0.00011083 +/- 0.00002791
DATA: success (warning: decay rates inconsistent) 0.037 Belarusian Armenian_Martuni Karelia_HG 4.58 2.20 3.48 53% 206.14 +/- 39.11 0.00072944 +/- 0.00015918 324.91 +/- 90.64 0.00018302 +/- 0.00008311 189.01 +/- 42.42 0.00043186 +/- 0.00012423
DATA: success (warning: decay rates inconsistent) 0.044 Belarusian Bashkir Turkish_Jewish 4.55 2.70 2.53 83% 121.78 +/- 24.93 0.00009384 +/- 0.00002064 153.64 +/- 48.19 0.00006384 +/- 0.00002366 296.25 +/- 73.05 0.00014988 +/- 0.00005929
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Nordic_LN.SG Villabruna 4.54 2.19 5.01 30% 160.01 +/- 35.24 0.00086280 +/- 0.00018037 139.86 +/- 63.88 0.00033916 +/- 0.00014340 117.88 +/- 23.51 0.00043952 +/- 0.00008295
DATA: success (warning: decay rates inconsistent) 0.0032 Belarusian Turkish_Jewish Uzbek 5.07 2.53 2.35 112% 116.58 +/- 23.00 0.00008493 +/- 0.00001382 296.25 +/- 73.05 0.00014988 +/- 0.00005929 83.46 +/- 35.51 0.00004275 +/- 0.00001721
DATA: success (warning: decay rates inconsistent) 0.0066 Belarusian Anatolia_Neolithic Brahui 4.18 4.42 2.87 37% 63.78 +/- 15.17 0.00000803 +/- 0.00000192 92.46 +/- 19.49 0.00001427 +/- 0.00000323 88.94 +/- 27.82 0.00000775 +/- 0.00000270
DATA: success (warning: decay rates inconsistent) 0.019 Belarusian Anatolia_Neolithic Burusho 3.93 4.42 2.19 47% 93.43 +/- 9.05 0.00001536 +/- 0.00000390 92.46 +/- 19.49 0.00001427 +/- 0.00000323 149.25 +/- 37.02 0.00001357 +/- 0.00000621
DATA: success (warning: decay rates inconsistent) 0.035 Belarusian Anatolia_Neolithic Itelmen 3.79 4.42 2.15 64% 69.11 +/- 15.92 0.00002889 +/- 0.00000762 92.46 +/- 19.49 0.00001427 +/- 0.00000323 134.23 +/- 58.31 0.00003278 +/- 0.00001523
DATA: success (warning: decay rates inconsistent) 0.023 Belarusian Anatolia_Neolithic Koryak 3.90 4.42 2.30 30% 82.94 +/- 21.28 0.00003363 +/- 0.00000828 92.46 +/- 19.49 0.00001427 +/- 0.00000323 111.83 +/- 48.56 0.00002562 +/- 0.00000985
DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.90 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Mixtec 3.87 4.42 2.73 71% 71.36 +/- 14.69 0.00003027 +/- 0.00000782 92.46 +/- 19.49 0.00001427 +/- 0.00000323 149.36 +/- 43.83 0.00002944 +/- 0.00001080
DATA: success (warning: decay rates inconsistent) 0.019 Belarusian Anatolia_Neolithic Pathan 3.93 4.42 2.02 42% 104.78 +/- 14.08 0.00001497 +/- 0.00000380 92.46 +/- 19.49 0.00001427 +/- 0.00000323 141.03 +/- 36.42 0.00001165 +/- 0.00000577
DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success (warning: decay rates inconsistent) 0.026 Belarusian Anatolia_Neolithic Uygur 3.87 4.42 2.54 56% 71.95 +/- 14.95 0.00001528 +/- 0.00000395 92.46 +/- 19.49 0.00001427 +/- 0.00000323 127.39 +/- 37.67 0.00001541 +/- 0.00000606
DATA: success (warning: decay rates inconsistent) 0.02 Belarusian Druze Selkup 3.93 2.02 3.14 73% 51.53 +/- 13.06 0.00001224 +/- 0.00000311 110.46 +/- 43.38 0.00001040 +/- 0.00000516 59.53 +/- 18.98 0.00000945 +/- 0.00000299
DATA: success (warning: decay rates inconsistent) 0.044 Belarusian Mala Syrian 3.73 3.87 2.84 28% 72.39 +/- 19.33 0.00000805 +/- 0.00000216 87.55 +/- 18.75 0.00001071 +/- 0.00000277 96.31 +/- 27.52 0.00000993 +/- 0.00000350
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Mixtec Spain_EN 3.85 2.73 2.67 26% 114.65 +/- 21.37 0.00005462 +/- 0.00001417 149.36 +/- 43.83 0.00002944 +/- 0.00001080 117.07 +/- 30.31 0.00002193 +/- 0.00000820
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Anatolia_Neolithic Brahui 3.70 3.45 2.55 32% 63.07 +/- 15.18 0.00000871 +/- 0.00000235 81.39 +/- 21.48 0.00001207 +/- 0.00000349 87.19 +/- 27.66 0.00000771 +/- 0.00000303
DATA: success (warning: decay rates inconsistent) 0.039 Belarusian Anatolia_Neolithic Burusho 3.74 3.45 2.00 61% 89.47 +/- 10.12 0.00001582 +/- 0.00000423 81.39 +/- 21.48 0.00001207 +/- 0.00000349 152.62 +/- 45.80 0.00001482 +/- 0.00000742
DATA: success (warning: decay rates inconsistent) 0.0013 Belarusian Anatolia_Neolithic Chukchi 4.52 3.45 2.79 35% 77.64 +/- 16.37 0.00003602 +/- 0.00000797 81.39 +/- 21.48 0.00001207 +/- 0.00000349 110.36 +/- 39.54 0.00002861 +/- 0.00000981
DATA: success (warning: decay rates inconsistent) 0.038 Belarusian Anatolia_Neolithic Selkup 3.74 3.45 2.41 38% 55.27 +/- 13.63 0.00002155 +/- 0.00000576 81.39 +/- 21.48 0.00001207 +/- 0.00000349 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Anatolia_Neolithic Sindhi 3.83 3.45 2.68 61% 65.40 +/- 9.12 0.00001072 +/- 0.00000280 81.39 +/- 21.48 0.00001207 +/- 0.00000349 122.70 +/- 32.60 0.00001132 +/- 0.00000423
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.00000250 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Uygur 3.85 3.45 2.16 37% 70.37 +/- 13.51 0.00001582 +/- 0.00000411 81.39 +/- 21.48 0.00001207 +/- 0.00000349 102.34 +/- 33.39 0.00001107 +/- 0.00000512
DATA: success (warning: decay rates inconsistent) 0.021 Belarusian British-Roman Koryak 3.89 2.37 2.28 74% 62.36 +/- 16.01 0.00003903 +/- 0.00000934 52.03 +/- 19.63 0.00002305 +/- 0.00000974 113.23 +/- 49.75 0.00002665 +/- 0.00001027
DATA: success (warning: decay rates inconsistent) 0.0084 Belarusian British-Roman Mixtec 4.11 2.37 2.50 80% 64.78 +/- 15.52 0.00004703 +/- 0.00001145 52.03 +/- 19.63 0.00002305 +/- 0.00000974 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success (warning: decay rates inconsistent) 0.01 Belarusian Chukchi Mala 4.06 2.79 4.06 60% 172.83 +/- 30.55 0.00002691 +/- 0.00000663 110.36 +/- 39.54 0.00002861 +/- 0.00000981 93.18 +/- 21.71 0.00001222 +/- 0.00000301
DATA: success (warning: decay rates inconsistent) 0.047 Belarusian Itelmen Uzbek_WGA 3.69 2.36 2.20 54% 142.22 +/- 27.73 0.00006725 +/- 0.00001821 129.35 +/- 53.29 0.00003152 +/- 0.00001338 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.009 Belarusian LBK_EN Selkup 4.09 2.18 2.41 67% 67.83 +/- 16.58 0.00002655 +/- 0.00000641 115.11 +/- 38.65 0.00001960 +/- 0.00000899 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 0.05 Belarusian Selkup Turkish_Trabzon 3.68 2.41 2.11 32% 56.53 +/- 15.37 0.00001451 +/- 0.00000330 57.06 +/- 20.02 0.00000933 +/- 0.00000386 77.83 +/- 33.34 0.00000751 +/- 0.00000355
DATA: success (warning: decay rates inconsistent) 0.017 Belarusian Abhkasian Lahu 4.21 2.47 2.97 174% 32.04 +/- 6.68 0.00001002 +/- 0.00000238 3.95 +/- 1.60 0.00000098 +/- 0.00000024 57.34 +/- 19.33 0.00001384 +/- 0.00000369
DATA: success (warning: decay rates inconsistent) 0.00018 Belarusian Ami_Coriell Uzbek_WGA 5.15 2.09 2.20 63% 162.32 +/- 22.43 0.00007649 +/- 0.00001486 118.09 +/- 56.57 0.00002688 +/- 0.00001279 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0041 Belarusian Anatolia_Neolithic Chukchi 4.52 3.45 2.79 35% 77.64 +/- 16.37 0.00003602 +/- 0.00000797 81.39 +/- 21.48 0.00001207 +/- 0.00000349 110.36 +/- 39.54 0.00002861 +/- 0.00000981
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Daur 4.12 3.45 2.63 47% 73.39 +/- 17.81 0.00002378 +/- 0.00000569 81.39 +/- 21.48 0.00001207 +/- 0.00000349 118.84 +/- 40.98 0.00002486 +/- 0.00000947
DATA: success 0.05 Belarusian Anatolia_Neolithic Han 3.96 3.45 3.00 17% 79.39 +/- 18.74 0.00002687 +/- 0.00000678 81.39 +/- 21.48 0.00001207 +/- 0.00000349 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.00002310 +/- 0.00000644
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.20 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.00000250 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success (warning: decay rates inconsistent) 0.00046 Belarusian Atayal_Coriell Uzbek_WGA 4.97 2.02 2.20 53% 179.16 +/- 31.95 0.00008213 +/- 0.00001654 130.82 +/- 54.40 0.00002576 +/- 0.00001275 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian British-Roman Mixtec 4.11 2.37 2.50 80% 64.78 +/- 15.52 0.00004703 +/- 0.00001145 52.03 +/- 19.63 0.00002305 +/- 0.00000974 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success (warning: decay rates inconsistent) 0.033 Belarusian Chukchi Mala 4.06 2.79 4.06 60% 172.83 +/- 30.55 0.00002691 +/- 0.00000663 110.36 +/- 39.54 0.00002861 +/- 0.00000981 93.18 +/- 21.71 0.00001222 +/- 0.00000301
DATA: success (warning: decay rates inconsistent) 0.009 Belarusian Dai Greek_Islands 4.35 3.05 2.28 32% 122.32 +/- 24.18 0.00004797 +/- 0.00001103 88.71 +/- 29.04 0.00001846 +/- 0.00000511 102.11 +/- 26.83 0.00001569 +/- 0.00000687
DATA: success (warning: decay rates inconsistent) 0.049 Belarusian Dai Uzbek_WGA 3.97 3.05 2.20 87% 160.47 +/- 30.16 0.00006276 +/- 0.00001582 88.71 +/- 29.04 0.00001846 +/- 0.00000511 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0015 Belarusian Daur North_Ossetian 4.73 2.63 2.09 122% 42.94 +/- 8.92 0.00000724 +/- 0.00000153 118.84 +/- 40.98 0.00002486 +/- 0.00000947 178.58 +/- 51.90 0.00001887 +/- 0.00000901
DATA: success (warning: decay rates inconsistent) 0.047 Belarusian Daur Uzbek_WGA 3.97 2.63 2.20 62% 164.70 +/- 29.83 0.00008292 +/- 0.00002087 118.84 +/- 40.98 0.00002486 +/- 0.00000947 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.00086 Belarusian Eskimo_Chaplin LBK_EN 4.84 2.29 2.18 73% 53.65 +/- 11.08 0.00002657 +/- 0.00000479 63.81 +/- 27.89 0.00001618 +/- 0.00000586 115.11 +/- 38.65 0.00001960 +/- 0.00000899
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Georgian Lahu 4.10 2.89 2.97 166% 43.55 +/- 10.61 0.00001537 +/- 0.00000311 5.27 +/- 1.82 0.00000079 +/- 0.00000023 57.34 +/- 19.33 0.00001384 +/- 0.00000369
DATA: success (warning: decay rates inconsistent) 0.05 Belarusian Georgian Yi 3.96 2.89 3.26 179% 35.28 +/- 8.91 0.00000897 +/- 0.00000226 5.27 +/- 1.82 0.00000079 +/- 0.00000023 93.65 +/- 25.60 0.00002033 +/- 0.00000624
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3.00 15% 108.92 +/- 26.70 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.50 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.20 2.28 3.37 15% 118.40 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.90 0.00002845 +/- 0.00000805
DATA: success (warning: decay rates inconsistent) 0.042 Belarusian Greek_Islands Xibo 4.00 2.28 2.59 37% 101.05 +/- 22.65 0.00003689 +/- 0.00000922 102.11 +/- 26.83 0.00001569 +/- 0.00000687 70.25 +/- 27.10 0.00001649 +/- 0.00000507
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success (warning: decay rates inconsistent) 1.8e-05 Belarusian Han Uzbek_WGA 5.56 3.00 2.20 83% 145.83 +/- 21.23 0.00006518 +/- 0.00001171 93.68 +/- 31.25 0.00002137 +/- 0.00000623 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.023 Belarusian Han Yemenite_Jew 4.14 3.00 2.19 41% 101.08 +/- 19.78 0.00002665 +/- 0.00000644 93.68 +/- 31.25 0.00002137 +/- 0.00000623 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.00017 Belarusian Han_NChina Uzbek_WGA 5.15 3.58 2.20 76% 147.58 +/- 21.48 0.00006493 +/- 0.00001261 101.71 +/- 28.43 0.00002310 +/- 0.00000644 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.021 Belarusian Han_NChina Yemenite_Jew 4.16 3.58 2.19 47% 88.25 +/- 14.91 0.00002464 +/- 0.00000593 101.71 +/- 28.43 0.00002310 +/- 0.00000644 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Japanese Uzbek_WGA 3.99 2.51 2.20 76% 158.76 +/- 32.98 0.00007182 +/- 0.00001802 101.02 +/- 40.27 0.00002259 +/- 0.00000766 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.034 Belarusian Korean Uzbek_WGA 4.05 3.28 2.20 72% 147.50 +/- 22.94 0.00006552 +/- 0.00001618 106.54 +/- 29.46 0.00002451 +/- 0.00000748 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0022 Belarusian Lahu Turkish_Jew 4.65 2.97 3.22 53% 53.69 +/- 9.97 0.00001763 +/- 0.00000379 57.34 +/- 19.33 0.00001384 +/- 0.00000369 92.56 +/- 21.52 0.00000780 +/- 0.00000242
DATA: success (warning: decay rates inconsistent) 7.8e-06 Belarusian Lahu Uzbek_WGA 5.70 2.97 2.20 119% 125.65 +/- 17.75 0.00006183 +/- 0.00001084 57.34 +/- 19.33 0.00001384 +/- 0.00000369 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.028 Belarusian Lahu Yemenite_Jew 4.10 2.97 2.19 85% 73.51 +/- 17.32 0.00002186 +/- 0.00000534 57.34 +/- 19.33 0.00001384 +/- 0.00000369 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.029 Belarusian LBK_EN Selkup 4.09 2.18 2.41 67% 67.83 +/- 16.58 0.00002655 +/- 0.00000641 115.11 +/- 38.65 0.00001960 +/- 0.00000899 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 3e-05 Belarusian Miao Uzbek_WGA 5.47 3.63 2.20 89% 141.79 +/- 17.01 0.00005964 +/- 0.00001090 86.31 +/- 23.79 0.00001726 +/- 0.00000411 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.012 Belarusian Miao Yemenite_Jew 4.29 3.63 2.19 49% 96.51 +/- 17.73 0.00002466 +/- 0.00000575 86.31 +/- 23.79 0.00001726 +/- 0.00000411 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.036 Belarusian Naxi Uzbek_WGA 4.04 2.35 2.20 87% 150.57 +/- 27.26 0.00006598 +/- 0.00001633 88.34 +/- 37.62 0.00001891 +/- 0.00000714 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0037 Belarusian Oroqen Uzbek_WGA 4.54 2.50 2.20 75% 159.87 +/- 26.32 0.00007776 +/- 0.00001713 102.18 +/- 40.85 0.00002369 +/- 0.00000834 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.043 Belarusian She Uzbek_WGA 3.99 3.16 2.20 70% 177.32 +/- 34.01 0.00008208 +/- 0.00002055 108.68 +/- 31.62 0.00002238 +/- 0.00000708 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.029 Belarusian Tu Uzbek_WGA 4.09 2.28 2.20 85% 150.44 +/- 31.12 0.00006074 +/- 0.00001485 91.29 +/- 40.04 0.00001929 +/- 0.00000802 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.001 Belarusian Tujia Uzbek_WGA 4.80 2.09 2.20 61% 164.13 +/- 25.59 0.00008133 +/- 0.00001693 120.48 +/- 57.69 0.00002290 +/- 0.00001057 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.00002290 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.0053 Belarusian Ulchi Uzbek_WGA 4.47 3.37 2.20 65% 153.49 +/- 25.35 0.00007000 +/- 0.00001567 114.38 +/- 33.90 0.00002845 +/- 0.00000805 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.00055 Belarusian Uzbek_WGA Xibo 4.93 2.20 2.59 105% 129.90 +/- 24.58 0.00005579 +/- 0.00001132 225.56 +/- 61.89 0.00007507 +/- 0.00003406 70.25 +/- 27.10 0.00001649 +/- 0.00000507
DATA: success (warning: decay rates inconsistent) 0.00062 Belarusian Uzbek_WGA Yi 4.91 2.20 3.26 83% 156.22 +/- 22.94 0.00007252 +/- 0.00001478 225.56 +/- 61.89 0.00007507 +/- 0.00003406 93.65 +/- 25.60 0.00002033 +/- 0.00000624
DATA: success (warning: decay rates inconsistent) 0.011 Belarusian Uzbek_WGA Yukagir_Tundra 4.31 2.20 2.55 61% 182.09 +/- 32.35 0.00008497 +/- 0.00001970 225.56 +/- 61.89 0.00007507 +/- 0.00003406 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success (warning: decay rates inconsistent) 0.048 Belarusian Yemenite_Jew Yi 3.97 2.19 3.26 41% 130.87 +/- 22.50 0.00003478 +/- 0.00000876 142.22 +/- 61.15 0.00001902 +/- 0.00000870 93.65 +/- 25.60 0.00002033 +/- 0.00000624

После отсеивания не очень пригодных для дальнейшего анализа триплетов  у нас осталась следующие комбинации:

DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.9 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.05 Belarusian Anatolia_Neolithic Han 3.96 3.45 3 17% 79.39 +/- 18.74 0.00002687 +/- 0.00000678 81.39 +/- 21.48 0.00001207 +/- 0.00000349 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.0000231 +/- 0.00000644
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.2 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3 15% 108.92 +/- 26.7 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.5 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.2 2.28 3.37 15% 118.4 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.9 0.00002845 +/- 0.00000805
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.0000229 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.0000087

На третьем этапе программа определяет статистическая значимость комбинации (p-статистику):

P-значение (англ. P-value) — величина, используемая при тестировании статистических гипотез. Фактически это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода). Проверка гипотез с помощью P-значения является альтернативой классической процедуре проверки через критическое значение распределения.

Обычно P-значение равно вероятности того, что случайная величина с данным распределением (распределением тестовой статистики при нулевой гипотезе) примет значение, не меньшее, чем фактическое значение тестовой статистики.

Отберем значения P меньше 0.05

DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.0000231 +/- 0.00000644
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.5 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.9 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.2 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.2 2.28 3.37 15% 118.4 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.9 0.00002845 +/- 0.00000805
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.0000229 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.0000087
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3 15% 108.92 +/- 26.7 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623

Получаем следующие пары (с датировкой адмикса в поколениях и годах)

Таргет Референс 1 Референс 2 Поколения Погрешность Года Погрешность
Belarusian Anatolia_Neolithic Turkmen 85.64 +/- 28.96 2483.56 +/- 839.84
Belarusian Anatolia_Neolithic Turkmen 72.89 +/- 23.73 2113.81 +/- 688.17
Belarusian Anatolia_Neolithic Han_NChina 101.71 +/- 28.43 2949.59 +/- 824.47
Belarusian Anatolia_Neolithic Turkmen 72.89 +/- 23.73 2113.81 +/- 688.17
Belarusian Greek_Islands Mixtec 121.19 +/- 40.18 3514.51 +/- 1165.22
Belarusian Greek_Islands Yukagir_Tundra 119.62 +/- 45.23 3468.98 +/- 1311.67
Belarusian Anatolia_Neolithic Mala 87.55 +/- 18.75 2538.95 +/- 543.75
Belarusian Anatolia_Neolithic Miao 86.31 +/- 23.79 2502.99 +/- 689.91
Belarusian Greek_Islands Ulchi 114.38 +/- 33.9 3317.02 +/- 983.1
Belarusian Tujia Yemenite_Jew 142.22 +/- 61.15 4124.38 +/- 1773.35
Belarusian Greek_Islands Miao 86.31 +/- 23.79 2502.99 +/- 689.91
Belarusian Greek_Islands Nganasan 97.92 +/- 45.95 2839.68 +/- 1332.55
Belarusian Greek_Islands Han 93.68 +/- 31.25 2716.72 +/- 906.25
Belarusian Anatolia_Neolithic Han 93.68 +/- 31.25 2716.72 +/- 906.25

О чем свидетельствует результаты? Результаты указывают на наличие сигнала смешивания предковых популяций белорусов с неолитическими земледельцами (ближневосточные популяции и популяции ближнего Востока здесь выступают в качестве суррогата неолитических популяций), и с рядом восточноазиатских, сибирских и америндских популяций (здесь они выступают в качестве суррогата сибирского вклада в генофонд восточной Европы) cо средним интервалом смешения примерно 2850 +- 950 лет назад, т.е в период бронзового века.

Ниже приведены графики угасания LD в комбинации Anatolian-Neolithic + Mala

Затем я уменьшил масштаб подгонки (fitting) кривых угасания LD до 0.5 сантиморганид и взял в качестве референса  палеогеномы с хорошим покрытием

Эксперимент с Loschbour + Stuttgart оказался неудачным.

Более правдоподобна комбинация андроновцев (Andronovo) и чукчей (дата адмикса — 125+-60 поколений тому назад)

Вторая попытка подгонки референсных популяций Loschbour и Stuttgart в качестве предковых групп оказался более удачным (дата адмикса — приблизительно 445 +- 56 поколений тому назад, времена энеолита)

Адмикс с сибирскими палеопопуляциями (MA1) примерно в два раза «моложе» (258 +- 42 поколения, бронзовый век)

Еще один вариант адмикса между палеолитическими жителями Европы и MA1 (датировка — 393 +- 75 поколений)

Теперь о поляках. К сожалению, результаты оказались гораздо более зашумленными, так как использовались данные генотипирования на платформе Illumina, имеющей меньшее пересечение снипов со снипами платформы Affymetrix HumanOrigins. Несмотря на это, программа ALDER нашла три комбинации, пусть и с несовместимой амплитудой угасания LD.

DATA: success (warning: decay rates inconsistent) 0.011 Pole Eskimo_Sireniki Irish-BA 3.87 2.01 2.53 40% 146.66 +/- 27.30 0.00035747 +/- 0.00009228 161.51 +/- 69.51 0.00013202 +/- 0.00006577 107.56 +/- 33.31 0.00015435 +/- 0.00006109
DATA: success (warning: decay rates inconsistent) 0.0068 Pole Eskimo_Sireniki Remedello_BA.SG 3.99 2.01 2.57 49% 110.88 +/- 21.02 0.00024049 +/- 0.00006022 161.51 +/- 69.51 0.00013202 +/- 0.00006577 182.60 +/- 39.99 0.00014922 +/- 0.00005796
DATA: success (warning: decay rates inconsistent) 0.035 Pole Eskimo_Chaplin Remedello_BA.SG 3.59 2.51 2.57 56% 102.38 +/- 21.46 0.00022199 +/- 0.00006181 126.26 +/- 42.96 0.00009643 +/- 0.00003846 182.60 +/- 39.99 0.00014922 +/- 0.00005796

Здесь тоже виден слабый сигнал адмикса популяций бронзового века из Западной Европы (Remedello и ирландского бронзового века) c америндскими популяциями.

Впрочем, дополнительный анализ в программе ROLLOFF (с уменьшенным масштабом подгонки — fitting) выдал правдоподобные (c низким значением P) варианты. Например, вариант Bichon + Georgian_Kakheti: 151.41 +/-38.18, p= 4.7e-06

Очень хорошим вариантом оказался вариант адмикса Esperstedt_MN-Halberstadt_LBA: (дата адмикса — 163.80 +/- 34.11), p=4.8e-07

Публикации и работа с палеогеномами

Как я уже отмечал в своих предыдущих записях, за последние годы был опубликован ряд работ, посвященных попыткам генотипирования останков древних людей — от живших несколько тысячелетий назад до «усть-ишимца» с предположительным возрастом около 45 тысяч лет, неандертальцев и «денисовки». Количество таких расшифровок растет все быстрее, что не может не вызывать оптимизма.  Вторая половина 2014 года особенно примечательна как количеством подобных публикаций, так и числом полных геномных NGS-сиквенсов древних людей, размещенных в публичных репозиториях (банках геномных данных). Так, в сентябре в Nature была опубликована окончательная версия работы Lazaridis et al. 2014  «Ancient human genomes suggest three ancestral populations for present-day Europeans». Работа получила широкое освещение в СМИ, поскольку аналитическая выборка сэмплов в этом исследовании включала значительное количествао заново генотипированных (на чипе Affymetrix HumanOrigin) образцов ДНК из древних палеолитических стоянок Сибири (Афонтова Гора, Малта), представителя древней индейской культуры Кловис и палеоэскимоса Cаккак. В работе был представлен  целый  ряд образцов древней ДНК представителей европейских мезолитических и неолитических культур, опубликованных в более ранних работах 2012-2014 годов: Skoglund et a. 2014 «Genomic Diversity and Admixture Differs for Stone-Age Scandinavian Foragers and Farmers»(шведские земледельцы и охотники собиратели эпохи неолита); Olalde et al. 2014 «Derived immune and ancestral pigmentation alleles in a 7,000-year-old Mesolithic European» (дДНК мезолитического населения Иберийского полуострова) и т.д.

В этой связи необходимо также отметить статью Carpenter et al. 2013 «Pulling out the 1%: whole-genome capture for the targeted enrichment of ancient DNA sequencing libraries»в которой целый авторский коллектив представил результаты исследований древних образцов ДНК найденных в захоронениях бронзового века II тыс. д.н.э (Болгария и Дания).  В следующей работе опубликованной в конце октября, Gamba et al. 2014. «Genome flux and stasis in a five millennium transect of European prehistory»,  читателям была представлена хронологическая перспектива на процесс изменения генофонда населения популяций живших на территории  Паннонской равнины на протяжении 5000 лет (с эпохи неолита до конца железного века), проиллюстрированная на примере изучения 13 образцов древней ДНК. Параллельно вместе с этим Wellcome Trust Sanger Institute разместил геномные «риды» геномов древних англосаксов и бриттов (сама статья еще находится в процессе пре-публикации, презентация статьи была представлена на последней конференции AJHG).

Более важные публикации появилась совсем недавно. В частности, таковой публикацией является статья Fu et al. 2014 «Genome sequence of a 45,000-year-old modern human from western Siberia» о  геноме так называемого «усть-ишимца» (возраст останков которого датируются 45 000 д.н.э) и статья Seguin-Orlando et al. 2014 «Genomic structure in Europeans dating back at least 36,200 years», посвященная обсуждению результатов анализа ДНК знаменитого «папусоида»  с палеолитической стоянки Костенки-14.Тело мужчины, жившего 37 тыс. лет назад и найденное в 1954 г. на юго-западе России, оказалось источником старейшей европейской ДНК. Анализ его генома, опубликованный на прошлой неделе, показывает, что большинство разнообразных европейских генетических комбинаций существуют более 30 тыс.лет и пережили последний ледниковый период. Генетики обнаружили что ДНК Костенки-14 является близкородственным по отношению к раннеевропейским охотникам-собирателям, современным европейцам и жителям Сибири.
В то же время другой древний геном, данные о котором были опубликованы несколько недель назад, принадлежащий сорокапятитысячелетнему западному сибиряку, известному как Усть-Ишим, имел родство как с европейцами, так и с азиатами.  Любопытно, что в этой статье подтверждается то о чем я говорил гораздо раньше: процент неандертальских генов у древних евразийцев был выше чем у современных (о чем я упоминал в одной из своих заметок в этом блоге).

Трудами известного геномного блоггера Феликса Чандракумара большинство из них было переведено в простой и доступный формат, аналогичный файлам raw data от FTDNA и 23andMe. В GEDMatch можно поиграть с этнокалькуляторами и даже попытаться сравнить свой геном с геномами древних людей.Для этого следует взять из таблицы (кот. видна, если пройти по ссылке) номера, которыми обозначены древние геномы.

Sample Name Sample Location GEDMatch Sex Y-DNA Mt-DNA Approx. Age by authors My Analysis or Comments
Altai Neanderthal Denisova Cave, Siberia F999902 Female 50,000 years
Denisova Denisova Cave, Siberia F999903 Female 30,000 years
Palaeo-Eskimo Qeqertarsuaq, Greenland F999906 Male Q1a D2a1 4,000 years Palaeo-Eskimo 2000 BC DNA
Clovis-Anzick-1 Montana, North America F999919 Male Q-Z780 D4h3a 12,500 years Matches Living people.
Mal’ta South-Central Siberia F999914 Male R U 24,000 years Matches Living people on X Chromosome.
La Braña-Arintero León, Spain F999915 Male C-V183 U5b2c1 7,000 years Analyzing La Braña-Arintero Ancient DNA
Motala-12 Östergötland, Sweden F999917 Male I-L460 U2e1 7,000 years My Analysis of Motala-12 ancient DNA
LBK Stuttgart, Germany F999916 Female T2c2 7,500 years Matches Living people
Loschbour  Loschbour, Luxembourg F999918 Male I-L460 U5b1a 8,000 years Matches Living people
Ajvide58 Sweden F999924 Male I-CTS772 U4d 5000 years Ajvide58 DNA Analysis
Gökhem2 Sweden F999934 Female H1c 5000 years Gökhem2 Ancient DNA Analysis
Hinxton-2 Cambridgshire, UK F999921 Female H2a2b1 1300 years Hinxton-2 Analysis
Hinxton-3 Cambridgshire, UK F999922 Female K1a4a1a2b 1300 years Hinxton-3 Analysis
Hinxton-4 Cambridgshire, UK F999925 Male R-DF25 H1ag1 2000 years Hinxton-4 has X-Matches with living people
Hinxton-5 Cambridgshire, UK F999926 Female H2a2a1 1300 years Hinxton5 Ancient DNA Analysis
KO1 Tiszaszőlős-Domaháza, Hungary F999931 Male I-L68 R3 5650-5780 cal BC Analysis of Neolithic KO1 genome
NE1 Polgár-Ferenci-hát, Hungary F999937 Female U5b2c 5070-5310 cal BC NE1 Ancient DNA Analysis
NE5 Kompolt-Kigyósér, Hungary F999927 Male C-F3393 J1c 4990-5210 cal BC Ancient Hungarian Genome NE5 Analysis
NE6 Apc-Berekalja I., Hungary F999932 Male C-P255 K1a3a3 4950-5300 cal BC Analysis of Hungarian genome-NE6
NE7 Apc-Berekalja I., Hungary F999928 Male I-L1228 N1a 4360-4490 cal BC Ancient Hungarian genome — NE7
CO1 Apc-Berekalja I., Hungary F999930 Female H 2700-2900 cal BC Analysis of Copper age genome CO1
BR2 Ludas-Varjú-dűlő, Hungary F999933 Male J-M67 K1a1a 1110-1270 cal  BC Ancient BR2 matches living people
IR1 Ludas-Varjú-dűlő, Hungary F999929 Male N-M231 G2a1 830-980 cal BC Ancient Hungarian genome — IR1
Tyrolean Iceman
(ERP001144)
Tisenjoch Pass, Oetztal Alps Male 5300 years Pending
Ust’-Ishim Ust’-Ishim, Siberia F999935 Male K-M526 R 45,000 years Ust’-Ishim matches with living people!
Kostenki14 European Russia F999936 Male C-V199 U2b 38,700-36,200 years Kostenki14 Ancient DNA Analysis
Sample Name Sample Location Sex Y-DNA Mt-DNA Approx. Age by authors
Mezmaiskaya Neanderthal Mezmaiskaya Cave Female 29,000 years
Tianyuan Tianyuan Cave, China R 40,000 years
Afontova Gora-2 South-Central Siberia Male R1? R 17,000 years
Motala-1 Östergötland, Sweden Female U5a1 7,000 years
Motala-9 Östergötland, Sweden Female U5a2 or U5a1f1a1 7,000 years
Motala-6 Östergötland, Sweden Male U5a2d 7,000 years
Motala-2 Östergötland, Sweden Male F-P139 U5e1 7,000 years
Motala-4 Östergötland, Sweden Female U5a2d 7,000 years
Motala-3 Östergötland, Sweden Male I-M258 U2e1 7,000 years
Hinxton-1 Cambridgshire, UK Male R-L151 K1a1b1b 2000 years
Ajvide53 Sweden Female U4d 5000 years
Ajvide59 Sweden Male I-PF3796 U5b2c1 5000 years
Gökhem7 Sweden Female H 5000 years
Ire8 Sweden Male I-CTS6343 U4d 5000 years
StoraFörvar11 Stora Karlsö, Sweden Male I-CTS4077 U5a1f1a 7500 years
Gökhem4 Sweden Male CF-M3690 H 5000 years
Gökhem5 Sweden Female K1e 5000 years
Ajvide52 Sweden Male HIJK-F929 HV0a 5000 years
Ajvide70 Sweden Female U4d 5000 years
NE4 Polgár-Ferenci-hát, Hungary Female J1c 5050-5290 cal BC
NE3 Garadna, Hungary Female X2b 5010-5210 cal BC
BR1 Kompolt-Kigyósér, Hungary Female K1c1 1980-2190 cal BC
KO2 Berettyóújfalu-Morotva-liget, Hungary Female K1 5570-5710 cal BC
NE2 Debrecen Tócópart Erdõalja, Hungary Female HV 5060-5290 cal BC
V2 Vratitsa, Bulgaria Male U2e1’2’3 1500-1100 BC
M4 Borum Eshøj, Denmark Male B2 1350 BC
K8 Krushare, Bulgaria Male R 450-400 BC
NA43 Laguna de los Condores, Peru Male B4b’d’e 1000-1500 AD
AusAboriginal Western Austalian Male F-M235 O1a 100 years
NA41 Laguna de los Condores, Peru Male L3 1000-1500 AD
P192-1 Svilengrad, Bulgaria Male U3b 800-500 BC
T2G2 Stambolovo, Bulgaria Male H1c9a 850-700 BC
NA42 Laguna de los Condores, Peru Male D1 1000-1500 AD
NA50 Laguna de los Condores, Peru B4b’d’e 1000-1500 AD
NA47 Laguna de los Condores, Peru L3 1000-1500 AD
NA40 Laguna de los Condores, Peru L3 1000-1500 AD
NA39 Laguna de los Condores, Peru Male B2 1000-1500 AD
Feld1 Neanderthal Neander Valley, Germany 42,000 years
Sid1253 Neanderthal El Sidron cave, Asturias, Spain 49,000 years
Vi33.16 Neanderthal Vindija cave, Croatia Female 38,310 years
Vi33.25 Neanderthal Vindija cave, Croatia Female
Vi33.26 Neanderthal Vindija cave, Croatia Female 44,450 years

В своем блоге Феликс размещает аналитические отчеты по каждому из проведенных анализов, отчеты включают графическое отображения «состава различных геномных компонентов происхождения» каждого из образцов в калькуляторах Gedmatch (включая мой последний калькулятор K23b), фенотипические признаки (предположительный цвет кожи и глаз), возраст на момент смерти и т.д.
Пытаясь ответить на вопрос,  насколько  правдоподобны (в смысле реального генеалогического родства) результаты совпадения сегментов древних и современных людей, Феликс приводит замечательные вычисления оценки правдоподобия совпадений в геномах современных людей и древних образцов. К сожалению, рассуждения замечательные, но вызывающие определенные вопросы, которые я озвучу в другой заметке.

Так или иначе, поставленная Феликсом на поток и практически полностью автоматизированная работа с древними геномами заслуживает безусловного признания, поскольку в силу разделения труда позволяет другими исследователям-любителям полностью сконцетрировать свое внимание на процессе непосредственного анализа полученных данных, вместо того чтобы тратить свои ресурсы на процесс извлечения снипов из «сырых» геномных данных. Благодаря этому разделению труда,  Давид Веселовский из проекта Eurogenes провел ряд замечательных экспериментов с этими данными (включая PCA, Treemix и вычисление генного дрейфа с помощью f3). В основном выводы этих экспериментов повторят то, что было написано в статьях профильных генетиков, за исключением одного интересного вывода на основании графа Treemix, в котором отображено направление процессов обмена генами между различными древними популяциями:

«В отношении Kostenki14, графики  Treemix  подтверждают один из основных выводов работы Seguin-Orlando et al. 2014, согласно которой  главны компонент образца  Kostenki-14  является базальным «предковым» компонентом более поздних европейцев (Basal_Eurasian). Тем не менее, два последних графика показывают, что этот базальный «компонент» не тот же самый «базальный» компонент в геноме неолитического образца из Штутгарта, связанного с базальным евразийским  компонентом, который был описан  в работе Lazaridis et al. 2013″.

Другой геномный блоггер, Сергей Козлов, использовал те же самые данные палеогеномов (взятые с сайта Ф. Чандракумара) для создания замечательных карт, иллюстрирующих количество и интенсивность общих IBD-сегментов палеогеномов и геномов современных популяций.

Я решил не оставаться в стороне и провел собственный анализ PCA и кластеризации популяций по значениям компонентов генетического разнообразия.

Ниже приведены иллюстрации к моему опыту кластеризации собственного генома с геномами древних жителей Евразии. В качестве входных данных алгоритма ward-кластеризации в программе R, я использовал собственные значения 4 векторов главных компонентов (PC) разнообразия. Эти векторы, в свою очередь, были получены путем вычислений в большом массиве (2024 образца) генетических данных (примерно 110 тысяч снип-полиморфизмов) представителей современных и древних популяций. Мой геном (обозначенный как Vadim) представляет собой набор, полученныq в ходе импутации по датасету Human Origin значения снипов информативных с точки зрения эволюционного происхождения, и используется в качестве контрольной группы.

Для начала график PCA, и положение палеогеномов на этом графике.

10805810_10205228379818844_2683994891484833194_n

В аналитической выборке я задействовал снипы геномов высших и низших приматов (дендрограмма выборка укоренена на геноме мармозетки), древних гоминидов (денисовского человека и неандертальцев). Остальное — как я и упоминал выше — представляет собой совокупность снипов современных и древних популяций.

Благодаря характеру выборки и характеру используемых снипов, я могу взглянуть на свое происхождение с наиболее широкой перспективы, позволяющей проследить индивидуальный эволюционный путь от древнейших людей до наших современников.
Можно сказать, что я проделал самое далекое (из всех предыдущих) генеалогическое путешествие в собственное прошлое. Разумеется, без предыдущего выделения обработки образцов древнего ДНК новейшими биохимическими методами, а также публикации данных — это путешствие длинной в сотни тысяч лет не могло бы просто состоятся. Так что огромное спасибо всем биохимикам, генетикам и биоинформатиков работавшим с образцами древней ДНК.

Полученные мной кластерные дендрограммы вышли очень большого разрешения. В силу этого, имеет смысл изучить топологию, структуры и расположение популяционных групп-кластеров в полномасштабном варианте, иначе могут возникнуть интересные вопросы.

1557253_10205127321932460_4975988878575720296_o 10801887_10205156832150197_5471832914364777784_n (1) 10801887_10205156832150197_5471832914364777784_n 247121_10205156832710211_7030394711716209950_n 1235004_10205156831950192_4536397005560655073_n 1379610_10205156832350202_753531489446222277_n 10411811_10205156831710186_6596784203743263163_n

Поэтому — я подготовил соответствующие файлы PDF и разместил ссылки на эти файлы для удобного просмотра.

tree1

tree2

tree3

tree4

tree5

tree6

tree7

tree8

tree9

tree10

tree11

tree12

tree13

tree14

tree15

tree16

Здесь их опубликовать не представляется возможным, и по этой причине я ограничу себя размещением тех фрагментов трех вариантов кластерных диаграмм, на которых присутствуют древние образцы.
Забегая вперед, можно заметить, что образцы ДНК древних людей (т.е людей современного анатомического типа — homo sapiens sapiens), строго говоря, разбиваются на три органические суперкластера — древних сибириков (или евразийцев), древних европейских охотников-собирателей, и ранних неолитических европейских земледельцев. В основной своей части состав и топология популяционных кластеров стабилен в разных вариантах, наибольшие видоизменения заметны у тех образцов, чье множество снипов имеет меньшее пересечение с общим набором снипов. Отсюда довольно таки тривиальный вывод: чем меньше общее число снипов — тем больше флуктуаций наблюдается в расположении древних образцов внутри ветвей кластерной дендрограммы.

Кластер древних евразийцев наиболее стабилен (т.к. там всего два древних генома Afontova Gora 2 (AG2) и знаменитый мальчик с сибирской стоянки Malta (MA1); причем оба образца взяты из одного источника данных). Из современных популяций к этому кластеру наиболее органично примыкают различные группы населения центральной Азии — от таджиков до гуджаратов, и от калашей до пуштунов.

Кластер древних охотников-собирателей Европы наиболее неустойчив, и это объясняется прежде всего разным числом снипов в образцах, а также тем что сами образцы взяты из разных исследований. Тем не менее тенденция наглядна — древнейшие европейцы (охотники-собиратели мезолита) наиболее близки по своим аутосомным снипам к жителям современной западной и северной Европы — особенно Британских островов, Скандинавии и Балтийского региона. Практически во всех вариантах прибалтийцы близки к древним жителям Швеции (Готланда), а также мезолитическим образцам La Brana, Motala и Loshbour. Последние также близки к финнам, эстонцам и северным русским. Из более поздних и географически удаленных образцов к ним близки древние образцы из Венгрии неолитического периода, бронозового и железного веков (BR1, NE2 и KO1).

Интересно, что в этот же кластер входят как современные популяции западной Европы (британцы, норвежцы, французы и др.), так и современные жители центральной Европы — чехи хорваты и венгры. Является ли это наследием древних времен (гальштатской общности связываемой с древними кельтами) — трудно сказать. Не этим ли объясняется тот факт, что образцы древних англо-саксов и бриттов (обозначенные здесь как Hixton) иногда кластеризируются с (современными!) венграми, хорватами, иногда с современными англичанами из Кента и корнуэлльцами. При этом некоторые из образцов Hixton остаются близки (в смысле схожести генома) к скандинавам, оркнейцам, шотландцам, и даже литовцам.

Мой собственный «геном» (Vadim) также входит в эту группу, причем в разных вариантах он определенно близок одновременно и древним мезолитическим и эпинеолитическим шведам, а также более поздним образцам из Венгрии (киммерийского мальчика IR1, а также самый «балтийский» из всех древних венгерских обрацов — KO1). Интересно что IR1 («аутосомный геном» «киммерийского » мальчика Y-гаплогрупы N1a из захоронения паннонской культуры бронзового века Mezőcsát примерно 900 год до нашей эры) в первых четырех главных компонентах кластеризируется с моим собственным «аутосомным геномом»). Это наверное объясняет почему мой собственный геном дает хорошие комбинации (fit) к комбинации трапезундских турков и древних жителей Балтийского региона.

Как известно, попгенетики готовят к публикации большую статью, в которой подводятся итоги нескольких лет исследования генофонда представителей древних культуры шнуровой керамики* (известной также как культура боевых топоров) и ямной культуры** (другое название — древнеямная культурно-историческая общность). Безусловно, это исследование обещает пролить свет на некоторые темные места генетических связей жителей этих культур с современным населением Восточной Европы (особенно Польши, Украины, Беларуси и юго-западной части России).

Пока все детали исследования неизвестны, однако благодаря настойчивости некоторых энтузиастов генетической генеалогии (Веселовского и пр.) удалось выяснить, например, что генофонд древние образцы представителей Ямной культуры в рамках формальных тестов (f3 и D-статистик) наилучшим образом аппроксимируются как результат смешения древнего мезолитического населения севера Европы (в работе их представляют карельские образцы, очевидно из известных захоронений Палеострова) и населения, близкого к современным закавказским популяциям (лучший результат дали армяне из Еревана).

Признаюсь, эти сведения приободрили меня. Дело в том, что последние несколько недель я занимался изучением эволюции аутосомного генофонда беларусов (и своего тоже) из недавно опубликованного набора лаборатории Райха (это одна из усеченных версии их знаменитого кураторского набора Human Origin Dataset).
Как и раньше, для анализа я использовал инструменты разработанные программистами той же лаборатории (Admixtools), а также Alder — программу написанную на основе открытого кода Admixtools, и оптимизированную под более детальный анализ процесса смешивания различных предковых групп.

Так вот, до получения сведений о предварительных результатах попгенетиков, я был немного смущен полученной картиной. У меня получилось вот что. С точки зрения формальной оценки (f3-статистки, аналога более известной p-статистки) лучшие пары адмикса для беларусов (с отрицательным значением Z) представляли собой либо комбинацию мезолитического населения Европы (Loshbour) и современного населения современной Анатолии и ближнего Востока, либо комбинацию ‘генов’ неолитических жителей Европы (LBK380, а также современных сардинцев) и современных америндских популяций (происходящих, как нам известно, из восточной Сибири).
Вот начало списка значимых пар:

Mixe Sardinian Vadim -11.811
Sardinian Mixe Vadim -11.811
Karitiana Sardinian Vadim -11.757
Sardinian Karitiana Vadim -11.757
Zapotec Sardinian Vadim -11.638
Sardinian Zapotec Vadim -11.638
Loschbour Georgian_Megrels Vadim -11.599
Georgian_Megrels Loschbour Vadim -11.599
Piapoco Sardinian Vadim -11.482
Sardinian Piapoco Vadim -11.482
Loschbour Turkish_Trabzon  Vadim -11.434
Turkish_Trabzon Loschbour Vadim -11.434
Loschbour Assyrian_WGA Vadim -11.395
Assyrian_WGA Loschbour Vadim -11.395
LBK380 Piapoco Vadim -11.354
Piapoco LBK380 Vadim -11.354
Surui Sardinian Vadim -11.346
Sardinian Surui Vadim -11.346
Loschbour Abkhasian Vadim -11.293
Abkhasian Loschbour Vadim -11.293
Bolivian_LaPaz Sardinian Vadim -11.232
Sardinian Bolivian_LaPaz Vadim -11.232
Loschbour Iranian_Jew Vadim -11.231
Iranian_Jew Loschbour Vadim -11.231

Я выбрал около сотни значимых пар и проверил их достоверность «адмикса) с помощью инструментов D-статистки (qpDstat) в попарном сравнении каждой из значимых комбинаций (начало таблицы):

Vadim Italian_Tuscan : Loschbour Palestinian 0.0293 8.141 best
Vadim Iranian : LBK380 GujaratiC_GIH 0.0245 7.319 best
Vadim Motala12 : Druze Sardinian 0.0125 7.285 best
Vadim Loschbour : Palestinian Albanian 0.0146 7.17 best
Vadim Sardinian : GujaratiC_GIH Iranian 0.0121 7.151 best
Vadim Palestinian : Spanish_Pais_Vasco_IBS GujaratiC_GIH 0.0145 7.126 best
Vadim Egyptian_Comas : Basque_Spanish GujaratiC_GIH 0.0137 7.016 best
Vadim Sardinian : Loschbour Egyptian_Comas 0.0251 6.962 best
Vadim Sardinian : Loschbour Tunisian_Jew 0.0251 6.789 best
Vadim Palestinian : Basque_Spanish GujaratiC_GIH 0.013 6.758 best
Vadim Sardinian : Loschbour Palestinian 0.0237 6.69 best
Vadim Basque_Spanish : Balkar Palestinian 0.0076 6.601 best
Vadim GujaratiC_GIH : Tunisian_Jew Egyptian_Comas 0.0094 6.493 best
Vadim Spanish_Pais_Vasco_IBS : Balkar Palestinian 0.0079 6.458 best
Vadim Loschbour : Druze Italian_WestSicilian 0.0135 6.443 best
Vadim Loschbour : Iranian Albanian 0.0159 6.385 best
Vadim Palestinian : Sardinian Iranian 0.0083 6.344 best

Как видно, лучшая достоверность (обмена генами) у тех пар которые представляют собой комбинацию мезолитических популяций (Loshbour и Motala), популяций Кавказа, южной Европы и центральной Азии.

Это особенно хорошо заметно в тесте f4ratio. Вот например сравнение 2 квадропул, три популяции в каждой из которых идентичны (беларусы, кумыки и Losbour), а четвертая популяция отличается (балкарцы vs. Motala). Результат означает что кроме мезолитического компонента Loshbour (из западной Европы), у беларусов наблюдается эксцесс (28+-0.1%) дополнительного источника мезолитических «генов» (типично для балтийских популяций мезолита вроде Motala)

Vadim Kumyk Loschbour Motala12 : Vadim Kumyk Loschbour Balkar 0.285678 0.096194 2.97

Крайне любопытны и результаты проведенного мной в Alder исследования источников «древного» адмикса у беларусов.
Я выбрал только те пары, в которых амплитуда угасания LD в двух гипотетических популяциях-донорах была сопоставима с амплитудой угасания LD в популяции-реципиенте (т.е у беларусов). Интересно, что только две пары (пенджабцы + Motala) и (иракские евреи + чукчи) дали консистентную попарную подгонку кривой угасания LD с незначительным разбросом амплитуды (15-25%). К слову, комбинация Armenian+Motala-merge (примерно идентичная наиболее устойчивой модели адмикса у жителей ямной культуры) тоже присутствует в списке «успешных» комбинаций, однако кривые угасания LD имеют разную скорость угасания (их амплитуда отличается уже на 55% и поэтому они не консистентны, т.е несовместимы) в попарном режиме сравнения

DATA: success_consistent 0.0042 Belarusian Punjabi_Lahore_PJL Motala_merge 4.49 2.76 2.78 15%
DATA: success_consistent 0.0098 Belarusian Iraqi_Jew Chukchi 4.31 2.2 3.01 25%
DATA: success 0.0065 Belarusian Mongola Motala_merge 4.4 2.64 2.78 28%
DATA: success 0.011 Belarusian Yi Papuan 4.29 2.26 4.66 28%
DATA: success 0.00037 Belarusian Lebanese Papuan 4.98 2.69 4.66 38%
DATA: success 0.041 Belarusian Kusunda Motala_merge 3.98 2.61 2.78 41%
DATA: success 0.013 Belarusian Hezhen Motala_merge 4.25 2.17 2.78 49%
DATA: success 0.037 Belarusian Motala_merge Tu 4.01 2.78 3.13 51%
DATA: success 4.20E-06 Belarusian Kalmyk Motala_merge 5.79 2.36 2.78 54%
DATA: success 0.0086 Belarusian She Motala_merge 4.34 2.58 2.78 54%
DATA: success 0.0019 Belarusian Armenian Motala_merge 4.66 2.14 2.78 55%
DATA: success 0.048 Belarusian Daur Motala_merge 3.94 2.11 2.78 56%
DATA: success 0.0042 Belarusian Motala_merge Miao 4.49 2.78 3.5 59%
DATA: success 0.041 Belarusian Oroqen Motala_merge 3.98 2.28 2.78 59%
DATA: success 0.013 Belarusian Thai Motala_merge 4.25 2.13 2.78 65%
DATA: success 0.043 Belarusian Motala_merge Lahu 3.97 2.78 3.56 71%
DATA: success 0.0049 Belarusian Motala_merge Japanese 4.46 2.78 3.53 72%

Примечательно что для пары Belarusian Armenian Motala_merge  Admixtools датирует смешение 114.67+/-20.5 поколений тому назад. А вот датировка адмикса для двух первых пар (последняя колонка это датировка адмикса
Belarusian Punjabi_Lahore_PJL Motala_merge 4.49 2.76 2.78 15% 142.4+/-27.54
Belarusian Iraqi_Jew Chukchi 4.31 2.2 3.01 25% 43.28+/-9.45 То есь самое позднее 3500 лет до нашего времени.Итак, выводы: в эволюционной перспективе, костяк аутосомного генофонда беларусов составляет субстрат мезолитического генетического компонента Европы, к которому примешиваются два потока — один с юга, с наиболее значимым вливанием во времена неолита (земледельцы из Анатолии и ближнего Востока), другой — видимо более поздний (т.к. он отсутствует у ямников) из Сибири.


*Культура боевых топоров, культура шнуровой керамики (нем. Schnurkeramik) — археологическая культура медного и бронзового веков, распространенная на обширных территориях Центральной и Восточной Европы и датированная 3200 г. до н. э./2300 до н. э. — 2300 г. до н. э./1800 г. до н. э. Племена культуры боевых топоров часто считают первыми индоевропейцами на территории Средней Европы
**Я́мная культу́ра (точнее — Древнея́мная культу́рно-истори́ческая о́бщность) — археологическая культура эпохи позднего медного века — раннего бронзового века (3600—2300 до н. э.). Занимала территорию от Южного Приуралья на востоке до Днестра на западе, от Предкавказья на юге до Среднего Поволжья на севере.В рамках ранней версии курганной гипотезы Марии Гимбутас ямная культура связывалась с поздними протоиндоевропейцами.

 

Кластер древних жителей по своей устойчивости занимает промежуточное место между кластерами древних северных евразийцев и западных европейских охотников-собирателей.
В этот кластер, иерархически близкий популяциям Кавказа и ближнего Востока, предсказуемо входят предстаители самых классических популяции южной Европы — от греков и болгар, до басков и сардинцев. Как уже стало обычным, сардинцы кластеризуются с образцом тирольского человека Этци и женщины из линейноленточной культуры («LBK380»). В большинстве вариантов (2 из трех опубликованных) к этой подгруппе примыкают представители древнейших неолитических культур на территории современной Венгрии — CO1, H4, H3, NE5, NE7). Жители бронзового века (на графике они ошибочно обозначены как Europe оказались посередине между раннеевропейскими охотникам-собирателями и земледельцами.

Добавление к выборке древних геномов «усть-ишимца» и «костенковца» позволило пролить свет на некоторые особенности эволюции популяций центральной и восточной части Евразии. В кластерном анализе (вардовская кластеризация) по 4 первым компонентам PCA усть-ишимец у меня получился в одном кластере с киргизами и кажется селькупами. По первым двум компонентам в том варианте рейховского набора популяций, где нет андаманцев Onge — он попадает в один кластер с австралийскими аборигенами.
Думаю, что onge все же ближе, да к тому же во всех калькуляторах у усть-ишимца максимум «генома» приходится на сочетание южно-индийских и юго-восточноазиатских компонентов.  А вот «костенковец» оказывается ближе всего к чувашам и саамам. Что характерно — в предыдущих вариантах, в которых я не использовал костенковца, место костенковца часто занимал AG-2 (Afontova Gora).  Также заметна разница между кластерными схемами PC1-2 и PC-1-2-3-4.В первом случае костенковец в одном кластере с индусами, а во-втором с с чувашами и саамами. Характерно, что восточноевразийские палеогеномы Тяньюань и Усть-Ишим входят в один кластер (их положение не сильно меняется), а MA1 нет.

Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии

Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии.

Этнокалькуляторы на базе Admixture, представляющие результат «просчета» генома испытуемого в виде смеси предковых компонентов, достигли уже очень хорошей точности. Однако у них есть и определенные недостатки. Во-первых, случается, что у двух разных народов пропорции смешения этих компонентов довольно близки, хотя близкого родства между ними не наблюдается. Обычно для исключения такого эффекта увеличивают число компонентов, то есть повышают детализацию. Однако при этом зачастую возрастает и «шумность», случайные отклонения от ожидаемых значений. Кроме того, бывает тяжело понять — смешение произошло в предыдущем поколении, или тысячу лет назад? Если человек происходит из двух отдаленных народов, он часто позиционируется в географической точке, находящейся между ними, и непохож ни на один из родительских народов. При более сложносоставном происхождении все запутывается еще сильнее.

Нет ли метода напрямую измерить уровень родства отдельного человека с той или иной популяцией? При такой постановке вопроса сразу приходит на ум один из возможных ответов — необходимо просчитать количество IBD (то есть идентичных благодаря общности происхождения) аутосомных сегментов. Такой подход уже реализован в утилите от 23andMe под названием Countries of Ancestry, однако с рядом заметных недочетов. Используются результаты опроса пользователей сервиса о стране их происхождения, при этом непонятно, каков размер выборки от каждой страны. Да и детализация уровня «страна» для жителей России явно не подходит — зачем мешать в одну кучу карел, осетинов и якутов.

К счастью, эти проблемы можно частично устранить, используя научные выборки (либо коммерческие, однако набрать подобный объем из коммерческих выборок мне сейчас не по силам). С удешевлением процесса генотипирования количество имеющихся в открытом доступе выборок начало быстро расти. В первую очередь я использовал выборки, выложенные на сервере Эстонского биоцентра . Они стали основой. Часть пробелов была заполнена выборками из недавней работы Hellenthal , их пришлось переконвертировать из build 36 в build 37. Отдельное спасибо Вадиму Вереничу за помощь с несколькими выборками, хорошо увеличившими охват этнокарты.

Главной сложностью в работе оказалось сведение геномов из всех источников вместе. В каждой научной работе использовался свой набор снипов, часто с разной ориентацией. Коммерческие выборки тоже неоднородны — например, в FTDNA, как оказалось, существует четыре варианта файлов raw data со слегка отличающимся набором снипов и разной ориентацией примерно трех сотен из них. Добавьте к этому два варианта выравнивания и трансферы из 23andMe (у которой нашлись свои заморочки, например, дублирование одних и тех же снипов под разными названиями).

Конечно, хотелось использовать как можно большее количество снипов. Однако после ряда попыток придумать коэффициенты пересчета и прочее, стало понятно, что это методологически неверно. Пришлось оставить лишь те снипы, которые присутствовали во всех используемых выборках, в стандарте FTDNA, а также на чипе v3 от 23andMe. Вероятно, в будущем придется включить в просчет и новый, четвертый чип от этой компании, однако пока я решил с ним не связываться. В общем итоге осталось около 244 тысяч снипов — не так уж мало, я опасался худшего. От покрытия FTDNA это составляет чуть больше трети.

Компания FTDNA и сервис Gedmatch используют для фильтрации общих сегментов критерий наличия не менее 700 снипов. Однако для мелких сегментов он выполняется не так уж часто (из-за чего у клиентов FTDNA возникает иллюзия сравнительно небольшого количества таких сегментов). Поэкспериментировав, я остановился на рубеже в 150 снипов — менее него количество сегментов, являющихся статистическими артефактами, начало быстро расти. Основным показателем для отрисовки на этнокарте я взял общую сумму сегментов длиной более 3 сМ. Конечно, более длинные сегменты являются более четким показателем родства, однако их заметно меньше. А это значит, что их количество более подвержено случайным отклонениям. С другой стороны, более мелкие сегменты сливаются в общую кашу. Таким образом, выбранный критерий является компромиссом. При увеличении объема выборок на порядки станет возможно использовать только длинные сегменты и улавливать родство более четко.

Метод дает релевантные результаты при сравнении с выборками свыше 10 человек. Чем меньше размер выборки, тем сильнее влияние случайных отклонений. Из-за этого часть выборок я объединил вместе (например, литовцы и латыши стали балтами), часть исключил с карты. Однако некоторые все же пришлось оставить — в первую очередь это финны (2 человека), западные украинцы (6), башкиры (6) и австрийцы (4). Если для какой-то популяции значения явно выпадают из ряда соседей, всегда обращайте внимание на размер выборки, приведенный в сопроводительной таблице.

Одновременно достоинством и недостатком метода является сильное влияние «эффекта основателя», «множественного родства», «бутылочных горлышек» и т.д. За этим перечислением скрывается примерно одно и то же — когда популяция происходит от сравнительно небольшой группы людей, ее члены разделяют между собой большое количество общих сегментов. Наиболее известным примером являются евреи-ашкенази — достаточно иметь одного отдаленного предка из этого народа, чтобы получить множество генетических «кузенов». Таким образом, родство с народом, подвергшемуся такому эффекту, видно более четко. Но это же искажает общую картину — одинаковое количество генетических пересечений может означать совершенно разную степень близости в зависимости от истории популяции.

Я сравнил 26 человек из коммерческих выборок, представляющие различные популяции интересующих меня регионов, с набором из 1130 геномов, взятых из научных выборок. Результаты сведены в таблицу и частично визуализированы на картах. При интерпретации помните о вышеперечисленных искажениях!

Начнем с представителя народа, считающегося наиболее архетипичными восточноевропейцами в большинстве этнокалькуляторов. Это литовцы (картинка увеличивается по клику):

 

LithuanianIBD

Как видно, литовец оправдывает это звание и по количеству общих сегментов. Красное пятно закрывает большую часть Восточной Европы, в том числе и балтийских финнов. Условно говоря, на этой карте мы видим некий «базовый уровень родства» среди восточноевропейцев.

Пятно восточного финна практически совпадает по форме, однако распределение интенсивности иное:

Finnish-EastIBD

Я бы сказал, что в основном это более частный и специфичный вариант того же, что мы видим у литовца. Доказательством может служить высокий уровень пересечения с балтской выборкой. В то же время, существует и финская специфика, например, пересечение с саами, которые у литовца довольно бледные. Более яркое и пересечение со шведами. Скорее всего, здесь мы видим результат включения в состав шведов финского субстрата, поскольку с теми же норвежцами интенсивность явно ниже.

Крайней западной точкой у нас будет представитель российских немцев. На этнокалькуляторах Admixture он получается достаточно типичным представителем немецкого народа, поэтому версию о заметном влиянии на его наследственность русских можно исключить.

German_RussiaIBD

К сожалению, немецкой выборки у меня нет, поэтому Германия закрашена серым. Некоторым заменителем является Швеция, которая чуть ярче соседей. К некоторому  удивлению, французы и британцы не показали заметной общности с немцем, хотя ее уровень все же выше средневосточноевропейского. Частично это может объясняться тем, что в британской выборке лишь семь человек из 23 — англичане, остальные являются ирландцами. шотландцами и валлийцами. Пятно у восточных украинцев и южных русских также загадочно — неужели это след знаменитых готов?

Невозможно исследовать генетическое разнообразие восточноевропейцев и обойти при этом ашкенази. Поэтому я позволил себе небольшую некорректность и разместил их на карте в районе нынешней Одессы. Картинка для ашкенази из коммерческой выборки:

AshkenaziIBD

Ожидаемое ярко-красное пятно сходства с родной популяцией, остальные все довольно далеко (на втором месте получилась выборка сефардов, но ее на карте нет). Повышение у басков и греков показывает родство ашкенази со средиземноморскими популяциями, пятно у восточных украинцев и белорусов объяснимо длительным совместным проживанием.

Перейдем к восточным славянам. Небольшой размер выборки западных украинцев не помешал им оказаться на первом месте у карпатского русина:

Carpathian_RusinIBD

Пятна на остальной территории получились довольно неровными. Я бы не стал делать из этого каких-то глубоких выводов о древних пересечениях карпатцев и финнов или эрзян.

Северо-восточная Беларусь:

BelarusianIBD

Украина (Полтава):

Ukrainian-PoltavaIBD

Обращает на себя внимание пересечение с поляками.

Человек смешанного происхождения — донские казаки и украинцы:

RuUa-CossackIBD

Тверь-Рязань:

Russian-CenterIBD

Как видно, балто-славянская общность улавливается всегда, в то время как более тонкие различия частично видны, частично скрываются шумом (случайными отклонениями).

Представители эрзи и мокши явно в своей основе близки балто-славянам. При этом балтийские финны никак не выделяются, а народы волго-уральского региона уже довольно далеки. Все это не является новостью для интересующихся темой людей, однако независимое подтверждение результатов показывает действенность методики.

Эрзя:

ErzyaIBD

Мокша:

MokshaIBD

Мокшанская выборка не помещена на карту из-за своего маленького размера (давала слишком большие случайные отклонения). У мокши «родная» выборка получилась заметно ближе эрзянской, у эрзи, соответственно, наоборот. Вероятно, это значит, что, несмотря на родственность двух групп, различие между ними с точки зрения разделяемой популяционной истории существенно (простыми словами, женились преимущественно внутри своего народа).

У северного русского видно родство как с балто-славянскими выборками, так и с балтийскими финнами:

Russian-NorthIBD

Наряду с этим, у русского из Пермского края ощущается влияние коми. Вероятно, с этим же связано и приближение других народов Урала:

Russian-PermIBD

В то же время, сами коми-зыряне скорее относятся к тому же «балто-славяно-финскому» кругу популяций:

KomiIBD

Чтобы не делать пост бесконечным, карты для народов волжско-уральского региона (в широком смысле) будут приведены в следующей части.

Этногеномика беларусов — часть V

Обсуждение результатов и выводы

 

Как отмечалось в введении к нашей статье, главной задачей нашего исследования являлась проверка двух рабочих гипотез, озвученных в предыдущих исследованиях профессиональных попгенетиков. Во-первых, это гипотеза о присутствии трех основных древних компонентов , которая указывает на возможность общего происхождения славян и балтов. Во-вторых, это утверждение о том, что своеобразие аутосомного генофонда беларусов может быть связанно с вкладом балтского субстрата.

После внимательного изучения результатов нашего исследования,можно сказать, что оба из приведенных выше заключений представляют собой крайне упрощеные варианты сложного процесса формирования аутосомного генофонда беларусов. Хотя мы и не можем предоставить окончательных аргументов в пользу или опровержение каждой из этих версий, мы может предоставить более полное и подробное обозрение структуры аутосомного генофонда. В отличие от трех основых компонентов, упомянутых выше, в нашем исследовании мы выделили шесть основных компонентов, типичных для европейцев в целом. Основу генофонда составляет компонент, который мы обозначили как северо-восточно-европейский компонент. Именно этот компонент выделяет беларусов среди других восточных славян, приближая их к современным балтийским популяциям (у литовцев процент компонента составляет 81,9, у латышей — 79,5%, у беларусов -76,4%, у эстонцев — 75,2%). Примечательно, по мере удаления от территории Беларуси на север в с торону Латвии и Эстонии, увеличивается процент северо-европейского генетического компонента (как мы полагаем, этот компонент доминировал в генофонде доисторических жителей Скандинавии в эпоху до распространения финно-угоров и индо-европейцев). С другой стороны, беларусов и других восточных славян отдаляет от балтов и сближает друг к другу более высокий процент так называемого западно-азиатского или кавказского компонента (любопытно, что в этом случае эта закономерность может свидетельствовать в пользу западно-азиатской теории происхождения индо-европейцев).

Далее, как показывает анализ в программе fineStructure, генофонд беларусов характеризируется высокой степенью генетических контактов как с балтами, так и остальными славянами, а также с рядом финно-угорских популяций (например, c эрзя и мокша). О симметричном характере межпопуляционного обмена свидетельствует симметричное расположение популяции беларусов относительно этих трех групп.

Исходяизвышенаписанного,представляетсялогичнымсделатьвыводотом,чтоосновнойкритическийэтапстановленияаутосомногогенофондапришелсянапериодсмешиванияносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,послечегопредковыйаутосомныйгенофондбеларусовприобрелотносительнуюстабильность.Разумеется,даннаямодельнеисключаетпозднейшиеэпизодысмешиванияпопуляций,ноониоставилименьшийследвструктуреаутосомногогенофондабеларусов.Вэтойсвязивозникаеточевидныйвопрос–вкакойименноисторическийпериодпроизошлосмешениеносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,иктобылиихносителями?
В начале сентября 2012 года известная американская лаборатория популяционной генетики доктора Райха опубликовала альфа-версию программного продуктаADMIXTOOOLS1.0. Альфа-версия была разработана для внутреннего использования, поэтому modusoperandiэтого продукта вряд ли является кристально понятным для стороннего пользователя. Положительным аспектом на мой взгляд является то, что ADMIXTOOLSпакет обеспечивает полную совместимость с форматом другой очень популярной программыEIGENSOFT, которая была разработана в той же лаборатории. Это немаловажное обстоятельство намного упрощает процесс обучения в ADMIXTOOLS.

Вышеупомянутый пакет включает в себя 6 приложений, среди которых я считаю наиболее полезнойqp3Popи утилиты для вычисления частотной характеристики аллелей. Впрочем, я не собираюсь обсуждатьqp3popво всех деталях и в контексте данной заметки достаточно отметить, что эта программа реализует тест three_pop(F_3), подробно описанный в известной статье Рейха и соавт. 2009.

Однако другой имплементированный в пакете метод, – метод rolloff– нуждается в более пристальном внимании. Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатураLD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории, чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения LDв адмиксе напрямую связана с числом поколений, прошедших с момента адмикса, так как cвозрастанием числа поколений увлечивается число рекомбинаций произошедших между двумя отдельными SNP-ами. Проще говоря: Rolloffсоответствует экспоненциальной кривой угасания уровня LDот расстояния, и эта скорость экспоненциального снижения как раз и используется для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.

Этот метод открывает интересные перспективы. Для целей этого анализа, я создал специальный набор SNP-данных, который включает в себя около 750 000 cнипов, частично или полностью в 250 различных популяциях человека. Далее, я разбил популяции 3 * 62 000 трио в следующем виде (X, Y, Z), где X и Y – пара рефренсных групп, а Z – белорусы из коллекцииBehar et al.2010. После этого я провел q3Pop анализ этих трио.

Результаты изложены в нижеприведенной таблице

Indian Polish Belarusian -0.000736 0.000251 -2.935
Polish Indian Belarusian -0.000736 0.000251 -2.935
Karitiana Sardinian Belarusian -0.001278 0.000517 -2.471
Sardinian Karitiana Belarusian -0.001278 0.000517 -2.471
Otzi North_Amerind Belarusian -0.002556 0.001126 -2.271
Cirkassian Polish Belarusian -0.000488 0.000231 -2.113
Polish Cirkassian Belarusian -0.000488 0.000231 -2.113
Pima Otzi Belarusian -0.002727 0.00137 -1.99
Pima Sardinian Belarusian -0.000794 0.000431 -1.843
Sardinian Pima Belarusian -0.000794 0.000431 -1.843
Otzi Surui Belarusian -0.002938 0.001931 -1.522
Surui Otzi Belarusian -0.002938 0.001931 -1.522

 

На первый взгляд, результаты нашего эксперимента с 3qPop, кажется, неплохо согласуются с выводами, содержащимися в работеПаттерсон и др. 2012: “Самый поразительный вывод состоит в обнаружени четкого сигнала адмикса в северной Европе, один из элементов которого связан с предками населения наиболее близкого по своей генетике к баскам и жителям Сардинии, а другой – с предками современного населения северо-восточной Азии и Америки. Этот явный сигнал, вероятно, отражает историю смешивания неолитических мигрантов с коренным населением Европы, что подтверждается недавним генетическим анализом древних костей Швеция и секвенированием полного генома Отци Тирольца”. Что касается собственно белорусов, то источники сигнала смешивания с посторонними популяцими менее ясны и расплывчаты. Как было показано ранее, с точки зрения формального анализа примесей (f3 статистики), белорусы могут быть представлены в виде популяционного микса поляков и индусов / черкессов. Первый компонент смеси может быть связан с носителями культуры шнуровой керамики/боевых топоров и культуры колоковидных кубков; второй, в соответствии с результатами, должен быть общим для индусов и черкесов.

 

Белорусы = ((неолитические культуры Европы) + “носители культуры колоковидных кубков”) + (мезолитическое население Европы) + компонент носителей культуры шнуровой керамики)) + скифо-сарматский тип

 

Для оценки дата события базового адмикса в белорусской популяции, мы использовали в качестве референсных популяций поляков и индусов (Примечание: мы снизили порог генетических дистанции в параметрах Rolloff для снижения уровня шума от более поздних адмиксов).

 

rolloff

Как вы можете видеть, сигнал присутствия адмикса обнаруживается гораздо хуже, и в силу этого, погрешности в оценке временного промежутка высоки:

154,158 + -87,024 поколений назад (или, 4470 + -2523 года до настоящего времени / 2510 – +2523 лет до н.э.).

 

Исходя из этого, мы решили модифицировать Rolloff-анализ генофонда белорусов, используя на этот раз в качестве референсов литовцев и пуштунов. Следуя этому совету, я решил предпринять вторую попытку формального анализа адмикса в двух имеющихся у нас выборках беларусов ( выборка беларусов из статьи Behar et al. 2011), и выборка беларусов, собранная в нашем проекте.Ниже приведены результаты эксперимента с двумя этими группам (в отличие результатов нашей предыдущей попытки, результаты данного эксперимента менее “зашумленные”):

rolloff2

 

Интервал числа поколений, прошедших со времен анализируемого адмикса (105.086+-52.59) или 3069 +- 1525 лет до настоящего времени, что соответствует временном интервалу 2 тыс. до нашей эры – 6 век нашей эры. Принимая во внимание эти выводы, мы можем предположить, что основной аутосомный эпизод смешивания предковых популяций беларусов произошел в течении довольно таки продолжительного времени, охватывающего несколько тысяч лет. В этой связи, вопрос о том, кто именно был носителями северо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента, остается открытым.

Этногеномика беларусов — часть IV

Анализ структуры аутосомного генофонда популяции беларусов: результаты анализа этнического адмикса.

 

После проведения анализа этно-популяционного адмикса мы получили следущие результаты, обсуждению которых будет посвящена следущая часть нашего исследования. Результаты представляют собой разбивку аллельных частот на 22 кластера, каждый из которых представляет собой гипотетическую предковую популяцию. Поскольку в цели данного небольшого исследования не входит подробный анализ всех популяций, мы ограничимся сравнительном анализом структуры (компонентов) беларусов c географически близкими популяциями, а также с теми популяциями, которые могли входить в исторические контакты с предками современных беларусов:

admix

 

Рисунок 3. Результатыанализа ADMIXTUREK=22

У рассматриваемых здесь европейских популяций наиболее часто представлены следующие компоненты:

North-East-European,Atlantic_Mediterranean_Neolithic,North-European-Mesolithic, West-Asian, Samoedic, Near_East.

Разберем вкратце каждый из них. В ракурсе нашего исследования самым важным компонентом представляется – северо-восточно-европейский компонент North-East-European, он присутствует почти у всех европейцов, и в самой значительной степени — у балтов и славян: литовцы (81,9), латыши (79,5), беларусы (76,4), эстонцы (75,2), поляки (70,2), русские (67- 70,4), украинцы (62,1- 67,1), сорбы (65,9), карелы (60,2), вепсы (62,5), чехи (57,4), северные немцы (54,6), южные- 42,6, у британцев от 46 до 49, норвежцы- 48,1, шведы- (53,7).

Второй по значимости компонент — Atlantic_Mediterranean_Neolithic (юго-западно-европейский или просто западно-европейский неолитический компонент).[1]У восточноевропейцев он выражен в умеренной степени- чехи (27,8), поляки (18,4), украинцы ( от 17 до 21%), беларусы (13%), русские (от 11 у северных до 17,3 у южных), у коми (8,9 %), манси (8,8 %).

Третьй компонент – северо-европейский мезолитический компонент -North-European-Mesolithic[2]: cаамы (76,4 %), финны (от 30,1 до 37,3 %), вепсы (24,1), карелы (23,2), ижорцы (22, 7). Заметен этот компонент и у северных русских (10,5 %), норвежцев (9,8 %), шведов (7,8 %), эстонцев (7,1 %). У беларусов он практически отсутствует (1.1%).

Четвертый компонент – западно-азиатский (кавказский) West Asian[3]. На интересуемой нас территории этот компонент чаще встречается у казанских татар (9,9 %), южных немцев (8,4), украинцев (от 6,6 до 7,7 %), южных русских (6,2%). На западе высок процент у итальянцев (21,5 % у центральных итальянцев), французов (6,7 %), у беларусов (2.2%).

Пятый компонент — уральский Samoedic. Значительно присутствует у селькупов (68,1%), хантов (64,6), ненцы (37,1), манси (30,9 %-), удмурты (29,6), марийцы (27, 8), шорцы (22,0 %), башкиры (21,7%), чуваши и хакассы по 17,6 %, коми- 16,4 %, казанских татар (11,9 %). У западноевропейцев этот компонент практически не встречается, у русских (от 1,0% у центральных до 4,7 % у северных), у карел (1,6%), словаков (1,4%), западных украинцев (1,7 %), беларусы (0.5%).

Шестой компонент – ближневосточный Near_East[4]У южных немцев (3,5), украинцы (от 2,3 у восточных до 3,8 % у западных), чехи (3,0), беларусы (3,4), словаки (3,2), у русских от 1,0 до 1,5%, у литовцев- 1,4%, у поляков- 1,3 %.

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[1]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[1]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[1]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

Анализ разделяемых аутосомных сегментов между популяциями Северо-Восточной Европы.

С целью верификации результатов анализа главных компонентов генетического разнообразия я подготовил новую выборку популяций, которая включает в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.В ходе нового экспериментального теста в ходе статистической обработки общих по генетическому происхождению сегментов хромосом в составе выборки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, т.е размера той популяции которая участвовала в репродукции или обмене генами в некоем отдаленном временном промежутке. Собственно говоря, эффективная популяция – это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955). Новая программа Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение составило 22 000. Это близко к значениям Neрекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных ниже результатов, даже 22 000 для совокупности эффективного размера элементарных популяций – это более, чем достаточно.

 

finest

Рисунок 4. Расположение популяций в пространстве 1 и 3 главных генетических компонентов

 

Изложим ниже некоторые закономерности размещения популяци

 

  1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
  2. Все литовцы (участники проекта + референсы из вышеупомянутой статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев

  3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.

  4. Ниже находится балканский кластер (румыны, болгары и часть венгров).

  5. К этому кластеру примыкают турки и часть армян

  6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов).

  7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.

  8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

  9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

  10. Левее этой группы популяций находится кластер ашкеназов.

  11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

  12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

  13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

  14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

  15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).[5]

 

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[2]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[3]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[4]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

[5]Такое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции.То есть все эти баски являются многократными родственниками между собой т.е., положение басков на графике есть следствие классического генного дрейфа, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества sharedDNAchunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.

Исходя из этого можно сделать вывод о том что баски эта экстремально-эндогенная популяция изолянтов, при этом генетическое разнообразие басков низко, т.к. размер эффективной популяции басков низок.

Этногеномика беларусов — часть III

Анализ этно-популяционного адмикса

 

В ходе следующеего этапа, окончательный набор данных по референсным популяциям (которые я храню в linkage-формате PLINK) был обработан в программеAdmixture. Во время выбора подходящей модели проведения теста на этно-популяционный адмикс, мы столкнулись с крайне трудной задачей: как было показано в профильных научных исследованиях (Pattersonetal.2006) количество маркеров, необходимых для надежной стратификации популяций в анализе обратно пропорциональна генетическому расстоянию (фСТ) между популяциями. Согласно рекомендациям пользователей программы Admixture, считается что примерно 10 000 генетических SNP-маркеров достаточно для выполнения интер-континентальной GWAS-коррекции обособленных популяций (например, уровень дивергенции между африканскими, азиатскими и европейскими популяциями FST> 0.05), в то время как для аналогичной коррекции между внутриконтинентальными популяциями требуется более чем 100000 маркеров (в Европе, например, ФСТ < 0.01). Для повышения точности результатов Admixtureмы решили использовать метод, предложенный Dienekes. Этот метод позволяетпреобразовать частот аллелей в “синтетические” индивиды (см. такжепример Зака Аджмалаиз проекта HarappaDNA). Идея метода довольно проста: сначала необходимо запустить unsupervisedанализ Admixtureс целью вычисления частот аллелей в так называемых предковых компонентов, а затем на основании аллельных частот сгенерировать “фиктивные популяции”. Именно эти фиктивные популяции и индивиды будут использоваться в ходе чистых референсов в ходе последующего анализа этно-популяционного анализа. Впрочем, как и любые другие исследователи, работающий над четким решением проблемы этно-популяционного адмикса, мы были вынуждены считаться с ограничениями этого подхода. Хотя мы отдаем себе отчет в существовании явных методологических подвохов в использовании смоделированных искусственных индивидов для определения адмикса в реальной популяции, мы полагаем что полученные в ходе аллельно-частотного моделирования “фиктивных индивидов” представляют самую лучшую аппроксимацию древних генетических компонентов предпологаемых древних компонентов. В ходе применения простого моделирующего метода, нами были получены значимые результаты в ходе создания нового калькулятора. Сначала мы произвели unsupervisedAdmixture(при значении К = 22, т.е 22 кластера частот аллель или предковых компонентов). По выполнению анализа нами были получены оценки коэффициентов адмикса в каждой из этих 22 аллельных кластеров, а также частоты аллелей для всех SNP-ов в каждой из 22 родовых популяций.

Затем мы использовали мнемонические обозначения для каждого компонента (имена для каждого из компонентов выведены в порядке их появления). Нужно помнить, что обозначения этих компонентов носят скорее мнемонический условный характер:

Pygmy

West-Asian
North-European-Mesolithic
Tibetan
Mesomerican
Arctic-Amerind
South-America_Amerind
Indian
North-Siberean
Atlantic_Mediterranean_Neolithic
Samoedic
Proto-Indo-Iranian
East-Siberean
North-East-European
South-African
North-Amerind
Sub-Saharian
East-South-Asian
Near_East
Melanesian
Paleo-Siberean
Austronesian

Вышеупомянутые частоты аллель, вычисленные в ходе unsupervised(безнадзорного) анализа (AdmixtureK= 22) объединенного набора данных, были затем использованы для симуляции синтетических индивидов, по 10 индивидов на каждую из 22 предковых компонент. Это симуляционное моделирование проводилось с помощью PLINKкоманды -simulateРасстояние между между симулированными «искусствеными» индивидами было визуаилизировано с использованием многомерного масштабирования.

simul

На следущем этапе, я включил группу смоделированных индивидов (220 индивидов) в новую эталонную популяцию. После чего я запустил новый анализ А, на этот раз в полном “поднадзорном” режиме для K= 22, причем полученные в ходе симуляционного моделирования фиктивные популяции фиктивных индивидов использовались в качестве новых референсных эталонных групп. На конвергенцию 22 априорно заданых предковых компонентов было затрачено 31 итераций (3 7773,1 сек) с окончательным loglikelihood: -188032005,430318 (ниже, на следущей странице, приведена таблица значений Fst между расчетными ‘предковыми’ популяциями):

fst dist

Рисунок 1. FST-дистанции между компонентами

 

Приведенная выше матрица Fstдистанций была использована для определения наиболее вероятной топологии NJ-дерева всех 22 предковых компонентов ( примечание: в качестве outgroup-таксона использовался South-Africancomponent).

Этногеномика беларусов — часть II

Анализ структуры аутосомного генофонда популяции беларусов: методы, технические параметры и предварительные замечания.

 

В целях сопоставимости выводов данных анализа с приведенными выше выводами профессиональных популяционных генетиков, мы использовали в своем исследовании референтную выборку беларусовиз ДНК-банка Института Генетики Беларуси в том же объеме, в котором она была задействована в исследовании группы ученных под руководством Бехара (модифицированная выборка Генбанка с кодом доступа:GSE21478)[1]. Наряду с референтной группой беларусов (обозначена как Belarusian), мы использовали данные лиц беларуского происхождения из нашего собственного проекта этно-популяционного анализа лиц, предки которых проживали на территории Беларуси минимум 100-150 лет(обозначено как Belarusian_V).

Для проведения сравнительного анализа генофонда популяций нам понадобился референтный набор популяций. Референтный набор популяций в этом калькуляторе был собран в программе PLINK  методом “intersection&thinning” ( дословно “пересечением и истончением”) образцов из различных источников данных:HapMap 3(отфильтрованный набор данных КЕС, YRI, JPT, CHB),1000genomes, Rasmussen et al. (2010), HGDP (кураторская база данных Стэнфордского университета), Metspalu et al. (2011), Yunusbayev et al (2011),Chaubey et al. (2010)и т.д. Кроме того, мыотобралипроизвольным образом по 10 сэмплов (или максимальное количество доступных сэмплов в тех случаях, когда общее число сэмплов в популяции было меньше 10) от каждой европейской страны, представленной в панеле базе данныхPOPRES.Наконец, для того чтобы оценить степень корреляции между современным и древним генетическим разнообразием населения Европы, мытакже включилив выборку образцы древней ДНКЭци(Keller et al. (2012)) , образцы жителей шведского неолита Gök4, Ajv52, Ajv70, Ire8, STE7 (Skoglund et al. (2012))и 2 образца La Braña – останков мезолитических жителей Пиренейского полуострова (Sánchez-Quinto et al.(2012)).

Затем мыдобавили90 образцов – анонимизированных данных — участников моего проекта. После слияния вышеупомянутых наборов данных и истончения набора SNP с помощью особой команды PLINK, мыисключилиSNP-ы с менеечем 0.5% минорных аллелей. Послечего мыотфильтровал дубликаты, лиц с высоким уровнем общих по происхождению идентичных сегментов (IBD). В качестве критерия фильтрации были использованы расчеты IBD в Plink, где IBD представлена как средняя доля аллелей общих между двумя людьми по всем анализируемым локусам. Затем мыудалилииз выборки лиц с высоким коэффициентом предпологаемого родства, коэффициенты родства были вычислены в программном обеспеченииKing).

Для получения более стабильных результатов, мытакже отфильтровалисэмплы с более чем 3 стандартными отклонениями от средних данных по популяции. Поскольку коэффициент родства может быть надежно определен с помощью оценки HWE (ожидания, вытекающего из законаХарди-Вайнберга) между SNP-ами с той же базовой частотой аллелей, то SNP-ы с существенным отклонением (p < 5.5 x10−8) от ожидания Харди-Вайнберга были удалены из объединенного набора данных. После этого мывыделилите SNP-ы, которые присутствовали в чипах Illumina / Affymetrix, и затем произвелифильтрацию снипов на основе расчетов степени неравновесного сцепления (в этом эксперименте мыиспользовалтхромосомное ‘окно’ размером в 50 базовых пар, с шагом 5 базовых пар и пороговым значением уровня сцепления R ^ 2, равным 0,3).

По окончанию этой сложной последовательности операций, мыполучил окончательноый набора данных, который включал в себя 80 751 снипов, 2516 человек и 225 референсных популяций.

 

[1] http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE21478