Этюд на тему ДНК-генеалогия.

Мой блог посвящен преимущественно тематике аутосомной ДНК, однако время от времени я затрагиваю тему однородительских маркеров происхождения (Y-ДНК и митоДНК).  Начну заметку издалека.
Среди обывателей села Стахова бытует легенда, о том, что род Вереничей пришли на земли пинского Полесья из Югославии.К сожалению, как и в большинстве подобных легенд, cовершено невозможно разобраться в том, где правда, а где позднейшие выдумки. Так и в этом случае. Ни в одном из имеющихся e меня исторических документах нет даже и намека на балканское происхождение Вереничей. Даже в самых ранних документах (например, в «Ревизии пущ и переходов звериных в бывшем Великом княжестве Литовском с присовокуплением грамот и привилегий на входы в пущи и на земли, составленной старостою мстибоговским Григорием Богдановичем Воловичем в 1559 г. «, или в «Писцовой книге Пинского староства Лаврина Воина, 1561—66«) уже видно, что даже в то время род Вереничей на Полесье считался «издавним«.



Так в ревизии Воловича (1559 года) читаем, что

«Павел Веренич на дворище у Стохови жъ не покладалъ листовъ, только давность, и на другое дворище у Дубой».


Слово давность означает существование в течение долгого времени, издревле, искони. Происходящие от корня этого слова прилагательные и наречия попадаются в разных актах с конца XIII века. Как юридический термин существительное <давность> употреблялось уже весьма рано в западнорусском законодательстве; собственно же в России оно появляется в виде термина лишь с XVIII века. Выражение земская давность было юридическим термином в Литовском Статуте, из которого заимствовано русским законодательство.

 



В строго юридическом смысле срок давности владения определялся десятью годами. Впрочем, здесь давность может употребляться в другом значении. Так, в актовых материалах все той же «Ревизии пущ и переходов звериных в бывшем Великом княжестве Литовском с присовокуплением грамот и привилеев на входы в пущи и на земли, составленная старостою мстибогским Григорием Богдановичем Воловичем» в числе прочих землевладельцев Пинского повета упомянуты Грынь Веренич с братом Павлом «с имений своих стародавних [т.е. с незапамятных времен] военную службу служащих«. Судя по этому, Вереничи могли появится в Стахове уже в середине 15 века, если не раньше.
Когда, откуда, и при каких обстоятельствах — обо всем этом известные мне историко-юридические источники умалчивают. Более поздние документы не только не дают ответа на эти вопросы, а скорее еще больше запутывают ситуацию. Так например в «Выводе фамилии урожденных Стаховских придомка Веренич» (Год 1802 Месяца ноября двадцать второго дня на на сессии Депутации выводовой Губернии Минской) читаем следущее:

«Принесена была просьба от фамилии древней родовитой панской шляхты урождённых Вереничей Стаховских герба “Огончик” (пол-стрелы белой на половине перстня стоящей, в поле красном, над шлемом две женские руки вытянутые вверх) которая на наследственных землях и осадах в повете пинском лежащих от найяснейшых времён королевства Польского, прерогативами шляхетства пользовалась, и клейнотом родовитости неискаженно и непрерывно пользовались. [стр. 616] В потверждение указов найяснейшей воли – линия родословной своей вместе с документами перед депутацией выводовой губернии Минской составлена, потверждена доводами и внесена в дворянские книги Минской губернии в соответстии с законом.Родословие своего дома разделили на две линии. Дух родных братьев Семена и Дмитрия Вереничей Стаховских за родоначальников взяли, и от них до себя довели. И правдивость этого они через доказательства и документы следующим порядком довели. Семен и Дмитрий Вереничи Стаховские братья между собой родные. В повете Пинском осели и дали начало своему роду и фамилии. И в подтверждение своего первого поколения они предъявили привилегию от наияснейшего короля польского Сигизмунда Августа за год тысяча пятьсот шестьдесят шестой от июня двадцатого дня где, между другими для шляхты пинской пожалованиями за военную службу выше упомянутым Семену и Дмитрию Вереничам Стаховским земли в наследственное владение в повете Пинском лежащими дворища Веренича в Стахове и Дубой называющееся им и потомкам их пожаловал…»

Содержание начала текста весьма типично для подобных документов, но здесь нет сведений о точном времени появления Вереничей в Стахове, не говоря уже о явных хронологических несуразицах, которые я разбирал в другой заметке.

  1. Во-первых, под «привелем» 1566 года понимается общий «привилей» Сигизмунда-Августа, данные всей пинской шляхте в подтверждение их землевладельческих и шляхецких прав.
  2. Во-вторых, Семен и Дмитрий жили не в 1566 году, а как минимум на сто лет раньше — около 1456-1466 годов. В доказательство верности моих вычислений можно привести следующие аргументы. В решении судей Главного Трибунала ВКЛ от 1637 года упоминается о привелее кн. Марии Семеновны (+1501) ( в документе ошибочно указано Ярославовны) и ее сына кн. Василия Семеновича (+1495) от 6998 года индикта 8 (1490 года согласно современному летоисчислению), в котором подтверждается совместное владение Волошиным (sic!) Павлом и Ходором Вереничами даниной своей бабки в селе Тупчицы, Согласно родословной, Павел — сын Дмитрия и племянник Семена. В следующем по времени привилее кн. Федора Ивановича Ярославича от 26 апреля 1514 данном дочерям Антона (Андрей?) Дмитриевича Веренича потдверждается их вотчинное права на земли пожалованные их отцу в Стахове, Дубое и Тупчицах. Очевидно, Антон(или Андрей) — тоже сын Дмитрия, и более того, в 1514 году его дочери были уже совершеннолетними.
  3. В-третьих, в переписе войска литовского 1528 года упомянут пинский боярин Верениш (sic!), который служил «сам со своего имения». Далее, из судебного дела от 26 марта 1543 года по иску Пашки Павлова и его братьи Игнатия и Гаврила к Ваське Лозичу, который унаследовал по своей жене Ульяне Лукашевичевой Веренич часть имений Дубой и Стахово. мы узнаем, что в 1543 году внуки Дмитрия (Пашко Павлович и его двоюродные братья Гавриил и Игнат Васильевич) были уже взрослыми, так же как и покойная Ульяна Лукьяновна (дочь Лукьяна Семеновича, внучка Семена Веренича), после смерти которой третья часть дворища Веренич в Дубое и дворища Веренич в Стахово перешла к Ваське Лозичу.

 



Далее, в 1554 году — за 12 лет до указанной в привелее даты — в материалах, собранных в ходе ревизии пущ и переходов лесных -упомянуются Грынь Веренич с (троюродным) братом Павлом с имений своих стародавных военную службу служащих. Как известно, Грынь — внук Семена, а Павел или Пашко — внук Дмитрия. О самих Семене и Дмитрии ни слова, хотя если бы они жили в это время, то скорее всего именно они или их сыновья были бы записаны как старшие в своем роду, но никак не их внуки.В 1559 году, по все той же ревизии Воловича, в числе земян Стаховских опять упоминается Павел Веренич, правда, уже без Гриня. В тексте четко сказано, что Павел не покладал листов (т.е. не предъявил привелея), только давность на дворище у Стахова и другое дворище у Дубоя. Поскольку большую часть книги Воловича составляют привелеи, выданные или подтвержденные королевой Боной, следовательно, от Боны Вереничи привлеев не получали, по крайней мере, на земли в Дубое и Стахове.Все вышесказанное означает, что уже задолго до 1566 года Вереничи владели своими дворищами и землями на основании вотчинного права, и что феодальные права Вереничей на эти земли восходят — как минимум -временам кн. Марии Семеновны и ее сына Василия (то есть к периду между 1475-1490 гг).


Реконструкция позволяет очертить интервал появления Вереничей в Стахове — но с обстоятельствами появления по-прежнему нет никакой ясности. Поскольку скудные исторические свидетельства обходят  этот вопрос сторонй, то можно обратиться к преданиями. Среди старожилов села Стахова якобы сохранилось следующее якобы древнее предание:


Когда-то, давным-давно, жил на Полесье князь Карачинский (sic!). В его владениях находился большой дремучий бор, около которого проходил торговый шлях. По прошествии времени, в этом бору поселилось 100 половцев, которые совершали нападения на проезжающих купцов и селян. Князь, прослышав о разбойниках, повелел своим «палявничим» (охотникам) узнать, где находится разбойничье логово. Один из охотников решил проследить путь до логово половцев и стал делать топором зарубки на деревьях. Услышав стук топора, войны князя отправились в сторону, где раздавалось эхо стука топора. Таким образом, они вышли прямиком на логово разбойников и истребили их. В награду за верную службу, князь наградил находчивого охотника землям, где находился стан половцев. Охотник постоянно носил с собой «Ксендз Лаврентий Янович, каноник венденский, в своей речи на погребении Элжбеты с Стаховских Каренжины, жены вилькомирского судьи, изданной в сборнике «Золотой улов на реках и водах смертности сего мира и т.д» (Вильно 1665 г.) размещает следущее предание, относящиеся к истории Стахова.: «Князь Карачевский, владелец обширных волостей, лежащих на Пинщине, крайне скудными силами 100 половцев положил трупами и на там же месте похоронил, как и по ныне свидетельсвтуют о том курганы того места. За это мужесто правящий князь ему отдал в удел это поле, а также столько земли, сколько мог объять звонкий звук трубы. Отсель то земельное надание стало называтся Стоховым, потому что там похоронено сто убитых врагов.» (веренька, вярэнька), и поэтому его прозвали Веренькой. Его потомки приняли прозвище родоначальника в качестве фамилии.


К сожалению, изучение этого предания показывает его недавнее происхождение. Скорее всего, оно выписано из 9-го тома «Полного географического описания нашего отечества» изданного в 1905 году В.П.Семеновым-Тян-Шанским , куда, в свою очередь перекочевало из известного издания «Słownik geograficzny Królestwa Polskiego» изданного в 1880–1902 гг., а именно из 11 тома, в котором на стр.171-172 была размещена довольно объемная статья Александра Ельского и Эдварда Руликовского о Стахове. Именно с подачи Руликовского в этой статье была размещена выписка из издания 17 века:

«Ксендз Лаврентий Янович, каноник венденский, в своей речи на погребении Элжбеты с Стаховских Каренжины, жены вилькомирского судьи, изданной в сборнике «Золотой улов на реках и водах смертности сего мира и т.д» (Вильно 1665 г.) размещает следущее предание, относящиеся к истории Стахова: «Князь Карачевский, владелец обширных волостей, лежащих на Пинщине, крайне скудными силами 100 половцев положил трупами и на там же месте похоронил, как и по ныне свидетельствуют о том курганы того места. За это мужесто правящий князь ему отдал в удел это поле, а также столько земли, сколько мог объять звонкий звук трубы. Отсель то земельное надание стало называтся Стоховым, потому что там похоронено сто убитых врагов.»

 


В приведенном отрывке приводится родословное предание рода Стаховских герба Огоньчик, (проживавшего в мстиславском, виленском, новогрудском и пр. воеводствах ВКЛ), генеалогическая связь которого с Вереничами пока никак не проясняется. Главным фигурантом здесь выступает князь Карачевский (которого, видимо, Cтаховские считали своим предком), а вовсе не «охотник с сумкой из бересты». Можно с уверенностью сказать, что «легенда старожилов» Стахова появилась самое ранее в начале 20 века в среде «грамотеев» села Стахове как результат переосмысления текста статьи их энциклопедического справочника,  а затем объединения легенды об основании Стахова с народной этимологии фамилии Веренич.



Итак, и этот источник не дал нам ничего ценного. Поскольку возможности документальной генеалогии на этом этапе практически исчерпываются (и открытие новых источников вряд ли предвидится), остается обратится к новой отрасли — ДНК-генеалогии.

Генетическая генеалогия использует ДНК-тесты совместно с традиционными генеалогическими методами исследования. Каждый человек несёт в себе своего рода «биологический документ», который не может быть утерян — это ДНК человека. Методы генетической генеалогии позволяют получить доступ к той части ДНК, которая передаётся неизменной от отца к сыну по прямой мужской линии — Y-хромосоме. ДНК-тест Y-хромосомы позволяет, например, двум мужчинам определить, разделяют ли они общего предка по мужской линии или нет. ДНК-тесты не просто помощь в генеалогических исследованиях — это современный передовой инструмент, который генеалоги могут использовать для того, чтобы установить или опровергнуть родственные связи между несколькими людьми.

Итак, в 2008 году узнал свою Y-хромосомную гаплогруппу (I2a). Немного терминологии для читателей, далеких от науки:

Гаплогруппа (в популяционной генетике человека — науке, изучающей генетическую историю человечества) — группа схожих гаплотипов, имеющих общего предка, у которого в обоих гаплотипах имела место одна и та же мутация — однонуклеотидный полиморфизм.

 

 

Позднее протестировались еще 2 Веренича, и наши гаплогруппы совпали, что подтверждается достоверность официальной родословной. Казалось бы, после всех усилий, можно было бы легко определить ареал, откуда появились предки Вереничей (очевидно, что это ареал с наибольшей частотой или наибольшим разнообразием гаплогруппы I2a). На поверку же все оказалось гораздо сложнее. Географический ареал гаплогруппы I2a (вернее ее восточноевропейской, «динарской» ветви) характеризуется бимодальным распределением — в восточной Европе они приходятся на регион Полесье-Карпаты и на регион Балкан (с макисмальной частотой в Боснии-Герцеговине).

По иронии cудьбы, именно с этими двумя регионами связаны две наиболее вероятные версии происхождения Вереничей. Таким образом, знание одной лишь корневой гаплогруппы мне, по большому счету, не помогло ни подтвердить, ни опровергнуть одну из этих альтернативных версий.

Тупиковая ситуация изменилась лишь после того, как один из Вереничей сделал полный сиквенс Y-хромосомы (BigY в FTDNA). Благодаря ему удалось достаточно точно позиционировать расположение нашей ветви-кластера внутри общей структуры филогенетического дерева I2a.Благодаря присутствию Y-хромосомного сиквенса (YF03602) представителя рода Вереничей в базе данных yfull.com (спасибо за помощь Vladimir Semargl и Vadim Urasin) представляется возможным оценить возраст моего кластера. На настоящий момент в него входит еще один полный сиквенс Y-хромосомы (YF04188), о хозяине которого мне ничего неизвестно.

Возраст линии Вереничей оценивается в 1438 лет до настоящего времени, линии YF04188 — всего лишь в 546 лет.По расчету снип-мутаций возраст I-Y17665 (и возможно I-A7318) оценивается примерно в 1000 лет (т.е. временами Киевской Руси), а возраст родительской ветви A1328 в 1850 лет до настоящего времени (начало нашей эры). Возраст, определенный по снипам, указывает на время выделения ветви I-A1328, хотя возраст последнего общего предка (определенный по значениям других маркеров Y-хромосомы) чуть ниже -1400 лет (т. е примерно 5-6 века нашей эры). То есть ветвь моих прямых предков в это время прошла пресловутое бутылочное горлышко, сопровождаемое, как правило, падением числа представителей линии и уменьшением разнообразия.

Здесь начинается самое интересное.



Недавно, зайдя на сайт проекта I2a в FTDNA, я обнаружил результаты некоего Враньешевич из Черногории. Я бы не обратил на него внимание, если бы он не попал в тот же кластер, что и я (в этот кластер входит ветвь Вереничей, гаплогруппа (I2-A7318, т.е подветвь I-A1328)).Я решил рассчитать возраст I-A1328 с помощью калькулятора semargl.me и стандартных для набора 37 маркеров скорости мутации. К сожалению, в базе данных Semargl немного гаплотипов из конкретно моего кластера и ближайщих к нему братских кластеров. В общем возраст, по ASD методу получилось что возраст моего кластераI (Y17665) — 1050 лет, а при подключении (в качестве outgroup) гаплотипа из I-A1328* возраст кластера I-A1328* составил примерно 1850 лет. То есть, это верхний интервал временного промежутка, когда мог жить последний мой общий предок (MRCA) и Враньешевича.

I2a2 ‘Dinaric’ ..L621>CTS10228>S17250>Y4882>A1328>A7318 (I-A7318)

568 362501 Verenich Werenicz,Werenich,Verenich,Werenitz,Stachowski. Belarus I-A7318

I2a2 ‘Dinaric’ ..L621>CTS10228>S17250>Y4882>A1328 (I-A1328)
564 E13120 Vranjesevic Vranjesevic Milan-Mico, birth 1913, death 1992 Bosnia and Herzegovina I-A1328


Нижний интервал можно определить с помощью калькулятора McDonald. Для вычисления дистанции в годах я сравнил значения 67-маркерного гаплотипа одного из Вереничей с аналогичными маркерами гаплотипа Враньешевича. 10 маркеров имеют другое значения. Получается разница в 10 маркеров на 67 маркерных гаплотипах.

Generations Probability Cumulative
1 0.000000 0.000
2 0.000000 0.000
3 0.000000 0.000
4 0.000004 0.000
5 0.000022 0.000
6 0.000091 0.000
7 0.000279 0.000
8 0.000699 0.001
9 0.001495 0.003
10 0.002825 0.005
11 0.004827 0.010
12 0.007592 0.018
13 0.011137 0.029
14 0.015396 0.044
15 0.020223 0.065
16 0.025408 0.090
17 0.030697 0.121
18 0.035824 0.157
19 0.040537 0.197
20 0.044616 0.242
21 0.047893 0.290
22 0.050258 0.340
23 0.051662 0.391
24 0.052111 0.444
25 0.051660 0.495
26 0.050401 0.546
27 0.048451 0.594
28 0.045943 0.640
29 0.043014 0.683
30 0.039796 0.723
31 0.036412 0.759
32 0.032973 0.792
33 0.029568 0.822
34 0.026274 0.848
35 0.023146 0.871
36 0.020225 0.891
37 0.017537 0.909
38 0.015097 0.924
39 0.012906 0.937
40 0.010961 0.948
41 0.009252 0.957

 

14202591_10210357856572557_5019604267960638228_n-1 14199500_10210357943174722_1769976137139415870_n

Пик гистограммы приходится на интервал между 21-30 поколениями, начиная с 26 поколения кумулятивная вероятность родства достигает убедительных значений достигая 0.95 в 41 поколении. Т.е. нижняя граница приходится примерно интервал в 600-1025 лет до настоящего времени — другими словами между 15 и 10 веками нашей эры.

Разумеется, c генеалогической точки зрения, исследование нижнего интервала (с общим предков в 14-15 веках нашей веры) более перспективен, тем более что я проследил свою прямую мужскую линию до 19 поколения.

Но насколько возможен факт наличия общего прямого мужского предка белоруса и черногорца в 21-30 поколениях? Дает ли генеалогия Вереничей предпосылки для такого утверждения? Прямых предпосылок, разумеется, нет.


Зато есть соображение ономастического характера. Один из сыновей второго родоночальника — Дмитра — Василь носил прозвище Волошин — так обычно в русских землях называли валахов, хотя часто прозвище Волошин не имело этнической коннотации и могло выступать в качестве отыменного прозвища: например, Володшин cын -> Волошин или Власий -> Волос -> Волошин. Наконец, составитель документа или переписчик мог сделать обычную описку. Впрочем, последнее опровергает существование 2 топонимов в окрестностях Стахова — урочища и острова Волошиново — причем именно там находились в 16-17 веках владения потомков Дмитра Веренича (старшим сыном которого являлся Василь Волошин). Кстати, любопытно отметить, что иногда в документах 16 века фамилия Веренич записывается не с окончанием —ч, а с более традиционным для южных славян окончанием — ш (Верениш)

А как же тогда быть с Вранешьевичем? Какое отношение он может иметь к валахам?

Лет 8 тому назад я порылся в исторических документах и обнаружил, что похожая фамилия Вранчич (в хорватском произношении Веранчич) действительно существовала на территории так называемого царства Сербия. После фактического распада Сербского царства (около 1366-1371 года), часть Вранчичей переселилось в Южную Сербию и Черногорию (где потомок Вранчичей воевода Радич Црноевич основал династию Црноевичей, которая в 15 веке праваила Зетой и Черногорией), другая перешла на службу к усилившемуся после падения «црства Српскаго» боснийскому королю Стефану Твртко I, который в 1370 и 1389 годах принял титул короля сербов, Боснии (1379) , Далмации и Хорватии (1389). Эти боснийские Вранчичи после падения Боснии (1463 год) под ударами турков частью переселились в Далмацию (г.Шибеник), которая с1420 была под венецианским владычеством, другая переселилась на границу Герцеговины и Черногории, где владели под турками «хематом» Вранеш, названого так в честь «валашского» князя Херака Вранеша (Вранеш — это герцеговинское диалектное видоизменение имени Вранчич).»Из возможных потомков Вранчичей, оставшихся в восточной Боснии и Герцеговине, особого внимания заслуживает «влашский» (sic!) кнез Херак (Владиславич?) Враньеш.

Казалось бы, вышеприведенные рассуждения выглядят убедительно. На самом же деле, остается главная проблема — дело в том, что фактически на протяжении 14-17 веков неизвестно никаких миграций жителей Балкан и влахов на территорию Полесья. Да, действительно была т.н. валашская колонизация, но она затрагивала главным образом территорию юго-западной Украины (прежде всего «червонной Руси» и «любельской земли», т.е. земли вокруг Львова, Звенигорода, Галича, Теребовля, Санока, Кросно, Белза, Замосця, Холма (Хелма). Причем интенсивность расселения «валахов» даже в этих регионах резко уменьшалось по мере продвижения на север (см. приложенную ниже карту).

14212036_10210384176630542_5840107323456791924_n

Например, на ближайшей к Полесью Волыни встречаются лишь фрагментарные упоминания бояр «Волошинов» в документах Метрики Литовской начала 16 века — они касаются пожалования земель в кременецком повете, т.е на рубеже ВКЛ и русского воеводства короны Польской (причем многие из этих «волошинов» носят чисто румынские имена Негое, Урсул и так далее). Такой же фрагментарный характер носят и земельные пожалования «волошинам» и на Подолье. И уж совсем единичные упоминания Волошинов мы находим в документах Метрики Литовской, касающихся земель современной Беларуси. Правда, на Брестчине одна семья «волошинов» — Ходько, Зань и Васько — получила в начале 16 века привелей на имение Чернско (от них происходит род Черских в брестском воеводстве, который вымер в 17 веке).

Размышления над эффективностью алгоритма SPA

Перед тем,  как закрыть тему SPA, я решил поразмышлять о причинах неточности определения географического ареала происхождения с помощью генома. Те, кто воспользовался моей моделью для программы SPA (последняя версия — сентябрь 2016 года), могли убедится в том, что даже при наличии большого количества маркеров, модель не во всех случаях точно определяет ареал происхождения (даже с поправкой на погрешность радиусом в 500 км).
В основу алгоритма SPA положены примерно те же самые предпосылки, что и в случае с классическим анализом главных компонент (PCA)

  • Первая предпосылка  подхода SPA состоит в том, что частота аллели каждого SNP в популяции может быть смоделирована в виде непрерывной двумерной функции на карте. Другими словами, при выборе хромосомы индивидуума из локации с позицией (х, у) на карте, вероятность наблюдения минорного аллеля в SNP j на хромосоме может быть сформулирована в виде функции F (х, у), где Fj является непрерывной функцией, описывающей поведение частоты аллеля в зависимости от географического положения
  • Затем на основании сказанного делается упрощающее предположение, что эта функция является экземпляром логистической функции

 

где х представляет собой вектор переменных, указывающих географическое местоположение и а и Ь коэффициенты функции. Авторы понимают каждую из этих функций, как функцию FJ функции наклона градиента частота в SNP J. Эта функция кодирует крутизну склона по норме а, при этом предпологается что смещение параметра b фиксировано. Кроме того, направленность наклона  кодируется в значении вектора а.  Более подробно, θj = арктангенс (aj(1) / aj(2)) могут быть приняты в знчения угла для SNP j, где aj(1)  и aj(2)  являются первым и вторым элементами вектора а.

Поскольку SPA имеет явные географические координаты, подход может быть расширен для систем за пределами обычной картезианской двумерной плоскости координат. В качестве демонстрации этого, авторы программы SPA использовали алгоритм для анализа пространственной структуры населения земного шара, в которой двухмерное отображение на двухмерной плоскости не может точно фиксировать структуру популяции. Таким образом, каждый индивид проецируется на точку земного шара в трехмерном пространстве. Соответственно, авторы использовали трехмерный вектор х (с ограничением || х || равным определенной константе), чтобы представить индивидуальную позицию.

Используя данные (генотипы индивидов из различных популяций из  HGDP), авторы обнаружили что пространственная топология расположения индивидов в пространстве SPA мы наблюдали, что сильно напоминала топологию географической карту мира. В частности, люди из того же континента были сгруппированы вместе, а континенты были разделены примерно так, как это следовало бы ожидать из пространственного расположения.

ng-2285-f3

 

Главная проблема метода состояла в другом. Несмотря на точность топологии взаимного расположения индивидов,  на карте SPA сильно искажены расстояния между континентами.

Например, продольный размер континента Евразии составил 92 градусов в  SPA-пространстве земного шара, в то время как в пространстве реального земного шара — 150 градусов. Продольное расстояние между Европой и Северной Америкой составило 167 градусов на SPA карте земного шара, в то время как на самом деле оно составляет 90 градусов.  Любопытно отметить, что мой опыт работы с этой программы показал, что наибольшую проблему составляют географические координаты долготы, в то время как широты предсказываются довольно точно. То есть по какой-то причине (несимметричность генетических градиентов в направлении север-юг и направлении восток-запад?) пространство SPA очень сильно искажается в продольном измерении (т.е в долготу).
По этой причине, вычисленные географические точки происхождения для европейцев часто оказываются в Атлантическом океана и так далее.

Я решил использовать данные импутированных генотипов для европейских популяций (я занимался их импутацией на протяжении последнего полгода). На этот раз я ограничился только европейскими популяциями. Я  сделал два разных набора с разным числом снипов — один с 1 062 376 снипами, которые содержатся в платформах генотиприрования клиентов 23andme и FTDNA, другой — примерно 590 395 снипов.  Обе модели можно скачать с Google Drive  (здесь и здесь).

Несмотря на тщательный подбор снипов, обе модели продолжают страдать характерным сдвигом географических долгот, а это означает, что данная проблема обусловлена не выборкой генотипов, а самим алгоритмом программы (т.е. улучшение качества выборки или увеличение количества снипов не приводит к повышению точности даже в том случае, если мы используем для тренировки программы на обучающей выборке  индивидов с известной географической локацией).

Это хорошо видно на полученных в ходе анализа моих собственных данных географических координатах 2 точек происхождения (одна из них в Гренландии,  другая в Средиземном море)

untitled

Разумеется, вряд ли можно говорить о точности подобных вычислений. В ходе размышлений над способом решения проблемы я вспомнил о существовании ортогонального прокрустового анализа.

Я взял две матрицы — одну с географическими координатами (фактически центроиды — географические центры стран) и  вторую с предсказанными  (в модели 1M cнипов) величинами географических координат тех же самых образцов (с усредненными значениями по этносам), а затем совершил прокрустово преобразование в программе R, получив новую матрицу с преобразованными значениями координат. Ниже виден результат операции (преобразованные усредненные координаты образцов спроецированы вместе с центроидами на карту Европы). И хотя координаты по-прежнему немного сдвинуты относительно истинных, в целом результат уже гораздо лучше (правдоподобнее).rplot14При проведении прокрустова анализа, кроме Xnew (трансформированной матрицы),  мы получили значения матрицы вращения R, s- коэффициент масштабирования и tt — вектор трансляции координат, минимизирующие дистанцию между матрицей предсказанных координат и матрицей географических координат.

Эти значения можно использовать для коррекции значений географических координат, рассчитанных в SPA. Я снова использую свои данные (2 предсказанные точки географического происхождения Xp):


Xt=sRXp + 1tt


При подстановке Xp получаем следующие значения

точка A:  60.245448+-11.059673 северной широты;  21.394898 +- -5.979712  восточной долготы (северо-западная Балтика и Скандинавия)

точка B: 43.000748+-8.801889 северной широты;  20.725216+-52.159598 восточной долготы (юго-восточная Европа, Балканы и Греция).

 

 

 

 

 

Окончание процесса фазирования и импутирования геномов

К середине мая этого года я закончил трудоемкий процесс импутации сборной солянки из 9000 публично доступных образцовых представителей  700 различных человеческих популяций, генотипированных в разное время на разных снип-платформах (главным образом — Illumina и Affymetrix)
Строго говоря, я планировал завершить этот этап работы намного раньше, но в ходе выполнения работ возник ряд обстоятельств, помешавших завершить этот этап в срок. Главным из них является смена сервера где я выполнял импутирование геномов. Я начал работать на сервере Мичиганского университета, однако в ходе процесса перешел на аналогичный сервис Института Сэнгера (имени того самого нобелевского лауреата, предложившего первый метод полного сиквенирования генома).
Это решение было продиктовано необходимостью использовать новейшую референсную панель аутосомных гаплотипов — Haplotype Reference Consortium (в нее входит примерно 30 тысяч, а после предстоящего этим летом обновления — свыше 50 тысяч — аутосомных геномов, т.е свыше 60 тыс. гаплотипов). Надо сказать, этнический состав выборки референсных геномов впечатляет, хотя и там по-прежнему наблюдается перекос в сторону европейских популяций. К сожалению, и эта новейшая выборка представлена преимущественно европейцами (поэтому вероятность  импутированных генотипов для европейских популяций оказались лучше аналогичных результатов в африканской и азиатской когортах), однако даже с учетом этого обстоятельства ее надежность в определении негенотипированных аллелей снипов выше 1000 Genomes (не говоря уже о HapMap):

1 UK10K 3715 3781 6.5x
2 Sardinia 3445 3514 4x
3 IBD 4478 4478 4x + 2x
4 GoT2D 2710 2974 4x/Exome
5 BRIDGES 2487 4000 6-8x (12x)
6 1000 Genomes 2495 2535 4x/Exome
7 GoNL 748 748 12x
8 AMD 3305 3305 4x
9 HUNT 1023 1254 4x
10 SiSu + Kuusamo 1918 1918 4x
11 INGI-FVG 250 250 4-10x
12 INGI-Val Borbera 225 225 6x
13 MCTFR 1325 1339 10x
14 HELIC 247 2000 4x (1x)
15 ORCADES 398 399 4x
16 inCHIANTI 676 680 7x
17 GECCO 1131 3000 4-6x
18 GPC 697 768 30x
19 Project MinE — NL 935 1250 45x
20 NEPTUNE 403 403 4x
Totals 32611 38821
22 French-Canadian 2000 5-6X End 2014
23 Converge 12000 1x Now
24 UG2G Uganda 2000 4x 2015
25 Arab Genomes 100 30x
26 Ashkenazi 128 CG Now
27 INGI-Carlantino 94 4x Now
28 CPROBE 80 80 4x

 

Cледуя рекомендациям, я получил набор из 9000 образцов, каждый из которых включает в себя набор из 20-30 миллионов снипов. К сожалению, из-за субоптимальности результатов в некоторых выборках (Xing et al, Henn et al. и ряде других), их придется исключить из тех видов анализа, которые требует максимальной точности исходных данных. Импутированные генотипы (выраженные через оцененные вероятности) были трансформированы с помощью программы Plink 1.9 в генотипы, причем выбирались варианты полиморфизмов с вероятностью 0.8 (—hardcallthreshold 0.8)

Для оценки полезности импутированных генотипов для популяционного анализа я использовал метрику nearest в программе Plink (матрица с дистанцией между ближайшими геномами) и кластерограммы IBS (идентичности по генотипам).

Таблица метрики nearest (Z-статистика)

А это кластерограмма с хорошо видно географической локализацией кластеров. Я использовал для кластеризации матрицы IBS несколько разных алгоритмов — наиболее убедительный вариант был получен с помощью алгоритма Ward

Другие варианты топологии кластерограмм в формате NEWICK и TRE можно посмотреть здесь (их можно открыть в любой программе для визуализации филогенетических деревьев).

Таким образом, для некоторых типов анализа в популяционной генетике использование импутированных снипов может сослужить хорошую службу, смягчая (или, наоборот, увеличивая) градиент частот аллелей).

Дополнительные анализы — fastIBD, IBS, анализ главных компонентов — образцов в выборке, только подтверждает это наблюдение:


Но самое лучшее подтверждение надежности импутированных снипов для анализа компонентов происхождения  было получено с помощью p-теста Z-статистики во время оценки правильности определенной топологии дерева компонентов (с допущением фактора смешивания предковых компонентов). Для этой цели я использовал стандартный инструмент — программу TreeMix. Я использовал только те снипы, которые встречаются в моей контрольной выборке (референсов каждого из компонента) с частотой выше 99 процентов. Как видно из нижеприведенного графика, компоненты выбраны правильно, а топология определяется практически безошибочно, несмотря даже на малое количество снипов (6 тысяч). Правильно определились и направления потоков генов, дрейфов генов (указаны стрелками). Тут в принципе мало нового — большинство этих эпизодов уже были описаны в отдельных работах генетиков. Так, виден поток генов от «денисовского» человека к усть-ишимцу, от которого в свою очередь идет поток генов к австралоидным популяциями. То есть денисовская примесь у папуасов могла достаться от сибирских популяциях близких к «усть-ишимцу». Виден также вклад ANE/EHG в геном североамериканцев -в интервале 10-15 процентов.

Принципально новым является лишь определенный программой дрейф генов в направлении от африканцев Khoisan к североафриканцами (в качестве референса которых взяты египтяне, бедуины и алжирцы). Скорее всего, это и есть тот самый пресловутый сигнал «египтского выхода» человечества из Африки, о котором недавно писалось в новейшей статье, а сам компонент -идентичен пресловутому Basal-Eurasian component


В начале июля  в связи с публикацией препринта о генофонде древних ближневосточных земледельцев решился все таки подписать заявление на имя Давида Рейха и Иосифа Лазаридис с ходатайством о доступе к полной версии их выборки (она включает много новых интересных для меня популяций — например, около сотни новых образцов шотландцев, шетландцев, ирландцев из разных областей Ирландии, немцев, сорбов и поляков из восточной и западной Польши).

Г-н Лазаридис был весьма любезен и буквально на следующий день после получения подписанного заявления предоставил мне доступ к этим данным. Я займусь их плотным изучением чуть позже. А пока любопытно посмотреть результаты пилотного Admixture анализа 5900 публичных доступных образцов. В качестве проверки надежности своего нового метода изучения древних и современных популяций людей, я провел 4 параллельных анализа Admixture c разным дефолтным значением предковых популяций (K).

Разумеется, в нашем случае число компонентов K заведомо больше 3, авторы статьи эмпирически показали что меньший разброс значений был получен при K=11. Поэтому я исходил из этой цифры, назначив три разных значения K — 10,11,13.
В первом варианте я использовал т.н unsupervised режим Admixture, т.е. программа должна была сама угадать и реконструировать частоты аллелей снипов в 10 реконструируемых предковых «компонентах» популяций.

Как и ожидалась, таковыми оказались африканский (пик у пигмеев и бушменов), америндский (пик у эксимосов и американских индейцев), сибирский (пиковые значение у нганасанов), южно-индийский компонент (пик в народностях Paniya и Mala), австрало-меланизийский, южно-восточноазиатский, три западно-евразийских компонента — 2 компонента западноевроп ейских и кавказских охотников-собирателей и неолитический; и наконец ближневосточный.

Разумеется, за исключением трех компонентов с пиками в древних геномах, данное распределение отражает cовременное распределение предковых компонентов.

Пришлось вручную выделять из ближневосточного компонента популяцию базальных европейцев (в качестве основы я взял геномы натуфийцев, т.е ближневосточный компонент — Levant_N — может быть разложен на два отдельных предковых компонента — неолитический и мезолитический «натуфийский»), а затем сгенерировать гипотетическую популяцию из 20 образцов состоящих на 100 процентов из натуфийского компонента. Именно этот компонент был включен в модель K11 под названием Levant_Mesolithic ( или Natufian). Этот компонент не стоит путать с компонентом Basal-Eurasian в калькуляторе Eurogenes K7 Basal-rich, так в в моей модели K11 основная часть базального компонента ушла в неолитические компоненты (т.е Natufian=Basal-Rich — Neolithic)

Гораздо сложнее ситуация обстояла с разделением компонента кавказских охотников-собирателей, которые наряду с американскими аборигенами несут в своем геноме значительные доли компонента древних северо-евразийцев. По этому причине очень сложно, например, разделить восточных охотников-собирателей (из мезолитических культур Карелии и Самары) и синхронным им кавказских охотников-собирателей.
Из-за присутствия компонента древних северо-евразийцев в их геноме, в Admixture компонент древних кавказцев увеличивается только за счет компонент восточных охотников-собирателей — и наоборот. Правда, можно попытаться выделить отдельный мезолитический компонент населения горного Загроса (Иран).

В случае успеха древние геномы жителей мезолитической Грузии можно будет представить как 20% компонента степных охотников-собирателей + 80% местного мезолитического субстрата.

Этногеномика беларусов — часть IV

Анализ структуры аутосомного генофонда популяции беларусов: результаты анализа этнического адмикса.

 

После проведения анализа этно-популяционного адмикса мы получили следущие результаты, обсуждению которых будет посвящена следущая часть нашего исследования. Результаты представляют собой разбивку аллельных частот на 22 кластера, каждый из которых представляет собой гипотетическую предковую популяцию. Поскольку в цели данного небольшого исследования не входит подробный анализ всех популяций, мы ограничимся сравнительном анализом структуры (компонентов) беларусов c географически близкими популяциями, а также с теми популяциями, которые могли входить в исторические контакты с предками современных беларусов:

admix

 

Рисунок 3. Результатыанализа ADMIXTUREK=22

У рассматриваемых здесь европейских популяций наиболее часто представлены следующие компоненты:

North-East-European,Atlantic_Mediterranean_Neolithic,North-European-Mesolithic, West-Asian, Samoedic, Near_East.

Разберем вкратце каждый из них. В ракурсе нашего исследования самым важным компонентом представляется – северо-восточно-европейский компонент North-East-European, он присутствует почти у всех европейцов, и в самой значительной степени — у балтов и славян: литовцы (81,9), латыши (79,5), беларусы (76,4), эстонцы (75,2), поляки (70,2), русские (67- 70,4), украинцы (62,1- 67,1), сорбы (65,9), карелы (60,2), вепсы (62,5), чехи (57,4), северные немцы (54,6), южные- 42,6, у британцев от 46 до 49, норвежцы- 48,1, шведы- (53,7).

Второй по значимости компонент — Atlantic_Mediterranean_Neolithic (юго-западно-европейский или просто западно-европейский неолитический компонент).[1]У восточноевропейцев он выражен в умеренной степени- чехи (27,8), поляки (18,4), украинцы ( от 17 до 21%), беларусы (13%), русские (от 11 у северных до 17,3 у южных), у коми (8,9 %), манси (8,8 %).

Третьй компонент – северо-европейский мезолитический компонент -North-European-Mesolithic[2]: cаамы (76,4 %), финны (от 30,1 до 37,3 %), вепсы (24,1), карелы (23,2), ижорцы (22, 7). Заметен этот компонент и у северных русских (10,5 %), норвежцев (9,8 %), шведов (7,8 %), эстонцев (7,1 %). У беларусов он практически отсутствует (1.1%).

Четвертый компонент – западно-азиатский (кавказский) West Asian[3]. На интересуемой нас территории этот компонент чаще встречается у казанских татар (9,9 %), южных немцев (8,4), украинцев (от 6,6 до 7,7 %), южных русских (6,2%). На западе высок процент у итальянцев (21,5 % у центральных итальянцев), французов (6,7 %), у беларусов (2.2%).

Пятый компонент — уральский Samoedic. Значительно присутствует у селькупов (68,1%), хантов (64,6), ненцы (37,1), манси (30,9 %-), удмурты (29,6), марийцы (27, 8), шорцы (22,0 %), башкиры (21,7%), чуваши и хакассы по 17,6 %, коми- 16,4 %, казанских татар (11,9 %). У западноевропейцев этот компонент практически не встречается, у русских (от 1,0% у центральных до 4,7 % у северных), у карел (1,6%), словаков (1,4%), западных украинцев (1,7 %), беларусы (0.5%).

Шестой компонент – ближневосточный Near_East[4]У южных немцев (3,5), украинцы (от 2,3 у восточных до 3,8 % у западных), чехи (3,0), беларусы (3,4), словаки (3,2), у русских от 1,0 до 1,5%, у литовцев- 1,4%, у поляков- 1,3 %.

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[1]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[1]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[1]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

Анализ разделяемых аутосомных сегментов между популяциями Северо-Восточной Европы.

С целью верификации результатов анализа главных компонентов генетического разнообразия я подготовил новую выборку популяций, которая включает в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.В ходе нового экспериментального теста в ходе статистической обработки общих по генетическому происхождению сегментов хромосом в составе выборки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, т.е размера той популяции которая участвовала в репродукции или обмене генами в некоем отдаленном временном промежутке. Собственно говоря, эффективная популяция – это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955). Новая программа Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение составило 22 000. Это близко к значениям Neрекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных ниже результатов, даже 22 000 для совокупности эффективного размера элементарных популяций – это более, чем достаточно.

 

finest

Рисунок 4. Расположение популяций в пространстве 1 и 3 главных генетических компонентов

 

Изложим ниже некоторые закономерности размещения популяци

 

  1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
  2. Все литовцы (участники проекта + референсы из вышеупомянутой статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев

  3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.

  4. Ниже находится балканский кластер (румыны, болгары и часть венгров).

  5. К этому кластеру примыкают турки и часть армян

  6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов).

  7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.

  8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

  9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

  10. Левее этой группы популяций находится кластер ашкеназов.

  11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

  12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

  13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

  14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

  15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).[5]

 

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[2]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[3]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[4]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

[5]Такое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции.То есть все эти баски являются многократными родственниками между собой т.е., положение басков на графике есть следствие классического генного дрейфа, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества sharedDNAchunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.

Исходя из этого можно сделать вывод о том что баски эта экстремально-эндогенная популяция изолянтов, при этом генетическое разнообразие басков низко, т.к. размер эффективной популяции басков низок.

Этногеномика беларусов — часть III

Анализ этно-популяционного адмикса

 

В ходе следующеего этапа, окончательный набор данных по референсным популяциям (которые я храню в linkage-формате PLINK) был обработан в программеAdmixture. Во время выбора подходящей модели проведения теста на этно-популяционный адмикс, мы столкнулись с крайне трудной задачей: как было показано в профильных научных исследованиях (Pattersonetal.2006) количество маркеров, необходимых для надежной стратификации популяций в анализе обратно пропорциональна генетическому расстоянию (фСТ) между популяциями. Согласно рекомендациям пользователей программы Admixture, считается что примерно 10 000 генетических SNP-маркеров достаточно для выполнения интер-континентальной GWAS-коррекции обособленных популяций (например, уровень дивергенции между африканскими, азиатскими и европейскими популяциями FST> 0.05), в то время как для аналогичной коррекции между внутриконтинентальными популяциями требуется более чем 100000 маркеров (в Европе, например, ФСТ < 0.01). Для повышения точности результатов Admixtureмы решили использовать метод, предложенный Dienekes. Этот метод позволяетпреобразовать частот аллелей в “синтетические” индивиды (см. такжепример Зака Аджмалаиз проекта HarappaDNA). Идея метода довольно проста: сначала необходимо запустить unsupervisedанализ Admixtureс целью вычисления частот аллелей в так называемых предковых компонентов, а затем на основании аллельных частот сгенерировать “фиктивные популяции”. Именно эти фиктивные популяции и индивиды будут использоваться в ходе чистых референсов в ходе последующего анализа этно-популяционного анализа. Впрочем, как и любые другие исследователи, работающий над четким решением проблемы этно-популяционного адмикса, мы были вынуждены считаться с ограничениями этого подхода. Хотя мы отдаем себе отчет в существовании явных методологических подвохов в использовании смоделированных искусственных индивидов для определения адмикса в реальной популяции, мы полагаем что полученные в ходе аллельно-частотного моделирования “фиктивных индивидов” представляют самую лучшую аппроксимацию древних генетических компонентов предпологаемых древних компонентов. В ходе применения простого моделирующего метода, нами были получены значимые результаты в ходе создания нового калькулятора. Сначала мы произвели unsupervisedAdmixture(при значении К = 22, т.е 22 кластера частот аллель или предковых компонентов). По выполнению анализа нами были получены оценки коэффициентов адмикса в каждой из этих 22 аллельных кластеров, а также частоты аллелей для всех SNP-ов в каждой из 22 родовых популяций.

Затем мы использовали мнемонические обозначения для каждого компонента (имена для каждого из компонентов выведены в порядке их появления). Нужно помнить, что обозначения этих компонентов носят скорее мнемонический условный характер:

Pygmy

West-Asian
North-European-Mesolithic
Tibetan
Mesomerican
Arctic-Amerind
South-America_Amerind
Indian
North-Siberean
Atlantic_Mediterranean_Neolithic
Samoedic
Proto-Indo-Iranian
East-Siberean
North-East-European
South-African
North-Amerind
Sub-Saharian
East-South-Asian
Near_East
Melanesian
Paleo-Siberean
Austronesian

Вышеупомянутые частоты аллель, вычисленные в ходе unsupervised(безнадзорного) анализа (AdmixtureK= 22) объединенного набора данных, были затем использованы для симуляции синтетических индивидов, по 10 индивидов на каждую из 22 предковых компонент. Это симуляционное моделирование проводилось с помощью PLINKкоманды -simulateРасстояние между между симулированными «искусствеными» индивидами было визуаилизировано с использованием многомерного масштабирования.

simul

На следущем этапе, я включил группу смоделированных индивидов (220 индивидов) в новую эталонную популяцию. После чего я запустил новый анализ А, на этот раз в полном “поднадзорном” режиме для K= 22, причем полученные в ходе симуляционного моделирования фиктивные популяции фиктивных индивидов использовались в качестве новых референсных эталонных групп. На конвергенцию 22 априорно заданых предковых компонентов было затрачено 31 итераций (3 7773,1 сек) с окончательным loglikelihood: -188032005,430318 (ниже, на следущей странице, приведена таблица значений Fst между расчетными ‘предковыми’ популяциями):

fst dist

Рисунок 1. FST-дистанции между компонентами

 

Приведенная выше матрица Fstдистанций была использована для определения наиболее вероятной топологии NJ-дерева всех 22 предковых компонентов ( примечание: в качестве outgroup-таксона использовался South-Africancomponent).

Три предковые группы европейцев

Получивший широкой резонанс в среде профильных профессиональных популяционных генетиков и простых любителей препринт статьи Lazaridis et al. 2013 содержит огромное количество важных наблюдений и заключений насчет происхождения и эволюции структуры генофонда современных европейцев. Объективности ради стоит отметить, что наверное не менее половины выводов вышеупомянутой статьи были озвучены ранее персональными геномными блоггерами в ходе более ранних самостоятельных экспериментов и анализов древней ДНК.  Но важность статьи Lazaridis et al. 2013, конечно же, в другом. В ней приводятся новые данные ( результаты изучения древнего ДНК) ряда доисторических популяций групп людей Европы. В частности, были приведены результаты изучения древнего ДНК мезолитических европейских охотников-собирателей из Люксембурга, чьи мтДНК были опубликована несколько лет назад; результаты генотипирования неолитического образца ДНК неолитического земледельца из Германии: наконец, препринт статьи содержал данные сразу по  нескольким мезолитическим охотникам-собирателей из Швеции.

По раскладу своих предковых компонентов, люксембургский образец похож на образцы  La Brana (иберийский палеолит). В свою очередь,  ДНК шведов периода мезолита похожа на ДНК шведских неолитических охотников-собирателей. Аналогично, структура предковых компонентов у неолитического земледельца напоминает распределение компонентов у тирольского ледового человека Этци, шведского неолитического земледельца культуры воронковидных кубков и современного населения Сардинии. Недавно опубликованный  верхнепалеолитический образец жителя стоянки Мальта (Прибайкалья), авторы относят к  отдельному генетическому супер-компоненту, который  в статье именуется  «компонентом древнего северо-евразийского населения», Согласно наиболее вероятной из обсуждаемых в статье моделей, носители этого компонента смешались с западными евразийцами  еще до того, как носители мезолитического европейского компонента смешались с неолитическими земледельцами с ближнего Востока.

Как я отмечал ранее, очевидность результатов вряд ли нуждается в отдельных комментариях.  Положение индивидов по степени их сходства (выраженного посредством параметра z D-статистики)  относительно условной оси на одном конце которых находятся южные европейцы, на другом — северные европейцы. Шведские сэмплы древнего ДНК времен мезолита и пост-мезолитической (переходной к неолиту) культуры ямочной керамики Готланда сдвигаются в сторону северных европейцев (представлены референсной популяцией литовцев).  Примечательно, что в ту же стороны сдвигаются и представители иберийско-испанского мезолита (образцы La Brana 1 и La Brana 2).
Образцы древнего ДНК представителей культуры воронковидных кубков, Эци Тирольца закономерно смещаются к другому полюса спектра — южным европейцам (которые представлены сардинцами).

PCA график дает отличное представление о соотношении различных компонентов:

europe

 

 

 

model

Таким образом, костяк европейского генофонда образован за счет сочетания трех компонентов:

мезолитические охотники-собирателей Европы (WHG) + древние северо-евразийские популяции между Уралом, Центральной Азией и Сибирью (AHE) + неолитический компонент (генетически связанный с ближневосточными земледельцами EEF).

 

Поскольку в нашем случае мы имеем три исходных компонента, то любая европейская популяция может быть представлена в виде тримодального распределения этих компонентов. Визуализация этого распределения достигается путем отображения популяций внутри треугольника (каждый из углов которого представляет собой отдельный чистый предковый компонент). Таким образом мы можем отображать не только группы людей (т.е популяции), но и отдельных современных индивидов с генотипированными снипами. При визуальном изучении расположения популяций внутри треугольника, мы можем отметить cмещение спектра разнообразия в сторону предкового компонента неолитических земледельцев (EEF). Это наблюдение еще раз подтверждает насколько важным событием для эволюции и развития европейского генофонда являлась  неолитическая революция. Она принесла с собой не только технологические изменения, но и перемены в генофонде тогдашних европейцев. Однако если быть более точным, то нет никаких сомнений в том что компонент EEF аккумулирует в себя не только генофонд первых европейских земледельцев, но и остаточный момент от смешения этого компонента с представителями четвертого компонента («базальных евразийцев»).

admixture

Выявленные предковые компоненты отличаются значительной дискретностью, и в своем чистом виде практически не перекрываются. Именно по этой причине именно эти компоненты (а не общепринятые ныне в аутосомных исследованиях попгенетиков  этногеографические компоненты) могут использоваться в качестве неколлинеарных факторов в анализе эволюции генофонда отдельных народов.

  1. Компонент западноевропейских охотников-собирателей мезолита ( WHG ): метапопуляция этого компонента включает в себя образец Loschbour (мезолитический Люксембург, 8000 лет до настоящего времени) и два мезолитических образца древнего ДНК людей из пещеры La Brana в Испании. Тем не менее, в настоящий момент своего пика WHG (почти 50%) достигает среди эстонцев и литовцев , на востоке Балтийского региона. В этом смысле эти популяции являются наследниками древнейших жителей мезолита Европы. К этой группе примыкает группа шведских неолитических популяций  (скандинавские охотники-собиратели (SHG ) : эта мета- субпопуляция состоиь из шведских мезолитических и неолитических образцов ДНК из Моталы и Готланда , соответственно. Судя по всему, здесь мы имеем дело с  более восточным вариантом WHG , с небольшой примесью генов от древних северо-евразийских популяций.

Удельная доля компонента WHG в генофонде популяций по мере убывания  (градиент убывания в направлении с северо-запада на юго-восток Европы).

Эстонцы 0,495
Литовцы 0,464
Исландцы 0.456
Беларусы 0,431
Норвежцы 0,428
Испанцы 0,068
Греки 0,058

Мальтийцы 0
Ашкенази 0
Сицилийцы 0

  1. Компонент ранних европейских земледельцев (EEF) : по всей видимости, это гибридный компонент являющийся  результатом смешивания части загадочных «базальных евразийцев» и носителей компонента WHG где-то в Европе, возможно, на Балканах. Метапопуляция EEF в чистом виде представлена у представителя линейно-ленточной керамики  (Штутгарт, Германия), Этци Тирольского человека, и неолитического земледельца культуры воронковидных кубков. В наше время пик это компонента  приходится на Сардинию, Сицилийцев, ашкеназов и жителей Мальты (примерно 80-90%).

Удельная доля компонента EEF в генофонде популяций по мере убывания  (градиент убывания частоты направлен в сторону обратную WHG, т.е с юго-востока Европы на северо-запад, однако градиент выражен гораздо менее четко).

Мальтийцы 0,932
Ашкеназим 0,931
Сицилийцы 0,903
Сардинцы 0,817
Испанцы 0,809
Норвежцы 0,411
Исландцы 0,394
Шотландцы 0,39
Литовцы 0,364
Эстонцы 0,322
3. Компонент древних северо-евразийцев ( ANE ): метапопуляция компонента включает в себя   24000 летний верхне-палеолитический образец охотника-собирателя из южно-центральной Сибири, принадлежащий к Y- ДНК гаплогруппе R *, (MA -1), а также  верхнепалеолитический образец из центральной Сибири (Афонтова Гора -2) ( AG2 ). Этот компонент мог вероятно присутствовать в Южной Скандинавии по крайней мере со времен мезолита, но Западной Европы  достиг уже в конце эпохи неолита. В современной Европе самый высокий процент это компонента наблюдается у эстонцев (на уровне чуть более 18%), и  достигает такого же уровня среди шотландцев.

Эстонцы 0,183
Шотландцы 0,182
Венгры 0,179
Литовцы 0,172
Чехи 0,167
Итальянцы из Бергамо 0,108
Сицилийцы 0,097
Ашкеназим 0,069
Мальтийцы 0,068
Сардинцы 0,008

Сводная таблица по раскладу компонент у отдельных популяций  и их формальной статистической значимости (f3-статистика):

q1is

Эпилог

В апреле и мае 2012 года (задолго до появления статьи Lazaridis et al. 2013), в ходе изучения структуры кластеров компонентов в древних ДНК (чьи SNP-данные были тогда у меня в наличии). В ходе анализа Admixture  K=3 программа дала интересное распределение по современным популяциям и древним образцам. Как видно из географического распространения, кластер-метопапуляции готландских охотников-собирателей/ мезолита и современных саамов в значительной части перекрывается с ареалом современного пика компонентов мезолитических охотников-собирателей. Неолитический (средиземноморский) компонент совпадает с ареалом компонента EEF. Наконец, контуры ареал компонента который я ошибочно обозначил как Corded Ware Indo-European, практически перекрываются контурами ареала ANE (пик которого, как отмечалось выше, приходится на популяции шотландцев и эстонцев).

admixture-3

K3-Admixture

 

.

О ДНК Капетингов, Наполеона и потомках Ötzi (тирольского ледяного человека)

Кроме работ по митохондриальной ДНК жителей доисторической Европы, следует упомянуть ряд исследований ДНК гораздо более известных, исторических личностей, опубликованных в этом же месяце.

Во-первых, это исследование Y-хромосомы Наполеона в статье Lucotte et al. «Reconstruction of the Lineage Y Chromosome Haplotype of Napoléon the First «.

В одном из ранних исследований биологического материала Наполеона, была показана принадлежность его к Y-хромосомной гаплогруппе E1b1b1c1* (E-M34*) (Lucotte et al. 2011). Новая работа уточняет некоторые детали предыдущего исследования, и в ней реконструируется 111-маркерный гаплотип Наполеона путем сравнения гаплотипа Наполеона с гаплотипами прямых и побочных потомков рода Буонопарте.

В рамках проекта геном Наполеона I, мы реконструировали более чем сто Y -STR (Y- коротких тандемных повторов ) в полном Y- гаплотипе нерекомбинантной части Y -хромосомы ( NRY ) французского императора Наполеона I ( 1769-1821 ) . Ранее нам были известны значения аллелей в Y- маркерах Y- хромосомы Наполеона I , только в палиндромных STR-локусах YCAIIa и В, а также в непалиндромном Y-STR DYS19 . Настоящий опыт реконструкции ставит своей целью сравнить аллельные значения в Y -STR ДНК Шарля  Наполеона (CN) , ныне живущего потомка в четвёртом поколении Жерома Бонапарта (младшего брата Наполеона I ) , с аллельными значениями Y-STR ДНК Александра Колонны-Валевского ( ACW ) , потомка  в четвертом поколении графа Александра Валевского (рожденного от внебрачной связи Наполеона I с графиней Марии Валевской ). Ранее нами было установлено, что Наполеон I , CN и A.C.W. имеют одинаковую Y- гаплогруппу E1b1b1b2a1 .

Другая работа Larmuseau et. all (2013) «Genetic genealogy reveals true Y haplogroup of House of Bourbon contradicting recent identification of the presumed remains of two French Kings» , возвращается к анализу Y-гаплогруппы представителей Бурбонов — династии французских королей. Однако, в отличии от работы по Наполеону, результаты этого исследования опровергают результаты исследования  предполагаемой крови Людовика XVI в работах Lalueza-Fox et al. (2011) и предполагаемых останков (мумифицированной головы) короля Генриха IV в работе Philippe Charlier et al. (2012). В предыдущих работах было показано, что гаплотипы Y-STR в древних образцах ДНК принадлежали к гаплогруппе G2a, причем короткий 6-маркерный гаплотип предполагаемой мумии Генриха IV совпал по 5 маркерам с предполагаемым гаплотипом его потомка Людовика XVI.

Новое исследование произведенное с использованием ДНК 3 официально признанных членов суверенной династии Бурбонов (princes Sixte-Henri de Bourbon-Parme, Axel de Bourbon-Parme et Jean d’Orléans-Bragance), показало что их гаплотипы и гаплогруппа (R1b-U106) отличаются от тех, что были объявлены в двух более ранних исследованиях:

Генетический анализ в значительной степени улучшает способы идентификации останков или других биологических образцов исторических деятелей. Однако проверка точности этой идентификации имеет важное значение и должна выполняться путем ДНК-типирования  ныне живущих родственников. На основании сходства ограниченного набора Y -STR , проба крови и мумифицированная голова недавно были идентифицированы как принадлежащие , соответственно, королю Людовику XVI, и его  предку по отцовской линии, королю Генриху IV. В этом исследовании мы собрали образцы ДНК трех человек, происходящих из королевского дома Бурбонов для проверки спорной идентификации этих останков. Анализ ДНК трех живых родственников показал с высоким филогенетическим разрешением наличие характерного Y- хромосомного варианта Бурбонов для некоторых членов династии Бурбонов, имеющих общего предка в родословной линии, которая идет от  Генриха IV к Людовику XVI. Этот вариант «истинных» Бурбонов отличается от опубликованных раннее Y-STR профилей крови, а также мумифицированной головы. Таким образом, более ранняя идентификации этих образцов , не может быть достоверной. Кроме того, матрилинейные генеалогические данные показали , что опубликованная последовательность мтДНК головы также отличается от последовательности мтДНК  у серии матрилейнынх родственников короля Генриха IV . Таким образом, мы приходим к выводу , что анализируемые образцы не принадлежат французским королям. Наше исследование еще ​​раз показало, что в целях реализации точной генетической идентификации ДНК останков исторических деятелей, необходимо проводить проверку с помощью анализа ДНК живых людей , которые по отцовской или материнской линии связанны с предполагаемым донором образцов .

Прочитав эту ремарку авторов, мне почему-то вспомнилось фрагменты из известной книги Робера Амбелена «Драмы и секреты истории», в которой убедительно доказывалось, что значительное число принцев и даже королей из различных отраслей рода Капетингов (Валуа, Бурбонов и прочих) не были биологическими потомками своих родителей. Вот, например,  характерный пассаж из книги Амбелена:

Карл VI, родившийся 3 декабря 1368 г., женился 18 июля 1385 г. на Изабо Баварской, родившейся в 1371 г. Ему было 17 лет, ей — 14. Она была красива, чувственность пробудилась в ней очень рано. В течение всей ее жизни эта чувственность предъявляла ей все большие требования. Он был наделен не менее пылким темпераментом, но, кроме того, он мечтал о сражениях и славе[72]. Французский двор тех времен был более развращен, чем при Людовике XV, потому что инстинкты тогда проявлялись более примитивно. Два этих поколения разделяют четыре века, и это говорит о многом. Не будем же поражаться скандальным оргиям, происходившим в замке Ботэ-сюр-Марн, рядом с теперешним Ножаном. За замком — огромный в те времена Венсеннский лес. В дальнейшем Изабо Баварская устроила в нем свой причудливый «Двор любви». В нем в отличие от воспетого Петраркой прибежища его Лауры царила не платоническая любовь, а плотская, возбуждавшая самые низменные инстинкты и самые изощренные извращения, которые в данном случае были единственными, удостаивавшимися награды.

«Летопись монаха из Сен-Дени» сообщает нам, что во время церемонии посвящения в рыцари юного короля Сицилии, сына графа Анжуйского и кузена Карла VI, рядом с прославленной базиликой происходили поразительные оргии. А ведь в ней покоились короли Франции. Мы читаем в этой летописи: «Каждый стремился удовлетворить свою похоть, так что нашлись мужья, которым пришлось расплачиваться за непутевость своих супруг, и были также девицы, забывшие заботу о своей чести». Подобные дела, впрочем, творились в Ботэ-сюр-Марн сплошь и рядом, и придворные пиры завершались попросту свальным грехом.

На 17-м году своей жизни юная королева Изабо стала любовницей Луи Орлеанского и оставалась ею вплоть до его смерти в 1407/1408 г. Было ей тогда 36 лет. Через 10 лет, в свои 46 лет, она стала возлюбленной Иоанна Бесстрашного — убийцы Луи Орлеанского.

Но ни оргии в Ботэ-сюр-Марн, ни эти связи с французскими «принцами крови» не вызывали официальных скандалов. Добрый народ втихомолку судачил о них, но законный супруг — Карл VI — в те промежутки времени, когда его разум вновь возвращался к нему, не задавал никаких вопросов о законнорожденности детей Изабо. Все это, однако, прекратилось в тот зимний день 1416 г., когда граф Бернар VII д’Арманьяк, тесть Карла Орлеанского, только что назначенный коннетаблем, открыл Карлу VI глаза на связь с одним из почетных шталмейстеров, Луи де Буа-Бурдоном, иначе именуемым де Буаредоном, рыцарем, великим магистром дворца королевы, и одним из его советников. Связь эта длилась уже около 30 лет. Когда она началась, Изабо было 17 лет. Карл VI только что отбыл на войну во Фландрию, и ей казалось, что одинокие ночи не соответствуют ее темпераменту.Луи де Буа-Бурдон был доблестным воином. В ноябре 1411 г. он защищал форт Этамп, осажденный войсками Иоанна Бесстрашного. В 1415 г. при Азенкуре он командовал одним из флангов королевской армии. В 1416 г. он был арестован в присутствии самого Карла VI. Долгое время он содержался с цепью на шее, со скованными руками и ногами в темнице замка Монлери. В конце концов его привезли в Париж. Несколько дней подряд он подвергался допросу под пыткой. В 1417 г. его приговорили к смерти за оскорбление величества и за предательство своего государя, короля Франции. Он был зашит в кожаный мешок с надписью: «Дорогу королевскому правосудию» — и брошен в Сену.
Так вот, едва де Буа-Бурдон был схвачен, Карл VI приказал доставить Изабо в Тур, а имущество, которое она накопила и спрятала в разных местах, чтобы скрыть его размеры, конфисковал. В Туре она находилась под неусыпным надзором трех тюремщиков, головой отвечавших за ее поведение. Ее заклятый враг коннетабль Бернар д’Арманьяк тогда же занимался распродажей ее нарядов, драгоценностей, мебели и прочего. Он явно зашел чересчур далеко.
Изабо Баварской удалось сохранить при своей особе некоего Ле Клера, лакея Луи де Буа-Бурдона. Через него она сумела завязать переписку с герцогом Бургундским, Иоанном Бесстрашным, которому она предложила заключить союз. Герцог тотчас же снял осаду Корбея и помчался с 800 вооруженными всадниками на Тур. Согласно заранее выработанному плану, Изабо направилась в аббатство Нуармутье, чтобы говеть там перед причастием. Тогда владыка де Фавез во главе 60 вооруженных воинов окружил церковь, взял в плен двоих из надсмотрщиков (третьему удалось бежать через ризницу), заковал их в цепи и возвратил Изабо свободу. В тот же момент в Тур входил Иоанн Бесстрашный во главе своего небольшого войска. Он увез королеву в Шартр. Положение во Франции менялось.

В контексте этого небольшого фрагмента (всего лишь одного из многих!), меня нисколько не смущают расхождения в гаплогруппах различных доноров, официально или предположительно происходивших от Капетингов и Бурбонов. Что касается принадлежности Капетингов-Робертинов к гаплогруппе R1b-U106 (или если точнее R1b-Z381), то оно также весьма правдоподобно, принимая во внимание их франконское происхождение. Более того, Y-гаплогруппа образца древнего ДНК останков представителей рода австрийских герцогов Бабенбергов (см. работу Bauer et al. 2013) была определена как R1b-L48. В этой связи заслуживает упоминания одна из версий происхождения Бабенбергов, возводящая их к одному, общему с Робертинами-Капетингами, предку. По некоторым непроверенным слухам, к R1b-Z381 принадлежали и представители другого знатного немецкого рода — дома Веттинов.

Но довольно о королях и капусте. Третья статья гораздо более примечательна в том смысле, что в ней идет речь о потомках доисторической личности — Эци (тирольском ледяном человеке).  Ранее, в 2011 году, после изучения генома Эци, ученые также предположили, что генетическая группа людей, к которой принадлежит тирольский ледяной человек, уже не существует, и никто из ныне живущих людей не может быть потомком Эци.

В октябре этого года представители Медицинского университета Инсбрука (Австрия), воспользовавшись ранее прочитанным генетическим кодом Эци, установили, что в приграничных областях Италии и Швейцарии и сейчас тоже можно найти потомков Эци. Это утверждение последовало после анализа крови у 3700 добровольцев, среди которых у 19-ти была обнаружена та же редкая гаплогруппа G-L91, что и у древнего жителя Тирольских Альп. Характерно, что эти выводы по Y-хромосомной гаплогруппе подкрепляются моими собственными исследованиями в программе fineStructure.

После того, как я отфазировал «геномные варианты-снипы» Эци, а затем провел кластерный анализ схожести образцов ДНК в  fineStructure,  Эци оказался в одном кластере с пьемонтцами, то есть с жителями Северной Италии.  

Бета-версия нового этно-популяционного калькулятора MDLP K27

По многочисленным просьбам, я все же решил сделать релиз бета-версии нового MDL DIYкалькулятора. Калькулятор носит кодовое название K27 по числу принятых в качестве априорных предковых компонентов.
Нужно отметить, что перед принятием решения о релизе я долго думал о том, имеет ли смысл выкладывать калькулятор и сопутствующую ему версию Genomic Oracle в открытый доступ. После долгих колебаний я все же решил все же выложить

Хочу сразу отметить три важных нюанса:

1) Эта версия коренным образом отличается от тех бета-версий, которые я отправлял на тестирование ув. А.Бурнашеву и С.Козлову

2) Я не собираюсь (пока) встраивать его в калькуляторы Gedmatch

3) Самое важное: в силу гораздо большего охвата референсных популяций (а всего их 429) в мировом масштабе, этот калькулятор будет гораздо менее информативен для европейцев (восточных и западных), в сравнении с другими калькуляторами проекта, уже находящимися на gedmatch. Это связана прежде всего с тем, что между главными кластерами генетического разнообразия европейцев наблюдается крайне низкая степень дивергенции.  Низкая степень дивергенции заметна на графике MDS центроидов генетического разнообразия каждой из использованных популяций (европейцы находятся в очень узком кластере в центре большого скопления в правой части графика)

Скорее всего в  случае с чистыми европейцами, калькулятор будет показывать только ключевые исторические эпизоды смешения популяций. В калькуляторе из 27 кластеров только 3-4 имеют значение для типичных европейцев. Зато (скорее всего) он будет идеальным инструментов для людей с би- и трирасовым происхождением, а также америндов, азиатов, и африканцев. Остальным рекомендую принимать результаты, как говорят англичане, with a grain of salt.

С другой стороны,  судя по дендрограммам кластеров калькулятора, объединение и соединения компонентов имеют четкую и логичную структуру:

Кластеризация компонентов в эвклидовой метрике
Кластеризация по методу Complate Linkage/Chi-square
Chi-Square/Ward’s method

Инструкции по пользованию калькулятором такие же как и в базовой версии калькулятора от Dienekes Pontikos (эти инструкции можно найти в его блоге). Файл параметров называется test.par.

Что касается Oracle, команды аналогичные Dodecad Oracle, c той лишь разницей что рабочая функция называется cответственно MDLOracle и MOracle2.

Ccылки на скачивание

MDLOracle

Oracle

DIYCalculator

Примечание — в этом дистрибутив калькулятора по ошибке не был включен файл с названиями компонентов (test.txt) .
Этот файл содержит названия компонентов в следующем порядке

Nilotic-Omotic
Ancestral-South-Indian
North-European-Baltic
Uralic
Australo-Melanesian
East-Siberean
Ancestral-Yayoi
Caucasian-Near-Eastern
Tibeto-Burman
Austronesian
Central-African-Pygmean
Central-African-Hunter-Gatherers
Nilo-Saharian
North-African
Gedrosia-Caucasian
Cushitic
Congo-Pygmean
Bushmen
South-Meso-Amerindian
South-West-European
North-Amerindian
Arabic
North-Circumpolar
Kalash
Papuan-Australian
Baltic-Finnic
Bantu

Практические результаты использования калькулятора на примере исходных популяций выборки

Расклад предковых компонентов у Этци Тирольского человека

[1,] «S1» «0»
[2,] «28.1% Cypriot + 71.9% Sardinian» «10.4539»
[3,] «28.8% Cretan + 71.2% Sardinian» «10.5494»
[4,] «23.1% Druze + 76.9% Sardinian» «10.5847»
[5,] «19.9% Bulgarian-Roma + 80.1% Sardinian» «10.6089»
[6,] «19.8% Macedonian-Roma + 80.2% Sardinian» «10.6152»
[7,] «20% Roma + 80% Sardinian» «10.6193»
[8,] «29.9% Island-Greek + 70.1% Sardinian» «10.7168»
[9,] «30.3% Ashkenazi + 69.7% Sardinian» «10.8659»
[10,] «19.4% Georgian_Laz + 80.6% Sardinian» «10.928»

Структура компонентов в образцах древней ДНК из пещеры La_Brana

 BRA
[1,] «BRA» «0»
[2,] «75.5% North_Finn + 24.5% Spanish_Basque» «17.0606»
[3,] «24.2% French_Basque + 75.8% North_Finn» «17.3356»
[4,] «77.1% North_Finn + 22.9% Sardinian» «19.5163»
[5,] «24.1% Iberian + 75.9% North_Finn» «21.1495»
[6,] «76.2% North_Finn + 23.8% Spanish» «21.3459»
[7,] «78.5% North_Finn + 21.5% S1» «22.1884»
[8,] «76.7% North_Finn + 23.3% Portuguese» «22.5586»
[9,] «76.3% North_Finn + 23.7% Puerto-Rican» «22.7617»
[10,] «22.1% Corsican + 77.9% North_Finn» «23.2394»

Древнее ДНК пост-мезолитических жителей Швеции (Готланда)

[1,] «Swedish-Mesolithic» «0»
[2,] «8.9% AriblacksmithIbd + 91.1% Latvian» «13.1043»
[3,] «9% Ariblacksmith + 91% Latvian» «13.1644»
[4,] «9.3% Aricultivator + 90.7% Latvian» «13.9085»
[5,] «9.3% AricultivatorIbd + 90.7% Latvian» «13.9138»
[6,] «7.4% AriblacksmithIbd + 92.6% Lithuanian» «15.5735»
[7,] «7.4% Ariblacksmith + 92.6% Lithuanian» «15.6297»
[8,] «92.7% Latvian + 7.3% Wolayta» «15.8622»
[9,] «4.8% Kalash + 95.2% Latvian» «16.2399»
[10,] «7.4% Aricultivator + 92.6% Lithuanian» «16.2569»

Древнее ДНК неолитических жителей Щвеции

1,] «Swedish-Neolithic» «0»
[2,] «61.9% Georgian_Jew + 38.1% Selkup» «22.6282»
[3,] «38.7% Selkup + 61.3% SephardicBul» «22.7533»
[4,] «37.6% Selkup + 62.4% Sephardic_Bulgaria» «23.0667»
[5,] «62.6% Morocco_Jew + 37.4% Selkup» «23.2594»
[6,] «38.2% Selkup + 61.8% SephardicTurk» «23.6872»
[7,] «38.6% Selkup + 61.4% South-Sicilian» «23.7453»
[8,] «38.1% Selkup + 61.9% West-Sicilian» «23.8583»
[9,] «56.3% Georgian_Jew + 43.7% Udmurd» «23.9074»
[10,] «37.2% Ket + 62.8% SephardicBul» «24.21»

Древнее ДНК жителя палеолитической стоянки Мальта (Сибирь)

[2,] «33.7% Brahui + 66.3% Udmurd» «21.9804»
[3,] «34.5% Makrani + 65.5% Udmurd» «22.357»
[4,] «34.3% Balochi + 65.7% Udmurd» «22.413»
[5,] «33.3% Sindhi + 66.7% Udmurd» «24.1198»
[6,] «36.5% Burusho + 63.5% Udmurd» «24.211»
[7,] «39.7% Pashtun + 60.3% Udmurd» «24.3389»
[8,] «34.3% Pathan + 65.7% Udmurd» «24.716»
[9,] «32.2% Pakistani + 67.8% Udmurd» «24.753»
[10,] «41.4% Tadjik + 58.6% Udmurd» «24.852

Довольно-таки интересны результаты литовских татар. Они показывают что основу их популяции составляли группы близкие к современным каракалпакам. Доказан факт смешивание со славянскими популяциями.

[1,] «Tatar_Lithuania» «0»
[2,] «45.7% Belarusian + 54.3% Karakalpak» «4.114»
[3,] «48.2% East-Ukrainian + 51.8% Karakalpak» «4.362»
[4,] «53.2% Karakalpak + 46.8% South-Russian» «4.373»
[5,] «45.7% Center-Russian + 54.3% Karakalpak» «4.4215»
[6,] «51.8% Karakalpak + 48.2% Russian_cossack» «4.7105»
[7,] «53.7% Karakalpak + 46.3% Pole» «4.7189»
[8,] «51.1% Karakalpak + 48.9% Ukrainian» «4.7654»
[9,] «56.2% Karakalpak + 43.8% Russian» «4.9077»
[10,] «49.9% Karakalpak + 50.1% West-Ukrainian» «5.5127»

Результаты дагестанцев. У кумыков из Стальского замтене сдвиг в сторону европейского неолитического фона, у даргинцев из Уркараха — в сторону таджиков, бурушей и пакистанцев

[,1] [,2]
[1,] «Stalskoe» «0»
[2,] «89.3% Lak + 10.7% Sardinian» «5.9513»
[3,] «87.7% Lak + 12.3% S1» «5.9727»
[4,] «90% Lezgin + 10% Sardinian» «6.2035»
[5,] «91.1% Lezgin + 8.9% Spanish_Basque» «6.2534»
[6,] «88.6% Lezgin + 11.4% S1» «6.339»
[7,] «8.8% French_Basque + 91.2% Lezgin» «6.3573»
[8,] «14.8% S1 + 85.2% Urkarah» «6.613»
[9,] «87.4% Lezgin + 12.6% Puerto-Rican» «6.6176»
[10,] «11.3% Iberian + 88.7% Lezgin» «6.6416»

[1,] «Urkarah» «0»
[2,] «87.2% Lak + 12.8% Tadjik» «3.9718»
[3,] «7.4% Brahui + 92.6% Lak» «4.027»
[4,] «7.1% Balochi + 92.9% Lak» «4.1902»
[5,] «90.7% Lak + 9.3% Pashtun» «4.2146»
[6,] «92.9% Lak + 7.1% Makrani» «4.2644»
[7,] «96.3% Lak + 3.7% Orcadian» «4.4254»
[8,] «5.3% Burusho + 94.7% Lak» «4.4391»
[9,] «95.4% Lak + 4.6% Pakistani» «4.4458»
[10,] «95.3% Lak + 4.7% Sindhi» «4.4459»

Чеченцы, как и должно быть находятся как бы посередине между восточно-северокавказскими популяциями и популяциями западной части северного Кавказа (дагестанцами):

[1,] «Chechen» «0»
[2,] «41.7% Balkarian + 58.3% Lezgin» «1.2933»
[3,] «47% Balkarian + 53% Lak» «1.461»
[4,] «48.6% Adygei + 51.4% Lak» «1.5575»
[5,] «43% Adygei + 57% Lezgin» «1.7072»
[6,] «54.3% Lak + 45.7% North-Ossetian» «2.2724»
[7,] «62% Adygei + 38% Urkarah» «2.3513»
[8,] «60.2% Lezgin + 39.8% North-Ossetian» «2.3592»
[9,] «60.3% Balkarian + 39.7% Urkarah» «2.3594»
[10,] «32.1% Cirkassian + 67.9% Lezgin» «2.647»
Доказана примесь тюркских генов у русских казаков

[,1] [,2]
[1,] «Russian_cossack» «0»
[2,] «4% Karakalpak + 96% Pole» «1.6702»
[3,] «92.7% Pole + 7.3% Tatar_Lithuania» «1.673»
[4,] «3.5% Kyrgyz + 96.5% Pole» «1.6749»
[5,] «96.1% Pole + 3.9% Uyghur» «1.6836»
[6,] «96.3% Pole + 3.7% Uygur» «1.6839»
[7,] «3.6% Kazakh + 96.4% Pole» «1.7032»
[8,] «96% Pole + 4% Uzbek» «1.7071»
[9,] «96.1% Pole + 3.9% Turkmen» «1.7144»
[10,] «3.6% Hazara + 96.4% Pole» «1.7184»

Результаты  крымских татар также обнадеживают. Они представлены как смесь ногайцев, башкиров, литовских татар, — и румын, греков из разных областей, что логично.

[1,] «Tatar_Crim» «0»
[2,] «54.3% Nogay + 45.7% South-Greek» «2.26»
[3,] «46.4% Center-Greek + 53.6% Nogay» «2.9529»
[4,] «46.2% Greek + 53.8% Nogay» «3.1448»
[5,] «55.8% Nogay + 44.2% North-Greek» «3.2151»
[6,] «50% Nogay + 50% Romanian_Jew» «3.3766»
[7,] «41.4% Kosovar + 58.6% Nogay» «3.9495»
[8,] «73.3% Greek_Azov + 26.7% Tatar_Lithuania» «4.6688»
[9,] «22.5% Bashkir + 77.5% Greek_Azov» «4.8702»
[10,] «57.6% Nogay + 42.4% Romanian» «5.0906»

Cеверные финны из Куусамо. Они выходят наиболее истинными наследниками палеолитического населения Европы

[,1] [,2]
[1,] «North_Finn» «0»
[2,] «39.8% BRA + 60.2% Finland» «22.1224»
[3,] «49.2% BRA + 50.8% South_Finn» «24.2635»
[4,] «54.8% BRA + 45.2% Finn» «25.2111»
[5,] «64.1% BRA + 35.9% Inkeri» «25.9453»

Репост: Генетика русских, славян, кавказцев, евреев, финнов и других популяций.

Взято с сайта http://haplogroup.narod.ru/genetics_components.html

Гаплогруппы человека передаются по прямым мужской и женской линиям. Но за генетику как мужчин так и женщин ответственна информация, хранимая в аутосомах ДНК. Аутосомы — это первые 22 пары хромосом у человека, которые передаются от обоих родителей после кроссинговера — процесса рекомбинации. Таким образом от отца и матери потомкам передается примерно по равной половине генетической информации.
В данном исследовании используется более 80 000 аутосомных снипов, реперных точек — это очень высокое разрешение, позволяющее уловить даже относительно небольшие влияния на генетическом уровне у основной массы народа. Данные сравнительного анализа взяты из открытого исследования В.Веренича — специалиста по сравнительному анализу генетических компонент. Сами генетические калькуляторы находятся на сервисе GedMatch, и позволяют любому желающему узнать свое сравнительное положение на генетическом графике. Для этого достаточно иметь результаты аутосомного теста компании FTDNA, либо 23andMe. В конце исследования приведены карты географического распространения и частотных максимумов для основных аутосомных компонент из проекта MDLP World-22.
На графиках приведенных ниже показаны основные компоненты и их среднее процентное соотношение для каждой из популяций. В одной строке — процентная разбивка для одной популяции. Каждое деление (вертикальная черта) соответствует 10%, а названия аутосомных компонент располагаются в той же последовательности слева направо, что и в легенде сверху вниз. Чем более похож процентный состав общей генетики у разных народов, тем более похожим выглядит рисунок на приведенном графике. Итак приступим …

Генетика немцев, литовцев, русских, шведов, финнов и т.д.

width=760
На данном графике приведены основные генетические компоненты для европейских народов и выравнены по уменьшению восточно-европейской компоненты (North-East-European) в различных популяциях. Как видно все европейские народы достаточно различны в генетическом плане, и имея в своем наборе одинакового происхождения генетические компоненты, они тем не менее в весьма различных процентах. Для всех славян и балтов в целом одной из максимально-значимых является данная компонента Восточной Европы, которая в максимуме у литовцев и белорусов. Вероятно со времен археологической «культуры шнуровой керамики» территория этих стран была центром происхождения данной компоненты. Она представлена более 80% у литовцев, и всего 20% у итальянцев.
Фиолетовый цвет обозначает атланто-средиземноморскую компоненту, и она увеличивается по мере движения с севера-востока на юго-запад. Так у финнов она достигает в среднем 15%, а у итальянцев 40%. Остальные компоненты менее выражены.

Генетика русских

width=760
На данном графике приведены восточные славяне — русские, белорусы, украинцы.

width=760
На этом графике изображены все славяне, включая западных — поляков и чехов, а также южных — сербов, болгар, македонцев и т.д.
Основных компонент у всех славян — 2. Это восточно-европейская и атланто-средиземноморская. Первая в максимуме у белорусов, а вторая у всех южных славян — сербов, македонцев, болгар. Восточно-европейская компонента более первична по происхождению у славян, а атланто-средиземноморская является приобретенной в процессе миграций славян на Балканы.

Генетика славян, германцев, татар, кавказцев, евреев и т.д.

width=760
Данный график отображает различное происхождение среди народов России. Как видно у славян основной является восточно-европейская компонента, а у народов Поволжья повышается доля сибирских компонент. В то время как для кавказцев наиболее характерны западно-азиатская компонента, средиземноморская и ближне-восточная.

Генетика финнов, угров, удмуртов, саамов и др.

width=760
Как видно для финнов, вепсов и карел характерно схожее генетическое происхождение со славянами. У них также наиболее максимальна восточно-европейская компонента, уменьшается ближе к Уралу и Поволжью, с увеличением в этом регионе сибирских компонент. Также у всех финно-угрских народов выражена значительно компонента мезолита Европы, которая достигает почти 80% у саамов и связана с до-индоевропейским и до-неолитическим населением Европы. Для венгров в целом характерен набор тех генетических компонент, что и для других популяций карпатского региона и Центральной Европы.

Генетика кавказцев — абхазов, осетин, дагестанцев, чеченцев, ногайцев и др.

width=760
Как видно для всего Кавказа характерно сравнительно схожее генетическое происхождение — это большая доля западно-азиатской компоненты и средиземноморской. Немного выбиваются только ногайцы — у них повышается доля сибирских компонент.

Генетика евреев

width=760
Как видно у ашкеназов и у сефардов высокая частота западно-азиатской, атланто-средиземноморской и ближневосточной компонент. При этом у ашкеназов небольшое повышение до 4% сибирской компоненты, что вероятно связано с хазарским наследием. Особенно выбиваются из их «компании» только эфиопские евреи и индийские евреи. У первых высока доля субсахарской Африки, а у вторых доля индийской генетической компоненты.

География генетических компонент


Атланто-Средиземноморская

Восточно-сибирская

Индийская

Субсахарская

Ближневосточная

Восточно-европейская

Самодийская

Мезолит Европы

Западно-азиатская

Пигмейская

Новая версия этно-популяционного калькулятора MDLP и соображения по поводу генетического разнообразия человечества

Сравнение снп-теста DNA Tribes и MDLP World-22 Вадима Веренича.

С подачи FenriR я проработал таблицу эталонных популяций 20-компонентного снп-этнокалькулятора DNA Tribes. Структурно он довольно схож с World-22 Вадима Веренича, поэтому логично провести их сравнение. Европа у Вадима (и в большинстве других калькуляторов) разделяется на два основных полюса — Литва (Северо-Восточная Европа) и Сардиния/баски (Атлантика-Средиземноморье). В ДНА Трайбс выделены эти же два компонента как Славик-Балтик и Медитерранеан. Кроме этого, они постарались выделить еще один компонент — Северо-Западную Европу с пиком в Ирландии и на Оркнейских островах. Логично, если они хотят увеличить детализацию теста для людей преимущественно британского происхождения. Компонент получился композитным, на Западе он заменяет в первую очередь Славик-Балтик, на Востоке — Медитерранеан. Поэтому распространение Славик-Балтик среди славян близко к Северо-Восточной Европе World-22 (с поправкой, о которой в разделе про Уралик), среди германских же и романских народов он падает гораздо резче. Аналогично Медитерранеан доминирует на юго-западе Европы — в абсолютных значениях сильнее, чем у Вадима, но быстрее спадает при удалении.
Мне кажется, основные европейские кластеры сделаны резче, чем они на самом деле, это загрубляет результаты. Но в целом распределение по ним выглядит верным.
Следующий компонент — Уралик. Здесь попытались объединить финнов и чувашей, что, на мой взгляд, неверно для Восточной Европы. Оба этих народа очень своеобразны. Видимо, действовали по аналогии с объединением сардинцев и басков и хотели вывести аналогичной кластер для противоположного конца Европы. Что-то в этой идее есть, но финнов тяжело с кем-то объединить. В результате в состав компонента вошли Мезолитическая Северная Европа из World-22 (финский, в более широком смысле общий северо-европейский компонент), Самоедик (уральский-западносибирский компонент), и отщипнули хороший кусок от Балто-Славика. Здесь калькулятор Вадима выглядит гораздо детальнее и точнее.
Далее идет «сибирский» адмикс, который у Вадима Веренича тонким слоем размазан по северо-востоку Европы. У ДНА Трайбс он частью тоже ушел в Уралик, частично виден у северных русских и очень сильно представлен у чувашей (на мой взгляд, слишком сильно). Важный европейский компонент — Кавказ/Западная Азия. В World-22 он распространен по всей Европе в сравнительно небольших количествах. Считается, что это след первых земледельцев из Малой Азии, в свое время распространившихся по Европе, но впоследствии вытесненных/ассимилированных. В ДНА Трайбс распространение Кавказа и Ближнего Востока (Месопотамиан) похоже на вариант Веренича, но тоже проявлено слабее — видимо, часть ушла в резкие европейские компоненты. Резюмируя — каждый калькулятор нацелен на свою аудиторию. Если DNA Tribes в первую очередь концентрируются на Западной Европе, то проект Вадима Веренича дает заметно лучшую детализацию по Европе Восточной.Судя по результатам FenriR (результаты других форумчан опубликованы до последнего изменения методики), уровень шума в DNA Tribes довольно велик — если Mesoamerican 3.0% Indus Valley 2.9% еще можно списать на Север, Сибирь и Поволжье, то West African 2.0% откровенный шум.

Порог генетического разнообразия человечества.

Поскольку калькулятор показал в большинстве случаев свою состоятельность, я решил начать работу над новой версией этно-популяционного ДНК-калькулятора. Однако прежде чем разместить краткий анонс предстоящего реализа, хочется упоминать примечательную работу, вышедшую в журнале Nature пару дней назад. В журнале “Nature” 3 июля 2013 г. опубликована статья «Генетическое разнообразие и популяционная история высших приматов», подписанная 55 генетиками (лидеры группы – Ксавьер Прадо-Мартинес из Института эволюционной биологии в Барселоне и Питер Садмант из университета штата Вашингтон в Сиэтле). Исследование весьма интересно  как антропологам, так и приматологам. Однако нас, с точки зрения генетики, заинтересовал следующий фрагмент исследования:

Авторы изучили 89 млн точечных нуклеотидных полиморфизмов (SNP) у 79 представителей различных подвидов всех шести видов крупных человекообразных обезьян – шимпанзе, горилл и орангутанов, – а также у 9 людей (трех африканцев и шести жителей других континентов).

Внутривидовая генетическая вариабельность у человека не выходит за пределы внутривидовой изменчивости у других высших приматов, а точнее, находится на ее нижней границе. Гетерозиготность оказалась ниже всего у западных шимпанзе, бонобо, восточных горилл (это связано с инбридингом), а также у людей, особенно представителей неафриканских групп. Последнее вызвано постепенной утратой генетической изменчивости после исхода сапиенсов из Африки и их расселения по миру. Наиболее высокая гетерозиготность обнаружена у суматранских орангутанов.

Как мы видим ниже, именно эти вычисления и выводы о уровне гетерозиготности (которая в данном контексте используется  в качестве индикатора вариативности популяций) будут иметь особое значение при интерпретации результатов нашего нового калькулятора.

Собственно, сабж.

Упомянутые в статье о высших приматах особенности генетического разнообразия отчетливо заметны на PCA графике будущего калькулятора MDLP K=23 (Ultimate Edition). Он создан в R с помощью пакета rgl.  Я выбрал первые три главных компонента (эйгенвекторы — 1526.55, 1104.50, 1041). Наиболее низкой степенью гетерозиготности отличаются европейцы, особенно из северной Европы. На графике они смещаются в одну большую группу, в то время как наиболее значительной гетерогеностью характеризуются африканцы из субэкватариальной Африки. Таким образом, исходный дизайн выборок в новом калькуляторе отлично укладывается в общую эволюционно-биологическую парадигму.
Мы рассчитал аллельные частоты примерно 130000 тысяч снипов по референсным популяциям, взятым из академических источников. С целью сохранения совместимости с коммерческими данными, были выбраны только те снипы, которые присутствуют либо в последнем чипсете 23andme, и/либо в последнем чипсете FAmilyFinder от FTDNA.
мы вычислили средние значения каждого из 23 компонентов для всех референсных популяций. Также имеются данные по  кластерному определению каждого из снипов.
Судя по разбивке популяций, они выглядят весьма правдоподобными. Но некоторые кластеры вызвают вопросы. Любопытно, что данные из известной работы Xing, в которые использовались дагестанцы из коллекции уважаемой Kazima Bulayeva, как бы образуют вектор параллельный основному вектору Европа-Азия.Радует что график имеет характерную V- или триангулярную форму. Это признак правильного расхождения популяций.Это треугольник с углами в популяциях CEU,бушменов и южных китайцев, причем генетическое разнообразие азиатов включает в себя разнообразие америндских популяций.

Учитывая все вышеизложенные проблемы, перед тем как делать релиз очередного этно-популяционного ДНК-калькулятора, я решил воспользоваться услугами бета-тестеров. В первую очередь, надеюсь на помощь Александр Бурнашев и Srkz (Сергея Козлова) поскольку они лучше остальных в русскоязычном секторе любителей ДНК-генеалогии понимают принципы работы калькуляторов на основе Додекад DIY.

Я также выполнил предварительные вычисления аллельных частот компонентов в собственных данных  и данных референсных беларусов.

Данные моей мамы:

East-European 38,65
Caucausian 27,98
North-European 12
Indian 9,92
Samoyedic 2,4
Arabic 1,55
West-African 1,26
Polinesian 1,04
… Central-Asian-Caucasian 1,02
Amerindian 0,94
Near-East-Mediterranean 0,84
Papuan-Melanesian 0,78
Austronesian 0,59
East-African 0,4
North-European-Caucausian 0,34
Central-African 0,25
Sino-Tibetan 0,04
North-African 0
South-African 0
Nigerian 0
Indo-Chineese 0
Sub-Saharian 0
West-Mediterranean 0

Мои собственные данные

East-European 36,89
Caucausian 28,87
North-European 11,36
Indian 9,98
Arabic 3,51
Central-Asian-Caucasian 2,37
Samoyedic 1,66
Polinesian 1,27
Amerindian 1,12
… Austronesian 1
Papuan-Melanesian 0,85
West-African 0,44
South-African 0,34
Sino-Tibetan 0,13
East-African 0,12
Near-East-Mediterranean 0,07
Central-African 0,04
North-African 0
North-European-Caucausian 0
Nigerian 0
Indo-Chineese 0
Sub-Saharian 0
West-Mediterranean 0

Данные референсных беларусов:

East-European 41,6645%
Caucausian 26,3905%
Indian 12,1348%
North-European 11,0739%
Near-East-Mediterranean 2,0315%
Indo-Chineese 1,4123%
Austronesian 1,1291%
Samoyedic 1,1257%
West-African 1,0845%
… Polinesian 0,6104%
Nigerian 0,5530%
Arabic 0,4754%
South-African 0,3044%
North-African 0,0010%
North-European-Caucausian 0,0010%
Amerindian 0,0010%
Papuan-Melanesian 0,0010%
East-African 0,0010%
Central-Asian-Caucasian 0,0010%
Central-African 0,0010%
Sino-Tibetan 0,0010%
Sub-Saharian 0,0010%
West-Mediterranean 0,0010%