Этюд на тему ДНК-генеалогия.

Мой блог посвящен преимущественно тематике аутосомной ДНК, однако время от времени я затрагиваю тему однородительских маркеров происхождения (Y-ДНК и митоДНК).  Начну заметку издалека.
Среди обывателей села Стахова бытует легенда, о том, что род Вереничей пришли на земли пинского Полесья из Югославии.К сожалению, как и в большинстве подобных легенд, cовершено невозможно разобраться в том, где правда, а где позднейшие выдумки. Так и в этом случае. Ни в одном из имеющихся e меня исторических документах нет даже и намека на балканское происхождение Вереничей. Даже в самых ранних документах (например, в «Ревизии пущ и переходов звериных в бывшем Великом княжестве Литовском с присовокуплением грамот и привилегий на входы в пущи и на земли, составленной старостою мстибоговским Григорием Богдановичем Воловичем в 1559 г. «, или в «Писцовой книге Пинского староства Лаврина Воина, 1561—66«) уже видно, что даже в то время род Вереничей на Полесье считался «издавним«.



Так в ревизии Воловича (1559 года) читаем, что

«Павел Веренич на дворище у Стохови жъ не покладалъ листовъ, только давность, и на другое дворище у Дубой».


Слово давность означает существование в течение долгого времени, издревле, искони. Происходящие от корня этого слова прилагательные и наречия попадаются в разных актах с конца XIII века. Как юридический термин существительное <давность> употреблялось уже весьма рано в западнорусском законодательстве; собственно же в России оно появляется в виде термина лишь с XVIII века. Выражение земская давность было юридическим термином в Литовском Статуте, из которого заимствовано русским законодательство.

 



В строго юридическом смысле срок давности владения определялся десятью годами. Впрочем, здесь давность может употребляться в другом значении. Так, в актовых материалах все той же «Ревизии пущ и переходов звериных в бывшем Великом княжестве Литовском с присовокуплением грамот и привилеев на входы в пущи и на земли, составленная старостою мстибогским Григорием Богдановичем Воловичем» в числе прочих землевладельцев Пинского повета упомянуты Грынь Веренич с братом Павлом «с имений своих стародавних [т.е. с незапамятных времен] военную службу служащих«. Судя по этому, Вереничи могли появится в Стахове уже в середине 15 века, если не раньше.
Когда, откуда, и при каких обстоятельствах — обо всем этом известные мне историко-юридические источники умалчивают. Более поздние документы не только не дают ответа на эти вопросы, а скорее еще больше запутывают ситуацию. Так например в «Выводе фамилии урожденных Стаховских придомка Веренич» (Год 1802 Месяца ноября двадцать второго дня на на сессии Депутации выводовой Губернии Минской) читаем следущее:

«Принесена была просьба от фамилии древней родовитой панской шляхты урождённых Вереничей Стаховских герба “Огончик” (пол-стрелы белой на половине перстня стоящей, в поле красном, над шлемом две женские руки вытянутые вверх) которая на наследственных землях и осадах в повете пинском лежащих от найяснейшых времён королевства Польского, прерогативами шляхетства пользовалась, и клейнотом родовитости неискаженно и непрерывно пользовались. [стр. 616] В потверждение указов найяснейшей воли – линия родословной своей вместе с документами перед депутацией выводовой губернии Минской составлена, потверждена доводами и внесена в дворянские книги Минской губернии в соответстии с законом.Родословие своего дома разделили на две линии. Дух родных братьев Семена и Дмитрия Вереничей Стаховских за родоначальников взяли, и от них до себя довели. И правдивость этого они через доказательства и документы следующим порядком довели. Семен и Дмитрий Вереничи Стаховские братья между собой родные. В повете Пинском осели и дали начало своему роду и фамилии. И в подтверждение своего первого поколения они предъявили привилегию от наияснейшего короля польского Сигизмунда Августа за год тысяча пятьсот шестьдесят шестой от июня двадцатого дня где, между другими для шляхты пинской пожалованиями за военную службу выше упомянутым Семену и Дмитрию Вереничам Стаховским земли в наследственное владение в повете Пинском лежащими дворища Веренича в Стахове и Дубой называющееся им и потомкам их пожаловал…»

Содержание начала текста весьма типично для подобных документов, но здесь нет сведений о точном времени появления Вереничей в Стахове, не говоря уже о явных хронологических несуразицах, которые я разбирал в другой заметке.

  1. Во-первых, под «привелем» 1566 года понимается общий «привилей» Сигизмунда-Августа, данные всей пинской шляхте в подтверждение их землевладельческих и шляхецких прав.
  2. Во-вторых, Семен и Дмитрий жили не в 1566 году, а как минимум на сто лет раньше — около 1456-1466 годов. В доказательство верности моих вычислений можно привести следующие аргументы. В решении судей Главного Трибунала ВКЛ от 1637 года упоминается о привелее кн. Марии Семеновны (+1501) ( в документе ошибочно указано Ярославовны) и ее сына кн. Василия Семеновича (+1495) от 6998 года индикта 8 (1490 года согласно современному летоисчислению), в котором подтверждается совместное владение Волошиным (sic!) Павлом и Ходором Вереничами даниной своей бабки в селе Тупчицы, Согласно родословной, Павел — сын Дмитрия и племянник Семена. В следующем по времени привилее кн. Федора Ивановича Ярославича от 26 апреля 1514 данном дочерям Антона (Андрей?) Дмитриевича Веренича потдверждается их вотчинное права на земли пожалованные их отцу в Стахове, Дубое и Тупчицах. Очевидно, Антон(или Андрей) — тоже сын Дмитрия, и более того, в 1514 году его дочери были уже совершеннолетними.
  3. В-третьих, в переписе войска литовского 1528 года упомянут пинский боярин Верениш (sic!), который служил «сам со своего имения». Далее, из судебного дела от 26 марта 1543 года по иску Пашки Павлова и его братьи Игнатия и Гаврила к Ваське Лозичу, который унаследовал по своей жене Ульяне Лукашевичевой Веренич часть имений Дубой и Стахово. мы узнаем, что в 1543 году внуки Дмитрия (Пашко Павлович и его двоюродные братья Гавриил и Игнат Васильевич) были уже взрослыми, так же как и покойная Ульяна Лукьяновна (дочь Лукьяна Семеновича, внучка Семена Веренича), после смерти которой третья часть дворища Веренич в Дубое и дворища Веренич в Стахово перешла к Ваське Лозичу.

 



Далее, в 1554 году — за 12 лет до указанной в привелее даты — в материалах, собранных в ходе ревизии пущ и переходов лесных -упомянуются Грынь Веренич с (троюродным) братом Павлом с имений своих стародавных военную службу служащих. Как известно, Грынь — внук Семена, а Павел или Пашко — внук Дмитрия. О самих Семене и Дмитрии ни слова, хотя если бы они жили в это время, то скорее всего именно они или их сыновья были бы записаны как старшие в своем роду, но никак не их внуки.В 1559 году, по все той же ревизии Воловича, в числе земян Стаховских опять упоминается Павел Веренич, правда, уже без Гриня. В тексте четко сказано, что Павел не покладал листов (т.е. не предъявил привелея), только давность на дворище у Стахова и другое дворище у Дубоя. Поскольку большую часть книги Воловича составляют привелеи, выданные или подтвержденные королевой Боной, следовательно, от Боны Вереничи привлеев не получали, по крайней мере, на земли в Дубое и Стахове.Все вышесказанное означает, что уже задолго до 1566 года Вереничи владели своими дворищами и землями на основании вотчинного права, и что феодальные права Вереничей на эти земли восходят — как минимум -временам кн. Марии Семеновны и ее сына Василия (то есть к периду между 1475-1490 гг).


Реконструкция позволяет очертить интервал появления Вереничей в Стахове — но с обстоятельствами появления по-прежнему нет никакой ясности. Поскольку скудные исторические свидетельства обходят  этот вопрос сторонй, то можно обратиться к преданиями. Среди старожилов села Стахова якобы сохранилось следующее якобы древнее предание:


Когда-то, давным-давно, жил на Полесье князь Карачинский (sic!). В его владениях находился большой дремучий бор, около которого проходил торговый шлях. По прошествии времени, в этом бору поселилось 100 половцев, которые совершали нападения на проезжающих купцов и селян. Князь, прослышав о разбойниках, повелел своим «палявничим» (охотникам) узнать, где находится разбойничье логово. Один из охотников решил проследить путь до логово половцев и стал делать топором зарубки на деревьях. Услышав стук топора, войны князя отправились в сторону, где раздавалось эхо стука топора. Таким образом, они вышли прямиком на логово разбойников и истребили их. В награду за верную службу, князь наградил находчивого охотника землям, где находился стан половцев. Охотник постоянно носил с собой «Ксендз Лаврентий Янович, каноник венденский, в своей речи на погребении Элжбеты с Стаховских Каренжины, жены вилькомирского судьи, изданной в сборнике «Золотой улов на реках и водах смертности сего мира и т.д» (Вильно 1665 г.) размещает следущее предание, относящиеся к истории Стахова.: «Князь Карачевский, владелец обширных волостей, лежащих на Пинщине, крайне скудными силами 100 половцев положил трупами и на там же месте похоронил, как и по ныне свидетельсвтуют о том курганы того места. За это мужесто правящий князь ему отдал в удел это поле, а также столько земли, сколько мог объять звонкий звук трубы. Отсель то земельное надание стало называтся Стоховым, потому что там похоронено сто убитых врагов.» (веренька, вярэнька), и поэтому его прозвали Веренькой. Его потомки приняли прозвище родоначальника в качестве фамилии.


К сожалению, изучение этого предания показывает его недавнее происхождение. Скорее всего, оно выписано из 9-го тома «Полного географического описания нашего отечества» изданного в 1905 году В.П.Семеновым-Тян-Шанским , куда, в свою очередь перекочевало из известного издания «Słownik geograficzny Królestwa Polskiego» изданного в 1880–1902 гг., а именно из 11 тома, в котором на стр.171-172 была размещена довольно объемная статья Александра Ельского и Эдварда Руликовского о Стахове. Именно с подачи Руликовского в этой статье была размещена выписка из издания 17 века:

«Ксендз Лаврентий Янович, каноник венденский, в своей речи на погребении Элжбеты с Стаховских Каренжины, жены вилькомирского судьи, изданной в сборнике «Золотой улов на реках и водах смертности сего мира и т.д» (Вильно 1665 г.) размещает следущее предание, относящиеся к истории Стахова: «Князь Карачевский, владелец обширных волостей, лежащих на Пинщине, крайне скудными силами 100 половцев положил трупами и на там же месте похоронил, как и по ныне свидетельствуют о том курганы того места. За это мужесто правящий князь ему отдал в удел это поле, а также столько земли, сколько мог объять звонкий звук трубы. Отсель то земельное надание стало называтся Стоховым, потому что там похоронено сто убитых врагов.»

 


В приведенном отрывке приводится родословное предание рода Стаховских герба Огоньчик, (проживавшего в мстиславском, виленском, новогрудском и пр. воеводствах ВКЛ), генеалогическая связь которого с Вереничами пока никак не проясняется. Главным фигурантом здесь выступает князь Карачевский (которого, видимо, Cтаховские считали своим предком), а вовсе не «охотник с сумкой из бересты». Можно с уверенностью сказать, что «легенда старожилов» Стахова появилась самое ранее в начале 20 века в среде «грамотеев» села Стахове как результат переосмысления текста статьи их энциклопедического справочника,  а затем объединения легенды об основании Стахова с народной этимологии фамилии Веренич.



Итак, и этот источник не дал нам ничего ценного. Поскольку возможности документальной генеалогии на этом этапе практически исчерпываются (и открытие новых источников вряд ли предвидится), остается обратится к новой отрасли — ДНК-генеалогии.

Генетическая генеалогия использует ДНК-тесты совместно с традиционными генеалогическими методами исследования. Каждый человек несёт в себе своего рода «биологический документ», который не может быть утерян — это ДНК человека. Методы генетической генеалогии позволяют получить доступ к той части ДНК, которая передаётся неизменной от отца к сыну по прямой мужской линии — Y-хромосоме. ДНК-тест Y-хромосомы позволяет, например, двум мужчинам определить, разделяют ли они общего предка по мужской линии или нет. ДНК-тесты не просто помощь в генеалогических исследованиях — это современный передовой инструмент, который генеалоги могут использовать для того, чтобы установить или опровергнуть родственные связи между несколькими людьми.

Итак, в 2008 году узнал свою Y-хромосомную гаплогруппу (I2a). Немного терминологии для читателей, далеких от науки:

Гаплогруппа (в популяционной генетике человека — науке, изучающей генетическую историю человечества) — группа схожих гаплотипов, имеющих общего предка, у которого в обоих гаплотипах имела место одна и та же мутация — однонуклеотидный полиморфизм.

 

 

Позднее протестировались еще 2 Веренича, и наши гаплогруппы совпали, что подтверждается достоверность официальной родословной. Казалось бы, после всех усилий, можно было бы легко определить ареал, откуда появились предки Вереничей (очевидно, что это ареал с наибольшей частотой или наибольшим разнообразием гаплогруппы I2a). На поверку же все оказалось гораздо сложнее. Географический ареал гаплогруппы I2a (вернее ее восточноевропейской, «динарской» ветви) характеризуется бимодальным распределением — в восточной Европе они приходятся на регион Полесье-Карпаты и на регион Балкан (с макисмальной частотой в Боснии-Герцеговине).

По иронии cудьбы, именно с этими двумя регионами связаны две наиболее вероятные версии происхождения Вереничей. Таким образом, знание одной лишь корневой гаплогруппы мне, по большому счету, не помогло ни подтвердить, ни опровергнуть одну из этих альтернативных версий.

Тупиковая ситуация изменилась лишь после того, как один из Вереничей сделал полный сиквенс Y-хромосомы (BigY в FTDNA). Благодаря ему удалось достаточно точно позиционировать расположение нашей ветви-кластера внутри общей структуры филогенетического дерева I2a.Благодаря присутствию Y-хромосомного сиквенса (YF03602) представителя рода Вереничей в базе данных yfull.com (спасибо за помощь Vladimir Semargl и Vadim Urasin) представляется возможным оценить возраст моего кластера. На настоящий момент в него входит еще один полный сиквенс Y-хромосомы (YF04188), о хозяине которого мне ничего неизвестно.

Возраст линии Вереничей оценивается в 1438 лет до настоящего времени, линии YF04188 — всего лишь в 546 лет.По расчету снип-мутаций возраст I-Y17665 (и возможно I-A7318) оценивается примерно в 1000 лет (т.е. временами Киевской Руси), а возраст родительской ветви A1328 в 1850 лет до настоящего времени (начало нашей эры). Возраст, определенный по снипам, указывает на время выделения ветви I-A1328, хотя возраст последнего общего предка (определенный по значениям других маркеров Y-хромосомы) чуть ниже -1400 лет (т. е примерно 5-6 века нашей эры). То есть ветвь моих прямых предков в это время прошла пресловутое бутылочное горлышко, сопровождаемое, как правило, падением числа представителей линии и уменьшением разнообразия.

Здесь начинается самое интересное.



Недавно, зайдя на сайт проекта I2a в FTDNA, я обнаружил результаты некоего Враньешевич из Черногории. Я бы не обратил на него внимание, если бы он не попал в тот же кластер, что и я (в этот кластер входит ветвь Вереничей, гаплогруппа (I2-A7318, т.е подветвь I-A1328)).Я решил рассчитать возраст I-A1328 с помощью калькулятора semargl.me и стандартных для набора 37 маркеров скорости мутации. К сожалению, в базе данных Semargl немного гаплотипов из конкретно моего кластера и ближайщих к нему братских кластеров. В общем возраст, по ASD методу получилось что возраст моего кластераI (Y17665) — 1050 лет, а при подключении (в качестве outgroup) гаплотипа из I-A1328* возраст кластера I-A1328* составил примерно 1850 лет. То есть, это верхний интервал временного промежутка, когда мог жить последний мой общий предок (MRCA) и Враньешевича.

I2a2 ‘Dinaric’ ..L621>CTS10228>S17250>Y4882>A1328>A7318 (I-A7318)

568 362501 Verenich Werenicz,Werenich,Verenich,Werenitz,Stachowski. Belarus I-A7318

I2a2 ‘Dinaric’ ..L621>CTS10228>S17250>Y4882>A1328 (I-A1328)
564 E13120 Vranjesevic Vranjesevic Milan-Mico, birth 1913, death 1992 Bosnia and Herzegovina I-A1328


Нижний интервал можно определить с помощью калькулятора McDonald. Для вычисления дистанции в годах я сравнил значения 67-маркерного гаплотипа одного из Вереничей с аналогичными маркерами гаплотипа Враньешевича. 10 маркеров имеют другое значения. Получается разница в 10 маркеров на 67 маркерных гаплотипах.

Generations Probability Cumulative
1 0.000000 0.000
2 0.000000 0.000
3 0.000000 0.000
4 0.000004 0.000
5 0.000022 0.000
6 0.000091 0.000
7 0.000279 0.000
8 0.000699 0.001
9 0.001495 0.003
10 0.002825 0.005
11 0.004827 0.010
12 0.007592 0.018
13 0.011137 0.029
14 0.015396 0.044
15 0.020223 0.065
16 0.025408 0.090
17 0.030697 0.121
18 0.035824 0.157
19 0.040537 0.197
20 0.044616 0.242
21 0.047893 0.290
22 0.050258 0.340
23 0.051662 0.391
24 0.052111 0.444
25 0.051660 0.495
26 0.050401 0.546
27 0.048451 0.594
28 0.045943 0.640
29 0.043014 0.683
30 0.039796 0.723
31 0.036412 0.759
32 0.032973 0.792
33 0.029568 0.822
34 0.026274 0.848
35 0.023146 0.871
36 0.020225 0.891
37 0.017537 0.909
38 0.015097 0.924
39 0.012906 0.937
40 0.010961 0.948
41 0.009252 0.957

 

14202591_10210357856572557_5019604267960638228_n-1 14199500_10210357943174722_1769976137139415870_n

Пик гистограммы приходится на интервал между 21-30 поколениями, начиная с 26 поколения кумулятивная вероятность родства достигает убедительных значений достигая 0.95 в 41 поколении. Т.е. нижняя граница приходится примерно интервал в 600-1025 лет до настоящего времени — другими словами между 15 и 10 веками нашей эры.

Разумеется, c генеалогической точки зрения, исследование нижнего интервала (с общим предков в 14-15 веках нашей веры) более перспективен, тем более что я проследил свою прямую мужскую линию до 19 поколения.

Но насколько возможен факт наличия общего прямого мужского предка белоруса и черногорца в 21-30 поколениях? Дает ли генеалогия Вереничей предпосылки для такого утверждения? Прямых предпосылок, разумеется, нет.


Зато есть соображение ономастического характера. Один из сыновей второго родоночальника — Дмитра — Василь носил прозвище Волошин — так обычно в русских землях называли валахов, хотя часто прозвище Волошин не имело этнической коннотации и могло выступать в качестве отыменного прозвища: например, Володшин cын -> Волошин или Власий -> Волос -> Волошин. Наконец, составитель документа или переписчик мог сделать обычную описку. Впрочем, последнее опровергает существование 2 топонимов в окрестностях Стахова — урочища и острова Волошиново — причем именно там находились в 16-17 веках владения потомков Дмитра Веренича (старшим сыном которого являлся Василь Волошин). Кстати, любопытно отметить, что иногда в документах 16 века фамилия Веренич записывается не с окончанием —ч, а с более традиционным для южных славян окончанием — ш (Верениш)

А как же тогда быть с Вранешьевичем? Какое отношение он может иметь к валахам?

Лет 8 тому назад я порылся в исторических документах и обнаружил, что похожая фамилия Вранчич (в хорватском произношении Веранчич) действительно существовала на территории так называемого царства Сербия. После фактического распада Сербского царства (около 1366-1371 года), часть Вранчичей переселилось в Южную Сербию и Черногорию (где потомок Вранчичей воевода Радич Црноевич основал династию Црноевичей, которая в 15 веке праваила Зетой и Черногорией), другая перешла на службу к усилившемуся после падения «црства Српскаго» боснийскому королю Стефану Твртко I, который в 1370 и 1389 годах принял титул короля сербов, Боснии (1379) , Далмации и Хорватии (1389). Эти боснийские Вранчичи после падения Боснии (1463 год) под ударами турков частью переселились в Далмацию (г.Шибеник), которая с1420 была под венецианским владычеством, другая переселилась на границу Герцеговины и Черногории, где владели под турками «хематом» Вранеш, названого так в честь «валашского» князя Херака Вранеша (Вранеш — это герцеговинское диалектное видоизменение имени Вранчич).»Из возможных потомков Вранчичей, оставшихся в восточной Боснии и Герцеговине, особого внимания заслуживает «влашский» (sic!) кнез Херак (Владиславич?) Враньеш.

Казалось бы, вышеприведенные рассуждения выглядят убедительно. На самом же деле, остается главная проблема — дело в том, что фактически на протяжении 14-17 веков неизвестно никаких миграций жителей Балкан и влахов на территорию Полесья. Да, действительно была т.н. валашская колонизация, но она затрагивала главным образом территорию юго-западной Украины (прежде всего «червонной Руси» и «любельской земли», т.е. земли вокруг Львова, Звенигорода, Галича, Теребовля, Санока, Кросно, Белза, Замосця, Холма (Хелма). Причем интенсивность расселения «валахов» даже в этих регионах резко уменьшалось по мере продвижения на север (см. приложенную ниже карту).

14212036_10210384176630542_5840107323456791924_n

Например, на ближайшей к Полесью Волыни встречаются лишь фрагментарные упоминания бояр «Волошинов» в документах Метрики Литовской начала 16 века — они касаются пожалования земель в кременецком повете, т.е на рубеже ВКЛ и русского воеводства короны Польской (причем многие из этих «волошинов» носят чисто румынские имена Негое, Урсул и так далее). Такой же фрагментарный характер носят и земельные пожалования «волошинам» и на Подолье. И уж совсем единичные упоминания Волошинов мы находим в документах Метрики Литовской, касающихся земель современной Беларуси. Правда, на Брестчине одна семья «волошинов» — Ходько, Зань и Васько — получила в начале 16 века привелей на имение Чернско (от них происходит род Черских в брестском воеводстве, который вымер в 17 веке).

Реклама

Размышления над эффективностью алгоритма SPA

Перед тем,  как закрыть тему SPA, я решил поразмышлять о причинах неточности определения географического ареала происхождения с помощью генома. Те, кто воспользовался моей моделью для программы SPA (последняя версия — сентябрь 2016 года), могли убедится в том, что даже при наличии большого количества маркеров, модель не во всех случаях точно определяет ареал происхождения (даже с поправкой на погрешность радиусом в 500 км).
В основу алгоритма SPA положены примерно те же самые предпосылки, что и в случае с классическим анализом главных компонент (PCA)

  • Первая предпосылка  подхода SPA состоит в том, что частота аллели каждого SNP в популяции может быть смоделирована в виде непрерывной двумерной функции на карте. Другими словами, при выборе хромосомы индивидуума из локации с позицией (х, у) на карте, вероятность наблюдения минорного аллеля в SNP j на хромосоме может быть сформулирована в виде функции F (х, у), где Fj является непрерывной функцией, описывающей поведение частоты аллеля в зависимости от географического положения
  • Затем на основании сказанного делается упрощающее предположение, что эта функция является экземпляром логистической функции

 

где х представляет собой вектор переменных, указывающих географическое местоположение и а и Ь коэффициенты функции. Авторы понимают каждую из этих функций, как функцию FJ функции наклона градиента частота в SNP J. Эта функция кодирует крутизну склона по норме а, при этом предпологается что смещение параметра b фиксировано. Кроме того, направленность наклона  кодируется в значении вектора а.  Более подробно, θj = арктангенс (aj(1) / aj(2)) могут быть приняты в знчения угла для SNP j, где aj(1)  и aj(2)  являются первым и вторым элементами вектора а.

Поскольку SPA имеет явные географические координаты, подход может быть расширен для систем за пределами обычной картезианской двумерной плоскости координат. В качестве демонстрации этого, авторы программы SPA использовали алгоритм для анализа пространственной структуры населения земного шара, в которой двухмерное отображение на двухмерной плоскости не может точно фиксировать структуру популяции. Таким образом, каждый индивид проецируется на точку земного шара в трехмерном пространстве. Соответственно, авторы использовали трехмерный вектор х (с ограничением || х || равным определенной константе), чтобы представить индивидуальную позицию.

Используя данные (генотипы индивидов из различных популяций из  HGDP), авторы обнаружили что пространственная топология расположения индивидов в пространстве SPA мы наблюдали, что сильно напоминала топологию географической карту мира. В частности, люди из того же континента были сгруппированы вместе, а континенты были разделены примерно так, как это следовало бы ожидать из пространственного расположения.

ng-2285-f3

 

Главная проблема метода состояла в другом. Несмотря на точность топологии взаимного расположения индивидов,  на карте SPA сильно искажены расстояния между континентами.

Например, продольный размер континента Евразии составил 92 градусов в  SPA-пространстве земного шара, в то время как в пространстве реального земного шара — 150 градусов. Продольное расстояние между Европой и Северной Америкой составило 167 градусов на SPA карте земного шара, в то время как на самом деле оно составляет 90 градусов.  Любопытно отметить, что мой опыт работы с этой программы показал, что наибольшую проблему составляют географические координаты долготы, в то время как широты предсказываются довольно точно. То есть по какой-то причине (несимметричность генетических градиентов в направлении север-юг и направлении восток-запад?) пространство SPA очень сильно искажается в продольном измерении (т.е в долготу).
По этой причине, вычисленные географические точки происхождения для европейцев часто оказываются в Атлантическом океана и так далее.

Я решил использовать данные импутированных генотипов для европейских популяций (я занимался их импутацией на протяжении последнего полгода). На этот раз я ограничился только европейскими популяциями. Я  сделал два разных набора с разным числом снипов — один с 1 062 376 снипами, которые содержатся в платформах генотиприрования клиентов 23andme и FTDNA, другой — примерно 590 395 снипов.  Обе модели можно скачать с Google Drive  (здесь и здесь).

Несмотря на тщательный подбор снипов, обе модели продолжают страдать характерным сдвигом географических долгот, а это означает, что данная проблема обусловлена не выборкой генотипов, а самим алгоритмом программы (т.е. улучшение качества выборки или увеличение количества снипов не приводит к повышению точности даже в том случае, если мы используем для тренировки программы на обучающей выборке  индивидов с известной географической локацией).

Это хорошо видно на полученных в ходе анализа моих собственных данных географических координатах 2 точек происхождения (одна из них в Гренландии,  другая в Средиземном море)

untitled

Разумеется, вряд ли можно говорить о точности подобных вычислений. В ходе размышлений над способом решения проблемы я вспомнил о существовании ортогонального прокрустового анализа.

Я взял две матрицы — одну с географическими координатами (фактически центроиды — географические центры стран) и  вторую с предсказанными  (в модели 1M cнипов) величинами географических координат тех же самых образцов (с усредненными значениями по этносам), а затем совершил прокрустово преобразование в программе R, получив новую матрицу с преобразованными значениями координат. Ниже виден результат операции (преобразованные усредненные координаты образцов спроецированы вместе с центроидами на карту Европы). И хотя координаты по-прежнему немного сдвинуты относительно истинных, в целом результат уже гораздо лучше (правдоподобнее).rplot14При проведении прокрустова анализа, кроме Xnew (трансформированной матрицы),  мы получили значения матрицы вращения R, s- коэффициент масштабирования и tt — вектор трансляции координат, минимизирующие дистанцию между матрицей предсказанных координат и матрицей географических координат.

Эти значения можно использовать для коррекции значений географических координат, рассчитанных в SPA. Я снова использую свои данные (2 предсказанные точки географического происхождения Xp):


Xt=sRXp + 1tt


При подстановке Xp получаем следующие значения

точка A:  60.245448+-11.059673 северной широты;  21.394898 +- -5.979712  восточной долготы (северо-западная Балтика и Скандинавия)

точка B: 43.000748+-8.801889 северной широты;  20.725216+-52.159598 восточной долготы (юго-восточная Европа, Балканы и Греция).

 

 

 

 

 

Тезисные выводы статьи о эволюции «динарской подгруппы» гаплогруппы I2a

На протяжении последних двух месяцев я уделил много cвободного времени организации собранного мной на протяжении последних 6 лет материала и экспериментальных данных, касающихся демографической истории популяции носителей «мужской» (Y-хромосомной) гаплогруппы I2a, причем в фокусе исследования находился тот вариант, который наиболее распространен в Восточной Европе — т.н «динарская ветвь» или «динарская субклада». К началу декабря окончательный вариант статьи (объемом в 50 страниц) был подготовлен к реценизированию, которое должно занять несколько месяцев.

Пару дней назад один из рецензентов, историк Вячеслав Носевич из Беларуси, опубликовал публичный вариант рецензии статьи (этот вариант рецензии я размещу чуть ниже).

Пока ожидается рецензия второго рецензента, я хочу познакомить читателя с главными выводами исследования


Выводы исследования

 

Перед тем как приступить к  обсуждению результатов исследования, необходимо вкратце сформулировать в виде тезисов основные результаты анализов, проведенных в рамках системного метода:

  1. Гаплогруппа I2a1b2a1 определяется снипами CTS176/S2621, CTS1293/S2632, CTS1802/S2638, CTS5375/S2679, CTS5985/S2687, CTS7218/S2702, CTS8239/S2715, CTS8486/S2722, CTS11030/S2768, L178/S328 (и пр.). Согласно данным экспериментальной филогении (эспериментальному дереву гаплогрупп) Yfull (2014) и ISOGG, эта клада разбивается на субклады новыми снипами I-S17250 (к этой субкладе принадлежат все из протестированных представителей т.н «южного динарского Y-STR кластера» и часть представителей т.н. «северного динарского кластера», в то время как у остальной части обнаружено «предковое значение» аллели снипа I-S17250 –), I2a1b2a1b — Y4460 (Y3106, в эту кладу входят выходцы из Беларуси, Латвии, Росии, Польши), и Z17855 (в эту «безымянную» субкладу, еще не принятую в номенклатуре ISOGG, входит часть болгар, македонцев и украинцев).
  2. Самый большую подгруппу образуют дочерние кластеры самой большой субклады I-S17250 (обозначенной в дереве ISOGG как I2a1b2a1a): I2a1b2a1a1-Z16971(Y5596,Y5595, обнаружена у представителей небольшого кавказско-украинского кластера, чей возраст по расчетам дисперсии Y-STR составляет 1000 лет), I2a1b2a1a2-Y4882 (Y4883, представлена в выборке беларусов, украинцев и поляков), I2a1b2a1a3-A356/Z16983 (Y4790, Y4789, данные снипы найдены у части представителей описанного выше «южного-динарского» кластера). Данное распределение субклад гаплогруппы I2a1b2a1 показывает, что разнообразие субклад (ветвей) этой гаплогруппы гораздо выше в восточной Европе, где ареалы распространения дочерних субклад динарского субклала в значительной степени накладываются друг на друга. На Балканах и в южной Европе разнообразие дочерних субклад I2a1b2a1 ниже.
  3. Исходя из имеющихся ныне фактов, можно сделать вывод о том, что так называемый северно-динарский Y-STR кластер I2a1b2a1 («Dinaric-N») соответствует той части родительской ветви I2a1b2a1CTS5966, которая не входит в субкладу I2a1b2a1a3- Z16982/ Z16983/A356 (последняя включает значительную часть южно-динарского Y-STR кластера)[1]. У большинства представителей всей динарской гаплогруппы I2a1b2a1 обнаружены мутировавшие аллели в Y-снипах Y3548, S17250, и YP205. Cледовательно, варианты Y-хромосомы гаплогруппы I2a1b2a1, не имеющие эти три снип-мутации, представляют собой самое ранее кладистическое разделение гаплогруппы I2a1b2a1-CTS5966, видимо незадолго до последующей популяционной экспансией. Прямая патрилинейная родословная носителей этих «предковых вариантов» прослеживается в регионы юго-восточной Польши и смежных регионов западной Украине. Кроме того, в ходе коммерческих исследований проекта FTDNA I2a, у одного из представителей субклада «Disles» (I2a1b2a-CTS10936) — ближайшего (и возможно «родительского») по отношению к корневому уровню «динарской субклады» были определены 2 предковых (-) значения снипов, играющих важное значение в кладистическом разделении «динарского субклада» — CTS10936 + CTS10228- CTS5966-. Примечательно, что этот мужчина по прямой линии тоже происходит из южной Польши. Подводя итог сказанному, можно заметить, что распространение гаплогруппы I2a1b2a1CTS5966 началось в регионе западной Украины или юго-восточной Польше, где до сих пор сохранились «реликтовые» клады (ветви) I2a1b2a1CTS5966 с  «предковыми значениям» трех снипов.[2]
  4. Таким образом, более раннее разделение субклады I2a1b2a1 по 2 DYS-локусам на два кластера – южной и северный — не отражает истинной филогении: по состоянию на конец 2014 года субклад разделяется на 2-3 группы с дальнейшим разбиением на подгруппы; однако в настоящий момент из-за недостатка статистических данных трудно сказать, какие из данных мутаций являются приватными (генеалогическими), а какие актуальны для этнопопуляционных построений.

[1]  Кроме этих снипов, формирующих четко выраженные клады в структуре дерева I2a1b2a1, в одном из  тестов Geno 2.0  у представителя этой гаплогруппы были обнаружен снип CTS8429, чье положение в структуре дерева I2a1b2a1 неизвестно. Стоит также упоминуть снип YP206 (находящийся под снипом  S17250);  зафиксированный в полных геномных данных двух сардинцев из работ Francalacci et al. (2013); а также одноуровневые снипу YP206 ( M1345/CTS934).

[2] В частной переписке К.Нордтведт высказал мнение о том, что первичный ареал распространения этой  гаплогруппы находился в Польше, к югу от Вистулы.

  1. Генография субклад I2a носит нон-инклюзивный характер по отношению других субклад I2a, иными словами ареалы распространения отдельных субклад I2a практически не пересекаются. Распространение I2a1b-M423 в восточной Европе (где представлена главным образом ее «динарская субклада» I2a1b2a1) характеризуется резким градиентом частот: частоты Y хромосом этой субклады резко уменьшаются по мере удаления к западу от Балкан – так, например, этот субклад практически отсутствует у итальянцев, немцев, французов, и швейцарцев. При движении на северо-восток уменьшение частот гораздо более плавное, I2a1b-M423 сохраняет заметные частоты среди населения, говорящего на славянских языках. Распространение частот гаплогруппы I2a1b-M423 в восточной Европе носит бимодальный характер – с максимальным пиком (30-50 %) на Балканах, и с менее выраженным пиком (20-30%) в карпатско-полесском регионе. Наибольшие частоты распространения I2a1b встречаются у жителей Боснии-Герцеговины и хорватов Далмации от 40 до 60%, у сербов и македонцев 20-30%, примерно столько же в Молдавии у гагаузов.
  2. Благодаря находкам древнй ДНК удалось уточнить место первоначального распространения гаплогруппы I2a1b M423 (северо-западная часть Европы), по-крайней мере одной из ее древнейших исчезнувших ветвей, выделившейся из родительской гаплогруппы примерно 8700-9000 лет назад. Образец Лошбур (Loshbour) принадлежит к ветви, параллельной современным дочерним субкладам, которая отделилась от основной ветви не позднее чем 10 000 лет тому назад: к этой исчезнувшей ветви принадлежат и несколько образцов ДНК жителей шведской мезолитической стоянки Motala (Motala 3, Motala 12), которая существовала синхронно Лошбуру. Видимо, в этом же регионе и произошло выделение предковой ветви I2a1b2a12/CTS5966, так как ближайшая к динарской субкладе сестринская субклада I2a1b2a* (так называемый кластер Disles) встречается как в Польше, так и на британских островах, а следующая по удаленности клада (островная субкладаIsles I2a1b1 (L161.1/S185)) встречается практически исключительно на британских островах (подобный изолированный характер может быть связан с обособлением этой ветви в мезолите как следствие гипотетического затоплением Доггерланда около 8500 лет тому назад (Weninger 2008)). Кроме того, оба найденных (в захоронениях древних жителей Паноннской равнины) образцов ДНК гаплогруппы I, (образец NE7 — I2a2a-L1228 и образец KO1 – I2a-L68) принадлежат к параллельным ветвям, ни одна из которых не является предковой ветвью динарской субклады I2a1b2a1.  Исходя из этого можно сделать осторожное предположение о том, что представители динарской субклады I2a1b2a1L147.2/CTS5966 появились на Балканах гораздо позднее неолитического периода.
  3. Визуальное изучение структур минимального остовного и штейрновского деревьев филогенетической сети гаплотипов I2a1b2a1 показало, что большое скопление гаплотипов вокруг большых узлов обеих деревьев  имеет типичную форму филогенетического старкластера  Подобная форма филогенетических кластеров в основном наблюдается в тех случаях, когда происходит быстрый демографический рост одного конкретной филогенетической линии, и этот рост приводит к появлению серии одновременных мутационных событий. Большинство из гаплотипов, входящий в большой узел графа, принадлежат к этнопулам жителей южной Европы (главным образом, Балкан) Исходя из этого можно предположить что экспансия носителей I2a1b2a1-L2/CTS5966 на территории Балкан сопровождалась быстрым демографическим ростом попуялции.
  4. На реконструированной карте место «выделения» I2a1b родительской популяции современных представителей субклады I2a1b2a1 -разместилось чуть южнее швейцарских Альп (обозначено большой красной точкой) (Рисунок 10), примерно в 420 километрах к юго-востоку от места обнаружения древнейшего (8000 лет до настоящего времени) образца ДНК мужчины, принадлежавшего к гаплогруппе I2a1b (Loschbour-Heffingen, Luxembourg) и примерно в 650 километрах к югу от Лихтенштейнской пещеры, в которые были обнаружены 4 скелета мужчин с древнейшими (3000 лет до настоящего времени, культура полей погребения) из найденных образцов гаплогруппы I2a2b, а также в 920 к юго-западу от местонахождения неолитического поселения Apc-Berekalja (Венгрия), где был обнаружен древнейший из найденных образцов I2a2a (возрастом в 6700 лет ). Заметная близость реконструированного места выделения предковой линии I2a1b2a1 к местам нахождения древнейших образцов гаплогруппы I2a в Европе подтверждает правдоподобность подобной реконструкции.
  5. При сопоставлении интервалов возрастов гаплогруппы (т.е расчетных времен жизни ближайшего общего предка гаплогруппы) I2a1b2a1, мы получили среднее медианное значение интервала полученных возрастов. Оно составляет 2757 лет, стандартное отклонение 404 лет (2757 ± 404), верхний предел интервала TMRCA перекрывается с интервалом TMRCA, вычисленного с помощью ρ-статистики 3400 ± 200 лет: Примечательно также, что время расхождения Y-STR кластеров внутри филогенетического дерева лежит в интервале 1700-1300 год до настоящего времени. Это означает, что в этот период времени (т.е между 4 и 7 веками нашей эры) гаплогруппа I2a1b2a1 находилась в активной стадии экспансии.
  6. Безусловный пик-максимум распространения I2a1b2a1 приходится на Балканы (особенно на регион Боснии-Герцеговины), а один из пиков значений дисперсии (разнообразия) гаплотипов — на полесско-карпатский регион Восточной Европы. Исходя из общего правила о приоритете разнообразия (дисперсии) над частотой распространений генетических линий при определении «начальной точки экспансии», предпочтение было отдано дисперсии как  более устойчивому индикатору, в то время, как частоты гаплогрупп больше подвергнуты флуктуациям.
  7. Полученные этнопулы или этнические кластеры имеют специфический: например в выборке выделяется характерный еврейский кластер (украинские и белорусские евреи-представители этого кластера имеют редкие характерные значения Y-STR локусов: DYS537 = 11, DYS464a = 13, DYS456 = 14, DYS458 = 18, DYS576 = 19,DYS570 = 16) с самой высокой интерпопуляционной дистанцией от остальных кластеров и самым низким разнообразием азывает на недавнее происхождение кластера как следствие чистого эфекта основателя, имевшего место примерно 500 лет назад. Боснийско-герцеговинский кластер (второй после еврейского кластера по величине интерпопуляционной дистанции), но с более высоким уровнем разнообразия указывает на более удаленный по времени популяционный эфект основателя. В то время, как географически близкий к боснийско-гецеговинскому кластеру хорватский кластер  I2a1b2a1 характеризуется относительно низким уровнем молекулярного разнообразия (многие хорватские гаплотипы I2a1b2a1 имеют характерный гаплотипный мотив DYS19=14), и незначительной дистанцией с другими популяциями, что отражается в более низком значении индекса стандартного разнообразия (что подразумевает изменение размера эффективной популяции). Данный эффект можно объяснить кумулятивным действием двух параллельных популяционных эффектов -эффекта основателя и эффекта «бутылочного горлышка»
  8. Полученные в ходе анализа молекулярного разнообразия I2a1b2a1 данные свидетельствуют в пользу нашего предположения о том гаплогруппа I2a1b2a1 не является автохтонной гаплогруппой Балкан и Динарских Альп, в противном случае наблюдалась более существенная корреляция между популяцией носителей этой гаплогруппы и антротипом. Поскольку популяции I2a1b2a1 лучше коррелируют с языком, а не с антротипом, то можно сделать два вывода: 1) экспансия носителей субклада I2a1b2a1 произошла недавно, т.к. не утерялась связь представителей генетической линии с языком; 2) поскольку славянские языки были явно привнесены на Балканы, то нужно признать, что I2a1b2a1 были в числе генетических линий, представители которых привнесли славянские языки на Балканы.
  9. По мнению авторов статьи (Boattini et al. 2011) генофонд (включая генофонд Y хромосом) изолированной популяции арберешей не только должен отражать структуру генетического пула алабанцев 500 летней давности, но и служить своего рода «эталоном» генофонда древних балканских популяций. Принимая во внимание низкую частоту встречаемости динарского субклада I2a1b2a1 у современных арбарешей, можно предположить, что субклада I2a1b2a1 встречалась в генофонде популяцих южной части Балканского полуострова 500 лет назад гораздо реже, чем сейчас. Очевидно, что в ходе дальнейших демографических процессов %-ная доля I2a1b2a1 в генофонде южнобалканских популяций значительно увеличилась.
  10. Гипотетическое направление миграций можно восстановить с помощью проекции градиентов значений индекса молекулярного разнообразия на векторную карту со стрелеками, отображающими направление уменьшения значений индекса молекулярного разнообразия. Примечательно, что стрелки направления уменьшения разнообразия гаплотипов в значительной мере перекрываются с маршрутами славянской экспансии.
  11. Результаты теста Мантеля говорят о том, что в выборке I2a1b2a1 не наблюдается статистически значимой корреляции между географической и генетической дистанцией.

Обсуждение выводов исследования

 

Как представляется автору этой статьи, вопрос происхождения и миграции носителей «динарской субклады» I2a1b2a1 невозможно изучить вне интердисциплинарной подхода, т.е подхода в котором тезисы результатов популяционно-генетического исследования будут рассмотрены в более широком ключе, c привлечением данных из исторических наук. В этой связи необходимо посмотреть на эту проблему глазами историка, тем более что время экспансии «динарцев» отлично накладывается на временной интервал экспансии славян на Балканы в «историческое время».

В силу фрагментарности обзора мы не будем касаться не менее важных вопросов о том, как и когда гаплогруппа I появилась в Европе, а также вопросов о времени и месте разделения базальной ветви I на гаплогруппы I1 и I2. В настоящее время мы не располагаем достаточным количеством фактов в пользу одной из многочисленных и равновероятных версий сценария, и поэтому просто обойдем эти вопросы стороны в надежде на предстоящее изучение древней ДНК жителей Европы среднего палеолита и мезолита. По имеющимся в настоящее время данным палеогенетики, гаплгогруппа I (и одна из ее двух основных ветвей — I2a) была широко распространена в западной и северной Европе уже вскоре после окончания последнего ледникового максимума (последняя ледниковая эпоха закончилась между 15 000 и 10 000 годами до н. э., а древнейшие образцы палео-ДНК с гаплогруппой I2a1b датируются 6 тыс. до н.э). Около 14 000 лет до настоящего времени из гаплогруппы I2a выделились I2a1a-M26/PF4056 (эта группа мигрировала к югу от швейцарских Альп в сторону Пиренейского полуострова, и I2a1b-M423, которая мигироровала на север вслед за отступающим ледником и тундровой фауной. Примерно 10 000 лет назад, где-то на территории современной Германии из I2a1b выделились линия  I2a1b1 (кластер «Isles», мигрировавший на Британские острова) и линия I2a1b2 (динарский кластер и кластер Disles). Можно предполагать, что в последующее время I2a1b2 была связана со свидерской культурой — археологической культуры финального палеолита (9 – 8 тыс. до н.э.) на территории Центральной и Восточной Европы, которая была представлена стоянками тундровых охотников на северного оленя, которые использовали стрелы с кремневыми наконечниками. Гипотетическое развитие дальнейшей истории общности носителей I2a1b2 — непосредственных предков I2a1b2a1 – можно выстроить в виде цепочки приемственности культур вплоть до культур участвовавших в этногенезе славян, однако из-за недостаточных сведений о мужском палеогенофонде представителей этих культур данная реконструкция не может быть использована как основание для дальнейших заключений.

К сожалению, cпециальных популяционно-генетических исследований гаплогруппе I крайне мало. Достаточно сказать, что последние специальные исследования по этой гаплогруппе были опубликованы почти 10 лет назад в 2004,2006, 2007 годах – (Rootsi et al. 2004; Roewer et al. 2005; Underhill et al. 2007). Остальные работы, особенно касающиеся Y-хромосомного разнообразия популяций на территории Балкан и бывшей Югославии, преимущественно повторяют выводы озвученные в вышеупомянутых трех работах, ничего не добавляя от себя (Marjanović et al.2005; Peričić et al. 2005; Rebała et al. 2007). Более новые работы со специфическим фокусом на гаплогруппе I1 (Shtrunov 2010) и (De Beule 2010) были незаслуженно обойдены вниманием научного сообщества, так как были написаны «любителями» и опубликованы в неакадемических изданиях.  Поэтому именно работы эстонской исследовательницы-популяционного генетика Роотси задали целый ряд основных положений-гипотез по вопросу происхождения гаплогруппы I, закрепившихся позднее в научных и научно-популярных (Википедия) источниках. Со временем данное положение стало общим местом статей популяционных генетиков при описании особенностей генофонда различных популяций. Если на заре популяционной генетики, выводы делались лишь на основании распределения частот гаплогрупп (большой группы схожих гаплотипов) Y хромосом, то с накоплением фактического материала и совершенствованием методов исследования  появилась возможность кроме частоты учитывать  молекулярное разнообразие и генетические дистанции. Уже без этих исследований выводы на основании только частот являются неполными, а часто и совершенно неверными.

В настоящее время, исходя из описаного выше опыта полисистемного анализа и синтеза молекулярно-генетических (филогенетических и статистических), исторических, археологических данных, а также данных археогенетики (древняя ДНК), можно предположить динарская субклада I2a1b2a1 в массовом количестве появились на Балканах не ранее 2-3 в.н.э и не позднее 6-7 в.н.э., что точно соответствует времени великого переселения народов. В числе значительных миграций населения на Балканы в этом период времени можно назвать миграцию готов, гепидов с севера, а также более позднюю по времени экспансии славян (вернее, генофонда общности, которая говорила на славянском или протославянском языках), которые и принесли с собой этот субклад на Балканы.  Кроме этих двух вариантов, можно рассмотреть и третий вариант, согласно которому субклад I2a1b2a1 уже присутствовал на генофонде балканских популяций на момент начала переселения народов (эта гипотеза предполагает что первоначально популяционная общность носителей  I2a1b2a1 была так или иначе  с дако-фракийским кругом археологических культур). В статье 2010 года (Носевич 2010), Вячеслав Носевич напрямую связывает носителей I2a1b2a1 с фракийским субстратом в формировании славян, отмечая что более высокая концентрация I2а1b2a1 на Полесье по сравнению с Западной Украиной и Словакией говорит в пользу это предположения. Традиционно считается, что вся гаплогруппа I2a cвязана с кругом культур балканского неолита и в том числе, c культурами близкими к трипольцам. Такой вариант возможен, однако окончательный вариант должны дать палеогенетического исследования останков представителей этих культур. Но, если гаплогруппа I2а и присутствовали у трипольцев, их вряд ли можно считать коренным элементом (ядро которого составляли выходцы с Ближнего Востока), скорее всего они представляли остатки местного мезолитического элемента, инкорпорированного в состав этой культуры.

При взвешенном сопоставлении эмпирических статистических данных о характере распространения и разнообразия I2a1b2a1 с различными моделеми миграциий тезис о связи доисторических носителей I2a1b2a1 с фрако-дакийцами представляется несколько натянутым. Этот тезис завязан целико на интерполяции современных частот гаплогрупп на гаплогруппные частоты в прошлом — однако манипуляции с современными частотами в целях реконструкции гипотетических частот распространения в генофонде древних народов всегда вызывают закономерные вопросы. По-крайней мере, подобные эксперименты возможны только исходя из генетических данных полученных в результате анализа останков из захоронений соотвествующих культур или народностей. В противном случае – расчеты могут оказаться совершено произвольны, и им нельзя будет доверять. Однако даже если мы будем из реконструкции предковых частот, то увидем, что I2a1b2a1 вряд ли могла присутствовать в столь значительных количествах у фракийцев, так как и у современных «потомков фракийцев и даков» (болгаров и румын) как частоты распространения, так и уровень дисперсии гаплотипов I2a1b значительно ниже чем у тех же словаков и западных украинцев.  Далее, «балкано-иллирийско-фракийская гипотеза» совершенно не объясняет высокие частоты т.н. «динарской субклады» I2a1b2a1 в Полесье. Не объясняет эта теории и того, что филогенетически I2a1b2a1  не образует удалённых кластеров, что невозможно объяснить допуская автохтонность носителей этой гаплогруппы на Балканах. Ведь за тысячи лет эта линия должна была разветвиться. Но сегодняшние её носители исключительно близки друг к другу и подавляющее их число — славяне.

Тезис о связи носителей I2a1b2a1 c германских субстратом в этногенезе славян также вызывает определенные вопросы. Можно предположить, что присутствие носителей I2a1b2a1 вполне может быть связано как с особенностью ранних (прото-)славянских популяций, так и с непосредственной инвазией северных германцев (например, готов). По крайней мере сейчас уже доказно, что более 8 тысяч лет назад параллельная ветвь носителей I2a1b-M423 проживали в том числе на юге Скандинавии, а зафиксированные в историческое время (эру великого переселения народов) места проживания готов в Восточной Европы (королевство остготов на Балканах и «черняховская» культура в западной Украине) По крайней мере, среди современных этнических скандинавских германцев гаплогруппа I2a1b2a1 не встречается, также как и в Испании, Италии (где  находились королевства готов в раннем средневековье), зато с заметной частотой встречается по всему славянскому ареалу :очень высокие концентрации действительно отмечаются на Балканах, но и у западных славян присутствие его значительно, 8-10% у чехов и поляков, до 20% у словаков).

Довольно высокие частоты распространения и высокий уровень внутригаплогруппного разнообразия, специфическая топология филогенетических деревьев гаплогруппы I2a1b2a1, а также факт нахождения «реликтовых вариантов» гаплогруппы I2a1b2a1 в Польше и Западной Украины  свидетельствует о формировании предкового пула этой субклады в северо-восточной Европе в 1 тыс. до нашей эры и экспансии в 1 тыс. нашей эры. В свете представленных в виде тезисов основных выводо исследованиях, наиболее предпочтителен вариант распространения гаплогруппы I2a1b2a1 на Балканах и всей восточной Европе во время славянской экспансии. Новизна предложенного нами варианта заключается в том, что  коренным образом противоречит принятому в оффициальной популяционной генетике представлению о Балканах, как «прародине» популяции I2a2b (см. раздел (Гаплогруппа I2a общие сведения и обзор публикаций)). Обычно в качестве одного из главных аргументов против версии распространения гаплогруппы I2a1b2a1 вместе с миграциями славянской выдвигается тезис о  однородности состава гаплогрупп у  ранних славян (предполагается, что они принадлежали к различными субкладам R1a1-Z283, (Rebala et al. 2007) особенно R1a1-M458 (Underhill et al. 2009), современный эпицентр распространения которой приходится на ареал пшеворской культуры). Данный аргумент не может быть воспринят так как последние исследования генофонда неолитических культур Европы показали, что уже генофонд этих ранних культур был далеко неоднородны, а в бронзовом веке и позднее степень смешения должна была только увеличится хотя бы в сиду большей мобильности населения. Более вероятным представляется сценарий, в котором уже ранняя славянская общность (которая определяется лингвистическими и археологическими, а не генетическом признаками) была достаточно гетерогенна и включала в себя, наряду с типичными «славянскими» сублкадами R1a1-Z283 (прежде всего дочерних субклад R1a1-M458 и R1a1-Z280), и субклады других гаплогрупп, в частности и I2a1b2a1. В этом случае  ранние славяне образовались в результате «наслоения» R1a-Z280 и/или R1a-M458 на I2a1b2a1. Эта (одна из возможных) модель этногенеза соответствует одной из существующих моделей происхождения славянских языков: неиндоевропейский субстрат оторвал балтов от славян и дал отчёт их самостоятельному существованию в истории как языковой группе, так и целому археологических ряду культур связанных с ними.

 


Первая рецензия В.Л.Носевича

К вопросу о предыстории славян

 

 

 

 

Оценка влияния уровня аутосомной гомозиготности при генотипировании на длину и количество ложных IBD-сегментов

В последнее время я пробовал сравнивать файлы геномов, полученные при генотипировании останков древних людей, с современными выборками в поисках  длинных общих IBD (или все же на деле это IBS?)-сегментов. Как выяснилось, результат в первую очередь зависит от качества прочтения древнего генома, особенно от уровня гомозиготности. Большинство древних геномов прочитывают с небольшим уровнем покрытия (1х-2х), и естественно, при этом захватывается лишь один аллель. Например. если реальные значения снипа A и T, при единичном прочтении можно увидеть либо A, либо T — второе значение останется нерасшифрованным. Любой длинный сегмент при этом окажется разорван.

Есть и геномы, прочитанные с высоким качеством. Их уровень гомозиготности близок к получающемуся у наших современников при коммерческом тестировании в FTDNA и 23andMe. Например, к таким относится BR2 из недавней работы Gamba et al. «Genome flux and stasis in a five millennium transect of European prehistory». Сумма общих сегментов у «венгра» бронзового века с европейскими выборками вполне сопоставима с тем, что получается у наших современников. Как уже неоднократно писалось, возраст таких сегментов вполне может насчитывать несколько тысячелетий, поэтому результат не слишком удивляет. Однако общие сегменты с нашими современниками нашлись и у «усть-ишимца» — древнейшего расшифрованного генома человека современного типа возрастом около 44 тысяч лет (согласно радиоуглеродной датировке). Сложно поверить, чтобы IBD-сегменты могли сохраняться так долго. Что послужило этому причиной? Поддержка отбора, ошибки генетической карты (расстояния между многими снипами получены интерполированием, а это может быть неправильно)? А может быть, это вовсе и не IBD-сегменты, а просто случайно возникшие IBS?

(IBD (identical by descent) — участки совпадающих последовательностей снипов, полученные несколькими людьми от одного и того же предка в результате общности происхождения. IBS (identical by state) — тоже участки совпадающих последовательностей снипов, но причины этого совпадения могут быть другими. Формально IBD это частный случай IBS, но часто понятие IBS используют как синоним лже-IBD сегмента)

Если высокий уровень гомозиготности способен разрушать сегменты, не может ли высокий уровень гетерозиготности создавать лже-сегменты? Вообще, насколько протяженными могут быть лже-IBD сегменты, и каково их количество? Понятно, что идеально гетерозиготный генотип (то есть несущий оба аллеля для каждого снипа) будет совпадать на уровне «родитель-ребенок» с любым человеком (в реальной жизни его возникновение невозможно, разве что искусственным путем). Также понятно, что по теории вероятностей между любыми двумя людьми будут возникать микро»сегменты» из случайно совпавших снипов. Насколько протяженными они могут быть?

Для начала я решил попробовать оценить уровень гомозиготности в используемом мной для IBD-карт наборе выборок. Для сравнения туда же добавлено несколько древних геномов (они выделены жирным шрифтом). «Усть-ишимец» пока выложен лишь до 8 хромосомы, это составляет около половины протяженности аутосом по количеству снипов. Используется набор из примерно 255 тысяч снипов, на другом наборе результаты должны отличаться. Показан усредненный по выборке процент снипов от общего числа, где оба аллеля совпадают.

Уровень гомозиготности по выборке:

Nogay 65,49%
BR2 65,61%
Tatar-Kazan 65,65%
Azerbaijani 65,66%
Tatar-Crimean 65,67%
Kumyk 65,71%
Bashkir 65,74%
Balkarian 65,78%
Komi 65,88%
Tadjik 65,92%
Turkmen 65,95%
Uzbek 66,00%
Uygur 66,00%
Greek_Azov 66,01%
Ossetian 66,01%
Ashkenazi 66,03%
Croatian 66,05%
Chuvash 66,08%
Iranian 66,09%
Lezgin 66,10%
German-Austrian 66,13%
Armenian 66,13%
Bulgarian 66,13%
Belarusian 66,13%
Russian-South 66,14%
Abkhazian 66,15%
Turkish 66,15%
Romanian 66,16%
Russian-North 66,17%
Greek 66,17%
Swedish 66,19%
Erzya 66,19%
Chechen 66,20%
Moksha 66,21%
Ukrainian-East-and-Center 66,21%
Georgian 66,22%
Hungarian 66,23%
Udmurt 66,25%
Sephard 66,27%
Italian 66,29%
Kazah 66,29%
Tatar_Lithuanian 66,30%
Ukrainian-West-and-Center 66,31%
Finnish 66,33%
Mari 66,33%
Polish 66,34%
Adygei 66,35%
Norwegian 66,35%
French 66,36%
Russian-West 66,37%
Estonian 66,42%
UstIshim 66,44%
Karelian 66,45%
Balt 66,46%
Veps 66,50%
British 66,51%
Mansi 66,60%
Kirgiz 66,79%
Basque 67,02%
LBK 67,08%
Sardinian 67,08%
Hakas 67,33%
Altaian 67,33%
Saami 67,55%
Mongol 67,56%
Shor 67,63%
Tuvinian 68,08%
Dolgan 68,24%
Buryat 68,48%
Selkup 68,49%
Ket 68,54%
Xibo 68,54%
Mongola 68,63%
Yakut 68,98%
Daur 69,11%
Han-North 69,14%
Nivh 69,25%
Evenk 69,32%
Hezhen 69,34%
Oroqen 69,39%
Nganassan 70,37%
Even 70,62%
Loschbour 73,79%
Motala12 90,19%
Malta-1 94,41%

Выборкой с наибольшим аутосомным разнообразием (наименьшей гомозиготностью)  оказались кубанские ногайцы, что совершенно не удивляет в связи с их смешанным происхождением. Многие другие народы из начала списка также известны своей смешанностью. Любопытно, что близки к началу и ашкенази, хотя я ожидал от них, наоборот, большего однообразия. Видимо, здесь проявляется их происхождение от двух различающихся групп — ближневосточников и европейцев.

Большая часть списка расположилась в промежутке 66-67% , в том числе и усть-ишимец. Несмотря на более свежий вклад неандертальцев и близость к общему корню, по уровню разнообразия он оказался таким же, как и наши современники. Либо здесь сказываются сложности с расшифровкой столь древнего генома, либо аутосомное разнообразие с тех времен поддерживалось на примерно одном уровне — вымывание одних снипов сопровождалось появлением новых.

Самым низким уровень разнообразия оказался у народов Сибири (где мы явно видим результат генного дрейфа) и китайцев (след быстрого расширения?). В Европе хуже всего с разнообразием оказалось у народов-изолятов — басков и сардинцев. Геном охотника-собирателя Loschbour, скорее всего, прочитан со средним качеством — похоже, это и было причиной того, что в предыдущей заметке у него оказалось меньше общих сегментов с нашими современниками, чем у «фермера» LBK, а вовсе не вымирание его народа.

Таким образом, за базовый уровень гомозиготности можно смело принять 66,6%, то есть 2/3 снипов из используемого мной набора у среднего европейца гомозиготны. Попробуем сделать оценку длины и количества лже-сегментов. Очевидно, что на гетерозиготных участках сегмент разорваться не может. Таким образом, вероятность разрыва на отдельно взятом снипе уже падает до 2/32/3=44,36% . (это оценка вероятности, что у обоих сравниваемых геномов выбранный снип гомозиготен. К сожалению, для упрощения модели пришлось использовать предположение, что для каждого снипа вероятность гетерозиготности примерно одинакова, в то время как в реальности это должно быть не так). Далее, если на гомозиготном участке у обоих геномов сравниваемый аллель один и тот же, то разрыва сегмента также не произойдет. Возьмем для простоты вероятность минорного варианта снипа как 1/6 (вероятность гетерозиготности на снипе 1/3, минорным мог быть либо первый, либо второй аллель, значит, делим вероятность пополам. В реальности надо считать сложнее, но для оценки подойдет). К разрыву могут привести два варианта — в первом геноме мажорный вариант снипа, во втором минорный — вероятность 5/61/6=5/36, и наоборот — в первом минорный, во втором мажорный вероятность такая же. Для получения итоговой вероятности разрыва сегмента на один снип мы умножаем 44,36% на (5/36+5/36) и получаем 12,32% вероятность разрыва лже-сегмента на любом случайно выбранном снипе.

Да уж, есть где запутаться ))) Надеюсь, я все же нигде сильно не ошибся и оценка близка к истине ))

Исходя из вероятности разрыва 12,32% на снип, лже-сегмент будет иметь кумулятивную, то есть накопленную вероятность разрыва 50% при прохождении 5-6 снипов (это медиана). Значит, половина лже-сегментов будет короче этого числа, половина-длиннее. Кумулятивная вероятность разрыва растет в 10 раз каждые 17-18 снипов — 90% лже-сегментов будут короче 18 снипов, 99% — короче 37,  99,9%-54 и так далее. Так как медианное значение при нормальном распределении обычно составляет около 0,7 от среднего, средняя длина лже-сегмента оценивается в 7,5 снипов. На 245 тысяч снипов будет приходиться 32 тысячи сегментов, а на 1130 геномов из используемых выборок — в общей сложности около 36 с половиной миллионов.

Из них около трех с половиной тысяч будут иметь длину не менее 72 снипа, около 36 — 107 снипов, а чтобы гарантированно снизить число лже-сегментов до нуля, нужно установить фильтр в районе 130-140 снипов. Что интересно, примерно на те же цифры я вышел экспериментальным путем, пробуя различные настройки. Оптимальным мне показалось отбрасывать все сегменты с длиной менее, чем 150 снипов. Теория неплохо сошлась с практикой.

Итак, лже-УПСы (участки половинного совпадения), возникшие по статистическим причинам, не должны оказывать особого влияния на IBD-сегменты. Подавляющее большинство из них по длине не превышает несколько десятков снипов (лишь примерно каждый тысячный преодолевает рубеж 50-60 снипов). Разумеется, из-за их наличия реально существующие сегменты неизбежно удлиняются, однако принципиально исказить картину это не может. Конечно, такие причины, как поддержка отбором и искажения, вызванные неточностью генетических карт, остаются в силе. Возможны и другие причины — загадка наличия значимых сегментов с палеоДНК продолжает требовать объяснения.

При ослаблении фильтра до 50 снипов, как в случае с мальтинцем, лже-УПСы уже должны стать заметными. Неудивительно, что при нормальных настройках значимых сегментов почти не получалось — уровень гомозиготности оказался весьма велик.

В заключение приведу график зависимости вероятности разрыва лже-сегмента от уровня гомозиготности в популяции при использовании той же формулы. Как уже писалось, идеально гетерозиготный геном не будет иметь разрывов вообще. Но и в идеально гомозиготной выборке разрывов не будет, ведь аллели у всех совпадают! Что же происходит в промежутке между этими двумя крайностями? Как выяснилось, максимальна вероятность разрыва лже-сегмента при уровне гомозиготности около 70%, что близко к реально существующему уровню. При больших значениях длина лже-сегментов начинает быстро расти из-за того, что все слишком похожи между собой, при меньших — из-за того, что на гетерозиготных снипах сегмент порваться не способен. Уровни ниже 0,45 я убрал из-за их явной нереалистичности. Как можно догадаться, там график движется к нулю.

HZ

Сравнение двух древних европейцев и одного сибиряка с выборками из современных народов методом поиска общих аутосомных сегментов

За последние годы был опубликован ряд работ, посвященных попыткам генотипирования останков древних людей — от живших несколько тысячелетий назад до «усть-ишимца» с предположительным возрастом около 45 тысяч лет, неандертальцев и «денисовки». Количество таких расшифровок растет все быстрее, что не может не вызывать оптимизма.  Трудами известного геномного блоггера Феликса Чандракумара большинство из них было переведено в простой и доступный формат, аналогичный файлам raw data от FTDNA и 23andMe.

Ради интереса я попробовал проверить геномы (предположительно, это два «бритта» железного века и три «англа», «сакса» или «юта» времен переселения этих племен в Британию) из одной из таких недавних работ на наличие IBD-сегментов с современными выборками. Ничего особенного от этой попытки я не ожидал, но результат все равно разочаровал. Никаких связей с современными германцами или кельтами, лишь короткие обрывки сегментов с северо-восточными европейцами.

Как выяснилось, большинство из имеющихся сейчас древних геномов совершенно не годится для такого рода анализа. Основная причина — крайне низкое качество генотипирования. Количество снипов и прочтений на один снип невелико, и подавляющее большинство из них гомозиготно (то есть второй аллель не прочитан). А это значит, что практически все IBD-сегменты разрушены и мы можем увидеть лишь самый базовый и древний уровень родства. В терминах этнокалькуляторов на основе Admixture это оказался (в данном случае) «северо-восточноевропейский» предковый компонент, который наиболее ярко проявляется у народов восточной Балтики — с ними и нашлось наибольшее количество обрывков.

Тем не менее, не все так плохо. Можно выделить известную работу Иосифа Лазаридиса с коллегами о трех предковых популяциях современных европейцев. Геномы европейского раннего земледельца культуры линейно-ленточной керамики (образец Stuttgart, или LBK. Около 7500 лет назад) и почти синхронного ему охотника-собирателя, останки которого найдены на территории нынешнего Люксембурга (Loschbour, около 8000 лет назад) прочитаны очень качественно и почти не уступают файлам от 23andMe и FTDNA.

Карта сумм общих сегментов древнего земледельца с современными выборками:

LBKIBD

С заметным отрывом от остальных лидируют жители острова Сардиния, считающиеся сохранившимися в наиболее чистом виде потомками когда-то переселившихся в Европу земледельцев Восточного Средиземноморья. За ними следуют другие южноевропейские популяции (включая ашкенази и сефардов), скандинавы и восточноевропейцы.

Sardinian 61,06 —//Confidence: very high
Italian 50,14 —//Confidence: very high
French 49,56 —//Confidence: very high
Bulgarian 48,9 —//Confidence: high
Hungarian 48,29 —//Confidence: very high
Basque 45,92 —//Confidence: very high
Greek 45,7 —//Confidence: very high
Norwegian 44,95 —//Confidence: high
Ashkenazi 44,04 —//Confidence: high
Sephard 43,52 —//Confidence: high
Croatian 42,23 —//Confidence: very high
Belarusian 42,12 —//Confidence: high
Swedish 41,86 —//Confidence: high
German-Austrian 41,33 —//Confidence: very low
British 41,2 —//Confidence: very high
Russian-South 40,7 —//Confidence: very high
Balt 40,38 —//Confidence: high
Greek_Azov 39,61 —//Confidence: low
Ukrainian-East-and-Center 39,49 —//Confidence: medium
Estonian 39,27 —//Confidence: high

Наличие общих сегментов с этими народами можно объяснять и миграциями потомков земледельцев на север, и ассимиляцией «земледельцами» «охотников» при продвижении вглубь Европы. Думается, для южных европейцев более актуальна первая причина, для восточных вторая, скандинавы где-то посередине.

Все это не новость, хотя мне понравилось подтверждение работоспособности метода. Более интересным мне показался «язык», протянувшийся на восток — через Кавказ и Среднюю Азию до самой Монголии. Забегая вперед, скажу, что у «охотника» Loschbour такого не наблюдается. Чем может объясняться эта связь? Приток генов с Востока к предкам «штутгартца»? Или же наоборот, его родственники, переселившиеся на восток, оставили свой след в геноме монголов? Для проверки я решил использовать один из этнокалькуляторов, разработанных до появления образца LBK в открытом доступе. При разработке более поздних он был использован как европеец и мог исказить картину.

LBK

Как видите, никаких следов Восточной Азии — чистый средиземноморец. Так что совсем не исключено, что на востоке мы здесь видим следы, к примеру, афанасьевцев.

«Охотник» Loschbour не показал такого яркого сходства ни с одной из современных выборок. Можно предположить, что его племя не оставило дожившего до наших дней потомства, или же оставило мало. Тем не менее, очень хорошо видно, кто из наших современников в наибольшей степени родственен древнему охотнику — это восточноевропейцы с максимумом на восточном побережье Балтийского моря

LoschbourIBD

Finnish 41,21 —//Confidence: very low
Estonian 39,63 —//Confidence: high
Balt 37,85 —//Confidence: high
Russian-North 36,25 —//Confidence: very high
Belarusian 35,31 —//Confidence: high
Karelian 35,21 —//Confidence: high
Veps 34,75 —//Confidence: medium
Ukrainian-West-and-Center 34,48 —//Confidence: medium
Polish 33,8 —//Confidence: high
Norwegian 32,34 —//Confidence: high
German-Austrian 31,4 —//Confidence: very low
Russian-South 30,87 —//Confidence: very high
Russian-West 30,73 —//Confidence: medium
Erzya 30,19 —//Confidence: medium
Saami 30,12 —//Confidence: high
Swedish 29,78 —//Confidence: high
Hungarian 28,55 —//Confidence: very high
Ukrainian-East-and-Center 28,54 —//Confidence: medium
Croatian 27,31 —//Confidence: very high
Komi 26,48 —//Confidence: high

Образец Loschbour в том же этнокалькуляторе MDLP K5:

Loschbour

Для визуализации разницы между «охотником» и «земледельцем» я нормировал значения первого путем умножения на 1.5. Красный цвет означает большее родство с Loschbour, зеленый — LBK. Бурый, как у удмуртов, эвенков или китайцев — нейтрален.

LminusLBKIBD

Но что же наш третий источник наследственности европейцев, аутосомный компонент Ancestral North Eurasian, полученный при генотипировании останков мальчика с сибирской палеолитической стоянки Мальта? К сожалению, его геном расшифрован не так хорошо по сравнению с двумя предыдущими. Это и неудивительно — оценочный возраст мальтинца втрое больше, около 24 тысяч лет. К тому же за это время и количество сегментов, дошедших до наших современников, должно заметно упасть. Поэтому поиск общих сегментов со стандартными настройками дал весьма невразумительную картину. Пришлось резко ослабить настройки фильтра — вместо минимального размера сегмента в 15о снипов (из примерно 200 тысяч) до 50, и вместо минимальной длины сегмента в 3 сМ до 2. После этого алгоритм смог кое-что уловить:

MaltaIBD

Итак, наиболее родственным мальтинцу народом среди наших современников получились удмурты. Вспоминается, что этот народ является одним из чемпионов по наличию Y-гаплогруппы N, пришедшей в Европу с востока. Впрочем, дело тут может быть совсем в другом.

Конечно, уровень погрешности здесь еще выше, чем в предыдущих случаях, но тем не менее, картина вырисовывается довольно отчетливо и неплохо коррелирует с распространением компонента ANE.

Сборный образец «древнего скандинава» Motala1-2 не показал столь же отчетливой картины, как Loschbour и LBK. Видимо, дело в том, что он получен в результате объединения данных из разных наиболее качественно прочитанных геномов. При ослаблении настроек фильтра аналогично мальтинцу получается весьма похожая на Loschbour картина, но более размытая. Не думаю, что есть смысл приводить ее здесь.

Итак, среди современных европейцев можно найти родственников представителей всех трех основных источников (по крайней мере, известных сейчас) их современного генофонда. Насколько реально это родство? Сложно сказать. Конечно, тяжело поверить в сохранение IBD-сегментов на протяжении сотен поколений. С другой стороны, как показало моделирование, мелкие сегменты почти неуничтожимы. А ведь для отрисовки карт используются в основном именно маленькие сегменты в диапазоне 3-4-5 сМ. Возможно, многие из них являются результатом случайного объединения еще более мелких сегментов, или они поддерживаются отбором, или случайно закрепились в популяции. Думаю, что мы в любом случае можем считать этих людей своими родственниками, хотя и не очень близкими ))

Этногеномика беларусов — часть V

Обсуждение результатов и выводы

 

Как отмечалось в введении к нашей статье, главной задачей нашего исследования являлась проверка двух рабочих гипотез, озвученных в предыдущих исследованиях профессиональных попгенетиков. Во-первых, это гипотеза о присутствии трех основных древних компонентов , которая указывает на возможность общего происхождения славян и балтов. Во-вторых, это утверждение о том, что своеобразие аутосомного генофонда беларусов может быть связанно с вкладом балтского субстрата.

После внимательного изучения результатов нашего исследования,можно сказать, что оба из приведенных выше заключений представляют собой крайне упрощеные варианты сложного процесса формирования аутосомного генофонда беларусов. Хотя мы и не можем предоставить окончательных аргументов в пользу или опровержение каждой из этих версий, мы может предоставить более полное и подробное обозрение структуры аутосомного генофонда. В отличие от трех основых компонентов, упомянутых выше, в нашем исследовании мы выделили шесть основных компонентов, типичных для европейцев в целом. Основу генофонда составляет компонент, который мы обозначили как северо-восточно-европейский компонент. Именно этот компонент выделяет беларусов среди других восточных славян, приближая их к современным балтийским популяциям (у литовцев процент компонента составляет 81,9, у латышей — 79,5%, у беларусов -76,4%, у эстонцев — 75,2%). Примечательно, по мере удаления от территории Беларуси на север в с торону Латвии и Эстонии, увеличивается процент северо-европейского генетического компонента (как мы полагаем, этот компонент доминировал в генофонде доисторических жителей Скандинавии в эпоху до распространения финно-угоров и индо-европейцев). С другой стороны, беларусов и других восточных славян отдаляет от балтов и сближает друг к другу более высокий процент так называемого западно-азиатского или кавказского компонента (любопытно, что в этом случае эта закономерность может свидетельствовать в пользу западно-азиатской теории происхождения индо-европейцев).

Далее, как показывает анализ в программе fineStructure, генофонд беларусов характеризируется высокой степенью генетических контактов как с балтами, так и остальными славянами, а также с рядом финно-угорских популяций (например, c эрзя и мокша). О симметричном характере межпопуляционного обмена свидетельствует симметричное расположение популяции беларусов относительно этих трех групп.

Исходяизвышенаписанного,представляетсялогичнымсделатьвыводотом,чтоосновнойкритическийэтапстановленияаутосомногогенофондапришелсянапериодсмешиванияносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,послечегопредковыйаутосомныйгенофондбеларусовприобрелотносительнуюстабильность.Разумеется,даннаямодельнеисключаетпозднейшиеэпизодысмешиванияпопуляций,ноониоставилименьшийследвструктуреаутосомногогенофондабеларусов.Вэтойсвязивозникаеточевидныйвопрос–вкакойименноисторическийпериодпроизошлосмешениеносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,иктобылиихносителями?
В начале сентября 2012 года известная американская лаборатория популяционной генетики доктора Райха опубликовала альфа-версию программного продуктаADMIXTOOOLS1.0. Альфа-версия была разработана для внутреннего использования, поэтому modusoperandiэтого продукта вряд ли является кристально понятным для стороннего пользователя. Положительным аспектом на мой взгляд является то, что ADMIXTOOLSпакет обеспечивает полную совместимость с форматом другой очень популярной программыEIGENSOFT, которая была разработана в той же лаборатории. Это немаловажное обстоятельство намного упрощает процесс обучения в ADMIXTOOLS.

Вышеупомянутый пакет включает в себя 6 приложений, среди которых я считаю наиболее полезнойqp3Popи утилиты для вычисления частотной характеристики аллелей. Впрочем, я не собираюсь обсуждатьqp3popво всех деталях и в контексте данной заметки достаточно отметить, что эта программа реализует тест three_pop(F_3), подробно описанный в известной статье Рейха и соавт. 2009.

Однако другой имплементированный в пакете метод, – метод rolloff– нуждается в более пристальном внимании. Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатураLD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории, чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения LDв адмиксе напрямую связана с числом поколений, прошедших с момента адмикса, так как cвозрастанием числа поколений увлечивается число рекомбинаций произошедших между двумя отдельными SNP-ами. Проще говоря: Rolloffсоответствует экспоненциальной кривой угасания уровня LDот расстояния, и эта скорость экспоненциального снижения как раз и используется для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.

Этот метод открывает интересные перспективы. Для целей этого анализа, я создал специальный набор SNP-данных, который включает в себя около 750 000 cнипов, частично или полностью в 250 различных популяциях человека. Далее, я разбил популяции 3 * 62 000 трио в следующем виде (X, Y, Z), где X и Y – пара рефренсных групп, а Z – белорусы из коллекцииBehar et al.2010. После этого я провел q3Pop анализ этих трио.

Результаты изложены в нижеприведенной таблице

Indian Polish Belarusian -0.000736 0.000251 -2.935
Polish Indian Belarusian -0.000736 0.000251 -2.935
Karitiana Sardinian Belarusian -0.001278 0.000517 -2.471
Sardinian Karitiana Belarusian -0.001278 0.000517 -2.471
Otzi North_Amerind Belarusian -0.002556 0.001126 -2.271
Cirkassian Polish Belarusian -0.000488 0.000231 -2.113
Polish Cirkassian Belarusian -0.000488 0.000231 -2.113
Pima Otzi Belarusian -0.002727 0.00137 -1.99
Pima Sardinian Belarusian -0.000794 0.000431 -1.843
Sardinian Pima Belarusian -0.000794 0.000431 -1.843
Otzi Surui Belarusian -0.002938 0.001931 -1.522
Surui Otzi Belarusian -0.002938 0.001931 -1.522

 

На первый взгляд, результаты нашего эксперимента с 3qPop, кажется, неплохо согласуются с выводами, содержащимися в работеПаттерсон и др. 2012: “Самый поразительный вывод состоит в обнаружени четкого сигнала адмикса в северной Европе, один из элементов которого связан с предками населения наиболее близкого по своей генетике к баскам и жителям Сардинии, а другой – с предками современного населения северо-восточной Азии и Америки. Этот явный сигнал, вероятно, отражает историю смешивания неолитических мигрантов с коренным населением Европы, что подтверждается недавним генетическим анализом древних костей Швеция и секвенированием полного генома Отци Тирольца”. Что касается собственно белорусов, то источники сигнала смешивания с посторонними популяцими менее ясны и расплывчаты. Как было показано ранее, с точки зрения формального анализа примесей (f3 статистики), белорусы могут быть представлены в виде популяционного микса поляков и индусов / черкессов. Первый компонент смеси может быть связан с носителями культуры шнуровой керамики/боевых топоров и культуры колоковидных кубков; второй, в соответствии с результатами, должен быть общим для индусов и черкесов.

 

Белорусы = ((неолитические культуры Европы) + “носители культуры колоковидных кубков”) + (мезолитическое население Европы) + компонент носителей культуры шнуровой керамики)) + скифо-сарматский тип

 

Для оценки дата события базового адмикса в белорусской популяции, мы использовали в качестве референсных популяций поляков и индусов (Примечание: мы снизили порог генетических дистанции в параметрах Rolloff для снижения уровня шума от более поздних адмиксов).

 

rolloff

Как вы можете видеть, сигнал присутствия адмикса обнаруживается гораздо хуже, и в силу этого, погрешности в оценке временного промежутка высоки:

154,158 + -87,024 поколений назад (или, 4470 + -2523 года до настоящего времени / 2510 – +2523 лет до н.э.).

 

Исходя из этого, мы решили модифицировать Rolloff-анализ генофонда белорусов, используя на этот раз в качестве референсов литовцев и пуштунов. Следуя этому совету, я решил предпринять вторую попытку формального анализа адмикса в двух имеющихся у нас выборках беларусов ( выборка беларусов из статьи Behar et al. 2011), и выборка беларусов, собранная в нашем проекте.Ниже приведены результаты эксперимента с двумя этими группам (в отличие результатов нашей предыдущей попытки, результаты данного эксперимента менее “зашумленные”):

rolloff2

 

Интервал числа поколений, прошедших со времен анализируемого адмикса (105.086+-52.59) или 3069 +- 1525 лет до настоящего времени, что соответствует временном интервалу 2 тыс. до нашей эры – 6 век нашей эры. Принимая во внимание эти выводы, мы можем предположить, что основной аутосомный эпизод смешивания предковых популяций беларусов произошел в течении довольно таки продолжительного времени, охватывающего несколько тысяч лет. В этой связи, вопрос о том, кто именно был носителями северо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента, остается открытым.

Этногеномика беларусов — часть IV

Анализ структуры аутосомного генофонда популяции беларусов: результаты анализа этнического адмикса.

 

После проведения анализа этно-популяционного адмикса мы получили следущие результаты, обсуждению которых будет посвящена следущая часть нашего исследования. Результаты представляют собой разбивку аллельных частот на 22 кластера, каждый из которых представляет собой гипотетическую предковую популяцию. Поскольку в цели данного небольшого исследования не входит подробный анализ всех популяций, мы ограничимся сравнительном анализом структуры (компонентов) беларусов c географически близкими популяциями, а также с теми популяциями, которые могли входить в исторические контакты с предками современных беларусов:

admix

 

Рисунок 3. Результатыанализа ADMIXTUREK=22

У рассматриваемых здесь европейских популяций наиболее часто представлены следующие компоненты:

North-East-European,Atlantic_Mediterranean_Neolithic,North-European-Mesolithic, West-Asian, Samoedic, Near_East.

Разберем вкратце каждый из них. В ракурсе нашего исследования самым важным компонентом представляется – северо-восточно-европейский компонент North-East-European, он присутствует почти у всех европейцов, и в самой значительной степени — у балтов и славян: литовцы (81,9), латыши (79,5), беларусы (76,4), эстонцы (75,2), поляки (70,2), русские (67- 70,4), украинцы (62,1- 67,1), сорбы (65,9), карелы (60,2), вепсы (62,5), чехи (57,4), северные немцы (54,6), южные- 42,6, у британцев от 46 до 49, норвежцы- 48,1, шведы- (53,7).

Второй по значимости компонент — Atlantic_Mediterranean_Neolithic (юго-западно-европейский или просто западно-европейский неолитический компонент).[1]У восточноевропейцев он выражен в умеренной степени- чехи (27,8), поляки (18,4), украинцы ( от 17 до 21%), беларусы (13%), русские (от 11 у северных до 17,3 у южных), у коми (8,9 %), манси (8,8 %).

Третьй компонент – северо-европейский мезолитический компонент -North-European-Mesolithic[2]: cаамы (76,4 %), финны (от 30,1 до 37,3 %), вепсы (24,1), карелы (23,2), ижорцы (22, 7). Заметен этот компонент и у северных русских (10,5 %), норвежцев (9,8 %), шведов (7,8 %), эстонцев (7,1 %). У беларусов он практически отсутствует (1.1%).

Четвертый компонент – западно-азиатский (кавказский) West Asian[3]. На интересуемой нас территории этот компонент чаще встречается у казанских татар (9,9 %), южных немцев (8,4), украинцев (от 6,6 до 7,7 %), южных русских (6,2%). На западе высок процент у итальянцев (21,5 % у центральных итальянцев), французов (6,7 %), у беларусов (2.2%).

Пятый компонент — уральский Samoedic. Значительно присутствует у селькупов (68,1%), хантов (64,6), ненцы (37,1), манси (30,9 %-), удмурты (29,6), марийцы (27, 8), шорцы (22,0 %), башкиры (21,7%), чуваши и хакассы по 17,6 %, коми- 16,4 %, казанских татар (11,9 %). У западноевропейцев этот компонент практически не встречается, у русских (от 1,0% у центральных до 4,7 % у северных), у карел (1,6%), словаков (1,4%), западных украинцев (1,7 %), беларусы (0.5%).

Шестой компонент – ближневосточный Near_East[4]У южных немцев (3,5), украинцы (от 2,3 у восточных до 3,8 % у западных), чехи (3,0), беларусы (3,4), словаки (3,2), у русских от 1,0 до 1,5%, у литовцев- 1,4%, у поляков- 1,3 %.

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[1]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[1]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[1]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

Анализ разделяемых аутосомных сегментов между популяциями Северо-Восточной Европы.

С целью верификации результатов анализа главных компонентов генетического разнообразия я подготовил новую выборку популяций, которая включает в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.В ходе нового экспериментального теста в ходе статистической обработки общих по генетическому происхождению сегментов хромосом в составе выборки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, т.е размера той популяции которая участвовала в репродукции или обмене генами в некоем отдаленном временном промежутке. Собственно говоря, эффективная популяция – это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955). Новая программа Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение составило 22 000. Это близко к значениям Neрекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных ниже результатов, даже 22 000 для совокупности эффективного размера элементарных популяций – это более, чем достаточно.

 

finest

Рисунок 4. Расположение популяций в пространстве 1 и 3 главных генетических компонентов

 

Изложим ниже некоторые закономерности размещения популяци

 

  1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
  2. Все литовцы (участники проекта + референсы из вышеупомянутой статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев

  3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.

  4. Ниже находится балканский кластер (румыны, болгары и часть венгров).

  5. К этому кластеру примыкают турки и часть армян

  6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов).

  7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.

  8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

  9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

  10. Левее этой группы популяций находится кластер ашкеназов.

  11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

  12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

  13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

  14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

  15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).[5]

 

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[2]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[3]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[4]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

[5]Такое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции.То есть все эти баски являются многократными родственниками между собой т.е., положение басков на графике есть следствие классического генного дрейфа, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества sharedDNAchunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.

Исходя из этого можно сделать вывод о том что баски эта экстремально-эндогенная популяция изолянтов, при этом генетическое разнообразие басков низко, т.к. размер эффективной популяции басков низок.