Демография миграций в эпоху неолита и бронзового века

C ресурса Генофонд.ру (автор: Надежда Маркина)

 

Статья американских и шведских исследователей (Goldberg  et al.),опубликованная на сайте препринтов, вновь обращается к дискуссионной проблеме миграций в эпоху неолита и бронзового века.  В работе исследуется вопрос о доле мужского и женского населения  в составе мигрирующих групп, которые сформировали  генофонд  Центральной Европы. Авторы проверяют исходную гипотезу, что миграции из Анатолии в раннем неолите и миграции из понто-каспийских степей в течение позднего неолита и бронзового века были преимущественно мужскими.

Для ответа на это т вопрос авторы опираются не на Y-хромосому, передающуюся по отцовской линии,  и не на митохондриальную ДНК, передающуюся по материнской, как традиционно поступают генетики, а  Х-хромосому. Они вычисляют отношение эффективного размера популяции по Х-хромосоме к эффективному размеру популяции по аутосомам (неполовым хромосомам). Поскольку мужчины имеют одну Х-хромосому, а женщины – две, то в популяции с одинаковым соотношением мужчин и женщин отношение Х-хромосомы к аутосомам должно быть ¾. Отклонение от этой цифры говорит о разной демографической истории по мужской и женской линиям. Такова логика, лежащая в основе метода исследования, подробнее с ним можно познакомиться в тексте статьи.

Авторы изучили опубликованные образцы древней ДНК раннего и позднего неолита и бронзового века, проанализировав более 1,2 млн SNP, в том числе без малого 50 тысяч SNP на Х-хромосоме. Исследуемые образцы относились к популяциям охотников-собирателей, земледельцев Анатолии и понто-каспийских степей.

 

new-1

Схематическая демографическая история земледельцев Центральной Европы в течение неолита и бронзового века.

 

В противоположность существующему мнению, результаты не подтвердили, что миграции в неолите из Анатолии в Европу были преимущественно мужскими. Анализ  показал примерно одинаковое соотношение мужского и женского населения среди мигрантов. А вот миграция из понто-каспийских степей в Центральную Европу в  течение позднего неолита и бронзового века , действительно, была преимущественно мужской: по подсчетам  среди мигрантов на 5-14 мужчин приходилась одна женщина. Авторы показали, что эта миграция была растянута по времени на несколько поколений. В соответствии со своим мужским характером, именно она принесла в Европу технологические инновации.

 

new-2

Доли мужского (синие стрелки) и женского (розовые стрелки) населения в составе неолитической и степной миграций.

 

Реклама

Этюд на тему ДНК-генеалогия.

Мой блог посвящен преимущественно тематике аутосомной ДНК, однако время от времени я затрагиваю тему однородительских маркеров происхождения (Y-ДНК и митоДНК).  Начну заметку издалека.
Среди обывателей села Стахова бытует легенда, о том, что род Вереничей пришли на земли пинского Полесья из Югославии.К сожалению, как и в большинстве подобных легенд, cовершено невозможно разобраться в том, где правда, а где позднейшие выдумки. Так и в этом случае. Ни в одном из имеющихся e меня исторических документах нет даже и намека на балканское происхождение Вереничей. Даже в самых ранних документах (например, в «Ревизии пущ и переходов звериных в бывшем Великом княжестве Литовском с присовокуплением грамот и привилегий на входы в пущи и на земли, составленной старостою мстибоговским Григорием Богдановичем Воловичем в 1559 г. «, или в «Писцовой книге Пинского староства Лаврина Воина, 1561—66«) уже видно, что даже в то время род Вереничей на Полесье считался «издавним«.



Так в ревизии Воловича (1559 года) читаем, что

«Павел Веренич на дворище у Стохови жъ не покладалъ листовъ, только давность, и на другое дворище у Дубой».


Слово давность означает существование в течение долгого времени, издревле, искони. Происходящие от корня этого слова прилагательные и наречия попадаются в разных актах с конца XIII века. Как юридический термин существительное <давность> употреблялось уже весьма рано в западнорусском законодательстве; собственно же в России оно появляется в виде термина лишь с XVIII века. Выражение земская давность было юридическим термином в Литовском Статуте, из которого заимствовано русским законодательство.

 



В строго юридическом смысле срок давности владения определялся десятью годами. Впрочем, здесь давность может употребляться в другом значении. Так, в актовых материалах все той же «Ревизии пущ и переходов звериных в бывшем Великом княжестве Литовском с присовокуплением грамот и привилеев на входы в пущи и на земли, составленная старостою мстибогским Григорием Богдановичем Воловичем» в числе прочих землевладельцев Пинского повета упомянуты Грынь Веренич с братом Павлом «с имений своих стародавних [т.е. с незапамятных времен] военную службу служащих«. Судя по этому, Вереничи могли появится в Стахове уже в середине 15 века, если не раньше.
Когда, откуда, и при каких обстоятельствах — обо всем этом известные мне историко-юридические источники умалчивают. Более поздние документы не только не дают ответа на эти вопросы, а скорее еще больше запутывают ситуацию. Так например в «Выводе фамилии урожденных Стаховских придомка Веренич» (Год 1802 Месяца ноября двадцать второго дня на на сессии Депутации выводовой Губернии Минской) читаем следущее:

«Принесена была просьба от фамилии древней родовитой панской шляхты урождённых Вереничей Стаховских герба “Огончик” (пол-стрелы белой на половине перстня стоящей, в поле красном, над шлемом две женские руки вытянутые вверх) которая на наследственных землях и осадах в повете пинском лежащих от найяснейшых времён королевства Польского, прерогативами шляхетства пользовалась, и клейнотом родовитости неискаженно и непрерывно пользовались. [стр. 616] В потверждение указов найяснейшей воли – линия родословной своей вместе с документами перед депутацией выводовой губернии Минской составлена, потверждена доводами и внесена в дворянские книги Минской губернии в соответстии с законом.Родословие своего дома разделили на две линии. Дух родных братьев Семена и Дмитрия Вереничей Стаховских за родоначальников взяли, и от них до себя довели. И правдивость этого они через доказательства и документы следующим порядком довели. Семен и Дмитрий Вереничи Стаховские братья между собой родные. В повете Пинском осели и дали начало своему роду и фамилии. И в подтверждение своего первого поколения они предъявили привилегию от наияснейшего короля польского Сигизмунда Августа за год тысяча пятьсот шестьдесят шестой от июня двадцатого дня где, между другими для шляхты пинской пожалованиями за военную службу выше упомянутым Семену и Дмитрию Вереничам Стаховским земли в наследственное владение в повете Пинском лежащими дворища Веренича в Стахове и Дубой называющееся им и потомкам их пожаловал…»

Содержание начала текста весьма типично для подобных документов, но здесь нет сведений о точном времени появления Вереничей в Стахове, не говоря уже о явных хронологических несуразицах, которые я разбирал в другой заметке.

  1. Во-первых, под «привелем» 1566 года понимается общий «привилей» Сигизмунда-Августа, данные всей пинской шляхте в подтверждение их землевладельческих и шляхецких прав.
  2. Во-вторых, Семен и Дмитрий жили не в 1566 году, а как минимум на сто лет раньше — около 1456-1466 годов. В доказательство верности моих вычислений можно привести следующие аргументы. В решении судей Главного Трибунала ВКЛ от 1637 года упоминается о привелее кн. Марии Семеновны (+1501) ( в документе ошибочно указано Ярославовны) и ее сына кн. Василия Семеновича (+1495) от 6998 года индикта 8 (1490 года согласно современному летоисчислению), в котором подтверждается совместное владение Волошиным (sic!) Павлом и Ходором Вереничами даниной своей бабки в селе Тупчицы, Согласно родословной, Павел — сын Дмитрия и племянник Семена. В следующем по времени привилее кн. Федора Ивановича Ярославича от 26 апреля 1514 данном дочерям Антона (Андрей?) Дмитриевича Веренича потдверждается их вотчинное права на земли пожалованные их отцу в Стахове, Дубое и Тупчицах. Очевидно, Антон(или Андрей) — тоже сын Дмитрия, и более того, в 1514 году его дочери были уже совершеннолетними.
  3. В-третьих, в переписе войска литовского 1528 года упомянут пинский боярин Верениш (sic!), который служил «сам со своего имения». Далее, из судебного дела от 26 марта 1543 года по иску Пашки Павлова и его братьи Игнатия и Гаврила к Ваське Лозичу, который унаследовал по своей жене Ульяне Лукашевичевой Веренич часть имений Дубой и Стахово. мы узнаем, что в 1543 году внуки Дмитрия (Пашко Павлович и его двоюродные братья Гавриил и Игнат Васильевич) были уже взрослыми, так же как и покойная Ульяна Лукьяновна (дочь Лукьяна Семеновича, внучка Семена Веренича), после смерти которой третья часть дворища Веренич в Дубое и дворища Веренич в Стахово перешла к Ваське Лозичу.

 



Далее, в 1554 году — за 12 лет до указанной в привелее даты — в материалах, собранных в ходе ревизии пущ и переходов лесных -упомянуются Грынь Веренич с (троюродным) братом Павлом с имений своих стародавных военную службу служащих. Как известно, Грынь — внук Семена, а Павел или Пашко — внук Дмитрия. О самих Семене и Дмитрии ни слова, хотя если бы они жили в это время, то скорее всего именно они или их сыновья были бы записаны как старшие в своем роду, но никак не их внуки.В 1559 году, по все той же ревизии Воловича, в числе земян Стаховских опять упоминается Павел Веренич, правда, уже без Гриня. В тексте четко сказано, что Павел не покладал листов (т.е. не предъявил привелея), только давность на дворище у Стахова и другое дворище у Дубоя. Поскольку большую часть книги Воловича составляют привелеи, выданные или подтвержденные королевой Боной, следовательно, от Боны Вереничи привлеев не получали, по крайней мере, на земли в Дубое и Стахове.Все вышесказанное означает, что уже задолго до 1566 года Вереничи владели своими дворищами и землями на основании вотчинного права, и что феодальные права Вереничей на эти земли восходят — как минимум -временам кн. Марии Семеновны и ее сына Василия (то есть к периду между 1475-1490 гг).


Реконструкция позволяет очертить интервал появления Вереничей в Стахове — но с обстоятельствами появления по-прежнему нет никакой ясности. Поскольку скудные исторические свидетельства обходят  этот вопрос сторонй, то можно обратиться к преданиями. Среди старожилов села Стахова якобы сохранилось следующее якобы древнее предание:


Когда-то, давным-давно, жил на Полесье князь Карачинский (sic!). В его владениях находился большой дремучий бор, около которого проходил торговый шлях. По прошествии времени, в этом бору поселилось 100 половцев, которые совершали нападения на проезжающих купцов и селян. Князь, прослышав о разбойниках, повелел своим «палявничим» (охотникам) узнать, где находится разбойничье логово. Один из охотников решил проследить путь до логово половцев и стал делать топором зарубки на деревьях. Услышав стук топора, войны князя отправились в сторону, где раздавалось эхо стука топора. Таким образом, они вышли прямиком на логово разбойников и истребили их. В награду за верную службу, князь наградил находчивого охотника землям, где находился стан половцев. Охотник постоянно носил с собой «Ксендз Лаврентий Янович, каноник венденский, в своей речи на погребении Элжбеты с Стаховских Каренжины, жены вилькомирского судьи, изданной в сборнике «Золотой улов на реках и водах смертности сего мира и т.д» (Вильно 1665 г.) размещает следущее предание, относящиеся к истории Стахова.: «Князь Карачевский, владелец обширных волостей, лежащих на Пинщине, крайне скудными силами 100 половцев положил трупами и на там же месте похоронил, как и по ныне свидетельсвтуют о том курганы того места. За это мужесто правящий князь ему отдал в удел это поле, а также столько земли, сколько мог объять звонкий звук трубы. Отсель то земельное надание стало называтся Стоховым, потому что там похоронено сто убитых врагов.» (веренька, вярэнька), и поэтому его прозвали Веренькой. Его потомки приняли прозвище родоначальника в качестве фамилии.


К сожалению, изучение этого предания показывает его недавнее происхождение. Скорее всего, оно выписано из 9-го тома «Полного географического описания нашего отечества» изданного в 1905 году В.П.Семеновым-Тян-Шанским , куда, в свою очередь перекочевало из известного издания «Słownik geograficzny Królestwa Polskiego» изданного в 1880–1902 гг., а именно из 11 тома, в котором на стр.171-172 была размещена довольно объемная статья Александра Ельского и Эдварда Руликовского о Стахове. Именно с подачи Руликовского в этой статье была размещена выписка из издания 17 века:

«Ксендз Лаврентий Янович, каноник венденский, в своей речи на погребении Элжбеты с Стаховских Каренжины, жены вилькомирского судьи, изданной в сборнике «Золотой улов на реках и водах смертности сего мира и т.д» (Вильно 1665 г.) размещает следущее предание, относящиеся к истории Стахова: «Князь Карачевский, владелец обширных волостей, лежащих на Пинщине, крайне скудными силами 100 половцев положил трупами и на там же месте похоронил, как и по ныне свидетельствуют о том курганы того места. За это мужесто правящий князь ему отдал в удел это поле, а также столько земли, сколько мог объять звонкий звук трубы. Отсель то земельное надание стало называтся Стоховым, потому что там похоронено сто убитых врагов.»

 


В приведенном отрывке приводится родословное предание рода Стаховских герба Огоньчик, (проживавшего в мстиславском, виленском, новогрудском и пр. воеводствах ВКЛ), генеалогическая связь которого с Вереничами пока никак не проясняется. Главным фигурантом здесь выступает князь Карачевский (которого, видимо, Cтаховские считали своим предком), а вовсе не «охотник с сумкой из бересты». Можно с уверенностью сказать, что «легенда старожилов» Стахова появилась самое ранее в начале 20 века в среде «грамотеев» села Стахове как результат переосмысления текста статьи их энциклопедического справочника,  а затем объединения легенды об основании Стахова с народной этимологии фамилии Веренич.



Итак, и этот источник не дал нам ничего ценного. Поскольку возможности документальной генеалогии на этом этапе практически исчерпываются (и открытие новых источников вряд ли предвидится), остается обратится к новой отрасли — ДНК-генеалогии.

Генетическая генеалогия использует ДНК-тесты совместно с традиционными генеалогическими методами исследования. Каждый человек несёт в себе своего рода «биологический документ», который не может быть утерян — это ДНК человека. Методы генетической генеалогии позволяют получить доступ к той части ДНК, которая передаётся неизменной от отца к сыну по прямой мужской линии — Y-хромосоме. ДНК-тест Y-хромосомы позволяет, например, двум мужчинам определить, разделяют ли они общего предка по мужской линии или нет. ДНК-тесты не просто помощь в генеалогических исследованиях — это современный передовой инструмент, который генеалоги могут использовать для того, чтобы установить или опровергнуть родственные связи между несколькими людьми.

Итак, в 2008 году узнал свою Y-хромосомную гаплогруппу (I2a). Немного терминологии для читателей, далеких от науки:

Гаплогруппа (в популяционной генетике человека — науке, изучающей генетическую историю человечества) — группа схожих гаплотипов, имеющих общего предка, у которого в обоих гаплотипах имела место одна и та же мутация — однонуклеотидный полиморфизм.

 

 

Позднее протестировались еще 2 Веренича, и наши гаплогруппы совпали, что подтверждается достоверность официальной родословной. Казалось бы, после всех усилий, можно было бы легко определить ареал, откуда появились предки Вереничей (очевидно, что это ареал с наибольшей частотой или наибольшим разнообразием гаплогруппы I2a). На поверку же все оказалось гораздо сложнее. Географический ареал гаплогруппы I2a (вернее ее восточноевропейской, «динарской» ветви) характеризуется бимодальным распределением — в восточной Европе они приходятся на регион Полесье-Карпаты и на регион Балкан (с макисмальной частотой в Боснии-Герцеговине).

По иронии cудьбы, именно с этими двумя регионами связаны две наиболее вероятные версии происхождения Вереничей. Таким образом, знание одной лишь корневой гаплогруппы мне, по большому счету, не помогло ни подтвердить, ни опровергнуть одну из этих альтернативных версий.

Тупиковая ситуация изменилась лишь после того, как один из Вереничей сделал полный сиквенс Y-хромосомы (BigY в FTDNA). Благодаря ему удалось достаточно точно позиционировать расположение нашей ветви-кластера внутри общей структуры филогенетического дерева I2a.Благодаря присутствию Y-хромосомного сиквенса (YF03602) представителя рода Вереничей в базе данных yfull.com (спасибо за помощь Vladimir Semargl и Vadim Urasin) представляется возможным оценить возраст моего кластера. На настоящий момент в него входит еще один полный сиквенс Y-хромосомы (YF04188), о хозяине которого мне ничего неизвестно.

Возраст линии Вереничей оценивается в 1438 лет до настоящего времени, линии YF04188 — всего лишь в 546 лет.По расчету снип-мутаций возраст I-Y17665 (и возможно I-A7318) оценивается примерно в 1000 лет (т.е. временами Киевской Руси), а возраст родительской ветви A1328 в 1850 лет до настоящего времени (начало нашей эры). Возраст, определенный по снипам, указывает на время выделения ветви I-A1328, хотя возраст последнего общего предка (определенный по значениям других маркеров Y-хромосомы) чуть ниже -1400 лет (т. е примерно 5-6 века нашей эры). То есть ветвь моих прямых предков в это время прошла пресловутое бутылочное горлышко, сопровождаемое, как правило, падением числа представителей линии и уменьшением разнообразия.

Здесь начинается самое интересное.



Недавно, зайдя на сайт проекта I2a в FTDNA, я обнаружил результаты некоего Враньешевич из Черногории. Я бы не обратил на него внимание, если бы он не попал в тот же кластер, что и я (в этот кластер входит ветвь Вереничей, гаплогруппа (I2-A7318, т.е подветвь I-A1328)).Я решил рассчитать возраст I-A1328 с помощью калькулятора semargl.me и стандартных для набора 37 маркеров скорости мутации. К сожалению, в базе данных Semargl немного гаплотипов из конкретно моего кластера и ближайщих к нему братских кластеров. В общем возраст, по ASD методу получилось что возраст моего кластераI (Y17665) — 1050 лет, а при подключении (в качестве outgroup) гаплотипа из I-A1328* возраст кластера I-A1328* составил примерно 1850 лет. То есть, это верхний интервал временного промежутка, когда мог жить последний мой общий предок (MRCA) и Враньешевича.

I2a2 ‘Dinaric’ ..L621>CTS10228>S17250>Y4882>A1328>A7318 (I-A7318)

568 362501 Verenich Werenicz,Werenich,Verenich,Werenitz,Stachowski. Belarus I-A7318

I2a2 ‘Dinaric’ ..L621>CTS10228>S17250>Y4882>A1328 (I-A1328)
564 E13120 Vranjesevic Vranjesevic Milan-Mico, birth 1913, death 1992 Bosnia and Herzegovina I-A1328


Нижний интервал можно определить с помощью калькулятора McDonald. Для вычисления дистанции в годах я сравнил значения 67-маркерного гаплотипа одного из Вереничей с аналогичными маркерами гаплотипа Враньешевича. 10 маркеров имеют другое значения. Получается разница в 10 маркеров на 67 маркерных гаплотипах.

Generations Probability Cumulative
1 0.000000 0.000
2 0.000000 0.000
3 0.000000 0.000
4 0.000004 0.000
5 0.000022 0.000
6 0.000091 0.000
7 0.000279 0.000
8 0.000699 0.001
9 0.001495 0.003
10 0.002825 0.005
11 0.004827 0.010
12 0.007592 0.018
13 0.011137 0.029
14 0.015396 0.044
15 0.020223 0.065
16 0.025408 0.090
17 0.030697 0.121
18 0.035824 0.157
19 0.040537 0.197
20 0.044616 0.242
21 0.047893 0.290
22 0.050258 0.340
23 0.051662 0.391
24 0.052111 0.444
25 0.051660 0.495
26 0.050401 0.546
27 0.048451 0.594
28 0.045943 0.640
29 0.043014 0.683
30 0.039796 0.723
31 0.036412 0.759
32 0.032973 0.792
33 0.029568 0.822
34 0.026274 0.848
35 0.023146 0.871
36 0.020225 0.891
37 0.017537 0.909
38 0.015097 0.924
39 0.012906 0.937
40 0.010961 0.948
41 0.009252 0.957

 

14202591_10210357856572557_5019604267960638228_n-1 14199500_10210357943174722_1769976137139415870_n

Пик гистограммы приходится на интервал между 21-30 поколениями, начиная с 26 поколения кумулятивная вероятность родства достигает убедительных значений достигая 0.95 в 41 поколении. Т.е. нижняя граница приходится примерно интервал в 600-1025 лет до настоящего времени — другими словами между 15 и 10 веками нашей эры.

Разумеется, c генеалогической точки зрения, исследование нижнего интервала (с общим предков в 14-15 веках нашей веры) более перспективен, тем более что я проследил свою прямую мужскую линию до 19 поколения.

Но насколько возможен факт наличия общего прямого мужского предка белоруса и черногорца в 21-30 поколениях? Дает ли генеалогия Вереничей предпосылки для такого утверждения? Прямых предпосылок, разумеется, нет.


Зато есть соображение ономастического характера. Один из сыновей второго родоночальника — Дмитра — Василь носил прозвище Волошин — так обычно в русских землях называли валахов, хотя часто прозвище Волошин не имело этнической коннотации и могло выступать в качестве отыменного прозвища: например, Володшин cын -> Волошин или Власий -> Волос -> Волошин. Наконец, составитель документа или переписчик мог сделать обычную описку. Впрочем, последнее опровергает существование 2 топонимов в окрестностях Стахова — урочища и острова Волошиново — причем именно там находились в 16-17 веках владения потомков Дмитра Веренича (старшим сыном которого являлся Василь Волошин). Кстати, любопытно отметить, что иногда в документах 16 века фамилия Веренич записывается не с окончанием —ч, а с более традиционным для южных славян окончанием — ш (Верениш)

А как же тогда быть с Вранешьевичем? Какое отношение он может иметь к валахам?

Лет 8 тому назад я порылся в исторических документах и обнаружил, что похожая фамилия Вранчич (в хорватском произношении Веранчич) действительно существовала на территории так называемого царства Сербия. После фактического распада Сербского царства (около 1366-1371 года), часть Вранчичей переселилось в Южную Сербию и Черногорию (где потомок Вранчичей воевода Радич Црноевич основал династию Црноевичей, которая в 15 веке праваила Зетой и Черногорией), другая перешла на службу к усилившемуся после падения «црства Српскаго» боснийскому королю Стефану Твртко I, который в 1370 и 1389 годах принял титул короля сербов, Боснии (1379) , Далмации и Хорватии (1389). Эти боснийские Вранчичи после падения Боснии (1463 год) под ударами турков частью переселились в Далмацию (г.Шибеник), которая с1420 была под венецианским владычеством, другая переселилась на границу Герцеговины и Черногории, где владели под турками «хематом» Вранеш, названого так в честь «валашского» князя Херака Вранеша (Вранеш — это герцеговинское диалектное видоизменение имени Вранчич).»Из возможных потомков Вранчичей, оставшихся в восточной Боснии и Герцеговине, особого внимания заслуживает «влашский» (sic!) кнез Херак (Владиславич?) Враньеш.

Казалось бы, вышеприведенные рассуждения выглядят убедительно. На самом же деле, остается главная проблема — дело в том, что фактически на протяжении 14-17 веков неизвестно никаких миграций жителей Балкан и влахов на территорию Полесья. Да, действительно была т.н. валашская колонизация, но она затрагивала главным образом территорию юго-западной Украины (прежде всего «червонной Руси» и «любельской земли», т.е. земли вокруг Львова, Звенигорода, Галича, Теребовля, Санока, Кросно, Белза, Замосця, Холма (Хелма). Причем интенсивность расселения «валахов» даже в этих регионах резко уменьшалось по мере продвижения на север (см. приложенную ниже карту).

14212036_10210384176630542_5840107323456791924_n

Например, на ближайшей к Полесью Волыни встречаются лишь фрагментарные упоминания бояр «Волошинов» в документах Метрики Литовской начала 16 века — они касаются пожалования земель в кременецком повете, т.е на рубеже ВКЛ и русского воеводства короны Польской (причем многие из этих «волошинов» носят чисто румынские имена Негое, Урсул и так далее). Такой же фрагментарный характер носят и земельные пожалования «волошинам» и на Подолье. И уж совсем единичные упоминания Волошинов мы находим в документах Метрики Литовской, касающихся земель современной Беларуси. Правда, на Брестчине одна семья «волошинов» — Ходько, Зань и Васько — получила в начале 16 века привелей на имение Чернско (от них происходит род Черских в брестском воеводстве, который вымер в 17 веке).

Две новые модели для калькулятора DIYDodecad

Закончил на 99% подготовку 2 моделей этно-популяционных калькуляторов ДНК — заточенную под deep ancestry (анализ современных геномов с использование древних геномов) K11 и модель для анализа популяционного происхождения современных популяций K16.

 

В число 16 «предполагаемых предковых» популяций в K16 входят следующие выделенные группы:

Австрало-веддоидная
Палеолитические охотники-собиратели Кавказа
Американские аборигены
Охотники-собиратели скандинавского мезолита
Австронезийцы
Ближневосточные неолитические земледельцы
Сибирские аборигены
Ближне-восточные популяции
Североафриканские популяции
Популяции западной Африки
Северные популяции Индостана
Юго-восточноазиатские популяции
Восточные охотники-собиратели
Неолитическое население Европы
Восточно-африканские популяции
Западноевропейские охотники-собиратели

 

Таблица FST между компонентами K11 (FST — Индекс фиксации Райта Fst, отражающий меру дифференциации популяций)

Кластеризация компонентов модели K11 по степени дифференциации

Таблица FST между компонентами K16

Кластеризация компонентов модели K16 по степени дифференциации

 

На следующем PCA графике отображены 2 группы компонентов — предковые компоненты K16 (полученные в программе ADMIXTURE в ходе анализа современных популяций) и предковые компоненты K11 (они вычислены в той же программе, но на другой выборке аутентичных палеогеномов). Поскольку у пользователей подобных калькуляторов часто возникает вопрос о соотношении компонентов разных моделей калькуляторов, я решил разместить их на одном графике. Методология довольно проста. Сначала я сгенерировал в программе PLINK 220 «синтетических» геномов (20 индивидов в 11 группах). В основу положен предложенный Понтикосом метод популяционных «zombies», в котором используется частоты аллелей снипов, полученных в программе ADMIXTURE. Каждая из 11 групп состоит из 20 «индивидов», геном которых на 100% состоит из одного компонента.
То же самое я сделал с компонентами K16. Затем в целях изучения соотношения компонентов этих двух разных моделей, я пропустил «геномы синтетических индивидов» K16 через калькулятор K11. В итоге выяснилось, что только несколько компонентов K16 полностью совпадают с компонентами K11 (например, Amerindian и African). Остальные компоненты K16 разложились на комбинации компонентов K11. Этот простой эксперимент еще раз подтвердил очевидный факт: предковые компоненты ADMIXTURE, выявленные в ходе анализа современных популяций только в редких случаях соответствуют настоящим предковым компонентам. Большинство подобных компонентов возникают в результате сложного процесса фиксации аллельных частот, например в тех случаях, когда непосредственно после смешивания предковых групп разного происхождения происходит процесс генетического дрейфа. Закон Харди—Вайнберга утверждает, что в теоретической идеальной популяции распределение генов будет оставаться постоянным из поколения в поколение. Так, в популяции растений количество «внуков» с генами высокорослости будет ровно таким же, сколько было родителей с этим геном. Но в реальных популяциях дело обстоит иначе. Из-за случайных событий частота распределения генов из поколения в поколение несколько варьирует — это явление называется дрейфом генов. Рассмотрим крупную размножающуюся популяцию со строго определенным распределением аллелей. Представим, что по той или иной причине часть этой популяции отделяется и начинает формировать собственное сообщество. Распределение генов в субпопуляции может быть нехарактерным для более широкой группы, но с этого момента и впредь в субпопуляции будет наблюдаться именно такое, нехарактерное для нее распределение. Это явление называется эффектом основателя.Дрейф генов сходного типа можно наблюдать и на примере явления с запоминающимся названием эффект бутылочного горлышка. Если по какой-либо причине численность популяции резко уменьшится — под воздействием сил, не связанных с естественным отбором (например, в случае необычной засухи или непродолжительного увеличения численности хищников), быстро появившихся и затем исчезнувших, — то результатом будет случайное устранение большого числа индивидуумов. Как и в случае эффекта основателя, к тому времени, когда популяция вновь будет переживать расцвет, в ней будут гены, характерные для случайно выживших индивидуумов, а вовсе не для исходной популяции.

PCA correlation between K11 and K16 components Вот эта таблица с усредненными значениями «симулянтов» компонентов K16 в калькуляторе K11 (колонки — компоненты K16, столбцы — компоненты K11, их пересечения — проекция компонентов K16 в компоненты K11).

Для облегчения понимания сказанного, приведу немного теории. Начну с основ.

Определение базовых терминов

ADMIXTURE (буквально: примесь) – это компьютерная программа (анализ), позволяющая выявлять смешанность состава некоего набора индивидов на основе данных о генотипах и тем самым строить предположения о происхождении популяции.

Принцип работы ADMIXTURE.

Рассмотрим принцип работы ADMIXTURE на примере образцов и популяций из проекта HapMap.

Всего у нас N = 324 образца/индивида, каждый из которых относится к одной из четырех нижеперечисленных популяций:

АФРИКА (ASW) – Африканские предки из Юго-Западной части США
ЮТА (CEU) – жители штата Юта США с корнями из Северной и Западной Европы
МЕКСИКА (MEX) – Мексиканцы, Лонг-Айленд США
ЙОРУБА (URI) – Йоруба, Нигерия
Для удобства дальнейшего изложения будем называть эти популяции «известными».

Также мы предполагаем, что они произошли от К разных предковых популяций (мы не знаем от каких именно). В дальнейшем будем называть эти предковые популяцие «предполагаемыми предковыми». Этих «предполагаемых предковых» популяций на самом деле не существует, у них нет общепризнанных названий и характеристик. И на этом этапе мы даже не знаем какие образцы к какой из этих К популяций могут быть отнесены. Теоретически возможно, что образцы из одной и той же «известной» популяции могут принадлежать к двум разным «предполагаемым предковым» популяциям.

Пример 1.

Предположим, что К = 3.

ADMIXTURE далее работает с образцами (их генотипами) и заданным нами числом К = 3. Имея сведения о генотипах и предположение о количестве «предполагаемых предковых» популяций (К) ADMIXTURE строит свою модель (предположение) того, каков вклад каждой из «предполагаемых предковых» популяций в каждый индивид. В результате мы имеем для каждого индивида 3 цифры: количественный вклад каждой из трех популяций (или образно говоря, на сколько процентов данный индивид состоит из первой «предполагаемой предковой» популяции, на сколько – из второй и на сколько – из третьей). При этом может быть и такая ситуация, что у конкретного индивида в составе отсутствует какая-то из «предполагаемых предковых» популяций, даже возможно, что он принадлежит только к одной из «предполагаемых предковых» поуляций. Предположим, для индивида №1 эти цифры такие: 0.3, 0.5 и 0.2. Что эти цифры означают? Означают они доли каждой из «предполагаемых предковых» популяций (ППП) в индивиде №1, т.е. индивид состоит на 30% из первой ППП, на 50% — из второй и 20% — из третьей. Чем больше вклад каждой ППП в индивида, тем больше индивид является «носителем» данной популяции и ее представителем.
Так называемый этно-популяционный калькулятор ДНК представляет собой инструмент, позволяющий использовать заранее определенные (вычисленные) компоненты этнического происхождения K для определения той комбинация исходных предковых компонентов дает наилучшее соответствие (аппроксимирует) происхождение носителя тестируемой ДНК.

При создании калькулятора ДНК в основу берется определенная модель (например, задается исходное число компонентов или состав референсной выборки), что неизбежно приводит к определенным уступкам в плане точности и проявлению слабых сторон модели. Например, часто люди критикуют подобные модели калькуляторов за излишнюю европоцентричность и недостаточную представленность геномов из других мест, или же используемые для определения компонентов происхождения выборки данных по отдельным популяциям слишком малы для определения сложной субструктуры генофонда референсной популяции. Наконец, более грамотные люди указывают на отсутствие необходимо инструментария (например, формальной статистики) для проверки статистической значимости определенных компонентов в отдельных моделях калькулятора.
Движок обеих калькуляторов — все та же программа DIYDodecad, После того, как ппрограммма ДНКа калькулятора выдаст первичные результаты — процентное распределение компонентов этно-популяционного происхождения в изучаемом геноме, можно будет перейти к вторичному анализу. Суть его проста — зная процентную комбинацию компонентов происхождения в своем геноме, довольно просто смоделировать свой геном в виде смеси нескольких референсных популяций.

Поэтому, в отличие от предыдущих релизов, K11 и K16 будут включать в себя дополнительный контент:

1) классический Oracle, позволяющий смоделировать анализируемый «геном» (точнее, набор из 100-200 тысяч информативный снипов) в виде комбинации двух референсных популяций, а также установить группу генетически ближайших референсных популяций к геному изучаемого индивида. Однако этот инструмент не может быть использован в случае сложного смешанного происхождения (например, когда изучаемый индивид происходит из более чем двух разных этнических популяций). Иногда программа выдает довольно глупые комбинации, cущественным образом понижая достоверность результатов. Впрочем основное преимущество Oracle и состоит в том, что программа предлагает вместо окончательного «простого» решения список альтернативных вариантов.

Пример: в качестве примера я буду использовать собственные данные.
Исходя из полученных в модели K16 значений компонентов, мой условный наиболее близок к восточнославянским популяциям
«Ukrainian-Center» «2.5884»
«Pole» «3.0962»
«Sorb» «3.1733»
«Polish_West» «3.5992»
«Russian-North-West» «3.7265»
«Russian_Smolensk» «3.834»
«Polish» «4.0348»
«Belarusian_EastBelarus» «4.0852»
«Belarusian_WestBelarus» «4.1216»
«DonKuban_cossack» «4.7769»

В комбинированном варианте двух смешанных популяций распределение предковых компонентов происхождения может быть аппроксимировано следующими комбинациями:

«65.8% Belarusian_EastBelarus + 34.2% Norwegian» «1.1023»
«66.4% Belarusian_EastBelarus + 33.6% Icelandic» «1.1118»
«80.9% Latvian + 19.1% Spanish_Baleares_IBS» «1.1154»
«30% French + 70% Lithuanian» «1.1206»
«29% French + 71% Latvian» «1.1215»
«55% French_West + 45% Lithuanian_Zemajitia» «1.1302»
«28.9% French_East + 71.1% Latvian» «1.1402»
«29% French_Northwest + 71% Latvian» «1.1563»
«72.3% Belarusian_EastBelarus + 27.7% Orcadian» «1.1766»
«57.2% European_Utah + 42.8% Lithuanian_Zemajitia» «1.1825»

Основная часть генома — условно славяно-балтийская (что ожидаемо), но с существенным сдвигом в сторону Скандинавии и западной Европы(примерно 20-30%). Скорее всего, это наследие готов, или контактов балтийских племен с викингами. Интересно, что модель K11 (c использованием современных референсных популяций) дает примерно такой же расклад — разве что древний скандинавско-германский пласт выражен чуть резче чем в модели K16

«Belarusian_West» «2.3841»
«Belarusian» «2.4187»
«Pole_Poland» «2.5278»
«Belarusian_East» «3.7288»
«Russian_Central» «3.7635»
«Swede» «3.9724»
«Russian_cossack» «4.1139»
«Ukrainian» «4.2647»
«Russian_Southern» «4.5204»
«Ukrainian_East» «4.8635»
«66.6% Icelandic + 33.4% Latvian» «1.586»
«41.1% Latvian + 58.9% Orcadian» «1.5898»
«47.9% Lithuanian + 52.1% Orcadian» «1.6007»
«60.2% Icelandic + 39.8% Lithuanian» «1.6082»
«5.7% Basque_Spanish + 94.3% Belarusian» «1.6386»
«5.8% Basque_French + 94.2% Belarusian» «1.6406»
«67.2% Belarusian + 32.8% Swede» «1.659»
«40.2% Lithuanian + 59.8% Norwegian» «1.6876»
«33.7% Latvian + 66.3% Norwegian» «1.689»
«94.1% Belarusian + 5.9% Spanish_Pais_Vasco_IBS» «1.7359

В палеокалькуляторе K11 (т.е. с древними геномами) картинка кажется более убедительной

«Unetice_EBA» «2.7065»
«Bell_Beaker_Czech» «5.0633»
«British_AngloSaxon» «5.1998»
«Nordic_LN» «5.6157»
«Corded_Ware_Proto_Unetice_Poland» «6.3751»
«Nordic_MN_B» «6.3865»
«Halberstadt_LBA» «6.4422»
«BenzigerodeHeimburg_LN» «7.4695»
«Nordic_IA» «7.5404»
«Corded_Ware_Estonia» «7.7635»

Из всех палеогеномов наиболее близок к моему геном представителя унетицкой культуры. Происхождение унетицкой культуры до сих пор не выяснено. Между позднейшими энеолитическими культурами и унетицкой культурой существует типологический и хронологический разрыв. Наибольшее признание в результате последних исследований получило предположение, согласно которому в ее возникновении главную роль сыграли культура колоколовидных кубков и надиревская культура, распространенная в Венгрии (см. ниже). У культуры колоколовидных кубков и унетицкой имеется сходство в керамике, в погребальном обряде и в орудиях труда. Небольшую роль могла сыграть культура шнуровой керамики, хотя в целом они очень различаются. Закономерно, что следующими — хотя и с большим отрывом — близкими к моему геному группами палеогеномов являются геномы древних англосаксов (которые близки к древним скандинавам) и представителей чешского ареала культуры колоковидных кубков).
Аналогично, в режиме смешенных популяций хорошо заметны две тенденции. Во-первых, мой геном может быть представлен в виде комбинации палеогенома представителя позднебронзового века (Хальберштадт) и палеогеномов восточных охотников-собирателей эпохи энеолита, во-вторых как смесь 23.4% генома представителей балтийской позднебронзовой эпохи и все того же позднебронзового палеогенома из Хальберштадта

«86.4% Halberstadt_LBA + 13.6% Karelia_HG» «2.139»
«74.1% Bell_Beaker + 25.9% LesCloseaux13_Mesolithic» «2.1574» «35.9% Hungary_BA + 64.1% Poltavka_MBA_outlier» «2.319»
«65.7% Halberstadt_LBA + 34.3% Poltavka_MBA_outlier» «2.4387»
«83.2% Alberstedt_LN + 16.8% Karelia_HG» «2.443»
«23.4% Baltic_LBA + 76.6% Halberstadt_LBA» «2.4846»
«16.7% Europe_MN + 83.3% Poltavka_MBA_outlier» «2.4897»
«83.4% Halberstadt_LBA + 16.6% Samara_Eneolithic» «2.536»
«12.9% Halberstadt_LBA + 87.1% Unetice_EBA» «2.5603»
«16.1% Bell_Beaker_Czech + 83.9% Unetice_EBA» «2.5747»

2) файлы модели K11 и K16 для более сложной программы 4Admix (разработанной Александром Бурнашевом). Вторым инструментом вторичного анализа является 4Mix. Он работает по методу brute-force, шаг за шагом перебирая все возможные комбинации, а по окончанию цикла программа возвращает результат с наименьшим евклидовым расстоянием (по выбору можно использовать гауссово сглаживание, снижающее случайный статистический шум результатов). Как и в классическом Oracle, комбинация cмешиваемых этнических групп не может содержать более 4 популяций, хотя в отличие от классического Oracle, программа может моделировать комбинации из 3 и 4 этнических групп.

Пример. Приведу пример этих 3- и 4-членных аппроксимаций. В принципе, все то же самое, c той лишь разницей что теперь программа выделяет в комбинациях балтийскую и славянскую составляющую. Интересно, что скандинавская составляющая никуда не исчезла, оставаясь в пределах 20-25%
Using 3 populations approximation:
1 50% Belarusian_EastBelarus +25% English_Kent_GBR +25% Latvian @ 0.973956
2 50% Belarusian_EastBelarus +25% English_Kent_GBR +25% Lithuanian @ 0.988467
3 50% Latvian +25% French +25% Balt @ 1.036492
4 50% Lithuanian_Zemajitia +25% French +25% Irish_Connacht @ 1.05259
5 50% Lithuanian +25% Sorb +25% French_West @ 1.059638
6 50% Belarusian +25% Icelandic +25% French_West @ 1.06158
7 50% Lithuanian_Zemajitia +25% French +25% Irish_Cork_Kerry @ 1.074796
8 50% Lithuanian_Aukstajtia +25% French_East +25% Irish_Connacht @ 1.076771
9 50% Lithuanian_Zemajitia +25% French +25% Irish_Ireland @ 1.078576
10 50% Belarusian +25% Norwegian +25% French_West @ 1.079741
11 50% European_Utah +25% Lithuanian_Zemajitia +25% Balt @ 1.084317
12 50% Dane +25% Belarusian_EastBelarus +25% Lithuanian_Aukstajtia @ 1.090086
13 50% Lithuanian_Zemajitia +25% French +25% Scottish_Highlands @ 1.093951
14 50% Lithuanian +25% North_European +25% Sorb @ 1.103744
15 50% Lithuanian_Aukstajtia +25% English_GBR +25% French_Northwest @ 1.105369
16 50% Lithuanian_Zemajitia +25% French +25% Scottish_Grampian @ 1.106616
17 50% Lithuanian_Aukstajtia +25% French_Northwest +25% Irish_Connacht @ 1.106771
18 50% Lithuanian_Aukstajtia +25% French_Northwest +25% Scottish_Dumfries_Galloway @ 1.108261
19 50% Lithuanian +25% French_West +25% Polish_West @ 1.113695
20 50% Latvian +25% North_European +25% Sorb @ 1.115164
31501779 iterations.
Using 4 populations approximation:
1Belarusian_EastBelarus+Lithuanian_Zemajitia+Swede+French_West @ 0.947002
2Belarusian_EastBelarus+English_Kent_GBR+Lithuanian_Aukstajtia+Sorb @ 0.971605
3Belarusian_EastBelarus+Belarusian_EastBelarus+English_Kent_GBR+Latvian @ 0.973956
4Belarusian_EastBelarus+English_Kent_GBR+Lithuanian_Aukstajtia+Polish_East @ 0.986863
5Belarusian_EastBelarus+Belarusian_EastBelarus+English_Kent_GBR+Lithuanian @ 0.988467
6 French+Lithuanian_Zemajitia+Swede+Balt @ 0.98916
7Belarusian_EastBelarus+English_Kent_GBR+Lithuanian_Aukstajtia+Polish @ 0.996302
8 Belarusian+Lithuanian_Aukstajtia+Shetlandic+French_West @ 1.010485
9 Belarusian+Lithuanian_Zemajitia+Irish_Ulster+French_West @ 1.01227
10 Belarusian+Lithuanian_Zemajitia+French_West+Irish_Ulster @ 1.012977
11 Belarusian_EastBelarus+Lithuanian_Aukstajtia+Swede+Welsh @ 1.013043
12Belarusian_EastBelarus+European_Utah+Lithuanian_Aukstajtia+Swede @ 1.013805
13Belarusian_EastBelarus+Lithuanian_Aukstajtia+Swede+French_West @ 1.018296
14German_NorthGermany+Lithuanian_Aukstajtia+Balt+French_West @ 1.026503
15 Lithuanian_Aukstajtia+Sorb+Ukrainian-Center+French_West @ 1.027473
16 Belarusian+Lithuanian_Zemajitia+French_West+Irish_Connacht @ 1.031967
17Belarusian+Lithuanian_Zemajitia+French_West+Irish_Cork_Kerry @ 1.035716
18 French+Latvian+Latvian+Balt @ 1.036492
и т.д.
То же самое, но в модели K11
Using 3 populations approximation:
1 50% Poltavka_MBA_outlier +25% Halberstadt_LBA +25% Hungary_BA @ 2.031302
2 50% Poltavka_MBA_outlier +25% Bell_Beaker_Czech +25% Hungary_BA @ 2.072453
3 50% British_AngloSaxon +25% Halberstadt_LBA +25% Poltavka_MBA_outlier @ 2.125791
4 50% Bell_Beaker +25% Bell_Beaker +25% LesCloseaux13_Mesolithic @ 2.209118
5 50% Halberstadt_LBA +25% British_AngloSaxon +25% Poltavka_MBA_outlier @ 2.244371
6 50% Halberstadt_LBA +25% Hungary_BA +25% Samara_HG @ 2.270667
7 50% Halberstadt_LBA +25% Poltavka_MBA_outlier +25% Unetice_EBA @ 2.291406
8 50% Poltavka_MBA_outlier +25% British_AngloSaxon +25% Hungary_BA @ 2.30791
9 50% Bell_Beaker_Czech +25% Hungary_BA +25% Samara_HG @ 2.356281
10 50% Halberstadt_LBA +25% Nordic_BA +25% Poltavka_MBA_outlier @ 2.358744
11 50% Bell_Beaker +25% Hungary_BA +25% Karelia_HG @ 2.369978
12 50% Bell_Beaker_Czech +25% Nordic_BA +25% Poltavka_MBA_outlier @ 2.385823
13 50% Halberstadt_LBA +25% Corded_Ware_Germany +25% Nordic_BA @ 2.490915
14 50% Poltavka_MBA_outlier +25% Hungary_BA +25% Unetice_EBA @ 2.503754
15 50% British_AngloSaxon +25% Bell_Beaker_Czech +25% Poltavka_MBA_outlier @ 2.53217
16 50% Halberstadt_LBA +25% Baltic_LBA +25% Halberstadt_LBA @ 2.540751
17 50% Hungary_BA +25% Poltavka_MBA_outlier +25% Samara_HG @ 2.551414
18 50% Poltavka_MBA_outlier +25% Alberstedt_LN +25% Hungary_BA @ 2.561557
19 50% British_AngloSaxon +25% Poltavka_MBA_outlier +25% Unetice_EBA @ 2.575398
20 50% Bell_Beaker_Czech +25% British_AngloSaxon +25% Poltavka_MBA_outlier @ 2.575919
1127348 iterations.
Using 4 populations approximation:
1 Halberstadt_LBA+Hungary_BA+Poltavka_MBA_outlier+Poltavka_MBA_outlier @ 2.031302
2 Halberstadt_LBA+Nordic_BA+Poltavka_MBA_outlier+Unetice_EBA @ 2.03713
3 Bell_Beaker_Czech+Hungary_BA+Poltavka_MBA_outlier+Poltavka_MBA_outlier @ 2.072453
4 British_AngloSaxon+Halberstadt_LBA+Poltavka_MBA_outlier+Unetice_EBA @ 2.088049
5 British_AngloSaxon+British_AngloSaxon+Halberstadt_LBA+Poltavka_MBA_outlier @ 2.125791
6 British_AngloSaxon+Halberstadt_LBA+Hungary_BA+Samara_HG @ 2.131526
7 Bell_Beaker_Czech+Halberstadt_LBA+Hungary_BA+Samara_HG @ 2.14648
8 Bell_Beaker+Bell_Beaker+Bell_Beaker+LesCloseaux13_Mesolithic @ 2.209118
9 Bell_Beaker_Czech+Halberstadt_LBA+Nordic_BA+Poltavka_MBA_outlier @ 2.209365
10 Bell_Beaker_Germany+British_AngloSaxon+Hungary_BA+Samara_HG @ 2.212982
11 Bell_Beaker_Czech+Bell_Beaker_Germany+Hungary_BA+Samara_HG @ 2.232922
12 British_AngloSaxon+Halberstadt_LBA+Halberstadt_LBA+Poltavka_MBA_outlier @ 2.244371
13 British_AngloSaxon+Halberstadt_LBA+Nordic_BA+Poltavka_MBA_outlier @ 2.254756
14 Alberstedt_LN+British_AngloSaxon+Hungary_BA+Samara_HG @ 2.255589
15 Bell_Beaker_Czech+British_AngloSaxon+Halberstadt_LBA+Poltavka_MBA_outlier @ 2.256027
16 Halberstadt_LBA+Halberstadt_LBA+Hungary_BA+Samara_HG @ 2.270667

3) новым инструментом в релизе будет R программа nMonte, разработанная голландцем Гером Гизбертом. В отличие от двух предыдущих инструментов (ограниченных в числе используемых для моделирования этнических групп), nMonte позволяет использовать для моделирования (аппроксимации) генмоа все референсные грппы. Программа использует алгоритм эволюционного моделирования по методу Монте-Карло.
После пошагового добавления новой популяции программа определяет уменьшается ли евклидово расстояние; если да, то шаг сохраняется, в противном случае шаг отклоняется. Алгоритм завершает свою работу после выполнения примерно миллиона шагов. Как и два предыдущих инструмента программа стремится к минимализации евклидова расстония; но похоже за счет использования метода Монте-Карло, алгоритм гораздо более эффективен. И, также, как и в других инструментах, в nMonte «наилучшая комбинация» определяется как комбинация с наименьшим расстоянием. Недостаток же nMonte состоит в том, что она выдает только наилучшее подходящее решение, в то время как Oracle представляет альтернативные варианты.
Пример. Посмотрим, сколько потенциальных предковых популяций выдаст nMonte при аппроксимации моего генома.
При первом запуске программа выдала комбинацию (в cкобках процентный вклад референсной популяции) следующих 65 популяций. Также как и в других инструментах, тон задают балтийские популяции, а также белорусы, сорбы и поляки.

Lithuanian_Zemajitia 10.1
Latvian 7.85
Lithuanian_Aukstajtia 7.85
Belarusian_SouthBelarus 6.55
Lithuanian 6.5
Pole 5.45
Belarusian_WestBelarus 4.8
Balt 4.35
Sorb 3.35
Belarusian 3.05
Belgian 3
Norwegian 2.95
Czech 2.75
Dane 2.5
Slovak 2.4
Icelandic 1.9
Swede 1.9
French_SouthFrance 1.5
Slovenian 1.5
Basque_Spanish 1.3
Frisian 1.15
German_NorthGermany 1.1
Sardinian 1.1
Polish_East 1.05
Ukrainian_WestUkraina 1
Polish 0.95
Basque_French 0.9
Orcadian 0.7
Spanish_Pais_Vasco_IBS 0.7
Hungarian 0.65
Irish_Connacht 0.65
DonKuban_cossack 0.6
Dutch 0.6
Ukrainian_EastUkraina 0.6
Scottish_Argyll_Bute_GBR 0.55
European_Utah 0.5
English_GBR 0.45
Croatian 0.4
Russian-Pskov 0.4
French_South 0.4
Welsh 0.35
Irish_Ulster 0.35
Scottish_Fife 0.3
German_SouthGermany 0.25
Scottish_Dumfries_Galloway 0.25
Belarusian_CentralBelarus 0.2
Datog 0.2
English_Cornwall_GBR 0.2
North_European 0.2
Ukrainian 0.2
Russian_Orjol 0.15
Afar 0.1
Belarusian_EastBelarus 0.1
English_Kent_GBR 0.1
Irish 0.1
Kambera 0.1
Russian_Smolensk 0.1
Vindija 0.1
Belarusian-East 0.1
Spanish_Canarias_IBS 0.1
Spanish_Cantabria_IBS 0.1
Spanish_Cataluna_IBS 0.1
Peruvian 0.05
Russian_Voronezh 0.05

В K11 показаны следующие палеогеномы (или их группы). По-прежнему, основа генома 40% моделируется как геном представителя культуры колоколовидных кубков.

«Bell_Beaker» 40.3
«Halberstadt_LBA» 31.6
«Samara_HG» 8.5
«Tyrolean_Iceman_EN» 2.05
«Esperstedt_MN» 1.95
«Swedish_Mesolithic» 1.95
«BerryAuBac_Mesolithic» 1.85
«Swedish_Motala_Mesolithic» 1.7
«Bichon_Azillian» 1.6
«Continenza_Paleolithic» 1.5
«Hungary_BA» 1.5
«LaBrana_Mesolithic» 1.35
«Bell_Beaker_Germany» 1.05
«Hungary_HG» 0.85

4) следующим новым инструментом будет 4mix, более упрощенный вариант 4Admix. Он разработан тем же Г. Гизбертом. Основное отличие от 4Admix — если 4Admix перебирает все возможные комбинации из 4 популяций, то в 4mix можно эксплицитно задавать отдельные комбинации и определять евклидову дистанции между этой комбинацией и аппроксимируемым геномом в пространстве моделей
5) карты компонентов с аннотацией. Аннотации компонентов будут чуть позже, а вот карты уже готовы

Карты распространения некоторых компонентов K16 и K11  в ряде географических ареалов

6) я включил в релиз модифицированный скрип GPS лаборатории Элхайка для определения географического ареала происхождения предков человека, чей геном является предметом изучения. Я включил пару строчек кода для проецирования вычисленных географических координат на географическую карту.
Пример. Ниже показаны две карты, на которые спроецированы географические координаты вычисленной алгоритмом GPS (GPS DNA tool ) точки «этнического происхождения».
Я проверил работоспособность алгоритма на обеих моделях.
В модели K16 (современные популяции) GPS-координаты точки моего «происхождения» 49.7648663288835 32.4345922625112 (примерно 49 градусов северной широты и 32 градуса восточной долготы), т.е где-то на левом берегу Днепра в Украине. Как утверждают разработчики программы, она позволяет определить место происхождения с радиусом погрешности в 500 км. Я вычислил расстояние от полученной точки до настоящего места жительства предков (южная часть Брестской области) и получилось 470 км. Т.е точка попадает в радиус, хотя и с некоторым трудом.

Rplot

Что касается модели K11 (древние геномы), то в этой модели мой «Urheimat» локализуется — весьма ожидаемо — на землях древней унетицкой и лужицких культур (51.1254133094371 13.2336209988448)

Rplot

 

 

Вторая фаза нового проекта

Две недели назад я сообщил об окончании первой фазы своего нового проекта (на первом этапе работы удалось собрать надежную выборку из более чем 5000 образцов более чем 250 различных этно-популяционных групп людей по всему миру.

Как я уже рапортовал ранее, самой сложной из запланированных на втором этапе задач являлась импутирование (импутация) отсутствующих генотипов.  Читатели моего блога помнят, что две предыдущие экспериментальные попытки импутирования больших выборок     — в 2013  и в 2015  — закончились неудачно (или, если говорить точнее, качество импутированных генотипов не оправдало моих завышенных ожиданий). В предыдущих опытах я задействовал мощную комбинацию программ ShapeIT и IMPUTE и  метод импутирования снипов за счет использования большой референсной панели аутосомных гаплотипов (из 1000 genomes),  гарантирующей более аккуратное определение генотипов.

На этот раз, я решил не повторять ошибок, и обратился к использованию других программ — в частности , к  Minimac3, хорошо зарекомендовавшую себя в работе с геномами 1000G.  К моему счастью, я набрел на недавно появившиеся публичные сервера, работающие с «облачным» сервисом импутирования Cloudgene. геномов.
Серверы импутирования геномов позволяют использовать полную референсную панель гаплотипов для точного определения недостающих генотипов в анализируемых данных. Пользователи подобных серверов могут загружать (предварительно фазированные или несфазированные) данные генотипов на сервер. Процедура импутирования  будет осуществляться на удаленном сервере, и по окончанию этого процесса рассчитанные данные доступны пользователю для скачивания. Наряду с импутированием, подобные сервисы позволяют провести процедуру контроля качества (QC) и фазировки данных в качестве предварительного этапа процесса импутирования генотипов.

Прототипы серверов импутирования уже доступны в институте Сангера и Мичиганского университета. В дополнение к вышеназванным серверам, можно упомянуть прототип сервера поэтапной полномасштабной  фазировки генотипов анализируемых образцов (прототип создан биоинформатиками Оксфордского университета). На мой взгляд, самое простое и доступное решение задачи импутирования на удаленном сервере было разработано сотрудниками   Мичиганского университета. Дополнительное преимущество этому решению дает грамотная документация по использованию сервиса.

Основная рабочая лошадка сервиса — это комбинация двух или трех программ — две програмы для фазирования диплоидных генотипов в гаплоидную фазу  ShapeIT и Hapi-UR , а в качестве основного ПО для самого процесса импутирования (определения) недостающих генотипов — вышеупомянутую программу Minimac3.

Описание эксперимента с импутированием генотипов на удаленном сервере

В самом начале,  я разбил свою выборку на пять когорт (т.к. референсные панели на сервере также разбиты на «этнографические группы»):

  1. европейцы (европейцы + кавказцы) — 1715 образцов -87169 снипа
  2. азиаты (+американские аборигены и аборигены островов Тихого Океана) — 2356 образцов — 87044 снипа
  3. африканцы — 1054 образца — 86754 снипов
  4. палеогеномы древних жителей Евразии, Африки и Америки -340 — 594500 снипов
  5. смешанные группы — преимущественно мозабиты, пуэрто-риканцы и др.
QC-Report
На рисунке показана корреляция между частотами аллелей в изучаемоей выборке (здесь: европейская когорта) и частотами аллелей в референсной панели

К моему вящему неудовльствию,  некоторые образцы в сводной выборке не прошли контроль качества — в первую очередь это касается образцов европейцев из базы данных POPRES, а также выборок статьи  Xing et al. (2010). Скорее всего, их нужно будет импутировать отдельно.

Несмотря на значительную скорость обработки генотипов на удаленном сервере, к настоящему времени эксперимент еще не доведен до конца.  Пока я планирую ограничиться импутированием генотипов в 3 первых когортах (т.к. импутирование палеогеномов с помощью современных референсных панелей гаплотипов вероятнее всего приведет к искажению истинного разнообразия палеогеномов за счет проекции на современные группы населения, хотя авторы статьи Gamba et al. 2014 в сопроводительном материале к своей статье утверждают обратное).

После окончания фазирования и последующей обработки генотипов европейской когорты в программе Plink (были отсеяны все варианты с вероятностью ниже 0.9) ,  я получил выборку из 1715 европейцев с 25 215 169 снипами против изначальных 87169, т.е число снипов в выборке увеличилось в 290 раз!
В азиатской когорте соотношение импутированных генотипов к исходным составило чуть меньшую величину 19 048 308 / 87044 = 219.

Проверка результатов

Разумеется, все полученные результаты нуждались в дополнительной проверке качества генотипирования.
Cначала я объединил импутированную европейскую когорту с когортой палеогеномов (которая не была импутирована) и рассчитал в программе PLINK 1.9 матрицу IBS (т.е. сходства образцов в выборке между собой, эта метрика отдаленно напоминает Global Similarity в клиентских отчетах 23andme), а затем усреднил данные по популяциям и произвел по усредненным значениям иерархическую кластеризацию по признакам сходства (IBS, identity by state). Результат превзошел все мои пессимистические ожидания

 

 

Как становится очевидно из приведенной выше кластерограммы,  в целом взаимное расположение популяций в кластерах соответствует (в общих чертах) взаимному географическому положению. Присутствуют, правда, и некоторые огрехи. Так, например, венгры очутились в одном кластере с русскими из Курска,  норвежцы — с русскими из Смоленска, а усредненные «русские» — с американцами европейского происхождения из штата Юта и французами. Трудно сказать, в чем здесь причина, тем более что матрица была составлена по значениям IBS (идентичности по состоянию), а не IBD (идентичности по происхождению).  Более подробные данные о попарных значениях IBS между популяциями выборки можно посмотреть в этой таблице

Импутированная азиатская когорта (несмотря на расширение географии за счет включения образцов коренного населения Америки и аборигенов бассейна Тихого океана)  тоже  оказалась на удивление надежной. Я пока не буду останавливаться на подробностях изучения этой когорты, вместо этого я размещаю здесь результаты MDS- мультдименсионального шкалирования образцов выборки, образованной в ходе слияния 2 импутированных когорт (европейской и азиатской) с 1 неимпутированной (палеогеномы). Цветовое обозначение точек соответствует определенным кластерам, выявленных в выборке с помощью алгоритма MCLUST (cледуя рекомендациям Диенека Понтикоса). Всего этих кластеров 15 и они обозначены последовательностью чисел от 1 до 15, и каждый из этих кластеров имеет свою четкую географическую привязку:

  • 1 — кластер популяций ближнего Востока и  Анатолии
  • 2 — кластер популяций северного Кавказа
  • 3 — «индоевропейский» кластер древних популяций Синташта, шнуровой культуры, Ямной культуры и т.д.
  •  4 — кластер аборигенных жителей Америки (эскимосов и индейцев)
  • 5 — суперкластер популяций средиземноморского и восточноевропейского региона
  • 6 — сибирский кластер алтайских и самодийских популяций
  • 7 — кластер популяций западной и северной Европы
  • 8 — кластер палеосибирских популяций (таких как чукчи, ительмены и коряки)
  • 9 — кластер аборигенных (австронезийских и тай-кадайских) популяций юго-восточной Азии (даи, атаяла и ами)
  • 10 — кластер неолитических популяций
  • 11 — еще один ближневосточно-средиземноморский кластер (ашкеназим, сардинцы и так далее)
  • 12 — кластер североиндийских популяций
  • 13 — кластер центральноазиатских популяций
  • 14 — поволжские популяции
  • 15 — разные групп индусов

 

Реконструкция миграций по палеоДНК

Сергей Козлов

Реконструкция миграций по палеоДНК

Накопившийся за последние годы объем информации по аутосомной палеоДНК стал уже слишком велик, а потому начал требовать систематизации. Для этой цели я нанес взаимоотношения между собой ряда образцов из Евразии на нижеследующую схему:

ВзаимоотношенияПалеообразцовv3

Стрелки отображают вероятные влияния, однако источником их не обязательно является культура, указанная в ячейке, из которой выходит стрелка. Здесь больше привязка к географии — если влиял и не этот конкретный источник, то какой-то близкий и схожий. Многие ячейки попросту оставлены пустыми. В противоположность этому, остриё каждой стрелки указывает на конкретные образцы из определенной культуры, проанализированные учёными.

Чтобы не загромождать схему, для Европы я не стал создавать множество колонок, поскольку они были бы структурно схожи между собой. Кроме отображенной в таблице Центральной Европы (в основном это образцы из Германии), неплохой временной срез существует по северной Испании, где пещеры хорошо сохранили древние образцы. Совершенно аналогично предыдущему случаю, в мезолите местность населяют охотники-собиратели WHG, далее появляются неолитические земледельцы (аутосомно близкие по всей Европе), после чего в их генофонде понемножку начинает расти доля WHG, вплоть до халколита. Более поздние палеообразцы оттуда мне пока неизвестны.

Охотники-собиратели юго-западной Скандинавии (SHG) по аутосомам находились между WHG и EHG (похоже, что мезолитические охотники-собиратели северо-западной Евразии формировали континуум с плавным переходом от WHG на западе к ANE на востоке). Впоследствии мы видим появление все тех же неолитических земледельцев, а еще позже в регион попадают «ямноподобные» носители CHG, как и в Германии. Среди археологов нередко принято выделять этих пришельцев в отдельную от их аналогов с южного берега Балтики (культура шнуровой керамики) культуру боевых топоров, или ладьевидных топоров. И генетика дает для этого некоторые основания — в отличие от германских шнуровиков, у образца из Швеции вклад CHG заметно ниже, а влияние северных охотников-собирателей — выше. Однако и здесь носители CHG явно свежие пришельцы, ранее этот компонент в регионе не находили.

Третьим регионом, по которому имеется временной срез, является Венгрия. Можно было бы включить ее в центральноевропейскую колонку, однако у венгерских образцов имеется своя специфика. Если на протяжении мезолита-неолита ситуация развивается по привычной схеме, то в эпоху бронзы новоприбывшее население заметно отличается от тех, кто мигрировал в более северные районы. Да, растет доля «кавказского» компонента, но он более «анатолийский», чем «степной-ямный» (казалось бы, именно в степной Венгрии можно в первую очередь ожидать «ямный» компонент). При этом доля «охотничьего» компонента у них также заметно повышена по сравнению с неолитчиками. Возможно, эти люди и ответственны за аутосомный сдвиг у представителей ККК и Унетицкой культуры, отображенный в таблице. С этого момента в Центральной Европе наличествуют все основные имеющиеся в ней в наши дни аутосомные компоненты и население становится достаточно схожим с нашими современниками.

К сожалению, между Волгой и Карпатами до сих пор не проанализировано ни одного образца из обсуждаемого периода (единственный удостоившийся подобной чести — палеолитический образец с Маркиной Горы (Костёнки-14), для нашей цели бесполезен). Поэтому остается лишь строить предположения, какие изменения происходили в генофонде населения Восточноевропейской равнины в это время. Когда будет закрыта эта дыра, на данный момент мне совершенно непонятно. Что касается Средней Азии и Кавказа, то мы можем ожидать появления новых результатов оттуда в обозримом будущем.

 

 

Охотники-собиратели Кавказа и южный генетический полюс ямников

Сергей Козлов

Охотники-собиратели Кавказа и южный генетический полюс ямников.

За прошедший год в научный оборот было введено множество палеогеномов из Европы и евразийской степи. Было доказано, что в западной части Европы произошло как минимум два резких смещения аутосомного ландшафта — сначала на палеоевропейские охотники-собиратели были замещены пришедшими из Анатолии неолитическими земледельцами (впрочем, часть их генофонда все же сохранилась), а впоследствии уже земледельцы оказались сильно потеснены новыми пришельцами, генетически схожими с представителями ямной КИО. Их след хорошо выделяется в современной Европе — во-первых, это относительно недавно обнаруженный, но ставший широко известным среди интересующихся геногеографией компонент ANE, во-вторых же, «загадочный» южный компонент ямников.

Авторы первой из опубликованных работ по аутосомам ямников смоделировали их, как смесь ~50 на 50 мезолитических восточноевропейских охотников-собирателей (EHG) и современных армян (впрочем, еще лучше на эту роль подошли иракские евреи, но их решили пропустить). Эта модель сразу вызвала во мне отрицательное отношение, поскольку у армян хорошо представлен аутосомный компонент неолитических земледельцев, а у ямников он не обнаружен в сколь-нибудь значимых количествах. Таким образом, модель изначально была неверна, но, к сожалению, была растиражирована еще до выхода статьи в свет (благодаря «утечкам» от авторов) и завладела многими умами. Постепенно вокруг слова «армянский» даже перестали ставить кавычки ))

К счастью, над палеогеномами работает целый ряд команд ученых и одна из них решила обратить внимание не только на северные палеообразцы, но и на остававшиеся долгое время в пренебрежении южные. Первой ласточкой стали два охотника-собирателя, жившие (согласно радиоуглеродной оценке) 9 и 13 тысяч лет назад на территории нынешней Грузии. В запаснике у этой команды еще немало могущих представлять интерес образцов древней ДНК, поэтому ждем дальнейших работ.

В качестве основного был использован более поздний из двух образцов, найденный в пещере Kotias. Он прочитан с весьма хорошим для палеогенома качеством (что позволило мне использовать его для подсчета IBD-сегментов). Моделирование показало, что в качестве «южного полюса» генофонда ямников кавказские охотники-собиратели (для них авторы статьи ввели новое сокращенное название — CHG) подходят намного лучше, чем любая из современных выборок:

CHGF3Stat

Это и неудивительно — ведь доминирующим аутосомным компонентом в предпочитаемом мной калькуляторе MDLP K27 у Kotias является Gedrosia-Caucasian, о котором я уже писал:

Однако с точки зрения предковых компонентов Admixture такая модель — далеко не лучший вариант, «южный» ямный компонент скорее связывается с чем-то в промежутке между Восточным Кавказом и Средней Азией. Как и предполагалось, он коррелирует с бимодальным компонентом, условно называемым Gedrosia. Исходя из современных максимумов, его исторический центр находится где-то в южном Прикаспии, возможно, восточнее. Судя по всему, он представляет собой результат смешения «ближневосточного» компонента ENF и ANE, поэтому теоретически исторического центра может и вообще не быть.

Как выяснилось, девять тысячелетий назад этот компонент преобладал и в более западных районах. Что ж, это делает его только еще более подходящим.

Результаты Kotias в K27:

0.42%   Nilotic-Omotic
  2.22% Ancestral-South-Ind.
  3.66% North-European-Balt.
  0.00% Uralic
  0.01% Australo-Melanesian
  1.79% East-Siberian
  0.00% Ancestral-Yayoi
30.28%   Caucasian-Near-East.
  0.00% Tibeto-Burman
  0.00% Austronesian
  0.00% Central-African-Pygm
  1.05% Central-African-HG
  3.66% Nilo-Saharian
  0.00% North-African
52.04%   Gedrosia-Caucasian
  0.00% Cushitic
  0.00% Congo-Pygmean
  1.73% Bushmen
  0.00% South-Meso-Amerind.
  0.00% South-West-European
  0.00% North-Amerindian
  0.00% Arabic
  0.01% North-Circumpolar
  3.13% Kalash
  0.00% Papuan-Australian
  0.00% Baltic-Finnic
  0.00% Bantu

Карта сумм IBD-сегментов Kotias с образцами из современных выборок:

KotiasSnpc-100IBDext

Лидерами по сумме сегментов оказались грузины (приведен список первых 25 результатов):

Georgian 71,79
Abkhazian 70,75
Lezgin 68,27
Greek_Azov 67,15
Balkarian 65,02
Kurd 64,38
Ossetian 62,66
Armenian 61,98
Nogay 60,38
Bosnian 60,23
Slovenian 60,02
Chechen 59,07
Adygei 58,39
Cypriot 58,28
Turkish 55,86
Kosovar 54,64
Ukrainian-West-and-Center 54,17
Bulgarian 53,21
Slovak 53,01
Cornish 52,46
Croatian 52,21
Kumyk 51,96
Makrani 51,91
Syrian 51,78
Greek 51,68

Что ж, можно их поздравить с генетической преемственностью на протяжении десятка тысячелетий. Однако по пропорциям компонентов Admixture грузины и абхазы довольно заметно отличаются от Kotias:

Abkhasian_S3 Georgian_Kaheti_R2 Georgian_West_R4 Svan_R3
Nilotic-Omotic 0,24 0,00 0,52 0,06
Ancestral-South-Indian 0,75 0,92 0,44 0,31
North-European-Baltic 8,58 5,60 6,87 6,93
Uralic 2,17 1,69 0,72 2,34
Australo-Melanesian 0,27 0,07 0,59 0,42
East-Siberean 1,20 0,00 0,20 0,42
Ancestral-Yayoi 0,72 0,00 0,00 0,44
Caucasian-Near-Eastern 40,79 41,08 45,61 42,85
Tibeto-Burman 0,00 1,09 0,12 0,38
Austronesian 0,72 0,20 0,00 0,23
Central-African-Pygmean 0,05 0,06 0,20 0,00
Central-African-Hunter-Gatherers 0,22 0,15 0,29 0,18
Nilo-Saharian 0,55 0,01 0,02 0,15
North-African 0,50 1,17 0,90 0,31
Gedrosia-Caucasian 32,01 31,65 33,18 35,31
Cushitic 1,17 1,56 0,31 0,42
Congo-Pygmean 0,00 0,25 0,18 0,35
Bushmen 0,04 0,00 0,00 0,00
South-Meso-Amerindian 0,27 0,04 0,14 0,12
South-West-European 2,68 5,06 2,73 1,91
North-Amerindian 0,13 0,04 0,13 0,23
Arabic 2,42 6,83 3,56 3,72
North-Circumpolar 0,47 0,09 0,99 0,41
Kalash 2,38 2,33 1,66 1,77
Papuan-Australian 0,42 0,11 0,33 0,32
Baltic-Finnic 1,25 0,00 0,20 0,14
Bantu 0,00 0,00 0,11 0,28

Как видно, компонент Gedrosia-Caucasian у них стал заметно ниже, а более западные и южные Caucasian-Near-Eastern, Arabic, South-West-European — выросли. Вырос и «северный» North-European Baltic. Думаю, что это связано с миграциями в регион новых групп, что несколько размыло изначальный генофонд. Поэтому современные грузины подошли на роль «южного компонента» в меньшей степени по сравнению с Kotias, и древние CHG выглядят на генетической карте более «восточными» (почему я и помещал этот компонент где-то в Прикаспии).

Кроме Кавказа, вызывает интерес явная связь CHG с рядом балканских популяций (и примыкающей к ним правобережной украинской выборке) — вероятно, это неспроста. Причем направление миграций здесь, очевидно, именно от CHG либо их родственников к балканцам.

Думаю, что сами CHG могут быть смоделированы, как смесь ближневосточников и носителей ANE откуда-то с родины компонента Gedrosia. Например, в калькуляторе ANE K7 Kotias получается таким (как обычно, «Африка» отображает архаику палеогеномов):

31.10%   ANE
  5.36% ASE
  0.01% WHG-UHG
  0.00% East_Eurasian
  2.47% West_African
  1.50% East_African
59.56%   ENF

Однако же никаких связей с Сибирью на карте IBD-сегментов он не проявляет. Таким образом, вновь встает вопрос о «южном» и «северном» вариантах ANE. Методами Admixture разделить его пока не удалось (если говорить о «чистом» ANE а не более новых компонентах, куда он входит составной частью). Возможно, он сам по себе является композитом — результатом смеси охотников северной Евразии и пришельцев с юга? Тогда у Kotias проявляется лишь его южная часть. Во всяком случае, мы можем выделить этот «восточный» компонент Kotias  в том числе и методом IBD-анализа, рассмотрев его разность с европейскими неолитическими земледельцами (EEF), выступающими здесь «прокси» ближневосточного компонента:

CHGMinusEEFIBDext

Результат прекрасно совпадает с распределением компонента Gedrosia-Caucasian — один из пиков оказался в Дагестане (лезгины), второй — рядом с исторической Гедрозией. Можно поздравить Вадима Веренича с удачным калькулятором. Любопытно, что соседи лезгинов по Восточному Кавказу — чеченцы и кумыки не оказались ярко выделенными, несмотря на немногим уступающую лезгинам долю ANE. Зато они выделяются у ямников и оленеостровца EHG. Возникает предположение, что либо эти народы в наибольшей степени испытали «ямное» влияние, либо «южный компонент» ямников наиболее связан с ними, либо их ANE относится к чуть другой веточке по сравнению с Kotias, более близкой к ямной. Во всяком случае. здесь есть, над чем подумать.

Теперь сравним Kotias с самими ямными геномами:

CHGMinusYamnayaIBDext

Как видите, связь с ямниками у выборок из Северной Европы и Поволжья-Урала очень сильна по сравнению со связью с CHG. Думаю, что основное объяснение этому — отсутствие у Kotias компонентов WHG и «северного» ANE. Они занимают основную часть как генофонда европейцев, так и ямников. Более интересна ситуация в Азии — в Средней Азии сильнее связь с ямниками, далее при движении на юг, к Индийскому океану, постепенно идет выравнивание в пользу CHG (возможно, это говорит о том, что ямное влияние сокращается и мы видим более «фоновое» родство) и на самом дальнем юге возвращается равновесие (эти популяции уже мало связаны как с ямниками, так и с CHG). «Ямный язык», вдающийся в Китай через алтайцев, уйгуров и Ту — не след ли это тоже индоевропейской миграции? Хотя это может быть и совпадением.

Что касается родного для Kotias Кавказа, то если на западе связь с ним очень сильна, к северо-востоку, как уже писалось, «ямное» влияние нарастает.

Некоторый интерес представляет и сравнение охотников-собирателей Кавказа с уже не раз упоминавшимися в этой заметке западноевразийскими охотниками-собирателями (WHG):

CHGMinusWHGIBDext

Поскольку WHG входит составной частью в генофонд неолитических земледельцев Европы (EEF), то «ближневосточное» влияние в Южной Европе, связанное с их миграциями, частично отфильтруется. Например, считающиеся наиболее схожими с EEF среди наших современников жители острова Сардиния здесь ярко-зеленые. Можно сделать вывод, что на Балканах и в южной Италии влияние CHG довольно серьезно (что мы и видели на первой карте). Хотя из-за влияния «чистого» WHG повсюду в Европе делать точные оценки сложно.

В заключение можно подытожить, что расшифровка геномов охотников-собирателей Кавказа является очередным, и достаточно заметным, шагом в деле восстановления доисторических миграций и формирования современной генетической картины в Евразии.

 

Подготовка к анализу новых образцов палеогеномов

Несколькими постами ранее ув. Сергей Козлов подготовил замечательный по своей глубине русскоязычный обозор новой статьи Allentoft et al. 2015 (еще раз выражаю свою благодарность). В этом обзоре были затронуты преимущественно технические вопросы, в то время как в аналогичном разборе на сайте генофонд.ру было пересказано общее содержание статьи:  » Cтатья большого международного коллектива, опубликованная 11 июня в журнале Nature, посвящена исследованию геномов популяций Евразии в бронзовом веке (изучен период от 3000 до 1000 лет до н.э.). Первый автор Мортен Aллентофт (Morten E. Allentoft) и ведущий автор Эске Виллерслев (Eske Willerslev) представляют Центр географической генетики Музея естественной истории Университета Копенгагена, Дания. Эта статья вызвала огромный интерес у специалистов по истории популяций человека — ведь в ней представлен анализ самого большого массива древних геномов из разных археологических культур эпохи бронзы. На основании анализа древних геномов авторы пробуют реконструировать древние миграции и распространение археологических культур во времени и пространстве. В бронзовом веке, начало которого датируют временем 3500-3300 лет до н.э., в производстве орудий и оружия камень все больше уступает место металлу. Это сопровождается   радикальными культурными и социальными изменениями в жизни людей. Они касаются не только хозяйственного уклада – возникает новое понимание имущественных отношений, семьи и личности. Основной вопрос, на который попытались ответить авторы статьи — были ли эти изменения результатом передачи культурных навыков или результатом миграций населения. Иными словами, «была ли это циркуляция людей или идей». Важнейший вопрос — связаны ли эти события с распространением индоевропейских языков, на которых сейчас говорит большая часть человечества.»

Лавина публикаций древних геномов (кроме вышеупомянутых статей Allentoft et al. 2015, Haak et al. 2015, летом опубликовались статьи Pinhasi et al. Optimal Ancient DNA Yields from the Inner Ear Part of the Human Petrous Bone,  и Fu et al.  An early modern human from Romania with a recent Neanderthal ancestor, однако к сожалению, количество снипов в большинстве образцов палеогеномов недостаточно для проведения развернутых анализов вместе с палеогеномами из других статей) заставила меня ускорить подготовку своей сводной выборки референсных образцов популяций (об этом я писал в предыдущих записях).

Я решил отказаться от полного импутирования древних геномов (очевидно бессмысленного занятия, так как у нас нет надежной референсной панели для импутирования выборочно секвенированных палеогеномв), и вместо этого ограничился импутированным (с помощью панели 1000 Genomes) набором снипов в контрольном наборе популяций лаборатории Райха (Affymetrix Human Origins Fully Public Dataset), этот набор использовался в статье Lazaridis et al. 2014.  

Разумеется, ни одна процедура «импутирования генома» (imputation of genome -сложнопереводимый на русский язык термин) не обходится без ошибок. Поэтому перед тем как приступить к самому анализу, я провел проверку качества выборки. На этот раз, я использовал  инструментарий Python — PyGenClean. Этот инструментий существенно облегчает стандартизацию генетических данных и  контроль качества выходных данных платформы генотипирования. Он минимизирует ошибки манипулирования данными, и ускоряет процесс очистки данных от потенциальных ошибок генотипирования,  а также позволяет составлять информативные графики и автоматически оценивать предварительные параметры последующего статистического анализа.

После отсеивания снипов c низким качеством и индивидов с низкой степенью генотипирования, а также снипов с существенным отклонением от равновесия Харди-Вайнберга, я посмотрел оставшиеся образцы на предмет наличия в выборке «оutliers» (так называемых «статистических выбросов»). До процедуры нахождения выбросов график главных компонент выглядел следующим образом:

И после нахождения выбросов (т.е образцов со стандартным отклонением больше 5 сигм)

Первоначально я планировал анализировать древние геномы вместе с геномами современных людей, однако (как видно из нижеприведенных графиков) палеогеномы гораздо в большей степени отклоняются от реперных точек, бессистемно разбиваясь на группы:

 

Поэтому такую очистку данных лучше проводить в два захода, один — для современных образцов, а другой — для палеогеномов. А затем полученные «качественные» выборки соединять в общую контрольную выборку.
В нашем случае, я так и поступил, получив выборку из 2250 этнопопуляционных образцов и 155 000 снипов.

Вот так выглядит взаимное расположение образцов геномов на PCA графике.

 

Caucasian, North-African, Afro-American, AG2, South-European, Alberstedt-LN, Native-American, Siberian, African, East-Asian, Near-Eastern, Atayal-Coriell, Native-Australian, Australian, Australian-ECCAC, East-European, Baalberge-MN, South-Asian, Volga-Ural, West-European, Bell-Beaker-LN, North-Indian, BenzigerodeHeimburg-LN, South-Indian, Ancient-African, American, Oceanian, South-East-Asian, Arctic, Corded-Ware, Near-East, Denisovan, Denmark-Carlstrup, Denmark-Falshoy, Denmark-Marbjerg, Denmark-Sebberskole, Esperstedt-MN, EuropeanIronAge, North-European, Halberstadt-LBA, Central-Asian, Hixton, Href, HungaryGamba-BA, HungaryGamba-CA, HungaryGamba-EN, HungaryGamba-HG, HungaryGamba-IA, Iceman, Karelia-HG, Karsdorf-LN, Kostenki14, LaBrana1, LateDorset, LBK-EN, WHG, MA1, Mezmaiskaya, MiddleDorset, North-Greek, South-Italian, Piramalai-Kallars, Poland-Polwice, Poland-Szczepankowice, Poland-Unetice, Poland-Chociwiel, Samara-HG, Saqqaq, East-Aasian, Spain-EN, Spain-EN-relative-of-I0410, Spain-MN, Starcevo-EN, Stuttgart, Sweden-Abekas, Sweden-Angamollan, Sweden-Visby, SwedenSkoglund-MHG, SwedenSkoglund-MN, SwedenSkoglund-NHG, Thule, Unetice-EBA, Ust-Ishim, Vindija, Yamnaya

Именно эту выборку я положил в основу своего нового тестового калькулятора K13 (о его создании я расскажу позже) — предназначенный для анализа «глубокого» происхождения популяций. Как всегда, модель нового калькулятора основана на базовой модели известного DIYDodecad калькулятора. Впервые я остался более или менее удовлетворен полученными результатами. Думаю, что от этой модели можно плясать дальше. И хотя модельная кластеризация с помощью алгоритма Mclust дает основание полагать, что используемая мной выборка из 2230 геномов наилучшим образом (т.е без неизбежного при больших значениях K вырождения компонентов) описывается моделью из 8 кластеров, я остановился на K=13 т.е 13 кластерах:

  1. Amerindian — модальный компонент американских индейцев

 

 

  • ANE — модальный компонент северных евразийцев, изолирован из общего с WHG кластера — наивысшие значения в древнесибирских образцах MA1, AG2, а также у андроновцев, синаштинцев, представителей ямной культуры, шнуровиков и т.д. Из ныне живущих популяций самый высокий процент у калашей. Практически совпадает с ANE в статье Lazaridis et al. 2014

 

 

  • Arctic — модальный компонент с пиком в популяциях коряков, чукчей, ительменов и эскимосов

 

 

  • ASI — модальный компонент южноиндийских популяций, у современных популяций наивысший процент у онге, идентичен ASI в работе Reich et al. 2009.

 

 

  • Caucas(us)-Gedrosia — идентичен кластеру, открытому в 2011 году Диенеком Понтикосом

 

 

  • EastAsian — модальный компонент жителей восточной Азии

 

 

  • ENF — компонент древних европейских земледельцев неолита, пик в образцах палеогеномов культуры линейно-ленточной керамики. Тождественен аналогичному компоненту в работах популяционных генетиков (Lazaridis et al. 2014, Haak et al. 2015). В современных этнопулах — наивысшие значения у сардинцев, корсиканцев и басков.

 

 

  • NearEast — модальный компонент жителей ближнего Востока

 

 

  • Oceanian — модальный компонент аборигенных жителей Океании, Австронезии, Меланезии и Микронезии — пик у современных папуасов и австралийских аборигенов

 

 

  • Paleo-African — модальный компонент африканских пигмеев и бушменов

 

 

  • Siberian — модальный компонент народностей юго-восточной Сибири

 

 

  • Subsaharian — второй африканских компонент — пик в популяциях мандинка, йоруба и ишан

 

 

  • WHG-UHG — компонент древних европейских мезолитических охотников-собирателей, пик в образцах палеогеномов мезолитических популяций европейских охотников-собирателей. Тождественен аналогичному компоненту в работах популяционных генетиков (Lazaridis et al. 2014, Haak et al. 2015). Из современных популяций — наивысший процент в популяциях эстонцев, литовцев, финнов и др.

 

 

MDS plot - K13 ancestral population

Как я и предполагал, модель калькулятора оказалась особенно хороша в применении к анализу древних геномов. И на самом деле, на нижеприведенном графике PCA (пространстве 2 главных компонент результатов анализа древних геномов в моем бета-калькуляторе K13) видны замечательные вещи. Расположение геномов хорошо вписывается в треугольник, один из углов которого образуют геномы древних «ямников» (из работы Haak et al. 2015), причем геномы «русских»ямники из работы Allentoft at al.2015 чуть-чуть сдвинуты в сторону древних мезолитических геномов древних европейских охотников-собирателей. За ними (в направлении «неолитического» угла) следуют представители шнуровой культуры, еще дальше — геномы представителей геномов унетицкой культуры и т.д. Второй угол треугольника образован неолитическим геномами, причем если более поздние неолитические геномы сдвигаются ближе к представителям линейно-ленточной культуры (англ. Linear Pottery culture, фр. Culture rubanée, нем. Linearbandkeramische Kultur, LBK — наиболее распространенная неолитическая культура Центральной Европы 5500—4500 гг. до н. э.), то более ранние геномы — геном представительницы более ранней фазы этой культуры (Stuttgart-LBK), а также геномы представителей балканских неолитических культур — Старчево и Винча — очень близки к палеогеному из Barcin (культура Чатал-Хююк, cамые ранние найденные культурные слои относятся к 7400 г. до н. э.). Таким образом генетика подтверждает утверждения археологов о близости неолитических культур Балкан и Анатолии. Более того — данные генетики свидетельствуют о том, что во времена т.н «неолитической революции» происходила не только и не столько миграция технологий (как считали некоторые археологи), но и миграция населения (из Анатолии на Балканы). Причем, судя по моему графику PCA, миграция происходила в несколько, хронологически удаленных, этапов, и — скорее всего — из разных мест. Крайную точку в этому угле треугольника я обозначил как «анатолийские земледельцы» (ближайший к этой точки геном — геном «земледельца» из культуры Старчево — взят из работ Haak et al. 2015).

Для людей, интересующихся вопросами происхождения индоевропейцев, разумеется будет более интересна другая сторона треугольника, которая скорее всего отражает градиент увеличения градиента частот так называемого ANE — «компонента древних северных евразийцев».

Образно говоря, вектор градиента начинается в геномах ямников (больше половины генома которых состояла из этого компонента) и затем идет к геномам представителей синташтинской, афанасьевской, андроновской, окуневской и карасукской культур.
Пару слов об этих культурах (положение геномов представителей которых можно посмотреть на графике).
1) Синташтинская культура формировалась из древнеямных и катакомбных племён и местного населения. Синташтинцев связывают с индоиранскими племенами.
2) Андроновская культура также развивается на базе ямной. На западе она доходила до района Урала и Волги, где контактировала со срубной культурой. На востоке андроновская культура распространилась до Минусинской котловины, частично включив в себя территорию ранней афанасьевской культуры. Андроновцев (также как и синаштинцев) относят к индоиранской сообщности.
3) Афанасьевская культура была создана мигрантами из Восточной Европы, в частности, носителями древнеямной культуры, ассимилировавшими местное население. Сменилась карасукской и окуневской культурами.Наследниками афанасьевцев были племена тагарской культуры, дожившей до III в. до н. э., по другой версии, тагарцы были скифами, а потомки афанасьевцев — тохарами, которых именно скифы-тагарцы вытеснили в Синьцзян.Большинство исследователей ассоциируют афанасьевскую культуру с (прото-)тохарами.
4) Окуневская культура — фнтропологический тип населения этой эпохи был смешанного европеоидно-монголоидного происхождения, с преобладанием монголоидного. Как отмечает А. В. Громов, бросается в глаза их морфологическая разнородность — встречаются как чисто монголоидные черепа, так и типично европеоидные, не обнаруживающими никаких следов монголоидной примеси. Проведя обстоятельный анализ антропологических особенностей населения неолита и ранней бронзы, А. А. Громов пришел к выводу, что физический тип окуневцев сложился в результате смешения местного неолитического населения с выходцами из территории Средней Азии и Казахстана (афанасьевцами)
5) Карасукская культура — развилась на основе окуневской культуры под влиянием андроновской культуры.

Интересно, что геном мальчика с южносибирской палеолитической стоянки MA-1 как раз проецируется между центроидами геномов представителей синташтинской, афанасьевской, андроновской, окуневской и карасукской культур. Эти геномы (вернее их центроиды) занимают на графике значительное место. Самый дальний из них — геном алтайца из эпохи железного века (примерно 50 год до нашей эры). Сразу за ним идут все из имеющихся у меня палеогеномов жителей Америков (палеоэскимосы — в том числе и Saqqaq; и «палеоиндейцы» — Clovis, древние жители Перу и палеогеномы Botocudo). Любопытно что последние — геномы Botocudo — хотя и являются самыми современными (1600 год нашей эры), однако в них хорошо заметен «океанский компонент», именно поэтому они смыкаются на графике с палеогеномом австралийского аборигена. В этой связи я вспоминаю оригинальную теорию Тура Хейердала о наличии доисторических контактов между жителями островов Тихого океана и жителями Южной Америки.

Особое место на графики занимают «живые реликты» — онге, один из коренных андаманских народов (адиваси), геномы так называемого «усть-ишимца» (возраст 45000 лет), костенковца (Kostenki-14, возраст 38 700 -36 200 лет), и недавно опубликованный палеогеном Oase из Румынии (возрастом 37000-42000 лет). Они образуют отдельную группу (особенно близки друг к другу румынский палеогеном Oase и усть-ишимец), однако я терясь в догадках о том, что именно означает столь заметная близость этих геномов.

 

 

Eurasian and American paleogenomes