Демография миграций в эпоху неолита и бронзового века

C ресурса Генофонд.ру (автор: Надежда Маркина)

 

Статья американских и шведских исследователей (Goldberg  et al.),опубликованная на сайте препринтов, вновь обращается к дискуссионной проблеме миграций в эпоху неолита и бронзового века.  В работе исследуется вопрос о доле мужского и женского населения  в составе мигрирующих групп, которые сформировали  генофонд  Центральной Европы. Авторы проверяют исходную гипотезу, что миграции из Анатолии в раннем неолите и миграции из понто-каспийских степей в течение позднего неолита и бронзового века были преимущественно мужскими.

Для ответа на это т вопрос авторы опираются не на Y-хромосому, передающуюся по отцовской линии,  и не на митохондриальную ДНК, передающуюся по материнской, как традиционно поступают генетики, а  Х-хромосому. Они вычисляют отношение эффективного размера популяции по Х-хромосоме к эффективному размеру популяции по аутосомам (неполовым хромосомам). Поскольку мужчины имеют одну Х-хромосому, а женщины – две, то в популяции с одинаковым соотношением мужчин и женщин отношение Х-хромосомы к аутосомам должно быть ¾. Отклонение от этой цифры говорит о разной демографической истории по мужской и женской линиям. Такова логика, лежащая в основе метода исследования, подробнее с ним можно познакомиться в тексте статьи.

Авторы изучили опубликованные образцы древней ДНК раннего и позднего неолита и бронзового века, проанализировав более 1,2 млн SNP, в том числе без малого 50 тысяч SNP на Х-хромосоме. Исследуемые образцы относились к популяциям охотников-собирателей, земледельцев Анатолии и понто-каспийских степей.

 

new-1

Схематическая демографическая история земледельцев Центральной Европы в течение неолита и бронзового века.

 

В противоположность существующему мнению, результаты не подтвердили, что миграции в неолите из Анатолии в Европу были преимущественно мужскими. Анализ  показал примерно одинаковое соотношение мужского и женского населения среди мигрантов. А вот миграция из понто-каспийских степей в Центральную Европу в  течение позднего неолита и бронзового века , действительно, была преимущественно мужской: по подсчетам  среди мигрантов на 5-14 мужчин приходилась одна женщина. Авторы показали, что эта миграция была растянута по времени на несколько поколений. В соответствии со своим мужским характером, именно она принесла в Европу технологические инновации.

 

new-2

Доли мужского (синие стрелки) и женского (розовые стрелки) населения в составе неолитической и степной миграций.

 

«Ледниковый период в Европе и изучение останков древнего человека на территории России»

Лекция Йоханнеса Краузе  (Johannes Krause) «Ледниковый период в Европе и изучение останков древнего человека на территории России» состоится в рамках Фестиваля науки

8 октября 2016  в  Шуваловском корпусе МГУ, аудитория «В4» 

12.45-13.45

Йоханнес Краузе  — профессор археологии и палеогенетики,  директор Института наук об истории человека Общества Макса Планка (Max Planck Institute for the Science of Human History) в Йене.

программу Фестиваля науки 7-9 октября можно скачать здесь  program-2016

«МОСКВА, 10 окт – РИА Новости. Известный палеогенетик Йоханнес Краузе рассказал РИА «Новости» о том, почему ученые сегодня считают степи Прикаспия родиной народов Европы, поделился мыслями о причинах почти полного вымирания Европы в конце ледникового периода, а также порассуждал о перспективе «воскрешения» средневековой чумы.

Йоханнес Краузе, палеогенетик из Института истории человека в Йене (Германия) – один из самых известных «некромантов» современности, которому удалось за последние несколько лет восстановить и изучить геномы средневековых возбудителей чумы и проказы, раскрыть тайны миграций и вымирания первых жителей Земли.

Кроме того, он обнаружил, что в конце ледникового периода фактически вся Европа вымерла и была заново заселена «северными евразийцами», поселенцами с юга России, а также нашел однозначные генетические свидетельства того, что неандертальцы были каннибалами. Обо всем этом Краузе рассказал на лекции в МГУ имени М.В. Ломоносова, которая проводилась в рамках всероссийского фестиваля Наука 0+.

— Йоханнес, недавно вы выяснили, что почти все первые жители Европы вымерли и не оставили следов в ДНК современного населения субконтинента. В чем могли быть причины такой катастрофы, вызвали ли ее болезни или климат?

— Сам по себе ледниковый период был периодом масштабных климатических изменений. Поэтому мы собственно и называем его ледниковым периодом – температуры упали на 10 градусов Цельсия, и большая часть Европы была покрыта льдом во время последнего ледникового максимума, 20 тысяч лет назад.

В то время, по сути, в Центральной Европе было невозможно жить – она представляла собой области вечной мерзлоты, покрытые тундрой и льдами.

Череп кроманьонца из Чехии
Генетики: в конце ледникового периода почти вся Европа вымерла

Поэтому то, что в то время местное население полностью вымерло и было замещено новой группой людей, никого не должно удивлять. Поэтому я считаю, что болезни, в том числе и чума, вряд ли могли вызвать это вымирание, а климатические изменения – вполне могли это сделать.— Вы и ваш коллега Дэвид Рейчпоказали в недавнем прошлом, что Европа была заселена несколькими волнами мигрантов, которых было или три, или четыре. Сколько их было на самом деле?

— На текущий момент у нас есть сведения о том, что первые люди появились в Европе примерно 40 тысяч лет назад. Следы этой популяции людей были найдены в Румынии в виде скелета одного человека, а также останками еще одного древнего кроманьонца, которые были открыты в окрестностях Омска, в Усть-Ишиме. Они являются на сегодняшний день древнейшими останками человека современного типа за пределами Африки.

Оба этих человека принадлежали к особой популяции древних людей, следов которых вообще не осталось в нашей ДНК. Иными словами, они не были предками современных жителей Азии и Европы. Их популяцию можно назвать первой провалившейся попыткой колонизовать мир за пределами Африки.

За ними следовали люди, подобные тем, чьи останки были найдены в окрестностях деревни Костенки в Воронежской области. Их следы уже можно заметить в ДНК последующих групп древних людей.

Реконструкция облика члена ямной культуры Прикаспя
Генетики нашли новые доказательства каспийских корней индоевропейцев

Со времени жизни людей в Костенках и до конца ледникового периода, который завершился примерно 15 тысяч лет назад, в генетике Европы почти ничего не поменялось. Примерно 14 тысяч лет назад в Европу проникли первые мигранты с Ближнего Востока, и затем, около 7-8 тысяч лет назад, произошла вторая волна ближневосточной миграции, принесшая с собой фермерское искусство. И последняя волна миграции, самая масштабная из них, произошла примерно пять тысяч лет назад, когда Европа была заселена жителями прикаспийских и причерноморских степей.

Проблема, на самом деле, не в подсчете волн миграции, а в самом термине. Под миграцией мы обычно понимаем перемещение больших групп людей, условно говоря, из точки А в точку Б. С другой стороны, в реальности могли происходить не массовые миграции, а просто медленная экспансия новых групп людей, распространявшихся по Европе со скоростью, скажем, пять километров в год. Поэтому нельзя говорить о том, что древние люди в один момент вдруг сказали «мы покидаем Россию, едем в Европу», собрали вещи и поехали – этот процесс мог протекать органично и незаметно для коренных жителей субконтинента, постепенно замещая их благодаря большему числу потомства и другим факторам. Мне кажется, именно так нужно думать, когда мы рассуждаем о волнах миграции в прошлом.»

 

Формальный анализ модели смешивания предковых популяций: белорусы

Перед подготовкой релиза новых калькуляторов K16 и K11 на Gedmatch, я решил провести пилотный (пробный) анализ референсной популяции белорусов (в которую входят публичные образцы из  базы данных HumanOrigin, EGDP новой панели референсных геномов Эстонского биоцентра, а также данные белорусов — участников моего проекта MDLP). Основным инструментом формального анализа надежности модели будет известный и популярный пакет Admixtools.
Перед тем, как дать краткое описание первых шагов, хочу отметить трудности работы с Admixtools — в первую очередь, крайнее низкую степень документированности (описания) практических аспектов работы большинства входящих в пакет инструментов. Данное обстоятельство существенным образом снижает темп изучения этого все более популярного пакета (с другой стороны, похоже что лаконичность изложения задумывалась изначально, для отсеивания слабо мотивированных дилетантов-любителей). Второе обстоятельство, затрудняющее использование Admixtools, заключается в необходимости компилировать отдельные компоненты пакета.

Пакет содержит шесть программ

 

convertf: программа конвертирования форматов
qp3Pop: формальный анализ сигнала "смешивания" в трех популяциях
qpBound: программа, вычисляющая верхнюю и нижнюю границу смешивания в трех популяциях (2 референсные популяции и 1 одна популяция, предположительно образованная за счет смешивания двух референсных популяций) 
qpDstat: формальный анализ "адмикса" в 4 популяциях
qpF4Ratio: программа для определения пропорций адмикса за счет проведения 2 f4-тестов
rolloff:  программа датировки адмикса.

В приницпе, четкого порядка работы с этими программами нет, однако авторы рекомендуют следовать приведенному списку (т.е. начинать с qp3Pop и заканчивать rolloff)

Outgroup-статистика f3 является крайне полезным аналитическим инструментом для понимания взаимных отношений разных популяций: основная задача теста состоит в определении характера этих отношений. Образована ли целевая популяция (target) за счет смешивания двух рефересных популяций, или же  популяции представляют собой две простые ветви популяционного дерева человечества (т.е. в образовании таргетной популяций не участвовали референсные популяции)

Статистика f3, так же, как два других вида статистик — f4 и f2 — представляют собой меру корреляции частот аллелей между рассматриваемыми популяциями. Все эти виды статистик были введены в научный оборот попгенетики биоинформатиком Ником Паттерсоном в статье 2012 года.

Статистика f3 используется в двух целях:

  1. в качестве теста  сигнала «адмикса» двух популяций-источников (A и B) в «целевой популяции» (С)
  2. для измерения общего разделяемого дрейфа двух тестовых популяций  (А и В) по отношению к  внешней группе (С).


В этой публикации я приведу пример первого случая использования. Статистика f3 в обоих случаях определяется как произведение разниц частот аллелей  между популяции C, А и В, соответственно:

  1. F3=<(c-a)(c-b)>

Итак, первый случай употребления (для определения сигнала смешивания), белорусы выступают в качестве тестовой популяции, две референсные популяции образованы пермутацией имеющихся у меня популяций

Итак, промежуточные результаты (я выбрал только комбинации с негативным значением Z, свидетельствующие о сигнале смешивания) :

Следующий тип статистики — f4, — реализован в программе qpDstat в виде D-статистки. Это формальный тест адмикса четырех групп (таксонов или популяций), позволяющий определить направления потока вливания генов. Немного теории:

Для любых 4-х популяций (W, X, Y, Z), qpDstat вычисляет D-статистику следующего вида

num = (w — х) (у — z)
den = (w + х — 2wx) (у + z — 2yz)

D = num / den

Результат qpDstat показывает направления вливания генов. Таким образом, для 4 групп (W, X, Y, Z) верно следующее положение:

Если значение Z положительное ( + ), то обмен генами происходил либо между W и Y, либо между X и Z
Если значение Z отрицательное (-), то обмен генами происходил либо между W и Z,  либо между X и Y.

 Кроме определения направления генного дрейфа, очень важным практическим применением D-статистики служит определения «левых» и «правых» популяций для теста qpAdm (о нем чуть позднее). Так, например,  комбинация из двух первых популяций left {L,L}  и двух правых популяций {R, R} должна быть выбрана таким образом, чтобы значение Z в D-статистике
a) было неотрицательным, и b) имело высокое абсолютное значения.  Я решил последовать совету и сгенерировал 225822 комбинаций из четырех популяций {W,Y,X,Z}, где W — фиксированная первая таргетная популяция «левого» списка, в нашем случае белорусы, Y — одна из имеющихся групп палеогеномов, X и Z — пермутация из 16 «чистых» современных популяций описанных в работе Lazaridis et al. 2016.

Итак, вот результаты (и снова я не привожу полный список, а только те комбинации, которые могут быть использованы для выбора состава «левых» и «правых» популяций.  и последующего моделирования в qpAdm):

Этюд на тему ДНК-генеалогия.

Мой блог посвящен преимущественно тематике аутосомной ДНК, однако время от времени я затрагиваю тему однородительских маркеров происхождения (Y-ДНК и митоДНК).  Начну заметку издалека.
Среди обывателей села Стахова бытует легенда, о том, что род Вереничей пришли на земли пинского Полесья из Югославии.К сожалению, как и в большинстве подобных легенд, cовершено невозможно разобраться в том, где правда, а где позднейшие выдумки. Так и в этом случае. Ни в одном из имеющихся e меня исторических документах нет даже и намека на балканское происхождение Вереничей. Даже в самых ранних документах (например, в «Ревизии пущ и переходов звериных в бывшем Великом княжестве Литовском с присовокуплением грамот и привилегий на входы в пущи и на земли, составленной старостою мстибоговским Григорием Богдановичем Воловичем в 1559 г. «, или в «Писцовой книге Пинского староства Лаврина Воина, 1561—66«) уже видно, что даже в то время род Вереничей на Полесье считался «издавним«.



Так в ревизии Воловича (1559 года) читаем, что

«Павел Веренич на дворище у Стохови жъ не покладалъ листовъ, только давность, и на другое дворище у Дубой».


Слово давность означает существование в течение долгого времени, издревле, искони. Происходящие от корня этого слова прилагательные и наречия попадаются в разных актах с конца XIII века. Как юридический термин существительное <давность> употреблялось уже весьма рано в западнорусском законодательстве; собственно же в России оно появляется в виде термина лишь с XVIII века. Выражение земская давность было юридическим термином в Литовском Статуте, из которого заимствовано русским законодательство.

 



В строго юридическом смысле срок давности владения определялся десятью годами. Впрочем, здесь давность может употребляться в другом значении. Так, в актовых материалах все той же «Ревизии пущ и переходов звериных в бывшем Великом княжестве Литовском с присовокуплением грамот и привилеев на входы в пущи и на земли, составленная старостою мстибогским Григорием Богдановичем Воловичем» в числе прочих землевладельцев Пинского повета упомянуты Грынь Веренич с братом Павлом «с имений своих стародавних [т.е. с незапамятных времен] военную службу служащих«. Судя по этому, Вереничи могли появится в Стахове уже в середине 15 века, если не раньше.
Когда, откуда, и при каких обстоятельствах — обо всем этом известные мне историко-юридические источники умалчивают. Более поздние документы не только не дают ответа на эти вопросы, а скорее еще больше запутывают ситуацию. Так например в «Выводе фамилии урожденных Стаховских придомка Веренич» (Год 1802 Месяца ноября двадцать второго дня на на сессии Депутации выводовой Губернии Минской) читаем следущее:

«Принесена была просьба от фамилии древней родовитой панской шляхты урождённых Вереничей Стаховских герба “Огончик” (пол-стрелы белой на половине перстня стоящей, в поле красном, над шлемом две женские руки вытянутые вверх) которая на наследственных землях и осадах в повете пинском лежащих от найяснейшых времён королевства Польского, прерогативами шляхетства пользовалась, и клейнотом родовитости неискаженно и непрерывно пользовались. [стр. 616] В потверждение указов найяснейшей воли – линия родословной своей вместе с документами перед депутацией выводовой губернии Минской составлена, потверждена доводами и внесена в дворянские книги Минской губернии в соответстии с законом.Родословие своего дома разделили на две линии. Дух родных братьев Семена и Дмитрия Вереничей Стаховских за родоначальников взяли, и от них до себя довели. И правдивость этого они через доказательства и документы следующим порядком довели. Семен и Дмитрий Вереничи Стаховские братья между собой родные. В повете Пинском осели и дали начало своему роду и фамилии. И в подтверждение своего первого поколения они предъявили привилегию от наияснейшего короля польского Сигизмунда Августа за год тысяча пятьсот шестьдесят шестой от июня двадцатого дня где, между другими для шляхты пинской пожалованиями за военную службу выше упомянутым Семену и Дмитрию Вереничам Стаховским земли в наследственное владение в повете Пинском лежащими дворища Веренича в Стахове и Дубой называющееся им и потомкам их пожаловал…»

Содержание начала текста весьма типично для подобных документов, но здесь нет сведений о точном времени появления Вереничей в Стахове, не говоря уже о явных хронологических несуразицах, которые я разбирал в другой заметке.

  1. Во-первых, под «привелем» 1566 года понимается общий «привилей» Сигизмунда-Августа, данные всей пинской шляхте в подтверждение их землевладельческих и шляхецких прав.
  2. Во-вторых, Семен и Дмитрий жили не в 1566 году, а как минимум на сто лет раньше — около 1456-1466 годов. В доказательство верности моих вычислений можно привести следующие аргументы. В решении судей Главного Трибунала ВКЛ от 1637 года упоминается о привелее кн. Марии Семеновны (+1501) ( в документе ошибочно указано Ярославовны) и ее сына кн. Василия Семеновича (+1495) от 6998 года индикта 8 (1490 года согласно современному летоисчислению), в котором подтверждается совместное владение Волошиным (sic!) Павлом и Ходором Вереничами даниной своей бабки в селе Тупчицы, Согласно родословной, Павел — сын Дмитрия и племянник Семена. В следующем по времени привилее кн. Федора Ивановича Ярославича от 26 апреля 1514 данном дочерям Антона (Андрей?) Дмитриевича Веренича потдверждается их вотчинное права на земли пожалованные их отцу в Стахове, Дубое и Тупчицах. Очевидно, Антон(или Андрей) — тоже сын Дмитрия, и более того, в 1514 году его дочери были уже совершеннолетними.
  3. В-третьих, в переписе войска литовского 1528 года упомянут пинский боярин Верениш (sic!), который служил «сам со своего имения». Далее, из судебного дела от 26 марта 1543 года по иску Пашки Павлова и его братьи Игнатия и Гаврила к Ваське Лозичу, который унаследовал по своей жене Ульяне Лукашевичевой Веренич часть имений Дубой и Стахово. мы узнаем, что в 1543 году внуки Дмитрия (Пашко Павлович и его двоюродные братья Гавриил и Игнат Васильевич) были уже взрослыми, так же как и покойная Ульяна Лукьяновна (дочь Лукьяна Семеновича, внучка Семена Веренича), после смерти которой третья часть дворища Веренич в Дубое и дворища Веренич в Стахово перешла к Ваське Лозичу.

 



Далее, в 1554 году — за 12 лет до указанной в привелее даты — в материалах, собранных в ходе ревизии пущ и переходов лесных -упомянуются Грынь Веренич с (троюродным) братом Павлом с имений своих стародавных военную службу служащих. Как известно, Грынь — внук Семена, а Павел или Пашко — внук Дмитрия. О самих Семене и Дмитрии ни слова, хотя если бы они жили в это время, то скорее всего именно они или их сыновья были бы записаны как старшие в своем роду, но никак не их внуки.В 1559 году, по все той же ревизии Воловича, в числе земян Стаховских опять упоминается Павел Веренич, правда, уже без Гриня. В тексте четко сказано, что Павел не покладал листов (т.е. не предъявил привелея), только давность на дворище у Стахова и другое дворище у Дубоя. Поскольку большую часть книги Воловича составляют привелеи, выданные или подтвержденные королевой Боной, следовательно, от Боны Вереничи привлеев не получали, по крайней мере, на земли в Дубое и Стахове.Все вышесказанное означает, что уже задолго до 1566 года Вереничи владели своими дворищами и землями на основании вотчинного права, и что феодальные права Вереничей на эти земли восходят — как минимум -временам кн. Марии Семеновны и ее сына Василия (то есть к периду между 1475-1490 гг).


Реконструкция позволяет очертить интервал появления Вереничей в Стахове — но с обстоятельствами появления по-прежнему нет никакой ясности. Поскольку скудные исторические свидетельства обходят  этот вопрос сторонй, то можно обратиться к преданиями. Среди старожилов села Стахова якобы сохранилось следующее якобы древнее предание:


Когда-то, давным-давно, жил на Полесье князь Карачинский (sic!). В его владениях находился большой дремучий бор, около которого проходил торговый шлях. По прошествии времени, в этом бору поселилось 100 половцев, которые совершали нападения на проезжающих купцов и селян. Князь, прослышав о разбойниках, повелел своим «палявничим» (охотникам) узнать, где находится разбойничье логово. Один из охотников решил проследить путь до логово половцев и стал делать топором зарубки на деревьях. Услышав стук топора, войны князя отправились в сторону, где раздавалось эхо стука топора. Таким образом, они вышли прямиком на логово разбойников и истребили их. В награду за верную службу, князь наградил находчивого охотника землям, где находился стан половцев. Охотник постоянно носил с собой «Ксендз Лаврентий Янович, каноник венденский, в своей речи на погребении Элжбеты с Стаховских Каренжины, жены вилькомирского судьи, изданной в сборнике «Золотой улов на реках и водах смертности сего мира и т.д» (Вильно 1665 г.) размещает следущее предание, относящиеся к истории Стахова.: «Князь Карачевский, владелец обширных волостей, лежащих на Пинщине, крайне скудными силами 100 половцев положил трупами и на там же месте похоронил, как и по ныне свидетельсвтуют о том курганы того места. За это мужесто правящий князь ему отдал в удел это поле, а также столько земли, сколько мог объять звонкий звук трубы. Отсель то земельное надание стало называтся Стоховым, потому что там похоронено сто убитых врагов.» (веренька, вярэнька), и поэтому его прозвали Веренькой. Его потомки приняли прозвище родоначальника в качестве фамилии.


К сожалению, изучение этого предания показывает его недавнее происхождение. Скорее всего, оно выписано из 9-го тома «Полного географического описания нашего отечества» изданного в 1905 году В.П.Семеновым-Тян-Шанским , куда, в свою очередь перекочевало из известного издания «Słownik geograficzny Królestwa Polskiego» изданного в 1880–1902 гг., а именно из 11 тома, в котором на стр.171-172 была размещена довольно объемная статья Александра Ельского и Эдварда Руликовского о Стахове. Именно с подачи Руликовского в этой статье была размещена выписка из издания 17 века:

«Ксендз Лаврентий Янович, каноник венденский, в своей речи на погребении Элжбеты с Стаховских Каренжины, жены вилькомирского судьи, изданной в сборнике «Золотой улов на реках и водах смертности сего мира и т.д» (Вильно 1665 г.) размещает следущее предание, относящиеся к истории Стахова: «Князь Карачевский, владелец обширных волостей, лежащих на Пинщине, крайне скудными силами 100 половцев положил трупами и на там же месте похоронил, как и по ныне свидетельствуют о том курганы того места. За это мужесто правящий князь ему отдал в удел это поле, а также столько земли, сколько мог объять звонкий звук трубы. Отсель то земельное надание стало называтся Стоховым, потому что там похоронено сто убитых врагов.»

 


В приведенном отрывке приводится родословное предание рода Стаховских герба Огоньчик, (проживавшего в мстиславском, виленском, новогрудском и пр. воеводствах ВКЛ), генеалогическая связь которого с Вереничами пока никак не проясняется. Главным фигурантом здесь выступает князь Карачевский (которого, видимо, Cтаховские считали своим предком), а вовсе не «охотник с сумкой из бересты». Можно с уверенностью сказать, что «легенда старожилов» Стахова появилась самое ранее в начале 20 века в среде «грамотеев» села Стахове как результат переосмысления текста статьи их энциклопедического справочника,  а затем объединения легенды об основании Стахова с народной этимологии фамилии Веренич.



Итак, и этот источник не дал нам ничего ценного. Поскольку возможности документальной генеалогии на этом этапе практически исчерпываются (и открытие новых источников вряд ли предвидится), остается обратится к новой отрасли — ДНК-генеалогии.

Генетическая генеалогия использует ДНК-тесты совместно с традиционными генеалогическими методами исследования. Каждый человек несёт в себе своего рода «биологический документ», который не может быть утерян — это ДНК человека. Методы генетической генеалогии позволяют получить доступ к той части ДНК, которая передаётся неизменной от отца к сыну по прямой мужской линии — Y-хромосоме. ДНК-тест Y-хромосомы позволяет, например, двум мужчинам определить, разделяют ли они общего предка по мужской линии или нет. ДНК-тесты не просто помощь в генеалогических исследованиях — это современный передовой инструмент, который генеалоги могут использовать для того, чтобы установить или опровергнуть родственные связи между несколькими людьми.

Итак, в 2008 году узнал свою Y-хромосомную гаплогруппу (I2a). Немного терминологии для читателей, далеких от науки:

Гаплогруппа (в популяционной генетике человека — науке, изучающей генетическую историю человечества) — группа схожих гаплотипов, имеющих общего предка, у которого в обоих гаплотипах имела место одна и та же мутация — однонуклеотидный полиморфизм.

 

 

Позднее протестировались еще 2 Веренича, и наши гаплогруппы совпали, что подтверждается достоверность официальной родословной. Казалось бы, после всех усилий, можно было бы легко определить ареал, откуда появились предки Вереничей (очевидно, что это ареал с наибольшей частотой или наибольшим разнообразием гаплогруппы I2a). На поверку же все оказалось гораздо сложнее. Географический ареал гаплогруппы I2a (вернее ее восточноевропейской, «динарской» ветви) характеризуется бимодальным распределением — в восточной Европе они приходятся на регион Полесье-Карпаты и на регион Балкан (с макисмальной частотой в Боснии-Герцеговине).

По иронии cудьбы, именно с этими двумя регионами связаны две наиболее вероятные версии происхождения Вереничей. Таким образом, знание одной лишь корневой гаплогруппы мне, по большому счету, не помогло ни подтвердить, ни опровергнуть одну из этих альтернативных версий.

Тупиковая ситуация изменилась лишь после того, как один из Вереничей сделал полный сиквенс Y-хромосомы (BigY в FTDNA). Благодаря ему удалось достаточно точно позиционировать расположение нашей ветви-кластера внутри общей структуры филогенетического дерева I2a.Благодаря присутствию Y-хромосомного сиквенса (YF03602) представителя рода Вереничей в базе данных yfull.com (спасибо за помощь Vladimir Semargl и Vadim Urasin) представляется возможным оценить возраст моего кластера. На настоящий момент в него входит еще один полный сиквенс Y-хромосомы (YF04188), о хозяине которого мне ничего неизвестно.

Возраст линии Вереничей оценивается в 1438 лет до настоящего времени, линии YF04188 — всего лишь в 546 лет.По расчету снип-мутаций возраст I-Y17665 (и возможно I-A7318) оценивается примерно в 1000 лет (т.е. временами Киевской Руси), а возраст родительской ветви A1328 в 1850 лет до настоящего времени (начало нашей эры). Возраст, определенный по снипам, указывает на время выделения ветви I-A1328, хотя возраст последнего общего предка (определенный по значениям других маркеров Y-хромосомы) чуть ниже -1400 лет (т. е примерно 5-6 века нашей эры). То есть ветвь моих прямых предков в это время прошла пресловутое бутылочное горлышко, сопровождаемое, как правило, падением числа представителей линии и уменьшением разнообразия.

Здесь начинается самое интересное.



Недавно, зайдя на сайт проекта I2a в FTDNA, я обнаружил результаты некоего Враньешевич из Черногории. Я бы не обратил на него внимание, если бы он не попал в тот же кластер, что и я (в этот кластер входит ветвь Вереничей, гаплогруппа (I2-A7318, т.е подветвь I-A1328)).Я решил рассчитать возраст I-A1328 с помощью калькулятора semargl.me и стандартных для набора 37 маркеров скорости мутации. К сожалению, в базе данных Semargl немного гаплотипов из конкретно моего кластера и ближайщих к нему братских кластеров. В общем возраст, по ASD методу получилось что возраст моего кластераI (Y17665) — 1050 лет, а при подключении (в качестве outgroup) гаплотипа из I-A1328* возраст кластера I-A1328* составил примерно 1850 лет. То есть, это верхний интервал временного промежутка, когда мог жить последний мой общий предок (MRCA) и Враньешевича.

I2a2 ‘Dinaric’ ..L621>CTS10228>S17250>Y4882>A1328>A7318 (I-A7318)

568 362501 Verenich Werenicz,Werenich,Verenich,Werenitz,Stachowski. Belarus I-A7318

I2a2 ‘Dinaric’ ..L621>CTS10228>S17250>Y4882>A1328 (I-A1328)
564 E13120 Vranjesevic Vranjesevic Milan-Mico, birth 1913, death 1992 Bosnia and Herzegovina I-A1328


Нижний интервал можно определить с помощью калькулятора McDonald. Для вычисления дистанции в годах я сравнил значения 67-маркерного гаплотипа одного из Вереничей с аналогичными маркерами гаплотипа Враньешевича. 10 маркеров имеют другое значения. Получается разница в 10 маркеров на 67 маркерных гаплотипах.

Generations Probability Cumulative
1 0.000000 0.000
2 0.000000 0.000
3 0.000000 0.000
4 0.000004 0.000
5 0.000022 0.000
6 0.000091 0.000
7 0.000279 0.000
8 0.000699 0.001
9 0.001495 0.003
10 0.002825 0.005
11 0.004827 0.010
12 0.007592 0.018
13 0.011137 0.029
14 0.015396 0.044
15 0.020223 0.065
16 0.025408 0.090
17 0.030697 0.121
18 0.035824 0.157
19 0.040537 0.197
20 0.044616 0.242
21 0.047893 0.290
22 0.050258 0.340
23 0.051662 0.391
24 0.052111 0.444
25 0.051660 0.495
26 0.050401 0.546
27 0.048451 0.594
28 0.045943 0.640
29 0.043014 0.683
30 0.039796 0.723
31 0.036412 0.759
32 0.032973 0.792
33 0.029568 0.822
34 0.026274 0.848
35 0.023146 0.871
36 0.020225 0.891
37 0.017537 0.909
38 0.015097 0.924
39 0.012906 0.937
40 0.010961 0.948
41 0.009252 0.957

 

14202591_10210357856572557_5019604267960638228_n-1 14199500_10210357943174722_1769976137139415870_n

Пик гистограммы приходится на интервал между 21-30 поколениями, начиная с 26 поколения кумулятивная вероятность родства достигает убедительных значений достигая 0.95 в 41 поколении. Т.е. нижняя граница приходится примерно интервал в 600-1025 лет до настоящего времени — другими словами между 15 и 10 веками нашей эры.

Разумеется, c генеалогической точки зрения, исследование нижнего интервала (с общим предков в 14-15 веках нашей веры) более перспективен, тем более что я проследил свою прямую мужскую линию до 19 поколения.

Но насколько возможен факт наличия общего прямого мужского предка белоруса и черногорца в 21-30 поколениях? Дает ли генеалогия Вереничей предпосылки для такого утверждения? Прямых предпосылок, разумеется, нет.


Зато есть соображение ономастического характера. Один из сыновей второго родоночальника — Дмитра — Василь носил прозвище Волошин — так обычно в русских землях называли валахов, хотя часто прозвище Волошин не имело этнической коннотации и могло выступать в качестве отыменного прозвища: например, Володшин cын -> Волошин или Власий -> Волос -> Волошин. Наконец, составитель документа или переписчик мог сделать обычную описку. Впрочем, последнее опровергает существование 2 топонимов в окрестностях Стахова — урочища и острова Волошиново — причем именно там находились в 16-17 веках владения потомков Дмитра Веренича (старшим сыном которого являлся Василь Волошин). Кстати, любопытно отметить, что иногда в документах 16 века фамилия Веренич записывается не с окончанием —ч, а с более традиционным для южных славян окончанием — ш (Верениш)

А как же тогда быть с Вранешьевичем? Какое отношение он может иметь к валахам?

Лет 8 тому назад я порылся в исторических документах и обнаружил, что похожая фамилия Вранчич (в хорватском произношении Веранчич) действительно существовала на территории так называемого царства Сербия. После фактического распада Сербского царства (около 1366-1371 года), часть Вранчичей переселилось в Южную Сербию и Черногорию (где потомок Вранчичей воевода Радич Црноевич основал династию Црноевичей, которая в 15 веке праваила Зетой и Черногорией), другая перешла на службу к усилившемуся после падения «црства Српскаго» боснийскому королю Стефану Твртко I, который в 1370 и 1389 годах принял титул короля сербов, Боснии (1379) , Далмации и Хорватии (1389). Эти боснийские Вранчичи после падения Боснии (1463 год) под ударами турков частью переселились в Далмацию (г.Шибеник), которая с1420 была под венецианским владычеством, другая переселилась на границу Герцеговины и Черногории, где владели под турками «хематом» Вранеш, названого так в честь «валашского» князя Херака Вранеша (Вранеш — это герцеговинское диалектное видоизменение имени Вранчич).»Из возможных потомков Вранчичей, оставшихся в восточной Боснии и Герцеговине, особого внимания заслуживает «влашский» (sic!) кнез Херак (Владиславич?) Враньеш.

Казалось бы, вышеприведенные рассуждения выглядят убедительно. На самом же деле, остается главная проблема — дело в том, что фактически на протяжении 14-17 веков неизвестно никаких миграций жителей Балкан и влахов на территорию Полесья. Да, действительно была т.н. валашская колонизация, но она затрагивала главным образом территорию юго-западной Украины (прежде всего «червонной Руси» и «любельской земли», т.е. земли вокруг Львова, Звенигорода, Галича, Теребовля, Санока, Кросно, Белза, Замосця, Холма (Хелма). Причем интенсивность расселения «валахов» даже в этих регионах резко уменьшалось по мере продвижения на север (см. приложенную ниже карту).

14212036_10210384176630542_5840107323456791924_n

Например, на ближайшей к Полесью Волыни встречаются лишь фрагментарные упоминания бояр «Волошинов» в документах Метрики Литовской начала 16 века — они касаются пожалования земель в кременецком повете, т.е на рубеже ВКЛ и русского воеводства короны Польской (причем многие из этих «волошинов» носят чисто румынские имена Негое, Урсул и так далее). Такой же фрагментарный характер носят и земельные пожалования «волошинам» и на Подолье. И уж совсем единичные упоминания Волошинов мы находим в документах Метрики Литовской, касающихся земель современной Беларуси. Правда, на Брестчине одна семья «волошинов» — Ходько, Зань и Васько — получила в начале 16 века привелей на имение Чернско (от них происходит род Черских в брестском воеводстве, который вымер в 17 веке).

Размышления над эффективностью алгоритма SPA

Перед тем,  как закрыть тему SPA, я решил поразмышлять о причинах неточности определения географического ареала происхождения с помощью генома. Те, кто воспользовался моей моделью для программы SPA (последняя версия — сентябрь 2016 года), могли убедится в том, что даже при наличии большого количества маркеров, модель не во всех случаях точно определяет ареал происхождения (даже с поправкой на погрешность радиусом в 500 км).
В основу алгоритма SPA положены примерно те же самые предпосылки, что и в случае с классическим анализом главных компонент (PCA)

  • Первая предпосылка  подхода SPA состоит в том, что частота аллели каждого SNP в популяции может быть смоделирована в виде непрерывной двумерной функции на карте. Другими словами, при выборе хромосомы индивидуума из локации с позицией (х, у) на карте, вероятность наблюдения минорного аллеля в SNP j на хромосоме может быть сформулирована в виде функции F (х, у), где Fj является непрерывной функцией, описывающей поведение частоты аллеля в зависимости от географического положения
  • Затем на основании сказанного делается упрощающее предположение, что эта функция является экземпляром логистической функции

 

где х представляет собой вектор переменных, указывающих географическое местоположение и а и Ь коэффициенты функции. Авторы понимают каждую из этих функций, как функцию FJ функции наклона градиента частота в SNP J. Эта функция кодирует крутизну склона по норме а, при этом предпологается что смещение параметра b фиксировано. Кроме того, направленность наклона  кодируется в значении вектора а.  Более подробно, θj = арктангенс (aj(1) / aj(2)) могут быть приняты в знчения угла для SNP j, где aj(1)  и aj(2)  являются первым и вторым элементами вектора а.

Поскольку SPA имеет явные географические координаты, подход может быть расширен для систем за пределами обычной картезианской двумерной плоскости координат. В качестве демонстрации этого, авторы программы SPA использовали алгоритм для анализа пространственной структуры населения земного шара, в которой двухмерное отображение на двухмерной плоскости не может точно фиксировать структуру популяции. Таким образом, каждый индивид проецируется на точку земного шара в трехмерном пространстве. Соответственно, авторы использовали трехмерный вектор х (с ограничением || х || равным определенной константе), чтобы представить индивидуальную позицию.

Используя данные (генотипы индивидов из различных популяций из  HGDP), авторы обнаружили что пространственная топология расположения индивидов в пространстве SPA мы наблюдали, что сильно напоминала топологию географической карту мира. В частности, люди из того же континента были сгруппированы вместе, а континенты были разделены примерно так, как это следовало бы ожидать из пространственного расположения.

ng-2285-f3

 

Главная проблема метода состояла в другом. Несмотря на точность топологии взаимного расположения индивидов,  на карте SPA сильно искажены расстояния между континентами.

Например, продольный размер континента Евразии составил 92 градусов в  SPA-пространстве земного шара, в то время как в пространстве реального земного шара — 150 градусов. Продольное расстояние между Европой и Северной Америкой составило 167 градусов на SPA карте земного шара, в то время как на самом деле оно составляет 90 градусов.  Любопытно отметить, что мой опыт работы с этой программы показал, что наибольшую проблему составляют географические координаты долготы, в то время как широты предсказываются довольно точно. То есть по какой-то причине (несимметричность генетических градиентов в направлении север-юг и направлении восток-запад?) пространство SPA очень сильно искажается в продольном измерении (т.е в долготу).
По этой причине, вычисленные географические точки происхождения для европейцев часто оказываются в Атлантическом океана и так далее.

Я решил использовать данные импутированных генотипов для европейских популяций (я занимался их импутацией на протяжении последнего полгода). На этот раз я ограничился только европейскими популяциями. Я  сделал два разных набора с разным числом снипов — один с 1 062 376 снипами, которые содержатся в платформах генотиприрования клиентов 23andme и FTDNA, другой — примерно 590 395 снипов.  Обе модели можно скачать с Google Drive  (здесь и здесь).

Несмотря на тщательный подбор снипов, обе модели продолжают страдать характерным сдвигом географических долгот, а это означает, что данная проблема обусловлена не выборкой генотипов, а самим алгоритмом программы (т.е. улучшение качества выборки или увеличение количества снипов не приводит к повышению точности даже в том случае, если мы используем для тренировки программы на обучающей выборке  индивидов с известной географической локацией).

Это хорошо видно на полученных в ходе анализа моих собственных данных географических координатах 2 точек происхождения (одна из них в Гренландии,  другая в Средиземном море)

untitled

Разумеется, вряд ли можно говорить о точности подобных вычислений. В ходе размышлений над способом решения проблемы я вспомнил о существовании ортогонального прокрустового анализа.

Я взял две матрицы — одну с географическими координатами (фактически центроиды — географические центры стран) и  вторую с предсказанными  (в модели 1M cнипов) величинами географических координат тех же самых образцов (с усредненными значениями по этносам), а затем совершил прокрустово преобразование в программе R, получив новую матрицу с преобразованными значениями координат. Ниже виден результат операции (преобразованные усредненные координаты образцов спроецированы вместе с центроидами на карту Европы). И хотя координаты по-прежнему немного сдвинуты относительно истинных, в целом результат уже гораздо лучше (правдоподобнее).rplot14При проведении прокрустова анализа, кроме Xnew (трансформированной матрицы),  мы получили значения матрицы вращения R, s- коэффициент масштабирования и tt — вектор трансляции координат, минимизирующие дистанцию между матрицей предсказанных координат и матрицей географических координат.

Эти значения можно использовать для коррекции значений географических координат, рассчитанных в SPA. Я снова использую свои данные (2 предсказанные точки географического происхождения Xp):


Xt=sRXp + 1tt


При подстановке Xp получаем следующие значения

точка A:  60.245448+-11.059673 северной широты;  21.394898 +- -5.979712  восточной долготы (северо-западная Балтика и Скандинавия)

точка B: 43.000748+-8.801889 северной широты;  20.725216+-52.159598 восточной долготы (юго-восточная Европа, Балканы и Греция).

 

 

 

 

 

SNPweights: использование модели калькулятора K16 для анализа главных компонентов происхождения

Ранее я уже отрапортовал о создании двух новых моделей для стандартного этно-популяционного калькулятора, в разработке которых использовались геномы людей, cамостоятельно указавшими свое происхождение (self-reported ancestry).
К сожалению, очень часто субъективная оценка собственного происхождения (указываемого респондентами в опросниках) недостаточно надежна для статистических методов анализа происхождения, поскольку некоторые люди либо сообщают ложные сведения о своей родословной или же просто не знают о своем истинном происхождении. Что еще хуже, — во многих публичных популяционных выборках мы не находим никаких  сведений о точном этническом составе людей в выборке . Как многие из вас знают,  существует множество способов достаточно точной оценки происхождения индивида на основе данных SNP генотипирования.

Самый простой способ сводится к следующему: сначала исследователь объединяет генотипы из своего исследования с генотипами образцов в референсной панели (например: HapMap или 1000 геномов),  затем находит пересечение SNP-ов в каждом наборе данных, а затем запускает программу кластеризации, чтобы увидеть, каким образом образцы исследования группируются с популяциями референсных панелей.  В принципе,  сам процесс несложный, но требует немало времени

К счастью, в 2014 году лабораторией Alkes была предложена программа которая, по сути, значительно облегчает процесс, выполняя большую часть работу за вас. Программа называется SNPWEIGHTS и можно скачать здесь.  Говоря простым языком, программа принимает  в качестве входных данных генотипы SNP-ов, самостоятельно находит пересечение генотипов SNP с генотипами в эталонной выборке , рассчитывает веса SNP-ов на основе предварительно настроенных параметров, чтобы построить первую пару главных компонентов (иначе говоря,  cобственных векторов), а затем вычисляет процентное значение происхождения индивидуума из каждой предковой популяции (кластера).

Для того, чтобы запустить программу, необходимо убедится в том, что в вашей системе установлен Python, и что ваши данные генотипирования приведены в формате EIGENSTRAT. Краткую инструкции по преобразованию в формат EIGENSTRAT с помощью инструмента convertf можно почитать здесь.  Данные аутосомного генотипирования FTDNA или 23andme можно напрямую преобразовать в формат EIGENSTRAT с помощью утилиты aconv от Феликса Чандракумара (либо любого самописного софта).

Затем необходимо загрузить сам пакет SNPWEIGHTS и референтную панель с весами снипов.

  • Панель весов SNP для популяций Европы и Западной Африки можно скачать здесь.
  • SNP веса для населения Европы, Западной Африки и  Восточной Азии можно скачать здесь.
  • SNP веса для населения Европы, Западной Африки, Восточной Азии и популяций американских индейцев можно скачать здесь.
  • SNP веса для популяций северо-западной, юго-восточной части Европы, ашкеназских евреев и можно скачать здесь.

Затем необходимо создать файл параметров par.SNPWEIGHTS с названиями входных файлов EIGENSTRAT, референтной панели, и файл c результатами. Например:

input_geno: data.geno
input_snp: data.snp
input_ind: data.ind
input_pop: CO
output: ancestry.txt

И, наконец, нужно запустиь программу с помощью команды inferancestry.py —par par.SNPWEIGHTS. Для того чтобы программа работала, убедитесь, что inferancestry.info и  файл референтной панели  находятся в том же каталоге, что и файл inferancestry.py.

Полученные результаты можно использовать для разных целей. Например,  можно сгенерировать два информативные графика.

Первый график — обычный график PCA c двумя первыми компонентами (собственными векторами) и наложенный на график процентный расклад компонентов происхождения:

Второй треугольный график, на каждом отрезке которого , представлен процентный вклад одной из трех исконных групп популяции (например: Европы, Африки и Азии, в случае с нашими данными этот пример можно заменить на европейских охотников-собирателей, земледельцев неолита и степных скотоводов эпохи бронзы).

Вот простой код генерирования этих графиков в R. В программе R нет базовых пакетов для построения триангулярных графиков, поэтому  нужно будет сначала установить пакет plotrix. Ancestry.txt  — это файл полученный на выходе из SNPWEIGHTS:

# EV Plot with Percent Ancestry Overlay
data=read.table("ancestry.txt", as.is=T, header=F)
names(data)
plot(data$EV1, data$EV2, pch=20, col="gray", xlab="EV1", ylab="EV2")
text(data$EV1, data$EV2,labels=round(data$EUR,2)100, cex=0.4, offset=0.1, pos=3)
text(data$EV1, data$EV2,labels=round(data$AFR,2)
100, cex=0.4, offset=0.1, pos=2)
text(data$EV1, data$EV2,labels=round(data$ASN,2)*100, cex=0.4, offset=0.1, pos=1)
#Triangle Plot
data$total=data$EUR+data$AFR+data$ASN # Need to account
data$European=data$EUR/data$total # for slight rounding
data$African=data$AFR/data$total # in the ancestry
data$Asian=data$ASN/data$total # estimation file for
data_p=data[c("European","Asian","African")] # triax.plot to work
library(plotrix)
triax.plot(data_p, pch=20, cc.axes=T, show.grid=T)

 

Разумеется, размещенные на сайте разработчика референтные панели носят ограниченный характер. Поэтому я решил заполнить пробелы, преобразовав аллельные частоты SNP-ов в 16 предковых компонентах в 16 синтетических «чистых» предковых популяций, каждая из которых состояла из 200 синтетических индивидов («симулянтов») состоящих на 100 процентов из одного компонента происхождения в модели K16). Файл с генотипами 3200 «симулянтов» я использовал для вычисления весов снипов в каждом компоненте. Продвинутые пользователи, желающие протестировать модель K16 до ее публичного релизма, могут скачать полученный файл с весами снипов  здесь, а затем, cледуя приведенным выше инструкциям, использовать его в качестве референтной панели (а затем сравнить свои результаты с усредненными результатами разных этнических популяций).

Я протестировал веса снипов в модели K16 (выражаю признательность автору программу Чену за помощь), и обнаружил, что между данными калькулятора и данными SNPWEIGHTS расхождения носят незначительный характер, хотя похоже, что SNPWEIGHTS не так сглаживает минорные компоненты происхождения (что позволяет легче выделить в пространстве главных компонент кластеры):

test (1)

Две новые модели для калькулятора DIYDodecad

Закончил на 99% подготовку 2 моделей этно-популяционных калькуляторов ДНК — заточенную под deep ancestry (анализ современных геномов с использование древних геномов) K11 и модель для анализа популяционного происхождения современных популяций K16.

 

В число 16 «предполагаемых предковых» популяций в K16 входят следующие выделенные группы:

Австрало-веддоидная
Палеолитические охотники-собиратели Кавказа
Американские аборигены
Охотники-собиратели скандинавского мезолита
Австронезийцы
Ближневосточные неолитические земледельцы
Сибирские аборигены
Ближне-восточные популяции
Североафриканские популяции
Популяции западной Африки
Северные популяции Индостана
Юго-восточноазиатские популяции
Восточные охотники-собиратели
Неолитическое население Европы
Восточно-африканские популяции
Западноевропейские охотники-собиратели

 

Таблица FST между компонентами K11 (FST — Индекс фиксации Райта Fst, отражающий меру дифференциации популяций)

Кластеризация компонентов модели K11 по степени дифференциации

Таблица FST между компонентами K16

Кластеризация компонентов модели K16 по степени дифференциации

 

На следующем PCA графике отображены 2 группы компонентов — предковые компоненты K16 (полученные в программе ADMIXTURE в ходе анализа современных популяций) и предковые компоненты K11 (они вычислены в той же программе, но на другой выборке аутентичных палеогеномов). Поскольку у пользователей подобных калькуляторов часто возникает вопрос о соотношении компонентов разных моделей калькуляторов, я решил разместить их на одном графике. Методология довольно проста. Сначала я сгенерировал в программе PLINK 220 «синтетических» геномов (20 индивидов в 11 группах). В основу положен предложенный Понтикосом метод популяционных «zombies», в котором используется частоты аллелей снипов, полученных в программе ADMIXTURE. Каждая из 11 групп состоит из 20 «индивидов», геном которых на 100% состоит из одного компонента.
То же самое я сделал с компонентами K16. Затем в целях изучения соотношения компонентов этих двух разных моделей, я пропустил «геномы синтетических индивидов» K16 через калькулятор K11. В итоге выяснилось, что только несколько компонентов K16 полностью совпадают с компонентами K11 (например, Amerindian и African). Остальные компоненты K16 разложились на комбинации компонентов K11. Этот простой эксперимент еще раз подтвердил очевидный факт: предковые компоненты ADMIXTURE, выявленные в ходе анализа современных популяций только в редких случаях соответствуют настоящим предковым компонентам. Большинство подобных компонентов возникают в результате сложного процесса фиксации аллельных частот, например в тех случаях, когда непосредственно после смешивания предковых групп разного происхождения происходит процесс генетического дрейфа. Закон Харди—Вайнберга утверждает, что в теоретической идеальной популяции распределение генов будет оставаться постоянным из поколения в поколение. Так, в популяции растений количество «внуков» с генами высокорослости будет ровно таким же, сколько было родителей с этим геном. Но в реальных популяциях дело обстоит иначе. Из-за случайных событий частота распределения генов из поколения в поколение несколько варьирует — это явление называется дрейфом генов. Рассмотрим крупную размножающуюся популяцию со строго определенным распределением аллелей. Представим, что по той или иной причине часть этой популяции отделяется и начинает формировать собственное сообщество. Распределение генов в субпопуляции может быть нехарактерным для более широкой группы, но с этого момента и впредь в субпопуляции будет наблюдаться именно такое, нехарактерное для нее распределение. Это явление называется эффектом основателя.Дрейф генов сходного типа можно наблюдать и на примере явления с запоминающимся названием эффект бутылочного горлышка. Если по какой-либо причине численность популяции резко уменьшится — под воздействием сил, не связанных с естественным отбором (например, в случае необычной засухи или непродолжительного увеличения численности хищников), быстро появившихся и затем исчезнувших, — то результатом будет случайное устранение большого числа индивидуумов. Как и в случае эффекта основателя, к тому времени, когда популяция вновь будет переживать расцвет, в ней будут гены, характерные для случайно выживших индивидуумов, а вовсе не для исходной популяции.

PCA correlation between K11 and K16 components Вот эта таблица с усредненными значениями «симулянтов» компонентов K16 в калькуляторе K11 (колонки — компоненты K16, столбцы — компоненты K11, их пересечения — проекция компонентов K16 в компоненты K11).

Для облегчения понимания сказанного, приведу немного теории. Начну с основ.

Определение базовых терминов

ADMIXTURE (буквально: примесь) – это компьютерная программа (анализ), позволяющая выявлять смешанность состава некоего набора индивидов на основе данных о генотипах и тем самым строить предположения о происхождении популяции.

Принцип работы ADMIXTURE.

Рассмотрим принцип работы ADMIXTURE на примере образцов и популяций из проекта HapMap.

Всего у нас N = 324 образца/индивида, каждый из которых относится к одной из четырех нижеперечисленных популяций:

АФРИКА (ASW) – Африканские предки из Юго-Западной части США
ЮТА (CEU) – жители штата Юта США с корнями из Северной и Западной Европы
МЕКСИКА (MEX) – Мексиканцы, Лонг-Айленд США
ЙОРУБА (URI) – Йоруба, Нигерия
Для удобства дальнейшего изложения будем называть эти популяции «известными».

Также мы предполагаем, что они произошли от К разных предковых популяций (мы не знаем от каких именно). В дальнейшем будем называть эти предковые популяцие «предполагаемыми предковыми». Этих «предполагаемых предковых» популяций на самом деле не существует, у них нет общепризнанных названий и характеристик. И на этом этапе мы даже не знаем какие образцы к какой из этих К популяций могут быть отнесены. Теоретически возможно, что образцы из одной и той же «известной» популяции могут принадлежать к двум разным «предполагаемым предковым» популяциям.

Пример 1.

Предположим, что К = 3.

ADMIXTURE далее работает с образцами (их генотипами) и заданным нами числом К = 3. Имея сведения о генотипах и предположение о количестве «предполагаемых предковых» популяций (К) ADMIXTURE строит свою модель (предположение) того, каков вклад каждой из «предполагаемых предковых» популяций в каждый индивид. В результате мы имеем для каждого индивида 3 цифры: количественный вклад каждой из трех популяций (или образно говоря, на сколько процентов данный индивид состоит из первой «предполагаемой предковой» популяции, на сколько – из второй и на сколько – из третьей). При этом может быть и такая ситуация, что у конкретного индивида в составе отсутствует какая-то из «предполагаемых предковых» популяций, даже возможно, что он принадлежит только к одной из «предполагаемых предковых» поуляций. Предположим, для индивида №1 эти цифры такие: 0.3, 0.5 и 0.2. Что эти цифры означают? Означают они доли каждой из «предполагаемых предковых» популяций (ППП) в индивиде №1, т.е. индивид состоит на 30% из первой ППП, на 50% — из второй и 20% — из третьей. Чем больше вклад каждой ППП в индивида, тем больше индивид является «носителем» данной популяции и ее представителем.
Так называемый этно-популяционный калькулятор ДНК представляет собой инструмент, позволяющий использовать заранее определенные (вычисленные) компоненты этнического происхождения K для определения той комбинация исходных предковых компонентов дает наилучшее соответствие (аппроксимирует) происхождение носителя тестируемой ДНК.

При создании калькулятора ДНК в основу берется определенная модель (например, задается исходное число компонентов или состав референсной выборки), что неизбежно приводит к определенным уступкам в плане точности и проявлению слабых сторон модели. Например, часто люди критикуют подобные модели калькуляторов за излишнюю европоцентричность и недостаточную представленность геномов из других мест, или же используемые для определения компонентов происхождения выборки данных по отдельным популяциям слишком малы для определения сложной субструктуры генофонда референсной популяции. Наконец, более грамотные люди указывают на отсутствие необходимо инструментария (например, формальной статистики) для проверки статистической значимости определенных компонентов в отдельных моделях калькулятора.
Движок обеих калькуляторов — все та же программа DIYDodecad, После того, как ппрограммма ДНКа калькулятора выдаст первичные результаты — процентное распределение компонентов этно-популяционного происхождения в изучаемом геноме, можно будет перейти к вторичному анализу. Суть его проста — зная процентную комбинацию компонентов происхождения в своем геноме, довольно просто смоделировать свой геном в виде смеси нескольких референсных популяций.

Поэтому, в отличие от предыдущих релизов, K11 и K16 будут включать в себя дополнительный контент:

1) классический Oracle, позволяющий смоделировать анализируемый «геном» (точнее, набор из 100-200 тысяч информативный снипов) в виде комбинации двух референсных популяций, а также установить группу генетически ближайших референсных популяций к геному изучаемого индивида. Однако этот инструмент не может быть использован в случае сложного смешанного происхождения (например, когда изучаемый индивид происходит из более чем двух разных этнических популяций). Иногда программа выдает довольно глупые комбинации, cущественным образом понижая достоверность результатов. Впрочем основное преимущество Oracle и состоит в том, что программа предлагает вместо окончательного «простого» решения список альтернативных вариантов.

Пример: в качестве примера я буду использовать собственные данные.
Исходя из полученных в модели K16 значений компонентов, мой условный наиболее близок к восточнославянским популяциям
«Ukrainian-Center» «2.5884»
«Pole» «3.0962»
«Sorb» «3.1733»
«Polish_West» «3.5992»
«Russian-North-West» «3.7265»
«Russian_Smolensk» «3.834»
«Polish» «4.0348»
«Belarusian_EastBelarus» «4.0852»
«Belarusian_WestBelarus» «4.1216»
«DonKuban_cossack» «4.7769»

В комбинированном варианте двух смешанных популяций распределение предковых компонентов происхождения может быть аппроксимировано следующими комбинациями:

«65.8% Belarusian_EastBelarus + 34.2% Norwegian» «1.1023»
«66.4% Belarusian_EastBelarus + 33.6% Icelandic» «1.1118»
«80.9% Latvian + 19.1% Spanish_Baleares_IBS» «1.1154»
«30% French + 70% Lithuanian» «1.1206»
«29% French + 71% Latvian» «1.1215»
«55% French_West + 45% Lithuanian_Zemajitia» «1.1302»
«28.9% French_East + 71.1% Latvian» «1.1402»
«29% French_Northwest + 71% Latvian» «1.1563»
«72.3% Belarusian_EastBelarus + 27.7% Orcadian» «1.1766»
«57.2% European_Utah + 42.8% Lithuanian_Zemajitia» «1.1825»

Основная часть генома — условно славяно-балтийская (что ожидаемо), но с существенным сдвигом в сторону Скандинавии и западной Европы(примерно 20-30%). Скорее всего, это наследие готов, или контактов балтийских племен с викингами. Интересно, что модель K11 (c использованием современных референсных популяций) дает примерно такой же расклад — разве что древний скандинавско-германский пласт выражен чуть резче чем в модели K16

«Belarusian_West» «2.3841»
«Belarusian» «2.4187»
«Pole_Poland» «2.5278»
«Belarusian_East» «3.7288»
«Russian_Central» «3.7635»
«Swede» «3.9724»
«Russian_cossack» «4.1139»
«Ukrainian» «4.2647»
«Russian_Southern» «4.5204»
«Ukrainian_East» «4.8635»
«66.6% Icelandic + 33.4% Latvian» «1.586»
«41.1% Latvian + 58.9% Orcadian» «1.5898»
«47.9% Lithuanian + 52.1% Orcadian» «1.6007»
«60.2% Icelandic + 39.8% Lithuanian» «1.6082»
«5.7% Basque_Spanish + 94.3% Belarusian» «1.6386»
«5.8% Basque_French + 94.2% Belarusian» «1.6406»
«67.2% Belarusian + 32.8% Swede» «1.659»
«40.2% Lithuanian + 59.8% Norwegian» «1.6876»
«33.7% Latvian + 66.3% Norwegian» «1.689»
«94.1% Belarusian + 5.9% Spanish_Pais_Vasco_IBS» «1.7359

В палеокалькуляторе K11 (т.е. с древними геномами) картинка кажется более убедительной

«Unetice_EBA» «2.7065»
«Bell_Beaker_Czech» «5.0633»
«British_AngloSaxon» «5.1998»
«Nordic_LN» «5.6157»
«Corded_Ware_Proto_Unetice_Poland» «6.3751»
«Nordic_MN_B» «6.3865»
«Halberstadt_LBA» «6.4422»
«BenzigerodeHeimburg_LN» «7.4695»
«Nordic_IA» «7.5404»
«Corded_Ware_Estonia» «7.7635»

Из всех палеогеномов наиболее близок к моему геном представителя унетицкой культуры. Происхождение унетицкой культуры до сих пор не выяснено. Между позднейшими энеолитическими культурами и унетицкой культурой существует типологический и хронологический разрыв. Наибольшее признание в результате последних исследований получило предположение, согласно которому в ее возникновении главную роль сыграли культура колоколовидных кубков и надиревская культура, распространенная в Венгрии (см. ниже). У культуры колоколовидных кубков и унетицкой имеется сходство в керамике, в погребальном обряде и в орудиях труда. Небольшую роль могла сыграть культура шнуровой керамики, хотя в целом они очень различаются. Закономерно, что следующими — хотя и с большим отрывом — близкими к моему геному группами палеогеномов являются геномы древних англосаксов (которые близки к древним скандинавам) и представителей чешского ареала культуры колоковидных кубков).
Аналогично, в режиме смешенных популяций хорошо заметны две тенденции. Во-первых, мой геном может быть представлен в виде комбинации палеогенома представителя позднебронзового века (Хальберштадт) и палеогеномов восточных охотников-собирателей эпохи энеолита, во-вторых как смесь 23.4% генома представителей балтийской позднебронзовой эпохи и все того же позднебронзового палеогенома из Хальберштадта

«86.4% Halberstadt_LBA + 13.6% Karelia_HG» «2.139»
«74.1% Bell_Beaker + 25.9% LesCloseaux13_Mesolithic» «2.1574» «35.9% Hungary_BA + 64.1% Poltavka_MBA_outlier» «2.319»
«65.7% Halberstadt_LBA + 34.3% Poltavka_MBA_outlier» «2.4387»
«83.2% Alberstedt_LN + 16.8% Karelia_HG» «2.443»
«23.4% Baltic_LBA + 76.6% Halberstadt_LBA» «2.4846»
«16.7% Europe_MN + 83.3% Poltavka_MBA_outlier» «2.4897»
«83.4% Halberstadt_LBA + 16.6% Samara_Eneolithic» «2.536»
«12.9% Halberstadt_LBA + 87.1% Unetice_EBA» «2.5603»
«16.1% Bell_Beaker_Czech + 83.9% Unetice_EBA» «2.5747»

2) файлы модели K11 и K16 для более сложной программы 4Admix (разработанной Александром Бурнашевом). Вторым инструментом вторичного анализа является 4Mix. Он работает по методу brute-force, шаг за шагом перебирая все возможные комбинации, а по окончанию цикла программа возвращает результат с наименьшим евклидовым расстоянием (по выбору можно использовать гауссово сглаживание, снижающее случайный статистический шум результатов). Как и в классическом Oracle, комбинация cмешиваемых этнических групп не может содержать более 4 популяций, хотя в отличие от классического Oracle, программа может моделировать комбинации из 3 и 4 этнических групп.

Пример. Приведу пример этих 3- и 4-членных аппроксимаций. В принципе, все то же самое, c той лишь разницей что теперь программа выделяет в комбинациях балтийскую и славянскую составляющую. Интересно, что скандинавская составляющая никуда не исчезла, оставаясь в пределах 20-25%
Using 3 populations approximation:
1 50% Belarusian_EastBelarus +25% English_Kent_GBR +25% Latvian @ 0.973956
2 50% Belarusian_EastBelarus +25% English_Kent_GBR +25% Lithuanian @ 0.988467
3 50% Latvian +25% French +25% Balt @ 1.036492
4 50% Lithuanian_Zemajitia +25% French +25% Irish_Connacht @ 1.05259
5 50% Lithuanian +25% Sorb +25% French_West @ 1.059638
6 50% Belarusian +25% Icelandic +25% French_West @ 1.06158
7 50% Lithuanian_Zemajitia +25% French +25% Irish_Cork_Kerry @ 1.074796
8 50% Lithuanian_Aukstajtia +25% French_East +25% Irish_Connacht @ 1.076771
9 50% Lithuanian_Zemajitia +25% French +25% Irish_Ireland @ 1.078576
10 50% Belarusian +25% Norwegian +25% French_West @ 1.079741
11 50% European_Utah +25% Lithuanian_Zemajitia +25% Balt @ 1.084317
12 50% Dane +25% Belarusian_EastBelarus +25% Lithuanian_Aukstajtia @ 1.090086
13 50% Lithuanian_Zemajitia +25% French +25% Scottish_Highlands @ 1.093951
14 50% Lithuanian +25% North_European +25% Sorb @ 1.103744
15 50% Lithuanian_Aukstajtia +25% English_GBR +25% French_Northwest @ 1.105369
16 50% Lithuanian_Zemajitia +25% French +25% Scottish_Grampian @ 1.106616
17 50% Lithuanian_Aukstajtia +25% French_Northwest +25% Irish_Connacht @ 1.106771
18 50% Lithuanian_Aukstajtia +25% French_Northwest +25% Scottish_Dumfries_Galloway @ 1.108261
19 50% Lithuanian +25% French_West +25% Polish_West @ 1.113695
20 50% Latvian +25% North_European +25% Sorb @ 1.115164
31501779 iterations.
Using 4 populations approximation:
1Belarusian_EastBelarus+Lithuanian_Zemajitia+Swede+French_West @ 0.947002
2Belarusian_EastBelarus+English_Kent_GBR+Lithuanian_Aukstajtia+Sorb @ 0.971605
3Belarusian_EastBelarus+Belarusian_EastBelarus+English_Kent_GBR+Latvian @ 0.973956
4Belarusian_EastBelarus+English_Kent_GBR+Lithuanian_Aukstajtia+Polish_East @ 0.986863
5Belarusian_EastBelarus+Belarusian_EastBelarus+English_Kent_GBR+Lithuanian @ 0.988467
6 French+Lithuanian_Zemajitia+Swede+Balt @ 0.98916
7Belarusian_EastBelarus+English_Kent_GBR+Lithuanian_Aukstajtia+Polish @ 0.996302
8 Belarusian+Lithuanian_Aukstajtia+Shetlandic+French_West @ 1.010485
9 Belarusian+Lithuanian_Zemajitia+Irish_Ulster+French_West @ 1.01227
10 Belarusian+Lithuanian_Zemajitia+French_West+Irish_Ulster @ 1.012977
11 Belarusian_EastBelarus+Lithuanian_Aukstajtia+Swede+Welsh @ 1.013043
12Belarusian_EastBelarus+European_Utah+Lithuanian_Aukstajtia+Swede @ 1.013805
13Belarusian_EastBelarus+Lithuanian_Aukstajtia+Swede+French_West @ 1.018296
14German_NorthGermany+Lithuanian_Aukstajtia+Balt+French_West @ 1.026503
15 Lithuanian_Aukstajtia+Sorb+Ukrainian-Center+French_West @ 1.027473
16 Belarusian+Lithuanian_Zemajitia+French_West+Irish_Connacht @ 1.031967
17Belarusian+Lithuanian_Zemajitia+French_West+Irish_Cork_Kerry @ 1.035716
18 French+Latvian+Latvian+Balt @ 1.036492
и т.д.
То же самое, но в модели K11
Using 3 populations approximation:
1 50% Poltavka_MBA_outlier +25% Halberstadt_LBA +25% Hungary_BA @ 2.031302
2 50% Poltavka_MBA_outlier +25% Bell_Beaker_Czech +25% Hungary_BA @ 2.072453
3 50% British_AngloSaxon +25% Halberstadt_LBA +25% Poltavka_MBA_outlier @ 2.125791
4 50% Bell_Beaker +25% Bell_Beaker +25% LesCloseaux13_Mesolithic @ 2.209118
5 50% Halberstadt_LBA +25% British_AngloSaxon +25% Poltavka_MBA_outlier @ 2.244371
6 50% Halberstadt_LBA +25% Hungary_BA +25% Samara_HG @ 2.270667
7 50% Halberstadt_LBA +25% Poltavka_MBA_outlier +25% Unetice_EBA @ 2.291406
8 50% Poltavka_MBA_outlier +25% British_AngloSaxon +25% Hungary_BA @ 2.30791
9 50% Bell_Beaker_Czech +25% Hungary_BA +25% Samara_HG @ 2.356281
10 50% Halberstadt_LBA +25% Nordic_BA +25% Poltavka_MBA_outlier @ 2.358744
11 50% Bell_Beaker +25% Hungary_BA +25% Karelia_HG @ 2.369978
12 50% Bell_Beaker_Czech +25% Nordic_BA +25% Poltavka_MBA_outlier @ 2.385823
13 50% Halberstadt_LBA +25% Corded_Ware_Germany +25% Nordic_BA @ 2.490915
14 50% Poltavka_MBA_outlier +25% Hungary_BA +25% Unetice_EBA @ 2.503754
15 50% British_AngloSaxon +25% Bell_Beaker_Czech +25% Poltavka_MBA_outlier @ 2.53217
16 50% Halberstadt_LBA +25% Baltic_LBA +25% Halberstadt_LBA @ 2.540751
17 50% Hungary_BA +25% Poltavka_MBA_outlier +25% Samara_HG @ 2.551414
18 50% Poltavka_MBA_outlier +25% Alberstedt_LN +25% Hungary_BA @ 2.561557
19 50% British_AngloSaxon +25% Poltavka_MBA_outlier +25% Unetice_EBA @ 2.575398
20 50% Bell_Beaker_Czech +25% British_AngloSaxon +25% Poltavka_MBA_outlier @ 2.575919
1127348 iterations.
Using 4 populations approximation:
1 Halberstadt_LBA+Hungary_BA+Poltavka_MBA_outlier+Poltavka_MBA_outlier @ 2.031302
2 Halberstadt_LBA+Nordic_BA+Poltavka_MBA_outlier+Unetice_EBA @ 2.03713
3 Bell_Beaker_Czech+Hungary_BA+Poltavka_MBA_outlier+Poltavka_MBA_outlier @ 2.072453
4 British_AngloSaxon+Halberstadt_LBA+Poltavka_MBA_outlier+Unetice_EBA @ 2.088049
5 British_AngloSaxon+British_AngloSaxon+Halberstadt_LBA+Poltavka_MBA_outlier @ 2.125791
6 British_AngloSaxon+Halberstadt_LBA+Hungary_BA+Samara_HG @ 2.131526
7 Bell_Beaker_Czech+Halberstadt_LBA+Hungary_BA+Samara_HG @ 2.14648
8 Bell_Beaker+Bell_Beaker+Bell_Beaker+LesCloseaux13_Mesolithic @ 2.209118
9 Bell_Beaker_Czech+Halberstadt_LBA+Nordic_BA+Poltavka_MBA_outlier @ 2.209365
10 Bell_Beaker_Germany+British_AngloSaxon+Hungary_BA+Samara_HG @ 2.212982
11 Bell_Beaker_Czech+Bell_Beaker_Germany+Hungary_BA+Samara_HG @ 2.232922
12 British_AngloSaxon+Halberstadt_LBA+Halberstadt_LBA+Poltavka_MBA_outlier @ 2.244371
13 British_AngloSaxon+Halberstadt_LBA+Nordic_BA+Poltavka_MBA_outlier @ 2.254756
14 Alberstedt_LN+British_AngloSaxon+Hungary_BA+Samara_HG @ 2.255589
15 Bell_Beaker_Czech+British_AngloSaxon+Halberstadt_LBA+Poltavka_MBA_outlier @ 2.256027
16 Halberstadt_LBA+Halberstadt_LBA+Hungary_BA+Samara_HG @ 2.270667

3) новым инструментом в релизе будет R программа nMonte, разработанная голландцем Гером Гизбертом. В отличие от двух предыдущих инструментов (ограниченных в числе используемых для моделирования этнических групп), nMonte позволяет использовать для моделирования (аппроксимации) генмоа все референсные грппы. Программа использует алгоритм эволюционного моделирования по методу Монте-Карло.
После пошагового добавления новой популяции программа определяет уменьшается ли евклидово расстояние; если да, то шаг сохраняется, в противном случае шаг отклоняется. Алгоритм завершает свою работу после выполнения примерно миллиона шагов. Как и два предыдущих инструмента программа стремится к минимализации евклидова расстония; но похоже за счет использования метода Монте-Карло, алгоритм гораздо более эффективен. И, также, как и в других инструментах, в nMonte «наилучшая комбинация» определяется как комбинация с наименьшим расстоянием. Недостаток же nMonte состоит в том, что она выдает только наилучшее подходящее решение, в то время как Oracle представляет альтернативные варианты.
Пример. Посмотрим, сколько потенциальных предковых популяций выдаст nMonte при аппроксимации моего генома.
При первом запуске программа выдала комбинацию (в cкобках процентный вклад референсной популяции) следующих 65 популяций. Также как и в других инструментах, тон задают балтийские популяции, а также белорусы, сорбы и поляки.

Lithuanian_Zemajitia 10.1
Latvian 7.85
Lithuanian_Aukstajtia 7.85
Belarusian_SouthBelarus 6.55
Lithuanian 6.5
Pole 5.45
Belarusian_WestBelarus 4.8
Balt 4.35
Sorb 3.35
Belarusian 3.05
Belgian 3
Norwegian 2.95
Czech 2.75
Dane 2.5
Slovak 2.4
Icelandic 1.9
Swede 1.9
French_SouthFrance 1.5
Slovenian 1.5
Basque_Spanish 1.3
Frisian 1.15
German_NorthGermany 1.1
Sardinian 1.1
Polish_East 1.05
Ukrainian_WestUkraina 1
Polish 0.95
Basque_French 0.9
Orcadian 0.7
Spanish_Pais_Vasco_IBS 0.7
Hungarian 0.65
Irish_Connacht 0.65
DonKuban_cossack 0.6
Dutch 0.6
Ukrainian_EastUkraina 0.6
Scottish_Argyll_Bute_GBR 0.55
European_Utah 0.5
English_GBR 0.45
Croatian 0.4
Russian-Pskov 0.4
French_South 0.4
Welsh 0.35
Irish_Ulster 0.35
Scottish_Fife 0.3
German_SouthGermany 0.25
Scottish_Dumfries_Galloway 0.25
Belarusian_CentralBelarus 0.2
Datog 0.2
English_Cornwall_GBR 0.2
North_European 0.2
Ukrainian 0.2
Russian_Orjol 0.15
Afar 0.1
Belarusian_EastBelarus 0.1
English_Kent_GBR 0.1
Irish 0.1
Kambera 0.1
Russian_Smolensk 0.1
Vindija 0.1
Belarusian-East 0.1
Spanish_Canarias_IBS 0.1
Spanish_Cantabria_IBS 0.1
Spanish_Cataluna_IBS 0.1
Peruvian 0.05
Russian_Voronezh 0.05

В K11 показаны следующие палеогеномы (или их группы). По-прежнему, основа генома 40% моделируется как геном представителя культуры колоколовидных кубков.

«Bell_Beaker» 40.3
«Halberstadt_LBA» 31.6
«Samara_HG» 8.5
«Tyrolean_Iceman_EN» 2.05
«Esperstedt_MN» 1.95
«Swedish_Mesolithic» 1.95
«BerryAuBac_Mesolithic» 1.85
«Swedish_Motala_Mesolithic» 1.7
«Bichon_Azillian» 1.6
«Continenza_Paleolithic» 1.5
«Hungary_BA» 1.5
«LaBrana_Mesolithic» 1.35
«Bell_Beaker_Germany» 1.05
«Hungary_HG» 0.85

4) следующим новым инструментом будет 4mix, более упрощенный вариант 4Admix. Он разработан тем же Г. Гизбертом. Основное отличие от 4Admix — если 4Admix перебирает все возможные комбинации из 4 популяций, то в 4mix можно эксплицитно задавать отдельные комбинации и определять евклидову дистанции между этой комбинацией и аппроксимируемым геномом в пространстве моделей
5) карты компонентов с аннотацией. Аннотации компонентов будут чуть позже, а вот карты уже готовы

Карты распространения некоторых компонентов K16 и K11  в ряде географических ареалов

6) я включил в релиз модифицированный скрип GPS лаборатории Элхайка для определения географического ареала происхождения предков человека, чей геном является предметом изучения. Я включил пару строчек кода для проецирования вычисленных географических координат на географическую карту.
Пример. Ниже показаны две карты, на которые спроецированы географические координаты вычисленной алгоритмом GPS (GPS DNA tool ) точки «этнического происхождения».
Я проверил работоспособность алгоритма на обеих моделях.
В модели K16 (современные популяции) GPS-координаты точки моего «происхождения» 49.7648663288835 32.4345922625112 (примерно 49 градусов северной широты и 32 градуса восточной долготы), т.е где-то на левом берегу Днепра в Украине. Как утверждают разработчики программы, она позволяет определить место происхождения с радиусом погрешности в 500 км. Я вычислил расстояние от полученной точки до настоящего места жительства предков (южная часть Брестской области) и получилось 470 км. Т.е точка попадает в радиус, хотя и с некоторым трудом.

Rplot

Что касается модели K11 (древние геномы), то в этой модели мой «Urheimat» локализуется — весьма ожидаемо — на землях древней унетицкой и лужицких культур (51.1254133094371 13.2336209988448)

Rplot