Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии

Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии.

Этнокалькуляторы на базе Admixture, представляющие результат «просчета» генома испытуемого в виде смеси предковых компонентов, достигли уже очень хорошей точности. Однако у них есть и определенные недостатки. Во-первых, случается, что у двух разных народов пропорции смешения этих компонентов довольно близки, хотя близкого родства между ними не наблюдается. Обычно для исключения такого эффекта увеличивают число компонентов, то есть повышают детализацию. Однако при этом зачастую возрастает и «шумность», случайные отклонения от ожидаемых значений. Кроме того, бывает тяжело понять — смешение произошло в предыдущем поколении, или тысячу лет назад? Если человек происходит из двух отдаленных народов, он часто позиционируется в географической точке, находящейся между ними, и непохож ни на один из родительских народов. При более сложносоставном происхождении все запутывается еще сильнее.

Нет ли метода напрямую измерить уровень родства отдельного человека с той или иной популяцией? При такой постановке вопроса сразу приходит на ум один из возможных ответов — необходимо просчитать количество IBD (то есть идентичных благодаря общности происхождения) аутосомных сегментов. Такой подход уже реализован в утилите от 23andMe под названием Countries of Ancestry, однако с рядом заметных недочетов. Используются результаты опроса пользователей сервиса о стране их происхождения, при этом непонятно, каков размер выборки от каждой страны. Да и детализация уровня «страна» для жителей России явно не подходит — зачем мешать в одну кучу карел, осетинов и якутов.

К счастью, эти проблемы можно частично устранить, используя научные выборки (либо коммерческие, однако набрать подобный объем из коммерческих выборок мне сейчас не по силам). С удешевлением процесса генотипирования количество имеющихся в открытом доступе выборок начало быстро расти. В первую очередь я использовал выборки, выложенные на сервере Эстонского биоцентра . Они стали основой. Часть пробелов была заполнена выборками из недавней работы Hellenthal , их пришлось переконвертировать из build 36 в build 37. Отдельное спасибо Вадиму Вереничу за помощь с несколькими выборками, хорошо увеличившими охват этнокарты.

Главной сложностью в работе оказалось сведение геномов из всех источников вместе. В каждой научной работе использовался свой набор снипов, часто с разной ориентацией. Коммерческие выборки тоже неоднородны — например, в FTDNA, как оказалось, существует четыре варианта файлов raw data со слегка отличающимся набором снипов и разной ориентацией примерно трех сотен из них. Добавьте к этому два варианта выравнивания и трансферы из 23andMe (у которой нашлись свои заморочки, например, дублирование одних и тех же снипов под разными названиями).

Конечно, хотелось использовать как можно большее количество снипов. Однако после ряда попыток придумать коэффициенты пересчета и прочее, стало понятно, что это методологически неверно. Пришлось оставить лишь те снипы, которые присутствовали во всех используемых выборках, в стандарте FTDNA, а также на чипе v3 от 23andMe. Вероятно, в будущем придется включить в просчет и новый, четвертый чип от этой компании, однако пока я решил с ним не связываться. В общем итоге осталось около 244 тысяч снипов — не так уж мало, я опасался худшего. От покрытия FTDNA это составляет чуть больше трети.

Компания FTDNA и сервис Gedmatch используют для фильтрации общих сегментов критерий наличия не менее 700 снипов. Однако для мелких сегментов он выполняется не так уж часто (из-за чего у клиентов FTDNA возникает иллюзия сравнительно небольшого количества таких сегментов). Поэкспериментировав, я остановился на рубеже в 150 снипов — менее него количество сегментов, являющихся статистическими артефактами, начало быстро расти. Основным показателем для отрисовки на этнокарте я взял общую сумму сегментов длиной более 3 сМ. Конечно, более длинные сегменты являются более четким показателем родства, однако их заметно меньше. А это значит, что их количество более подвержено случайным отклонениям. С другой стороны, более мелкие сегменты сливаются в общую кашу. Таким образом, выбранный критерий является компромиссом. При увеличении объема выборок на порядки станет возможно использовать только длинные сегменты и улавливать родство более четко.

Метод дает релевантные результаты при сравнении с выборками свыше 10 человек. Чем меньше размер выборки, тем сильнее влияние случайных отклонений. Из-за этого часть выборок я объединил вместе (например, литовцы и латыши стали балтами), часть исключил с карты. Однако некоторые все же пришлось оставить — в первую очередь это финны (2 человека), западные украинцы (6), башкиры (6) и австрийцы (4). Если для какой-то популяции значения явно выпадают из ряда соседей, всегда обращайте внимание на размер выборки, приведенный в сопроводительной таблице.

Одновременно достоинством и недостатком метода является сильное влияние «эффекта основателя», «множественного родства», «бутылочных горлышек» и т.д. За этим перечислением скрывается примерно одно и то же — когда популяция происходит от сравнительно небольшой группы людей, ее члены разделяют между собой большое количество общих сегментов. Наиболее известным примером являются евреи-ашкенази — достаточно иметь одного отдаленного предка из этого народа, чтобы получить множество генетических «кузенов». Таким образом, родство с народом, подвергшемуся такому эффекту, видно более четко. Но это же искажает общую картину — одинаковое количество генетических пересечений может означать совершенно разную степень близости в зависимости от истории популяции.

Я сравнил 26 человек из коммерческих выборок, представляющие различные популяции интересующих меня регионов, с набором из 1130 геномов, взятых из научных выборок. Результаты сведены в таблицу и частично визуализированы на картах. При интерпретации помните о вышеперечисленных искажениях!

Начнем с представителя народа, считающегося наиболее архетипичными восточноевропейцами в большинстве этнокалькуляторов. Это литовцы (картинка увеличивается по клику):

 

LithuanianIBD

Как видно, литовец оправдывает это звание и по количеству общих сегментов. Красное пятно закрывает большую часть Восточной Европы, в том числе и балтийских финнов. Условно говоря, на этой карте мы видим некий «базовый уровень родства» среди восточноевропейцев.

Пятно восточного финна практически совпадает по форме, однако распределение интенсивности иное:

Finnish-EastIBD

Я бы сказал, что в основном это более частный и специфичный вариант того же, что мы видим у литовца. Доказательством может служить высокий уровень пересечения с балтской выборкой. В то же время, существует и финская специфика, например, пересечение с саами, которые у литовца довольно бледные. Более яркое и пересечение со шведами. Скорее всего, здесь мы видим результат включения в состав шведов финского субстрата, поскольку с теми же норвежцами интенсивность явно ниже.

Крайней западной точкой у нас будет представитель российских немцев. На этнокалькуляторах Admixture он получается достаточно типичным представителем немецкого народа, поэтому версию о заметном влиянии на его наследственность русских можно исключить.

German_RussiaIBD

К сожалению, немецкой выборки у меня нет, поэтому Германия закрашена серым. Некоторым заменителем является Швеция, которая чуть ярче соседей. К некоторому  удивлению, французы и британцы не показали заметной общности с немцем, хотя ее уровень все же выше средневосточноевропейского. Частично это может объясняться тем, что в британской выборке лишь семь человек из 23 — англичане, остальные являются ирландцами. шотландцами и валлийцами. Пятно у восточных украинцев и южных русских также загадочно — неужели это след знаменитых готов?

Невозможно исследовать генетическое разнообразие восточноевропейцев и обойти при этом ашкенази. Поэтому я позволил себе небольшую некорректность и разместил их на карте в районе нынешней Одессы. Картинка для ашкенази из коммерческой выборки:

AshkenaziIBD

Ожидаемое ярко-красное пятно сходства с родной популяцией, остальные все довольно далеко (на втором месте получилась выборка сефардов, но ее на карте нет). Повышение у басков и греков показывает родство ашкенази со средиземноморскими популяциями, пятно у восточных украинцев и белорусов объяснимо длительным совместным проживанием.

Перейдем к восточным славянам. Небольшой размер выборки западных украинцев не помешал им оказаться на первом месте у карпатского русина:

Carpathian_RusinIBD

Пятна на остальной территории получились довольно неровными. Я бы не стал делать из этого каких-то глубоких выводов о древних пересечениях карпатцев и финнов или эрзян.

Северо-восточная Беларусь:

BelarusianIBD

Украина (Полтава):

Ukrainian-PoltavaIBD

Обращает на себя внимание пересечение с поляками.

Человек смешанного происхождения — донские казаки и украинцы:

RuUa-CossackIBD

Тверь-Рязань:

Russian-CenterIBD

Как видно, балто-славянская общность улавливается всегда, в то время как более тонкие различия частично видны, частично скрываются шумом (случайными отклонениями).

Представители эрзи и мокши явно в своей основе близки балто-славянам. При этом балтийские финны никак не выделяются, а народы волго-уральского региона уже довольно далеки. Все это не является новостью для интересующихся темой людей, однако независимое подтверждение результатов показывает действенность методики.

Эрзя:

ErzyaIBD

Мокша:

MokshaIBD

Мокшанская выборка не помещена на карту из-за своего маленького размера (давала слишком большие случайные отклонения). У мокши «родная» выборка получилась заметно ближе эрзянской, у эрзи, соответственно, наоборот. Вероятно, это значит, что, несмотря на родственность двух групп, различие между ними с точки зрения разделяемой популяционной истории существенно (простыми словами, женились преимущественно внутри своего народа).

У северного русского видно родство как с балто-славянскими выборками, так и с балтийскими финнами:

Russian-NorthIBD

Наряду с этим, у русского из Пермского края ощущается влияние коми. Вероятно, с этим же связано и приближение других народов Урала:

Russian-PermIBD

В то же время, сами коми-зыряне скорее относятся к тому же «балто-славяно-финскому» кругу популяций:

KomiIBD

Чтобы не делать пост бесконечным, карты для народов волжско-уральского региона (в широком смысле) будут приведены в следующей части.

Этногеномика беларусов — часть V

Обсуждение результатов и выводы

 

Как отмечалось в введении к нашей статье, главной задачей нашего исследования являлась проверка двух рабочих гипотез, озвученных в предыдущих исследованиях профессиональных попгенетиков. Во-первых, это гипотеза о присутствии трех основных древних компонентов , которая указывает на возможность общего происхождения славян и балтов. Во-вторых, это утверждение о том, что своеобразие аутосомного генофонда беларусов может быть связанно с вкладом балтского субстрата.

После внимательного изучения результатов нашего исследования,можно сказать, что оба из приведенных выше заключений представляют собой крайне упрощеные варианты сложного процесса формирования аутосомного генофонда беларусов. Хотя мы и не можем предоставить окончательных аргументов в пользу или опровержение каждой из этих версий, мы может предоставить более полное и подробное обозрение структуры аутосомного генофонда. В отличие от трех основых компонентов, упомянутых выше, в нашем исследовании мы выделили шесть основных компонентов, типичных для европейцев в целом. Основу генофонда составляет компонент, который мы обозначили как северо-восточно-европейский компонент. Именно этот компонент выделяет беларусов среди других восточных славян, приближая их к современным балтийским популяциям (у литовцев процент компонента составляет 81,9, у латышей — 79,5%, у беларусов -76,4%, у эстонцев — 75,2%). Примечательно, по мере удаления от территории Беларуси на север в с торону Латвии и Эстонии, увеличивается процент северо-европейского генетического компонента (как мы полагаем, этот компонент доминировал в генофонде доисторических жителей Скандинавии в эпоху до распространения финно-угоров и индо-европейцев). С другой стороны, беларусов и других восточных славян отдаляет от балтов и сближает друг к другу более высокий процент так называемого западно-азиатского или кавказского компонента (любопытно, что в этом случае эта закономерность может свидетельствовать в пользу западно-азиатской теории происхождения индо-европейцев).

Далее, как показывает анализ в программе fineStructure, генофонд беларусов характеризируется высокой степенью генетических контактов как с балтами, так и остальными славянами, а также с рядом финно-угорских популяций (например, c эрзя и мокша). О симметричном характере межпопуляционного обмена свидетельствует симметричное расположение популяции беларусов относительно этих трех групп.

Исходяизвышенаписанного,представляетсялогичнымсделатьвыводотом,чтоосновнойкритическийэтапстановленияаутосомногогенофондапришелсянапериодсмешиванияносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,послечегопредковыйаутосомныйгенофондбеларусовприобрелотносительнуюстабильность.Разумеется,даннаямодельнеисключаетпозднейшиеэпизодысмешиванияпопуляций,ноониоставилименьшийследвструктуреаутосомногогенофондабеларусов.Вэтойсвязивозникаеточевидныйвопрос–вкакойименноисторическийпериодпроизошлосмешениеносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,иктобылиихносителями?
В начале сентября 2012 года известная американская лаборатория популяционной генетики доктора Райха опубликовала альфа-версию программного продуктаADMIXTOOOLS1.0. Альфа-версия была разработана для внутреннего использования, поэтому modusoperandiэтого продукта вряд ли является кристально понятным для стороннего пользователя. Положительным аспектом на мой взгляд является то, что ADMIXTOOLSпакет обеспечивает полную совместимость с форматом другой очень популярной программыEIGENSOFT, которая была разработана в той же лаборатории. Это немаловажное обстоятельство намного упрощает процесс обучения в ADMIXTOOLS.

Вышеупомянутый пакет включает в себя 6 приложений, среди которых я считаю наиболее полезнойqp3Popи утилиты для вычисления частотной характеристики аллелей. Впрочем, я не собираюсь обсуждатьqp3popво всех деталях и в контексте данной заметки достаточно отметить, что эта программа реализует тест three_pop(F_3), подробно описанный в известной статье Рейха и соавт. 2009.

Однако другой имплементированный в пакете метод, – метод rolloff– нуждается в более пристальном внимании. Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатураLD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории, чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения LDв адмиксе напрямую связана с числом поколений, прошедших с момента адмикса, так как cвозрастанием числа поколений увлечивается число рекомбинаций произошедших между двумя отдельными SNP-ами. Проще говоря: Rolloffсоответствует экспоненциальной кривой угасания уровня LDот расстояния, и эта скорость экспоненциального снижения как раз и используется для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.

Этот метод открывает интересные перспективы. Для целей этого анализа, я создал специальный набор SNP-данных, который включает в себя около 750 000 cнипов, частично или полностью в 250 различных популяциях человека. Далее, я разбил популяции 3 * 62 000 трио в следующем виде (X, Y, Z), где X и Y – пара рефренсных групп, а Z – белорусы из коллекцииBehar et al.2010. После этого я провел q3Pop анализ этих трио.

Результаты изложены в нижеприведенной таблице

Indian Polish Belarusian -0.000736 0.000251 -2.935
Polish Indian Belarusian -0.000736 0.000251 -2.935
Karitiana Sardinian Belarusian -0.001278 0.000517 -2.471
Sardinian Karitiana Belarusian -0.001278 0.000517 -2.471
Otzi North_Amerind Belarusian -0.002556 0.001126 -2.271
Cirkassian Polish Belarusian -0.000488 0.000231 -2.113
Polish Cirkassian Belarusian -0.000488 0.000231 -2.113
Pima Otzi Belarusian -0.002727 0.00137 -1.99
Pima Sardinian Belarusian -0.000794 0.000431 -1.843
Sardinian Pima Belarusian -0.000794 0.000431 -1.843
Otzi Surui Belarusian -0.002938 0.001931 -1.522
Surui Otzi Belarusian -0.002938 0.001931 -1.522

 

На первый взгляд, результаты нашего эксперимента с 3qPop, кажется, неплохо согласуются с выводами, содержащимися в работеПаттерсон и др. 2012: “Самый поразительный вывод состоит в обнаружени четкого сигнала адмикса в северной Европе, один из элементов которого связан с предками населения наиболее близкого по своей генетике к баскам и жителям Сардинии, а другой – с предками современного населения северо-восточной Азии и Америки. Этот явный сигнал, вероятно, отражает историю смешивания неолитических мигрантов с коренным населением Европы, что подтверждается недавним генетическим анализом древних костей Швеция и секвенированием полного генома Отци Тирольца”. Что касается собственно белорусов, то источники сигнала смешивания с посторонними популяцими менее ясны и расплывчаты. Как было показано ранее, с точки зрения формального анализа примесей (f3 статистики), белорусы могут быть представлены в виде популяционного микса поляков и индусов / черкессов. Первый компонент смеси может быть связан с носителями культуры шнуровой керамики/боевых топоров и культуры колоковидных кубков; второй, в соответствии с результатами, должен быть общим для индусов и черкесов.

 

Белорусы = ((неолитические культуры Европы) + “носители культуры колоковидных кубков”) + (мезолитическое население Европы) + компонент носителей культуры шнуровой керамики)) + скифо-сарматский тип

 

Для оценки дата события базового адмикса в белорусской популяции, мы использовали в качестве референсных популяций поляков и индусов (Примечание: мы снизили порог генетических дистанции в параметрах Rolloff для снижения уровня шума от более поздних адмиксов).

 

rolloff

Как вы можете видеть, сигнал присутствия адмикса обнаруживается гораздо хуже, и в силу этого, погрешности в оценке временного промежутка высоки:

154,158 + -87,024 поколений назад (или, 4470 + -2523 года до настоящего времени / 2510 – +2523 лет до н.э.).

 

Исходя из этого, мы решили модифицировать Rolloff-анализ генофонда белорусов, используя на этот раз в качестве референсов литовцев и пуштунов. Следуя этому совету, я решил предпринять вторую попытку формального анализа адмикса в двух имеющихся у нас выборках беларусов ( выборка беларусов из статьи Behar et al. 2011), и выборка беларусов, собранная в нашем проекте.Ниже приведены результаты эксперимента с двумя этими группам (в отличие результатов нашей предыдущей попытки, результаты данного эксперимента менее “зашумленные”):

rolloff2

 

Интервал числа поколений, прошедших со времен анализируемого адмикса (105.086+-52.59) или 3069 +- 1525 лет до настоящего времени, что соответствует временном интервалу 2 тыс. до нашей эры – 6 век нашей эры. Принимая во внимание эти выводы, мы можем предположить, что основной аутосомный эпизод смешивания предковых популяций беларусов произошел в течении довольно таки продолжительного времени, охватывающего несколько тысяч лет. В этой связи, вопрос о том, кто именно был носителями северо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента, остается открытым.

Практические рекомендации по работе с данными древней ДНК – часть 3

В предыдущем посте я разместил  вторую часть примерных рекомендации по работе с данными древней ДНК с практическим примером директив программы Plink.

После проведения анализа я получил следующие данные о геномной «схожести» ДНК древних насельников Европы и cовременных популяций людей.

Итак, я начну с данных Этци-ледового человека из Тироля.

I.Этци

Данные схожи с результатами аналогичных вычислений в оригинальной статьей (в которой была показана близость Этци к современным сардинцам в ракурсе первых двух главных компонентов генетического разнообразия).  В нашей, более масштабной, выборке  Этци оказывается близок не только к сардинцам, но и к корсиканцам, северным итальянцам и тосканцам. Кроме того, в отличии от оригинальной статьи, видно что другие компоненты генетического разнообразия сближают Этци с ближневосточными популяциями, кавказцами и популяциями восточного Средиземноморья. Примечательно, что в программе fineStructure, где используются фазированные данные, Этци попадает в кластер пьемонтцев, — популяции наиболее близкой к местам в которых, как предполагается, жил Этци

Uzbeki_jew Otzi 0.646834
Irani-jew Otzi 0.645444
Azeri_jew Otzi 0.645254
Kumyk Otzi 0.644682
Algerian_Jew Otzi 0.644546
Corsican Otzi 0.6437835
Ashkenazi_Jew Otzi 0.643497
Sardinian Otzi 0.6430069
Cretan Otzi 0.642585
Tuscan Otzi 0.642299
Syrian_Jew Otzi 0.6422305
GreeceThessaly2 Otzi 0.641938666666667
Bulgarian Otzi 0.641346
Portugese Otzi 0.640887333333333
Center-Italian Otzi 0.64044025
Romanian Otzi 0.6397932
French_Basque Otzi 0.639631
Costanoan Otzi 0.639535
Egyptan Otzi 0.639511571428571
Azeri_Jew Otzi 0.639471333333333
Cypriot Otzi 0.639013
Bosnian Otzi 0.639004857142857
Yemen_Jew Otzi 0.638963
Toscanian Otzi 0.63891
Macedonian Otzi 0.638783625
Morocco_Jew Otzi 0.638593307692308
Greek Otzi 0.638391166666667
Gagauz Otzi 0.6383745
Italian_Jew Otzi 0.6382314
Spain Otzi 0.638200666666667
Sephard Otzi 0.637888105263158
North_Italian Otzi 0.637741333333333
North_Greek Otzi 0.637464333333333
Hungarian Otzi 0.63745125
French Otzi 0.63742736
Tunisian-jew Otzi 0.63733325
South-Germanian Otzi 0.637282482758621
Iraq_jew Otzi 0.637247
Sicilian Otzi 0.63712
Ashkenazi Otzi 0.6370677
Libyan_Jew Otzi 0.637057
Swede Otzi 0.636882647058824
Center-Greek Otzi 0.636866
North-Greek Otzi 0.63681875
CEU Otzi 0.6366755
Montenegrin Otzi 0.636612
South-Greek Otzi 0.636612
Czech Otzi 0.6365207
Colville Otzi 0.636485
Welsh Otzi 0.636406111111111
Iberian Otzi 0.636382375
German Otzi 0.6363546
Iraqi-jew Otzi 0.636351666666667
Georgian_Imereti Otzi 0.6363372
Turk Otzi 0.636294941176471
Syrian Otzi 0.636126461538462
Sorb Otzi 0.635990692307692
Belorusian Otzi 0.635913
Yemen_jew Otzi 0.635805285714286
Swiss Otzi 0.635714047619048
British Otzi 0.635675083333333
Jordanian Otzi 0.635631333333333
Libyan Otzi 0.635575538461538
Armenian Otzi 0.635448428571429
Balkar Otzi 0.635168333333333
Azeri Otzi 0.635065857142857
Iran_jew Otzi 0.6350402
Russian_cossack Otzi 0.6349466
Druze Otzi 0.634933818181818
Orcadian Otzi 0.634880833333333
Romanian_Jew Otzi 0.6348645
Libyan-jew Otzi 0.6348278
Mordovian Otzi 0.634652636363636
Slovenian Otzi 0.6346172
North-Ossetian Otzi 0.634498538461538
Croat Otzi 0.6344835
Algerian-jew Otzi 0.6344135
Tatar Otzi 0.6344055
Georgian_Laz Otzi 0.634376
France_Jew Otzi 0.6343665
Khazar_jew Otzi 0.634292242424242
Aleut Otzi 0.634197
Pole Otzi 0.634177428571429
Abhasian Otzi 0.6340056875
Palestinian Otzi 0.633990545454545
Tat Otzi 0.6339235
Georgian Otzi 0.633884785714286
Roma Otzi 0.633635409090909
Tunisian_Jew Otzi 0.63353
Ukrainian Otzi 0.6335218
Serb Otzi 0.633398909090909
Iraqi Otzi 0.633383
Egyptian Otzi 0.633367714285714

II. Gök и Ste7 — женщины-фермеры эпохи шведского позднего неолита (Культура воронковидных кубков, КВК (англ. Funnel Beaker culture, нем. Trichterbecherkultur, TRB) — мегалитическая культура (4000 — 2700 гг. до н. э.) эпохи позднего неолита.)

В отличие от нашего предыдущего анализа, где мы использовали только Gök, мы решили создать композитного индивида за счет слияния геномных данных Gök и Ste7 (см.предыдущие посты этой серии). Это было сделано с целью реконструировать аутосомные составляющие предковоой популяции культуры КВК. Из приведенной ниже таблицы становятся ясно, что:
1) большая часть генетического разнообразия у анализируемых индивидов не встречается ныне ни в одной из современных популяций, и именно это потерянное в результате дрейфа генетическое разнообразие объединяет носителей древней ДНК в общий красный кластер

2) у представителей культуры заметно влияние древних генетических контактов популяций Северной Европы и палеосибирских популяций, предковых по отношению к современным америндам (зеленый кластер).

3)  третья группа (обозначена синим цветом) аналогична одному из вышеупомянутых выше компоненту генетического разнообразия Этци. Она сближает древнее население КВК с современными популяциями западной и южной Европы. В этом компоненте нет существенных разногласий с исследованиями популяционных генетиков из Уппсальского университета Швеции.

F3.large

SwedeTBK Bra 0.905852  
SwedePWC SwedeTBK 0.866097  
SwedeTBK Otzi 0.807465  
SwedeTBK N._European 0.59325092
Athabask SwedeTBK 0.588854
Hungarian SwedeTBK 0.581786
Irani-jew SwedeTBK 0.580844
North_Italian SwedeTBK 0.580643
Kosovar SwedeTBK 0.58033
Bulgarian SwedeTBK 0.579557  
East-Ukrainian SwedeTBK 0.579557  
Kusunda SwedeTBK 0.5793  
Colville SwedeTBK 0.578864
French_Basque SwedeTBK 0.578806818181818
Serb SwedeTBK 0.577398818181818
Romanian SwedeTBK 0.5773258
Mansi SwedeTBK 0.5770508
CEU SwedeTBK 0.577024142857143
GreeceThessaly2 SwedeTBK 0.576754333333333
Kumyk SwedeTBK 0.576725  
Iraqi SwedeTBK 0.576398
SwedeTBK Buryat 0.5757842
Costanoan SwedeTBK 0.57571
Haida SwedeTBK 0.57571
German SwedeTBK 0.5753862
Nyshi SwedeTBK 0.57530875
Ket SwedeTBK 0.5750755
Bosnian SwedeTBK 0.574970714285714
Portugese SwedeTBK 0.574837  
Welsh SwedeTBK 0.574730333333333
Corsican SwedeTBK 0.574707  
North-Russian SwedeTBK 0.574510043478261
West-Ukrainian SwedeTBK 0.5742968
South-Russian SwedeTBK 0.574150333333333
Croat SwedeTBK 0.574003833333333
Karelian SwedeTBK 0.573929692307692
Slovak SwedeTBK 0.573892833333333
Tlingit SwedeTBK 0.573607
Tunisian-jew SwedeTBK 0.5735595
Syrian_Jew SwedeTBK 0.5734265
Chuvash SwedeTBK 0.573139533333333
Kalmyk SwedeTBK 0.573079727272727
Center-Russian SwedeTBK 0.572759636363636
SwedeTBK Totonac 0.572689041666667
Macedonian SwedeTBK 0.57251475
Center-Greek SwedeTBK 0.572348
Russian_cossack SwedeTBK 0.5723086
Mordovian SwedeTBK 0.572217636363636
Vepsa SwedeTBK 0.572191363636364
Brahmin_UttarPradesh SwedeTBK 0.572158
Spain SwedeTBK 0.572090666666667
Ecuadorian SwedeTBK 0.572029375
France_Jew SwedeTBK 0.571969833333333
Tatar SwedeTBK 0.571906642857143
Mari SwedeTBK 0.571502285714286
Saudi SwedeTBK 0.5714354
Greek SwedeTBK 0.571345
South-Greek SwedeTBK 0.571232333333333
Mexican SwedeTBK 0.57110925
Lahu SwedeTBK 0.570989
Serrano SwedeTBK 0.570978

III. Ajvs — древние жители культуры ямочной керамики (Культура ямочной керамики, Pitted Ware culture (около 3200 — 2300 гг. до н. э.) — культура охотников и собирателей эпохи неолита. Существовала на юге Скандинавии, в основном вдоль побережья Свеаланда, Гёталанда, Аландских островов, на северо-востоке Дании и на юге Норвегии. Была современницей, а в некоторых местах делила ареал с сельскохозяйственной культурой воронковидных кубков, а позднее — с сельскохозяйственной культурой шнуровой керамики.)

Также как и у представителей КВК, большая часть генетического разнообразия жителей у современных популяций Европы потеряна. Поэтому они попадают в общий кластер к другим древним исследованным европейским ДНК, и неспецифическому аутосомному фону Северной Европы.

Из современных популяциий наиболее близки к ним эстонцы, латыши,литовцы, а также ряд других популяций Балтийского  региона (обозначены фиолетовым цветом), а также ряду популяций западной и южной Европы.  Примечательно, что у Ajvs гораздо слабее выражен древний палеосибирский (квази-америндский компонент), и еще слабее типичный для Этци (I) и жителей культуры КВК (II) неолитический компонент, связывающий их с современными популяциями Ближнего Востока и Кавказа.
Здесь тоже нет существенных разногласиий с выводами группы Скоглунда, у которого (за отсутствием в выборке эстонцев, литовцев и латышей) самыми близкими к жителям культуры ямочной керамики оказываются поляки.

F3.large

SwedePWC Bra 0.908488  
SwedePWC SwedeTBK 0.866097  
SwedePWC Otzi 0.81501  
SwedePWC N._European 0.58268312
Estonian SwedePWC 0.578113944444444
Russian SwedePWC 0.577444333333333
Latvian SwedePWC 0.57607  
Lithuanian SwedePWC 0.575179642857143
Orcadian SwedePWC 0.575171333333333
Kosovar SwedePWC 0.574342  
Czech SwedePWC 0.57363895
French SwedePWC 0.57334168
South-Germanian SwedePWC 0.572643965517241
Pole SwedePWC 0.570919326530612
Haida SwedePWC 0.570593
Sorb SwedePWC 0.570527923076923
Center-Russian SwedePWC 0.570395727272727
Karelian SwedePWC 0.570175307692308
Swede SwedePWC 0.570099
Corsican SwedePWC 0.5696165
South-Russian SwedePWC 0.569518
Vepsa SwedePWC 0.569184181818182
CEU SwedePWC 0.568893571428571
Swiss SwedePWC 0.568845095238095
Komi SwedePWC 0.568339363636364
SwedePWC Totonac 0.568287625
Aleut SwedePWC 0.568253
Sardinian SwedePWC 0.5681032
North-Russian SwedePWC 0.567888695652174
Bosnian SwedePWC 0.567837857142857
French_Basque SwedePWC 0.567750181818182
Mordovian SwedePWC 0.567647363636364
Chuvash SwedePWC 0.567504666666667
Serb SwedePWC 0.567329090909091
Russian_North SwedePWC 0.567027
Cretan SwedePWC 0.5670035
German SwedePWC 0.5669944
North-German SwedePWC 0.566872769230769
SwedePWC Samoan 0.566706384615385
Montenegrin SwedePWC 0.566654333333333
East-Ukrainian SwedePWC 0.56619975
Tatar SwedePWC 0.566033785714286
Hungarian SwedePWC 0.565851625
Ket SwedePWC 0.5656705
Welsh SwedePWC 0.565641444444444
SwedePWC Irula 0.565603956521739
Bashkir SwedePWC 0.565471333333333
Tuscan SwedePWC 0.565401
Mexican SwedePWC 0.5653275
West-Ukrainian SwedePWC 0.5653062
Russian_Center SwedePWC 0.565276
Mansi SwedePWC 0.5651792
Macedonian SwedePWC 0.56517625
Udmurd SwedePWC 0.564932545454545
Balkar SwedePWC 0.564865
Ukrainian SwedePWC 0.5646252
Slovak SwedePWC 0.564342833333333
Irani-jew SwedePWC 0.564264
SwedePWC AP_Madiga 0.5642395
Tsimsian SwedePWC 0.564158
Center-Greek SwedePWC 0.564144
Spain SwedePWC 0.563930666666667
Bulgarian SwedePWC 0.563776
Costanoan SwedePWC 0.563768
Chenchus SwedePWC 0.563652
North_Italian SwedePWC 0.5636205
Mari SwedePWC 0.563564857142857
Croat SwedePWC 0.563453
Nenets SwedePWC 0.563393583333333

IV. La Brana  — испанский мезолит, 7000 лет до настоящего времени.

Результаты близки к результатам древних жителей Ajvs (культуры ямочной керамики), c той лишь разницей, что у них практически полностью отсутствует генетическая вариация, присущая современным южным европейцам. Кроме того, их мезолитический генофонд подвергся вымыванию в еще большей степени, чем генофонд древних жителей неолита, о которых я писал выше.  Примечательно, что в отличии от Ajvs,  у La Brana незаметна балтийская доминанта, хотя ближайшей популяцией и оказываются латыши. В оригинальной статье было показано, что древние мезолитические жители Иберии — La Brana — оказываются «близки» к западно-европейцам, и та же картина заметна и в нашем анализе

SwedePWC Bra 0.908488
SwedeTBK Bra 0.905852
Bra Otzi 0.843151
Bra N._European 0.60332376
Latvian Bra 0.576167975609756
North-German Bra 0.576164846153846
Estonian Bra 0.576057666666667
Lithuanian Bra 0.570270535714286
Russian Bra 0.569868833333333
Czech Bra 0.5694441
Swede Bra 0.569444029411765
Russian_North Bra 0.568627
Pole Bra 0.567495653061225
Orcadian Bra 0.567451
Bulgarian Bra 0.567146
South-Germanian Bra 0.566648551724138
TN_Brahmin Bra 0.566116
Swiss Bra 0.565266142857143
CEU Bra 0.564653642857143
Center-Russian Bra 0.564325727272727
Komi Bra 0.564082181818182
Belorusian Bra 0.563804
Athabask Bra 0.563369
Mordovian Bra 0.562895181818182
Kosovar Bra 0.56235
Corsican Bra 0.5621705
French Bra 0.56141128
Tsimsian Bra 0.560916
Croat Bra 0.560884666666667
Nguni Bra 0.560649
Slovak Bra 0.5605515
Hungarian Bra 0.560269
Yukagir Bra 0.559952
West-Ukrainian Bra 0.5596024
NAN_Melanesian Bra 0.559505
Chuvash Bra 0.559285866666667
Welsh Bra 0.559282666666667

 

О неолитических тирольцах и шведах: опыт палеогентического анализа — часть 1

В мае прошлого года я провел три бессонные ночи, пытаясь извлечь SNP-ы из BAM файлов, любезно предоставленных профессором Уппсальского университета Понтусом Скоглундом — автором нашумевшего исследования древнего ДНК насельников шведского неолита.  Как мне представлялось, задача должна была оказаться несложной, особенно после того как в марте прошлого года я успешно произвел «выделение» геномных вариантов из аналогичных файлов содержащих информацию о геноме Эци.  Полученные на выходе файлы я намеривался соединить с имеющейся у меня базой данных SNP-ов современных евразийских популяций, а затем проанализировать в программе smartpca, входящей в пакет Eigenstrat.

Однако на поверку на эту процедуру пришлось потрать намного больше времени, в первую очередь из-за определенных трудностей с использованием vcftools, и определением надежных SNP-ов в сгенерированных в samtools pileup файлах.
Трудно описать мою радость, когда мне удалось взломать эти ‘крепкие геномные орешки’. После успешного определения SNP-ов, я произвел PCA-анализ с целью определения позиции неолитических фермеров (Gok4), охотников-собирателей (Ajv52, Ajv70) и Ötzi (Эци) на карте генетического вариативности населения западной части Евразии.

Мои эксперименты с Eigenstrat  частично подтвердили результаты аналогичныхз опытов Диэнека.

Как видно на приведенном графике, доисторические шведы Ajvs (принадлежавших к готландской культуре ямочной керамики (Pitted Ware culture (около 3200 — 2300 гг. до н. э.)) оказались на периферии современных северо-восточных европейских популяций.
Затем, по просьбе ряда посетителей форума ABF, я сделал PCA-график, на котором показаны обозначения популяций.

Как и прогнозировалось ранее, Ajv52 и Ajv70 оказались в окружении плотного кольца из балтийских популяций. В эту группу вошли литовцы, белорусы, поляки, шведы, украинцы, русские (из Северной и Центральной России) и мокша-эрзя. Однако, похоже,  в силу своего расположения на графике они также отдаленно связаны с современнами финнами и немцами

Генографическое размещение другого образца древнего ДНК — Gök4 (культура воронковидных кубков, КВК (англ. Funnel Beaker culture, нем. Trichterbecherkultur, TRB) — мегалитическая культура (4000 — 2700 гг. до н. э.)) — также оказалось весьма предсказуемым. Этот образце попал в один кластер с  тирольским Эци, популяциями средиземноморского региона (Vasconia, Iberia, Италия) и рядом западно-европейских популяций ( в том числе и из Франции).

Результаты аналогичны результатам из оригинальной статьи.

F1.large

Воодушевившись столь замечательными результатами, я решил выполнить элементарный анализ IBS. Для расчетов использовалась примерно такая же метрика, что и при вычисление геномного сходства (genome-wide similarity) в клиентской базе данных 23andme . На первый взгляд результаты кажутся несколько иными, чем те, что приведены в работе Skoglund et al.2012 (результаты приведены ниже):

Neolithic farmer Hunter-gatherers Long Lat chr.
Cyprus Cyp 68.20% 68.21% 33 35 8
Greece Gre 67.94% 68.51% 22 39 16
France Fra 67.89% 68.80% 2 46 178
Netherlands Net 67.88% 68.79% 5 52 34
Romania Rom 67.84% 68.62% 25 46 28
Italy Ita 67.81% 68.43% 12 42 438
Germany Ger 67.80% 68.80% 10 51 142
Croatia Cro 67.76% 68.67% 15 45 16
Portugal Por 67.75% 68.59% -8 39 256
Belgium Bel 67.73% 68.78% 4 50 86
Spain Spa 67.72% 68.59% -4 40 272
Poland Pol 67.71% 68.98% 20 52 44
Austria Aus 67.69% 68.65% 13 47 28
United Kingdom UK 67.68% 68.79% -2 53 400
Serbia Ser 67.67% 68.62% 20 44 88
Macedonia Mac 67.62% 68.58% 22 41 8
Sweden Swe 67.61% 68.84% 15 62 20
Ireland Ire 67.61% 68.71% -8 53 122
Hungary Hun 67.60% 68.58% 20 47 38
Russian Rus 67.56% 68.72% 37 55 12
Turkey Tur 67.55% 67.98% 35 39 8
FIN FIN 67.47% 68.77% 25 61 80
LSFIN LSFIN 67.44% 68.79% 26 64 162
Bosnia Bos 67.39% 68.81% 17 44 18
Scotland Sco 67.35% 68.81% -4 56 10

Различие с моими результатами может быть объяснены как различным числом используемых  SNP-ов (в исследовании Скоглунда их больше), так и отличием методологических подходов. Я использовал очень простой алгоритм в программе Plink для расчета IBS-матрицы, в то время как Скоглунд с соавторами использовал более сложный подход при расчете средней частоты аллелей.

Во всяком случае, с учетом вышесказанного, я все же хотел бы поделиться результатами IBS-анализа (ниже приведены только популяции с максимальным % общих аллелей, процентное соотношение выражено в виде дроби):

AJV70:

GOK4 0.85
AJV52 0.833333
Ötzi 0.7992
UKR 0.587516
BLR 0.586873
HNG 0.583655
RMN 0.583549
LTH 0.583012
LTH 0.583012
CEU 0.580438
FIN 0.580438

AJV52:

AJV70 0.833333
Ötzi 0.823864
GOK4 0.8
UKR 0.602506
HNG 0.596811
LTH 0.594533
RMN 0.593394
LTV 0.592818
CEU 0.592255
GER 0.592255
MR 0.591463

Ötzi

AJV52 0.823864
GOK4 0.813602
AJV70 0.7992
HNG 0.725414
NITAL 0.724004
NITAL 0,71989
LTH 0.718232
WUKR 0.718232
IBR 0.718162
RMN 0,71768
BLR 0.717367

GOK4

AJV70 0,85
Ötzi 0.813602
AJV52 0,8
НИУ 0.611345
NITAL 0.602941
CEU 0,60084
CEU 0,59979
NITAL 0.598739
RMN 0.598739
GBRORK 0.598309
RUS 0.595789

С другой стороны, если мы оставим в таблице только популяции Северной и Восточной Европы, результаты будут почти точно соответствовать таблице Скоглунда, и оба Ajvs будут наиболее близки к полякам.

Я должен подчеркнуть, что на самом деле мне удалось обнаружить SNP-ы и в образцах Ire8 и Ste7 (52322 SNP-а + инделов у Ire8 и 13175 вариантов у Ste7). Однако после слияния этих данных с общей базой данных, оказалось что большинство из генотипированных SNP-ов оказались либо новельными вариантами  либо находились за пределами современной генетической вариативности. Пересечение снипов Ste7 и Ire8 SNP  с моим основным наборов снипов дало 0, т. е. не существует никаких общих SNP-ов между моим текущим набором и набором данных у указанных выше образцов. Поэтому мне не оставалось ничего другого, как удалить Ste7/Ire8 из  конечной выборки.

Анализ аутосомного генофонда балтийских этносов: эстонцев, латышей, литовцев. Часть I

Я решил продолжить эксперименты с новым программным обеспечением ALDER, хорошо зарекомендовавшим себя в анализе ряда кавказских и сибирских популяций. На этот раз я решился взятся за крепкий орешек — популяции восточной Прибалтики. Я не случайно назвал эти популяции крепким орешком, так как с точки зрения популяционной генетики, аутосомный генофонд этих популяций представляет собой гомогенный континуум с крайне малым количеством вариантов, отличающих одну популяцию от другой. По крайней мере, при стандартном использовании классических алгоритмов программ STRUCTURE/ADMIXTURE, или статистических методов PCA/MDS, эти популяции оказывались практически неотличимыми друг от друга.

Условия и параметры ALDER эксперимента оставлены практически неизменными — состав популяций и количество SNP-вариантов не поменялся. Я отказался от эксплицитного определения параметра mindis, так как в том случае, когда мы имеем дело с близкими популяциями, очень сложно дать априорную оценку генетической дистанции, при которой программа может вычислить уровень экспонентного угасания генетического сцепления локусов в аутосомах.

После проведения соответствующих анализов, я получил результаты по трем популяциям — эстонцам, литовцам и латышам. Каждая из популяций была представлена 13-20 индивидами.

Итак,  начну с эстонцев.

Эстонцы

Из вычисленных в программе комбинаций референсных популяций около двух десятков комбинации показала двухсторонную корреляцию угасания генетического сцепления в отношении таргентной популяции эстонцев.  После того, как я отсеел ряд комбинаций с большим разбросом датировки события адмикса, мною были выбраны наиболее устойчивые варианты.

Result Target ReferenceA ReferenceB Admix_dating Admix on Reference A Admix on ReferenceB
success Estonian Swedish Karakalpak 77.4 +/- 45.6 64.55 +/- 18 49.12 +/- 17.87
success Estonian Gagauz Karakalpak 68.18 +/- 38.27 6.78 +/- 3.17 49.12 +/- 17.87
success Estonian CEU Mongol 66.9 +/- 24.82 26.04 +/- 7.49 60.86 +/- 18.02
success Estonian NorthOssetian Karakalpak 61.9 +/- 41.5 78.29 +/- 26.94 49.12 +/- 17.87
success Estonian Saami Karakalpak 53.07 +/- 18.46 10.32 +/- 5.23 49.12 +/- 17.87
success Estonian Mongol Karakalpak 44.55 +/- 16.47 60.86 +/- 18.02 49.12 +/- 17.87
success Estonian CEU Karakalpak 43.92 +/- 20.09 26.04 +/- 7.49 49.12 +/- 17.87
success Estonian Swedish Saami 38.57 +/- 28.37 64.55 +/- 18 10.32 +/- 5.23
success Estonian Swedish Mongol 38.1 +/- 14.45 64.55 +/- 18 60.86 +/- 18.02
success Estonian NorthOssetian Mongol 33.34 +/- 21.02 78.29 +/- 26.94 60.86 +/- 18.02
success Estonian Saami Mongol 30.18 +/- 12.76 10.32 +/- 5.23 60.86 +/- 18.02
success Estonian CEU Saami 27.56 +/- 18.66 26.04 +/- 7.49 10.32 +/- 5.23
success Estonian Italian-Center Saami 18.61 +/- 8.75 79.75 +/- 23.77 10.32 +/- 5.23

Наиболее близкая к нашему времени времени датировка события адмикса в эстонской популяции 18.61+-8.75 поколений назад, то есть  между 1450-1670 годами. Источники адмикса общий — программа улавила сигнал адмикса со стороны популяции которая на 86.1 +/- 5.2% напоминает cовременных шведов,  50.2 +/- 9.2% процента напоминает по генофонду популяцию современных северных итальянцев, и на 44.3 +/- 9.7 % напоминает выходцев из северо-западной Европы.  Теоретически, это может быть любая популяция из северо-западной Европы (это,кстати, подтверждают положительные результаты корреляции с CEU). Второй компонент того же адмикса связан с популяциями Фенноскандии, прежде всего саамами, однако он достаточно слаб (истинная популяция адмикса содержала в своем генофонде около 3.3 +/- 1.5 генов саамов).

Более экзотичные комбинации содержат адмикс со стороны популяций, несущих в себе умеренный % кавказских (26.2 +/- 5.1) и незначительный процент % восточносибирских аллелей (4.7 +/- 1.6 %).  Большая часть интервала датировки этих адмиксов перекрывается и уходить в эпоху великого переселения народов в первые века нашей эры. Поэтому эти компоненты проникли в эстонский генофонд опосредованно через смешивание с какой-то восточноевропейской популяцией, уже содержащей в себе генетические наследие смешивания с популяциями Кавказа и степи.