латыши | Заметки о генетике

Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии

Опубликовано 26 июля, 201430 июля, 2014 автором srkzgenetics

Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии.

Этнокалькуляторы на базе Admixture, представляющие результат «просчета» генома испытуемого в виде смеси предковых компонентов, достигли уже очень хорошей точности. Однако у них есть и определенные недостатки. Во-первых, случается, что у двух разных народов пропорции смешения этих компонентов довольно близки, хотя близкого родства между ними не наблюдается. Обычно для исключения такого эффекта увеличивают число компонентов, то есть повышают детализацию. Однако при этом зачастую возрастает и «шумность», случайные отклонения от ожидаемых значений. Кроме того, бывает тяжело понять — смешение произошло в предыдущем поколении, или тысячу лет назад? Если человек происходит из двух отдаленных народов, он часто позиционируется в географической точке, находящейся между ними, и непохож ни на один из родительских народов. При более сложносоставном происхождении все запутывается еще сильнее.

Нет ли метода напрямую измерить уровень родства отдельного человека с той или иной популяцией? При такой постановке вопроса сразу приходит на ум один из возможных ответов — необходимо просчитать количество IBD (то есть идентичных благодаря общности происхождения) аутосомных сегментов. Такой подход уже реализован в утилите от 23andMe под названием Countries of Ancestry, однако с рядом заметных недочетов. Используются результаты опроса пользователей сервиса о стране их происхождения, при этом непонятно, каков размер выборки от каждой страны. Да и детализация уровня «страна» для жителей России явно не подходит — зачем мешать в одну кучу карел, осетинов и якутов.

К счастью, эти проблемы можно частично устранить, используя научные выборки (либо коммерческие, однако набрать подобный объем из коммерческих выборок мне сейчас не по силам). С удешевлением процесса генотипирования количество имеющихся в открытом доступе выборок начало быстро расти. В первую очередь я использовал выборки, выложенные на сервере Эстонского биоцентра . Они стали основой. Часть пробелов была заполнена выборками из недавней работы Hellenthal , их пришлось переконвертировать из build 36 в build 37. Отдельное спасибо Вадиму Вереничу за помощь с несколькими выборками, хорошо увеличившими охват этнокарты.

Главной сложностью в работе оказалось сведение геномов из всех источников вместе. В каждой научной работе использовался свой набор снипов, часто с разной ориентацией. Коммерческие выборки тоже неоднородны — например, в FTDNA, как оказалось, существует четыре варианта файлов raw data со слегка отличающимся набором снипов и разной ориентацией примерно трех сотен из них. Добавьте к этому два варианта выравнивания и трансферы из 23andMe (у которой нашлись свои заморочки, например, дублирование одних и тех же снипов под разными названиями).

Конечно, хотелось использовать как можно большее количество снипов. Однако после ряда попыток придумать коэффициенты пересчета и прочее, стало понятно, что это методологически неверно. Пришлось оставить лишь те снипы, которые присутствовали во всех используемых выборках, в стандарте FTDNA, а также на чипе v3 от 23andMe. Вероятно, в будущем придется включить в просчет и новый, четвертый чип от этой компании, однако пока я решил с ним не связываться. В общем итоге осталось около 244 тысяч снипов — не так уж мало, я опасался худшего. От покрытия FTDNA это составляет чуть больше трети.

Компания FTDNA и сервис Gedmatch используют для фильтрации общих сегментов критерий наличия не менее 700 снипов. Однако для мелких сегментов он выполняется не так уж часто (из-за чего у клиентов FTDNA возникает иллюзия сравнительно небольшого количества таких сегментов). Поэкспериментировав, я остановился на рубеже в 150 снипов — менее него количество сегментов, являющихся статистическими артефактами, начало быстро расти. Основным показателем для отрисовки на этнокарте я взял общую сумму сегментов длиной более 3 сМ. Конечно, более длинные сегменты являются более четким показателем родства, однако их заметно меньше. А это значит, что их количество более подвержено случайным отклонениям. С другой стороны, более мелкие сегменты сливаются в общую кашу. Таким образом, выбранный критерий является компромиссом. При увеличении объема выборок на порядки станет возможно использовать только длинные сегменты и улавливать родство более четко.

Метод дает релевантные результаты при сравнении с выборками свыше 10 человек. Чем меньше размер выборки, тем сильнее влияние случайных отклонений. Из-за этого часть выборок я объединил вместе (например, литовцы и латыши стали балтами), часть исключил с карты. Однако некоторые все же пришлось оставить — в первую очередь это финны (2 человека), западные украинцы (6), башкиры (6) и австрийцы (4). Если для какой-то популяции значения явно выпадают из ряда соседей, всегда обращайте внимание на размер выборки, приведенный в сопроводительной таблице.

Одновременно достоинством и недостатком метода является сильное влияние «эффекта основателя», «множественного родства», «бутылочных горлышек» и т.д. За этим перечислением скрывается примерно одно и то же — когда популяция происходит от сравнительно небольшой группы людей, ее члены разделяют между собой большое количество общих сегментов. Наиболее известным примером являются евреи-ашкенази — достаточно иметь одного отдаленного предка из этого народа, чтобы получить множество генетических «кузенов». Таким образом, родство с народом, подвергшемуся такому эффекту, видно более четко. Но это же искажает общую картину — одинаковое количество генетических пересечений может означать совершенно разную степень близости в зависимости от истории популяции.

Я сравнил 26 человек из коммерческих выборок, представляющие различные популяции интересующих меня регионов, с набором из 1130 геномов, взятых из научных выборок. Результаты сведены в таблицу и частично визуализированы на картах. При интерпретации помните о вышеперечисленных искажениях!

Начнем с представителя народа, считающегося наиболее архетипичными восточноевропейцами в большинстве этнокалькуляторов. Это литовцы (картинка увеличивается по клику):

Как видно, литовец оправдывает это звание и по количеству общих сегментов. Красное пятно закрывает большую часть Восточной Европы, в том числе и балтийских финнов. Условно говоря, на этой карте мы видим некий «базовый уровень родства» среди восточноевропейцев.

Пятно восточного финна практически совпадает по форме, однако распределение интенсивности иное:

Я бы сказал, что в основном это более частный и специфичный вариант того же, что мы видим у литовца. Доказательством может служить высокий уровень пересечения с балтской выборкой. В то же время, существует и финская специфика, например, пересечение с саами, которые у литовца довольно бледные. Более яркое и пересечение со шведами. Скорее всего, здесь мы видим результат включения в состав шведов финского субстрата, поскольку с теми же норвежцами интенсивность явно ниже.

Крайней западной точкой у нас будет представитель российских немцев. На этнокалькуляторах Admixture он получается достаточно типичным представителем немецкого народа, поэтому версию о заметном влиянии на его наследственность русских можно исключить.

К сожалению, немецкой выборки у меня нет, поэтому Германия закрашена серым. Некоторым заменителем является Швеция, которая чуть ярче соседей. К некоторому удивлению, французы и британцы не показали заметной общности с немцем, хотя ее уровень все же выше средневосточноевропейского. Частично это может объясняться тем, что в британской выборке лишь семь человек из 23 — англичане, остальные являются ирландцами. шотландцами и валлийцами. Пятно у восточных украинцев и южных русских также загадочно — неужели это след знаменитых готов?

Невозможно исследовать генетическое разнообразие восточноевропейцев и обойти при этом ашкенази. Поэтому я позволил себе небольшую некорректность и разместил их на карте в районе нынешней Одессы. Картинка для ашкенази из коммерческой выборки:

Ожидаемое ярко-красное пятно сходства с родной популяцией, остальные все довольно далеко (на втором месте получилась выборка сефардов, но ее на карте нет). Повышение у басков и греков показывает родство ашкенази со средиземноморскими популяциями, пятно у восточных украинцев и белорусов объяснимо длительным совместным проживанием.

Перейдем к восточным славянам. Небольшой размер выборки западных украинцев не помешал им оказаться на первом месте у карпатского русина:

Пятна на остальной территории получились довольно неровными. Я бы не стал делать из этого каких-то глубоких выводов о древних пересечениях карпатцев и финнов или эрзян.

Северо-восточная Беларусь:

Украина (Полтава):

Обращает на себя внимание пересечение с поляками.

Человек смешанного происхождения — донские казаки и украинцы:

Тверь-Рязань:

Как видно, балто-славянская общность улавливается всегда, в то время как более тонкие различия частично видны, частично скрываются шумом (случайными отклонениями).

Представители эрзи и мокши явно в своей основе близки балто-славянам. При этом балтийские финны никак не выделяются, а народы волго-уральского региона уже довольно далеки. Все это не является новостью для интересующихся темой людей, однако независимое подтверждение результатов показывает действенность методики.

Эрзя:

Мокша:

Мокшанская выборка не помещена на карту из-за своего маленького размера (давала слишком большие случайные отклонения). У мокши «родная» выборка получилась заметно ближе эрзянской, у эрзи, соответственно, наоборот. Вероятно, это значит, что, несмотря на родственность двух групп, различие между ними с точки зрения разделяемой популяционной истории существенно (простыми словами, женились преимущественно внутри своего народа).

У северного русского видно родство как с балто-славянскими выборками, так и с балтийскими финнами:

Наряду с этим, у русского из Пермского края ощущается влияние коми. Вероятно, с этим же связано и приближение других народов Урала:

В то же время, сами коми-зыряне скорее относятся к тому же «балто-славяно-финскому» кругу популяций:

Чтобы не делать пост бесконечным, карты для народов волжско-уральского региона (в широком смысле) будут приведены в следующей части.

Этногеномика беларусов — часть V

Опубликовано 27 апреля, 2014 автором verenich

Обсуждение результатов и выводы

Как отмечалось в введении к нашей статье, главной задачей нашего исследования являлась проверка двух рабочих гипотез, озвученных в предыдущих исследованиях профессиональных попгенетиков. Во-первых, это гипотеза о присутствии трех основных древних компонентов , которая указывает на возможность общего происхождения славян и балтов. Во-вторых, это утверждение о том, что своеобразие аутосомного генофонда беларусов может быть связанно с вкладом балтского субстрата.

После внимательного изучения результатов нашего исследования,можно сказать, что оба из приведенных выше заключений представляют собой крайне упрощеные варианты сложного процесса формирования аутосомного генофонда беларусов. Хотя мы и не можем предоставить окончательных аргументов в пользу или опровержение каждой из этих версий, мы может предоставить более полное и подробное обозрение структуры аутосомного генофонда. В отличие от трех основых компонентов, упомянутых выше, в нашем исследовании мы выделили шесть основных компонентов, типичных для европейцев в целом. Основу генофонда составляет компонент, который мы обозначили как северо-восточно-европейский компонент. Именно этот компонент выделяет беларусов среди других восточных славян, приближая их к современным балтийским популяциям (у литовцев процент компонента составляет 81,9, у латышей — 79,5%, у беларусов -76,4%, у эстонцев — 75,2%). Примечательно, по мере удаления от территории Беларуси на север в с торону Латвии и Эстонии, увеличивается процент северо-европейского генетического компонента (как мы полагаем, этот компонент доминировал в генофонде доисторических жителей Скандинавии в эпоху до распространения финно-угоров и индо-европейцев). С другой стороны, беларусов и других восточных славян отдаляет от балтов и сближает друг к другу более высокий процент так называемого западно-азиатского или кавказского компонента (любопытно, что в этом случае эта закономерность может свидетельствовать в пользу западно-азиатской теории происхождения индо-европейцев).

Далее, как показывает анализ в программе fineStructure, генофонд беларусов характеризируется высокой степенью генетических контактов как с балтами, так и остальными славянами, а также с рядом финно-угорских популяций (например, c эрзя и мокша). О симметричном характере межпопуляционного обмена свидетельствует симметричное расположение популяции беларусов относительно этих трех групп.

Исходяизвышенаписанного,представляетсялогичнымсделатьвыводотом,чтоосновнойкритическийэтапстановленияаутосомногогенофондапришелсянапериодсмешиванияносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,послечегопредковыйаутосомныйгенофондбеларусовприобрелотносительнуюстабильность.Разумеется,даннаямодельнеисключаетпозднейшиеэпизодысмешиванияпопуляций,ноониоставилименьшийследвструктуреаутосомногогенофондабеларусов.Вэтойсвязивозникаеточевидныйвопрос–вкакойименноисторическийпериодпроизошлосмешениеносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,иктобылиихносителями?
В начале сентября 2012 года известная американская лаборатория популяционной генетики доктора Райха опубликовала альфа-версию программного продуктаADMIXTOOOLS1.0. Альфа-версия была разработана для внутреннего использования, поэтому modusoperandiэтого продукта вряд ли является кристально понятным для стороннего пользователя. Положительным аспектом на мой взгляд является то, что ADMIXTOOLSпакет обеспечивает полную совместимость с форматом другой очень популярной программыEIGENSOFT, которая была разработана в той же лаборатории. Это немаловажное обстоятельство намного упрощает процесс обучения в ADMIXTOOLS.

Вышеупомянутый пакет включает в себя 6 приложений, среди которых я считаю наиболее полезнойqp3Popи утилиты для вычисления частотной характеристики аллелей. Впрочем, я не собираюсь обсуждатьqp3popво всех деталях и в контексте данной заметки достаточно отметить, что эта программа реализует тест three_pop(F_3), подробно описанный в известной статье Рейха и соавт. 2009.

Однако другой имплементированный в пакете метод, – метод rolloff– нуждается в более пристальном внимании. Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатураLD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории, чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения LDв адмиксе напрямую связана с числом поколений, прошедших с момента адмикса, так как cвозрастанием числа поколений увлечивается число рекомбинаций произошедших между двумя отдельными SNP-ами. Проще говоря: Rolloffсоответствует экспоненциальной кривой угасания уровня LDот расстояния, и эта скорость экспоненциального снижения как раз и используется для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.

Этот метод открывает интересные перспективы. Для целей этого анализа, я создал специальный набор SNP-данных, который включает в себя около 750 000 cнипов, частично или полностью в 250 различных популяциях человека. Далее, я разбил популяции 3 * 62 000 трио в следующем виде (X, Y, Z), где X и Y – пара рефренсных групп, а Z – белорусы из коллекцииBehar et al.2010. После этого я провел q3Pop анализ этих трио.

Результаты изложены в нижеприведенной таблице

Indian	Polish	Belarusian	-0.000736	0.000251	-2.935
Polish	Indian	Belarusian	-0.000736	0.000251	-2.935
Karitiana	Sardinian	Belarusian	-0.001278	0.000517	-2.471
Sardinian	Karitiana	Belarusian	-0.001278	0.000517	-2.471
Otzi	North_Amerind	Belarusian	-0.002556	0.001126	-2.271
Cirkassian	Polish	Belarusian	-0.000488	0.000231	-2.113
Polish	Cirkassian	Belarusian	-0.000488	0.000231	-2.113
Pima	Otzi	Belarusian	-0.002727	0.00137	-1.99
Pima	Sardinian	Belarusian	-0.000794	0.000431	-1.843
Sardinian	Pima	Belarusian	-0.000794	0.000431	-1.843
Otzi	Surui	Belarusian	-0.002938	0.001931	-1.522
Surui	Otzi	Belarusian	-0.002938	0.001931	-1.522

На первый взгляд, результаты нашего эксперимента с 3qPop, кажется, неплохо согласуются с выводами, содержащимися в работеПаттерсон и др. 2012: “Самый поразительный вывод состоит в обнаружени четкого сигнала адмикса в северной Европе, один из элементов которого связан с предками населения наиболее близкого по своей генетике к баскам и жителям Сардинии, а другой – с предками современного населения северо-восточной Азии и Америки. Этот явный сигнал, вероятно, отражает историю смешивания неолитических мигрантов с коренным населением Европы, что подтверждается недавним генетическим анализом древних костей Швеция и секвенированием полного генома Отци Тирольца”. Что касается собственно белорусов, то источники сигнала смешивания с посторонними популяцими менее ясны и расплывчаты. Как было показано ранее, с точки зрения формального анализа примесей (f3 статистики), белорусы могут быть представлены в виде популяционного микса поляков и индусов / черкессов. Первый компонент смеси может быть связан с носителями культуры шнуровой керамики/боевых топоров и культуры колоковидных кубков; второй, в соответствии с результатами, должен быть общим для индусов и черкесов.

Белорусы = ((неолитические культуры Европы) + “носители культуры колоковидных кубков”) + (мезолитическое население Европы) + компонент носителей культуры шнуровой керамики)) + скифо-сарматский тип

Для оценки дата события базового адмикса в белорусской популяции, мы использовали в качестве референсных популяций поляков и индусов (Примечание: мы снизили порог генетических дистанции в параметрах Rolloff для снижения уровня шума от более поздних адмиксов).

Как вы можете видеть, сигнал присутствия адмикса обнаруживается гораздо хуже, и в силу этого, погрешности в оценке временного промежутка высоки:

154,158 + -87,024 поколений назад (или, 4470 + -2523 года до настоящего времени / 2510 – +2523 лет до н.э.).

Исходя из этого, мы решили модифицировать Rolloff-анализ генофонда белорусов, используя на этот раз в качестве референсов литовцев и пуштунов. Следуя этому совету, я решил предпринять вторую попытку формального анализа адмикса в двух имеющихся у нас выборках беларусов ( выборка беларусов из статьи Behar et al. 2011), и выборка беларусов, собранная в нашем проекте.Ниже приведены результаты эксперимента с двумя этими группам (в отличие результатов нашей предыдущей попытки, результаты данного эксперимента менее “зашумленные”):

Интервал числа поколений, прошедших со времен анализируемого адмикса (105.086+-52.59) или 3069 +- 1525 лет до настоящего времени, что соответствует временном интервалу 2 тыс. до нашей эры – 6 век нашей эры. Принимая во внимание эти выводы, мы можем предположить, что основной аутосомный эпизод смешивания предковых популяций беларусов произошел в течении довольно таки продолжительного времени, охватывающего несколько тысяч лет. В этой связи, вопрос о том, кто именно был носителями северо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента, остается открытым.

Этногеномика беларусов — часть IV

Опубликовано 27 апреля, 2014 автором verenich

Анализ структуры аутосомного генофонда популяции беларусов: результаты анализа этнического адмикса.

После проведения анализа этно-популяционного адмикса мы получили следущие результаты, обсуждению которых будет посвящена следущая часть нашего исследования. Результаты представляют собой разбивку аллельных частот на 22 кластера, каждый из которых представляет собой гипотетическую предковую популяцию. Поскольку в цели данного небольшого исследования не входит подробный анализ всех популяций, мы ограничимся сравнительном анализом структуры (компонентов) беларусов c географически близкими популяциями, а также с теми популяциями, которые могли входить в исторические контакты с предками современных беларусов:

Рисунок 3. Результатыанализа ADMIXTUREK=22

У рассматриваемых здесь европейских популяций наиболее часто представлены следующие компоненты:

North-East-European,Atlantic_Mediterranean_Neolithic,North-European-Mesolithic, West-Asian, Samoedic, Near_East.

Разберем вкратце каждый из них. В ракурсе нашего исследования самым важным компонентом представляется – северо-восточно-европейский компонент North-East-European, он присутствует почти у всех европейцов, и в самой значительной степени — у балтов и славян: литовцы (81,9), латыши (79,5), беларусы (76,4), эстонцы (75,2), поляки (70,2), русские (67- 70,4), украинцы (62,1- 67,1), сорбы (65,9), карелы (60,2), вепсы (62,5), чехи (57,4), северные немцы (54,6), южные- 42,6, у британцев от 46 до 49, норвежцы- 48,1, шведы- (53,7).

Второй по значимости компонент — Atlantic_Mediterranean_Neolithic (юго-западно-европейский или просто западно-европейский неолитический компонент).[1]У восточноевропейцев он выражен в умеренной степени- чехи (27,8), поляки (18,4), украинцы ( от 17 до 21%), беларусы (13%), русские (от 11 у северных до 17,3 у южных), у коми (8,9 %), манси (8,8 %).

Третьй компонент – северо-европейский мезолитический компонент -North-European-Mesolithic[2]: cаамы (76,4 %), финны (от 30,1 до 37,3 %), вепсы (24,1), карелы (23,2), ижорцы (22, 7). Заметен этот компонент и у северных русских (10,5 %), норвежцев (9,8 %), шведов (7,8 %), эстонцев (7,1 %). У беларусов он практически отсутствует (1.1%).

Четвертый компонент – западно-азиатский (кавказский) West Asian[3]. На интересуемой нас территории этот компонент чаще встречается у казанских татар (9,9 %), южных немцев (8,4), украинцев (от 6,6 до 7,7 %), южных русских (6,2%). На западе высок процент у итальянцев (21,5 % у центральных итальянцев), французов (6,7 %), у беларусов (2.2%).

Пятый компонент — уральский Samoedic. Значительно присутствует у селькупов (68,1%), хантов (64,6), ненцы (37,1), манси (30,9 %-), удмурты (29,6), марийцы (27, 8), шорцы (22,0 %), башкиры (21,7%), чуваши и хакассы по 17,6 %, коми- 16,4 %, казанских татар (11,9 %). У западноевропейцев этот компонент практически не встречается, у русских (от 1,0% у центральных до 4,7 % у северных), у карел (1,6%), словаков (1,4%), западных украинцев (1,7 %), беларусы (0.5%).

Шестой компонент – ближневосточный Near_East[4]У южных немцев (3,5), украинцы (от 2,3 у восточных до 3,8 % у западных), чехи (3,0), беларусы (3,4), словаки (3,2), у русских от 1,0 до 1,5%, у литовцев- 1,4%, у поляков- 1,3 %.

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[1]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[1]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[1]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

Анализ разделяемых аутосомных сегментов между популяциями Северо-Восточной Европы.

С целью верификации результатов анализа главных компонентов генетического разнообразия я подготовил новую выборку популяций, которая включает в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.В ходе нового экспериментального теста в ходе статистической обработки общих по генетическому происхождению сегментов хромосом в составе выборки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, т.е размера той популяции которая участвовала в репродукции или обмене генами в некоем отдаленном временном промежутке. Собственно говоря, эффективная популяция – это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955). Новая программа Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение составило 22 000. Это близко к значениям Neрекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных ниже результатов, даже 22 000 для совокупности эффективного размера элементарных популяций – это более, чем достаточно.

Рисунок 4. Расположение популяций в пространстве 1 и 3 главных генетических компонентов

Изложим ниже некоторые закономерности размещения популяци

Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
Все литовцы (участники проекта + референсы из вышеупомянутой статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев
Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.
Ниже находится балканский кластер (румыны, болгары и часть венгров).
К этому кластеру примыкают турки и часть армян
В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов).
Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.
Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.
Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).
Левее этой группы популяций находится кластер ашкеназов.
Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.
Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.
Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)
Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей
Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).[5]

[2]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[3]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[4]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

[5]Такое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции.То есть все эти баски являются многократными родственниками между собой т.е., положение басков на графике есть следствие классического генного дрейфа, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества sharedDNAchunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.

Исходя из этого можно сделать вывод о том что баски эта экстремально-эндогенная популяция изолянтов, при этом генетическое разнообразие басков низко, т.к. размер эффективной популяции басков низок.

Этногеномика беларусов — часть III

Опубликовано 27 апреля, 201427 апреля, 2014 автором verenich

Анализ этно-популяционного адмикса

В ходе следующеего этапа, окончательный набор данных по референсным популяциям (которые я храню в linkage-формате PLINK) был обработан в программеAdmixture. Во время выбора подходящей модели проведения теста на этно-популяционный адмикс, мы столкнулись с крайне трудной задачей: как было показано в профильных научных исследованиях (Pattersonetal.2006) количество маркеров, необходимых для надежной стратификации популяций в анализе обратно пропорциональна генетическому расстоянию (фСТ) между популяциями. Согласно рекомендациям пользователей программы Admixture, считается что примерно 10 000 генетических SNP-маркеров достаточно для выполнения интер-континентальной GWAS-коррекции обособленных популяций (например, уровень дивергенции между африканскими, азиатскими и европейскими популяциями FST> 0.05), в то время как для аналогичной коррекции между внутриконтинентальными популяциями требуется более чем 100000 маркеров (в Европе, например, ФСТ < 0.01). Для повышения точности результатов Admixtureмы решили использовать метод, предложенный Dienekes. Этот метод позволяетпреобразовать частот аллелей в “синтетические” индивиды (см. такжепример Зака Аджмалаиз проекта HarappaDNA). Идея метода довольно проста: сначала необходимо запустить unsupervisedанализ Admixtureс целью вычисления частот аллелей в так называемых предковых компонентов, а затем на основании аллельных частот сгенерировать “фиктивные популяции”. Именно эти фиктивные популяции и индивиды будут использоваться в ходе чистых референсов в ходе последующего анализа этно-популяционного анализа. Впрочем, как и любые другие исследователи, работающий над четким решением проблемы этно-популяционного адмикса, мы были вынуждены считаться с ограничениями этого подхода. Хотя мы отдаем себе отчет в существовании явных методологических подвохов в использовании смоделированных искусственных индивидов для определения адмикса в реальной популяции, мы полагаем что полученные в ходе аллельно-частотного моделирования “фиктивных индивидов” представляют самую лучшую аппроксимацию древних генетических компонентов предпологаемых древних компонентов. В ходе применения простого моделирующего метода, нами были получены значимые результаты в ходе создания нового калькулятора. Сначала мы произвели unsupervisedAdmixture(при значении К = 22, т.е 22 кластера частот аллель или предковых компонентов). По выполнению анализа нами были получены оценки коэффициентов адмикса в каждой из этих 22 аллельных кластеров, а также частоты аллелей для всех SNP-ов в каждой из 22 родовых популяций.

Затем мы использовали мнемонические обозначения для каждого компонента (имена для каждого из компонентов выведены в порядке их появления). Нужно помнить, что обозначения этих компонентов носят скорее мнемонический условный характер:

Pygmy

West-Asian
North-European-Mesolithic
Tibetan
Mesomerican
Arctic-Amerind
South-America_Amerind
Indian
North-Siberean
Atlantic_Mediterranean_Neolithic
Samoedic
Proto-Indo-Iranian
East-Siberean
North-East-European
South-African
North-Amerind
Sub-Saharian
East-South-Asian
Near_East
Melanesian
Paleo-Siberean
Austronesian

Вышеупомянутые частоты аллель, вычисленные в ходе unsupervised(безнадзорного) анализа (AdmixtureK= 22) объединенного набора данных, были затем использованы для симуляции синтетических индивидов, по 10 индивидов на каждую из 22 предковых компонент. Это симуляционное моделирование проводилось с помощью PLINKкоманды -simulateРасстояние между между симулированными «искусствеными» индивидами было визуаилизировано с использованием многомерного масштабирования.

На следущем этапе, я включил группу смоделированных индивидов (220 индивидов) в новую эталонную популяцию. После чего я запустил новый анализ А, на этот раз в полном “поднадзорном” режиме для K= 22, причем полученные в ходе симуляционного моделирования фиктивные популяции фиктивных индивидов использовались в качестве новых референсных эталонных групп. На конвергенцию 22 априорно заданых предковых компонентов было затрачено 31 итераций (3 7773,1 сек) с окончательным loglikelihood: -188032005,430318 (ниже, на следущей странице, приведена таблица значений Fst между расчетными ‘предковыми’ популяциями):

Рисунок 1. FST-дистанции между компонентами

Приведенная выше матрица Fstдистанций была использована для определения наиболее вероятной топологии NJ-дерева всех 22 предковых компонентов ( примечание: в качестве outgroup-таксона использовался South-Africancomponent).

Древние геномы человека в перспективе генетического разнообразия современных популяций

Опубликовано 21 марта, 201421 марта, 2014 автором verenich

Примерно месяц тому назад, один из замечательных представителей «гражданской науки» в области генетики, известный геномный блоггер Polako (Давид Веселовски) разместил в своем блоге заметку, в которой были приведены результаты самостоятельного изучения вариативности снип-мутаций в пяти наиболее известных из отсеквенированных геномов древних людей. Хотя, как мне представляется, основное внимание Давид уделил все же прояснению ответа на вопрос о расположении древнего генома сибирского мальчика со стоянки Malta (13 тысяч снипов-вариантов в аутосомах) в пространстве главных компонентов генетического разнообразия (PCA) cовременных человеческих популяций. К слову, этот же образец (Malta-1) был на днях включен в новую таблицу откалиброванных процентных соотношений 13 конвенциональных генетических компонентов в популярном среди пользователей Gedmatch этно-популяционногенетическом калькуляторе Eurogenes K=13 . Наряду с вышеназванным образцом, в отреферированном анализе использовались геномные снип-варианты древнего ДНК австралийского аборигена (46 тыс.снипов), Anzick-1 генома древнего индейца культуры Кловис (106 тыс.снипов), генома древнего экскимоса Saqqaq (68 тыс.снипов), геном обитателя мезолитической Испании La-Brana 1 (23 тыс.снипов).

Можно предположить, что при проведении статистических анализов PCA, Давид использовал в качества сравнительного эталона-референса известный график из статьи Lazaridis et al. 2013.

PCA из статьи-препринта Lazaridis et. al .2013.

К сожалению , Давид из Eurogenes по определенным причинам не включил в свой анализ варианты снипов остальных известных евразийских древних геномов задействованных в PCA-анализе статьи-препринта Lazaridis et al. 2013, в частности древние геномы неолитического периода — женщин культур воронковидных кубков (Swedish_farmer) и культуры линейно-ленточной керамики Южной Германии (Stuttgart), а также неолитического жителя Тирольских Альп — Этци (Iceman). Нет в анализе Давида и образцов мезолитического и эпинеолитического генофонда Европы — мезолитических охотников-собирателей Motala и Losсhbour и неолитических охотников с острова Готланд (Skoglund_merge). C другой стороны, в широко обсуждаемой предварительной версии статьи Лазаридиса к анализу привлечены только актуальные в евразийской перспективе образцы, и поэтому на графике PCA отсутствуют геномы древнего аборигена Австралии и двух древних геномов из Северной Америки.

Я решил исправить эти недочеты за счет сведения всех древних геномов в единый график, увязав все эти геномы с древними популяциями предков современных этно-популяционных групп. Принципы анализа были относительно просты, окончательная выборка популяций была получена путем полуавтономного процесса слияния разных источников данных. Отсеве снипов у представителей популяций в окончательной выборке был минимальный — использовались только модификаторы фильтра MAF (частота минорных аллелей) и HWE (пороговый критерий качества снипов с точки зрения закона равновесия Харди-Вайнберга). Пороговое значение фильтр качества снипов по генотипированию я специально оставил слегка заниженным, так как снипы отбирались по низкому значению коэффицента попарного сцепления в неравновесном наследовании.

Ниже в таблице приведены сводные данные о древних геномах и размерности числа снипов этих образцов, которые использовались в моем анализе

Аncient (Afontova Gora) 10965

Australian Aborigen 236880

Otzi_Tyrolean 171195

Swedish_merged_farmer 1600

Swedish_merged_HG 4053

La Brana 57050

Malta-1 44459

LBK_Stuttgart 54220

Motala12 54677

Loschbour 54591

Motala_merged 35010

R Graphics Output — Визуализация двух первых главных компонентов разнообразия в популяциях выборки

В качестве программного обеспечения для проведения эксперимента с PCA, я использовал имплементацию PCA в новой версии программы plink. Эта имплементация уступает в точности вычислений классической программе Eigenstrat, однако заметно опережает в скорости, особенно на больших массивах данных.

Ниже я разместил серию визуализаций графика PCA. Первая иллюстрация — визуализация двух первых главных компонентов разнообразия, ставшая уже классической форма V-образного клина.

Из-за высокой плотности точек на графике, первая иллюстрация сложна для чтения. Поэтому вместо того, чтобы наносить названия точек на график, я рассчитал центроиды точек популяций и разместил их на графике вместе с названием популяции.

Как видно из второго графика, мировый популяции равномерно распределились по углам триангуляции. Африканские популяции длинным шлейфом-вектором от пигмеев до фулани, cахарцев и эфиопских этносов распредились в левой части V-клина. Между ними и европейцами находится большая группа смешанных рассовых групп — пуэрто-риканцы, доминиканцы, афроамериканцы Карибского региона и Северной Америки, морокканцы, мозабиты и жители Туниса. В вершине угла V клина находятся все классические европейские этнические группы и народности. Они образуют внутренний европейский градиент генетической вариативности, уменьшающийся по мере удаления на север. Северные популяции европейцев (особенно в Скандинавии и Прибалтике) смыкаются с находящимися на самой веришине угла древними геномами европейцев времен мезолита (Motala, Loschbour, La Brana,и перехода к неолита. Эта картина соответствует тому, что мы наблюдаем на графике Lazaridis et al. 2013. Наблюдаемая на моем графике более значительная дистанция шведских охотников-собирателей шведской культуры ямочной керамики от современных популяций северной Европы объясняется только тем, что в работе Lazaridis et al. 2013 использовалась большее количество тех снипов древних геномов, которые встречаются и в современных популяциях (т.е находятся в пределах современной вариативности генов жителей современной северной Европы). Поэтому дистанция в узказанной работе между древними и современными популяцими ниже (тот же феномен наблюдается и в неолитическом векторе). Неолитический «вектор» представлен шведским неолитическим фермером, Этци Тирольцем, женщиной из неолитического поселения возле современного Штуттгарта. Из современных популяций к этому вектору находятся близко сардинцы и баски.

Однако наиболее интересная картина наблюдается в правой части графика, где мы наблюдаем наложение сразу нескольких клинов-градиентов разнообразия. Наиболее сложная структура наблюдается в том месте правого «крыла» графика, куда проецируются геномы двух палеолитических жителей Сибири (Malta-1 и AG). В этом месте график начинает ветвиться на три тесно переплетенные вектора-градиенты. Один уходит через Средную Азию-Непал-Северную Индию на юг, где встречается в двигающимся ему навстречу вектору-градиенту представленному австралийскими аборигенами, онге, папуасами, меланизийцами, андаманцами и дравидами. Второй вектор ведет через Алтай-Монголию и Китай в Индокитай и юго-восточную Азию.

Третий вектор разделяется сразу на две части — одна ведет к палеосибирским народами и далее к алеутам и экскимосам. Этот вектор заканчивается древним геномом Saqqaq, который видимо является самым чистым «образчиком» генома древних людей, связанных с этими группами. Второй уходит через группу североамериканских индейских народов на юг, в Мезоамерику и далее к индейцам южной Америки. Вектор заканчивается на Anzick-1, и — по аналогии c Saqqaq, — можно сделать вывод о том, что этот геном является квинтэссенцией «чистого америндского компонента» без позднейших вкраплений в ходе контактов с европейцами.

Примечательно, что эти вектора переплетены между собой настолько, что в 2-мерном пространстве первых двух компонент, чукчи и коряки, североамериканские индейцы и экскимосы, кхмеры и индусы оказываются рядом. Очевидно, что эта иллюзия. С целью доказать это утверждения, я построил трехмерную визуализацию положения центроидов популяций в пространстве первых трех главных компонентов генетического разнообразия.

Практические рекомендации по работе с данными древней ДНК – часть 3

Опубликовано 13 июня, 201313 июня, 2013 автором verenich

В предыдущем посте я разместил вторую часть примерных рекомендации по работе с данными древней ДНК с практическим примером директив программы Plink.

После проведения анализа я получил следующие данные о геномной «схожести» ДНК древних насельников Европы и cовременных популяций людей.

Итак, я начну с данных Этци-ледового человека из Тироля.

I.Этци

Данные схожи с результатами аналогичных вычислений в оригинальной статьей (в которой была показана близость Этци к современным сардинцам в ракурсе первых двух главных компонентов генетического разнообразия). В нашей, более масштабной, выборке Этци оказывается близок не только к сардинцам, но и к корсиканцам, северным итальянцам и тосканцам. Кроме того, в отличии от оригинальной статьи, видно что другие компоненты генетического разнообразия сближают Этци с ближневосточными популяциями, кавказцами и популяциями восточного Средиземноморья. Примечательно, что в программе fineStructure, где используются фазированные данные, Этци попадает в кластер пьемонтцев, — популяции наиболее близкой к местам в которых, как предполагается, жил Этци

Uzbeki_jew	Otzi	0.646834
Irani-jew	Otzi	0.645444
Azeri_jew	Otzi	0.645254
Kumyk	Otzi	0.644682
Algerian_Jew	Otzi	0.644546
Corsican	Otzi	0.6437835
Ashkenazi_Jew	Otzi	0.643497
Sardinian	Otzi	0.6430069
Cretan	Otzi	0.642585
Tuscan	Otzi	0.642299
Syrian_Jew	Otzi	0.6422305
GreeceThessaly2	Otzi	0.641938666666667
Bulgarian	Otzi	0.641346
Portugese	Otzi	0.640887333333333
Center-Italian	Otzi	0.64044025
Romanian	Otzi	0.6397932
French_Basque	Otzi	0.639631
Costanoan	Otzi	0.639535
Egyptan	Otzi	0.639511571428571
Azeri_Jew	Otzi	0.639471333333333
Cypriot	Otzi	0.639013
Bosnian	Otzi	0.639004857142857
Yemen_Jew	Otzi	0.638963
Toscanian	Otzi	0.63891
Macedonian	Otzi	0.638783625
Morocco_Jew	Otzi	0.638593307692308
Greek	Otzi	0.638391166666667
Gagauz	Otzi	0.6383745
Italian_Jew	Otzi	0.6382314
Spain	Otzi	0.638200666666667
Sephard	Otzi	0.637888105263158
North_Italian	Otzi	0.637741333333333
North_Greek	Otzi	0.637464333333333
Hungarian	Otzi	0.63745125
French	Otzi	0.63742736
Tunisian-jew	Otzi	0.63733325
South-Germanian	Otzi	0.637282482758621
Iraq_jew	Otzi	0.637247
Sicilian	Otzi	0.63712
Ashkenazi	Otzi	0.6370677
Libyan_Jew	Otzi	0.637057
Swede	Otzi	0.636882647058824
Center-Greek	Otzi	0.636866
North-Greek	Otzi	0.63681875
CEU	Otzi	0.6366755
Montenegrin	Otzi	0.636612
South-Greek	Otzi	0.636612
Czech	Otzi	0.6365207
Colville	Otzi	0.636485
Welsh	Otzi	0.636406111111111
Iberian	Otzi	0.636382375
German	Otzi	0.6363546
Iraqi-jew	Otzi	0.636351666666667
Georgian_Imereti	Otzi	0.6363372
Turk	Otzi	0.636294941176471
Syrian	Otzi	0.636126461538462
Sorb	Otzi	0.635990692307692
Belorusian	Otzi	0.635913
Yemen_jew	Otzi	0.635805285714286
Swiss	Otzi	0.635714047619048
British	Otzi	0.635675083333333
Jordanian	Otzi	0.635631333333333
Libyan	Otzi	0.635575538461538
Armenian	Otzi	0.635448428571429
Balkar	Otzi	0.635168333333333
Azeri	Otzi	0.635065857142857
Iran_jew	Otzi	0.6350402
Russian_cossack	Otzi	0.6349466
Druze	Otzi	0.634933818181818
Orcadian	Otzi	0.634880833333333
Romanian_Jew	Otzi	0.6348645
Libyan-jew	Otzi	0.6348278
Mordovian	Otzi	0.634652636363636
Slovenian	Otzi	0.6346172
North-Ossetian	Otzi	0.634498538461538
Croat	Otzi	0.6344835
Algerian-jew	Otzi	0.6344135
Tatar	Otzi	0.6344055
Georgian_Laz	Otzi	0.634376
France_Jew	Otzi	0.6343665
Khazar_jew	Otzi	0.634292242424242
Aleut	Otzi	0.634197
Pole	Otzi	0.634177428571429
Abhasian	Otzi	0.6340056875
Palestinian	Otzi	0.633990545454545
Tat	Otzi	0.6339235
Georgian	Otzi	0.633884785714286
Roma	Otzi	0.633635409090909
Tunisian_Jew	Otzi	0.63353
Ukrainian	Otzi	0.6335218
Serb	Otzi	0.633398909090909
Iraqi	Otzi	0.633383
Egyptian	Otzi	0.633367714285714

II. Gök и Ste7 — женщины-фермеры эпохи шведского позднего неолита (Культура воронковидных кубков, КВК (англ. Funnel Beaker culture, нем. Trichterbecherkultur, TRB) — мегалитическая культура (4000 — 2700 гг. до н. э.) эпохи позднего неолита.)

В отличие от нашего предыдущего анализа, где мы использовали только Gök, мы решили создать композитного индивида за счет слияния геномных данных Gök и Ste7 (см.предыдущие посты этой серии). Это было сделано с целью реконструировать аутосомные составляющие предковоой популяции культуры КВК. Из приведенной ниже таблицы становятся ясно, что:
1) большая часть генетического разнообразия у анализируемых индивидов не встречается ныне ни в одной из современных популяций, и именно это потерянное в результате дрейфа генетическое разнообразие объединяет носителей древней ДНК в общий красный кластер

2) у представителей культуры заметно влияние древних генетических контактов популяций Северной Европы и палеосибирских популяций, предковых по отношению к современным америндам (зеленый кластер).

3) третья группа (обозначена синим цветом) аналогична одному из вышеупомянутых выше компоненту генетического разнообразия Этци. Она сближает древнее население КВК с современными популяциями западной и южной Европы. В этом компоненте нет существенных разногласий с исследованиями популяционных генетиков из Уппсальского университета Швеции.

SwedeTBK	Bra	0.905852
SwedePWC	SwedeTBK	0.866097
SwedeTBK	Otzi	0.807465
SwedeTBK	N._European	0.59325092
Athabask	SwedeTBK	0.588854
Hungarian	SwedeTBK	0.581786

Irani-jew	SwedeTBK	0.580844
North_Italian	SwedeTBK	0.580643
Kosovar	SwedeTBK	0.58033
Bulgarian	SwedeTBK	0.579557
East-Ukrainian	SwedeTBK	0.579557
Kusunda	SwedeTBK	0.5793
Colville	SwedeTBK	0.578864
French_Basque	SwedeTBK	0.578806818181818
Serb	SwedeTBK	0.577398818181818
Romanian	SwedeTBK	0.5773258

Mansi	SwedeTBK	0.5770508
CEU	SwedeTBK	0.577024142857143
GreeceThessaly2	SwedeTBK	0.576754333333333
Kumyk	SwedeTBK	0.576725
Iraqi	SwedeTBK	0.576398
SwedeTBK	Buryat	0.5757842
Costanoan	SwedeTBK	0.57571
Haida	SwedeTBK	0.57571
German	SwedeTBK	0.5753862

Nyshi	SwedeTBK	0.57530875
Ket	SwedeTBK	0.5750755
Bosnian	SwedeTBK	0.574970714285714
Portugese	SwedeTBK	0.574837
Welsh	SwedeTBK	0.574730333333333
Corsican	SwedeTBK	0.574707

North-Russian	SwedeTBK	0.574510043478261
West-Ukrainian	SwedeTBK	0.5742968
South-Russian	SwedeTBK	0.574150333333333
Croat	SwedeTBK	0.574003833333333
Karelian	SwedeTBK	0.573929692307692
Slovak	SwedeTBK	0.573892833333333
Tlingit	SwedeTBK	0.573607
Tunisian-jew	SwedeTBK	0.5735595
Syrian_Jew	SwedeTBK	0.5734265
Chuvash	SwedeTBK	0.573139533333333
Kalmyk	SwedeTBK	0.573079727272727
Center-Russian	SwedeTBK	0.572759636363636
SwedeTBK	Totonac	0.572689041666667
Macedonian	SwedeTBK	0.57251475
Center-Greek	SwedeTBK	0.572348
Russian_cossack	SwedeTBK	0.5723086
Mordovian	SwedeTBK	0.572217636363636
Vepsa	SwedeTBK	0.572191363636364
Brahmin_UttarPradesh	SwedeTBK	0.572158
Spain	SwedeTBK	0.572090666666667
Ecuadorian	SwedeTBK	0.572029375
France_Jew	SwedeTBK	0.571969833333333
Tatar	SwedeTBK	0.571906642857143
Mari	SwedeTBK	0.571502285714286
Saudi	SwedeTBK	0.5714354
Greek	SwedeTBK	0.571345
South-Greek	SwedeTBK	0.571232333333333
Mexican	SwedeTBK	0.57110925
Lahu	SwedeTBK	0.570989
Serrano	SwedeTBK	0.570978

III. Ajvs — древние жители культуры ямочной керамики (Культура ямочной керамики, Pitted Ware culture (около 3200 — 2300 гг. до н. э.) — культура охотников и собирателей эпохи неолита. Существовала на юге Скандинавии, в основном вдоль побережья Свеаланда, Гёталанда, Аландских островов, на северо-востоке Дании и на юге Норвегии. Была современницей, а в некоторых местах делила ареал с сельскохозяйственной культурой воронковидных кубков, а позднее — с сельскохозяйственной культурой шнуровой керамики.)

Также как и у представителей КВК, большая часть генетического разнообразия жителей у современных популяций Европы потеряна. Поэтому они попадают в общий кластер к другим древним исследованным европейским ДНК, и неспецифическому аутосомному фону Северной Европы.

Из современных популяциий наиболее близки к ним эстонцы, латыши,литовцы, а также ряд других популяций Балтийского региона (обозначены фиолетовым цветом), а также ряду популяций западной и южной Европы. Примечательно, что у Ajvs гораздо слабее выражен древний палеосибирский (квази-америндский компонент), и еще слабее типичный для Этци (I) и жителей культуры КВК (II) неолитический компонент, связывающий их с современными популяциями Ближнего Востока и Кавказа.
Здесь тоже нет существенных разногласиий с выводами группы Скоглунда, у которого (за отсутствием в выборке эстонцев, литовцев и латышей) самыми близкими к жителям культуры ямочной керамики оказываются поляки.

SwedePWC	Bra	0.908488
SwedePWC	SwedeTBK	0.866097
SwedePWC	Otzi	0.81501
SwedePWC	N._European	0.58268312
Estonian	SwedePWC	0.578113944444444
Russian	SwedePWC	0.577444333333333
Latvian	SwedePWC	0.57607
Lithuanian	SwedePWC	0.575179642857143
Orcadian	SwedePWC	0.575171333333333
Kosovar	SwedePWC	0.574342
Czech	SwedePWC	0.57363895
French	SwedePWC	0.57334168
South-Germanian	SwedePWC	0.572643965517241
Pole	SwedePWC	0.570919326530612
Haida	SwedePWC	0.570593
Sorb	SwedePWC	0.570527923076923
Center-Russian	SwedePWC	0.570395727272727
Karelian	SwedePWC	0.570175307692308
Swede	SwedePWC	0.570099
Corsican	SwedePWC	0.5696165
South-Russian	SwedePWC	0.569518
Vepsa	SwedePWC	0.569184181818182
CEU	SwedePWC	0.568893571428571
Swiss	SwedePWC	0.568845095238095
Komi	SwedePWC	0.568339363636364
SwedePWC	Totonac	0.568287625
Aleut	SwedePWC	0.568253
Sardinian	SwedePWC	0.5681032
North-Russian	SwedePWC	0.567888695652174
Bosnian	SwedePWC	0.567837857142857
French_Basque	SwedePWC	0.567750181818182
Mordovian	SwedePWC	0.567647363636364
Chuvash	SwedePWC	0.567504666666667
Serb	SwedePWC	0.567329090909091
Russian_North	SwedePWC	0.567027
Cretan	SwedePWC	0.5670035
German	SwedePWC	0.5669944
North-German	SwedePWC	0.566872769230769
SwedePWC	Samoan	0.566706384615385
Montenegrin	SwedePWC	0.566654333333333
East-Ukrainian	SwedePWC	0.56619975
Tatar	SwedePWC	0.566033785714286
Hungarian	SwedePWC	0.565851625
Ket	SwedePWC	0.5656705
Welsh	SwedePWC	0.565641444444444
SwedePWC	Irula	0.565603956521739
Bashkir	SwedePWC	0.565471333333333
Tuscan	SwedePWC	0.565401
Mexican	SwedePWC	0.5653275
West-Ukrainian	SwedePWC	0.5653062
Russian_Center	SwedePWC	0.565276
Mansi	SwedePWC	0.5651792
Macedonian	SwedePWC	0.56517625
Udmurd	SwedePWC	0.564932545454545
Balkar	SwedePWC	0.564865
Ukrainian	SwedePWC	0.5646252
Slovak	SwedePWC	0.564342833333333
Irani-jew	SwedePWC	0.564264
SwedePWC	AP_Madiga	0.5642395
Tsimsian	SwedePWC	0.564158
Center-Greek	SwedePWC	0.564144
Spain	SwedePWC	0.563930666666667
Bulgarian	SwedePWC	0.563776
Costanoan	SwedePWC	0.563768
Chenchus	SwedePWC	0.563652
North_Italian	SwedePWC	0.5636205
Mari	SwedePWC	0.563564857142857
Croat	SwedePWC	0.563453
Nenets	SwedePWC	0.563393583333333

IV. La Brana — испанский мезолит, 7000 лет до настоящего времени.

Результаты близки к результатам древних жителей Ajvs (культуры ямочной керамики), c той лишь разницей, что у них практически полностью отсутствует генетическая вариация, присущая современным южным европейцам. Кроме того, их мезолитический генофонд подвергся вымыванию в еще большей степени, чем генофонд древних жителей неолита, о которых я писал выше. Примечательно, что в отличии от Ajvs, у La Brana незаметна балтийская доминанта, хотя ближайшей популяцией и оказываются латыши. В оригинальной статье было показано, что древние мезолитические жители Иберии — La Brana — оказываются «близки» к западно-европейцам, и та же картина заметна и в нашем анализе

SwedePWC	Bra	0.908488
SwedeTBK	Bra	0.905852
Bra	Otzi	0.843151
Bra	N._European	0.60332376
Latvian	Bra	0.576167975609756
North-German	Bra	0.576164846153846
Estonian	Bra	0.576057666666667
Lithuanian	Bra	0.570270535714286
Russian	Bra	0.569868833333333
Czech	Bra	0.5694441
Swede	Bra	0.569444029411765
Russian_North	Bra	0.568627
Pole	Bra	0.567495653061225
Orcadian	Bra	0.567451
Bulgarian	Bra	0.567146
South-Germanian	Bra	0.566648551724138
TN_Brahmin	Bra	0.566116
Swiss	Bra	0.565266142857143
CEU	Bra	0.564653642857143
Center-Russian	Bra	0.564325727272727
Komi	Bra	0.564082181818182
Belorusian	Bra	0.563804
Athabask	Bra	0.563369
Mordovian	Bra	0.562895181818182
Kosovar	Bra	0.56235
Corsican	Bra	0.5621705
French	Bra	0.56141128
Tsimsian	Bra	0.560916
Croat	Bra	0.560884666666667
Nguni	Bra	0.560649
Slovak	Bra	0.5605515
Hungarian	Bra	0.560269
Yukagir	Bra	0.559952
West-Ukrainian	Bra	0.5596024
NAN_Melanesian	Bra	0.559505
Chuvash	Bra	0.559285866666667
Welsh	Bra	0.559282666666667

Еще раз к проблеме генетической преемественности саамов и финнов

Опубликовано 6 июня, 2013 автором verenich

Одна из первых записей в этом дневнике была посвящена проблеме происхождения саамов. Поскольку все основные аргументы в споре генетиков, лингвистов и археологов были исчерпаны я решил не возвращаться к этой теме. Однако в середине мая со мной связался Андерс Полсен из генеографического проекта Fennoscandia . Нужно отметить необычайную активность Андерса, которая в последнее время особенно заметна на фоне бездеятельности остальных ведущих геномных блоггеров. В числе прочего следует упомянуть о ряде примечательных заметок Андерса, посвященных сравнительному анализу древнего ДНК останков из мезолитической испанской пещеры La Brana и ДНК современных саамов. Эти заметки заслуживают дополнительного комментария. Анализом этно-популяционных компонентов ДНК примерно год тому назад занимался Диенек Понтикос и автор этих строк. Понтикос отметил, в числе прочего, интересный момент:

В связи с небольшим числом извлеченных из останков снипов, я был вынужден создать композитный набор данных за счет слияния данных обеих генотипированных мезолитических индивидов; в моем калькуляторе K7b этот композитный индивид характеризуется наличием 9,3% африканских аллелей и 90,7% аллелей входящих в кластер Atlantic_Baltic, и этот расклад довольно точно соответствует положению этого композита на графике PCA … высокий процент компонента Atlantic_Baltic, согласуется с аналогичным высоким процентом Atlantic_Baltic, выявленным у охотников-собирателей шведского неолита.

Поскольку география ареала распространения этого компонента, похоже, мало интересует Диенека, более он ничего не писал. Мой анализ показал несколько иную картину. Прежде всего, я использовал несколько иную группировку популяционных кластеров, определенных в ходе анализа чистот аллелей в разных популяциях. Во-вторых, в отличии Диенека, имеющего ограниченный сэмпл популяций балтийского и скандинавского регионов, у меня была собрана солидная референсная группа эстонцев, шведов, латышей, финнов и саамов. Благодаря этому удалось показать, что ближе всего к La Brana находятся современные саамы, финны, латыши и эстонцы. Это геномная близость оказалась настолько явственной, что представляется возможным выделить компонент объединяющий все эти популяции и мезолитических испанцев в общий компонент, который я назвал палеоевропейским.

Эти выводы заинтересовали Андерса, поскольку в рамках своего проекта Фенноскандия, он уделяет особое внимание скандинавским популяциям, в том числе и саамам. Месяц назад он написал мне письмо:

Я пытался много раз проверить твои выводы (насчет близости саамов и мезолитических испанцев). Полученная в программе PLINK IBS матрица позволяет нам предположить, что в абсолютном выражении, кратчайший путь от La Braña ведет к литовцам, и затем к части финнов из северных регионов Финляндии. В программе Admixture, которая не учитывает перевес в пользу финнских и скандинавских образцов, финны и литовцы образовали два разных кластера, а La Brana попали в общий кластер с финно-саамским компонентом, а не с литовцами. В другом запуске программы Admixture, я использовал равные по числу образцов выборки финнов и литовцев. В этом эксперимента я не обнаружил какого-либо расхождения между литовцами и финны, а La Brana попали целиком в этом общий финно-литовский компонент. Однако только что я завершил новый анализ структуры генофонда в программе fineStructure -Chromopainter. В размерности 4 «мирового» PCA La Brana имеют одинаковую вариацию с двумя саамами и финном с небольшой примесью саамской крови.

В качестве ответа, я привел ряд своих собственных наблюдений насчет геномного сходства саамов.Я использовал совокупный набор данных для расчета матриц IBS и последующего импорта попарных IBS матриц в статистическое программное обеспечение R. Используя встроенные библиотеки программы R, я вычислил средние значения наблюдений в наборе данных с попарными значениями IBS между образцами, включенными в анализ. Ниже приводится таблица с попарными значениями геномного сходства . Как видно, в этот раз La Brana оказались гораздо более к балтийским популяциям:

Latvian	Bra	0,5762
North-German	Bra	0,5762
Estonian	Bra	0,5761
Lithuanian	Bra	0,5703
Russian	Bra	0,5699
Czech	Bra	0,5694
Swede	Bra	0,5694
Russian_North	Bra	0,5686
Pole	Bra	0,5675
Orcadian	Bra	0,5675
Bulgarian	Bra	0,5671
South-Germanian	Bra	0,5666
TN_Brahmin	Bra	0,5661
Swiss	Bra	0,5653
CEU	Bra	0,5647
Center-Russian	Bra	0,5643
Komi	Bra	0,5641
Belorusian	Bra	0,5638
Athabask	Bra	0,5634
Mordovian	Bra	0,5629
Kosovar	Bra	0,5624
Corsican	Bra	0,5622
French	Bra	0,5614
Tsimsian	Bra	0,5609
Croat	Bra	0,5609
Nguni	Bra	0,5606
Slovak	Bra	0,5606
Hungarian	Bra	0,5603
Yukagir	Bra	0,5600
West-Ukrainian	Bra	0,5596
NAN_Melanesian	Bra	0,5595
Chuvash	Bra	0,5593
Welsh	Bra	0,5593
Colombian	Bra	0,5592
Vepsa	Bra	0,5591
Karelian	Bra	0,5590
Miwok	Bra	0,5589
North-Russian	Bra	0,5587
Portugese	Bra	0,5583
German	Bra	0,5582
Macedonian	Bra	0,5579
Finn	Bra	0,5577
Russian_cossack	Bra	0,5577
Colville	Bra	0,5576
Russian_Center	Bra	0,5576
Bosnian	Bra	0,5571
Hakas	Bra	0,5570
South-Russian	Bra	0,5569
Lumbee	Bra	0,5568
Sardinian	Bra	0,5567
Selkup	Bra	0,5567
Nenets	Bra	0,5564
East-Ukrainian	Bra	0,5563
Hausa	Bra	0,5561
Tuva	Bra	0,5558
Meghawal	Bra	0,5556
Uzbeki_jew	Bra	0,5556
Bashkir	Bra	0,5555
Br	Bra	0,5554
Inuit-West	Bra	0,5552
Mexican	Bra	0,5551
Tatar	Bra	0,5550
Ukrainian	Bra	0,5550
Naxi	Bra	0,5548
Libyan-jew	Bra	0,5548
British	Bra	0,5548
North-Greek	Bra	0,5546
French_Basque	Bra	0,5545
Khant	Bra	0,5544
Ashkenazi_Jew	Bra	0,5543
Dharkar	Bra	0,5543
Miaozu	Bra	0,5542
Tatar_Lithuania	Bra	0,5542
Daur	Bra	0,5542
Spain	Bra	0,5541
Saami	Bra	0,5540
Romanian_Jew	Bra	0,5540
Brahmin	Bra	0,5537
Lezgin	Bra	0,5536
Slovenian	Bra	0,5536
Udmurd	Bra	0,5534
Mongola	Bra	0,5533
Sotho	Bra	0,5533
Tuscan	Bra	0,5533
Altaic	Bra	0,5532
Burusho	Bra	0,5529
North_Italian	Bra	0,5525
Nogay	Bra	0,5525
Azeri_Jew	Bra	0,5525
Balkar	Bra	0,5523
Adygei	Bra	0,5522
Kol	Bra	0,5520
Montenegrin	Bra	0,5520
Gagauz	Bra	0,5518
Hakkipikki	Bra	0,5518
South-Greek	Bra	0,5517
Han	Bra	0,5516
Indian_muslim	Bra	0,5516
Iberian	Bra	0,5515
Georgian_Imereti	Bra	0,5515
Greek_Azov	Bra	0,5515
She	Bra	0,5514
Yakut	Bra	0,5513
GreeceThessaly2	Bra	0,5512
Serb	Bra	0,5512
North-Ossetian	Bra	0,5511
Lak	Bra	0,5511
Chechen	Bra	0,5511
Dusadh	Bra	0,5511
Brahmin_UttarPradesh	Bra	0,5510
Tlingit	Bra	0,5507
Kalmyk	Bra	0,5506
Toscanian	Bra	0,5505
IndCan	Bra	0,5505
Greek	Bra	0,5504
Indian	Bra	0,5504
Egyptan	Bra	0,5503
Bengali	Bra	0,5503
Haida	Bra	0,5503
Ashkenazi	Bra	0,5503
Kazakh	Bra	0,5502
Mansi	Bra	0,5502
Burmese	Bra	0,5499
Georgian_Jew	Bra	0,5499
Tunisian_Jew	Bra	0,5496
Mongol	Bra	0,5496
Kusunda	Bra	0,5496
Turk	Bra	0,5495
Karitiana	Bra	0,5495
Uttar_Pradesh_scheduled_caste	Bra	0,5494
Romanian	Bra	0,5494
Kyrgyz	Bra	0,5493
Uzbek	Bra	0,5491
Roma	Bra	0,5491
Ecuadorian	Bra	0,5491
Xibo	Bra	0,5490
Armenian	Bra	0,5490
North_Greek	Bra	0,5489
Tujia	Bra	0,5489
Caribbean_Hispanic	Bra	0,5489
Gond	Bra	0,5488
Tatar_Crim	Bra	0,5487
Turkmen	Bra	0,5487
Iraqi-jew	Bra	0,5486
Kurumba	Bra	0,5486
Tu	Bra	0,5486
Sindhi	Bra	0,5484
Kshatriya	Bra	0,5483
Oroqen	Bra	0,5481
Aleut	Bra	0,5478
Brg	Bra	0,5478
Druze	Bra	0,5478
Tadjik	Bra	0,5477
Yizu	Bra	0,5477
Kanjar	Bra	0,5477
Naga	Bra	0,5476
Irani-jew	Bra	0,5476
Abhasian	Bra	0,5475
Brahui	Bra	0,5474
Georgian	Bra	0,5472
Dai	Bra	0,5471
Evenk	Bra	0,5470
Tamil_Brahmin	Bra	0,5470
Libyan	Bra	0,5469
Cypriot	Bra	0,5469
Mari	Bra	0,5468
Kumyk	Bra	0,5468
Hazara	Bra	0,5467
Moroccan	Bra	0,5467
Syrian	Bra	0,5467
Inkeri	Bra	0,5464
Azeri	Bra	0,5464
Iraq_jew	Bra	0,5464
Indian_Jew	Bra	0,5464
Saudian	Bra	0,5464
Lambadi	Bra	0,5463
Cretan	Bra	0,5462
Jordanian	Bra	0,5461
Parsi	Bra	0,5460
Ket	Bra	0,5460
PuertoRican	Bra	0,5460
Sephard	Bra	0,5459
Chenchus	Bra	0,5458
Nyshi	Bra	0,5458
Chukchi	Bra	0,5455
Shor	Bra	0,5455
Velama	Bra	0,5455
Lahu	Bra	0,5454
Hezhen	Bra	0,5454
Bedouin	Bra	0,5454
Mozabite	Bra	0,5452
Italian_Jew	Bra	0,5452
Tamil_Nadu	Bra	0,5450
Tharus	Bra	0,5449
Chamar	Bra	0,5448
Irani	Bra	0,5448
Kinh	Bra	0,5447
Yemen_jew	Bra	0,5446
Center-Italian	Bra	0,5445
Tunisian-jew	Bra	0,5444
Lebanese	Bra	0,5444
Balochi	Bra	0,5443
Pygmy	Bra	0,5442
Dolgan	Bra	0,5442
Serrano	Bra	0,5442
Palestinian	Bra	0,5441
Brahmin-TNBRAS	Bra	0,5441
Makrani	Bra	0,5440
Piramalai_Kallar	Bra	0,5439
Kalash	Bra	0,5439
Algerian	Bra	0,5438
Lemba	Bra	0,5435
Yemeni	Bra	0,5435
Fulani	Bra	0,5433
South-Han	Bra	0,5432
Uzbekistan_Jew	Bra	0,5432
Center-Greek	Bra	0,5432
Karakalpak	Bra	0,5431
Costanoan	Bra	0,5425
Morocco_Jew	Bra	0,5422
Gujarati	Bra	0,5420
Algerian-jew	Bra	0,5418
Tswana	Bra	0,5415
Iranian_Jew	Bra	0,5413
Yemen_Jew	Bra	0,5413
France_Jew	Bra	0,5412
Iran_jew	Bra	0,5409
Kurd_Jew	Bra	0,5407
Egyptian	Bra	0,5407
Afar	Bra	0,5406
Iraqi	Bra	0,5402
Chamat	Bra	0,5397
North-Han	Bra	0,5392
Khazar_jew	Bra	0,5391
!Kung	Bra	0,5390
Maya	Bra	0,5387
Saudi	Bra	0,5379
Tunisian	Bra	0,5377
Sicilian	Bra	0,5377
Georgian_Laz	Bra	0,5373
Indan_muslim	Bra	0,5370
Saharan	Bra	0,5369
Meena	Bra	0,5366
Azeri_jew	Bra	0,5364
Ethiopian_Jew	Bra	0,5362
Dogon	Bra	0,5360
Indian_jew	Bra	0,5357
Kongo	Bra	0,5347
Algerian_Jew	Bra	0,5337
Tat	Bra	0,5335
Syrian_Jew	Bra	0,5334
Madiga	Bra	0,5331
Papuan	Bra	0,5322
San	Bra	0,5309
Somali	Bra	0,5306
Dominican	Bra	0,5296
Australian	Bra	0,5296
Wolyata	Bra	0,5285
Libyan_Jew	Bra	0,5280
Bamoun	Bra	0,5279
Brong	Bra	0,5271
Bambaran	Bra	0,5271
Afro-American	Bra	0,5271
Tygray	Bra	0,5269
Koryak	Bra	0,5264
Sandawe	Bra	0,5262
Ethiopian	Bra	0,5259
Bulala	Bra	0,5248
Mada	Bra	0,5248
Amhara	Bra	0,5246
Kaba	Bra	0,5240
Hadza	Bra	0,5224
Biaka_Pygmies	Bra	0,5211
Oromo	Bra	0,5201
Bantu	Bra	0,5195
Yoruba	Bra	0,5171
Mandenka	Bra	0,5169
Igbo	Bra	0,5157
African-Caribbean	Bra	0,5154
Luhya	Bra	0,5152
Yourba	Bra	0,5127
Esomali	Bra	0,5116
Ari	Bra	0,5110
Fang	Bra	0,5086
Anuak	Bra	0,5077
Sudanese	Bra	0,5021
Gumuz	Bra	0,4993

Руководствуясь моими замечаниями, Андерс написал новую заметку в свой блог, и эта заметка настолько важна, что я решил ее перевести на русский целиком:

» Те, кто читал мой блог, или участвовал в проекте Fennoscandia, уже привыкли к появлению на графике PCA (анализа главных компонентов европейского генетического разнообразия) в программе Chromopainter-finesStructure типичных фигур с формой напоминающей символы «>» или «<«. Обычно кластер располагается близко к корню в то время как популяции Центральной и Восточной Европе популяции оказываются на одной ветке или ребре этой V-образной фигуры, в то время как скандинавы, финны и саамы — на другой. Пример этой структуры приведен ниже:

Наверное, многие из моих читателей задавались вопросом, почему распределение популяций на графике PCA имеет именно эту геометрическую форму, а также вопросом касаемо того, сколько лет прошло с момента начала дивергенции двух вышеупомянутых группы популяций. Чтобы ответить на этот вопрос я произвел анализ данных по древней ДНК La Braña и MDS анализ в программе PLINK. Исходное число точечных мутаций -снипов было уменьшено до 69 000. В анализе я использовал всех участников проекта и референсных популяций. Как мы видим, нет * абсолютно * никаких сомнений, с кем именно кластеризуются древние La Braña в проекции двух основных компонентов генетического разнообразия.

Подобное расположение древних иберийских La Braña, означает вероятно, что древние La Braña характеризовались определенными генетическими вариациями, вариациями которые напоминали генетические вариации финнов и саамов (и сегодня встречаются только в Фенноскандии). В западной и южной Европе эти генетические вариации отсутствуют. Кроме того, существуют вероятно компоненты, которые отделяют La Braña от финнов, и приближают их к саамам.

Набор данных по La Braña включает в себя 183 000 снипа (эти снипы перекрываются набором данных из проекта 1000G) и мой текущий стандартный набор данных 289 000 снипа. Интерсекция обеих наборов данных дает в конечном итоге всего 4 000 снипа. Это явно небольшое количество полиморфизмов, недостаточное для полноценного анализа. Вместо этого я попытался посмотреть, если другой способ решения этой проблемы, который позволяют произвести анализ с использованием всех 183 000 снипов La Braña. Тот факт, что оба набора данных в этом эксперименте — 183 000 снипа Lа Braña и 288 000 cнипа — полностью перекрываются снипами проекта 1000 геномов, позволяет нам найти решение проблемы путем импутации SNP-гаплотипов. Эта процедура определения снипов широко используется в генетических исследованиях в тех случаях, когда объединенный набор данных был генотипирован на различных платформах с использованием общей референсной панели.

Импутация снипов была проnзведена в программе BEAGLE. После этого я сравнил первоначальный набор данных с «импутированным» набором данных на предмет различий между. Поскольку большинство SNP-ов в данном анализе было определенно в ходе импутирования, то я заметил определенный » искусственный дрейф», состоящий в том, что индивиды с импутированными снипами становятся более похожи друг на други, чем те же индивиды, но с первоначальными неимпутированными снипами 1000G Поэтому я исключил всех индивидов, чей набор данных содержал импутированные снипы (за исключением La Braña), предполагая что минимизаций фактора неопределенности приведет к тому, что неизбежные незначительные ошибки не будут столь значительно влиять на достоверность результатов. Все генотипы индивидов La Braña представляют собой реальные генотипы (без использования импутации).

Как мы видим ниже, структура популяций определенная в программе Chromopainter-fineStructure, представляется релевантной как в мировом, так и в паневропейском масштабе. Это доказывает надежность проведенной операции импутирования снипов, поэтому эту методологию можно использовать для дальнейшего анализа.

На приведенных выше графиках видно, что отдельные компоненты аутосомных генетических вариаций La Braña сильно отделяет эту группу от остальной части современных европейцев, так же как и в предыдущем посте с использованием неимпутированных гаплотипов. Причина этого феномена ясна: у индивидов La Braña африканское происхождение выражено более ярко, чем у остальных европейцев. Принадлежность к восточно-азиатскому, сибирскому и индейскому кластеру, кажется, характерна для сегодняшних финнов.

В этой связи возникает закономерный вопрос: какая из современных нам популяций является самой близкой к La Brana? При проведении простой IBS-кластеризации в PLINK, мною были получены величины Эвклидовой дистанции между геномными образцами. В режиме диплоидных данных наиболее близкими к La Brana оказываются литовцы и саамы, в режиме гаплоидном режиме список возглавляют литовцы.

Однако по своему собственному опыту, я могу сказать что нельзя полностью доверять простым сравнениям IBS, поскольку на сходство могут повлиять очень многие факторы. С целью получения большей информации, я произвел новый анализ в Chromopainter-fineStructure, — на этот раз с использованием только европейских популяций.

Как мы видим из вышеприведенной heatmap, cуществует определенная генетическая связь между литовцами, финнами и басками. В более отдаленной степени, в эту цепочку включаются и саамы. Наличие большой асимметрии между полученными от других популяций хромосомными сегментами и хромосомными сегментами отданными в другие популяции в ходе процесса обмена генами, а также самый раннее ответвление La Brana от остальной европейской панели, объясняется очевидно 10% примеси африканских аллелей обнаруженных ранее.

Однако в анализ главных компонент PCA мы можем выделить влияние разных компонентов в генетическом наборе данных La Brana. В проекции 1 измерения PCA X-ASIS, мы наблюдаем значительную дисперсии отдельных популяций — La Braña находятся в крайне левом углу, а литовцы — в дальнем правом. В перспективе 1 измерения (размерности) главных компонентов генетического разнообразия нет никаких сомнений, что саамы находятся ближе всего к La Brana. В перспективе второго измерения 2, дисперсия смещает La Brana к литовцам. Заметим, что здесь саамы и баски образуют противоположенные кластеры, которые отражают известную генетическую дихотомию-разделение Северо-Восточной и Юго-Западной Европы.

В проекциях 1 и 3 измерения (Y-ось) мы видим, что La Braña наиболее близки к финнам и в некоторой степени также к пресловутым вологодским русским. В размерности 3 мы также видим, что баски и литовцы расходятся в противоположных направлениях, а саамы появляется в качестве промежуточное звена между ними.

Выводы: La Braña, судя по всему, отражают один из основных компонентов, которые в самой значительной степени присутствуют среди современных популяциях у саамов, но практически отсутствует у остальных европейцев. У саамы наблюдается и второй значительный генетический компонент, который, кажется, отражает характерный градиент по направлению север-юг характерный для большой части финнов. Однако расположение La Braña в пространстве этого второго компонента нарушает общий тренд — они смещаются гораздо «южнее» от нижней части кластера литовцев в направлении кластера басков. Это означает, что у La Braña наблюдается значительный вклад южно-европейских предков. Оба доминирующих компонента в размерностях 1 и 2 на графики PCA достигают своего пика в северной части Европы (у саамов), причем второй компонент (который отсутствует у La Braña) может указывать на аутентичный «северный» компонент, cвязанный с позднейшими миграциями. Интерпретация третьего компонента вызывает затруднения. Здесь присутствуют и финны, и русские из Вологда, в то время как La Braña смещается ближе к литовцам, а саамы — в сторону кластера басков.

Заключение: Мезолитические жители Иберийского полуострова — La Brаna — характеризовались генетическими вариациями, которые в настоящее время встречаются среди саамов, и в то же время указывают на принадлежность к более южным популяциям, вроде литовцев и басков. Можно предположить, что оба компонента отражают «северный» и «южный» вклад в их родословную.

Наши наблюдения, по крайней мере частично, согласуются с выводами Вадима Веренича впервые обнаружившим связь между мезолитическими охотниками-собирателями Иберийского полуострова и саамами. Behind the Curtains: MDLP World 22 showcase

О неолитических тирольцах и шведах: опыт палеогентического анализа — часть 1

Опубликовано 19 марта, 201319 марта, 2013 автором verenich

В мае прошлого года я провел три бессонные ночи, пытаясь извлечь SNP-ы из BAM файлов, любезно предоставленных профессором Уппсальского университета Понтусом Скоглундом — автором нашумевшего исследования древнего ДНК насельников шведского неолита. Как мне представлялось, задача должна была оказаться несложной, особенно после того как в марте прошлого года я успешно произвел «выделение» геномных вариантов из аналогичных файлов содержащих информацию о геноме Эци. Полученные на выходе файлы я намеривался соединить с имеющейся у меня базой данных SNP-ов современных евразийских популяций, а затем проанализировать в программе smartpca, входящей в пакет Eigenstrat.

Однако на поверку на эту процедуру пришлось потрать намного больше времени, в первую очередь из-за определенных трудностей с использованием vcftools, и определением надежных SNP-ов в сгенерированных в samtools pileup файлах.
Трудно описать мою радость, когда мне удалось взломать эти ‘крепкие геномные орешки’. После успешного определения SNP-ов, я произвел PCA-анализ с целью определения позиции неолитических фермеров (Gok4), охотников-собирателей (Ajv52, Ajv70) и Ötzi (Эци) на карте генетического вариативности населения западной части Евразии.

Мои эксперименты с Eigenstrat частично подтвердили результаты аналогичныхз опытов Диэнека.

Как видно на приведенном графике, доисторические шведы Ajvs (принадлежавших к готландской культуре ямочной керамики (Pitted Ware culture (около 3200 — 2300 гг. до н. э.)) оказались на периферии современных северо-восточных европейских популяций.
Затем, по просьбе ряда посетителей форума ABF, я сделал PCA-график, на котором показаны обозначения популяций.

Как и прогнозировалось ранее, Ajv52 и Ajv70 оказались в окружении плотного кольца из балтийских популяций. В эту группу вошли литовцы, белорусы, поляки, шведы, украинцы, русские (из Северной и Центральной России) и мокша-эрзя. Однако, похоже, в силу своего расположения на графике они также отдаленно связаны с современнами финнами и немцами

Генографическое размещение другого образца древнего ДНК — Gök4 (культура воронковидных кубков, КВК (англ. Funnel Beaker culture, нем. Trichterbecherkultur, TRB) — мегалитическая культура (4000 — 2700 гг. до н. э.)) — также оказалось весьма предсказуемым. Этот образце попал в один кластер с тирольским Эци, популяциями средиземноморского региона (Vasconia, Iberia, Италия) и рядом западно-европейских популяций ( в том числе и из Франции).

Результаты аналогичны результатам из оригинальной статьи.

Воодушевившись столь замечательными результатами, я решил выполнить элементарный анализ IBS. Для расчетов использовалась примерно такая же метрика, что и при вычисление геномного сходства (genome-wide similarity) в клиентской базе данных 23andme . На первый взгляд результаты кажутся несколько иными, чем те, что приведены в работе Skoglund et al.2012 (результаты приведены ниже):

		Neolithic farmer	Hunter-gatherers	Long	Lat	chr.
Cyprus	Cyp	68.20%	68.21%	33	35	8
Greece	Gre	67.94%	68.51%	22	39	16
France	Fra	67.89%	68.80%	2	46	178
Netherlands	Net	67.88%	68.79%	5	52	34
Romania	Rom	67.84%	68.62%	25	46	28
Italy	Ita	67.81%	68.43%	12	42	438
Germany	Ger	67.80%	68.80%	10	51	142
Croatia	Cro	67.76%	68.67%	15	45	16
Portugal	Por	67.75%	68.59%	-8	39	256
Belgium	Bel	67.73%	68.78%	4	50	86
Spain	Spa	67.72%	68.59%	-4	40	272
Poland	Pol	67.71%	68.98%	20	52	44
Austria	Aus	67.69%	68.65%	13	47	28
United Kingdom	UK	67.68%	68.79%	-2	53	400
Serbia	Ser	67.67%	68.62%	20	44	88
Macedonia	Mac	67.62%	68.58%	22	41	8
Sweden	Swe	67.61%	68.84%	15	62	20
Ireland	Ire	67.61%	68.71%	-8	53	122
Hungary	Hun	67.60%	68.58%	20	47	38
Russian	Rus	67.56%	68.72%	37	55	12
Turkey	Tur	67.55%	67.98%	35	39	8
FIN	FIN	67.47%	68.77%	25	61	80
LSFIN	LSFIN	67.44%	68.79%	26	64	162
Bosnia	Bos	67.39%	68.81%	17	44	18
Scotland	Sco	67.35%	68.81%	-4	56	10

Различие с моими результатами может быть объяснены как различным числом используемых SNP-ов (в исследовании Скоглунда их больше), так и отличием методологических подходов. Я использовал очень простой алгоритм в программе Plink для расчета IBS-матрицы, в то время как Скоглунд с соавторами использовал более сложный подход при расчете средней частоты аллелей.

Во всяком случае, с учетом вышесказанного, я все же хотел бы поделиться результатами IBS-анализа (ниже приведены только популяции с максимальным % общих аллелей, процентное соотношение выражено в виде дроби):

AJV70:

GOK4 0.85
AJV52 0.833333
Ötzi 0.7992
UKR 0.587516
BLR 0.586873
HNG 0.583655
RMN 0.583549
LTH 0.583012
LTH 0.583012
CEU 0.580438
FIN 0.580438

AJV52:

AJV70 0.833333
Ötzi 0.823864
GOK4 0.8
UKR 0.602506
HNG 0.596811
LTH 0.594533
RMN 0.593394
LTV 0.592818
CEU 0.592255
GER 0.592255
MR 0.591463

Ötzi

AJV52 0.823864
GOK4 0.813602
AJV70 0.7992
HNG 0.725414
NITAL 0.724004
NITAL 0,71989
LTH 0.718232
WUKR 0.718232
IBR 0.718162
RMN 0,71768
BLR 0.717367

GOK4

AJV70 0,85
Ötzi 0.813602
AJV52 0,8
НИУ 0.611345
NITAL 0.602941
CEU 0,60084
CEU 0,59979
NITAL 0.598739
RMN 0.598739
GBRORK 0.598309
RUS 0.595789

С другой стороны, если мы оставим в таблице только популяции Северной и Восточной Европы, результаты будут почти точно соответствовать таблице Скоглунда, и оба Ajvs будут наиболее близки к полякам.

Я должен подчеркнуть, что на самом деле мне удалось обнаружить SNP-ы и в образцах Ire8 и Ste7 (52322 SNP-а + инделов у Ire8 и 13175 вариантов у Ste7). Однако после слияния этих данных с общей базой данных, оказалось что большинство из генотипированных SNP-ов оказались либо новельными вариантами либо находились за пределами современной генетической вариативности. Пересечение снипов Ste7 и Ire8 SNP с моим основным наборов снипов дало 0, т. е. не существует никаких общих SNP-ов между моим текущим набором и набором данных у указанных выше образцов. Поэтому мне не оставалось ничего другого, как удалить Ste7/Ire8 из конечной выборки.

Анализ аутосомного генофонда балтийских этносов: эстонцев, латышей, литовцев. Часть II

Опубликовано 29 ноября, 2012 автором verenich

Теперь перейдем к южным соседям эстонцев — латышам.

Как я ожидал, результаты анализа ALDER подтвердили мои более ранние предположения о том, что латыши являются одним из наиболее «чистых» европейских народов. Под чистотой здесь подразумевается практически полное отсутствие позднейших «примесей» со стороны других популяций.

И действительно, программа ALDER смогла обнаружить односторонний сигнал предпологаемого адмикса только со стороны трех популяций: жителей юго-центральной части России, грузинов-лазов и вездесущих «монголов». Однако исходя из провала тестов на двухстороннюю корреляцию угасания сцепеления, источники адмикса были совершенно разные:

Result	Target	ReferenceA	ReferenceB	Admix_dating	Admix on Reference A	Admix on ReferenceB
failure (warning: decay rates inconsistent)	Latvian	Russian_South	Mongol	34.81 +/- 10.74	12.75 +/- 5.58	43.33 +/- 11.11
failure (warning: decay rates inconsistent)	Latvian	Georgian_Laz	Mongol	63.83 +/- 28.13	75.62 +/- 27.37	43.33 +/- 11.11

Поскольку оба теста провалились, то нет особой нужды дополнительно комментировать результаты. В принципе кавказский компонент, влившийся в генофонд латышей при посредничестве какой-нибудь восточнославянской популяции может быть продуктом довольно-таки древнего смешения,63.83 +/- 28.13 поколений назад. «Cибирская по происхождению» незначительная часть генофонда скорее всего попала в Приблатику в том же генетическом потоке, который принес в Эстонию «монгольские гены». Датировка этого события лежит в широком интервале от 5 до 13 века нашей эры, и скорее всего это была многократная серия событий смешивания популяций. Примечательно, что «восточносибирских генов» у латышей вдвое меньше (2.9 +/- 1.1) в сравнении с эстонцами. Зато «кавказских» — примерно столько же (21.5 +/- 7.2).

Май 2024
Пн	Вт	Ср	Чт	Пт	Сб	Вс
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31