Генетический компонент северных евразийцев (ANE) в свете новых данных

Начало февраля порадовало важным событием: на  сервере Bioraxiv размещен препринт монументальной статьи Haak et al. (Iosif Lazaridis , Nick Patterson , Nadin Rohland , Swapan Mallick , Bastien Llamas , Guido Brandt , Susanne Nordenfelt , Eadaoin Harney , Kristin Stewardson , Qiaomei Fu , Alissa Mittnik , Eszter Bánffy , Christos Economou , Michael Francken , Susanne Friederich , Rafael Garrido Pena , Fredrik Hallgren , Valery Khartanovich , Aleksandr Khokhlov , Michael Kunst , Pavel Kuznetsov , Harald Meller , Oleg Mochalov , Vayacheslav Moiseyev , Nicole Nicklisch , Sandra L. Pichler , Roberto Risch , Manuel A. Rojo Guerra , Christina Roth , Anna Szécsényi-Nagy , Joachim Wahl , Matthias Meyer , Johannes Krause , Dorcas Brown , David Anthony , Alan Cooper , Kurt Werner Alt , David Reich) «Massive migration from the steppe is a source for Indo-European languages in Europe».  Несмотря на то, что сама статья еще находится на стадии препринта, уже сейчас очевидна глубина проработки материала. Нет никаких сомнений в том, что это объемное, вдумчивое и тщательное исследование  войдет в число главных работ в области индоевропеистики. По своей сути, коллектив авторов подвел в этой работе итоги всех предыдущих исследований введенных  «полных геномов» древних жителей Европы (возрастом в 8 000 -4 000 лет),  введенных в научных оборот за последние 2-3 года. Благодаря систематическому подходу к материалу и синтезу предыдущих наработок,  а также за счет использования  новейших физико-химических методов экстрагирования палео-ДНК вкупе с передовым современейшим биоинформатическим программным обеспечением,  авторы смогли строго и скурпулезно подойти к одному из важнейших вопросов истории, лингвистики и археологии — к вопросу о происхождении индоевропейцев.  К чести авторов, они признают, что даже после столь внушительного по своим размерам и качеству исследования, вопрос о первичном месте происхождения индоевропейцев остается открытым, и поэтому собственно обсуждение релевантности исследования палео-ДНК в свете существующих 4 главных теорий  происхождения индоевропейцев занимает в работе относительно мало места (стр.134-139).  Впрочем, вряд ли кто всерьез ожидал от этого исследования окончательного ответа на все вопросы индоевропеистики.  Тем не менее, подробный анализ аутосомного генома, а также однородительских маркеров (митохондриального генома и  Y-хромосомы) представителей целого ряда культур неолита, медногл и бронзового века восточной и западной Европы, и в особенности представителей Ямной культуры,  дает новую подпитку вечному спору между сторонниками разных версий происхождения индоевропейцев (т.к. многие вслед за Гимбутас связывают ямную культуру с общностью протоиндоевропейцев).

annurev-linguist-030514-124812.f2

Зато остальная часть этой 172-страничной работы настолько богата (насыщена) фактическим материалом, что любой, даже самый искушенный, читатель попгенетической литературы получит большое удовольствие от приобщения к плодам многолетней работы умнейших ученых.   А работа, действительно, проделана огромная. Ученые воссоздали геномные данные 69 европейцев, живших между 8 000-3000 лет тому назад, за счет обогащения амплифицированных библиотек палео-ДНК. Эти библиотеки палео-ДНК они использовали для целевого отбора  394577 таргентных полиморфизмов (снипов) в панелях Affymetrix Human Origins. Обогащение именно этих специально отобранных таргентных позиций позволило снизить необходимые для анализа древней ДНК объемы секвенирования в среднем примерно в 250 (!) раз, что позволило авторам изучить на порядок больше лиц в сравнении с предыдущими исследованиями, и получить более полные знания о прошлом.

map

В работе показано, что уже 8,000-5,000 лет  назад население западной и восточной Европы следовали противоположным траекториям развития.

На заре евпропейского неолита, примерно 8,000-7,000 лет назад, отдельныетесно связанные родством и отличные от коренных европейских охотников-собирателей, группы  ранних земледельцев появились в Германии, Венгрии и Испании, в то время как Россия была населена особой группой восточных охотников-собирателей, имеющих родство с населением сибирского палеолита (24 000 л.н.в) , эта группа древних северо-евразийцев (ANE), представлена образцом MA1 (мальчик с палеолитической стоянки Malta-1 из южной Сибири); кроме того, этот компонент неплохо аппроксимируется «сибирской частью» генома изолированных индейцев Южной Америки (каритиана). Два образца охотников-собирателей из России (Карелия и Самары) образуют кластер «восточно-европейских охотников-собирателей «(EHG); пост-мезолитические охотники-собиратели  из Люксембурга, Испании и Венгрии (WHG) находятся на противоположенном конце клина охотников-собирателей, в то время как охотники-собиратели  Швеции  (SHG) находятся посередине. Интересно отметить, что геном охотника-собирателя из Карелии представляет собой смесь 38-40% компонента ANE и 60-62% компонента WHG, причем величина ANE значительно выше 20% ANE, выведенных для  шведского-охотника собирателя Motala-12 в предыдущем исследовании Lazaridis et al 2014).
В соответствии с тем, что EHG являются обмен население больше аллелей с «древних Северной евразийцев» (ГУ 7), чем любой другой.

pca

Примерно  6-5 тысяч лет назад,  на большой части  Европы назад  произошел новый «подъем» потомков мезолитических охотников-собирателей, но в России  степные скотоводы Ямной культуры время произошли от смешивания  предыдущих племен восточно-европейских охотников-собирателей с населением ближневосточного происхождения.  Население Ямной культуры отличалось от своих предшественников -восточно-европейских охотников-собирателей EHG —  меньшим количеством обших аллелей с MA1 (| Z | = 6,7), что  свидетельствует о процессе дисперсии носителей ANE  на территории европейских степей где-то между 5 000-3 000 гг. до н.э. Уменьшение числа общих с образцом MA1 аллелей, вероятно объясняется появлением «примеси» от популяции или популяций, тесно связанных с
популяциями современного ближнего Востока, т.к. самая отрицательная f3-статистика  (отрицательная статистика однозначно свидетельствует о примеси) наблюдается при моделировании жителей Ямной культуры как продукта смешивания носителей компонента EHG  и современных популяций ближнего Востока, таких как армян (Z = -6,3).

Непосредственный контакт между населением западной и восточной Европой состоялся   ~ 4500 лет назад, а в геноме поздне-неолитического населения культуры шнуровой керамики на территории Германии прослеживается 75%-ный «генетический» вклад «степного» компонента представителей ямной культуры. Таким образом геном жителей культуры шнуровой керамики «документирует» массовую миграцию населения с восточной периферии Европы в ее центральные области. Данный «степной» компонент Yamna (гибрид EHG и ближневосточных популяций) сохранялась в значительных пропорциях у всех имеюшисхя образцах из центральной Европы как минимум до ~ 3000 г.н.э, и повсеместно встречается у современных европейцев.

 

admix2

 

Если географическая дихотомия неолитического и мезолитического генетических компонентов в Европе была отмечена еще в работах пионеров популяционной генетки вроде Л. Кавалли-Сфорца, то данные этой работы позволяют вставить последнее звено в решении головоломки. На основании данных можно предположить, каким именно образом третий генетический компонент европейцев (ANE) попал из Сибири  в Европу: сначала этот компонент несли представители EHG,  затем он перешло к «ямникам» (смешанная популяция восточно-европейских охотников-собирателей и населения ближневосточного типа), а затем от ямников к представителям культуры шнуровой керамики, которые представляли собой смесь представителей ямной культуры с средне-неолитическими европейцами.  В настоящее время этот компонент имеет плавное распределение на территории Европы, и по этой причине, мы можем использовать его в анализах структуры как генофонда целых народов, так и генома отдельно взятых людей.

В январе я провел небольшой  эксперимент c «чистым вариантом» аутосомного компонента ANE (ancestral North-Euarasians), впервые описаном в известной работе Lazaridis et al. 2014. Процедура вывода третьего генетического компонента в генофонде европейцев (ANE) оказалась гораздо сложнее, чем я предполагал в начале. Основная сложность заключалась в том, что в отличии от мезолитических и неолитческих сэмплов, у нас нет хорошого образца палеоДНК носителей компонента ANE. Пришлось заниматься реконструкцией генома, используя в качестве заменителей геном MA1 и не-восточноазиатскую часть генома индейцев каритиана. Технически, данный «компонент» был «синтезирован» в программе Plink с помощью 2последовательных запусков генерации «синтетических» популяций на основании частот аллелей аутосомных снипов, вычисленных в3 последовательных запусках программы Admixture.

Я получил компонент с максимально приближенным значениями к значениям компонента ANE в разных популяциях мира в работе Lazaridis et al. 2014. Изучение этого компонента важно для понимания многих неясных моментов истоии древних популяций в восточной Европе и на северном Кавказе. Последние статьи и анонсы лаборатории Давида Рейха к новой статье о составляющих аутосомного генофонда представителей ямной культуры и культуры шнуровой керамики дают основания полагать, что компонент ANE в Евразии могли разносить потоки миграции индоевропейцев, а генетическое разнообразие жителей Европы и Кавказа практически вписывается внутри класссического треугольника (клинов) генетических компонентов ANE-WHG-EEF (см.  ниже график PCA).

10896832_10205857624789575_5582535068712806983_n

Формально,эта гипотеза проверяется с помощью инструментов f3-статистики (A; B,C) — формального теста на статистическую значимость предполагаемого варианта присутствия адмикса двух популяций-доноров в популяции-рецепиенте.

Я решил проверить надежность модели путем представления ряда европейских и кавказских популяций в виде продукта гибридизации носителей компонента ANE с «неолитическим» и «пост-мезолитическим» населением Европы (результаты ниже,  Z в последней колонке.

 

North-Caucas Caucasian ANE -0.0006748 5.13E-05 -13.166
Mesolithic-North Loschbour ANE -0.0011573 0.0001605 -7.21171
Mediterranean-Neolithic Otzi ANE -0.0012012 0.0002376 -5.05634
Mesolithic-North LaBrana ANE -0.0010358 0.0002097 -4.94043
Italian-East Otzi ANE -0.0012473 0.0005013 -2.48825
Italian-East Italian-West ANE -0.0005022 0.0004325 -1.16129
Maltese Otzi ANE -0.0001611 0.0004147 -0.388512
Assyrian-1 Caucasian ANE -0.0002994 0.0009656 -0.310081
Spanish-Canar Loschbour ANE -0.0002557 0.0011264 -0.227017
Italian-East Maltese ANE 2.36E-05 0.0003026 0.0779574
Italian-East Caucasian ANE 6.32E-05 0.000274 0.230808
Spanish-Canar Otzi ANE 0.0003307 0.0012476 0.265081
Assyrian-1 Italian-West ANE 0.0003321 0.0012207 0.272035

Практически все полученные варианты для современных популяций в тесте f3 дали отрицательную Z-оценку.

Буквой Z обозначается стандартная оценка, основанная на нормальном распределении. Иначе говоря, Z-o. является мерой отклонения от среднего, выраженной в единицах стандартного отклонения. Z –оценка будет иметь отрицательную величину, если показатели адмикса будут выше медианного значения.
Очень высокие или очень низкие (отрицательные) Z-оценки, связанные с очень маленькими p-значениями, располагаются в хвостах нормального распределения, и является значимыми, а не случайными. А значит, компонент ANE был индуцирован мною правильно.

 

 

Что еще любопытно, так это то, что третья составляющая современных европейцев — компонент ANE в моем эксперименте плавно разделился на две подсоставляющих — MA1 (древние сибиряки эпохи палеолита) и Кавказ (в качестве основы я брал геномы грузин и армян).

То есть, скорее всего компонент ANE появился в результате смешивания «труъ» древних северных евразийцев и кавказцев. Собственно, об этом намекал Рейх в анонсе своей публикации результатов анализа геномов жителей ямной культуры.

Вероятно, что кавказские популяции (особенно в Дагестане), характеризующиеся высоким уровнем гомо- и аутозиготности в определенном смысле «законсервировали» в своем геноме тот первый массовый вброс компонента ANE в свой генофонд. И по этой причине, например, без специальной методики, в программе Admixture практически весь компонент ANE маскируется бимодальным компонентом, вроде знаменитого Caucas-Gedrosia в одном из первых этно-популяционных калькуляторов проекта Dodecad. Похоже, что генетика может в очередной раз частично примирить две антиномные теории (вернее, целые кластеры теорий) происхождения ИЕ — анатолийскую и степную. Нечто подобное наблюдалось после прочтения геномов неандертальцев и получения убедительных фактов гибридизации предков соврменного человека и архаических гомининов — неандертальцев, денисовцев. В результате чего теории мультирегионального и монорегионального происхождения человка были хотя бы в отдельных моментах приведены к общему знаменателю.

Как я уже упоминал ранее, мой опыт с «выведением» предкового аутосомного компонента индоевропейцев полностью удался. Поскольку всем очевидно, что этот компонент родственен «североиндийскому предковому компоненту» (ANI — обозначение из статьи Reich et al. 2009 и Moorjani et al 2011) о структуре генофонда индийских этнических групп), я взял 10 индийских этнических групп, имеющихся в кураторском наборе лаборатории Райха и проанализировал эту выборку в Admixture на пропорции вхождения их геномов в 2 априорно заданные кластеры. Первый кластер ANE был априорно задан 40 синтетическим индивидами, сгенерированными в программе Plink на основании расчитанных ранее частот аллелей «чистого» компонента ANE. В качестве дополнительного контрольного образца я использовал геном Malta1, т.к. он содержит в себе наивысшее содержание компонента ANE. Второй кластер был задан 4 индивидами Onge (одна из аборигенных народностей Андаманских островов). Как неоднократно указывалось в литературе, именно жители Андаманских островов являются самыми «чистыми» носителями т.н «южно-индийского» предкового компонента ASI (на континенте чистых носителей этого «компонента» не осталось, в том числе и среди популяций дравидов, ведда и мунда). После нескольких экспериментов по эвристическому методу проб и ошибок, я получил более или менее приемлимое разделение индивидов на 2 кластера, а затем вычислил частоты аллелей в каждом из этих кластеров. Любопытно, что в ходе опыта, удалось не только выделить компонент ANI, но и добиться неплохого уровня дискримнации между компонентом ANI, ANE, и благодаря этому, оба компонента могут быть включены в мой следующий этно-популяционный калькулятор.

Надежность компонентов я проверил на собственных данных. В рабочей модели калькулятора K14 удельное распределение этно-генографических компонентов моего генома выглядит следующим образом:

68.75% — европейский мезолитический компонент
13.12% — северо-евразийский компонент ANE
10.23% — европейский неолитический компонент
4% — ANI (северо-индийский предковый компонент)
1.6% — кавказский компонент
1.2% — алтайский компонент
0.2% — сибирский компонент

R Graphics Output

 

 

Реклама

Этногеномика беларусов — часть IV

Анализ структуры аутосомного генофонда популяции беларусов: результаты анализа этнического адмикса.

 

После проведения анализа этно-популяционного адмикса мы получили следущие результаты, обсуждению которых будет посвящена следущая часть нашего исследования. Результаты представляют собой разбивку аллельных частот на 22 кластера, каждый из которых представляет собой гипотетическую предковую популяцию. Поскольку в цели данного небольшого исследования не входит подробный анализ всех популяций, мы ограничимся сравнительном анализом структуры (компонентов) беларусов c географически близкими популяциями, а также с теми популяциями, которые могли входить в исторические контакты с предками современных беларусов:

admix

 

Рисунок 3. Результатыанализа ADMIXTUREK=22

У рассматриваемых здесь европейских популяций наиболее часто представлены следующие компоненты:

North-East-European,Atlantic_Mediterranean_Neolithic,North-European-Mesolithic, West-Asian, Samoedic, Near_East.

Разберем вкратце каждый из них. В ракурсе нашего исследования самым важным компонентом представляется – северо-восточно-европейский компонент North-East-European, он присутствует почти у всех европейцов, и в самой значительной степени — у балтов и славян: литовцы (81,9), латыши (79,5), беларусы (76,4), эстонцы (75,2), поляки (70,2), русские (67- 70,4), украинцы (62,1- 67,1), сорбы (65,9), карелы (60,2), вепсы (62,5), чехи (57,4), северные немцы (54,6), южные- 42,6, у британцев от 46 до 49, норвежцы- 48,1, шведы- (53,7).

Второй по значимости компонент — Atlantic_Mediterranean_Neolithic (юго-западно-европейский или просто западно-европейский неолитический компонент).[1]У восточноевропейцев он выражен в умеренной степени- чехи (27,8), поляки (18,4), украинцы ( от 17 до 21%), беларусы (13%), русские (от 11 у северных до 17,3 у южных), у коми (8,9 %), манси (8,8 %).

Третьй компонент – северо-европейский мезолитический компонент -North-European-Mesolithic[2]: cаамы (76,4 %), финны (от 30,1 до 37,3 %), вепсы (24,1), карелы (23,2), ижорцы (22, 7). Заметен этот компонент и у северных русских (10,5 %), норвежцев (9,8 %), шведов (7,8 %), эстонцев (7,1 %). У беларусов он практически отсутствует (1.1%).

Четвертый компонент – западно-азиатский (кавказский) West Asian[3]. На интересуемой нас территории этот компонент чаще встречается у казанских татар (9,9 %), южных немцев (8,4), украинцев (от 6,6 до 7,7 %), южных русских (6,2%). На западе высок процент у итальянцев (21,5 % у центральных итальянцев), французов (6,7 %), у беларусов (2.2%).

Пятый компонент — уральский Samoedic. Значительно присутствует у селькупов (68,1%), хантов (64,6), ненцы (37,1), манси (30,9 %-), удмурты (29,6), марийцы (27, 8), шорцы (22,0 %), башкиры (21,7%), чуваши и хакассы по 17,6 %, коми- 16,4 %, казанских татар (11,9 %). У западноевропейцев этот компонент практически не встречается, у русских (от 1,0% у центральных до 4,7 % у северных), у карел (1,6%), словаков (1,4%), западных украинцев (1,7 %), беларусы (0.5%).

Шестой компонент – ближневосточный Near_East[4]У южных немцев (3,5), украинцы (от 2,3 у восточных до 3,8 % у западных), чехи (3,0), беларусы (3,4), словаки (3,2), у русских от 1,0 до 1,5%, у литовцев- 1,4%, у поляков- 1,3 %.

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[1]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[1]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[1]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

Анализ разделяемых аутосомных сегментов между популяциями Северо-Восточной Европы.

С целью верификации результатов анализа главных компонентов генетического разнообразия я подготовил новую выборку популяций, которая включает в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.В ходе нового экспериментального теста в ходе статистической обработки общих по генетическому происхождению сегментов хромосом в составе выборки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, т.е размера той популяции которая участвовала в репродукции или обмене генами в некоем отдаленном временном промежутке. Собственно говоря, эффективная популяция – это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955). Новая программа Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение составило 22 000. Это близко к значениям Neрекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных ниже результатов, даже 22 000 для совокупности эффективного размера элементарных популяций – это более, чем достаточно.

 

finest

Рисунок 4. Расположение популяций в пространстве 1 и 3 главных генетических компонентов

 

Изложим ниже некоторые закономерности размещения популяци

 

  1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
  2. Все литовцы (участники проекта + референсы из вышеупомянутой статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев

  3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.

  4. Ниже находится балканский кластер (румыны, болгары и часть венгров).

  5. К этому кластеру примыкают турки и часть армян

  6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов).

  7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.

  8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

  9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

  10. Левее этой группы популяций находится кластер ашкеназов.

  11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

  12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

  13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

  14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

  15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).[5]

 

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[2]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[3]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[4]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

[5]Такое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции.То есть все эти баски являются многократными родственниками между собой т.е., положение басков на графике есть следствие классического генного дрейфа, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества sharedDNAchunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.

Исходя из этого можно сделать вывод о том что баски эта экстремально-эндогенная популяция изолянтов, при этом генетическое разнообразие басков низко, т.к. размер эффективной популяции басков низок.

MDS-анализ генетической вариативности американских популяций

В декабре прошлого года я занимался анализом аутосомных SNP-ов около трех десятков групп аборигенного народонаселения, проживающих в Новом Свете. Вот эти популяции:

Mexican
Colombian
Dominican
Ecuadorian
PuertoRican
Bolivian
Totonac
Aleut
Athabask
Navajo
Apache
Mixtec
Huichol
Cochimi
Cucupa
Kumiai
Luiseno
Costanoan    
Lumbee
Tlingit
Haida
Eskimo
Miwok
Serrano
Colville 
Inuit-West

Inuit-East

Inuit-West
Tsimsian
Pima
Maya
Karitiana
Surui
Caribbean_Hispanic

В программе Plink были произведены расчеты вариативности этих популяции; позднее эти расчеты были представлены в виде MDS-графика, отображающего взаимное расположение основных популяций Нового Света (за исключением потомков европейцев)  в пространстве первых двух главных генетических векторов, определенных статистическими методами мульти-дименсионального шкалирования.

mdsplot

 

 

test

 

Так как поставленная задача была довольно проста, то и  решилась она тривиальным способом за счет:

  1. включения в выборку генотипов 47 американских афро-американцев США из афро-американской панели проекта HapMap (ASW)
  2. увеличения числа снипов до 190 000.

Новый MDS плот образовал классическую правильную V-образную форму. Такая форма MDS и  PСA-графиков свидетельствует о том, что набор снипов обладает высокими дискриминантными свойствами за счет значимых величин Fst. Иными словами, имеющийся набор снипов дает высокую степень резолюции в определении генетической структуры различных групп народонаселения, которые в свою очередь объединяются в различные кластеры.

 

Собственно говоря, в более правильном виде, вилка американских популяций должна образовать треугольник, в одном углу которого должны располагаться потомки европейских переселенцев; в другом углу – нативное население Америк (америнды); а в третьем – потомки африканских народов.
Таким образом, положение любого индивида, имеющего относительно давние корни в Новом Свете внутри означенного треугольника будет указывать на степень его моно-,би-, и трирасовости.

В основу нашей гипотезы было положено предложение Тони Фрудакиса («Molecular Photofitting. Predicting Ancestry and Phenotype Using DNA») насчет отображения структуры генофонда жителей США в виде треугольника.

Genetic triangle
С целью проверки своей гипотезы о формировании классического треугольника популяционной дивергенции, я добавил в выборку генотипы (1,5 миллиона снипов) 50 мормонов из панели CEU (Utah residents with Northern and Western European ancestry from the CEPH collection). Из нового графика MDS наглядно следует,  что наша  гипотеза нашла свое подтверждение.

mds2

Именно по этой  причине, созданный нами калькулятор MDLP является самым точным из имеющихся в свободном доступе инструментов для обнаружения присутствия компонентов Native American и Afro-American в геноме современных коренных жителей Нового Света.

В качестве дополнительной верификации гипотезы был проведен анализ генетической вариативности популяций Нового Света по методу главных компонент (использовалась та же самая выборка в формате Eigenstrat в программе Eigensoft 4.0). Метод главных компонент дал аналогичную картину:
PCA

 

Анализ аутосомного генофонда балтийских этносов: эстонцев, латышей, литовцев. Часть I

Я решил продолжить эксперименты с новым программным обеспечением ALDER, хорошо зарекомендовавшим себя в анализе ряда кавказских и сибирских популяций. На этот раз я решился взятся за крепкий орешек — популяции восточной Прибалтики. Я не случайно назвал эти популяции крепким орешком, так как с точки зрения популяционной генетики, аутосомный генофонд этих популяций представляет собой гомогенный континуум с крайне малым количеством вариантов, отличающих одну популяцию от другой. По крайней мере, при стандартном использовании классических алгоритмов программ STRUCTURE/ADMIXTURE, или статистических методов PCA/MDS, эти популяции оказывались практически неотличимыми друг от друга.

Условия и параметры ALDER эксперимента оставлены практически неизменными — состав популяций и количество SNP-вариантов не поменялся. Я отказался от эксплицитного определения параметра mindis, так как в том случае, когда мы имеем дело с близкими популяциями, очень сложно дать априорную оценку генетической дистанции, при которой программа может вычислить уровень экспонентного угасания генетического сцепления локусов в аутосомах.

После проведения соответствующих анализов, я получил результаты по трем популяциям — эстонцам, литовцам и латышам. Каждая из популяций была представлена 13-20 индивидами.

Итак,  начну с эстонцев.

Эстонцы

Из вычисленных в программе комбинаций референсных популяций около двух десятков комбинации показала двухсторонную корреляцию угасания генетического сцепления в отношении таргентной популяции эстонцев.  После того, как я отсеел ряд комбинаций с большим разбросом датировки события адмикса, мною были выбраны наиболее устойчивые варианты.

Result Target ReferenceA ReferenceB Admix_dating Admix on Reference A Admix on ReferenceB
success Estonian Swedish Karakalpak 77.4 +/- 45.6 64.55 +/- 18 49.12 +/- 17.87
success Estonian Gagauz Karakalpak 68.18 +/- 38.27 6.78 +/- 3.17 49.12 +/- 17.87
success Estonian CEU Mongol 66.9 +/- 24.82 26.04 +/- 7.49 60.86 +/- 18.02
success Estonian NorthOssetian Karakalpak 61.9 +/- 41.5 78.29 +/- 26.94 49.12 +/- 17.87
success Estonian Saami Karakalpak 53.07 +/- 18.46 10.32 +/- 5.23 49.12 +/- 17.87
success Estonian Mongol Karakalpak 44.55 +/- 16.47 60.86 +/- 18.02 49.12 +/- 17.87
success Estonian CEU Karakalpak 43.92 +/- 20.09 26.04 +/- 7.49 49.12 +/- 17.87
success Estonian Swedish Saami 38.57 +/- 28.37 64.55 +/- 18 10.32 +/- 5.23
success Estonian Swedish Mongol 38.1 +/- 14.45 64.55 +/- 18 60.86 +/- 18.02
success Estonian NorthOssetian Mongol 33.34 +/- 21.02 78.29 +/- 26.94 60.86 +/- 18.02
success Estonian Saami Mongol 30.18 +/- 12.76 10.32 +/- 5.23 60.86 +/- 18.02
success Estonian CEU Saami 27.56 +/- 18.66 26.04 +/- 7.49 10.32 +/- 5.23
success Estonian Italian-Center Saami 18.61 +/- 8.75 79.75 +/- 23.77 10.32 +/- 5.23

Наиболее близкая к нашему времени времени датировка события адмикса в эстонской популяции 18.61+-8.75 поколений назад, то есть  между 1450-1670 годами. Источники адмикса общий — программа улавила сигнал адмикса со стороны популяции которая на 86.1 +/- 5.2% напоминает cовременных шведов,  50.2 +/- 9.2% процента напоминает по генофонду популяцию современных северных итальянцев, и на 44.3 +/- 9.7 % напоминает выходцев из северо-западной Европы.  Теоретически, это может быть любая популяция из северо-западной Европы (это,кстати, подтверждают положительные результаты корреляции с CEU). Второй компонент того же адмикса связан с популяциями Фенноскандии, прежде всего саамами, однако он достаточно слаб (истинная популяция адмикса содержала в своем генофонде около 3.3 +/- 1.5 генов саамов).

Более экзотичные комбинации содержат адмикс со стороны популяций, несущих в себе умеренный % кавказских (26.2 +/- 5.1) и незначительный процент % восточносибирских аллелей (4.7 +/- 1.6 %).  Большая часть интервала датировки этих адмиксов перекрывается и уходить в эпоху великого переселения народов в первые века нашей эры. Поэтому эти компоненты проникли в эстонский генофонд опосредованно через смешивание с какой-то восточноевропейской популяцией, уже содержащей в себе генетические наследие смешивания с популяциями Кавказа и степи.