Генетический компонент северных евразийцев (ANE) в свете новых данных

Начало февраля порадовало важным событием: на  сервере Bioraxiv размещен препринт монументальной статьи Haak et al. (Iosif Lazaridis , Nick Patterson , Nadin Rohland , Swapan Mallick , Bastien Llamas , Guido Brandt , Susanne Nordenfelt , Eadaoin Harney , Kristin Stewardson , Qiaomei Fu , Alissa Mittnik , Eszter Bánffy , Christos Economou , Michael Francken , Susanne Friederich , Rafael Garrido Pena , Fredrik Hallgren , Valery Khartanovich , Aleksandr Khokhlov , Michael Kunst , Pavel Kuznetsov , Harald Meller , Oleg Mochalov , Vayacheslav Moiseyev , Nicole Nicklisch , Sandra L. Pichler , Roberto Risch , Manuel A. Rojo Guerra , Christina Roth , Anna Szécsényi-Nagy , Joachim Wahl , Matthias Meyer , Johannes Krause , Dorcas Brown , David Anthony , Alan Cooper , Kurt Werner Alt , David Reich) «Massive migration from the steppe is a source for Indo-European languages in Europe».  Несмотря на то, что сама статья еще находится на стадии препринта, уже сейчас очевидна глубина проработки материала. Нет никаких сомнений в том, что это объемное, вдумчивое и тщательное исследование  войдет в число главных работ в области индоевропеистики. По своей сути, коллектив авторов подвел в этой работе итоги всех предыдущих исследований введенных  «полных геномов» древних жителей Европы (возрастом в 8 000 -4 000 лет),  введенных в научных оборот за последние 2-3 года. Благодаря систематическому подходу к материалу и синтезу предыдущих наработок,  а также за счет использования  новейших физико-химических методов экстрагирования палео-ДНК вкупе с передовым современейшим биоинформатическим программным обеспечением,  авторы смогли строго и скурпулезно подойти к одному из важнейших вопросов истории, лингвистики и археологии — к вопросу о происхождении индоевропейцев.  К чести авторов, они признают, что даже после столь внушительного по своим размерам и качеству исследования, вопрос о первичном месте происхождения индоевропейцев остается открытым, и поэтому собственно обсуждение релевантности исследования палео-ДНК в свете существующих 4 главных теорий  происхождения индоевропейцев занимает в работе относительно мало места (стр.134-139).  Впрочем, вряд ли кто всерьез ожидал от этого исследования окончательного ответа на все вопросы индоевропеистики.  Тем не менее, подробный анализ аутосомного генома, а также однородительских маркеров (митохондриального генома и  Y-хромосомы) представителей целого ряда культур неолита, медногл и бронзового века восточной и западной Европы, и в особенности представителей Ямной культуры,  дает новую подпитку вечному спору между сторонниками разных версий происхождения индоевропейцев (т.к. многие вслед за Гимбутас связывают ямную культуру с общностью протоиндоевропейцев).

annurev-linguist-030514-124812.f2

Зато остальная часть этой 172-страничной работы настолько богата (насыщена) фактическим материалом, что любой, даже самый искушенный, читатель попгенетической литературы получит большое удовольствие от приобщения к плодам многолетней работы умнейших ученых.   А работа, действительно, проделана огромная. Ученые воссоздали геномные данные 69 европейцев, живших между 8 000-3000 лет тому назад, за счет обогащения амплифицированных библиотек палео-ДНК. Эти библиотеки палео-ДНК они использовали для целевого отбора  394577 таргентных полиморфизмов (снипов) в панелях Affymetrix Human Origins. Обогащение именно этих специально отобранных таргентных позиций позволило снизить необходимые для анализа древней ДНК объемы секвенирования в среднем примерно в 250 (!) раз, что позволило авторам изучить на порядок больше лиц в сравнении с предыдущими исследованиями, и получить более полные знания о прошлом.

map

В работе показано, что уже 8,000-5,000 лет  назад население западной и восточной Европы следовали противоположным траекториям развития.

На заре евпропейского неолита, примерно 8,000-7,000 лет назад, отдельныетесно связанные родством и отличные от коренных европейских охотников-собирателей, группы  ранних земледельцев появились в Германии, Венгрии и Испании, в то время как Россия была населена особой группой восточных охотников-собирателей, имеющих родство с населением сибирского палеолита (24 000 л.н.в) , эта группа древних северо-евразийцев (ANE), представлена образцом MA1 (мальчик с палеолитической стоянки Malta-1 из южной Сибири); кроме того, этот компонент неплохо аппроксимируется «сибирской частью» генома изолированных индейцев Южной Америки (каритиана). Два образца охотников-собирателей из России (Карелия и Самары) образуют кластер «восточно-европейских охотников-собирателей «(EHG); пост-мезолитические охотники-собиратели  из Люксембурга, Испании и Венгрии (WHG) находятся на противоположенном конце клина охотников-собирателей, в то время как охотники-собиратели  Швеции  (SHG) находятся посередине. Интересно отметить, что геном охотника-собирателя из Карелии представляет собой смесь 38-40% компонента ANE и 60-62% компонента WHG, причем величина ANE значительно выше 20% ANE, выведенных для  шведского-охотника собирателя Motala-12 в предыдущем исследовании Lazaridis et al 2014).
В соответствии с тем, что EHG являются обмен население больше аллелей с «древних Северной евразийцев» (ГУ 7), чем любой другой.

pca

Примерно  6-5 тысяч лет назад,  на большой части  Европы назад  произошел новый «подъем» потомков мезолитических охотников-собирателей, но в России  степные скотоводы Ямной культуры время произошли от смешивания  предыдущих племен восточно-европейских охотников-собирателей с населением ближневосточного происхождения.  Население Ямной культуры отличалось от своих предшественников -восточно-европейских охотников-собирателей EHG —  меньшим количеством обших аллелей с MA1 (| Z | = 6,7), что  свидетельствует о процессе дисперсии носителей ANE  на территории европейских степей где-то между 5 000-3 000 гг. до н.э. Уменьшение числа общих с образцом MA1 аллелей, вероятно объясняется появлением «примеси» от популяции или популяций, тесно связанных с
популяциями современного ближнего Востока, т.к. самая отрицательная f3-статистика  (отрицательная статистика однозначно свидетельствует о примеси) наблюдается при моделировании жителей Ямной культуры как продукта смешивания носителей компонента EHG  и современных популяций ближнего Востока, таких как армян (Z = -6,3).

Непосредственный контакт между населением западной и восточной Европой состоялся   ~ 4500 лет назад, а в геноме поздне-неолитического населения культуры шнуровой керамики на территории Германии прослеживается 75%-ный «генетический» вклад «степного» компонента представителей ямной культуры. Таким образом геном жителей культуры шнуровой керамики «документирует» массовую миграцию населения с восточной периферии Европы в ее центральные области. Данный «степной» компонент Yamna (гибрид EHG и ближневосточных популяций) сохранялась в значительных пропорциях у всех имеюшисхя образцах из центральной Европы как минимум до ~ 3000 г.н.э, и повсеместно встречается у современных европейцев.

 

admix2

 

Если географическая дихотомия неолитического и мезолитического генетических компонентов в Европе была отмечена еще в работах пионеров популяционной генетки вроде Л. Кавалли-Сфорца, то данные этой работы позволяют вставить последнее звено в решении головоломки. На основании данных можно предположить, каким именно образом третий генетический компонент европейцев (ANE) попал из Сибири  в Европу: сначала этот компонент несли представители EHG,  затем он перешло к «ямникам» (смешанная популяция восточно-европейских охотников-собирателей и населения ближневосточного типа), а затем от ямников к представителям культуры шнуровой керамики, которые представляли собой смесь представителей ямной культуры с средне-неолитическими европейцами.  В настоящее время этот компонент имеет плавное распределение на территории Европы, и по этой причине, мы можем использовать его в анализах структуры как генофонда целых народов, так и генома отдельно взятых людей.

В январе я провел небольшой  эксперимент c «чистым вариантом» аутосомного компонента ANE (ancestral North-Euarasians), впервые описаном в известной работе Lazaridis et al. 2014. Процедура вывода третьего генетического компонента в генофонде европейцев (ANE) оказалась гораздо сложнее, чем я предполагал в начале. Основная сложность заключалась в том, что в отличии от мезолитических и неолитческих сэмплов, у нас нет хорошого образца палеоДНК носителей компонента ANE. Пришлось заниматься реконструкцией генома, используя в качестве заменителей геном MA1 и не-восточноазиатскую часть генома индейцев каритиана. Технически, данный «компонент» был «синтезирован» в программе Plink с помощью 2последовательных запусков генерации «синтетических» популяций на основании частот аллелей аутосомных снипов, вычисленных в3 последовательных запусках программы Admixture.

Я получил компонент с максимально приближенным значениями к значениям компонента ANE в разных популяциях мира в работе Lazaridis et al. 2014. Изучение этого компонента важно для понимания многих неясных моментов истоии древних популяций в восточной Европе и на северном Кавказе. Последние статьи и анонсы лаборатории Давида Рейха к новой статье о составляющих аутосомного генофонда представителей ямной культуры и культуры шнуровой керамики дают основания полагать, что компонент ANE в Евразии могли разносить потоки миграции индоевропейцев, а генетическое разнообразие жителей Европы и Кавказа практически вписывается внутри класссического треугольника (клинов) генетических компонентов ANE-WHG-EEF (см.  ниже график PCA).

10896832_10205857624789575_5582535068712806983_n

Формально,эта гипотеза проверяется с помощью инструментов f3-статистики (A; B,C) — формального теста на статистическую значимость предполагаемого варианта присутствия адмикса двух популяций-доноров в популяции-рецепиенте.

Я решил проверить надежность модели путем представления ряда европейских и кавказских популяций в виде продукта гибридизации носителей компонента ANE с «неолитическим» и «пост-мезолитическим» населением Европы (результаты ниже,  Z в последней колонке.

 

North-Caucas Caucasian ANE -0.0006748 5.13E-05 -13.166
Mesolithic-North Loschbour ANE -0.0011573 0.0001605 -7.21171
Mediterranean-Neolithic Otzi ANE -0.0012012 0.0002376 -5.05634
Mesolithic-North LaBrana ANE -0.0010358 0.0002097 -4.94043
Italian-East Otzi ANE -0.0012473 0.0005013 -2.48825
Italian-East Italian-West ANE -0.0005022 0.0004325 -1.16129
Maltese Otzi ANE -0.0001611 0.0004147 -0.388512
Assyrian-1 Caucasian ANE -0.0002994 0.0009656 -0.310081
Spanish-Canar Loschbour ANE -0.0002557 0.0011264 -0.227017
Italian-East Maltese ANE 2.36E-05 0.0003026 0.0779574
Italian-East Caucasian ANE 6.32E-05 0.000274 0.230808
Spanish-Canar Otzi ANE 0.0003307 0.0012476 0.265081
Assyrian-1 Italian-West ANE 0.0003321 0.0012207 0.272035

Практически все полученные варианты для современных популяций в тесте f3 дали отрицательную Z-оценку.

Буквой Z обозначается стандартная оценка, основанная на нормальном распределении. Иначе говоря, Z-o. является мерой отклонения от среднего, выраженной в единицах стандартного отклонения. Z –оценка будет иметь отрицательную величину, если показатели адмикса будут выше медианного значения.
Очень высокие или очень низкие (отрицательные) Z-оценки, связанные с очень маленькими p-значениями, располагаются в хвостах нормального распределения, и является значимыми, а не случайными. А значит, компонент ANE был индуцирован мною правильно.

 

 

Что еще любопытно, так это то, что третья составляющая современных европейцев — компонент ANE в моем эксперименте плавно разделился на две подсоставляющих — MA1 (древние сибиряки эпохи палеолита) и Кавказ (в качестве основы я брал геномы грузин и армян).

То есть, скорее всего компонент ANE появился в результате смешивания «труъ» древних северных евразийцев и кавказцев. Собственно, об этом намекал Рейх в анонсе своей публикации результатов анализа геномов жителей ямной культуры.

Вероятно, что кавказские популяции (особенно в Дагестане), характеризующиеся высоким уровнем гомо- и аутозиготности в определенном смысле «законсервировали» в своем геноме тот первый массовый вброс компонента ANE в свой генофонд. И по этой причине, например, без специальной методики, в программе Admixture практически весь компонент ANE маскируется бимодальным компонентом, вроде знаменитого Caucas-Gedrosia в одном из первых этно-популяционных калькуляторов проекта Dodecad. Похоже, что генетика может в очередной раз частично примирить две антиномные теории (вернее, целые кластеры теорий) происхождения ИЕ — анатолийскую и степную. Нечто подобное наблюдалось после прочтения геномов неандертальцев и получения убедительных фактов гибридизации предков соврменного человека и архаических гомининов — неандертальцев, денисовцев. В результате чего теории мультирегионального и монорегионального происхождения человка были хотя бы в отдельных моментах приведены к общему знаменателю.

Как я уже упоминал ранее, мой опыт с «выведением» предкового аутосомного компонента индоевропейцев полностью удался. Поскольку всем очевидно, что этот компонент родственен «североиндийскому предковому компоненту» (ANI — обозначение из статьи Reich et al. 2009 и Moorjani et al 2011) о структуре генофонда индийских этнических групп), я взял 10 индийских этнических групп, имеющихся в кураторском наборе лаборатории Райха и проанализировал эту выборку в Admixture на пропорции вхождения их геномов в 2 априорно заданные кластеры. Первый кластер ANE был априорно задан 40 синтетическим индивидами, сгенерированными в программе Plink на основании расчитанных ранее частот аллелей «чистого» компонента ANE. В качестве дополнительного контрольного образца я использовал геном Malta1, т.к. он содержит в себе наивысшее содержание компонента ANE. Второй кластер был задан 4 индивидами Onge (одна из аборигенных народностей Андаманских островов). Как неоднократно указывалось в литературе, именно жители Андаманских островов являются самыми «чистыми» носителями т.н «южно-индийского» предкового компонента ASI (на континенте чистых носителей этого «компонента» не осталось, в том числе и среди популяций дравидов, ведда и мунда). После нескольких экспериментов по эвристическому методу проб и ошибок, я получил более или менее приемлимое разделение индивидов на 2 кластера, а затем вычислил частоты аллелей в каждом из этих кластеров. Любопытно, что в ходе опыта, удалось не только выделить компонент ANI, но и добиться неплохого уровня дискримнации между компонентом ANI, ANE, и благодаря этому, оба компонента могут быть включены в мой следующий этно-популяционный калькулятор.

Надежность компонентов я проверил на собственных данных. В рабочей модели калькулятора K14 удельное распределение этно-генографических компонентов моего генома выглядит следующим образом:

68.75% — европейский мезолитический компонент
13.12% — северо-евразийский компонент ANE
10.23% — европейский неолитический компонент
4% — ANI (северо-индийский предковый компонент)
1.6% — кавказский компонент
1.2% — алтайский компонент
0.2% — сибирский компонент

R Graphics Output

 

 

Этногеномика беларусов — часть V

Обсуждение результатов и выводы

 

Как отмечалось в введении к нашей статье, главной задачей нашего исследования являлась проверка двух рабочих гипотез, озвученных в предыдущих исследованиях профессиональных попгенетиков. Во-первых, это гипотеза о присутствии трех основных древних компонентов , которая указывает на возможность общего происхождения славян и балтов. Во-вторых, это утверждение о том, что своеобразие аутосомного генофонда беларусов может быть связанно с вкладом балтского субстрата.

После внимательного изучения результатов нашего исследования,можно сказать, что оба из приведенных выше заключений представляют собой крайне упрощеные варианты сложного процесса формирования аутосомного генофонда беларусов. Хотя мы и не можем предоставить окончательных аргументов в пользу или опровержение каждой из этих версий, мы может предоставить более полное и подробное обозрение структуры аутосомного генофонда. В отличие от трех основых компонентов, упомянутых выше, в нашем исследовании мы выделили шесть основных компонентов, типичных для европейцев в целом. Основу генофонда составляет компонент, который мы обозначили как северо-восточно-европейский компонент. Именно этот компонент выделяет беларусов среди других восточных славян, приближая их к современным балтийским популяциям (у литовцев процент компонента составляет 81,9, у латышей — 79,5%, у беларусов -76,4%, у эстонцев — 75,2%). Примечательно, по мере удаления от территории Беларуси на север в с торону Латвии и Эстонии, увеличивается процент северо-европейского генетического компонента (как мы полагаем, этот компонент доминировал в генофонде доисторических жителей Скандинавии в эпоху до распространения финно-угоров и индо-европейцев). С другой стороны, беларусов и других восточных славян отдаляет от балтов и сближает друг к другу более высокий процент так называемого западно-азиатского или кавказского компонента (любопытно, что в этом случае эта закономерность может свидетельствовать в пользу западно-азиатской теории происхождения индо-европейцев).

Далее, как показывает анализ в программе fineStructure, генофонд беларусов характеризируется высокой степенью генетических контактов как с балтами, так и остальными славянами, а также с рядом финно-угорских популяций (например, c эрзя и мокша). О симметричном характере межпопуляционного обмена свидетельствует симметричное расположение популяции беларусов относительно этих трех групп.

Исходяизвышенаписанного,представляетсялогичнымсделатьвыводотом,чтоосновнойкритическийэтапстановленияаутосомногогенофондапришелсянапериодсмешиванияносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,послечегопредковыйаутосомныйгенофондбеларусовприобрелотносительнуюстабильность.Разумеется,даннаямодельнеисключаетпозднейшиеэпизодысмешиванияпопуляций,ноониоставилименьшийследвструктуреаутосомногогенофондабеларусов.Вэтойсвязивозникаеточевидныйвопрос–вкакойименноисторическийпериодпроизошлосмешениеносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,иктобылиихносителями?
В начале сентября 2012 года известная американская лаборатория популяционной генетики доктора Райха опубликовала альфа-версию программного продуктаADMIXTOOOLS1.0. Альфа-версия была разработана для внутреннего использования, поэтому modusoperandiэтого продукта вряд ли является кристально понятным для стороннего пользователя. Положительным аспектом на мой взгляд является то, что ADMIXTOOLSпакет обеспечивает полную совместимость с форматом другой очень популярной программыEIGENSOFT, которая была разработана в той же лаборатории. Это немаловажное обстоятельство намного упрощает процесс обучения в ADMIXTOOLS.

Вышеупомянутый пакет включает в себя 6 приложений, среди которых я считаю наиболее полезнойqp3Popи утилиты для вычисления частотной характеристики аллелей. Впрочем, я не собираюсь обсуждатьqp3popво всех деталях и в контексте данной заметки достаточно отметить, что эта программа реализует тест three_pop(F_3), подробно описанный в известной статье Рейха и соавт. 2009.

Однако другой имплементированный в пакете метод, – метод rolloff– нуждается в более пристальном внимании. Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатураLD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории, чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения LDв адмиксе напрямую связана с числом поколений, прошедших с момента адмикса, так как cвозрастанием числа поколений увлечивается число рекомбинаций произошедших между двумя отдельными SNP-ами. Проще говоря: Rolloffсоответствует экспоненциальной кривой угасания уровня LDот расстояния, и эта скорость экспоненциального снижения как раз и используется для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.

Этот метод открывает интересные перспективы. Для целей этого анализа, я создал специальный набор SNP-данных, который включает в себя около 750 000 cнипов, частично или полностью в 250 различных популяциях человека. Далее, я разбил популяции 3 * 62 000 трио в следующем виде (X, Y, Z), где X и Y – пара рефренсных групп, а Z – белорусы из коллекцииBehar et al.2010. После этого я провел q3Pop анализ этих трио.

Результаты изложены в нижеприведенной таблице

Indian Polish Belarusian -0.000736 0.000251 -2.935
Polish Indian Belarusian -0.000736 0.000251 -2.935
Karitiana Sardinian Belarusian -0.001278 0.000517 -2.471
Sardinian Karitiana Belarusian -0.001278 0.000517 -2.471
Otzi North_Amerind Belarusian -0.002556 0.001126 -2.271
Cirkassian Polish Belarusian -0.000488 0.000231 -2.113
Polish Cirkassian Belarusian -0.000488 0.000231 -2.113
Pima Otzi Belarusian -0.002727 0.00137 -1.99
Pima Sardinian Belarusian -0.000794 0.000431 -1.843
Sardinian Pima Belarusian -0.000794 0.000431 -1.843
Otzi Surui Belarusian -0.002938 0.001931 -1.522
Surui Otzi Belarusian -0.002938 0.001931 -1.522

 

На первый взгляд, результаты нашего эксперимента с 3qPop, кажется, неплохо согласуются с выводами, содержащимися в работеПаттерсон и др. 2012: “Самый поразительный вывод состоит в обнаружени четкого сигнала адмикса в северной Европе, один из элементов которого связан с предками населения наиболее близкого по своей генетике к баскам и жителям Сардинии, а другой – с предками современного населения северо-восточной Азии и Америки. Этот явный сигнал, вероятно, отражает историю смешивания неолитических мигрантов с коренным населением Европы, что подтверждается недавним генетическим анализом древних костей Швеция и секвенированием полного генома Отци Тирольца”. Что касается собственно белорусов, то источники сигнала смешивания с посторонними популяцими менее ясны и расплывчаты. Как было показано ранее, с точки зрения формального анализа примесей (f3 статистики), белорусы могут быть представлены в виде популяционного микса поляков и индусов / черкессов. Первый компонент смеси может быть связан с носителями культуры шнуровой керамики/боевых топоров и культуры колоковидных кубков; второй, в соответствии с результатами, должен быть общим для индусов и черкесов.

 

Белорусы = ((неолитические культуры Европы) + “носители культуры колоковидных кубков”) + (мезолитическое население Европы) + компонент носителей культуры шнуровой керамики)) + скифо-сарматский тип

 

Для оценки дата события базового адмикса в белорусской популяции, мы использовали в качестве референсных популяций поляков и индусов (Примечание: мы снизили порог генетических дистанции в параметрах Rolloff для снижения уровня шума от более поздних адмиксов).

 

rolloff

Как вы можете видеть, сигнал присутствия адмикса обнаруживается гораздо хуже, и в силу этого, погрешности в оценке временного промежутка высоки:

154,158 + -87,024 поколений назад (или, 4470 + -2523 года до настоящего времени / 2510 – +2523 лет до н.э.).

 

Исходя из этого, мы решили модифицировать Rolloff-анализ генофонда белорусов, используя на этот раз в качестве референсов литовцев и пуштунов. Следуя этому совету, я решил предпринять вторую попытку формального анализа адмикса в двух имеющихся у нас выборках беларусов ( выборка беларусов из статьи Behar et al. 2011), и выборка беларусов, собранная в нашем проекте.Ниже приведены результаты эксперимента с двумя этими группам (в отличие результатов нашей предыдущей попытки, результаты данного эксперимента менее “зашумленные”):

rolloff2

 

Интервал числа поколений, прошедших со времен анализируемого адмикса (105.086+-52.59) или 3069 +- 1525 лет до настоящего времени, что соответствует временном интервалу 2 тыс. до нашей эры – 6 век нашей эры. Принимая во внимание эти выводы, мы можем предположить, что основной аутосомный эпизод смешивания предковых популяций беларусов произошел в течении довольно таки продолжительного времени, охватывающего несколько тысяч лет. В этой связи, вопрос о том, кто именно был носителями северо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента, остается открытым.

Этногеномика беларусов — часть IV

Анализ структуры аутосомного генофонда популяции беларусов: результаты анализа этнического адмикса.

 

После проведения анализа этно-популяционного адмикса мы получили следущие результаты, обсуждению которых будет посвящена следущая часть нашего исследования. Результаты представляют собой разбивку аллельных частот на 22 кластера, каждый из которых представляет собой гипотетическую предковую популяцию. Поскольку в цели данного небольшого исследования не входит подробный анализ всех популяций, мы ограничимся сравнительном анализом структуры (компонентов) беларусов c географически близкими популяциями, а также с теми популяциями, которые могли входить в исторические контакты с предками современных беларусов:

admix

 

Рисунок 3. Результатыанализа ADMIXTUREK=22

У рассматриваемых здесь европейских популяций наиболее часто представлены следующие компоненты:

North-East-European,Atlantic_Mediterranean_Neolithic,North-European-Mesolithic, West-Asian, Samoedic, Near_East.

Разберем вкратце каждый из них. В ракурсе нашего исследования самым важным компонентом представляется – северо-восточно-европейский компонент North-East-European, он присутствует почти у всех европейцов, и в самой значительной степени — у балтов и славян: литовцы (81,9), латыши (79,5), беларусы (76,4), эстонцы (75,2), поляки (70,2), русские (67- 70,4), украинцы (62,1- 67,1), сорбы (65,9), карелы (60,2), вепсы (62,5), чехи (57,4), северные немцы (54,6), южные- 42,6, у британцев от 46 до 49, норвежцы- 48,1, шведы- (53,7).

Второй по значимости компонент — Atlantic_Mediterranean_Neolithic (юго-западно-европейский или просто западно-европейский неолитический компонент).[1]У восточноевропейцев он выражен в умеренной степени- чехи (27,8), поляки (18,4), украинцы ( от 17 до 21%), беларусы (13%), русские (от 11 у северных до 17,3 у южных), у коми (8,9 %), манси (8,8 %).

Третьй компонент – северо-европейский мезолитический компонент -North-European-Mesolithic[2]: cаамы (76,4 %), финны (от 30,1 до 37,3 %), вепсы (24,1), карелы (23,2), ижорцы (22, 7). Заметен этот компонент и у северных русских (10,5 %), норвежцев (9,8 %), шведов (7,8 %), эстонцев (7,1 %). У беларусов он практически отсутствует (1.1%).

Четвертый компонент – западно-азиатский (кавказский) West Asian[3]. На интересуемой нас территории этот компонент чаще встречается у казанских татар (9,9 %), южных немцев (8,4), украинцев (от 6,6 до 7,7 %), южных русских (6,2%). На западе высок процент у итальянцев (21,5 % у центральных итальянцев), французов (6,7 %), у беларусов (2.2%).

Пятый компонент — уральский Samoedic. Значительно присутствует у селькупов (68,1%), хантов (64,6), ненцы (37,1), манси (30,9 %-), удмурты (29,6), марийцы (27, 8), шорцы (22,0 %), башкиры (21,7%), чуваши и хакассы по 17,6 %, коми- 16,4 %, казанских татар (11,9 %). У западноевропейцев этот компонент практически не встречается, у русских (от 1,0% у центральных до 4,7 % у северных), у карел (1,6%), словаков (1,4%), западных украинцев (1,7 %), беларусы (0.5%).

Шестой компонент – ближневосточный Near_East[4]У южных немцев (3,5), украинцы (от 2,3 у восточных до 3,8 % у западных), чехи (3,0), беларусы (3,4), словаки (3,2), у русских от 1,0 до 1,5%, у литовцев- 1,4%, у поляков- 1,3 %.

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[1]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[1]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[1]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

Анализ разделяемых аутосомных сегментов между популяциями Северо-Восточной Европы.

С целью верификации результатов анализа главных компонентов генетического разнообразия я подготовил новую выборку популяций, которая включает в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.В ходе нового экспериментального теста в ходе статистической обработки общих по генетическому происхождению сегментов хромосом в составе выборки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, т.е размера той популяции которая участвовала в репродукции или обмене генами в некоем отдаленном временном промежутке. Собственно говоря, эффективная популяция – это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955). Новая программа Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение составило 22 000. Это близко к значениям Neрекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных ниже результатов, даже 22 000 для совокупности эффективного размера элементарных популяций – это более, чем достаточно.

 

finest

Рисунок 4. Расположение популяций в пространстве 1 и 3 главных генетических компонентов

 

Изложим ниже некоторые закономерности размещения популяци

 

  1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
  2. Все литовцы (участники проекта + референсы из вышеупомянутой статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев

  3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.

  4. Ниже находится балканский кластер (румыны, болгары и часть венгров).

  5. К этому кластеру примыкают турки и часть армян

  6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов).

  7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.

  8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

  9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

  10. Левее этой группы популяций находится кластер ашкеназов.

  11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

  12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

  13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

  14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

  15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).[5]

 

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[2]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[3]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[4]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

[5]Такое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции.То есть все эти баски являются многократными родственниками между собой т.е., положение басков на графике есть следствие классического генного дрейфа, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества sharedDNAchunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.

Исходя из этого можно сделать вывод о том что баски эта экстремально-эндогенная популяция изолянтов, при этом генетическое разнообразие басков низко, т.к. размер эффективной популяции басков низок.

Еще раз к проблеме генетической преемественности саамов и финнов

Одна из первых записей в этом дневнике была посвящена проблеме происхождения саамов. Поскольку все основные аргументы в споре генетиков, лингвистов и археологов были исчерпаны я решил не возвращаться к этой теме. Однако в середине мая со мной связался Андерс Полсен из генеографического проекта Fennoscandia . Нужно отметить необычайную активность Андерса, которая в последнее время особенно заметна на фоне бездеятельности остальных ведущих геномных блоггеров. В числе прочего следует упомянуть о ряде примечательных заметок Андерса, посвященных сравнительному анализу древнего ДНК останков из мезолитической испанской пещеры La Brana и  ДНК современных саамов. Эти заметки заслуживают дополнительного комментария. Анализом этно-популяционных компонентов ДНК  примерно год тому назад занимался Диенек Понтикос и автор этих строк. Понтикос отметил, в числе прочего, интересный момент:

В связи с небольшим числом извлеченных из останков снипов, я был вынужден создать композитный набор данных за счет слияния данных обеих генотипированных мезолитических индивидов; в моем калькуляторе K7b этот композитный индивид характеризуется наличием 9,3% африканских аллелей и 90,7% аллелей входящих в кластер Atlantic_Baltic, и этот расклад довольно точно соответствует положению этого композита на графике PCA … высокий процент компонента Atlantic_Baltic, согласуется с аналогичным высоким процентом Atlantic_Baltic, выявленным у  охотников-собирателей шведского неолита.

Поскольку география ареала распространения этого компонента, похоже, мало интересует Диенека, более он ничего не писал. Мой анализ показал несколько иную картину. Прежде всего, я использовал несколько иную группировку популяционных кластеров, определенных в ходе анализа чистот аллелей в разных популяциях. Во-вторых, в отличии Диенека, имеющего ограниченный сэмпл популяций балтийского и скандинавского регионов,  у меня была собрана солидная референсная группа эстонцев, шведов, латышей, финнов и саамов. Благодаря этому удалось показать, что ближе всего к La Brana находятся современные саамы, финны, латыши и эстонцы. Это геномная близость оказалась настолько явственной, что представляется возможным выделить компонент объединяющий все эти популяции и мезолитических испанцев в общий компонент, который я назвал палеоевропейским.

Эти выводы заинтересовали Андерса, поскольку в рамках своего проекта Фенноскандия, он уделяет особое внимание скандинавским популяциям, в том числе и саамам.  Месяц назад он написал мне письмо:

Я пытался  много раз проверить твои выводы (насчет близости саамов и мезолитических испанцев). Полученная в программе PLINK IBS матрица позволяет нам предположить, что  в абсолютном выражении, кратчайший путь от La Braña ведет к литовцам, и затем к  части финнов из северных регионов Финляндии. В программе Admixture, которая не учитывает перевес в пользу финнских и скандинавских образцов, финны и литовцы образовали  два разных кластера, а La Brana  попали в  общий кластер с финно-саамским компонентом, а не с литовцами. В другом запуске программы Admixture, я использовал равные по числу образцов выборки финнов и литовцев. В этом эксперимента я не обнаружил какого-либо расхождения между литовцами и финны, а La Brana попали целиком в этом общий финно-литовский компонент. Однако только что я завершил новый анализ структуры генофонда в программе fineStructure -Chromopainter. В размерности 4 «мирового» PCA La Brana  имеют одинаковую вариацию с двумя саамами и финном с небольшой примесью саамской крови.

В качестве ответа, я привел ряд своих собственных наблюдений насчет геномного сходства саамов.Я использовал совокупный набор данных для расчета матриц IBS и последующего импорта попарных IBS матриц в статистическое программное обеспечение R. Используя встроенные библиотеки программы R,  я вычислил средние значения наблюдений в наборе данных с попарными значениями IBS между образцами, включенными в анализ. Ниже приводится таблица с попарными значениями геномного сходства . Как видно,  в этот раз La Brana оказались гораздо более к балтийским популяциям:

Latvian Bra 0,5762
North-German Bra 0,5762
Estonian Bra 0,5761
Lithuanian Bra 0,5703
Russian Bra 0,5699
Czech Bra 0,5694
Swede Bra 0,5694
Russian_North Bra 0,5686
Pole Bra 0,5675
Orcadian Bra 0,5675
Bulgarian Bra 0,5671
South-Germanian Bra 0,5666
TN_Brahmin Bra 0,5661
Swiss Bra 0,5653
CEU Bra 0,5647
Center-Russian Bra 0,5643
Komi Bra 0,5641
Belorusian Bra 0,5638
Athabask Bra 0,5634
Mordovian Bra 0,5629
Kosovar Bra 0,5624
Corsican Bra 0,5622
French Bra 0,5614
Tsimsian Bra 0,5609
Croat Bra 0,5609
Nguni Bra 0,5606
Slovak Bra 0,5606
Hungarian Bra 0,5603
Yukagir Bra 0,5600
West-Ukrainian Bra 0,5596
NAN_Melanesian Bra 0,5595
Chuvash Bra 0,5593
Welsh Bra 0,5593
Colombian Bra 0,5592
Vepsa Bra 0,5591
Karelian Bra 0,5590
Miwok Bra 0,5589
North-Russian Bra 0,5587
Portugese Bra 0,5583
German Bra 0,5582
Macedonian Bra 0,5579
Finn Bra 0,5577
Russian_cossack Bra 0,5577
Colville Bra 0,5576
Russian_Center Bra 0,5576
Bosnian Bra 0,5571
Hakas Bra 0,5570
South-Russian Bra 0,5569
Lumbee Bra 0,5568
Sardinian Bra 0,5567
Selkup Bra 0,5567
Nenets Bra 0,5564
East-Ukrainian Bra 0,5563
Hausa Bra 0,5561
Tuva Bra 0,5558
Meghawal Bra 0,5556
Uzbeki_jew Bra 0,5556
Bashkir Bra 0,5555
Br Bra 0,5554
Inuit-West Bra 0,5552
Mexican Bra 0,5551
Tatar Bra 0,5550
Ukrainian Bra 0,5550
Naxi Bra 0,5548
Libyan-jew Bra 0,5548
British Bra 0,5548
North-Greek Bra 0,5546
French_Basque Bra 0,5545
Khant Bra 0,5544
Ashkenazi_Jew Bra 0,5543
Dharkar Bra 0,5543
Miaozu Bra 0,5542
Tatar_Lithuania Bra 0,5542
Daur Bra 0,5542
Spain Bra 0,5541
Saami Bra 0,5540
Romanian_Jew Bra 0,5540
Brahmin Bra 0,5537
Lezgin Bra 0,5536
Slovenian Bra 0,5536
Udmurd Bra 0,5534
Mongola Bra 0,5533
Sotho Bra 0,5533
Tuscan Bra 0,5533
Altaic Bra 0,5532
Burusho Bra 0,5529
North_Italian Bra 0,5525
Nogay Bra 0,5525
Azeri_Jew Bra 0,5525
Balkar Bra 0,5523
Adygei Bra 0,5522
Kol Bra 0,5520
Montenegrin Bra 0,5520
Gagauz Bra 0,5518
Hakkipikki Bra 0,5518
South-Greek Bra 0,5517
Han Bra 0,5516
Indian_muslim Bra 0,5516
Iberian Bra 0,5515
Georgian_Imereti Bra 0,5515
Greek_Azov Bra 0,5515
She Bra 0,5514
Yakut Bra 0,5513
GreeceThessaly2 Bra 0,5512
Serb Bra 0,5512
North-Ossetian Bra 0,5511
Lak Bra 0,5511
Chechen Bra 0,5511
Dusadh Bra 0,5511
Brahmin_UttarPradesh Bra 0,5510
Tlingit Bra 0,5507
Kalmyk Bra 0,5506
Toscanian Bra 0,5505
IndCan Bra 0,5505
Greek Bra 0,5504
Indian Bra 0,5504
Egyptan Bra 0,5503
Bengali Bra 0,5503
Haida Bra 0,5503
Ashkenazi Bra 0,5503
Kazakh Bra 0,5502
Mansi Bra 0,5502
Burmese Bra 0,5499
Georgian_Jew Bra 0,5499
Tunisian_Jew Bra 0,5496
Mongol Bra 0,5496
Kusunda Bra 0,5496
Turk Bra 0,5495
Karitiana Bra 0,5495
Uttar_Pradesh_scheduled_caste Bra 0,5494
Romanian Bra 0,5494
Kyrgyz Bra 0,5493
Uzbek Bra 0,5491
Roma Bra 0,5491
Ecuadorian Bra 0,5491
Xibo Bra 0,5490
Armenian Bra 0,5490
North_Greek Bra 0,5489
Tujia Bra 0,5489
Caribbean_Hispanic Bra 0,5489
Gond Bra 0,5488
Tatar_Crim Bra 0,5487
Turkmen Bra 0,5487
Iraqi-jew Bra 0,5486
Kurumba Bra 0,5486
Tu Bra 0,5486
Sindhi Bra 0,5484
Kshatriya Bra 0,5483
Oroqen Bra 0,5481
Aleut Bra 0,5478
Brg Bra 0,5478
Druze Bra 0,5478
Tadjik Bra 0,5477
Yizu Bra 0,5477
Kanjar Bra 0,5477
Naga Bra 0,5476
Irani-jew Bra 0,5476
Abhasian Bra 0,5475
Brahui Bra 0,5474
Georgian Bra 0,5472
Dai Bra 0,5471
Evenk Bra 0,5470
Tamil_Brahmin Bra 0,5470
Libyan Bra 0,5469
Cypriot Bra 0,5469
Mari Bra 0,5468
Kumyk Bra 0,5468
Hazara Bra 0,5467
Moroccan Bra 0,5467
Syrian Bra 0,5467
Inkeri Bra 0,5464
Azeri Bra 0,5464
Iraq_jew Bra 0,5464
Indian_Jew Bra 0,5464
Saudian Bra 0,5464
Lambadi Bra 0,5463
Cretan Bra 0,5462
Jordanian Bra 0,5461
Parsi Bra 0,5460
Ket Bra 0,5460
PuertoRican Bra 0,5460
Sephard Bra 0,5459
Chenchus Bra 0,5458
Nyshi Bra 0,5458
Chukchi Bra 0,5455
Shor Bra 0,5455
Velama Bra 0,5455
Lahu Bra 0,5454
Hezhen Bra 0,5454
Bedouin Bra 0,5454
Mozabite Bra 0,5452
Italian_Jew Bra 0,5452
Tamil_Nadu Bra 0,5450
Tharus Bra 0,5449
Chamar Bra 0,5448
Irani Bra 0,5448
Kinh Bra 0,5447
Yemen_jew Bra 0,5446
Center-Italian Bra 0,5445
Tunisian-jew Bra 0,5444
Lebanese Bra 0,5444
Balochi Bra 0,5443
Pygmy Bra 0,5442
Dolgan Bra 0,5442
Serrano Bra 0,5442
Palestinian Bra 0,5441
Brahmin-TNBRAS Bra 0,5441
Makrani Bra 0,5440
Piramalai_Kallar Bra 0,5439
Kalash Bra 0,5439
Algerian Bra 0,5438
Lemba Bra 0,5435
Yemeni Bra 0,5435
Fulani Bra 0,5433
South-Han Bra 0,5432
Uzbekistan_Jew Bra 0,5432
Center-Greek Bra 0,5432
Karakalpak Bra 0,5431
Costanoan Bra 0,5425
Morocco_Jew Bra 0,5422
Gujarati Bra 0,5420
Algerian-jew Bra 0,5418
Tswana Bra 0,5415
Iranian_Jew Bra 0,5413
Yemen_Jew Bra 0,5413
France_Jew Bra 0,5412
Iran_jew Bra 0,5409
Kurd_Jew Bra 0,5407
Egyptian Bra 0,5407
Afar Bra 0,5406
Iraqi Bra 0,5402
Chamat Bra 0,5397
North-Han Bra 0,5392
Khazar_jew Bra 0,5391
!Kung Bra 0,5390
Maya Bra 0,5387
Saudi Bra 0,5379
Tunisian Bra 0,5377
Sicilian Bra 0,5377
Georgian_Laz Bra 0,5373
Indan_muslim Bra 0,5370
Saharan Bra 0,5369
Meena Bra 0,5366
Azeri_jew Bra 0,5364
Ethiopian_Jew Bra 0,5362
Dogon Bra 0,5360
Indian_jew Bra 0,5357
Kongo Bra 0,5347
Algerian_Jew Bra 0,5337
Tat Bra 0,5335
Syrian_Jew Bra 0,5334
Madiga Bra 0,5331
Papuan Bra 0,5322
San Bra 0,5309
Somali Bra 0,5306
Dominican Bra 0,5296
Australian Bra 0,5296
Wolyata Bra 0,5285
Libyan_Jew Bra 0,5280
Bamoun Bra 0,5279
Brong Bra 0,5271
Bambaran Bra 0,5271
Afro-American Bra 0,5271
Tygray Bra 0,5269
Koryak Bra 0,5264
Sandawe Bra 0,5262
Ethiopian Bra 0,5259
Bulala Bra 0,5248
Mada Bra 0,5248
Amhara Bra 0,5246
Kaba Bra 0,5240
Hadza Bra 0,5224
Biaka_Pygmies Bra 0,5211
Oromo Bra 0,5201
Bantu Bra 0,5195
Yoruba Bra 0,5171
Mandenka Bra 0,5169
Igbo Bra 0,5157
African-Caribbean Bra 0,5154
Luhya Bra 0,5152
Yourba Bra 0,5127
Esomali Bra 0,5116
Ari Bra 0,5110
Fang Bra 0,5086
Anuak Bra 0,5077
Sudanese Bra 0,5021
Gumuz Bra 0,4993

Руководствуясь моими замечаниями, Андерс написал новую заметку в свой блог, и эта заметка настолько важна, что я решил ее перевести на русский целиком:

» Те, кто читал мой блог, или участвовал в  проекте Fennoscandia, уже привыкли к появлению на графике  PCA (анализа главных компонентов европейского генетического разнообразия) в программе Chromopainter-finesStructure  типичных фигур с формой напоминающей  символы  «>» или «<«. Обычно кластер располагается близко к корню в то время как популяции Центральной и Восточной Европе популяции оказываются на одной ветке или ребре этой V-образной фигуры, в то время как скандинавы, финны и саамы  — на другой.  Пример этой структуры приведен ниже:

Наверное, многие из моих читателей задавались вопросом, почему распределение популяций на графике PCA имеет именно эту геометрическую форму, а также вопросом касаемо того, сколько лет прошло с момента начала дивергенции двух вышеупомянутых группы популяций.  Чтобы ответить на этот вопрос я произвел анализ данных  по древней ДНК La Braña и MDS анализ  в программе PLINK.  Исходное число точечных мутаций -снипов было уменьшено до 69 000. В анализе я использовал всех участников проекта и референсных популяций. Как мы видим, нет * абсолютно * никаких сомнений, с кем именно кластеризуются древние La Braña в проекции двух основных компонентов генетического разнообразия.


Подобное расположение древних иберийских  La Braña, означает вероятно, что древние La Braña характеризовались определенными генетическими вариациями, вариациями которые напоминали генетические  вариации финнов и саамов  (и сегодня встречаются только в Фенноскандии). В западной и южной Европе эти генетические вариации отсутствуют. Кроме того, существуют вероятно компоненты, которые отделяют La Braña от финнов, и приближают их  к саамам.

Набор данных по La Braña включает в себя 183 000 снипа (эти снипы перекрываются набором данных из проекта 1000G) и мой текущий стандартный набор данных 289 000 снипа.   Интерсекция обеих наборов данных   дает в конечном итоге всего 4 000 снипа. Это явно небольшое количество полиморфизмов, недостаточное для полноценного анализа. Вместо этого я попытался посмотреть, если  другой способ решения этой проблемы, который позволяют произвести анализ с использованием всех 183 000 снипов La Braña. Тот факт, что оба набора данных в этом эксперименте — 183 000 снипа Lа Braña  и 288  000 cнипа  — полностью перекрываются снипами проекта 1000 геномов,  позволяет нам найти решение проблемы  путем импутации SNP-гаплотипов. Эта процедура определения снипов широко используется в генетических исследованиях  в тех случаях, когда объединенный набор данных был генотипирован на различных платформах с использованием общей референсной панели.

Импутация снипов была проnзведена в программе BEAGLE. После этого я сравнил  первоначальный набор данных с «импутированным» набором данных на предмет различий между. Поскольку большинство SNP-ов в данном анализе было определенно в ходе импутирования, то я заметил определенный » искусственный дрейф», состоящий в том, что индивиды с импутированными  снипами становятся более похожи друг на други, чем те же индивиды, но с первоначальными неимпутированными снипами 1000G Поэтому я исключил всех индивидов, чей набор данных содержал импутированные снипы (за исключением La Braña), предполагая что минимизаций фактора неопределенности приведет к тому, что неизбежные незначительные ошибки не будут столь значительно влиять на достоверность результатов. Все генотипы индивидов La Braña представляют собой реальные  генотипы (без использования импутации).

Как мы видим ниже, структура популяций определенная в программе Chromopainter-fineStructure, представляется релевантной как в мировом, так и  в паневропейском масштабе. Это доказывает надежность проведенной операции импутирования снипов,  поэтому эту методологию можно использовать для дальнейшего анализа.

На приведенных выше графиках видно, что отдельные компоненты аутосомных генетических вариаций La Braña сильно отделяет эту группу от остальной части современных европейцев, так же как и  в предыдущем посте с использованием неимпутированных гаплотипов. Причина этого феномена ясна: у индивидов La Braña африканское происхождение выражено более ярко, чем у остальных европейцев. Принадлежность к  восточно-азиатскому, сибирскому и индейскому кластеру, кажется, характерна для сегодняшних финнов.

В этой связи возникает закономерный вопрос: какая из современных нам популяций является самой близкой к La Brana?  При проведении простой IBS-кластеризации в PLINK, мною были получены величины Эвклидовой дистанции между геномными образцами. В режиме диплоидных данных наиболее близкими к La Brana оказываются литовцы и саамы, в  режиме гаплоидном режиме список возглавляют литовцы.


Однако по своему собственному опыту, я могу сказать что нельзя полностью доверять простым сравнениям IBS, поскольку на сходство могут повлиять очень многие факторы. С целью получения большей информации, я произвел новый анализ в  Chromopainter-fineStructure, — на этот раз с использованием только европейских популяций.

Как мы видим из вышеприведенной heatmap, cуществует определенная генетическая связь между литовцами, финнами и басками. В более отдаленной степени, в эту цепочку включаются и саамы.  Наличие большой асимметрии между полученными от других популяций хромосомными сегментами и хромосомными сегментами отданными в другие популяции в ходе процесса обмена генами, а также самый раннее ответвление    La Brana от остальной европейской панели, объясняется очевидно 10%  примеси африканских аллелей обнаруженных ранее.

Однако в анализ главных компонент PCA мы можем выделить влияние разных компонентов в генетическом наборе данных La Brana. В проекции 1 измерения PCA X-ASIS, мы наблюдаем значительную дисперсии отдельных популяций — La Braña находятся в крайне левом углу,  а литовцы — в дальнем правом. В перспективе 1 измерения    (размерности) главных компонентов генетического разнообразия нет никаких сомнений, что саамы находятся ближе всего к La Brana. В перспективе второго измерения 2,  дисперсия смещает La Brana к литовцам. Заметим, что здесь саамы и баски образуют противоположенные кластеры, которые отражают известную генетическую дихотомию-разделение Северо-Восточной  и Юго-Западной Европы.

В проекциях 1 и 3 измерения (Y-ось) мы видим, что La Braña наиболее близки к финнам и в некоторой степени также к пресловутым вологодским русским. В размерности 3 мы также видим, что баски и литовцы расходятся в противоположных направлениях, а  саамы появляется в качестве  промежуточное звена между ними.

Выводы: La Braña, судя по всему, отражают один из основных компонентов, которые в  самой значительной степени присутствуют среди современных популяциях у саамов, но практически отсутствует у остальных европейцев.  У саамы наблюдается и  второй значительный генетический компонент, который, кажется, отражает характерный градиент по направлению север-юг характерный  для  большой части финнов. Однако расположение La Braña в пространстве этого второго компонента нарушает общий тренд — они смещаются гораздо «южнее» от нижней части кластера литовцев в направлении кластера басков. Это означает, что у La Braña наблюдается значительный вклад южно-европейских предков. Оба доминирующих компонента в размерностях 1 и 2 на графики PCA достигают своего пика в северной части Европы (у саамов), причем второй компонент (который отсутствует у  La Braña) может указывать на аутентичный «северный» компонент, cвязанный с позднейшими миграциями. Интерпретация третьего компонента вызывает затруднения. Здесь присутствуют и финны, и русские из Вологда, в то время  как La Braña смещается ближе к литовцам, а  саамы —  в сторону кластера басков.

Заключение: Мезолитические жители Иберийского полуострова — La Brаna — характеризовались генетическими вариациями, которые в настоящее время встречаются среди саамов, и в то же время указывают на принадлежность к более южным популяциям, вроде литовцев и басков. Можно предположить, что оба компонента отражают «северный» и «южный» вклад в их родословную.

Наши наблюдения, по крайней мере частично, согласуются с  выводами Вадима Веренича впервые обнаружившим  связь между мезолитическими охотниками-собирателями Иберийского полуострова и саамами. Behind the Curtains: MDLP World 22 showcase

Современная мифология: генетики нашли разных русских

В этой записи я хочу проиллюстрировать на примере последнего исследования генофонда русских популяций как ошибки в методологии и неверно проинтерпретированные результаты приводят к созданию новых ложных мифологем.

Речь идет о недавно опубликованном исследовании cпециалистов Института молекулярной генетики (ИМГ) Российской академии наук выполненном в сотрудничестве с зарубежными генетиками. Как сообщается в пресс-дайджесте, ученые обнаружили в генофонде народов Северной Европы новую ветвь, представленную популяциями народа коми, результаты этой работы опубликованы в журнале PLoS ONE:

«Выполненная работа фактически является первым исследованием, в котором проведен столь масштабный, полногеномный анализ генофондов популяций европейской части России», — заявила руководитель проекта, заведующая Отделом молекулярных основ генетики человека ИМГ профессор Светлана Лимборская.

По ее словам, главное в результатах работы — обнаружение новой ветви в генофонде севера Европы, которая представлена популяциями коми.

«Положение генофонда коми как новой генетической ветви связано, главным образом, с наличием у них предкового компонента, не описанного ранее в других уже исследованных популяциях — как Европы, так и Азии. Особенно велика его доля у ижемских коми, где он суммарно составляет более 80% проанализированного генофонда», — сказала Лимборская.

«Следующим важным фактом является демонстрация того, что русские популяции центра Восточно-европейской равнины генетически сходны между собой и с популяциями Восточной и Центральной Европы, и в тоже время довольно сильно отличаются от русских европейского севера (Архангельская область). Своеобразие северных русских, по-видимому, связано с вхождением и сохранением в их генофонде значительного числа генетических особенностей, свойственных финно-угорским народам, которые проживали ранее на этих территориях», — добавила она.

Я не буду комментировать последнее утверждение (различие русских севера и центра Восточно-европейской равнины), так как любой человек, имеющий хотя бы небольшое представление о работах геномных блоггеров, принимает это «открытие» в качестве банального и самоочевидного утверждения. Вместо этого, я остановлюсь на «главном открытии» популяционных генетиков:

«Положение генофонда коми как новой генетической ветви связано, главным образом, с наличием у них предкового компонента, не описанного ранее в других уже исследованных популяциях — как Европы, так и Азии. Особенно велика его доля у ижемских коми, где он суммарно составляет более 80% проанализированного генофонда», — сказала Лимборская.

Подтекст этого столь громкого заявления становится более очевидной, если мы примем во внимании результаты наших исследований генофонда популяций северо-западной Евразии. Эти изыскания мы представили на ряде российских и иностранных интернет-форумов.  В этой связи возникают интересные нюансы, связанные с первичностью описания  нового предкового компонента.  Впрочем, для начала нужно разобраться, на чем имено строятся заключения попгенетиков касаемо уникальности генофонда коми.

Для начала нужно ознакомится с тезисами, изложенными в самой работе.

Пожалуй, основным аргументом здесь являются результаты анализа адмикса популяций (вернее, кластеризации популяций по признаку K — числу предковых популяций) в программе Admixture:

Как следует из комментариев авторов работы, их выводы весьма отличны от того, что было объявлено в СМИ:

Хотя предковые компоненты Admixture зависят от включенных популяций, на результаты кластеризации могло оказать минимальное влияние генофонд ненцов. Здесь мы можем отослать к существующим данным, свидетельствующим либо об отсутствии или очень ограниченной степени генетических контактов между ненцами и популяциями, перечисленными выше (в том числе и коми) [15], [44], [45], а также к результатам наших анализов, которые свидетельствуют о генетической изоляции ижемских коми. Свидетельством последнего служат как попарные  сравнения параметра Fst которые были одинаковыми, как между группами ижемских и  прилужских коми, которые возникли в пределах одной и той же этнической территории,  так и с географически удаленными финнами из Хельсинки, а такж  крайне высокие показатели ROH (гомозиготных сегментов).

Еще одним свидетельством (эксплицитно неупомянутым авторами статьи)  изолированности ижемских коми служит их положение в пространстве первых двух главных компонент генетического разнообразия. Подобное положение характерно для групп, испытавших на себе действие пресловутого эффекта Валунда. К слову, подобный эфект хорошо заметен в еще более значимой степени у популяций саамов (смещенность аллелей в силу подразделенности популяций):

Следовательно, зашкаливающие значения одного компонента у ижемских коми есть прямое следствие эфекта смещения аллелей в силу изолированности группы.  Как показывает мой опыт работы с генотипами подобных групп (например с популяцией косоваров), в популяциях где распределение аллелей смещено за счет инбридинга, генетического дрейфа или эффекта Валунда, программа Admixture создает искусственные кластеры. Именно по этой причине, одной из предпосылок проведения грамотного анализа в Admixture  служит минимизация данных эффектов в обследуемой выборке. И именно по той же причине геномные блоггеры не принимают для анализа данные родственных лиц.

Подведем итог: высокий уровень красного компонента представляется нам следствием систематического смещения вследствие неправильного отбора, т.е. при создании выборки (sampling, или assembling bias), вследствие измерений (measurement bias), при воздействии вмешивающихся факторов (confounding bias).

Напоследок, пару слов о уникальности генофонда коми.

Весной прошлого года я изучал cнипы древних жителей Швеции (о результатах мне предстоит еще написать) в сравнении с современными популяциями. В ходе анализа,  я задействовал более подробную выборку популяций русского севера и Восточной Европы. Примечательно, что при K=3, один из предковых компонентов в генофонде представителей готландской культура ямочной керамики (Pitted Ware culture (около 3200 — 2300 гг. до н. э.) — культура охотников и собирателей эпохи неолита. Существовала на юге Скандинавии, в основном вдоль побережья Свеаланда, Гёталанда, Аландских островов, на северо-востоке Дании и на юге Норвегии) сближает их с современными саами. Другой пик компонента приходится на популяции коми.  Я назвал этот компонент компонентом Ajv-Saami (Ajv — название пещеры, где были найдены останки древних готландцев, чье ДНК позже исследовалось профессором Скоглундом из Уппсальского университета). Поэтому утверждение Лимборской о том, что компонент описан ею впервые, мягко говоря, некорректен. Компонент действительно уникален, но из современных популяций, он скорее более типичен для саамов, а не коми.  Согласно нашим предположениям, он может является реликтовым остатком генофонда мезолитического населения Европы.

admixture-3

fineStructure анализ популяций северо-восточной Европы: часть 1

Некоторое время тому назад в своем англоязычном блоге я разместил новый график, сделанный на основании анализа главных компонентов  генетического разнообразия в выборке, которая включала в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.

В ходе экспериментального теста в ходе статистической обработки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, которая  участвовала в репродукции или обмене генами в отдаленном прошлом. Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение  составило  22 000.Это близко к значениям Ne рекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных выше данных даже 22 000 для совокупности эффективного размера элементарных популяций — это более, чем достаточно. Например, численность эффективной популяции адыгов-шапсугов составляет по оценке попгенетиков всего 187 индивидов:

Почешхова, Э. А.  Структура миграций и дрейф генов в популяциях адыгов-шапсугов / Э. А. Почешхова // Медицинская генетика : ежемесячный научно-практический журнал. — Том 7,N 1. — Реферирована.  Важной  особенностью генофонда адыгов являются традиционная структура браков и  высокая эндогамия: 96,5% браков заключается в пределах своего этноса.  Одно из племен адыгов — шапсуги подразделено на две географически  изолированные группы. Шапсуги побережья Черного моря (от Туапсе до  Сочи), проживающие в районе наиболее интенсивного заселения пришлыми  народами, заключают 89% браков в пределах своей географической группы,  5% браков — с другими адыгами и лишь 6% браков — с представителями всех  остальных народов России и Закавказья. Шапсуги, переселенные в  Прикубанье (Западная Адыгея) и проживающие среди прочих племен адыгов,  заключают 77% браков в пределах своей географической группы, 21% браков —  с другими адыгами и 1,3% браков — с представителями иных этносов. Для  шапсугских аулов средний индекс эндогамии составил 0,40, гаметный индекс  — 0,7. Для элементарных популяций средний индекс эндогамии составляет  0,65. Малый генетически эффективный размер элементарных популяций  (Ne=187)


Или вот:

При оценке генного дрейфа на основе методов генетической демографии ключевыми параметрами являются эффективная численность Ne (размер, объем) популяции, составляющая примерно 30 % от общей численности, и миграция. Показано (Евсюков и др., 1996), что для коренных народов Сибири средний эффективный размер популяции равен 218, а для Северной Евразии в целом – 200, хотя изменчивость эффективного размера (Ne) популяций различалась на три порядка величин, как и их численность. Небольшая средняя величина Ne позволяет ожидать значительного эффекта генного дрейфа, если ему не противостоит миграция. Генный дрейф реализуется на уровне как популяции в целом, так и субпопуляций. В оригинальных исследованиях сибирских популяций получены следующие значения эффективного размера на уровне поселений(субпопуляций): алеуты Командорских островов – 75 чел. (Рычков, Шереметьева, 1972а, б), азиатские эскимосы и береговые чукчи – 70 и 61 чел. соответственно (Рычков, Шереметьева, 1972в), эвенки Нижней и Подкаменной Тунгуски – 27 чел. (Рычков и др., 1974б), коряки Камчатки – 71 чел. (Шереметьева, Горшков, 1982), северные ханты – 152 чел. (размах значений 98–348) (Пузырев и др., 1987). Эффективный размер сельских популяций Северной Евразии имеет клинальный тип изменчивости, убывая в направлении юго-запад – северо-восток, за исключением локального минимума в Средней Сибири у тунгусоязычных западных эвенков (Евсюков и др., 1996).


Из чего следует, что Ne размером в 22 000 человека или 1000 индивидов на кластер (а всего их выявленно 22 ) — это вполне достаточно для масштабирования частот рекомбинации гаплотипов. Можно прояснить смысл понятия эффективная популяция и другими словами. Во избежании ненужной путаницы необходимо сразу оговорить что понятие эффективной популяции носит сугубо теоретический характер, и в силу этого напрямую не имеет отношения к тому, каков был размер отдельной локальной популяции в определенный отдельно взятый промежуток времени.

Не имеет значения , так как речь идет о тех, кто внес свой вклад в генофонд существующих популяций.Причем эти все «отцы и матери-основатели» могут быть разнесены по времени на тысячелетия.


Собственно говоря, эффективная популяция — это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса  числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955).

Что касается размере эфективно-репродуктивной популяции для исходной популяции современных популяций Евразии, его достаточно легко вычислить исходя из аутосомного разнообразия. Например, соответствующие алгоритмы для вычисления Ne имплементированы в прогамме FineStructure.  По моим расчетам (близким к общепринятым) усредненный для всех хромосом размер эффективной популяции для всех задействованных мной евразийский популяций составил 14 000.

Исходя из общепринятого мнения, согласно которому размер Ne (эффективной популяции) в каждый синхронный период времени составляет примено 33% от общего размера популяции теоретически можно оценить величину популяции в момент времени, когда ее эффективный размер составлял 14 000 (это примерно 40 000).

Если бы мы знали, что все это родоначальники многобразия жили в одно время, тогда можно было бы интерполировать эти сведения для оценки это времени по обычной хронологической шкале. Но нет никаких оснований полагать, что они жили в одно и то же время.

«Effective size» of the population (commonly denoted as Ne in the population genetics literature) from which your dataset was sampled. This parameter scales the recombination rates that IMPUTE2  uses to guide its model of linkage disequilibrium patterns. When most  imputation runs were conducted with reference panels from HapMap  Phase 2, we suggested values of    11418    for imputation from HapMap CEU,    17469    for YRI, and     14269    for CHB+JPT.

Modern imputation analyses typically involve reference panels with  greater ancestral diversity, which can make it hard to determine the  «ideal» -Ne value for a particular study. Fortunately, we have found that imputation accuracy is highly robust to different -Ne values; within each of several human populations, we have obtained nearly identical accuracy levels for values between 10000 and25000. We suggest setting -Ne to 20000 in the majority of modern imputation analyses.

В качестве инструмента я использовал комбинацию нескольких программ из нового пакета биоинформатического программного обеспечения fineStructure/ChromoPainter. Как показали экспериментальные тесты  с использованием этого пакета, оптимизированный алгоритм обнаружения общих по происхождению сегментов в сравниваемых популяциях дает оптимальные результаты по разбивки индивидов на кластеры по признаку геномной близости (в качестве меры этого признака в данном случае я использовал число идентичных по происхождению геномных сегментов:  по полученным векторам признаков для каждого кластера производилось попарное сравнение и сортировка по мере близости в евклидовой метрике).

MDLset1-3 MDLsetMDLset

1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
2. Все литовцы (участники проекта + референсы из статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев 
3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.
4. Ниже находится балканский кластер (румыны, болгары и часть венгров).
5. К этому кластеру примыкают турки и часть армян 
6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов). 
7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.
8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

10. Левее этой группы популяций находится кластер ашкеназов.

11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).*

*—— Примечание


Т
акое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции. То есть все эти баски являются многократными родственниками между собой. Классический генный дрейф, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества shared DNA chunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.Исходя из этого можно сделать вывод о том
1) что баски эта экстремально-эндогенная популяция изолянтов
2) генетическое разнообразие низко, т.к. размер эффективной популяции низок.

 

 

Вы не поняли. 

Каких десятков тысяч предков славян?
По оценке профи, занимающихся анализом полных геномов, эффективный размер популяции генетических предков для современных популяций всей Евразии с трудом достигает 2 десятков тысяч,  причем общий консенсус сдвигается в сторону 15 000.