SNPweights: использование модели калькулятора K16 для анализа главных компонентов происхождения

Ранее я уже отрапортовал о создании двух новых моделей для стандартного этно-популяционного калькулятора, в разработке которых использовались геномы людей, cамостоятельно указавшими свое происхождение (self-reported ancestry).
К сожалению, очень часто субъективная оценка собственного происхождения (указываемого респондентами в опросниках) недостаточно надежна для статистических методов анализа происхождения, поскольку некоторые люди либо сообщают ложные сведения о своей родословной или же просто не знают о своем истинном происхождении. Что еще хуже, — во многих публичных популяционных выборках мы не находим никаких  сведений о точном этническом составе людей в выборке . Как многие из вас знают,  существует множество способов достаточно точной оценки происхождения индивида на основе данных SNP генотипирования.

Самый простой способ сводится к следующему: сначала исследователь объединяет генотипы из своего исследования с генотипами образцов в референсной панели (например: HapMap или 1000 геномов),  затем находит пересечение SNP-ов в каждом наборе данных, а затем запускает программу кластеризации, чтобы увидеть, каким образом образцы исследования группируются с популяциями референсных панелей.  В принципе,  сам процесс несложный, но требует немало времени

К счастью, в 2014 году лабораторией Alkes была предложена программа которая, по сути, значительно облегчает процесс, выполняя большую часть работу за вас. Программа называется SNPWEIGHTS и можно скачать здесь.  Говоря простым языком, программа принимает  в качестве входных данных генотипы SNP-ов, самостоятельно находит пересечение генотипов SNP с генотипами в эталонной выборке , рассчитывает веса SNP-ов на основе предварительно настроенных параметров, чтобы построить первую пару главных компонентов (иначе говоря,  cобственных векторов), а затем вычисляет процентное значение происхождения индивидуума из каждой предковой популяции (кластера).

Для того, чтобы запустить программу, необходимо убедится в том, что в вашей системе установлен Python, и что ваши данные генотипирования приведены в формате EIGENSTRAT. Краткую инструкции по преобразованию в формат EIGENSTRAT с помощью инструмента convertf можно почитать здесь.  Данные аутосомного генотипирования FTDNA или 23andme можно напрямую преобразовать в формат EIGENSTRAT с помощью утилиты aconv от Феликса Чандракумара (либо любого самописного софта).

Затем необходимо загрузить сам пакет SNPWEIGHTS и референтную панель с весами снипов.

  • Панель весов SNP для популяций Европы и Западной Африки можно скачать здесь.
  • SNP веса для населения Европы, Западной Африки и  Восточной Азии можно скачать здесь.
  • SNP веса для населения Европы, Западной Африки, Восточной Азии и популяций американских индейцев можно скачать здесь.
  • SNP веса для популяций северо-западной, юго-восточной части Европы, ашкеназских евреев и можно скачать здесь.

Затем необходимо создать файл параметров par.SNPWEIGHTS с названиями входных файлов EIGENSTRAT, референтной панели, и файл c результатами. Например:

input_geno: data.geno
input_snp: data.snp
input_ind: data.ind
input_pop: CO
output: ancestry.txt

И, наконец, нужно запустиь программу с помощью команды inferancestry.py —par par.SNPWEIGHTS. Для того чтобы программа работала, убедитесь, что inferancestry.info и  файл референтной панели  находятся в том же каталоге, что и файл inferancestry.py.

Полученные результаты можно использовать для разных целей. Например,  можно сгенерировать два информативные графика.

Первый график — обычный график PCA c двумя первыми компонентами (собственными векторами) и наложенный на график процентный расклад компонентов происхождения:

Второй треугольный график, на каждом отрезке которого , представлен процентный вклад одной из трех исконных групп популяции (например: Европы, Африки и Азии, в случае с нашими данными этот пример можно заменить на европейских охотников-собирателей, земледельцев неолита и степных скотоводов эпохи бронзы).

Вот простой код генерирования этих графиков в R. В программе R нет базовых пакетов для построения триангулярных графиков, поэтому  нужно будет сначала установить пакет plotrix. Ancestry.txt  — это файл полученный на выходе из SNPWEIGHTS:

# EV Plot with Percent Ancestry Overlay
data=read.table("ancestry.txt", as.is=T, header=F)
names(data)
plot(data$EV1, data$EV2, pch=20, col="gray", xlab="EV1", ylab="EV2")
text(data$EV1, data$EV2,labels=round(data$EUR,2)100, cex=0.4, offset=0.1, pos=3)
text(data$EV1, data$EV2,labels=round(data$AFR,2)
100, cex=0.4, offset=0.1, pos=2)
text(data$EV1, data$EV2,labels=round(data$ASN,2)*100, cex=0.4, offset=0.1, pos=1)
#Triangle Plot
data$total=data$EUR+data$AFR+data$ASN # Need to account
data$European=data$EUR/data$total # for slight rounding
data$African=data$AFR/data$total # in the ancestry
data$Asian=data$ASN/data$total # estimation file for
data_p=data[c("European","Asian","African")] # triax.plot to work
library(plotrix)
triax.plot(data_p, pch=20, cc.axes=T, show.grid=T)

 

Разумеется, размещенные на сайте разработчика референтные панели носят ограниченный характер. Поэтому я решил заполнить пробелы, преобразовав аллельные частоты SNP-ов в 16 предковых компонентах в 16 синтетических «чистых» предковых популяций, каждая из которых состояла из 200 синтетических индивидов («симулянтов») состоящих на 100 процентов из одного компонента происхождения в модели K16). Файл с генотипами 3200 «симулянтов» я использовал для вычисления весов снипов в каждом компоненте. Продвинутые пользователи, желающие протестировать модель K16 до ее публичного релизма, могут скачать полученный файл с весами снипов  здесь, а затем, cледуя приведенным выше инструкциям, использовать его в качестве референтной панели (а затем сравнить свои результаты с усредненными результатами разных этнических популяций).

Я протестировал веса снипов в модели K16 (выражаю признательность автору программу Чену за помощь), и обнаружил, что между данными калькулятора и данными SNPWEIGHTS расхождения носят незначительный характер, хотя похоже, что SNPWEIGHTS не так сглаживает минорные компоненты происхождения (что позволяет легче выделить в пространстве главных компонент кластеры):

test (1)

Генетический компонент северных евразийцев (ANE) в свете новых данных

Начало февраля порадовало важным событием: на  сервере Bioraxiv размещен препринт монументальной статьи Haak et al. (Iosif Lazaridis , Nick Patterson , Nadin Rohland , Swapan Mallick , Bastien Llamas , Guido Brandt , Susanne Nordenfelt , Eadaoin Harney , Kristin Stewardson , Qiaomei Fu , Alissa Mittnik , Eszter Bánffy , Christos Economou , Michael Francken , Susanne Friederich , Rafael Garrido Pena , Fredrik Hallgren , Valery Khartanovich , Aleksandr Khokhlov , Michael Kunst , Pavel Kuznetsov , Harald Meller , Oleg Mochalov , Vayacheslav Moiseyev , Nicole Nicklisch , Sandra L. Pichler , Roberto Risch , Manuel A. Rojo Guerra , Christina Roth , Anna Szécsényi-Nagy , Joachim Wahl , Matthias Meyer , Johannes Krause , Dorcas Brown , David Anthony , Alan Cooper , Kurt Werner Alt , David Reich) «Massive migration from the steppe is a source for Indo-European languages in Europe».  Несмотря на то, что сама статья еще находится на стадии препринта, уже сейчас очевидна глубина проработки материала. Нет никаких сомнений в том, что это объемное, вдумчивое и тщательное исследование  войдет в число главных работ в области индоевропеистики. По своей сути, коллектив авторов подвел в этой работе итоги всех предыдущих исследований введенных  «полных геномов» древних жителей Европы (возрастом в 8 000 -4 000 лет),  введенных в научных оборот за последние 2-3 года. Благодаря систематическому подходу к материалу и синтезу предыдущих наработок,  а также за счет использования  новейших физико-химических методов экстрагирования палео-ДНК вкупе с передовым современейшим биоинформатическим программным обеспечением,  авторы смогли строго и скурпулезно подойти к одному из важнейших вопросов истории, лингвистики и археологии — к вопросу о происхождении индоевропейцев.  К чести авторов, они признают, что даже после столь внушительного по своим размерам и качеству исследования, вопрос о первичном месте происхождения индоевропейцев остается открытым, и поэтому собственно обсуждение релевантности исследования палео-ДНК в свете существующих 4 главных теорий  происхождения индоевропейцев занимает в работе относительно мало места (стр.134-139).  Впрочем, вряд ли кто всерьез ожидал от этого исследования окончательного ответа на все вопросы индоевропеистики.  Тем не менее, подробный анализ аутосомного генома, а также однородительских маркеров (митохондриального генома и  Y-хромосомы) представителей целого ряда культур неолита, медногл и бронзового века восточной и западной Европы, и в особенности представителей Ямной культуры,  дает новую подпитку вечному спору между сторонниками разных версий происхождения индоевропейцев (т.к. многие вслед за Гимбутас связывают ямную культуру с общностью протоиндоевропейцев).

annurev-linguist-030514-124812.f2

Зато остальная часть этой 172-страничной работы настолько богата (насыщена) фактическим материалом, что любой, даже самый искушенный, читатель попгенетической литературы получит большое удовольствие от приобщения к плодам многолетней работы умнейших ученых.   А работа, действительно, проделана огромная. Ученые воссоздали геномные данные 69 европейцев, живших между 8 000-3000 лет тому назад, за счет обогащения амплифицированных библиотек палео-ДНК. Эти библиотеки палео-ДНК они использовали для целевого отбора  394577 таргентных полиморфизмов (снипов) в панелях Affymetrix Human Origins. Обогащение именно этих специально отобранных таргентных позиций позволило снизить необходимые для анализа древней ДНК объемы секвенирования в среднем примерно в 250 (!) раз, что позволило авторам изучить на порядок больше лиц в сравнении с предыдущими исследованиями, и получить более полные знания о прошлом.

map

В работе показано, что уже 8,000-5,000 лет  назад население западной и восточной Европы следовали противоположным траекториям развития.

На заре евпропейского неолита, примерно 8,000-7,000 лет назад, отдельныетесно связанные родством и отличные от коренных европейских охотников-собирателей, группы  ранних земледельцев появились в Германии, Венгрии и Испании, в то время как Россия была населена особой группой восточных охотников-собирателей, имеющих родство с населением сибирского палеолита (24 000 л.н.в) , эта группа древних северо-евразийцев (ANE), представлена образцом MA1 (мальчик с палеолитической стоянки Malta-1 из южной Сибири); кроме того, этот компонент неплохо аппроксимируется «сибирской частью» генома изолированных индейцев Южной Америки (каритиана). Два образца охотников-собирателей из России (Карелия и Самары) образуют кластер «восточно-европейских охотников-собирателей «(EHG); пост-мезолитические охотники-собиратели  из Люксембурга, Испании и Венгрии (WHG) находятся на противоположенном конце клина охотников-собирателей, в то время как охотники-собиратели  Швеции  (SHG) находятся посередине. Интересно отметить, что геном охотника-собирателя из Карелии представляет собой смесь 38-40% компонента ANE и 60-62% компонента WHG, причем величина ANE значительно выше 20% ANE, выведенных для  шведского-охотника собирателя Motala-12 в предыдущем исследовании Lazaridis et al 2014).
В соответствии с тем, что EHG являются обмен население больше аллелей с «древних Северной евразийцев» (ГУ 7), чем любой другой.

pca

Примерно  6-5 тысяч лет назад,  на большой части  Европы назад  произошел новый «подъем» потомков мезолитических охотников-собирателей, но в России  степные скотоводы Ямной культуры время произошли от смешивания  предыдущих племен восточно-европейских охотников-собирателей с населением ближневосточного происхождения.  Население Ямной культуры отличалось от своих предшественников -восточно-европейских охотников-собирателей EHG —  меньшим количеством обших аллелей с MA1 (| Z | = 6,7), что  свидетельствует о процессе дисперсии носителей ANE  на территории европейских степей где-то между 5 000-3 000 гг. до н.э. Уменьшение числа общих с образцом MA1 аллелей, вероятно объясняется появлением «примеси» от популяции или популяций, тесно связанных с
популяциями современного ближнего Востока, т.к. самая отрицательная f3-статистика  (отрицательная статистика однозначно свидетельствует о примеси) наблюдается при моделировании жителей Ямной культуры как продукта смешивания носителей компонента EHG  и современных популяций ближнего Востока, таких как армян (Z = -6,3).

Непосредственный контакт между населением западной и восточной Европой состоялся   ~ 4500 лет назад, а в геноме поздне-неолитического населения культуры шнуровой керамики на территории Германии прослеживается 75%-ный «генетический» вклад «степного» компонента представителей ямной культуры. Таким образом геном жителей культуры шнуровой керамики «документирует» массовую миграцию населения с восточной периферии Европы в ее центральные области. Данный «степной» компонент Yamna (гибрид EHG и ближневосточных популяций) сохранялась в значительных пропорциях у всех имеюшисхя образцах из центральной Европы как минимум до ~ 3000 г.н.э, и повсеместно встречается у современных европейцев.

 

admix2

 

Если географическая дихотомия неолитического и мезолитического генетических компонентов в Европе была отмечена еще в работах пионеров популяционной генетки вроде Л. Кавалли-Сфорца, то данные этой работы позволяют вставить последнее звено в решении головоломки. На основании данных можно предположить, каким именно образом третий генетический компонент европейцев (ANE) попал из Сибири  в Европу: сначала этот компонент несли представители EHG,  затем он перешло к «ямникам» (смешанная популяция восточно-европейских охотников-собирателей и населения ближневосточного типа), а затем от ямников к представителям культуры шнуровой керамики, которые представляли собой смесь представителей ямной культуры с средне-неолитическими европейцами.  В настоящее время этот компонент имеет плавное распределение на территории Европы, и по этой причине, мы можем использовать его в анализах структуры как генофонда целых народов, так и генома отдельно взятых людей.

В январе я провел небольшой  эксперимент c «чистым вариантом» аутосомного компонента ANE (ancestral North-Euarasians), впервые описаном в известной работе Lazaridis et al. 2014. Процедура вывода третьего генетического компонента в генофонде европейцев (ANE) оказалась гораздо сложнее, чем я предполагал в начале. Основная сложность заключалась в том, что в отличии от мезолитических и неолитческих сэмплов, у нас нет хорошого образца палеоДНК носителей компонента ANE. Пришлось заниматься реконструкцией генома, используя в качестве заменителей геном MA1 и не-восточноазиатскую часть генома индейцев каритиана. Технически, данный «компонент» был «синтезирован» в программе Plink с помощью 2последовательных запусков генерации «синтетических» популяций на основании частот аллелей аутосомных снипов, вычисленных в3 последовательных запусках программы Admixture.

Я получил компонент с максимально приближенным значениями к значениям компонента ANE в разных популяциях мира в работе Lazaridis et al. 2014. Изучение этого компонента важно для понимания многих неясных моментов истоии древних популяций в восточной Европе и на северном Кавказе. Последние статьи и анонсы лаборатории Давида Рейха к новой статье о составляющих аутосомного генофонда представителей ямной культуры и культуры шнуровой керамики дают основания полагать, что компонент ANE в Евразии могли разносить потоки миграции индоевропейцев, а генетическое разнообразие жителей Европы и Кавказа практически вписывается внутри класссического треугольника (клинов) генетических компонентов ANE-WHG-EEF (см.  ниже график PCA).

10896832_10205857624789575_5582535068712806983_n

Формально,эта гипотеза проверяется с помощью инструментов f3-статистики (A; B,C) — формального теста на статистическую значимость предполагаемого варианта присутствия адмикса двух популяций-доноров в популяции-рецепиенте.

Я решил проверить надежность модели путем представления ряда европейских и кавказских популяций в виде продукта гибридизации носителей компонента ANE с «неолитическим» и «пост-мезолитическим» населением Европы (результаты ниже,  Z в последней колонке.

 

North-Caucas Caucasian ANE -0.0006748 5.13E-05 -13.166
Mesolithic-North Loschbour ANE -0.0011573 0.0001605 -7.21171
Mediterranean-Neolithic Otzi ANE -0.0012012 0.0002376 -5.05634
Mesolithic-North LaBrana ANE -0.0010358 0.0002097 -4.94043
Italian-East Otzi ANE -0.0012473 0.0005013 -2.48825
Italian-East Italian-West ANE -0.0005022 0.0004325 -1.16129
Maltese Otzi ANE -0.0001611 0.0004147 -0.388512
Assyrian-1 Caucasian ANE -0.0002994 0.0009656 -0.310081
Spanish-Canar Loschbour ANE -0.0002557 0.0011264 -0.227017
Italian-East Maltese ANE 2.36E-05 0.0003026 0.0779574
Italian-East Caucasian ANE 6.32E-05 0.000274 0.230808
Spanish-Canar Otzi ANE 0.0003307 0.0012476 0.265081
Assyrian-1 Italian-West ANE 0.0003321 0.0012207 0.272035

Практически все полученные варианты для современных популяций в тесте f3 дали отрицательную Z-оценку.

Буквой Z обозначается стандартная оценка, основанная на нормальном распределении. Иначе говоря, Z-o. является мерой отклонения от среднего, выраженной в единицах стандартного отклонения. Z –оценка будет иметь отрицательную величину, если показатели адмикса будут выше медианного значения.
Очень высокие или очень низкие (отрицательные) Z-оценки, связанные с очень маленькими p-значениями, располагаются в хвостах нормального распределения, и является значимыми, а не случайными. А значит, компонент ANE был индуцирован мною правильно.

 

 

Что еще любопытно, так это то, что третья составляющая современных европейцев — компонент ANE в моем эксперименте плавно разделился на две подсоставляющих — MA1 (древние сибиряки эпохи палеолита) и Кавказ (в качестве основы я брал геномы грузин и армян).

То есть, скорее всего компонент ANE появился в результате смешивания «труъ» древних северных евразийцев и кавказцев. Собственно, об этом намекал Рейх в анонсе своей публикации результатов анализа геномов жителей ямной культуры.

Вероятно, что кавказские популяции (особенно в Дагестане), характеризующиеся высоким уровнем гомо- и аутозиготности в определенном смысле «законсервировали» в своем геноме тот первый массовый вброс компонента ANE в свой генофонд. И по этой причине, например, без специальной методики, в программе Admixture практически весь компонент ANE маскируется бимодальным компонентом, вроде знаменитого Caucas-Gedrosia в одном из первых этно-популяционных калькуляторов проекта Dodecad. Похоже, что генетика может в очередной раз частично примирить две антиномные теории (вернее, целые кластеры теорий) происхождения ИЕ — анатолийскую и степную. Нечто подобное наблюдалось после прочтения геномов неандертальцев и получения убедительных фактов гибридизации предков соврменного человека и архаических гомининов — неандертальцев, денисовцев. В результате чего теории мультирегионального и монорегионального происхождения человка были хотя бы в отдельных моментах приведены к общему знаменателю.

Как я уже упоминал ранее, мой опыт с «выведением» предкового аутосомного компонента индоевропейцев полностью удался. Поскольку всем очевидно, что этот компонент родственен «североиндийскому предковому компоненту» (ANI — обозначение из статьи Reich et al. 2009 и Moorjani et al 2011) о структуре генофонда индийских этнических групп), я взял 10 индийских этнических групп, имеющихся в кураторском наборе лаборатории Райха и проанализировал эту выборку в Admixture на пропорции вхождения их геномов в 2 априорно заданные кластеры. Первый кластер ANE был априорно задан 40 синтетическим индивидами, сгенерированными в программе Plink на основании расчитанных ранее частот аллелей «чистого» компонента ANE. В качестве дополнительного контрольного образца я использовал геном Malta1, т.к. он содержит в себе наивысшее содержание компонента ANE. Второй кластер был задан 4 индивидами Onge (одна из аборигенных народностей Андаманских островов). Как неоднократно указывалось в литературе, именно жители Андаманских островов являются самыми «чистыми» носителями т.н «южно-индийского» предкового компонента ASI (на континенте чистых носителей этого «компонента» не осталось, в том числе и среди популяций дравидов, ведда и мунда). После нескольких экспериментов по эвристическому методу проб и ошибок, я получил более или менее приемлимое разделение индивидов на 2 кластера, а затем вычислил частоты аллелей в каждом из этих кластеров. Любопытно, что в ходе опыта, удалось не только выделить компонент ANI, но и добиться неплохого уровня дискримнации между компонентом ANI, ANE, и благодаря этому, оба компонента могут быть включены в мой следующий этно-популяционный калькулятор.

Надежность компонентов я проверил на собственных данных. В рабочей модели калькулятора K14 удельное распределение этно-генографических компонентов моего генома выглядит следующим образом:

68.75% — европейский мезолитический компонент
13.12% — северо-евразийский компонент ANE
10.23% — европейский неолитический компонент
4% — ANI (северо-индийский предковый компонент)
1.6% — кавказский компонент
1.2% — алтайский компонент
0.2% — сибирский компонент

R Graphics Output

 

 

Исследование генетики татар Поволжья при помощи анализа на IBD-сегменты

Исследование генетики татар Поволжья при помощи анализа на IBD-сегменты

Не секрет, что под этнонимом «татары» в России зачастую скрываются совершенно разные этнические группы. Существуют татары казанские, астраханские, сибирские, крымские и т.д. В данном исследовании нас интересуют татары среднего Поволжья — казанцы и мишари.

Это достаточно многочисленный и активно тестирующийся народ, неплохо представленный в аутосомных базах 23andMe и FTDNA. По мере роста статистики прогонов татарских генотипов через калькулятор Вадима Веренича К27, я начал впадать в некоторое замешательство. В своем большинстве татары получались довольно близкими друг к другу по соотношению предковых компонентов Admixture. Однако одновременно существовали и различия, где было весьма сложно понять — не результат ли это попросту случайных отклонений? Разделение между казанскими татарами и мишарями проявлялось скорее как тенденция к несколько большим значениям «балто-славянских» и «финских» компонентов у вторых, чем как явный сигнал.

Поэтому при появлении у меня нового инструмента — скрипта, анализирующего наличие общих IBD-сегментов с научными выборками, я не замедлил пропустить через него имеющиеся генотипы татар из коммерческих выборок. Сразу же проявились различия, что позволило сделать вывод — несмотря на сходство татар по пропорциям предковых компонентов, их источники частично различаются.

Чтобы по возможности снизить влияние случайных отклонений, я постарался выделить усреднения по территориально-этническим группам. Наиболее бросающимся в глаза признаком казанских татар оказалось большое количество общих сегментов с марийской и чувашской выборками. Однако это еще не означает, что казанцы разделяют большую часть общих предков с марийцами или чувашами. Дело в том, что эти выборки испытали очень сильный генный дрейф. В результате даже не очень значительное родство с ними проявляется весьма ярко. В прошлой заметке я назвал это «эффект ашкенази», по имени наиболее известного примера. Судя по всему, марийцы и чуваши разделяют заметную часть общих предков, поэтому и «эффект ашкенази» у них общий.

Усреднение по трем казанским татарам из Апастовского района Татарстана:

Tatar-ApastovIBD

Довольно типичная картина — фоновая засветка по Восточной Европе, яркое пятно у марийцев и чувашей и более бледное — у татарской научной выборки. Точный источник татарской выборки мне неизвестен, но сравнительно слабые показатели могут хорошо объясняться большей численностью и генетическим разнообразием татар.

Татары из Тархановского района, 5 человек, выглядят весьма похоже, лишь марийско-чувашское пятно менее яркое:

Tatar-TarhanIBD

Татары из северо-западной части Башкирии, четыре человека. По сравнению с предыдущими выборками, добавилось некоторое влияние удмуртов и башкир:

Tatar-Bash-NWIBD

Насколько же велико может быть количество общих предков татар с чувашами и марийцами? Попробуем сравнить апастовскую выборку с усреднением по трем чувашам:

ChuvashIBD

В калькуляторах на базе Admixture у чувашей ярко проявляется «уральский» компонент, и здесь мы хорошо видим его распространение — от саами до манси. Уровень пересечения с чувашской выборкой при моих типичных настройках — 115 сМ. Примерно такой же уровень получился у марийца (отличие от чувашей — в более высоком пересечении с марийской выборкой). При этом у людей с наполовину марийским или чувашским происхождением этот показатель составил чуть меньше 80. У апастовской выборки — 67. Можно сделать прикидку, что при недавнем адмиксе это соответствовало бы примерно 1/3 общих предков. Однако если эти предки жили давно, когда дрейф проявился еще не так сильно, их доля могла быть выше. Таким образом, оценкой снизу будет 30%. Провести оценку сверху поможет упоминавшийся «уральский» компонент. При калибровке К27 его содержание у чувашей получилось равным 19, усреднение по татарам из апастовской выборки —  около 9. Таким образом, даже если все не пересекающиеся с чувашами предки были из популяций с нулевым содержанием этого компонента (что малореально), вклад чувашей не мог быть выше 50%. Думаю, что наиболее реалистичным вариантом будет все же 1/3.

Разумеется, существует еще вариант, что чуваши получили «уральский» компонент уже после разделения с татарами. Тогда количество общих предков может быть и гораздо большим. Однако этому варианту скорее соответствует некий более древний уровень родства, чем рассматриваемые здесь исторические времена.

Я попробовал подсчитать, исходя из предположения, что «чувашские» компоненты составили 1/3 наследственности татар, на что могли быть похожи оставшиеся 2/3 по К27. В одиночном режиме результат оказался непохожим ни на один народ, кроме самих татар. В режиме смеси комбинации тоже показались на первый взгляд очень странными, однако, как мы позже увидим, кое-какой смысл в них был:

Using 2 populations approximation:
1 Nogay_D+Russian_Novgorod_D @ 6,174824

Using 3 populations approximation:
1 50% Russian_North_R8 +25% Kazakh_R2 +25% Romanian_D @ 3,826868

2 50% Russian_North_R8 +25% Bulgarian_S14 +25% Kazakh_R2 @ 4,087314

У меня не нашлось полноценной мишарской выборки из районов за пределами Татарстана и Башкирии, поэтому пришлось объединить три образца, получившиеся похожими и по IBD-картографу, и по предковым компонентам в калькуляторе Вадима Веренича. Первый происходит из мишарей Нижегородской области, второй — из пензенских мишарей, третий — из служилых татар Самарской области.

Mishar-NPSIBD

Как мы можем видеть, здесь не только нет «марийского» пятна, но даже наоборот — на этом месте показано уменьшение количества общих сегментов по сравнению с соседними популяциями. Родство с чувашами имеется, однако, очевидно, идет по другой линии предков чувашей, не совпадающей с предками марийцев. Наиболее же сильно выделяются эрзяне. Как и в случае родства казанских татар с чувашами, это вовсе не говорит об определяющем вкладе эрзян в генетику мишарей. Нижний предел я бы оценил аналогичным предыдущему случаю методом примерно в 20-25%. Что касается верхнего ограничителя, тут сложнее из-за отсутствия специфического «эрзянского» компонента Admixture. Если ориентироваться на общий восточноевропейский компонент Balto-Slavic, то он ограничивает максимальный уровень примерно 70-80 процентами. Вполне возможно, что предками мишарей были не сами эрзяне или мокшане, а родственная им соседняя популяция — это дополнительно затрудняет оценку.

Для сравнения, эрзянская выборка, пять человек:

ErzyaIBD

Мишари из Дрожжановского района Татарстана, три человека:

Mishar-DrozzhIBD

Картина схожа с предыдущей мишарской выборкой, однако у марийцев уже нет провала. Возможно, это связано с близостью к Чувашии, возможно — с влиянием казанских татар.

Выборка мишарей из Башкирии получилась ближе к казанскому варианту. Это может объясняться спецификой именно данной выборки, либо различиями между мишарями в целом. Придумать объяснений можно много, но думаю, здесь нет смысла в них вдаваться.

Mishar-BashkIBD

Итак, для каждого из народов (или, при другом подходе, субэтносов), мы видим на картах один из предковых источников. Однако попытка вывести оставшиеся источники методом пересчета предковых компонентов оказалась малоудачной. Чтобы решить эту проблему, я попробовал визуализировать разницу с первым источником. На карте приведена разница между первой («сборной») мишарской выборкой и эрзянами, для контрастности умноженная на три:

MNPSminusErzyaIBD

Зеленые тона показывают выборки, более близкие эрзянам, красно-бурые — мишарской выборке. Промежуточные варианты одинаково близки и тем, и другим. Максимум разницы в пользу мишарей достигается из крупных выборок у бурят и тувинцев, что очень хорошо совпадает с недавней работой по генетическим следам тюркской экспансии . Немногим отстают от них и башкиры с казахами. Интересно, что кавказские выборки, за исключением ногайцев и балкарцев (наличие в этой компании армян остается загадкой )) ), получились несколько ближе к эрзянам, что говорит против теории о связи мишарей с Кавказом (либо она каким-то образом идет через эрзяноподобную сторону). Пятно у вепсов, думаю, тоже что-то означает, поскольку в слабом виде видно у многих татар. Однако это может быть и следствием более высокого уровня дрейфа у вепсов по сравнению с соседями.

При построении аналогичной карты для пары казанцы/чуваши в качестве базовой выборки я выбрал апастовскую. Башкирские по понятным причинам не могут служить типичным образцом, а тархановская демонстрирует тенденцию сдвига к мишарям. К тому же наиболее родственная чувашам выборка может выявить отличия с ними более показательно.

TAminusChuvashIBD

Зеленая зона вдоль северной части Сибири объясняется более высоким уровнем родства с этими народами у чувашей, чем у татар (все тот же уральский компонент). Родство с народами степной полосы и возможной тюркской прародины находится на примерно одном уровне у «чувашской» и «нечувашской» части генома казанских татар. Родство же с выборками Средней Азии, Кавказа, Средиземноморья — выше. Вероятно, средиземноморскими же пересечениями объясняется повышенный уровень общих сегментов с ашкенази (не забываем, что это число надо делить в разы из-за ашкенази-эффекта). Примерно такого же уровня пятно с крымскими татарами выглядит бледнее из-за небольшой площади полуострова. Интересно также пересечение с болгарами. Не думал, что их тюркский компонент проявится настолько заметно. Впрочем, возможно, это объясняется турецкими или татарскими вливаниями, а не древними булгарами. Ну и обращает на себя внимание знакомое пятно у вепсов и эстонцев.

А теперь вспомним еще раз раскладку при попытке реконструкции «нечувашской» части на базе К27:

2 50% Russian_North_R8 +25% Bulgarian_S14 +25% Kazakh_R2 @ 4,087314

Неправильно, однако уже не так странно, как казалось вначале.

Не следует думать, что перечисленные популяции составляют 2/3 наследственности казанских татар (раз уж 1/3 мы оцениваем вклад «чувашской» стороны). Более вероятным кажется вариант, когда заметную часть от этих 2/3 занимает некая нейтральная по отношению к чувашам популяция, у которой уровень IBD сегментов с другими уральцами и восточноевропейцами был близок к ней. Из-за нейтральности она плохо выделяется на картах IBD-разности, однако калькуляторы на базе Admixture показывают — вклад пришельцев с далекого Юга или Востока не мог быть определяющим. Возможно, именно на эту популяцию намекают «вепсско-эстонское» и «южно-русское» пятна.

В завершение я хочу привести карту разницы между мишарями и казанцами:

MNPSminusTAIBD

С казанской стороны мы видим знакомые марийско-чувашское и крымско-татарское пятна, а также, слегка неожиданно, но не удивительно, азербайджанское (с расширением вдоль Южного Каспия). С мишарской стороны знакомые эрзяне, неожиданно выделилась территория ВКЛ (какие-то вливания оттуда в геном мишарей?), и, по совсем непонятной причине, выборка коми. Родство с азиатскими выборками идет с некоторым перевесом в пользу казанцев, особенно в «зоне марийско-чувашского влияния».

Аналогично примечанию к предыдущей карте, не следует забывать — здесь показана разница. Нейтральная общность может быть велика, но не видна этим методом.

Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии

Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии.

Этнокалькуляторы на базе Admixture, представляющие результат «просчета» генома испытуемого в виде смеси предковых компонентов, достигли уже очень хорошей точности. Однако у них есть и определенные недостатки. Во-первых, случается, что у двух разных народов пропорции смешения этих компонентов довольно близки, хотя близкого родства между ними не наблюдается. Обычно для исключения такого эффекта увеличивают число компонентов, то есть повышают детализацию. Однако при этом зачастую возрастает и «шумность», случайные отклонения от ожидаемых значений. Кроме того, бывает тяжело понять — смешение произошло в предыдущем поколении, или тысячу лет назад? Если человек происходит из двух отдаленных народов, он часто позиционируется в географической точке, находящейся между ними, и непохож ни на один из родительских народов. При более сложносоставном происхождении все запутывается еще сильнее.

Нет ли метода напрямую измерить уровень родства отдельного человека с той или иной популяцией? При такой постановке вопроса сразу приходит на ум один из возможных ответов — необходимо просчитать количество IBD (то есть идентичных благодаря общности происхождения) аутосомных сегментов. Такой подход уже реализован в утилите от 23andMe под названием Countries of Ancestry, однако с рядом заметных недочетов. Используются результаты опроса пользователей сервиса о стране их происхождения, при этом непонятно, каков размер выборки от каждой страны. Да и детализация уровня «страна» для жителей России явно не подходит — зачем мешать в одну кучу карел, осетинов и якутов.

К счастью, эти проблемы можно частично устранить, используя научные выборки (либо коммерческие, однако набрать подобный объем из коммерческих выборок мне сейчас не по силам). С удешевлением процесса генотипирования количество имеющихся в открытом доступе выборок начало быстро расти. В первую очередь я использовал выборки, выложенные на сервере Эстонского биоцентра . Они стали основой. Часть пробелов была заполнена выборками из недавней работы Hellenthal , их пришлось переконвертировать из build 36 в build 37. Отдельное спасибо Вадиму Вереничу за помощь с несколькими выборками, хорошо увеличившими охват этнокарты.

Главной сложностью в работе оказалось сведение геномов из всех источников вместе. В каждой научной работе использовался свой набор снипов, часто с разной ориентацией. Коммерческие выборки тоже неоднородны — например, в FTDNA, как оказалось, существует четыре варианта файлов raw data со слегка отличающимся набором снипов и разной ориентацией примерно трех сотен из них. Добавьте к этому два варианта выравнивания и трансферы из 23andMe (у которой нашлись свои заморочки, например, дублирование одних и тех же снипов под разными названиями).

Конечно, хотелось использовать как можно большее количество снипов. Однако после ряда попыток придумать коэффициенты пересчета и прочее, стало понятно, что это методологически неверно. Пришлось оставить лишь те снипы, которые присутствовали во всех используемых выборках, в стандарте FTDNA, а также на чипе v3 от 23andMe. Вероятно, в будущем придется включить в просчет и новый, четвертый чип от этой компании, однако пока я решил с ним не связываться. В общем итоге осталось около 244 тысяч снипов — не так уж мало, я опасался худшего. От покрытия FTDNA это составляет чуть больше трети.

Компания FTDNA и сервис Gedmatch используют для фильтрации общих сегментов критерий наличия не менее 700 снипов. Однако для мелких сегментов он выполняется не так уж часто (из-за чего у клиентов FTDNA возникает иллюзия сравнительно небольшого количества таких сегментов). Поэкспериментировав, я остановился на рубеже в 150 снипов — менее него количество сегментов, являющихся статистическими артефактами, начало быстро расти. Основным показателем для отрисовки на этнокарте я взял общую сумму сегментов длиной более 3 сМ. Конечно, более длинные сегменты являются более четким показателем родства, однако их заметно меньше. А это значит, что их количество более подвержено случайным отклонениям. С другой стороны, более мелкие сегменты сливаются в общую кашу. Таким образом, выбранный критерий является компромиссом. При увеличении объема выборок на порядки станет возможно использовать только длинные сегменты и улавливать родство более четко.

Метод дает релевантные результаты при сравнении с выборками свыше 10 человек. Чем меньше размер выборки, тем сильнее влияние случайных отклонений. Из-за этого часть выборок я объединил вместе (например, литовцы и латыши стали балтами), часть исключил с карты. Однако некоторые все же пришлось оставить — в первую очередь это финны (2 человека), западные украинцы (6), башкиры (6) и австрийцы (4). Если для какой-то популяции значения явно выпадают из ряда соседей, всегда обращайте внимание на размер выборки, приведенный в сопроводительной таблице.

Одновременно достоинством и недостатком метода является сильное влияние «эффекта основателя», «множественного родства», «бутылочных горлышек» и т.д. За этим перечислением скрывается примерно одно и то же — когда популяция происходит от сравнительно небольшой группы людей, ее члены разделяют между собой большое количество общих сегментов. Наиболее известным примером являются евреи-ашкенази — достаточно иметь одного отдаленного предка из этого народа, чтобы получить множество генетических «кузенов». Таким образом, родство с народом, подвергшемуся такому эффекту, видно более четко. Но это же искажает общую картину — одинаковое количество генетических пересечений может означать совершенно разную степень близости в зависимости от истории популяции.

Я сравнил 26 человек из коммерческих выборок, представляющие различные популяции интересующих меня регионов, с набором из 1130 геномов, взятых из научных выборок. Результаты сведены в таблицу и частично визуализированы на картах. При интерпретации помните о вышеперечисленных искажениях!

Начнем с представителя народа, считающегося наиболее архетипичными восточноевропейцами в большинстве этнокалькуляторов. Это литовцы (картинка увеличивается по клику):

 

LithuanianIBD

Как видно, литовец оправдывает это звание и по количеству общих сегментов. Красное пятно закрывает большую часть Восточной Европы, в том числе и балтийских финнов. Условно говоря, на этой карте мы видим некий «базовый уровень родства» среди восточноевропейцев.

Пятно восточного финна практически совпадает по форме, однако распределение интенсивности иное:

Finnish-EastIBD

Я бы сказал, что в основном это более частный и специфичный вариант того же, что мы видим у литовца. Доказательством может служить высокий уровень пересечения с балтской выборкой. В то же время, существует и финская специфика, например, пересечение с саами, которые у литовца довольно бледные. Более яркое и пересечение со шведами. Скорее всего, здесь мы видим результат включения в состав шведов финского субстрата, поскольку с теми же норвежцами интенсивность явно ниже.

Крайней западной точкой у нас будет представитель российских немцев. На этнокалькуляторах Admixture он получается достаточно типичным представителем немецкого народа, поэтому версию о заметном влиянии на его наследственность русских можно исключить.

German_RussiaIBD

К сожалению, немецкой выборки у меня нет, поэтому Германия закрашена серым. Некоторым заменителем является Швеция, которая чуть ярче соседей. К некоторому  удивлению, французы и британцы не показали заметной общности с немцем, хотя ее уровень все же выше средневосточноевропейского. Частично это может объясняться тем, что в британской выборке лишь семь человек из 23 — англичане, остальные являются ирландцами. шотландцами и валлийцами. Пятно у восточных украинцев и южных русских также загадочно — неужели это след знаменитых готов?

Невозможно исследовать генетическое разнообразие восточноевропейцев и обойти при этом ашкенази. Поэтому я позволил себе небольшую некорректность и разместил их на карте в районе нынешней Одессы. Картинка для ашкенази из коммерческой выборки:

AshkenaziIBD

Ожидаемое ярко-красное пятно сходства с родной популяцией, остальные все довольно далеко (на втором месте получилась выборка сефардов, но ее на карте нет). Повышение у басков и греков показывает родство ашкенази со средиземноморскими популяциями, пятно у восточных украинцев и белорусов объяснимо длительным совместным проживанием.

Перейдем к восточным славянам. Небольшой размер выборки западных украинцев не помешал им оказаться на первом месте у карпатского русина:

Carpathian_RusinIBD

Пятна на остальной территории получились довольно неровными. Я бы не стал делать из этого каких-то глубоких выводов о древних пересечениях карпатцев и финнов или эрзян.

Северо-восточная Беларусь:

BelarusianIBD

Украина (Полтава):

Ukrainian-PoltavaIBD

Обращает на себя внимание пересечение с поляками.

Человек смешанного происхождения — донские казаки и украинцы:

RuUa-CossackIBD

Тверь-Рязань:

Russian-CenterIBD

Как видно, балто-славянская общность улавливается всегда, в то время как более тонкие различия частично видны, частично скрываются шумом (случайными отклонениями).

Представители эрзи и мокши явно в своей основе близки балто-славянам. При этом балтийские финны никак не выделяются, а народы волго-уральского региона уже довольно далеки. Все это не является новостью для интересующихся темой людей, однако независимое подтверждение результатов показывает действенность методики.

Эрзя:

ErzyaIBD

Мокша:

MokshaIBD

Мокшанская выборка не помещена на карту из-за своего маленького размера (давала слишком большие случайные отклонения). У мокши «родная» выборка получилась заметно ближе эрзянской, у эрзи, соответственно, наоборот. Вероятно, это значит, что, несмотря на родственность двух групп, различие между ними с точки зрения разделяемой популяционной истории существенно (простыми словами, женились преимущественно внутри своего народа).

У северного русского видно родство как с балто-славянскими выборками, так и с балтийскими финнами:

Russian-NorthIBD

Наряду с этим, у русского из Пермского края ощущается влияние коми. Вероятно, с этим же связано и приближение других народов Урала:

Russian-PermIBD

В то же время, сами коми-зыряне скорее относятся к тому же «балто-славяно-финскому» кругу популяций:

KomiIBD

Чтобы не делать пост бесконечным, карты для народов волжско-уральского региона (в широком смысле) будут приведены в следующей части.

Этногеномика беларусов — часть V

Обсуждение результатов и выводы

 

Как отмечалось в введении к нашей статье, главной задачей нашего исследования являлась проверка двух рабочих гипотез, озвученных в предыдущих исследованиях профессиональных попгенетиков. Во-первых, это гипотеза о присутствии трех основных древних компонентов , которая указывает на возможность общего происхождения славян и балтов. Во-вторых, это утверждение о том, что своеобразие аутосомного генофонда беларусов может быть связанно с вкладом балтского субстрата.

После внимательного изучения результатов нашего исследования,можно сказать, что оба из приведенных выше заключений представляют собой крайне упрощеные варианты сложного процесса формирования аутосомного генофонда беларусов. Хотя мы и не можем предоставить окончательных аргументов в пользу или опровержение каждой из этих версий, мы может предоставить более полное и подробное обозрение структуры аутосомного генофонда. В отличие от трех основых компонентов, упомянутых выше, в нашем исследовании мы выделили шесть основных компонентов, типичных для европейцев в целом. Основу генофонда составляет компонент, который мы обозначили как северо-восточно-европейский компонент. Именно этот компонент выделяет беларусов среди других восточных славян, приближая их к современным балтийским популяциям (у литовцев процент компонента составляет 81,9, у латышей — 79,5%, у беларусов -76,4%, у эстонцев — 75,2%). Примечательно, по мере удаления от территории Беларуси на север в с торону Латвии и Эстонии, увеличивается процент северо-европейского генетического компонента (как мы полагаем, этот компонент доминировал в генофонде доисторических жителей Скандинавии в эпоху до распространения финно-угоров и индо-европейцев). С другой стороны, беларусов и других восточных славян отдаляет от балтов и сближает друг к другу более высокий процент так называемого западно-азиатского или кавказского компонента (любопытно, что в этом случае эта закономерность может свидетельствовать в пользу западно-азиатской теории происхождения индо-европейцев).

Далее, как показывает анализ в программе fineStructure, генофонд беларусов характеризируется высокой степенью генетических контактов как с балтами, так и остальными славянами, а также с рядом финно-угорских популяций (например, c эрзя и мокша). О симметричном характере межпопуляционного обмена свидетельствует симметричное расположение популяции беларусов относительно этих трех групп.

Исходяизвышенаписанного,представляетсялогичнымсделатьвыводотом,чтоосновнойкритическийэтапстановленияаутосомногогенофондапришелсянапериодсмешиванияносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,послечегопредковыйаутосомныйгенофондбеларусовприобрелотносительнуюстабильность.Разумеется,даннаямодельнеисключаетпозднейшиеэпизодысмешиванияпопуляций,ноониоставилименьшийследвструктуреаутосомногогенофондабеларусов.Вэтойсвязивозникаеточевидныйвопрос–вкакойименноисторическийпериодпроизошлосмешениеносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,иктобылиихносителями?
В начале сентября 2012 года известная американская лаборатория популяционной генетики доктора Райха опубликовала альфа-версию программного продуктаADMIXTOOOLS1.0. Альфа-версия была разработана для внутреннего использования, поэтому modusoperandiэтого продукта вряд ли является кристально понятным для стороннего пользователя. Положительным аспектом на мой взгляд является то, что ADMIXTOOLSпакет обеспечивает полную совместимость с форматом другой очень популярной программыEIGENSOFT, которая была разработана в той же лаборатории. Это немаловажное обстоятельство намного упрощает процесс обучения в ADMIXTOOLS.

Вышеупомянутый пакет включает в себя 6 приложений, среди которых я считаю наиболее полезнойqp3Popи утилиты для вычисления частотной характеристики аллелей. Впрочем, я не собираюсь обсуждатьqp3popво всех деталях и в контексте данной заметки достаточно отметить, что эта программа реализует тест three_pop(F_3), подробно описанный в известной статье Рейха и соавт. 2009.

Однако другой имплементированный в пакете метод, – метод rolloff– нуждается в более пристальном внимании. Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатураLD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории, чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения LDв адмиксе напрямую связана с числом поколений, прошедших с момента адмикса, так как cвозрастанием числа поколений увлечивается число рекомбинаций произошедших между двумя отдельными SNP-ами. Проще говоря: Rolloffсоответствует экспоненциальной кривой угасания уровня LDот расстояния, и эта скорость экспоненциального снижения как раз и используется для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.

Этот метод открывает интересные перспективы. Для целей этого анализа, я создал специальный набор SNP-данных, который включает в себя около 750 000 cнипов, частично или полностью в 250 различных популяциях человека. Далее, я разбил популяции 3 * 62 000 трио в следующем виде (X, Y, Z), где X и Y – пара рефренсных групп, а Z – белорусы из коллекцииBehar et al.2010. После этого я провел q3Pop анализ этих трио.

Результаты изложены в нижеприведенной таблице

Indian Polish Belarusian -0.000736 0.000251 -2.935
Polish Indian Belarusian -0.000736 0.000251 -2.935
Karitiana Sardinian Belarusian -0.001278 0.000517 -2.471
Sardinian Karitiana Belarusian -0.001278 0.000517 -2.471
Otzi North_Amerind Belarusian -0.002556 0.001126 -2.271
Cirkassian Polish Belarusian -0.000488 0.000231 -2.113
Polish Cirkassian Belarusian -0.000488 0.000231 -2.113
Pima Otzi Belarusian -0.002727 0.00137 -1.99
Pima Sardinian Belarusian -0.000794 0.000431 -1.843
Sardinian Pima Belarusian -0.000794 0.000431 -1.843
Otzi Surui Belarusian -0.002938 0.001931 -1.522
Surui Otzi Belarusian -0.002938 0.001931 -1.522

 

На первый взгляд, результаты нашего эксперимента с 3qPop, кажется, неплохо согласуются с выводами, содержащимися в работеПаттерсон и др. 2012: “Самый поразительный вывод состоит в обнаружени четкого сигнала адмикса в северной Европе, один из элементов которого связан с предками населения наиболее близкого по своей генетике к баскам и жителям Сардинии, а другой – с предками современного населения северо-восточной Азии и Америки. Этот явный сигнал, вероятно, отражает историю смешивания неолитических мигрантов с коренным населением Европы, что подтверждается недавним генетическим анализом древних костей Швеция и секвенированием полного генома Отци Тирольца”. Что касается собственно белорусов, то источники сигнала смешивания с посторонними популяцими менее ясны и расплывчаты. Как было показано ранее, с точки зрения формального анализа примесей (f3 статистики), белорусы могут быть представлены в виде популяционного микса поляков и индусов / черкессов. Первый компонент смеси может быть связан с носителями культуры шнуровой керамики/боевых топоров и культуры колоковидных кубков; второй, в соответствии с результатами, должен быть общим для индусов и черкесов.

 

Белорусы = ((неолитические культуры Европы) + “носители культуры колоковидных кубков”) + (мезолитическое население Европы) + компонент носителей культуры шнуровой керамики)) + скифо-сарматский тип

 

Для оценки дата события базового адмикса в белорусской популяции, мы использовали в качестве референсных популяций поляков и индусов (Примечание: мы снизили порог генетических дистанции в параметрах Rolloff для снижения уровня шума от более поздних адмиксов).

 

rolloff

Как вы можете видеть, сигнал присутствия адмикса обнаруживается гораздо хуже, и в силу этого, погрешности в оценке временного промежутка высоки:

154,158 + -87,024 поколений назад (или, 4470 + -2523 года до настоящего времени / 2510 – +2523 лет до н.э.).

 

Исходя из этого, мы решили модифицировать Rolloff-анализ генофонда белорусов, используя на этот раз в качестве референсов литовцев и пуштунов. Следуя этому совету, я решил предпринять вторую попытку формального анализа адмикса в двух имеющихся у нас выборках беларусов ( выборка беларусов из статьи Behar et al. 2011), и выборка беларусов, собранная в нашем проекте.Ниже приведены результаты эксперимента с двумя этими группам (в отличие результатов нашей предыдущей попытки, результаты данного эксперимента менее “зашумленные”):

rolloff2

 

Интервал числа поколений, прошедших со времен анализируемого адмикса (105.086+-52.59) или 3069 +- 1525 лет до настоящего времени, что соответствует временном интервалу 2 тыс. до нашей эры – 6 век нашей эры. Принимая во внимание эти выводы, мы можем предположить, что основной аутосомный эпизод смешивания предковых популяций беларусов произошел в течении довольно таки продолжительного времени, охватывающего несколько тысяч лет. В этой связи, вопрос о том, кто именно был носителями северо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента, остается открытым.

Этногеномика беларусов — часть IV

Анализ структуры аутосомного генофонда популяции беларусов: результаты анализа этнического адмикса.

 

После проведения анализа этно-популяционного адмикса мы получили следущие результаты, обсуждению которых будет посвящена следущая часть нашего исследования. Результаты представляют собой разбивку аллельных частот на 22 кластера, каждый из которых представляет собой гипотетическую предковую популяцию. Поскольку в цели данного небольшого исследования не входит подробный анализ всех популяций, мы ограничимся сравнительном анализом структуры (компонентов) беларусов c географически близкими популяциями, а также с теми популяциями, которые могли входить в исторические контакты с предками современных беларусов:

admix

 

Рисунок 3. Результатыанализа ADMIXTUREK=22

У рассматриваемых здесь европейских популяций наиболее часто представлены следующие компоненты:

North-East-European,Atlantic_Mediterranean_Neolithic,North-European-Mesolithic, West-Asian, Samoedic, Near_East.

Разберем вкратце каждый из них. В ракурсе нашего исследования самым важным компонентом представляется – северо-восточно-европейский компонент North-East-European, он присутствует почти у всех европейцов, и в самой значительной степени — у балтов и славян: литовцы (81,9), латыши (79,5), беларусы (76,4), эстонцы (75,2), поляки (70,2), русские (67- 70,4), украинцы (62,1- 67,1), сорбы (65,9), карелы (60,2), вепсы (62,5), чехи (57,4), северные немцы (54,6), южные- 42,6, у британцев от 46 до 49, норвежцы- 48,1, шведы- (53,7).

Второй по значимости компонент — Atlantic_Mediterranean_Neolithic (юго-западно-европейский или просто западно-европейский неолитический компонент).[1]У восточноевропейцев он выражен в умеренной степени- чехи (27,8), поляки (18,4), украинцы ( от 17 до 21%), беларусы (13%), русские (от 11 у северных до 17,3 у южных), у коми (8,9 %), манси (8,8 %).

Третьй компонент – северо-европейский мезолитический компонент -North-European-Mesolithic[2]: cаамы (76,4 %), финны (от 30,1 до 37,3 %), вепсы (24,1), карелы (23,2), ижорцы (22, 7). Заметен этот компонент и у северных русских (10,5 %), норвежцев (9,8 %), шведов (7,8 %), эстонцев (7,1 %). У беларусов он практически отсутствует (1.1%).

Четвертый компонент – западно-азиатский (кавказский) West Asian[3]. На интересуемой нас территории этот компонент чаще встречается у казанских татар (9,9 %), южных немцев (8,4), украинцев (от 6,6 до 7,7 %), южных русских (6,2%). На западе высок процент у итальянцев (21,5 % у центральных итальянцев), французов (6,7 %), у беларусов (2.2%).

Пятый компонент — уральский Samoedic. Значительно присутствует у селькупов (68,1%), хантов (64,6), ненцы (37,1), манси (30,9 %-), удмурты (29,6), марийцы (27, 8), шорцы (22,0 %), башкиры (21,7%), чуваши и хакассы по 17,6 %, коми- 16,4 %, казанских татар (11,9 %). У западноевропейцев этот компонент практически не встречается, у русских (от 1,0% у центральных до 4,7 % у северных), у карел (1,6%), словаков (1,4%), западных украинцев (1,7 %), беларусы (0.5%).

Шестой компонент – ближневосточный Near_East[4]У южных немцев (3,5), украинцы (от 2,3 у восточных до 3,8 % у западных), чехи (3,0), беларусы (3,4), словаки (3,2), у русских от 1,0 до 1,5%, у литовцев- 1,4%, у поляков- 1,3 %.

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[1]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[1]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[1]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

Анализ разделяемых аутосомных сегментов между популяциями Северо-Восточной Европы.

С целью верификации результатов анализа главных компонентов генетического разнообразия я подготовил новую выборку популяций, которая включает в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.В ходе нового экспериментального теста в ходе статистической обработки общих по генетическому происхождению сегментов хромосом в составе выборки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, т.е размера той популяции которая участвовала в репродукции или обмене генами в некоем отдаленном временном промежутке. Собственно говоря, эффективная популяция – это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955). Новая программа Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение составило 22 000. Это близко к значениям Neрекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных ниже результатов, даже 22 000 для совокупности эффективного размера элементарных популяций – это более, чем достаточно.

 

finest

Рисунок 4. Расположение популяций в пространстве 1 и 3 главных генетических компонентов

 

Изложим ниже некоторые закономерности размещения популяци

 

  1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
  2. Все литовцы (участники проекта + референсы из вышеупомянутой статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев

  3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.

  4. Ниже находится балканский кластер (румыны, болгары и часть венгров).

  5. К этому кластеру примыкают турки и часть армян

  6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов).

  7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.

  8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

  9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

  10. Левее этой группы популяций находится кластер ашкеназов.

  11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

  12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

  13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

  14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

  15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).[5]

 

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[2]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[3]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[4]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

[5]Такое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции.То есть все эти баски являются многократными родственниками между собой т.е., положение басков на графике есть следствие классического генного дрейфа, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества sharedDNAchunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.

Исходя из этого можно сделать вывод о том что баски эта экстремально-эндогенная популяция изолянтов, при этом генетическое разнообразие басков низко, т.к. размер эффективной популяции басков низок.

Этногеномика беларусов — часть III

Анализ этно-популяционного адмикса

 

В ходе следующеего этапа, окончательный набор данных по референсным популяциям (которые я храню в linkage-формате PLINK) был обработан в программеAdmixture. Во время выбора подходящей модели проведения теста на этно-популяционный адмикс, мы столкнулись с крайне трудной задачей: как было показано в профильных научных исследованиях (Pattersonetal.2006) количество маркеров, необходимых для надежной стратификации популяций в анализе обратно пропорциональна генетическому расстоянию (фСТ) между популяциями. Согласно рекомендациям пользователей программы Admixture, считается что примерно 10 000 генетических SNP-маркеров достаточно для выполнения интер-континентальной GWAS-коррекции обособленных популяций (например, уровень дивергенции между африканскими, азиатскими и европейскими популяциями FST> 0.05), в то время как для аналогичной коррекции между внутриконтинентальными популяциями требуется более чем 100000 маркеров (в Европе, например, ФСТ < 0.01). Для повышения точности результатов Admixtureмы решили использовать метод, предложенный Dienekes. Этот метод позволяетпреобразовать частот аллелей в “синтетические” индивиды (см. такжепример Зака Аджмалаиз проекта HarappaDNA). Идея метода довольно проста: сначала необходимо запустить unsupervisedанализ Admixtureс целью вычисления частот аллелей в так называемых предковых компонентов, а затем на основании аллельных частот сгенерировать “фиктивные популяции”. Именно эти фиктивные популяции и индивиды будут использоваться в ходе чистых референсов в ходе последующего анализа этно-популяционного анализа. Впрочем, как и любые другие исследователи, работающий над четким решением проблемы этно-популяционного адмикса, мы были вынуждены считаться с ограничениями этого подхода. Хотя мы отдаем себе отчет в существовании явных методологических подвохов в использовании смоделированных искусственных индивидов для определения адмикса в реальной популяции, мы полагаем что полученные в ходе аллельно-частотного моделирования “фиктивных индивидов” представляют самую лучшую аппроксимацию древних генетических компонентов предпологаемых древних компонентов. В ходе применения простого моделирующего метода, нами были получены значимые результаты в ходе создания нового калькулятора. Сначала мы произвели unsupervisedAdmixture(при значении К = 22, т.е 22 кластера частот аллель или предковых компонентов). По выполнению анализа нами были получены оценки коэффициентов адмикса в каждой из этих 22 аллельных кластеров, а также частоты аллелей для всех SNP-ов в каждой из 22 родовых популяций.

Затем мы использовали мнемонические обозначения для каждого компонента (имена для каждого из компонентов выведены в порядке их появления). Нужно помнить, что обозначения этих компонентов носят скорее мнемонический условный характер:

Pygmy

West-Asian
North-European-Mesolithic
Tibetan
Mesomerican
Arctic-Amerind
South-America_Amerind
Indian
North-Siberean
Atlantic_Mediterranean_Neolithic
Samoedic
Proto-Indo-Iranian
East-Siberean
North-East-European
South-African
North-Amerind
Sub-Saharian
East-South-Asian
Near_East
Melanesian
Paleo-Siberean
Austronesian

Вышеупомянутые частоты аллель, вычисленные в ходе unsupervised(безнадзорного) анализа (AdmixtureK= 22) объединенного набора данных, были затем использованы для симуляции синтетических индивидов, по 10 индивидов на каждую из 22 предковых компонент. Это симуляционное моделирование проводилось с помощью PLINKкоманды -simulateРасстояние между между симулированными «искусствеными» индивидами было визуаилизировано с использованием многомерного масштабирования.

simul

На следущем этапе, я включил группу смоделированных индивидов (220 индивидов) в новую эталонную популяцию. После чего я запустил новый анализ А, на этот раз в полном “поднадзорном” режиме для K= 22, причем полученные в ходе симуляционного моделирования фиктивные популяции фиктивных индивидов использовались в качестве новых референсных эталонных групп. На конвергенцию 22 априорно заданых предковых компонентов было затрачено 31 итераций (3 7773,1 сек) с окончательным loglikelihood: -188032005,430318 (ниже, на следущей странице, приведена таблица значений Fst между расчетными ‘предковыми’ популяциями):

fst dist

Рисунок 1. FST-дистанции между компонентами

 

Приведенная выше матрица Fstдистанций была использована для определения наиболее вероятной топологии NJ-дерева всех 22 предковых компонентов ( примечание: в качестве outgroup-таксона использовался South-Africancomponent).

Этногеномика беларусов — часть II

Анализ структуры аутосомного генофонда популяции беларусов: методы, технические параметры и предварительные замечания.

 

В целях сопоставимости выводов данных анализа с приведенными выше выводами профессиональных популяционных генетиков, мы использовали в своем исследовании референтную выборку беларусовиз ДНК-банка Института Генетики Беларуси в том же объеме, в котором она была задействована в исследовании группы ученных под руководством Бехара (модифицированная выборка Генбанка с кодом доступа:GSE21478)[1]. Наряду с референтной группой беларусов (обозначена как Belarusian), мы использовали данные лиц беларуского происхождения из нашего собственного проекта этно-популяционного анализа лиц, предки которых проживали на территории Беларуси минимум 100-150 лет(обозначено как Belarusian_V).

Для проведения сравнительного анализа генофонда популяций нам понадобился референтный набор популяций. Референтный набор популяций в этом калькуляторе был собран в программе PLINK  методом “intersection&thinning” ( дословно “пересечением и истончением”) образцов из различных источников данных:HapMap 3(отфильтрованный набор данных КЕС, YRI, JPT, CHB),1000genomes, Rasmussen et al. (2010), HGDP (кураторская база данных Стэнфордского университета), Metspalu et al. (2011), Yunusbayev et al (2011),Chaubey et al. (2010)и т.д. Кроме того, мыотобралипроизвольным образом по 10 сэмплов (или максимальное количество доступных сэмплов в тех случаях, когда общее число сэмплов в популяции было меньше 10) от каждой европейской страны, представленной в панеле базе данныхPOPRES.Наконец, для того чтобы оценить степень корреляции между современным и древним генетическим разнообразием населения Европы, мытакже включилив выборку образцы древней ДНКЭци(Keller et al. (2012)) , образцы жителей шведского неолита Gök4, Ajv52, Ajv70, Ire8, STE7 (Skoglund et al. (2012))и 2 образца La Braña – останков мезолитических жителей Пиренейского полуострова (Sánchez-Quinto et al.(2012)).

Затем мыдобавили90 образцов – анонимизированных данных — участников моего проекта. После слияния вышеупомянутых наборов данных и истончения набора SNP с помощью особой команды PLINK, мыисключилиSNP-ы с менеечем 0.5% минорных аллелей. Послечего мыотфильтровал дубликаты, лиц с высоким уровнем общих по происхождению идентичных сегментов (IBD). В качестве критерия фильтрации были использованы расчеты IBD в Plink, где IBD представлена как средняя доля аллелей общих между двумя людьми по всем анализируемым локусам. Затем мыудалилииз выборки лиц с высоким коэффициентом предпологаемого родства, коэффициенты родства были вычислены в программном обеспеченииKing).

Для получения более стабильных результатов, мытакже отфильтровалисэмплы с более чем 3 стандартными отклонениями от средних данных по популяции. Поскольку коэффициент родства может быть надежно определен с помощью оценки HWE (ожидания, вытекающего из законаХарди-Вайнберга) между SNP-ами с той же базовой частотой аллелей, то SNP-ы с существенным отклонением (p < 5.5 x10−8) от ожидания Харди-Вайнберга были удалены из объединенного набора данных. После этого мывыделилите SNP-ы, которые присутствовали в чипах Illumina / Affymetrix, и затем произвелифильтрацию снипов на основе расчетов степени неравновесного сцепления (в этом эксперименте мыиспользовалтхромосомное ‘окно’ размером в 50 базовых пар, с шагом 5 базовых пар и пороговым значением уровня сцепления R ^ 2, равным 0,3).

По окончанию этой сложной последовательности операций, мыполучил окончательноый набора данных, который включал в себя 80 751 снипов, 2516 человек и 225 референсных популяций.

 

[1] http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE21478

Этногеномика беларусов — часть 1

I. Анализ аутосомного генофонда беларусов

Наряду с ставшими уже традиционными методами анализа структуры генофонда популяций по Y-хромосоме и митохондриальном ДНК (о которых мы упоминали выше), в последнее время все большее распространение получают новые и более точные методы анализа генофонда популяций, в основу которых положены данные о частотах аллелей большого числе генетических локусов на неполовых хромосомах. В силу того, что в передаче генетического материала на неполовых (аутосомальных) хромосомах участвуют как мужчины, так женщины, подробный и детальный анализ распространения аллельных вариант способен дать более точную характеристику процессов исторических и эволюционных процессов в отдельно взятой популяции. Кроме того, большая часть человеческого генома сосредоточена в неполовых хромосомах — количество генов (точнее определенных генетических локусов) локализованных на неполовых хромосомах, несоизмеримо выше числа генов в митоДНК и половых хромосмах. Поэтому анализ аутосомных хромосом обладает более высокой степенью информационного разрешения. Выбор типа локусов в нашем исследовании также обусловлен сугубо прагматическими соображениями.
Поскольку существует разные типы генетических маркеров, мы ограничились снипами — точечными мутациями, представляющими собой замену одиночного нуклеотида. Как было показанов других исследованиях, математико-статистические методы исследования распределения аллельных вариантов(генотипов) отдельных снипов характеризуются наивысшой разрешающой способности в плане изучения воздействия всех известных генетических эффектов на историческую демографию популяции.

Перед тем, как перейти к весьма сжатому и краткому описанию результов анализа популяции беларусов по определенному набору типированных снипов,  следует вкратце описать предысторию изучения аутосомных маркеров беларуской популяции. Как уже отмечалось выше, новые методы исследования генофонда популяция с помощью изучения статистических характеристик одиночных нуклеотидных вариантов (SNV/SNP), были введены в популяционной генетике и биоинформатике относительно недавно. В более ранней парадигме, анализ (в том числе, и сравнительный) аутосомной составляющей генофонда состоял в определении набор-панели высокополиморфных и слабо сцепленных между собой аутосомных ДНК маркеров. В то же самое время, насколько нам известно, аналогичный анализ с использованием другого типа маркеров –снипов- до совсем недавнего временине проводился. Например, в исследованиях аутосомных ДНК-маркеров часто использовался стандартный набор CODIS, который первоначально разрабатывался для нужд ДНК-профилирования в криминалистике.В данную систему CODIS входят 16 аутосомных STR локусов и амелогениновый тест на определение половой принадлежностиОднако относительно простота амплификации сателлитной ДНК в формате мультиплексной PCR, и доступность методов статистической обработки с использованием современных статистических подходов, применяемых в популяционной генетике и судебной медицине, привела к тому что эта система часто использовалась в ранних исследованиях генофонда популяций Восточной Европы.

Cамой масштабной работой такого рода( а именно, c использованием классических аутосомных маркеров STR), является совместная статья Балановского и Тегако. В свете нашего исследованияпредставляется нужным отметить наиболее интересующий нас аспект вышеупомянутой работы, а именно сравнительный анализ генофонда беларусов с генофондами других популяций Западной Евразии. Как отмечают авторы, cравнительный анализ генофондов Западной Евразии показал, что «поаутосомным ДНКмаркерам все восточные славяне входят в один кластер Восточной Европы. Однако русские и украинские популяции расположены ближе друг к другу, чем к белорусам… Русские и украинцы оказываются ближе к популяциям Западной и Южной Европы, чем белорусы. К сожалению, по этим маркерам не изучены ближайшие западные и северные соседи белорусов, и в частности, балтские народы. Можно предполагать, что некоторое своеобразие генофонда белорусов связано с вкладом балтского субстрата»[1]
Использованные в работе Балановского и Тегакогенетические данные по генофонду популяций беларусов были взяты из баз данных Института генетики НАН Беларуси, где хранятся базы данных по 35 аутосомным генам, изучаемых, главным образом, в целях медицинской генетики. Однако, как отмечается в статье О.Давыденко и Е. Кушнеревич «Гаплогруппы Y-хромосомы и происхождение национального генофонда», для эволюционных исследований эти маркеры не совсем удобны, так как на частоту и характер распространения аллелей зачастую оказывает влияние жесткий естественный отбор, и поэтому по одним только результатам анализа распределения частот невозможно судить о генетическом родстве разных популяций.[2]

Несмотря на то, что основное внимание в статье Давыденко и Кушнеревич уделяется анализу Y-хромосомных гаплогрупп беларусов, в конце статьи авторы мимоходом упоминают о результатх исследования аутосомного генофонда, проведенного междунродным коллективом под руководством Дорона Бехара[3]:

«В работе израильского ученого Дорона Бехара с соавторами изучались различные популяции евреев и анализировалась генетическая взаимосвязь между ними и их «хозяйскими» популяциями. В большинстве случаев эта связь была незначительной. Белорусская «хозяйская» популяция также исследовалась с использованием именно нашего ДНК-банка, то есть эти данные весьма сопоставимы, поскольку сделаны на одной той же представительной выборке. Ученые сравнивали 100 тыс. однонуклеотидных замен (то есть изучали 100 тыс. точек, разбросанных по всему геному человека). Результаты работы демонстрируют достаточно близкий спектр изменений у белорусов, литовцев и русских и свидетельствуют о присутствии трех основных «древних» компонентов в сопоставимых пропорциях. Это также косвенно указывает на возможность общего происхождения славян и балтов, а также на то, что основы генофонда различных европейских народов заложены еще в доисторическое время.Если сопоставить данные математической лингвистики с данными по геномному анализу, нельзя не увидеть определенного параллелизма не только в дивергентном характере, но и во временных оценках эволюции – как языка, так и генетики. Эти данные также могут свидетельствовать в пользу предположения общности происхождения славян и балтов из некогда единой популяции.»

В приведенной выше цитате мы выделили самую важную часть, в которой авторы высказывают предположение о том, что присутствие трех основных древних компонентов указывает на возможность общего происхождения славян и балтов. Очевидно, что предложенная авторами спорная(на наш взгляд) интерпретация противоречит выводам Балановского и Тегако о том, что своебразие аутосомного генофонда беларусов может быть связано с вкладом балтского субстрата. К сожалению, в обеих статьях авторы не сочли нужным подробно аргументировать свои выводы по столь важному вопросу. Поэтому одной из задач нашего небольшого исследования мы ставим критический разбор обеих утверждений на основане полученных нами данных о структуре аутосомного генофонда беларусов.

 

[1] Балановский О. П., Тегако О. В. Генофонд белорусов по данным о трех типах генетических маркеров — аутосомных, митохондриальных,Y-хромосомы.

[2] Давыденко Олег, Кушнеревич Елена.2011. Гаплогруппы У-хромосом и происхождение национального генофонда. Наука и Инновации.Тайна происхождения белорусов. 9(103),12-15.

 

[3] Behar, Doron.M.2010.The genome-wide structure of the Jewish people.Nature 466, 238–242.

Еще раз о эволюции «динарской клады» гаплогруппы I2a1b и славянизации Балкан

Как известно моим постоянным читателям, я уже на протяжении почти 5 лет пытаюсь опровергнуть устоявшееся в популяционное генетике представление о том, что частотный пик распространения на Балканах гаплотипов так называемой динарской клады гаплогруппы I2a1b можно объяснить  непрерывной генетической приемственностью населения этого региона со времен палеолита. Даже само кодовое название «ветви» — «динарская» — носит условный характер. Вопреки популярной точки зрения,  на самом деле название восходит не к трудам Нордтведту (который его просто популяризировал), а к известной cтарой статье Barac et al.2003. Авторы описали Dinaric Modal Haplotype в его 5-маркерной форме «(DMH: 16–24–11–11–13) by DYS19–390–391–392–393, respectively». Позднее он был расширен до 17, 37,67 и 111 маркеров и обнаружен не только на Балканах, но и по всей Восточной Европе

К сожалению, большинство из моих убедительных аргументов остаются без должного внимания со стороны профильных популяционных генетиков.  На дворе уже 2014 год и что мы видим в свежих работах по популяционной генетике населения Восточной Европы? Собственно говоря, ничего нового. В статье В.С. Панкратова, О.Г. Давыденко «Структура генофондов населения двух регионов Белорусского Полесья» 2013, стр.46 читаем: «Различие частот гаплогруппы I2a2 между популяциями «Вичина» и Западного Полесья не является достоверным, соответственно, она могла попасть в «Вичин» из других регионов Западного Полесья, при этом не происходило событий, приводящих к сильному генетическому дрейфу. Напомним, что для данной гаплогруппы характерна более высокая частота в Полесье, чем в других частях Беларуси, что предположительно является результатом мигра- ции ее носителей из потенциального балканского ледникового рефугиума на территорию юга современной Беларуси. Таким образом, заселение «Вичина» носителями Y-хромосомы I2a2 произошло либо так же, как и заселение других регионов Западного Полесья (в результате миграции с Балкан), либо позже в результате миграции с прилежащих территорий).»  Что характерно — здесь эта гаплогруппа (а речь идет конечно же о печально известной динарской субкладе этой гаплогруппы) названа I2a2 по старой терминологии, а в таблице частот уже по более новой I2a1. Это обстоятельство указывает на то, что статья писалась (или дописывалась) в разные времена. Похоже это общее место всех работ в области популяционой генетики,  так или иначе затрагивающих проблематику балканского палеолитического рефугиума, уже никогда не устранить. И это несмотря на то, что открытие новых снипов и соответствующие изменения в филогенетическом дереве гаплогруппы I2a-P37.2  дают надежные доказательства верности моей первоначальной гипотезы. Вот так, например, выглядит разметка филогенетического древа I2a-P37.2 по состоянию на начало 2014 года.

Еще более глубокая структура субкладов I2a1b приведена в черновой рабочей схеме компании Yfull.

I2_M423_20140203

Несмотря на интуитивно понятную структуру организации информации в филогенетических деревьях (кладограммах), они не могут быть использованы в качестве окончательного аргумента при строгом логическом доказательстве какой бы то ни было гипотезы.
Так уж повелось, что при аргументировании своей позиции в попгенетике надо оперировать языком сухой статистики и математики. Выводы и модели могут быть верными, частично неверными или даже полностью неправильными. Но если они выражены в формально-математическом виде, они имеют полное легитимное право на принятие к обсуждению в ситуации рациональной и конструктивной дискуссии. Поэтому статья (с рабочим названием » ‘Динарская субклада’ I2a1b: маркер славянской экспансии на Балканы?»)  должна  включать в себя, к примеру,  графическое отображение графа филогенетической сети гаплотипов динарской клады, но традиционными методами эту задачу решить крайне сложно. Я наткнулся на интересную альтернативу для тех случаев, когда вместо филогенетической схемы гаплотипов нужно строить гаплотипные сети (haplotype networks), но из-за больших объемов данных построить их в стандартной попгенетической программе Fluxus-Network в течении разумного времени не получается.

Вместо классического, но медленного FN можно использовать бесплатное программное обеспечение Arlequin > HapStar > Graphviz/Gephi/R-Graphviz. Первая попытка визуализации в Gephi:

1526576_10202941657572217_2008628619_n
Поскольку с эстетитческой точки зрения эта попытка была не очень удачной, то я решил повторить эксперимент с визуализацией MST динарского кластера гаплогруппы I2a — на этот раз в цветном исполнении.  В самом центре белоруские гаплотипы, окруженные украинскими гаплотипами. Ветвь Вереничей (Belarus19) в кластере гаплогруппы I2a: Belarus32->Bulgaria68->Poland365->Belarus 19, и очень близко к центру.

1048962_10202961233661607_1211213762_oЗатем я  частично переработал граф сети гаплотипов динарского кластера гаплогруппы I2a1b. Алгоритм Force Atlas 2, хотя и позволяет разглядеть мелкие детали размещения отдельных гаплотипов, — в конечном итоге дает уникальную структуру графа, и эта структура существенным образом отличается от привычной структуры сети гаплотипов в работах попгенетиков. Исходя из этого, я решил ограничиться применением Force Atlas, а затем сгруппировал перекрывающиеся узлы графа в одну группу. Благодаря этому незамысловатому трюку, на выходе я получил гораздо более приемлимый с точки зрения академического стандарта графический вариант. Это, конечно же, не штейнеровское MP-дерево гаплотипов в Fluxus Network, однако и оно дает неплохое представление о характере развития динарского кластера.

Задача: как вы думаете, где находится визуальный центр равновесия графа?

Подсказка: Иногда люди ошибочно полагают, что предковые гаплотипы — это гаплотипы в самом большом кластере. Например, в данном случае — в оранжевом метаузле. Однако это предположение работает только в том случае, если в популяции не было быстрого роста и экспансии. В противном случае может статься так, что носитель маргинального гаплотипа способен, в силу случайных и неслучайных причин вызвать эффект основателя, породив множество потомков. В таких случаях мы можем наблюдать картину характерную для данного графа. И это далеко не единственный случай

1555325_10202973979300240_689832560_n

Еще немного покопался в графе (MST) гаплотипов динарского кластера I2a1b. На полпути зум в Gephi сломался, и процесс «причесывания» начального графа пришлось заканчивать уже в Adobe Illustrator и Adobe Photoshop. Но надеюсь, что теперь-то граф представлен в удобоваримом формате:


1536644_10202976299438242_1824667689_nВ процессе подготовки материала к своей статье о динарской субкладе I2a1b, я сделал график многомерного шкалирования по вычисленной в Арлекине матрице Fst-расстояний между 42 популяционными группировками гаплотипов динарской субклады.

1656113_10203040706128369_1678657762_n

Примечательно что скорректированный коэффициент детерминации R2 в данном случае негативный (что редкость), впрочем этого можно было ожидать так как сам коэффициент детерминации R2 достаточно близок к нулю (R2=0.015), то есть данная модель — разбивка носителей по этногеографическим группам — объясняет 1.5% всей статистической вариативности всей выборки. Кроме того, p-value=1, а это означает, что мы должны принять нулевую гипотезу (отсутствие корреляции). Это близко к полученным значениям AMOVA, согласно которым на генетическое разнообразие между этническими группами приходится только 1% всего генетической разнообразия выборки. 98% приходится на разнообразие между отдельными гаплотипами. Говоря простыми словами, в выборке динариков-I2a1b отсутствует значимая кластеризация по этническому признаку.

Более надежное доказательство вышеозвученного вывода было получено при выполнения теста Мантеля, в котором определялась наличие и надежность корреляции между матрицнй географических расстояний и матрицы попарных Fst между группами популяций. Значения p-value c двухсторонним критерием (two-tailed p value) значительно больше 0.05, что означает  только одного — значимой корреляции не наблюдается, несмотря даже на приличный размер выборки — 774 гаплотипа.

Разумеется, если бы моя статья сопровождалось только схемами и результатами вычислений, то тогда это было бы статья стандартного формата популяционной генетики. Однако, как мне представляется, гораздо интереснее рассмотреть вопрос эволюции и миграции носителей «динарской клады» I2a1b в интердисциплинарном ключе. В этой связи необходимо посмотреть на эту проблему глазами историка, тем более что время экспансии  «динарцев» отлично накладывается на временной интервал экспансии славян на Балканы.

Как я уже отмечал ранее, в журнале Studia Slavica et Balcanica Petropolitana cодержится немало интересных статьей, в которых освещается современное состояние вопроса о так называемой славянизации Балкан во второй половине первого тысячелетия нашей эры.
По непонятной причине, в этом вопросе задают тон те слависты-историки, которые занимаются изучением проблем хорватского этногенеза. По этой причине в журнале представлены сразу 4 альтернативные взгляда на происхождение хорватов, которые представляют собой не столько развитие традиционных конкурирующих теорий автохтонности хорватов (Иван Лучич, Фердо Шишич, Франьо Рачки и пр.) versus миграционной модели (кульминировавшей в дискурссе иллиризма в середине 19 века), сколько новый тренд постмодернистского переосмысления многих традиционных понятий обеих теорий и исторических источников в виде идеологических конструктов и дискурссивных формантов.

  1. Алимов Д. Е. В поисках «племени»: этногенетическая модель «Венской школы» и проблема появления хорватской этничности.
    Алимов отвергает примордиалистский подход к хорватской этничности, в которой далмацкие хорваты виделись осколками первичной хорватской этничности. Термин «хорват» гентилистский, а не этнический: в Аварском каганате этот термин обозначал одну из (много) этно-социальных групп gentes разного происхождения, объединенных не родовыми связями, а принадлежностью к общей воинской группе.Может ли хорватский гентилизм служить свидетельством неславянского характера хорватской этничности или его следует понимать как закономерный социальный продукт миграции со свойственным этому процессу выдвижением на передний
    план — в том числе и в процессах групповой идентификации — воинского дружинного элемента? В свое время Х. Л овмяньский, размышляя над путями формирования так называемых «больших племен» в славянском мире, предположил, что в условиях славянских миграций и колонизации новых пространств закрепить название старого «большого племени» на новом месте, образовав новое «большое племя» со старым названием, могли только хорошо организованные воинские группы [34, Подобным же образом рассуждает и М. Анчич, полагая, что под хорватами и сербами Константина Багрянородного следует разуметь правящие слои соответствующих политий, состоявшие из знатных родов. Во время распада Аварского каганата разные группы хорватов укрылись кто в горах Карпат, кто в Судетах, кто в Восточных Альпах, кто на Динарском нагорье. Поскольку обозначение хорват обозначал лишь принадлежность к определенной социальной группе аварского каганата, то между карпатскими, силезскими, альпийскими и далматскиим славянами нет родства. То есть хорватская идентичность есть продукт трансформации соционима в этноним.
  2. Известная работа Флорина Курты «Создание Славян».
    Если выразить смысл этой работы одним предложением, то автор отрицает самое существование славян до их встречи с византийцев. Само слово славяне и понятие славянства есть продукт византийского имперского дискурса, и первоначально включал в себя не только славян в собственном смысле этого слова, но и германцев, иранцев, фракийцев и так далее.Заключительный раздел труда Ф. Курты суммирует выводы исследования. Особенно важным представляется вывод о том, что раннеславянская этничность не основывалась на языковой общности. (При этом, автор совершенно справедливо замечает, что сам этноним словене появляется гораздо позднее и лишь на периферии славянского ареала.) «Создание славян, — пишет Ф. Курта, — явилось не столько результатом этногенеза, сколько итогом инвенции, воображения и систематизации византийских авторов. … Это была… Самобытность сформированная в тени Юстиниановых крепостей… Имеются существенные основания утверждать, что эта самобытность была значительно более сложной, чем дублет «cклавены — анты» навязанный византийской историографией. … Первое отчетливое утверждение «мы — славяне» происходит из Повести временных лет XII в. Этой летописью завершается процесс создания славян…» (с. 349-350).
  3. Мягкий вариант синтеза «готской теории» и «автохтонтизма» в статьях Мужича. На основании источников, содержащих информацию о переселениях на современную хорватскую территорию, автор приходит к выводу, что именем Sclavi(ni) в принципе назывались полиэтничные переселенцы на Балканах. Суммируя результаты антропологических и генетических исследований, автор заключает, что современные хорваты по преимуществу являются потомками автохтонного населения Балкан. Автор доказывает, что хорватский народ возник как новая этническая общность на Балканах этническим соединением и социальным взаимодействием пришедших с севера воинских контингентов «гото-склавинов» и проживавших здесь различных популяций более многочисленных автохтонов.
  4. Постмодерниcтский-постколониальный этнодискурс австралийского исследователя Дэниела Дзино — книга «Becoming Slav, becoming Croat: identity transformations in post-Roman and early medieval Dalmatia» (Leiden; Boston: Brill, 2010). В книге на методологической платформе постмодернизма и конструктивистского подхода к этничности рассматриваются этносоциальные процессы, протекавшие на территории Далмации (Хорватия) в период поздней античности и раннего Средневековья.

<

p>Попробуем подвести промежуточные выводы этих моделей. Ведущие хорватские историки-слависты, а также некоторые российские «хорватоведы» рассматривают процесс генеза славян в виде некоего подобия черного ящика. Напомню: черный ящик — это система, в которой внешнему наблюдению доступны лишь входные и выходные величины, а ее внутреннее устройство и протекающие в ней процессы не известны. В этом смысле, Аварский кагант действительно хорошо подходит на роль «черного ящика». Большинство исторических сведений об Аварском каганате касается лишь его внешней политики (прежде всего, военных действий). Что касается внутреннего устройства этой кочевой империи, то оно по-прежнему остается terra incognita для историков в силу скудности, фрагментарности и противоречивости имеющихся источников о государственно-административном устройстве этого государства. Поэтому приходится либо интерпролировать имеющиеся сведения о социально-политической структуре других кочевых империй (тюрков, гуннов, монголов), либо просто фантазировать.
Согласно мнению Курты и его сторонников, процесс этногенеза славян протекал следующим образом. Где-то в середине 6 века нашей эры некие ещенеславянские сообщества людей попадают в «черный ящик» Аварского каганата. Спустя несколько поколений «инкубации» славянства из черного ящика Аварского каганата выходит некая, как говорили марксисты, «новая сообщность людей». Эта «новая сообщность», nihilnominus Sclavi («ничтожные именем склавины», как выразился один франкский летописец) внезапно (!) появляется в поле зрения византийцев, «выходя из-за тени построенных Юстинианом на Дунае крепостей» (Ф.Курта). Именно им византийцы и дают имя «славян», имя которых потомки разнесут по всей восточной Европе.

Я конечно же понимаю, что перед хорватскими историками перед самым кануном вступления Хорватии в ЕС, был поставлен политический заказ воскресить старые идеи неславянского происхождения хорватов времен младонационалистического иллирического романтизма в новом, постмодернистском исполнении. Перефразируя вышеупомянутого Д.Дзино, суть этого идеологического заказа можно выразить следующим девизом: «Перестанем быть славянами -станем европейцами!». Но зачем так ненавидеть свои корни, cвое происхождение и свои истоки — это мне непонятно.

Этот конструктивистский подход к вопросу этнической идентичности, согласно которому Аварский каганат выступил в роле катализатора этноформирующей реакции, в результате которой миру была явлена славянская идентичность, мне представляется сомнительным. Здесь уместно вспомнить этническую ситуацию в более поздних империях, например в империи Габсбургов, СССР, ту же Югославию времен Броза Тита. Пример СССР особенно поучителен, особенно если мы учтем тот факт, что СССР существовал примерно столько же лет, сколько и власть Аварского каганата на территории современной Хорватии (не больше 70-80 лет). Хорошо известно, что одной из основной задач национальной политики CCCР было создание новой общности людей — «homines sovetici» («советские люди»). Однако как показала история, в процессе крушения империи (также как и в Югославии) этноцентробежные силы не только не исчезли, но скорее даже усилились. Нет никакого основания полагать, что во времена падения Аварского каганата все могло выглядеть иначе.

При сопоставлени этих моделей мы неизбежно сталкиваемся с закономерным вопросом: а что генетика или ДНК-генеалогия могут прояснить в хитросплетениях исторических фактов?  К счастью, многие историки начинают всерьез интересоваться методами популяционной генетики и ДНК-генетика применительно к вопросам этногенеза и миграции отдельных исторических этносообществ. К несчастью, нейтральные выводы генетики зачастую искажаются или подгоняются историками под те априорные модели, которых эти историки придерживаются. Вот, в свете этой переводной статьи хорвата Ивана Мужича, становится ясно, каким образом происходят злостные манипуляции с интерпретацией данных популяционно-генетического анализа. Этот автор придерживается комбинированной модели происхождения хорват (смешивание автохтонов и готов), поэтому он интерпретирует выкладки популяционной генетики по структуре Y-хромосомного генофонда хорват исключительно в свете предпосылки антропологической и генетической приемственности населения Балкан со времен палеолита.

1743460_10203015436016632_1110433635_n
Такие манипуляции нуждаются в опровержении — и именно эту задачу я считаю главной в своем исследовании.