Еще раз о палеогеномах европейцев (к работе Haak et. al. 2015)

Еще когда появились первые анонсы препринта статьи Haak et al. 2015,  можно было сделать интуитивные предположения о том, что использованные в работе образцы палеогеномов будут всесторонне изучены не только авторами статьи, но и многочисленными любителями, причем ожидаемая степень детализации полученной картины генетического разнообразия  будет предположительно выше именно у последних (т.е всевозможных геномнных блоггеров).

Так оно и вышло. Давид Веселовский из Eurogenes провел целый ряд экспериментов с объединенным базовым набром «геномов» современных популяций и так называемых древних геномов.  В частности, в одном из своих анализов он задействовал новую программу qpAdm из последней версии пакета Admixtools,  и в ходе пробного моделирования геномов представителей ямной культуры из самарской культуры был наилучшая аппроксимация (fit, подгонка) была получена в комбинации  51.4% генома  охотников-собирателей Самары и  48.6 современных грузин (STD 0,032, chisq 3,890, р-value 2.20661e-22). Образцы палеогеномов представителей  шнуровой керамики могут быть в свою очередь смоделированы как 73% геномов ямников + 27% палеогеномов Esperstedt_MN (STD 0,060, chisq 2,621, р-value 9.74968e-06).

Это интересный результат, главным образом потому данные лингвистики позволяют предположить, что ранние индоевропейцы — по-видимому, кочевники ямной культуры или их предки — были в тесном контакте с прото-картвельскими популяциями.  Похожий результат был получен авторами статьи (у которых представители ямной культуры выступали как 50% -50% смесь геномов карельских охотников-собирателей и армян), а также в моих экспериментах, в которых геномы современных белорусов были представлены  гибридной моделью  современных геномов армян и палегеномов шведских охотников-собирателей Motala.

Впрочем, я согласен с Веселовским — главная проблема с подобными ретроспективными анализами заключается в том, что про причине отсутствия большого количества достоверных древних палеогеномов, популяционные генетики часто вынуждены моделировать древние популяции посредством комбинаций современных популяций. Как отмечает Веселовский, в генофонде современных грузин присутствует (по его оценке) 20% так называемого ANE-компонента, который, вероятно, прибыл на Кавказ из Евразийской степи. Если это так, то алгоритм qpAdm  может переоценить «кавказский» компонент в геномах ямников, по крайней мере, на 10%.

В другом своем анализе Веселовский уделил особое внимание  проблеме происхождения одного из основных компонентов в геноме древних ямников. Так например, анализ Admixture в Haak et al. 2015 включает в себя ряд интригующих компонентов с К = 16 до К = 20, которые, как правило составляют более 40% от генетической структуры потенциально прото-индо-европейских геномов ямников. Веселовский выделил компонент сигнализирующий этот тип «адмикса» и подробно изучил его. Заслуживает внимание тот факт, что компонент достигает своего пика на Кавказе и в горах Гиндукуша, и в целом показывает сильную корреляцию с регионами относительно высокой частоты связанных с палеогеномом MA1  компонентами происхождения (ANE). С другой стороны, другой компонент ямников достигает пиковых значений у  ранних европейских фермеров (EEF), у которых отсутствует компоент ANE.

Выделенные Веселовским 3 основные компоненты-составляющие геномов ямников были преобразованы в синтетические популяции (центрально-азиатская, европейская и неолитическая европейская), которые в свою очередь использовались в качестве подмножества для вычисления векторов загрузки (loadings) в PCA анализе полного набора современных популяций.

https://drive.google.com/file/d/0B9o3EYTdM8lQak82NFVYSUJfWGc/preview

Очевидно, более детальный расклад и анализ вклада различных компонентов геномов палеоевропейцев в геном современных жителей Европы можно найти в подробном анализе Сергея Козлова  «Палеоевропейцы из работы Haak et al, 2015 в свете анализа на IBD-сегменты«.

Как я уже упоминал ранее, мой опыт с «выведением» предкового аутосомного компонента индоевропейцев (обозначенного в статье Lazaridis et al. 2013 сокращением ANE) полностью удался. Поскольку всем очевидно, что этот компонент родственен «североиндийскому предковому компоненту» (ANI — обозначение из статьи Reich et al. 2009 и Moorjani et al 2011) о структуре генофонда индийских этнических групп), я взял 10 индийских этнических групп, имеющихся в кураторском наборе лаборатории Райха и проанализировал эту выборку в Admixture на пропорции вхождения их геномов в 2 априорно заданные кластеры. Первый кластер ANE был априорно задан 40 синтетическим индивидами, сгенерированными в программе Plink на основании расчитанных ранее частот аллелей «чистого» компонента ANE. В качестве дополнительного контрольного образца я использовал геном Malta1, т.к. он содержит в себе наивысшее содержание компонента ANE. Второй кластер был задан 4 индивидами Onge (одна из аборигенных народностей Андаманских островов). Как неоднократно указывалось в литературе, именно жители Андаманских островов являются самыми «чистыми» носителями т.н «южно-индийского» предкового компонента ASI (на континенте чистых носителей этого «компонента» не осталось, в том числе и среди популяций дравидов, ведда и мунда). После нескольких экспериментов по эвристическому методу проб и ошибок, я получил более или менее приемлимое разделение индивидов на 2 кластера, а затем вычислил частоты аллелей в каждом из этих кластеров. Любопытно, что в ходе опыта, удалось не только выделить компонент ANI, но и добиться неплохого уровня дискримнации между компонентом ANI, ANE, и благодаря этому, оба компонента могут быть включены в мой следующий этно-популяционный калькулятор.

Надежность компонентов я проверил на собственных данных. В рабочей модели калькулятора K14 удельное распределение этно-генографических компонентов моего генома выглядит следующим образом:

68.75% — европейский мезолитический компонент
13.12% — северо-евразийский компонент ANE
10.23% — европейский неолитический компонент
4% — ANI (северо-индийский предковый компонент)
1.6% — кавказский компонент
1.2% — алтайский компонент
0.2% — сибирский компонент

Затем я использовал 120 древних образцов аутосомной ДНК человека (начиная с верхнего палеолита до бронзового и железного веков) из последней работы и проработал их в бета-версии своего этно-популяционного калькулятора K14. Я надеялся выделить компонент ANE из ANI, но из таблицы видно, что это фактически один и тот же компонент

Когда я закончу полномерную импутацию всего набора данных от лаборатории Райха, я займусь проведением аналогичных экспериментов. А пока — примерно месяц назад я сообщил о начале первого этапа своего нового проекта. Согласно первоначальному замыслу, на первый этап — фазирование и импутация данных выборок из статей Haak et al .2015 (preprint) и Lazaridis et al. 2014 — я отводил месяц. Так оно и получилось.

В качестве затравки для импутирования я использовал набор 424329 снипов на 22 аутосомных хромосамх. Набор состоял из снипов, прошедших стандратный геномный контроль качества. Фазирование и импутация снипов я проводил с помощью пайплайна Molgenis.

По окончанию этого вычислительно-емкого процесса, мною был получен набор из примерно 5 миллионов снипов; после отсева не входящих в панели Illumina снипов у меня осталось 913841 снипов.

Ниже приведена похромосомная статистика снипов до и после импутации данных.
Как видно, на всех хромосомах (за исключением 19 и 20) количество снипов увеличилось примерно в два раза.

Для оценки качества импутации я сравнил импутированные генотипы своих данных с известными данными из своих сырых данных (снипы с иллюминовского чипсета 23andme) на предмет конкорданса (соответствия).
Оказалось, что у 6.5% импутированных генотипов оба варианта не совпадали с генотипам в rawdata от 23andme, у 17.33% — не совпадал один из двух вариантов. Таким образом, качество импутации составляет примерно 76.18%, что неплохо, учитывая что среднее значение качества импутации в программе IMPUTE v2 + SHAPEIT составляет примерно 69%.

11071088_10206257613949054_7906454924722989677_nChromosome Pre-imputation Post-imputation Percentage of imputed snps

1 36638 88155 41.56
2 40140 90003 44.60
3 33218 62030 53.55
4 23594 54462 43.32
5 19731 55284 35.69
6 27979 56485 49.53
7 22804 49172 46.38
8 23072 48756 47.32
9 19369 42438 45.64
10 25340 49666 51.02
11 23145 46434 49.84
12 16967 45668 37.15
13 14998 35626 42.10
14 15529 36429 42.63
15 14663 27844 52.66
16 15034 33806 44.47
17 7799 24949 31.26
18 11697 27709 42.21
19 7102 17715 40.09
20 12654 5054 -39.94
21 6495 2572 -39.60
22 6361 13584 46.83
424329 913841 36.74

Для проверки полезности полученного набора (объединенного набора «реальных» и импутированных снипов), я соединил его с 112 образцами человеческих палеогеномов из новой статьи Haak et al. 2015. Полученный таким образом набор я проанализировал методом выделения главных компонент, первые две из которых я впоследствии использовал для построения графика главных компонент. Как мне кажется, получилось красиво и правдоподобно.

Two first principal components

 

Через неделю работы в GoogleCloud, получил результаты второго цикла обработки (импутации и фазировки) палеогеномов. Напомню, задачей ставилось увеличение числа снипов палеогеномов до уровня, позволяющего проводить исследования с привлечением сторонних данных по современным человеческим популяциям (т.е не только по тем популяциям, которые включены в кураторский набор лаборатории Рейха, но и другим наборам, генотипированным на платформе Illumina; и что самое главное — с привлечением данных конкретных пользователей 23andme и FTDNA).

И если результатами первой части я был вполне доволен, то этого нельзя сказать о второй части. Теперь я понимаю, что ошибка содержалась в самом дизайне цикла второй части, в которой для импутации и фазирования использовались только реальные и «симуляционные» палеогеномы. В результате, хотя импутация и улучшила взаимное позиционирование палеогеномов в пространстве главных компонент генетического разнообразия, однако при слиянии импутированного в автономном режиме набора палеогеномов с набор полученным в первой части проекта, получилась картина. в которой палеогеномы образуют как бы параллельную субструктуру по отношению к современным популяциям.
Данное обстоятельство объясняется тем, что у древних геномов людей больше общего разнообразия между собой, чем с геномами современных людей (у которых в результате многочисленных генетических дрейфов и бутылочных горлышек большая часть разнообразия была потеряна). По этому причине, при независимой импутации древних геномов их сходство между собой только усилилось, а дистанция с современными популяциями увеличилась. Примечательно при этом, что пропорции вилкообразного разделения генетического разнообразия такие же, как и у современных людей.

На графике PCA эта ситуация прослеживается особенно хорошо, где отчетиливо видно наложение этих двух V-вилок друг на друга (см. нижний график)

Это означает одно — работу над проектом надо продолжить

Генетические следы экспансии тюркоязычных номадов в Евразии

В самом конце июля,  на  известном ресурсе bioRxiv наконец-то появился препринт давно ожидаемой статьи тартуских генетиков  в составе Баязита Юнусбаева, Майта Метспалу и др., предметом исследования которой является важный вопрос, — оставили ли многочисленные волны экспансии и миграций древних тюрков в структуре генофонда тюркоязычных народов? Следует отметить, что Баязит Юнусбаев и ранее занимался изучением вопроса характера, состава и происхождения генетических компонентов ряда современных тюркских популяций, однако ареал исследований и используемые методы в его предыдущих исследованиях носили ограниченный характер. Свежая работа коллектива тартуских генетиков замечательна уже тем, что в ней было уделено серьезное мнение разработке точного статистико-математического аппарата для определения статистически достоверных геномных cигналов свидетельствующих о определенном характере, направленности и экстенсивности демографических процессов в среде предков современных тюркских популяций.
Наверное, именно по этим причинам работа над подготовкой данных и текста публикации велась довольно долго, не менее 3-4 лет, при том что средний цикл проведений таких исследований на уже готовых генетических данных составляет максимум год-полтора.
Существенным отличием от других подобных работ последнего времени является и заметно явное смещение акцента исследования со ставших уже традционными  методов анализа генетических компонентов (кластеров аллельных частот, которые более или менее коррелируют с географией расселения человеческих популяций), таких как PCA, Admixture) на анализ так называемых IBD сегментов и блогов, имеющих общее генетическое происхождение.  Как недавно показал на убедительных примерах ув. Сергей Козлов, зачастую правильно распланированный и тщательно выверенный анализ IBD дает более точную, в сравнении с Admixture, генетическую картину происхождения человека. Этот метод основан на метрике IBD и принципиально отличается от Admixture. У него есть свои преимущества, часто он дает лучшую прорисовку кластеров предковых популяций, построенных на основе матрицы разделяемых общих сегментов. Есть и свои недостатки — которые объясняются консервативным характером сохранения некоторых участков. Я бы рекомендовал удалить такие сегменты из анализа — в первую очередь большой мультимаркерный гаплотип региона MHC-HLA на 6 хромосоме, а также ряд участков с высоким уровнем LD. Это значительно улучшит результатЭто наблюдение особенно применимо к относительно гомогенным, однородным популяциям северо-восточной Европы.

Возвращаясь к обсуждаемой статье,  можно сказать,  что  краеугольным рабочим методом в этой статье является  расширенный fastIBD анализ большого количества геномных образцов представителей практически всех тюркских народов. В работе присутствуют и более привычные результаты Admixture и PCA анализов структуры генофонда тюркских популяций; однако, на мой личный взгляд, они менее важны в силу тривиальности результатов и легкой повторяемости эксперимента.

Выводы авторов, вынесенные в абстракт статьи, вряд ли вызовут сомнение в своей правильности у большинства историков:

1) Большинство тюркских народов изученых в данной статье, (за исключением тюрков Центральной Азии), генетически напоминают своих географических соседей,  что хорошо согласуются с моделью языковой экспансии, в которой тюркские языки — как языки доминирующей элиты -распространялись  кочевой элитой.

 

Turkic-Speaking Nomads_small
2) 2) Западные тюркские народы в выборке Западной Евразии характеризуются эксцессом длинных хромосомных сегментов, которые идентичны по своему происхождению (IBD) с большей частью населения современной Южной Сибири и Монголии (SSM),  т.е в той области, где историки отмечают концетрацию серию ранних тюркских и не -тюркских степных политических  объединений. При всем этом, наблюдаемый избыток длинных  общих по генеалогическому происхождению IBD сегментов (> 1 сентиморгана) между популяциями из региона Южной Сибирии и Монголии и тюркских народов всей Западной Евразии была статистически значимой.
Untitled
3) Примененные в исследовании методы датировки событий генетического смешения групп популяций (метод ALDER и SPCO) показали у тюрских народов присутствие сигнала смешивания различных предковых группы в интервале между ~ 9-17-ыми векми нашей эры. Несмотря на принципиальную разницу между этими методами, они дали идентичные результаты, что придает дополнительную надежность вычисленному интервалу И этот интервал перекрывается интервалом тюркских миграций с 5-го по 16 века.

Примечание 1. Мой комментарий

Как я уже отмечал выше, несмотря на всю тривиальность результатов,  эту публикацию Юнусбаева et al. 2014 следует отнести к важным работам, поскольку впервые методы оценки времени слияния популяция — ALDER и SPCO были использованы для анализа популяций без явного намека на смешения, расширявшихся в уже историческое время. Ранее эти методы использовались либо при изучении древних доисторических процессов (например, смешивания неолитического и мезолитического населения Европы). либо с использованием классических «смешанных» популяций (мозабитов, пуэрто-риканцев, карибцев и так далее).
В этой связи, заслуживает внимание результаты ALDER для группы тюркских популяций Центральной Азиии (Table 3 в сапплементе к статье), в третьей колонке которой показана датировка событий «смешивания» в поколениях (которые пересчитаны в 4 колонке на года), и это событие приходится на интервал между 13 и 14 веками нашей эры, то есть во времена Золотой Орды :

Kazakhs Italians (North Italy) Tujia 23.72±1.61 1288±48 0.00039184±0.00002155
Kyrgyz Orcadians Japanese 22.02±1.00 1339±30 0.00035833±0.00001271
Uzbeks Italians (North Italy) Tujia 22.07±1.47 1338±44 0.00036534±0.00001432
Karakalpaks Italians (North Italy) Naxi 22.69±1.89 1319±57 0.00044112±0.00001912

Однако не все просто. Еще в ноябре 2012 года при обсуждении характерных особенностей митохондриальных гаплогрупп жителей Евразии (в статье Клио дер Саркиссян), я решил проверить, насколько эта модель гаплоидной вариативности находит свое подтверждение в анализе диплоидных аутосомных маркеров.

Для этих целей я использовал программу ALDER: Admixture-induced Linkage Disequilibrium for Evolutionary Relationships,  специально разработанную для формального обнаружения в анализируемой популяции сигнала смешивания двух и более  исходных популяций.В качестве эксперимента я выбрал две современные популяции — казахов и узбеков.

Как видно, полученные мной результаты оказались очень похожи на результаты из более поздней статьи Юнусбаева et al. 2014

Из полученных результатов были отобраны только те успешные результаты, которые прошли формальные критерии отбора (статистический значимый уровень экспонентного угасания неравновесного сцепления маркеров(LD curve is significant) и наличие двухсторонней корреляции между кривыми угасания неравновесного сцепления маркеров в обеих референсных популяциях(decay rates are consistent)).

Результаты по узбекам

DATA: success 3.7e-18 Uzbek Italian-Center Mongol 9.54 9.15 5.18 13% 22.94 +/- 2.41 0.00024041 +/- 0.00001438 23.78 +/- 2.60 0.00006319 +/- 0.00000406 26.14 +/- 5.05 0.00006772 +/- 0.00000894
DATA: success 5.8e-33 Uzbek Sicilian Kyrgyz 12.59 8.51 4.94 19% 23.50 +/- 1.87 0.00015817 +/- 0.00001067 25.77 +/- 3.03 0.00005899 +/- 0.00000443 28.44 +/- 5.76 0.00003069 +/- 0.00000506
DATA: success 6.9e-25 Uzbek Sicilian Mongol 11.03 8.51 5.18 7% 24.49 +/- 2.22 0.00024382 +/- 0.00001210 25.77 +/- 3.03 0.00005899 +/- 0.00000443 26.14 +/- 5.05 0.00006772 +/- 0.00000894
DATA: success 4e-23 Uzbek Sicilian Kalmyk 10.66 8.51 5.56 16% 24.46 +/- 2.29 0.00022326 +/- 0.00001473 25.77 +/- 3.03 0.00005899 +/- 0.00000443 28.67 +/- 5.16 0.00006591 +/- 0.00000891
DATA: success 0.00077 Uzbek Sicilian Nogai 5.12 8.51 2.26 10% 23.79 +/- 4.56 0.00001986 +/- 0.00000388 25.77 +/- 3.03 0.00005899 +/- 0.00000443 23.24 +/- 10.27 0.00001138 +/- 0.00000317
DATA: success 9.8e-21 Uzbek Sardinian Kyrgyz 10.14 9.82 4.94 17% 23.96 +/- 2.36 0.00016455 +/- 0.00001038 27.67 +/- 2.82 0.00007013 +/- 0.00000589 28.44 +/- 5.76 0.00003069 +/- 0.00000506
DATA: success 2e-20 Uzbek Sardinian Mongol 10.07 9.82 5.18 10% 25.15 +/- 2.50 0.00025559 +/- 0.00001310 27.67 +/- 2.82 0.00007013 +/- 0.00000589 26.14 +/- 5.05 0.00006772 +/- 0.00000894
DATA: success 6e-13 Uzbek Sardinian Kalmyk 8.20 9.82 5.56 19% 23.64 +/- 2.88 0.00022058 +/- 0.00001440 27.67 +/- 2.82 0.00007013 +/- 0.00000589 28.67 +/- 5.16 0.00006591 +/- 0.00000891
DATA: success 0.00011 Uzbek Sardinian Nogai 5.48 9.82 2.26 17% 24.99 +/- 4.56 0.00002279 +/- 0.00000367 27.67 +/- 2.82 0.00007013 +/- 0.00000589 23.24 +/- 10.27 0.00001138 +/- 0.00000317
DATA: success 1.5e-28 Uzbek German Kyrgyz 11.77 9.19 4.94 25% 22.14 +/- 1.88 0.00012893 +/- 0.00000925 24.85 +/- 2.70 0.00004544 +/- 0.00000443 28.44 +/- 5.76 0.00003069 +/- 0.00000506
DATA: success 6.9e-21 Uzbek German Mongol 10.17 9.19 5.18 7% 24.40 +/- 2.40 0.00021733 +/- 0.00001182 24.85 +/- 2.70 0.00004544 +/- 0.00000443 26.14 +/- 5.05 0.00006772 +/- 0.00000894
DATA: success 2.8e-16 Uzbek German Kalmyk 9.08 9.19 5.56 22% 23.04 +/- 2.54 0.00018456 +/- 0.00001210 24.85 +/- 2.70 0.00004544 +/- 0.00000443 28.67 +/- 5.16 0.00006591 +/- 0.00000891

Результаты казахов:

DATA: success 4.7e-17 Kazakh Italian-Center Kalmyk 9.27 7.06 2.63 17% 22.06 +/- 2.38 0.00022347 +/- 0.00001893 25.42 +/- 3.60 0.00012981 +/- 0.00001327 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 3.5e-18 Kazakh German Kalmyk 9.54 6.39 2.63 18% 21.71 +/- 2.27 0.00021450 +/- 0.00001602 23.54 +/- 3.68 0.00012169 +/- 0.00001026 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 2.6e-23 Kazakh Russian_Center Kalmyk 10.70 6.64 2.63 17% 22.19 +/- 2.07 0.00023388 +/- 0.00001645 21.86 +/- 3.29 0.00012520 +/- 0.00001320 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 2.1e-22 Kazakh Russian_South Kalmyk 10.50 7.12 2.63 25% 20.31 +/- 1.93 0.00021745 +/- 0.00001580 20.82 +/- 2.93 0.00012386 +/- 0.00001116 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 0.019 Kazakh Slovakian Mari 4.48 8.09 3.45 17% 17.26 +/- 3.86 0.00002773 +/- 0.00000574 19.08 +/- 2.36 0.00011870 +/- 0.00001088 16.06 +/- 4.65 0.00003481 +/- 0.00000667
DATA: success 1.6e-29 Kazakh Ukrainian Kalmyk 11.95 6.93 2.63 23% 20.58 +/- 1.41 0.00021665 +/- 0.00001813 20.75 +/- 3.00 0.00011940 +/- 0.00001005 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 1.5e-14 Kazakh Ukrainian-East Kalmyk 8.63 5.90 2.63 23% 20.58 +/- 2.38 0.00022215 +/- 0.00001803 21.97 +/- 3.72 0.00012517 +/- 0.00001419 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 0.0014 Kazakh CEU_V Nogai 5.02 5.49 3.30 17% 20.84 +/- 4.16 0.00001984 +/- 0.00000315 19.20 +/- 3.50 0.00012065 +/- 0.00001375 17.52 +/- 5.31 0.00004319 +/- 0.00000772
DATA: success 0.00025 Kazakh British Mari 5.33 6.99 3.45 24% 20.42 +/- 3.83 0.00003281 +/- 0.00000478 19.18 +/- 2.74 0.00012196 +/- 0.00001159 16.06 +/- 4.65 0.00003481 +/- 0.00000667
DATA: success 0.0064 Kazakh British Nogai 4.71 6.99 3.30 18% 21.09 +/- 4.48 0.00002087 +/- 0.00000321 19.18 +/- 2.74 0.00012196 +/- 0.00001159 17.52 +/- 5.31 0.00004319 +/- 0.00000772
DATA: success 5.8e-22 Kazakh Orcadian Kalmyk 10.41 6.62 2.63 23% 20.59 +/- 1.98 0.00023474 +/- 0.00001737 21.83 +/- 3.30 0.00013779 +/- 0.00001201 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 0.004 Kazakh Bulgarian Nogai 4.80 6.98 3.30 21% 21.66 +/- 4.51 0.00001853 +/- 0.00000339 21.33 +/- 3.06 0.00012336 +/- 0.00001168 17.52 +/- 5.31 0.00004319 +/- 0.00000772
DATA: success 3.1e-19 Kazakh Karelian Kalmyk 9.79 5.77 2.63 21% 21.05 +/- 2.15 0.00019192 +/- 0.00001302 21.12 +/- 3.66 0.00009774 +/- 0.00001073 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 0.011 Kazakh Mari Bosnian 4.60 3.45 6.44 16% 17.56 +/- 3.82 0.00003003 +/- 0.00000554 16.06 +/- 4.65 0.00003481 +/- 0.00000667 18.79 +/- 2.92 0.00012259 +/- 0.00001136
DATA: success 0.0057 Kazakh Mari Greek_Azov 4.73 3.45 9.00 21% 16.97 +/- 3.59 0.00002322 +/- 0.00000431 16.06 +/- 4.65 0.00003481 +/- 0.00000667 19.87 +/- 2.21 0.00010948 +/- 0.00000811
DATA: success 5.2e-33 Kazakh Chuvash Kalmyk 12.60 5.88 2.63 14% 24.10 +/- 1.91 0.00014440 +/- 0.00000896 22.75 +/- 3.87 0.00005482 +/- 0.00000595 26.05 +/- 8.19 0.00002219 +/- 0.00000844

Результаты говорят сами за себя.  Как и в большинстве случаев с центральноазиатскими популяциями, один из компонентов адмикса у узбекв и казахов представлен монголоидным популяциями, наиболее близкими к современным монголам, киргизам и калмыкам. В контексте обсуждаемой работы о древнем митоДНК, этот компонент можно обозначать как «восточноевразийский». Другой компонент у узбеков представлен популяциями близкими по частотам аллелей к  современным западноевропейским популяциям (таким как немцы, cардинцы, сицилийцы и прочие). Кроме того в результатах анализа угасания admixture-LD казахов присутствует хорошо заметный сигнал адмикса с предками современных чувашей, марийцев и карел. Этот феномен, опять-таки в контексте парадигмы исследования древнего ДНК, можно объяснить с помощью грубой аппроксимации: как было убедительно показано в работе Дерсаркиссян, митоДНК древние скифы из ареала современной Кубани и нижнего Поволжья напоминают ряд современных поволжских популяций, а также карелов. Это же касается и сигнала о смешивании с предками более отдаленных европейских популяций (британцев, скандинавов и так далее). В свете аутосомного анализа вынужден согласится с одним из ключевых выводов Дерсаркиссян, согласно которому западноевропейские аллели были привнесены в степени Казахстана и Алтай при посредничестве популяций скифов и сарматов.

Стоит еще отметить, что у узбеков в отличие от казахов поток европейских аллелей имеет несколько иной источник, и скорее всего связан с распространением в Центральной Азии носителей «неолитических средиземнорских аллелей».

Подводя итоги, необходимо сказачть, что определенные трудности представляет интерпретация датировки европейского адмикса у казахов и узбеков. Поскольку этот адмикс датируется примерно одинаковым интервалом 30-25 поколений до нашего времени, что примерно соответсвует периоду завоевательных походов монголов. Однако, представляется трудно допустимым, что европеидное население казахской степи могло сохранится в значительном количестве вплоть до эпохи монголов, или что земледельческое население Средней Азии — сарты — было в генетическом плане европеоидно. Лично я склоняюсь к следущей интерпретации:  смешивание европейского и восточноазиатского компонента произошло намного ранее монгольской эпохи, заниженная дата этого события есть прямое следствие последущего эфекта дрейфа генов и фиксации части аллелей.

Примечание 2. Комментарий профессионального историка

Хорошая работа. Но это — еще самое начало пути. Пока идет процесс верификации используемых методов. Очень важно, что результаты в целом совпали с тем, что говорят исторические источники. Для генетиков это хорошо, но для историков — тривиально. Действительный интерес появится, когда станет возможно давать такие ответы, которые историки своими методами добыть не могут. А этого пока нет.
Я на заре своей научной карьеры аналогичные выводы получил, используя всего один интегрированный фенотипический признак — индекс уплощенности лицевого скелета. По трудозатратам это было несопоставимо. Да, теперь эти выводы обоснованы гораздо надежнее. Но хочется гораздо большего.

Этногеномика беларусов — часть V

Обсуждение результатов и выводы

 

Как отмечалось в введении к нашей статье, главной задачей нашего исследования являлась проверка двух рабочих гипотез, озвученных в предыдущих исследованиях профессиональных попгенетиков. Во-первых, это гипотеза о присутствии трех основных древних компонентов , которая указывает на возможность общего происхождения славян и балтов. Во-вторых, это утверждение о том, что своеобразие аутосомного генофонда беларусов может быть связанно с вкладом балтского субстрата.

После внимательного изучения результатов нашего исследования,можно сказать, что оба из приведенных выше заключений представляют собой крайне упрощеные варианты сложного процесса формирования аутосомного генофонда беларусов. Хотя мы и не можем предоставить окончательных аргументов в пользу или опровержение каждой из этих версий, мы может предоставить более полное и подробное обозрение структуры аутосомного генофонда. В отличие от трех основых компонентов, упомянутых выше, в нашем исследовании мы выделили шесть основных компонентов, типичных для европейцев в целом. Основу генофонда составляет компонент, который мы обозначили как северо-восточно-европейский компонент. Именно этот компонент выделяет беларусов среди других восточных славян, приближая их к современным балтийским популяциям (у литовцев процент компонента составляет 81,9, у латышей — 79,5%, у беларусов -76,4%, у эстонцев — 75,2%). Примечательно, по мере удаления от территории Беларуси на север в с торону Латвии и Эстонии, увеличивается процент северо-европейского генетического компонента (как мы полагаем, этот компонент доминировал в генофонде доисторических жителей Скандинавии в эпоху до распространения финно-угоров и индо-европейцев). С другой стороны, беларусов и других восточных славян отдаляет от балтов и сближает друг к другу более высокий процент так называемого западно-азиатского или кавказского компонента (любопытно, что в этом случае эта закономерность может свидетельствовать в пользу западно-азиатской теории происхождения индо-европейцев).

Далее, как показывает анализ в программе fineStructure, генофонд беларусов характеризируется высокой степенью генетических контактов как с балтами, так и остальными славянами, а также с рядом финно-угорских популяций (например, c эрзя и мокша). О симметричном характере межпопуляционного обмена свидетельствует симметричное расположение популяции беларусов относительно этих трех групп.

Исходяизвышенаписанного,представляетсялогичнымсделатьвыводотом,чтоосновнойкритическийэтапстановленияаутосомногогенофондапришелсянапериодсмешиванияносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,послечегопредковыйаутосомныйгенофондбеларусовприобрелотносительнуюстабильность.Разумеется,даннаямодельнеисключаетпозднейшиеэпизодысмешиванияпопуляций,ноониоставилименьшийследвструктуреаутосомногогенофондабеларусов.Вэтойсвязивозникаеточевидныйвопрос–вкакойименноисторическийпериодпроизошлосмешениеносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,иктобылиихносителями?
В начале сентября 2012 года известная американская лаборатория популяционной генетики доктора Райха опубликовала альфа-версию программного продуктаADMIXTOOOLS1.0. Альфа-версия была разработана для внутреннего использования, поэтому modusoperandiэтого продукта вряд ли является кристально понятным для стороннего пользователя. Положительным аспектом на мой взгляд является то, что ADMIXTOOLSпакет обеспечивает полную совместимость с форматом другой очень популярной программыEIGENSOFT, которая была разработана в той же лаборатории. Это немаловажное обстоятельство намного упрощает процесс обучения в ADMIXTOOLS.

Вышеупомянутый пакет включает в себя 6 приложений, среди которых я считаю наиболее полезнойqp3Popи утилиты для вычисления частотной характеристики аллелей. Впрочем, я не собираюсь обсуждатьqp3popво всех деталях и в контексте данной заметки достаточно отметить, что эта программа реализует тест three_pop(F_3), подробно описанный в известной статье Рейха и соавт. 2009.

Однако другой имплементированный в пакете метод, – метод rolloff– нуждается в более пристальном внимании. Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатураLD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории, чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения LDв адмиксе напрямую связана с числом поколений, прошедших с момента адмикса, так как cвозрастанием числа поколений увлечивается число рекомбинаций произошедших между двумя отдельными SNP-ами. Проще говоря: Rolloffсоответствует экспоненциальной кривой угасания уровня LDот расстояния, и эта скорость экспоненциального снижения как раз и используется для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.

Этот метод открывает интересные перспективы. Для целей этого анализа, я создал специальный набор SNP-данных, который включает в себя около 750 000 cнипов, частично или полностью в 250 различных популяциях человека. Далее, я разбил популяции 3 * 62 000 трио в следующем виде (X, Y, Z), где X и Y – пара рефренсных групп, а Z – белорусы из коллекцииBehar et al.2010. После этого я провел q3Pop анализ этих трио.

Результаты изложены в нижеприведенной таблице

Indian Polish Belarusian -0.000736 0.000251 -2.935
Polish Indian Belarusian -0.000736 0.000251 -2.935
Karitiana Sardinian Belarusian -0.001278 0.000517 -2.471
Sardinian Karitiana Belarusian -0.001278 0.000517 -2.471
Otzi North_Amerind Belarusian -0.002556 0.001126 -2.271
Cirkassian Polish Belarusian -0.000488 0.000231 -2.113
Polish Cirkassian Belarusian -0.000488 0.000231 -2.113
Pima Otzi Belarusian -0.002727 0.00137 -1.99
Pima Sardinian Belarusian -0.000794 0.000431 -1.843
Sardinian Pima Belarusian -0.000794 0.000431 -1.843
Otzi Surui Belarusian -0.002938 0.001931 -1.522
Surui Otzi Belarusian -0.002938 0.001931 -1.522

 

На первый взгляд, результаты нашего эксперимента с 3qPop, кажется, неплохо согласуются с выводами, содержащимися в работеПаттерсон и др. 2012: “Самый поразительный вывод состоит в обнаружени четкого сигнала адмикса в северной Европе, один из элементов которого связан с предками населения наиболее близкого по своей генетике к баскам и жителям Сардинии, а другой – с предками современного населения северо-восточной Азии и Америки. Этот явный сигнал, вероятно, отражает историю смешивания неолитических мигрантов с коренным населением Европы, что подтверждается недавним генетическим анализом древних костей Швеция и секвенированием полного генома Отци Тирольца”. Что касается собственно белорусов, то источники сигнала смешивания с посторонними популяцими менее ясны и расплывчаты. Как было показано ранее, с точки зрения формального анализа примесей (f3 статистики), белорусы могут быть представлены в виде популяционного микса поляков и индусов / черкессов. Первый компонент смеси может быть связан с носителями культуры шнуровой керамики/боевых топоров и культуры колоковидных кубков; второй, в соответствии с результатами, должен быть общим для индусов и черкесов.

 

Белорусы = ((неолитические культуры Европы) + “носители культуры колоковидных кубков”) + (мезолитическое население Европы) + компонент носителей культуры шнуровой керамики)) + скифо-сарматский тип

 

Для оценки дата события базового адмикса в белорусской популяции, мы использовали в качестве референсных популяций поляков и индусов (Примечание: мы снизили порог генетических дистанции в параметрах Rolloff для снижения уровня шума от более поздних адмиксов).

 

rolloff

Как вы можете видеть, сигнал присутствия адмикса обнаруживается гораздо хуже, и в силу этого, погрешности в оценке временного промежутка высоки:

154,158 + -87,024 поколений назад (или, 4470 + -2523 года до настоящего времени / 2510 – +2523 лет до н.э.).

 

Исходя из этого, мы решили модифицировать Rolloff-анализ генофонда белорусов, используя на этот раз в качестве референсов литовцев и пуштунов. Следуя этому совету, я решил предпринять вторую попытку формального анализа адмикса в двух имеющихся у нас выборках беларусов ( выборка беларусов из статьи Behar et al. 2011), и выборка беларусов, собранная в нашем проекте.Ниже приведены результаты эксперимента с двумя этими группам (в отличие результатов нашей предыдущей попытки, результаты данного эксперимента менее “зашумленные”):

rolloff2

 

Интервал числа поколений, прошедших со времен анализируемого адмикса (105.086+-52.59) или 3069 +- 1525 лет до настоящего времени, что соответствует временном интервалу 2 тыс. до нашей эры – 6 век нашей эры. Принимая во внимание эти выводы, мы можем предположить, что основной аутосомный эпизод смешивания предковых популяций беларусов произошел в течении довольно таки продолжительного времени, охватывающего несколько тысяч лет. В этой связи, вопрос о том, кто именно был носителями северо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента, остается открытым.

ALDer: анализ генеографии дагестанских народов в эволюционной перспективе

В свете наших споров с уважаемой Казимой Булаевой  (один из ведущих российских генетиков), я решил продемонстрировать робастность метода ALDer, предложенного в статье Loh et al.2012 в анализе демографически сложных популяций Дагестана.

В моей коллекции есть SNP-данные лакцев, ногайцев, кумыков, лезгинов, табасаранцев и аваров, однако две последние группы пришлось исключить из теста в силу строгих требований алгоритма ALDer к минимальному количеству сэмплов в каждой из представленных популяций.

Программа ALDer использовалась в двух режимах.

Первый режим — 1-reference weighted LD curve, второй режим — 3+ reference weighted LD curve. Термины нуждаются в грамотном переводе в русскоязычную терминологию, так что пока я оставил их в том виде, в каком они есть.

В режиме 3+ references для вычисления значения корреляции использовались следущие популяции:

ItalianCenter;Sicilian;Sardinian;German;Lithuanian_V;Lithuanian;Latvian;Belarusian;Swedish;Polish_V;Russian_V;Russian_Center;Latvian_V;Inkeri;Russian_South;Ukrainian_V;Slovakian;Czech;Sorb;Estonian;Ukrainian;Belarusian_V;UkrainianEast;UkrainianWest;Mordovian;CEU;CEU_V;British;French;Orcadian;GermanSouth;GermanNorth;German_V;Bulgarian;FinnishNorth;Cirkassian;Russian_cossack;Saami;Udmurd;Komi;Karelian;Vepsa;Mari;Bashkir;Nenets;Hant;Chuvash;Mansi;FinnishSouth;Polish;Gagauz;Moldavian;Romania;Bosnian;Adygei;Croatian;Serbian;Slovenian;Montenegrin;Macedonian;Kosovar;Austrian;Greek_Azov;Greek_Center;Greek_North;Greek_South;Tatar_Crim;Azeri;Tadjik;Kyrgyz;Kazakh;Georgian;Georgian_Imereti;Georgian_Laz;NorthOssetian;Armenian;Kumyk;Chechen;Turk;Turkmen;Uzbek;Mongol;Karakalpak;Lak;Balkarian;Lezgin;Abhkasian;Kalmyk;Syrian;Kurd;Tabassaran;Hakas;Altaic;Tatar_Kryashen;Tartar_Mishar;Parsi;Avar;Nogai;Italian-North;Hungarian

I.

Итак, начну с результатов ногайцев в тесте «3+ reference populations».
Результаты свидетельствуют о наличии синхронного адмикса у предков современных дагестанских ногайцев, имевшего место быть в интервалме между 17.20 +/- 3.32 и 12.49 +/- 2.55 поколениями до настоящего времени.

DATA: success 0.00052 Nogai Sorb Uzbek 5.17 2.15 2.63 15% 17.20 +/- 3.32 0.00006274 +/- 0.00000886 19.29 +/- 8.98 0.00002377 +/- 0.00000606 20.01 +/- 7.60 0.00001471 +/- 0.00000378
DATA: success 0.0022 Nogai Ukrainian-West Karakalpak 4.89 3.08 4.01 17% 12.49 +/- 2.55 0.00006670 +/- 0.00000793 14.31 +/- 3.68 0.00000975 +/- 0.00000316 14.85 +/- 3.70 0.00003094 +/- 0.00000499

Адмикс был двухкомпонентный — преобладающий центральноазиатский, и восточноевропейский. Внизу приведены данные по нижнему значению величины адмикса

Сорбы Mixture fraction % lower bound (assuming admixture): 44.9 +/- 7.2
Каракалпаки Mixture fraction % lower bound (assuming admixture): 55.8 +/- 4.4

Узбеки Mixture fraction % lower bound (assuming admixture): 72.1 +/- 16.1
Западные украинцы Mixture fraction % lower bound (assuming admixture): 52.0 +/- 11.7

II.

Cледущий пример — кумыки.Из всех возможных 2-референсных комбинаций кривых взвешенной LD статистически значимой оказалась только одна комбинация:
DATA: success 3.3e-06 Kumyk Italian-Center Hakas 6.07 2.71 5.82
23% 18.15 +/- 2.99 0.00004734 +/- 0.00000710 15.15 +/- 4.49 0.000004
61 +/- 0.00000170 19.14 +/- 3.29 0.00003496 +/- 0.00000519

Это весьма примечательный результат. Как видно из результатов, кривые угасания LD (cцепления по неравновесию) обеих популяций имеют положительную корреляцию между собой. Время двухстороннего адмикса — 18.15 +/- 2.99, то есть интервал между серединой 14 века и cерединой 16 века.

Примечательно, что величина нижнего порога «cредиземноморского» (Italian-Сenter) компонента адмикса выше чем аналогичная величина «тюркского» (Hakas) компонент адмикса у кумыков (см.ниже):

«итальянцы» -Mixture fraction % lower bound (assuming admixture): 47.9 +/- 8.3

хакасы — mixture fraction % lower bound (assuming admixture): 12.9 +/- 1.4

Можно поспекулировать по поводу исторических интерпретаций данных результатов. Если мы вслед за некоторыми генетиками будем рассматривать хакасов как наиболее близкую к древним тюркам популяцию, то можно предположить общее происхождение тюркского «компонента» кумыков с кыпчаками, либо (что менее вероятно) хазарами. Здесь много свободного места для спекуляций.

«Итальянская» часть адмиксf вызывает больше вопросов, чем ответов. Освежив свои неглубокие познания в истории дагестанского региона, смог вспомнить лишь смутные упоминания о присутствии итальянцев в Дагестане в 14-15 веках. «Согласно Фануччи*, генуэзцы выстроили и заселили поселение Кубачи в Дагестане …»; (Исторические записки. Том 3.,1938 г., Зевакин Е. С. и Пенчко Н. А. «Очерки по истории генуэзских колоний на Западном Кавказе в XIII—XV вв.» (72-129)).
Сами кубачинцы именуют свой аул грозным именем Угбуг, что означает «убийцы, губители». Но, впрочем, имеется в виду не свирепость кубачинцев, а непобедимое кубачинское оружие. В Кубачи живут мастера, которым нет равных. Они исполняют любые тонкие работы с металлом, но их призванием, прежде всего, всегда было оружие и доспехи; но это не просто ремесло, а сакральное искусство, философия, если угодно — магия. Слава кубачинского оружия — распространилась на весь мир.

С VI века в арабских источниках упоминается название Зирихгеран. Это название на фарси означает «страна тех, кто делает доспехи», по-русски получается нечто вроде «бронники» или «кольчужники». Около 1467 года впервые упоминается имя Кубачи (или Гюбечи), слово это тюркское, означает «бронники, изготовители доспехов».

Все три имени аула и живущего в нем народа означают одно — ремесло. И в этом странность: получается, что кубачинцы — народ без древнего, исконного наименования.

Но есть еще одно имя, четвертое. Соседи (лакцы, кайтаги и лезгины) кубачинцев называют странно — пранг-капур, то есть франки. Более того, сами угбуги-кубачи считают, что их род из Франции.

Первым о потомках европейцев на Кавказе сообщил полковник Иоганн Густав Гербер (умер в 1734 году), — он побывал в тех краях в 1727 году. Спустя полвека академик Иоганн Антон Гильденштедт (1745–1781) в описании своего путешествия по Кавказу сообщил, что в Кобачи живут потомки генуэзцев. Они бежали в горы от войск Чингисхана в 1220–1230-х годах, долго оставались христианами, потерпели гонения, скрывались и только после долгих преследований приняли ислам.

Не попал ли «итальянский» адмикс к кумыкам от кубачинцев?

III.

Наконец, лезгины. Точно также как и в случае с лакцами, поражает отсутствие статистически значимой двух-референсной корреляции кривой экспонентного угасания LD (неравновесного сцепления).

Согласно результатам предварительного теста, только две популяции — башкиры и казахи — имеют однорефренсную взвешенную LD-кривую с лезгинами

Pre-test: Does Lezgin have a 1-ref weighted LD curve with…… Bashkir: YES (z = 1.99) Kazakh: YES (z = 2.12)

Датировка казахского и башкирского адмиксов в популяции лезгинов также представляется мне логичной 8+-4 поколений [башкиры] и 9+-3 поколений тому назад [казахи]:

DATA: failure (warning: decay rates inconsistent) 2.6e+03 Lezgin Bashkir Kazakh 0.00 1.99 2.12 194% 500.00 +/- inf -341600.24428451 +/- inf 7.89 +/- 3.96 0.00000246 +/- 0.00000113 9.02 +/- 3.24 0.00000325 +/- 0.00000154

Поскольку decay rates (скорости угасания) казахского и башкирского адмикса не коррелируют между собой, то их источник был разный.Поскольку оба адмикса недавние — в пределах 100-300 лет назад — то как и ожидалось, %-доля этих адмиксов в генофонде лезгинов невелика.

[башкиры] Mixture fraction % lower bound (assuming admixture): 2.7 +/- 1.1
[казахи] Mixture fraction % lower bound (assuming admixture): 3.6 +/- 1.5

Вывод — смешение башкиров/казахов с лезгинами носило случайный и несистематический характер.

 

Популяции Нового Света: f_3 статистика и датировка событий креолизации/метисизации

Итак, теперь можно попытаться проанализировать результаты предыдущего опыта по изучению генетической структуры ряда американских популяций. MDS-анализ показал, что популяции выстраиваются вдоль одного из двух ребер умозрительного треугольника, вершиной которого является популяцию белых американцев из США (штат Юта). Одно из ребер является проекцией градации присутствия в генофонде чистого аборигенного америндского компонента – самыми близкими к белым американцам оказываются метисизированные группы алеутов и индейцев с северо-западного побережья США (индейцы Кольвилль и так далее),  и самой удаленной группой является популяция индейцев Surui из Бразилии. Второе ребро условного треугольника довольно только отражает градацию чистого африканского компонента.  Наиболее близкими к CEU здесь оказываются пуэрто-риканцы и жители островов Карибского моря, однако значительная часть этой группы оказывается смещенной в сторону от основного вектора за счет присутствия в генофонде следов нативного индейского населения Пуэрто-Рико.  Примечательно также расположение на плоте популяции The Lumbee Tribe. В первом цензе США 1790 года Lumbee записывались в разряд лично-свободных цветных людей. Однако уже в середине 19 века Lumbee упорно опровергали утверждения ряда ученых о происхождении Lumbee от беглых черных рабов: современные потомки этой небольшой группы продолжают считать себя потомками от смешанных браков индейцев Северной Каролины с  потомками «потерянных» белых колонистов Каролины начала 18 века.

Однако мой эксперимент разоблачает этот миф. Представители этой группы оказываются рядом с пуэрто-риканцами, благодаря чему можно сделать два убедительных предположения: a) Lumbee возникли в результате сложно процесса смешения всех трех рас  и b) соотношение генетических компонент трех рас в геноме Lumbee приблизительно равно аналогичному соотношению в геноме пуэрто-риканцев. Этот феномен объясняет почему многие из пуэрто-риканцев и афро-американцев, которые пользуются моим геномным калькуляторам для предсказания своего этнического происхождения,  нередко находят в своих результатах совпадение с геномом представителей племени Lumbee.

f3-статистика адмикса

Поскольку  в отличие от моих предыдущих экспериментов с европейскими популяциями данная выборка содержат априорно известные популяции метисов и мулатов, то в целях сопоставления результатов я решил применить новейшие методы анализа геномного адмикса – f3статистику и алгоритм ROLLOFF — для изучения демографической истории популяций Нового Света. В качестве примера я использовал геномные данные пуэрто-риканцев, в анализе использована метрика f3-статистики в версии программы Admixtools. Для иллюстрации достоверности сигнала я выбрал только те пары референсных популяций, чья интерполяция в геном таргетной популяции пуэрто-риканцев дают наибольшее отрицательное значение

parameter file: /storage/hpchome/vadim78/admixtools/examples/test.par

### THE INPUT PARAMETERS

##PARAMETER NAME: VALUE

genotypename: /storage/hpchome/vadim78/admixtools/bin/American.geno

snpname: /storage/hpchome/vadim78/admixtools/bin/American.snps

indivname: /storage/hpchome/vadim78/admixtools/bin/American.ind

popfilename: /storage/hpchome/vadim78/admixtools/examples/amer_qp3test

## qp3Pop version: 204

nplist: 528

number of blocks for block jackknife: 662

snps: 618523

Source1 Source2 Target f_3 std.err Z SNPs
Afro-American Kumiai PuertoRican -0.016575 0.000547 -30.303

601008

Afro-American Tsimsian PuertoRican -0.016280 0.000525 -31.011

601177

Afro-American Huichol PuertoRican -0.015848 0.000498 -31.799

601268

Afro-American Pima PuertoRican -0.014528 0.000455 -31.952

602781

Afro-American Navajo PuertoRican -0.013458 0.000409 -32.877

602871

Afro-American Mixtec PuertoRican -0.015951 0.000431 -36.975

602204

CEU Afro-American PuertoRican -0.017152 0.000232 -73.777

608991

Если сравнивать с результатами ADLER-тестов европейских популяций, то сразу обращает на себя внимание высокие значения Z-score, особенно в сравнении со старыми европейскими популяциями. Разница в амплитуде значений составляет примерно 10-15 раз.  Говоря простым языком, генетический сигнал смешения исходных популяций у пуэрто-риканцев намного сильнее, что свидетельствует о недавном адмиксе.

Интервал активной фазы смешения предковых популяций.

На следующем этапе нашего эксперимента, мы использовали программу ADLER и генетические дистанции снипов, полученные путем интерполяции известных значений генетических дистанций (сантиморганид) и физических дистанции снипов. Конечной целью этого этапа – дать оценку хронологического интервала событий адмикса. Для большего разнообразия я выбрал  латиноамериканских жителей Карибского бассейна.   Из нижеприведенных результатов следует, что у популяции латиноамериканских жителей присутствует сигнал адмикса как с североамериканскими, так и с центрально-американскими индейцами. Временной интервал адмикса в упрощенном виде составляет примерно 17-10 поколений тому назад  т.е примерно в интервале между 1490-1660 годами.

        |

|      ALDER,   v1.0

\..|./

\ \  /       Admixture

\ |/ /      Linkage

\| /       Disequilibrium for

|/        Evolutionary

|         Relationships

|

 

+—————————————————————————+

|  ALDER computes weighted LD decay curves, performs curve-fitting to      |

|  infer admixture dates, and uses the results to test for admixture.      |

|  For full details about options and parameters, please see the README    |

|  file included with this software.                                       |

+—————————————————————————+

 

warning: ignoring ‘jackknife’ parameter, which only applies to raw output

———- contents of parameter file: alder.par ———-

genotypename: /storage/hpchome/vadim78/admixtools/bin/American.geno

snpname: /storage/hpchome/vadim78/admixtools/bin/American.snps

indivname: /storage/hpchome/vadim78/admixtools/bin/American.ind

num_threads: 10

jackknife: YES

output: Caribbean

seed: 24

admixpop: Caribbean_Hispanic

refpops: Mexican;Colombian;Dominican;Ecuadorian;PuertoRican;Bolivian;Totonac;Aleut;Athabask;Navajo;Apache;Mixtec;Huichol;Cochimi;Cucupa;Kumiai;Luiseno;Costanoan;Lumbee;Tlingit;Haida;Eskimo;Miwok;Serrano;Colville;Inuit-West;Inuit-East;Tsimsian;Pima;Maya;Karitiana;Surui;Caribbean_Hispanic;Afro-American;CEU

———- parameter settings used (with defaults for unspecified) ———-

 

Input data files:

genotypename: /storage/hpchome/vadim78/admixtools/bin/American.geno

snpname: /storage/hpchome/vadim78/admixtools/bin/American.snps

indivname: /storage/hpchome/vadim78/admixtools/bin/American.ind

 

Admixed population:

admixpop: Caribbean_Hispanic

 

Reference populations/weights:

refpops: Mexican;Colombian;Dominican;Ecuadorian;PuertoRican;Bolivian;Totonac;Aleut;Athabask;Navajo;Apache;Mixtec;Huichol;Cochimi;Cucupa;Kumiai;Luiseno;Costanoan;Lumbee;Tlingit;Haida;Eskimo;Miwok;Serrano;Colville;Inuit-West;Inuit-East;Tsimsian;Pima;Maya;Karitiana;Surui;Caribbean_Hispanic;Afro-American;CEU

 

Raw weighted LD curve output:

raw_outname: (none)

 

Data filtering:

mincount: 4

 

Curve fitting:

binsize: 0.000500

mindis: -1.000000

maxdis: 0.500000

 

Поскольку нет смысла приводить весь лог эксперимента, я ограничусь лишь теми результатами, которые дали положительные результаты по обоим тестам

 

*** Admixture test summary ***

 

Weighted LD curves are fit starting at 1.2 cM

 

Does Caribbean_Hispanic have a 2-ref weighted LD curve with Mixtec and Tlingit?

2-ref decay z-score:    5.11

2-ref amp_exp z-score:  4.68

YES: curve is significant

 

Do 2-ref and 1-ref curves have consistent decay rates?

1-ref Mixtec — 2-ref z-score:                       0.02   (  0%)

1-ref Tlingit — 2-ref z-score:                      1.11   ( 21%)

1-ref Tlingit — 1-ref Mixtec z-score:               1.76   ( 21%)

YES: decay rates are consistent

 

Test SUCCEEDS (z=4.68, p=0.00054) for Caribbean_Hispanic with {Mixtec, Tlingit} weights

note: p-value is multiplied by 190 for multiple-hypothesis correction

 

DATA:  success 0.00054            Caribbean_Hispanic   Mixtec Tlingit  4.68      5.26      5.97      21%     12.14 +/- 2.37            0.00002098 +/- 0.00000448       12.18 +/- 2.32   0.00015501 +/- 0.00001668       15.03 +/- 1.95   0.00009072 +/- 0.00001520

*** Admixture test summary ***

 

Weighted LD curves are fit starting at 0.9 cM

 

Does Caribbean_Hispanic have a 2-ref weighted LD curve with Mixtec and Haida?

2-ref decay z-score:    7.24

2-ref amp_exp z-score:  4.87

YES: curve is significant

 

Do 2-ref and 1-ref curves have consistent decay rates?

1-ref Mixtec — 2-ref z-score:                      -0.19   ( -3%)

1-ref Haida — 2-ref z-score:                        0.78   ( 18%)

1-ref Haida — 1-ref Mixtec z-score:                 1.06   ( 21%)

YES: decay rates are consistent

 

Test SUCCEEDS (z=4.87, p=0.00021) for Caribbean_Hispanic with {Mixtec, Haida} weights

note: p-value is multiplied by 190 for multiple-hypothesis correction

 

DATA:  success 0.00021            Caribbean_Hispanic   Mixtec Haida  4.87      5.26      5.06      21%     12.61 +/- 1.74            0.00004084 +/- 0.00000838       12.18 +/- 2.32   0.00015501 +/- 0.00001668       15.07 +/- 2.88   0.00006966 +/- 0.00001376

 

*** Admixture test summary ***

 

Weighted LD curves are fit starting at 1.1 cM

 

Does Caribbean_Hispanic have a 2-ref weighted LD curve with Haida and Pima?

2-ref decay z-score:    4.23

2-ref amp_exp z-score:  4.18

YES: curve is significant

 

Do 2-ref and 1-ref curves have consistent decay rates?

1-ref Haida — 2-ref z-score:                        0.15   (  4%)

1-ref Pima — 2-ref z-score:                        -0.53   (-11%)

1-ref Pima — 1-ref Haida z-score:                  -0.72   (-15%)

YES: decay rates are consistent

 

Test SUCCEEDS (z=4.18, p=0.0055) for Caribbean_Hispanic with {Haida, Pima} weights

note: p-value is multiplied by 190 for multiple-hypothesis correction

 

DATA:  success 0.0055  Caribbean_Hispanic   Haida  Pima    4.18      5.06      5.02      15%     14.44 +/- 3.41   0.00004388 +/- 0.00001049       15.07 +/- 2.88   0.00006966 +/- 0.00001376       12.93 +/- 2.57   0.00014421 +/- 0.00001779

 

Заметка о аутосомном генофонде беларусов.Часть III

В начале нового года я решил обновить данные экспериментов с аутосомными снипами беларусов. Обновление в силу схожести методологических приемов будет затрагивать главным образом результаты анализа беларуского генофонда в программе ALDER (технические детали и дизайн эксперимента обсуждались в предыдущих заметках).

В качестве заметки на полях отмечу, что в ходе своих предыдущих экспериментов я убедился в том, что наилучшие результаты дает запуск рабочего цикла программы без указания дефольтных размеров «окон» SNP-ов, в которых и происходит анализ корреляции угасания генетического сцепления.

С целью поддержки совместимости с предыдущими экспериментами, я снова отфильтровал результаты последних экспериментов таким образом, чтобы они соответствовали двум параметрам — a) в анализируемой группе беларусов наблюдалась двухсторонняя корреляция с обеими референсными популяциями; 2) согласованность скорости экспонентного угасания генетического сцепления в адмиксе и в обеих референсных популяциях.

Как и ранее, представляю для ознакомления сводную таблицу, наиболее интересную часть которой должны представлять колонки с возрастом адмикса (в поколениях), датированным на основании наблюдаемого уровня угасания генетического сцепления (выделены красным).

Для начала результат анализа данных собранных по беларуссом в моем научно-исследовательском проекте MDLP (Belorussian_V).

Belarusian_V Lithuanian_V Russian_cossack 36.98+/-3.75
Belarusian_V Lithuanian_V Avar 44.15+/-4.72
Belarusian_V Lithuanian_V Ukrainian 42.14+/-5.22
Belarusian_V Lithuanian_V Abhkasian 42.85+/-5.42
Belarusian_V Lithuanian_V Russian_V 42.09+/-5.02
Belarusian_V Lithuanian_V Russian_Center 42.75+/-5.98
Belarusian_V Lithuanian_V Serbian 48.86+/-7.35
Belarusian_V Lithuanian_V Ukrainian-East 43.69+/-5.89
Belarusian_V Lithuanian_V Cirkassian 43.91+/-7.97
Belarusian_V Lithuanian_V Kumyk 41.10+/-5.98
Belarusian_V Russian_North Belarusian 40.66+/-9.63

Таблица наглядно иллюстрирует географические и хронлогические особенности адмикса. Основу (cубстрат) адмикса составляют популяции похожие на популяции современных литовцев и русских из северной части РФ. Вторую часть — популяции с характерным балкано-кавказским профилем. 

Разброс датировок адмикса также попадает в один интервал (примерно 1450-870 лет до настоящего времени, или в более привычной датировке — VI-XI в. н.э). Это период начала экспансии славян, в ходе которой происходило смешивание с различными балтийскими, фрако-иллирийскими и кавказскими племенами.

Это не первый случай, когда наблюдаемая в геноме закономерность хорошо согласуется с историческими сведениями.

Анализ академической выборки беларусов из коллекции Эстонского Биоцентра в городе Тарту дал результаты с большей временной и спатиальной амплитудой. Поэтому пришлось проводить дополнительную фильтровку данных и выбрать те результаты, которые попадают в ту же хронологическую шкалу, что и результаты первой группы беларусов.

Belarusian Ossetian Saami 49.07+/-4.89
Belarusian Ossetian Norwegian_V 48.9+/-8.66
Belarusian Cirkassian Greek_East 48.72+/-9.97
Belarusian Armenian Greek_North 48.25+/-17.62
Belarusian Greek_Center Norwegian_V 47.07+/-8.74
Belarusian Cirkassian Armenian 46.8+/-11.91
Belarusian Adygei Gagauz 46.79+/-11.34
Belarusian Cirkassian Lezgin 46.34+/-5.87
Belarusian Bashkir Armenian 46.32+/-5.01
Belarusian Lezgin Ossetian 46.23+/-8.39
Belarusian Cirkassian Adygei 45.79+/-10.37
Belarusian Bashkir Sardinian 43.19+/-5.87
Любопытно, что также как и в случае с первой группой беларусов хорошо заметен след генетических контактов с Кавказом и Балканами. Зато северо-европейская составляющая оказалась заменена на скандинавскую примесь (норвежцы и саамы). Но более существенным различием является обнаружение следа контакта со степными тюркскими народами навроде предков башкир.

Заметка о генетике аутосомного генофонда белорусов. Часть II.

Диэнек Понтикос внес предложение использовать при Rolloff-анализе генофонда белорусов  в качестве референсов литовцев и пуштунов. Следуя этому совету, я решил предпринять вторую попытку формального анализа адмикса в двух имеющихся у меня выборках белорусов  (эталонный выборка белорусов из статьи  Behar et al. 2011), и выборка белорусов, собраннаяя в нашем проекте.

Ниже приведены результаты эксперимента  с двумя этими группам (и в отличие результатов моей предыдущей попытки, результаты данного эксперимента менее «зашумленные»):


valid snps: 746877
group 0 Lithuanian
group 1 Pathan
number admixed: 13 number of references: 2
numsnps: 746877  numindivs: 55
starting main loop. numsnps: 158101

Summary of fit:

Formula: wcorr ~ (C + A * exp(-m * dist/100))

Parameters:
   Estimate Std. Error t value Pr(>|t|)   
C 2.332e-04  3.029e-04   0.770  0.44165   
A 3.306e-02  1.227e-02   2.695  0.00728 **
m 1.169e+02  3.851e+01   3.037  0.00252 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.006508 on 493 degrees of freedom

Number of iterations to convergence: 0 
Achieved convergence tolerance: 9.103e-06 

mean (generations):  116.9416

Интервал числа поколений, прошедших со времен анализируемого адмикса ( jackknife (generations)   105.086+-52.59) или 3069 +- 1525 лет до настоящего времени, что соответствует временном интервалу 1 тыс. до нашей эры — 6 век нашей эры.

Заметка о генетических контактах белорусов. Часть I

В начале сентября этого года известная американская лаборатория популяционной генетики доктора Райха опубликовала альфа-версию программного продукта ADMIXTOOOLS 1.0. Альфа-версия была разработана для внутреннего использования, поэтому modus operandi этого продукта вряд ли является кристально понятным для стороннего пользователя. Положительным аспектом  на мой взгляд является то, что ADMIXTOOLS пакет обеспечивает полную совместимость с форматом другой очень популярной программы EIGENSOFT, которая была разработана в той же лаборатории. Это немаловажное обстоятельство намного упрощает процесс обучения в ADMIXTOOLS .

Вышеупомянутый пакет включает  в себя 6 приложений, среди которых я считаю наиболее полезной qp3Pop и утилиты для вычисления частотной характеристики аллелей. Впрочем, я не собираюсь обсуждать qp3pop во всех деталях и в контексте данной заметки достаточно отметить, что эта программа реализует тест three_pop (F_3), подробно описанный в известной статье  Рейха и соавт. 2009.

Однако другой имплементированный в пакете метод, — метод rolloff — нуждается в более пристальном внимании. Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатура LD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории,  чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения  LD в адмиксе напрямую связана с числом поколений, прошедших с момента адмикса,  так как c возрастанием числа поколений увлечивается число рекомбинаций произошедших между  двумя отдельными SNP-ами. Проще говоря: Rolloff соответствует экспоненциальной кривой угасания уровня LD от расстояния, и эта скорость экспоненциального снижения как раз и используется  для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.

Этот фокус открывает интересные перспективы.

Анализ в Admixtools

Для целей этого анализа, я создал специальный набор SNP-данных, который включает в себя около 750 000 cнипов, частично или полностью в 250 различных популяциях человека. Далее, я разбил популяции 3 * 62 000 трио в следующем виде (X, Y, Z), где X и Y — пара рефренсных групп, а Z — белорусы из коллекции Behar et al.2010. После этого я провел q3Pop анализ этих трио.

Результаты изложены в нижеприведенной таблице

Indian Polish Belarusian -0.000736 0.000251 -2.935
Polish Indian Belarusian -0.000736 0.000251 -2.935
Karitiana Sardinian Belarusian -0.001278 0.000517 -2.471
Sardinian Karitiana Belarusian -0.001278 0.000517 -2.471
Otzi North_Amerind Belarusian -0.002556 0.001126 -2.271
Cirkassian Polish Belarusian -0.000488 0.000231 -2.113
Polish Cirkassian Belarusian -0.000488 0.000231 -2.113
Pima Otzi Belarusian -0.002727 0.00137 -1.99
Pima Sardinian Belarusian -0.000794 0.000431 -1.843
Sardinian Pima Belarusian -0.000794 0.000431 -1.843
Otzi Surui Belarusian -0.002938 0.001931 -1.522
Surui Otzi Belarusian -0.002938 0.001931 -1.522
Обсуждение

На первый взгляд, результаты моего эксперимента с 3qPop, кажется, неплохо согласуются с выводами, содержащимися в работе Паттерсон и др. 2012: «Самый поразительный вывод состоит в обнаружени четкого сигнала адмикса в северной Европе, один из элементов которого связан с предками населения наиболее близкого по своей генетике к баскам и жителям Сардинии, а другой — с предками современного населения северо-восточной Азии и Америки. Этот явный сигнал, вероятно, отражает историю смешивания неолитических мигрантов  с коренным населением Европы, что подтверждается недавним генетическим анализом древних костей Швеция и секвенированием полного генома Отци Тирольца».

Что касается собственно белорусов, то источники сигнала смешивания с посторонними популяцими менее ясны и расплывчаты.
Как было показано ранее, с точки зрения формального анализа примесей (f3 статистики), белорусы могут быть представлены в виде популяционного микса поляков и индусов / черкессов. Первый компонент смеси может быть связан с носителями культуры шнуровой керамики/боевых топоров и культуры колоковидных кубков;  второй, в соответствии с результатами, должен быть общим для  индусов и черкесов. Из учебников истории я узнал, что территория современной Карачаево-Черкесии была населена в 1-го тысячелетия н.э. на аланами — группой сарматских племен, кочевых скотоводов 1-го тысячелетия нашей эры, который говорили на восточно-иранском язык, — языке, который происходит от скифо-сарматских и которой в свою очередь превратился в современный осетинском. Как принято считать, последней предковой популяцией современных  потомков алан и современных индейцев могла быть скифо-сарматской метапопуляция.

Таким образом, мы можем переписать формулу генетических контактов предков белорусов в следующем порядке

Белорусы = ((неолитические культуры Европы) + «носители культуры колоковидных кубков») + (мезолитическое население Европы) + компонент носителей культуры шнуровой керамики)) + скифо-сарматский тип

Датировка времени генетических контактов

Для оценки дата  события базового адмикса в белорусской популяции, я использовал в качестве референсных популяций поляков и индусов (Примечание: я снизил порог генетических дистанции в параметрах Rolloff  для снижения уровня шума от более поздних адмиксов).

Как вы можете видеть, сигнал присутствия адмикса обнаруживается гораздо хуже, и в силу этого, погрешности в оценке временного промежутка высоки:

154,158 + -87,024 поколений назад (или, 4470 + -2523 года до настоящего времени / 2510 — +2523 лет до н.э.).

Анализ аутосомного генофонда балтийских этносов: эстонцев, латышей, литовцев. Часть III

Перейдем теперь к литовцам.
Как представляется нам, результаты эксперимента с двумя литовскими популяциями (литовцы Lithuanians из референсной панели в работе Behar et al.2011; Lithuanians_V — участники проекта MDLP с литовскими корнями) также укладываются в общее консенсуальное представление о генетической частоте или «однообразии» балтийских популяций.

I
В случае с академической референсной популяцией литовцев, полученные на выходе результаты анализа ALDer явным образом свидетельствуют в пользу вышеозвученной концепции.  Тест на однореференсную корреляцию угасания генетического сцепления между литовцами и каждой из референсных популяций в отдельности выдал следущие результаты:

Pre-test: Does Lithuanian have a 1-ref weighted LD curve with…
Italian-Center:  NO (z = 0.00)
Sicilian:  NO (z = 0.00)
Sardinian:  NO (z = 0.49)
German:  NO (z = 0.00)
        Lithuanian_V:  NO (cannot pre-test: long-range LD)
Latvian:  NO (z = 0.00)
Belarusian:  NO (z = 0.00)
Swedish:  NO (z = 0.00)
            Polish_V:  NO (cannot pre-test: long-range LD)
           Russian_V:  NO (cannot pre-test: long-range LD)
      Russian_Center:  NO (cannot pre-test: long-range LD)
           Latvian_V: YES (z = 2.44)
Inkeri:  NO (z = 0.00)
Russian_South:  NO (z = 0.00)
Ukrainian_V:  NO (z = 0.00)
Slovakian:  NO (z = 0.00)
Czech:  NO (z = 0.00)
Sorb:  NO (z = 0.00)
            Estonian:  NO (cannot pre-test: long-range LD)
Ukrainian:  NO (z = 1.42)
        Belarusian_V:  NO (cannot pre-test: long-range LD)
Ukrainian-East:  NO (z = 0.00)
Ukrainian-West:  NO (z = 0.00)
Mordovian:  NO (z = 0.00)
CEU:  NO (z = 0.00)
CEU_V:  NO (cannot pre-test: long-range LD)
British:  NO (z = 0.00)
French:  NO (z = 0.00)
Orcadian:  NO (z = 0.00)
German-South:  NO (z = 0.00)
German-North:  NO (z = 0.00)
            German_V:  NO (cannot pre-test: long-range LD)
Bulgarian:  NO (cannot pre-test: long-range LD)
Finnish-North:  NO (z = 0.00)
          Cirkassian: YES (z = 2.34)
     Russian_cossack:  NO (cannot pre-test: long-range LD)
               Saami:  NO (cannot pre-test: long-range LD)
Udmurd:  NO (z = 0.00)
Komi:  NO (z = 0.00)
Karelian:  NO (z = 0.00)
Vepsa:  NO (z = 0.00)
Mari:  NO (z = 0.00)
Bashkir:  NO (z = 0.00)
              Nenets:  NO (cannot pre-test: long-range LD)
Hant:  NO (z = 0.00)
Chuvash:  NO (z = 0.00)
Mansi:  NO (z = 0.00)
Finnish-South:  NO (z = 0.00)
Polish:  NO (z = 0.00)
Gagauz:  NO (z = 0.00)
Moldavian:  NO (z = 0.00)
             Romania:  NO (cannot pre-test: long-range LD)
Bosnian:  NO (z = 0.00)
Adygei:  NO (z = 1.09)
Croatian:  NO (z = 1.03)
Serbian:  NO (z = 0.57)
Slovenian:  NO (z = 0.00)
Montenegrin:  NO (z = 0.00)
Macedonian:  NO (z = 0.00)
Kosovar:  NO (z = 0.00)
Austrian:  NO (z = 0.00)
Greek_Azov:  NO (z = 0.00)
Greek_Center:  NO (z = 1.08)
Greek_North:  NO (z = 0.00)
Greek_South:  NO (z = 0.00)
Tatar_Crim:  NO (cannot pre-test: long-range LD)
               Azeri:  NO (cannot pre-test: long-range LD)
              Tadjik:  NO (cannot pre-test: long-range LD)
Kyrgyz:  NO (z = 0.00)
Kazakh:  NO (z = 0.00)
Georgian:  NO (z = 0.00)
Georgian_Imereti:  NO (z = 0.00)
Georgian_Laz:  NO (z = 0.01)
NorthOssetian:  NO (z = 0.00)
Armenian:  NO (z = 0.00)
Kumyk:  NO (z = 0.00)
Chechen:  NO (z = 0.00)
Turk:  NO (z = 0.00)
             Turkmen:  NO (cannot pre-test: long-range LD)
Uzbek:  NO (z = 0.00)
Mongol:  NO (z = 0.00)
          Karakalpak:  NO (cannot pre-test: long-range LD)
Lak:  NO (z = 0.00)
Balkarian:  NO (z = 0.00)
Lezgin:  NO (z = 0.71)
           Abhkasian:  NO (cannot pre-test: long-range LD)
Kalmyk:  NO (z = 1.94)
Syrian:  NO (z = 0.00)
Kurd:  NO (z = 0.00)
Tabassaran:  NO (z = 0.95)
Hakas:  NO (z = 0.00)
Altaic:  NO (z = 0.00)
Tatar_Kryashen:  NO (z = 0.00)
Tartar_Mishar: YES (z = 2.79)
Parsi:  NO (z = 0.00)
Avar:  NO (z = 0.00)
Nogai:  NO (z = 0.00)
Italian-North:  NO (z = 0.00)
           Hungarian:  NO (cannot pre-test: long-range LD)

Пре-тест не сработал в значительной части комбинации референсных популяций из-за высокого значения генетического сцепления локусов на больших генетических дистанциях. Из всего списка популяций только две популяции показали положительные результаты — это Cirkassian (черкесы), татары-мишари и Latvian_V (латыши проекта MDL).

Все три теста на присутствие двухреференсной корреляции экспоненциального угасания кривой генетического сцепления оказались статистически незначимыми, а скорости угасания генетического сцепления в двух референсных популяциях — несопоставимыми между собой.

Для наглядности, привожу подробные результаты этих тестов:


*** Admixture test summary ***

Weighted LD curves are fit starting at 0.5 cM

Does Lithuanian have a 2-ref weighted LD curve with Latvian_V and Cirkassian?
2-ref decay z-score:    3.55
2-ref amp_exp z-score:  3.93
NO: curve is not significant

Do 2-ref and 1-ref curves have consistent decay rates?
1-ref Latvian_V — 2-ref z-score:                    1.74   ( 95%)
1-ref Cirkassian — 2-ref z-score:                   0.37   ( 19%)
1-ref Cirkassian — 1-ref Latvian_V z-score:        -1.50   (-80%)
WARNING: decay rates are inconsistent

Test FAILS (z=3.55, p=0.97) for Lithuanian with {Latvian_V, Cirkassian} weights
note: p-value is multiplied by 2556 for multiple-hypothesis correction

DATA:    failure (warning: decay rates inconsistent)    0.97    Lithuanian    Latvian_V    Cirkassian    3.55    2.44    2.34    95%    78.52 +/- 22.09    0.00028164 +/- 0.00007158    219.82 +/- 66.29    0.00040365 +/- 0.00016525    94.59 +/- 40.39    0.00009331 +/- 0.00003691

*** Admixture test summary ***

Weighted LD curves are fit starting at 0.5 cM

Does Lithuanian have a 2-ref weighted LD curve with Latvian_V and Tartar_Mishar?
   2-ref decay z-score:    1.83
   2-ref amp_exp z-score:  1.95
                                  NO: curve is not significant

Do 2-ref and 1-ref curves have consistent decay rates?
   1-ref Latvian_V — 2-ref z-score:                    1.37   ( 75%)
   1-ref Tartar_Misha — 2-ref z-score:                 2.81   (108%)
   1-ref Tartar_Misha — 1-ref Latvian_V z-score:       1.47   ( 41%)
                                  WARNING: decay rates are inconsistent

Test FAILS (z=1.83, p=1.7e+02) for Lithuanian with {Latvian_V, Tartar_Mishar} weights
  note: p-value is multiplied by 2556 for multiple-hypothesis correction

DATA:    failure (warning: decay rates inconsistent)    1.7e+02    Lithuanian    Latvian_V    Tartar_Mishar    1.83    2.44    2.79    108%    99.98 +/- 54.54    0.00034952 +/- 0.00017910    219.82 +/- 66.29    0.00040365 +/- 0.00016525    332.64 +/- 55.74    0.00101889 +/- 0.00036487

 *** Admixture test summary ***

Weighted LD curves are fit starting at 0.5 cM

Does Lithuanian have a 2-ref weighted LD curve with Cirkassian and Tartar_Mishar?
   2-ref decay z-score:    2.86
   2-ref amp_exp z-score:  3.21
                                  NO: curve is not significant

Do 2-ref and 1-ref curves have consistent decay rates?
   1-ref Cirkassian — 2-ref z-score:                   0.18   ( 10%)
   1-ref Tartar_Misha — 2-ref z-score:                 4.24   (118%)
   1-ref Tartar_Misha — 1-ref Cirkassian z-score:      3.18   (111%)
                                  WARNING: decay rates are inconsistent

Test FAILS (z=2.86, p=11) for Lithuanian with {Cirkassian, Tartar_Mishar} weights
  note: p-value is multiplied by 2556 for multiple-hypothesis correction

DATA:    failure (warning: decay rates inconsistent)    11    Lithuanian    Cirkassian    Tartar_Mishar    2.86    2.34    2.79    118%    85.68 +/- 29.92    0.00034317 +/- 0.00010688    94.59 +/- 40.39    0.00009331 +/- 0.00003691    332.64 +/- 55.74    0.00101889 +/- 0.00036487

Поскольку результаты теста неудачные,  мы не видим особого смысла дискутировать на предмет определения даты адмикса предковых популяций литовцев. Достаточно лишь отметить, что это событие относилось к достаточно древним временам (бронзовый век или даже неолит).
II

В отношении второй группы литовцев — участников проекта MDLP,  ситуация более оптимистична.

При изучении результов анализа этой группы в ALDer, мы отобрали единственный результат, который формально отвечал всем критериям отбора:

DATA:    success    0.023    Lithuanian_V    Latvian_V    Mongol    4.44    4.00    4.37    18%    78.34 +/- 11.50    0.00021502 +/- 0.00004838    84.69 +/- 21.16    0.00016508 +/- 0.00003618    71.00 +/- 16.26    0.00009300 +/- 0.00002053

Итак, эта вариант адмикса где истинные популяции исторического адмикса в этногенезе литовцев наиболее похожи на современных латышей и современных монголов. Так как адмикс со стороны латышей древнее (84.69 +/- 21.16  поколений тому назад), чем адмикс со стороны «монголоидов» ( 71.00 +/- 16.26 ), протолатышей следует признать субстратной основой в генофонде литовцев, монголоидную примесь — адстратом.

В принципе, в этом открытии нет ничего нового, ибо еще представители классической антропологической краниологии указывали на присутствие в черепах предков современных балтов незначительного смягченного монголоидного влияния: «некоторые монголоидные черты имеют и часть балтийских народов, особенно на северо-востоке Латвии. Они являются результатом смешения древних балтийских и финно-угорских племен, тем более что граница между ними в средневековье проходила по низовьям реки Даугава (Западная Двина).»  Датировка события этого адмикса согласно вычислениям в ALDer лежит в достаточно широком временном интервале (VII-I век до нашей эры), который охватывает весь древнейший период железного века в Прибалтике. Скорее всего тогда и начался процесс смешивания финно-угорских и балтийских популяций.

В дополнение к традиционному объясянению  появления монголоидности в ходе смешивания с финно-угорскими народами, представляется возможным рассмотреть альтернативные версии смешивания популяций.

Анализ аутосомного генофонда балтийских этносов: эстонцев, латышей, литовцев. Часть II

Теперь перейдем к южным соседям эстонцев — латышам.

Как я ожидал, результаты анализа ALDER подтвердили мои более ранние предположения о том, что латыши являются одним из наиболее «чистых» европейских народов. Под чистотой здесь подразумевается практически полное отсутствие позднейших «примесей» со стороны других популяций.

И действительно, программа ALDER смогла обнаружить односторонний сигнал предпологаемого адмикса только со стороны трех популяций: жителей юго-центральной части России, грузинов-лазов и вездесущих «монголов».  Однако исходя из провала тестов на двухстороннюю корреляцию угасания сцепеления,  источники адмикса были совершенно разные:

Result Target ReferenceA ReferenceB Admix_dating Admix on Reference A Admix on ReferenceB
failure (warning: decay rates inconsistent) Latvian Russian_South Mongol 34.81 +/- 10.74 12.75 +/- 5.58 43.33 +/- 11.11
failure (warning: decay rates inconsistent) Latvian Georgian_Laz Mongol 63.83 +/- 28.13 75.62 +/- 27.37 43.33 +/- 11.11

Поскольку оба теста провалились, то нет особой нужды дополнительно комментировать результаты. В принципе кавказский компонент, влившийся в генофонд латышей при посредничестве какой-нибудь восточнославянской популяции может быть продуктом довольно-таки древнего смешения,63.83 +/- 28.13 поколений назад.  «Cибирская по происхождению» незначительная часть генофонда скорее всего попала в Приблатику в том же генетическом потоке, который принес в Эстонию «монгольские гены». Датировка этого события лежит в широком интервале от 5 до 13 века нашей эры, и скорее всего это была многократная серия событий смешивания популяций. Примечательно, что «восточносибирских генов» у латышей вдвое меньше (2.9 +/- 1.1) в сравнении с эстонцами. Зато «кавказских» — примерно столько же (21.5 +/- 7.2).