Исследование генетики татар Поволжья при помощи анализа на IBD-сегменты

Исследование генетики татар Поволжья при помощи анализа на IBD-сегменты

Не секрет, что под этнонимом «татары» в России зачастую скрываются совершенно разные этнические группы. Существуют татары казанские, астраханские, сибирские, крымские и т.д. В данном исследовании нас интересуют татары среднего Поволжья — казанцы и мишари.

Это достаточно многочисленный и активно тестирующийся народ, неплохо представленный в аутосомных базах 23andMe и FTDNA. По мере роста статистики прогонов татарских генотипов через калькулятор Вадима Веренича К27, я начал впадать в некоторое замешательство. В своем большинстве татары получались довольно близкими друг к другу по соотношению предковых компонентов Admixture. Однако одновременно существовали и различия, где было весьма сложно понять — не результат ли это попросту случайных отклонений? Разделение между казанскими татарами и мишарями проявлялось скорее как тенденция к несколько большим значениям «балто-славянских» и «финских» компонентов у вторых, чем как явный сигнал.

Поэтому при появлении у меня нового инструмента — скрипта, анализирующего наличие общих IBD-сегментов с научными выборками, я не замедлил пропустить через него имеющиеся генотипы татар из коммерческих выборок. Сразу же проявились различия, что позволило сделать вывод — несмотря на сходство татар по пропорциям предковых компонентов, их источники частично различаются.

Чтобы по возможности снизить влияние случайных отклонений, я постарался выделить усреднения по территориально-этническим группам. Наиболее бросающимся в глаза признаком казанских татар оказалось большое количество общих сегментов с марийской и чувашской выборками. Однако это еще не означает, что казанцы разделяют большую часть общих предков с марийцами или чувашами. Дело в том, что эти выборки испытали очень сильный генный дрейф. В результате даже не очень значительное родство с ними проявляется весьма ярко. В прошлой заметке я назвал это «эффект ашкенази», по имени наиболее известного примера. Судя по всему, марийцы и чуваши разделяют заметную часть общих предков, поэтому и «эффект ашкенази» у них общий.

Усреднение по трем казанским татарам из Апастовского района Татарстана:

Tatar-ApastovIBD

Довольно типичная картина — фоновая засветка по Восточной Европе, яркое пятно у марийцев и чувашей и более бледное — у татарской научной выборки. Точный источник татарской выборки мне неизвестен, но сравнительно слабые показатели могут хорошо объясняться большей численностью и генетическим разнообразием татар.

Татары из Тархановского района, 5 человек, выглядят весьма похоже, лишь марийско-чувашское пятно менее яркое:

Tatar-TarhanIBD

Татары из северо-западной части Башкирии, четыре человека. По сравнению с предыдущими выборками, добавилось некоторое влияние удмуртов и башкир:

Tatar-Bash-NWIBD

Насколько же велико может быть количество общих предков татар с чувашами и марийцами? Попробуем сравнить апастовскую выборку с усреднением по трем чувашам:

ChuvashIBD

В калькуляторах на базе Admixture у чувашей ярко проявляется «уральский» компонент, и здесь мы хорошо видим его распространение — от саами до манси. Уровень пересечения с чувашской выборкой при моих типичных настройках — 115 сМ. Примерно такой же уровень получился у марийца (отличие от чувашей — в более высоком пересечении с марийской выборкой). При этом у людей с наполовину марийским или чувашским происхождением этот показатель составил чуть меньше 80. У апастовской выборки — 67. Можно сделать прикидку, что при недавнем адмиксе это соответствовало бы примерно 1/3 общих предков. Однако если эти предки жили давно, когда дрейф проявился еще не так сильно, их доля могла быть выше. Таким образом, оценкой снизу будет 30%. Провести оценку сверху поможет упоминавшийся «уральский» компонент. При калибровке К27 его содержание у чувашей получилось равным 19, усреднение по татарам из апастовской выборки —  около 9. Таким образом, даже если все не пересекающиеся с чувашами предки были из популяций с нулевым содержанием этого компонента (что малореально), вклад чувашей не мог быть выше 50%. Думаю, что наиболее реалистичным вариантом будет все же 1/3.

Разумеется, существует еще вариант, что чуваши получили «уральский» компонент уже после разделения с татарами. Тогда количество общих предков может быть и гораздо большим. Однако этому варианту скорее соответствует некий более древний уровень родства, чем рассматриваемые здесь исторические времена.

Я попробовал подсчитать, исходя из предположения, что «чувашские» компоненты составили 1/3 наследственности татар, на что могли быть похожи оставшиеся 2/3 по К27. В одиночном режиме результат оказался непохожим ни на один народ, кроме самих татар. В режиме смеси комбинации тоже показались на первый взгляд очень странными, однако, как мы позже увидим, кое-какой смысл в них был:

Using 2 populations approximation:
1 Nogay_D+Russian_Novgorod_D @ 6,174824

Using 3 populations approximation:
1 50% Russian_North_R8 +25% Kazakh_R2 +25% Romanian_D @ 3,826868

2 50% Russian_North_R8 +25% Bulgarian_S14 +25% Kazakh_R2 @ 4,087314

У меня не нашлось полноценной мишарской выборки из районов за пределами Татарстана и Башкирии, поэтому пришлось объединить три образца, получившиеся похожими и по IBD-картографу, и по предковым компонентам в калькуляторе Вадима Веренича. Первый происходит из мишарей Нижегородской области, второй — из пензенских мишарей, третий — из служилых татар Самарской области.

Mishar-NPSIBD

Как мы можем видеть, здесь не только нет «марийского» пятна, но даже наоборот — на этом месте показано уменьшение количества общих сегментов по сравнению с соседними популяциями. Родство с чувашами имеется, однако, очевидно, идет по другой линии предков чувашей, не совпадающей с предками марийцев. Наиболее же сильно выделяются эрзяне. Как и в случае родства казанских татар с чувашами, это вовсе не говорит об определяющем вкладе эрзян в генетику мишарей. Нижний предел я бы оценил аналогичным предыдущему случаю методом примерно в 20-25%. Что касается верхнего ограничителя, тут сложнее из-за отсутствия специфического «эрзянского» компонента Admixture. Если ориентироваться на общий восточноевропейский компонент Balto-Slavic, то он ограничивает максимальный уровень примерно 70-80 процентами. Вполне возможно, что предками мишарей были не сами эрзяне или мокшане, а родственная им соседняя популяция — это дополнительно затрудняет оценку.

Для сравнения, эрзянская выборка, пять человек:

ErzyaIBD

Мишари из Дрожжановского района Татарстана, три человека:

Mishar-DrozzhIBD

Картина схожа с предыдущей мишарской выборкой, однако у марийцев уже нет провала. Возможно, это связано с близостью к Чувашии, возможно — с влиянием казанских татар.

Выборка мишарей из Башкирии получилась ближе к казанскому варианту. Это может объясняться спецификой именно данной выборки, либо различиями между мишарями в целом. Придумать объяснений можно много, но думаю, здесь нет смысла в них вдаваться.

Mishar-BashkIBD

Итак, для каждого из народов (или, при другом подходе, субэтносов), мы видим на картах один из предковых источников. Однако попытка вывести оставшиеся источники методом пересчета предковых компонентов оказалась малоудачной. Чтобы решить эту проблему, я попробовал визуализировать разницу с первым источником. На карте приведена разница между первой («сборной») мишарской выборкой и эрзянами, для контрастности умноженная на три:

MNPSminusErzyaIBD

Зеленые тона показывают выборки, более близкие эрзянам, красно-бурые — мишарской выборке. Промежуточные варианты одинаково близки и тем, и другим. Максимум разницы в пользу мишарей достигается из крупных выборок у бурят и тувинцев, что очень хорошо совпадает с недавней работой по генетическим следам тюркской экспансии . Немногим отстают от них и башкиры с казахами. Интересно, что кавказские выборки, за исключением ногайцев и балкарцев (наличие в этой компании армян остается загадкой )) ), получились несколько ближе к эрзянам, что говорит против теории о связи мишарей с Кавказом (либо она каким-то образом идет через эрзяноподобную сторону). Пятно у вепсов, думаю, тоже что-то означает, поскольку в слабом виде видно у многих татар. Однако это может быть и следствием более высокого уровня дрейфа у вепсов по сравнению с соседями.

При построении аналогичной карты для пары казанцы/чуваши в качестве базовой выборки я выбрал апастовскую. Башкирские по понятным причинам не могут служить типичным образцом, а тархановская демонстрирует тенденцию сдвига к мишарям. К тому же наиболее родственная чувашам выборка может выявить отличия с ними более показательно.

TAminusChuvashIBD

Зеленая зона вдоль северной части Сибири объясняется более высоким уровнем родства с этими народами у чувашей, чем у татар (все тот же уральский компонент). Родство с народами степной полосы и возможной тюркской прародины находится на примерно одном уровне у «чувашской» и «нечувашской» части генома казанских татар. Родство же с выборками Средней Азии, Кавказа, Средиземноморья — выше. Вероятно, средиземноморскими же пересечениями объясняется повышенный уровень общих сегментов с ашкенази (не забываем, что это число надо делить в разы из-за ашкенази-эффекта). Примерно такого же уровня пятно с крымскими татарами выглядит бледнее из-за небольшой площади полуострова. Интересно также пересечение с болгарами. Не думал, что их тюркский компонент проявится настолько заметно. Впрочем, возможно, это объясняется турецкими или татарскими вливаниями, а не древними булгарами. Ну и обращает на себя внимание знакомое пятно у вепсов и эстонцев.

А теперь вспомним еще раз раскладку при попытке реконструкции «нечувашской» части на базе К27:

2 50% Russian_North_R8 +25% Bulgarian_S14 +25% Kazakh_R2 @ 4,087314

Неправильно, однако уже не так странно, как казалось вначале.

Не следует думать, что перечисленные популяции составляют 2/3 наследственности казанских татар (раз уж 1/3 мы оцениваем вклад «чувашской» стороны). Более вероятным кажется вариант, когда заметную часть от этих 2/3 занимает некая нейтральная по отношению к чувашам популяция, у которой уровень IBD сегментов с другими уральцами и восточноевропейцами был близок к ней. Из-за нейтральности она плохо выделяется на картах IBD-разности, однако калькуляторы на базе Admixture показывают — вклад пришельцев с далекого Юга или Востока не мог быть определяющим. Возможно, именно на эту популяцию намекают «вепсско-эстонское» и «южно-русское» пятна.

В завершение я хочу привести карту разницы между мишарями и казанцами:

MNPSminusTAIBD

С казанской стороны мы видим знакомые марийско-чувашское и крымско-татарское пятна, а также, слегка неожиданно, но не удивительно, азербайджанское (с расширением вдоль Южного Каспия). С мишарской стороны знакомые эрзяне, неожиданно выделилась территория ВКЛ (какие-то вливания оттуда в геном мишарей?), и, по совсем непонятной причине, выборка коми. Родство с азиатскими выборками идет с некоторым перевесом в пользу казанцев, особенно в «зоне марийско-чувашского влияния».

Аналогично примечанию к предыдущей карте, не следует забывать — здесь показана разница. Нейтральная общность может быть велика, но не видна этим методом.

Генетические следы экспансии тюркоязычных номадов в Евразии

В самом конце июля,  на  известном ресурсе bioRxiv наконец-то появился препринт давно ожидаемой статьи тартуских генетиков  в составе Баязита Юнусбаева, Майта Метспалу и др., предметом исследования которой является важный вопрос, — оставили ли многочисленные волны экспансии и миграций древних тюрков в структуре генофонда тюркоязычных народов? Следует отметить, что Баязит Юнусбаев и ранее занимался изучением вопроса характера, состава и происхождения генетических компонентов ряда современных тюркских популяций, однако ареал исследований и используемые методы в его предыдущих исследованиях носили ограниченный характер. Свежая работа коллектива тартуских генетиков замечательна уже тем, что в ней было уделено серьезное мнение разработке точного статистико-математического аппарата для определения статистически достоверных геномных cигналов свидетельствующих о определенном характере, направленности и экстенсивности демографических процессов в среде предков современных тюркских популяций.
Наверное, именно по этим причинам работа над подготовкой данных и текста публикации велась довольно долго, не менее 3-4 лет, при том что средний цикл проведений таких исследований на уже готовых генетических данных составляет максимум год-полтора.
Существенным отличием от других подобных работ последнего времени является и заметно явное смещение акцента исследования со ставших уже традционными  методов анализа генетических компонентов (кластеров аллельных частот, которые более или менее коррелируют с географией расселения человеческих популяций), таких как PCA, Admixture) на анализ так называемых IBD сегментов и блогов, имеющих общее генетическое происхождение.  Как недавно показал на убедительных примерах ув. Сергей Козлов, зачастую правильно распланированный и тщательно выверенный анализ IBD дает более точную, в сравнении с Admixture, генетическую картину происхождения человека. Этот метод основан на метрике IBD и принципиально отличается от Admixture. У него есть свои преимущества, часто он дает лучшую прорисовку кластеров предковых популяций, построенных на основе матрицы разделяемых общих сегментов. Есть и свои недостатки — которые объясняются консервативным характером сохранения некоторых участков. Я бы рекомендовал удалить такие сегменты из анализа — в первую очередь большой мультимаркерный гаплотип региона MHC-HLA на 6 хромосоме, а также ряд участков с высоким уровнем LD. Это значительно улучшит результатЭто наблюдение особенно применимо к относительно гомогенным, однородным популяциям северо-восточной Европы.

Возвращаясь к обсуждаемой статье,  можно сказать,  что  краеугольным рабочим методом в этой статье является  расширенный fastIBD анализ большого количества геномных образцов представителей практически всех тюркских народов. В работе присутствуют и более привычные результаты Admixture и PCA анализов структуры генофонда тюркских популяций; однако, на мой личный взгляд, они менее важны в силу тривиальности результатов и легкой повторяемости эксперимента.

Выводы авторов, вынесенные в абстракт статьи, вряд ли вызовут сомнение в своей правильности у большинства историков:

1) Большинство тюркских народов изученых в данной статье, (за исключением тюрков Центральной Азии), генетически напоминают своих географических соседей,  что хорошо согласуются с моделью языковой экспансии, в которой тюркские языки — как языки доминирующей элиты -распространялись  кочевой элитой.

 

Turkic-Speaking Nomads_small
2) 2) Западные тюркские народы в выборке Западной Евразии характеризуются эксцессом длинных хромосомных сегментов, которые идентичны по своему происхождению (IBD) с большей частью населения современной Южной Сибири и Монголии (SSM),  т.е в той области, где историки отмечают концетрацию серию ранних тюркских и не -тюркских степных политических  объединений. При всем этом, наблюдаемый избыток длинных  общих по генеалогическому происхождению IBD сегментов (> 1 сентиморгана) между популяциями из региона Южной Сибирии и Монголии и тюркских народов всей Западной Евразии была статистически значимой.
Untitled
3) Примененные в исследовании методы датировки событий генетического смешения групп популяций (метод ALDER и SPCO) показали у тюрских народов присутствие сигнала смешивания различных предковых группы в интервале между ~ 9-17-ыми векми нашей эры. Несмотря на принципиальную разницу между этими методами, они дали идентичные результаты, что придает дополнительную надежность вычисленному интервалу И этот интервал перекрывается интервалом тюркских миграций с 5-го по 16 века.

Примечание 1. Мой комментарий

Как я уже отмечал выше, несмотря на всю тривиальность результатов,  эту публикацию Юнусбаева et al. 2014 следует отнести к важным работам, поскольку впервые методы оценки времени слияния популяция — ALDER и SPCO были использованы для анализа популяций без явного намека на смешения, расширявшихся в уже историческое время. Ранее эти методы использовались либо при изучении древних доисторических процессов (например, смешивания неолитического и мезолитического населения Европы). либо с использованием классических «смешанных» популяций (мозабитов, пуэрто-риканцев, карибцев и так далее).
В этой связи, заслуживает внимание результаты ALDER для группы тюркских популяций Центральной Азиии (Table 3 в сапплементе к статье), в третьей колонке которой показана датировка событий «смешивания» в поколениях (которые пересчитаны в 4 колонке на года), и это событие приходится на интервал между 13 и 14 веками нашей эры, то есть во времена Золотой Орды :

Kazakhs Italians (North Italy) Tujia 23.72±1.61 1288±48 0.00039184±0.00002155
Kyrgyz Orcadians Japanese 22.02±1.00 1339±30 0.00035833±0.00001271
Uzbeks Italians (North Italy) Tujia 22.07±1.47 1338±44 0.00036534±0.00001432
Karakalpaks Italians (North Italy) Naxi 22.69±1.89 1319±57 0.00044112±0.00001912

Однако не все просто. Еще в ноябре 2012 года при обсуждении характерных особенностей митохондриальных гаплогрупп жителей Евразии (в статье Клио дер Саркиссян), я решил проверить, насколько эта модель гаплоидной вариативности находит свое подтверждение в анализе диплоидных аутосомных маркеров.

Для этих целей я использовал программу ALDER: Admixture-induced Linkage Disequilibrium for Evolutionary Relationships,  специально разработанную для формального обнаружения в анализируемой популяции сигнала смешивания двух и более  исходных популяций.В качестве эксперимента я выбрал две современные популяции — казахов и узбеков.

Как видно, полученные мной результаты оказались очень похожи на результаты из более поздней статьи Юнусбаева et al. 2014

Из полученных результатов были отобраны только те успешные результаты, которые прошли формальные критерии отбора (статистический значимый уровень экспонентного угасания неравновесного сцепления маркеров(LD curve is significant) и наличие двухсторонней корреляции между кривыми угасания неравновесного сцепления маркеров в обеих референсных популяциях(decay rates are consistent)).

Результаты по узбекам

DATA: success 3.7e-18 Uzbek Italian-Center Mongol 9.54 9.15 5.18 13% 22.94 +/- 2.41 0.00024041 +/- 0.00001438 23.78 +/- 2.60 0.00006319 +/- 0.00000406 26.14 +/- 5.05 0.00006772 +/- 0.00000894
DATA: success 5.8e-33 Uzbek Sicilian Kyrgyz 12.59 8.51 4.94 19% 23.50 +/- 1.87 0.00015817 +/- 0.00001067 25.77 +/- 3.03 0.00005899 +/- 0.00000443 28.44 +/- 5.76 0.00003069 +/- 0.00000506
DATA: success 6.9e-25 Uzbek Sicilian Mongol 11.03 8.51 5.18 7% 24.49 +/- 2.22 0.00024382 +/- 0.00001210 25.77 +/- 3.03 0.00005899 +/- 0.00000443 26.14 +/- 5.05 0.00006772 +/- 0.00000894
DATA: success 4e-23 Uzbek Sicilian Kalmyk 10.66 8.51 5.56 16% 24.46 +/- 2.29 0.00022326 +/- 0.00001473 25.77 +/- 3.03 0.00005899 +/- 0.00000443 28.67 +/- 5.16 0.00006591 +/- 0.00000891
DATA: success 0.00077 Uzbek Sicilian Nogai 5.12 8.51 2.26 10% 23.79 +/- 4.56 0.00001986 +/- 0.00000388 25.77 +/- 3.03 0.00005899 +/- 0.00000443 23.24 +/- 10.27 0.00001138 +/- 0.00000317
DATA: success 9.8e-21 Uzbek Sardinian Kyrgyz 10.14 9.82 4.94 17% 23.96 +/- 2.36 0.00016455 +/- 0.00001038 27.67 +/- 2.82 0.00007013 +/- 0.00000589 28.44 +/- 5.76 0.00003069 +/- 0.00000506
DATA: success 2e-20 Uzbek Sardinian Mongol 10.07 9.82 5.18 10% 25.15 +/- 2.50 0.00025559 +/- 0.00001310 27.67 +/- 2.82 0.00007013 +/- 0.00000589 26.14 +/- 5.05 0.00006772 +/- 0.00000894
DATA: success 6e-13 Uzbek Sardinian Kalmyk 8.20 9.82 5.56 19% 23.64 +/- 2.88 0.00022058 +/- 0.00001440 27.67 +/- 2.82 0.00007013 +/- 0.00000589 28.67 +/- 5.16 0.00006591 +/- 0.00000891
DATA: success 0.00011 Uzbek Sardinian Nogai 5.48 9.82 2.26 17% 24.99 +/- 4.56 0.00002279 +/- 0.00000367 27.67 +/- 2.82 0.00007013 +/- 0.00000589 23.24 +/- 10.27 0.00001138 +/- 0.00000317
DATA: success 1.5e-28 Uzbek German Kyrgyz 11.77 9.19 4.94 25% 22.14 +/- 1.88 0.00012893 +/- 0.00000925 24.85 +/- 2.70 0.00004544 +/- 0.00000443 28.44 +/- 5.76 0.00003069 +/- 0.00000506
DATA: success 6.9e-21 Uzbek German Mongol 10.17 9.19 5.18 7% 24.40 +/- 2.40 0.00021733 +/- 0.00001182 24.85 +/- 2.70 0.00004544 +/- 0.00000443 26.14 +/- 5.05 0.00006772 +/- 0.00000894
DATA: success 2.8e-16 Uzbek German Kalmyk 9.08 9.19 5.56 22% 23.04 +/- 2.54 0.00018456 +/- 0.00001210 24.85 +/- 2.70 0.00004544 +/- 0.00000443 28.67 +/- 5.16 0.00006591 +/- 0.00000891

Результаты казахов:

DATA: success 4.7e-17 Kazakh Italian-Center Kalmyk 9.27 7.06 2.63 17% 22.06 +/- 2.38 0.00022347 +/- 0.00001893 25.42 +/- 3.60 0.00012981 +/- 0.00001327 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 3.5e-18 Kazakh German Kalmyk 9.54 6.39 2.63 18% 21.71 +/- 2.27 0.00021450 +/- 0.00001602 23.54 +/- 3.68 0.00012169 +/- 0.00001026 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 2.6e-23 Kazakh Russian_Center Kalmyk 10.70 6.64 2.63 17% 22.19 +/- 2.07 0.00023388 +/- 0.00001645 21.86 +/- 3.29 0.00012520 +/- 0.00001320 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 2.1e-22 Kazakh Russian_South Kalmyk 10.50 7.12 2.63 25% 20.31 +/- 1.93 0.00021745 +/- 0.00001580 20.82 +/- 2.93 0.00012386 +/- 0.00001116 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 0.019 Kazakh Slovakian Mari 4.48 8.09 3.45 17% 17.26 +/- 3.86 0.00002773 +/- 0.00000574 19.08 +/- 2.36 0.00011870 +/- 0.00001088 16.06 +/- 4.65 0.00003481 +/- 0.00000667
DATA: success 1.6e-29 Kazakh Ukrainian Kalmyk 11.95 6.93 2.63 23% 20.58 +/- 1.41 0.00021665 +/- 0.00001813 20.75 +/- 3.00 0.00011940 +/- 0.00001005 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 1.5e-14 Kazakh Ukrainian-East Kalmyk 8.63 5.90 2.63 23% 20.58 +/- 2.38 0.00022215 +/- 0.00001803 21.97 +/- 3.72 0.00012517 +/- 0.00001419 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 0.0014 Kazakh CEU_V Nogai 5.02 5.49 3.30 17% 20.84 +/- 4.16 0.00001984 +/- 0.00000315 19.20 +/- 3.50 0.00012065 +/- 0.00001375 17.52 +/- 5.31 0.00004319 +/- 0.00000772
DATA: success 0.00025 Kazakh British Mari 5.33 6.99 3.45 24% 20.42 +/- 3.83 0.00003281 +/- 0.00000478 19.18 +/- 2.74 0.00012196 +/- 0.00001159 16.06 +/- 4.65 0.00003481 +/- 0.00000667
DATA: success 0.0064 Kazakh British Nogai 4.71 6.99 3.30 18% 21.09 +/- 4.48 0.00002087 +/- 0.00000321 19.18 +/- 2.74 0.00012196 +/- 0.00001159 17.52 +/- 5.31 0.00004319 +/- 0.00000772
DATA: success 5.8e-22 Kazakh Orcadian Kalmyk 10.41 6.62 2.63 23% 20.59 +/- 1.98 0.00023474 +/- 0.00001737 21.83 +/- 3.30 0.00013779 +/- 0.00001201 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 0.004 Kazakh Bulgarian Nogai 4.80 6.98 3.30 21% 21.66 +/- 4.51 0.00001853 +/- 0.00000339 21.33 +/- 3.06 0.00012336 +/- 0.00001168 17.52 +/- 5.31 0.00004319 +/- 0.00000772
DATA: success 3.1e-19 Kazakh Karelian Kalmyk 9.79 5.77 2.63 21% 21.05 +/- 2.15 0.00019192 +/- 0.00001302 21.12 +/- 3.66 0.00009774 +/- 0.00001073 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 0.011 Kazakh Mari Bosnian 4.60 3.45 6.44 16% 17.56 +/- 3.82 0.00003003 +/- 0.00000554 16.06 +/- 4.65 0.00003481 +/- 0.00000667 18.79 +/- 2.92 0.00012259 +/- 0.00001136
DATA: success 0.0057 Kazakh Mari Greek_Azov 4.73 3.45 9.00 21% 16.97 +/- 3.59 0.00002322 +/- 0.00000431 16.06 +/- 4.65 0.00003481 +/- 0.00000667 19.87 +/- 2.21 0.00010948 +/- 0.00000811
DATA: success 5.2e-33 Kazakh Chuvash Kalmyk 12.60 5.88 2.63 14% 24.10 +/- 1.91 0.00014440 +/- 0.00000896 22.75 +/- 3.87 0.00005482 +/- 0.00000595 26.05 +/- 8.19 0.00002219 +/- 0.00000844

Результаты говорят сами за себя.  Как и в большинстве случаев с центральноазиатскими популяциями, один из компонентов адмикса у узбекв и казахов представлен монголоидным популяциями, наиболее близкими к современным монголам, киргизам и калмыкам. В контексте обсуждаемой работы о древнем митоДНК, этот компонент можно обозначать как «восточноевразийский». Другой компонент у узбеков представлен популяциями близкими по частотам аллелей к  современным западноевропейским популяциям (таким как немцы, cардинцы, сицилийцы и прочие). Кроме того в результатах анализа угасания admixture-LD казахов присутствует хорошо заметный сигнал адмикса с предками современных чувашей, марийцев и карел. Этот феномен, опять-таки в контексте парадигмы исследования древнего ДНК, можно объяснить с помощью грубой аппроксимации: как было убедительно показано в работе Дерсаркиссян, митоДНК древние скифы из ареала современной Кубани и нижнего Поволжья напоминают ряд современных поволжских популяций, а также карелов. Это же касается и сигнала о смешивании с предками более отдаленных европейских популяций (британцев, скандинавов и так далее). В свете аутосомного анализа вынужден согласится с одним из ключевых выводов Дерсаркиссян, согласно которому западноевропейские аллели были привнесены в степени Казахстана и Алтай при посредничестве популяций скифов и сарматов.

Стоит еще отметить, что у узбеков в отличие от казахов поток европейских аллелей имеет несколько иной источник, и скорее всего связан с распространением в Центральной Азии носителей «неолитических средиземнорских аллелей».

Подводя итоги, необходимо сказачть, что определенные трудности представляет интерпретация датировки европейского адмикса у казахов и узбеков. Поскольку этот адмикс датируется примерно одинаковым интервалом 30-25 поколений до нашего времени, что примерно соответсвует периоду завоевательных походов монголов. Однако, представляется трудно допустимым, что европеидное население казахской степи могло сохранится в значительном количестве вплоть до эпохи монголов, или что земледельческое население Средней Азии — сарты — было в генетическом плане европеоидно. Лично я склоняюсь к следущей интерпретации:  смешивание европейского и восточноазиатского компонента произошло намного ранее монгольской эпохи, заниженная дата этого события есть прямое следствие последущего эфекта дрейфа генов и фиксации части аллелей.

Примечание 2. Комментарий профессионального историка

Хорошая работа. Но это — еще самое начало пути. Пока идет процесс верификации используемых методов. Очень важно, что результаты в целом совпали с тем, что говорят исторические источники. Для генетиков это хорошо, но для историков — тривиально. Действительный интерес появится, когда станет возможно давать такие ответы, которые историки своими методами добыть не могут. А этого пока нет.
Я на заре своей научной карьеры аналогичные выводы получил, используя всего один интегрированный фенотипический признак — индекс уплощенности лицевого скелета. По трудозатратам это было несопоставимо. Да, теперь эти выводы обоснованы гораздо надежнее. Но хочется гораздо большего.

Визуализация количества общих (IBD) сегментов — часть вторая

Обзор волжско-уральских популяций я хочу начать несколько издалека — с карты для селькупа из селения парабель Томской области. В какой-то мере он служит той же цели, что и литовец в предыдущей части:

Selkup-ParabelIBD

Пересечение с соседями по западной Сибири зашкаливает, как и положено для небольших групп с высоким уровнем генного дрейфа. Однако интересно не это, а выбросы на запад — к башкирам, удмуртам, марийцам. чувашам. Видно и повышение у саами. Таким образом, здесь мы наблюдаем распространение «уральского» генетического компонента.

Очень специфичной популяцией являются и марийцы. Уровень «эффекта ашкенази» получился намного выше, чем у самих ашкенази. Таким образом, все народы, имеющие хоть в сколько-нибудь заметной степени общих предков с марийцами, хорошо видны на карте:

MariIBD

В первую очередь это чуваши, сильно влияние у выборки казанских татар, удмуртов, манси и башкир. Вот это и есть «волжско-уральский круг популяций». Интересно, что коми и удмурты оказались в разных категориях, несмотря на языковое родство. Впрочем. как видно по карте коми-зырянина в предыдущей части, есть между ними и генетические пересечения.

100% чуваша из коммерческих выборок у меня нет, однако человек наполовину чувашского происхождения проявляет сходство как с чувашами, так и с марийцами. В отличие от предыдущей карты, чуваши у него на первом месте (это видно в таблице, поскольку картограф обрезал оба зашкаливающих значения до допустимого максимума) :

Chuvash-MokshaIBD

А вот нижегородские мишари более уместно смотрелись бы в предыдущей части заметки:

Mishar-NizhniyIBD

Родство с балто-славяно-финским кругом популяций явно более выражено. чем с волжско-уральским.

Татарин смешанного казанско-мишарского происхождения, южная часть Татарстана:

Tatar-SamaraIBD

Еще раз напомню — неправомерно на основании наиболее яркого пятна у марийцев говорить, что этот человек наиболее близок марийцам. Наличие общих предков с этим народом проявляется в разы ярче из-за «ашкенази-эффекта». То, что татарско-казанская выборка гораздо бледнее, объясняется тем, что татары — более крупный народ с высоким генетическим разнообразием.

Татарин с Урала (часть предков-башкиры):

Tatar-Bashkir-UralIBD

Как ни странно, я не просчитал ни одного «классического» казанского татарина, увлекшись краевыми случаями. Возможно, у него казанская выборка оказалась бы ярче. Эту задачу оставим на будущее.

Башкир:

BashkirIBD

Интересно продление пятна на северо-восток, к уральским народам вплоть до юкагиров.

У сибирского татарина видна общность с селькупами и марийцами. Вспоминая яркость на карте парабельского селькупа, степень этой общности не так уж и велика. Виден и вклад из монгольских степей.

Tatar-SiberianIBD

Неожиданно, у казаха количество общих сегментов с восточносибирскими популяциями оказалось выше, чем с собственно казахской выборкой:

KazahIBD

На ум приходят два объяснения — гетерогенность казахов и более высокий уровень «ашкенази-эффекта» у восточносибирских народов. Впрочем, я недостаточно владею информацией по этногеномике казахов, чтобы строить предположения.

Результаты казаха замыкают мое исследование. Не скажу, что в его результате я открыл для себя что-то сильно новое и неожиданное, однако общая картина стала более понятной и наглядной. Эксперимент мне понравился.

Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии

Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии.

Этнокалькуляторы на базе Admixture, представляющие результат «просчета» генома испытуемого в виде смеси предковых компонентов, достигли уже очень хорошей точности. Однако у них есть и определенные недостатки. Во-первых, случается, что у двух разных народов пропорции смешения этих компонентов довольно близки, хотя близкого родства между ними не наблюдается. Обычно для исключения такого эффекта увеличивают число компонентов, то есть повышают детализацию. Однако при этом зачастую возрастает и «шумность», случайные отклонения от ожидаемых значений. Кроме того, бывает тяжело понять — смешение произошло в предыдущем поколении, или тысячу лет назад? Если человек происходит из двух отдаленных народов, он часто позиционируется в географической точке, находящейся между ними, и непохож ни на один из родительских народов. При более сложносоставном происхождении все запутывается еще сильнее.

Нет ли метода напрямую измерить уровень родства отдельного человека с той или иной популяцией? При такой постановке вопроса сразу приходит на ум один из возможных ответов — необходимо просчитать количество IBD (то есть идентичных благодаря общности происхождения) аутосомных сегментов. Такой подход уже реализован в утилите от 23andMe под названием Countries of Ancestry, однако с рядом заметных недочетов. Используются результаты опроса пользователей сервиса о стране их происхождения, при этом непонятно, каков размер выборки от каждой страны. Да и детализация уровня «страна» для жителей России явно не подходит — зачем мешать в одну кучу карел, осетинов и якутов.

К счастью, эти проблемы можно частично устранить, используя научные выборки (либо коммерческие, однако набрать подобный объем из коммерческих выборок мне сейчас не по силам). С удешевлением процесса генотипирования количество имеющихся в открытом доступе выборок начало быстро расти. В первую очередь я использовал выборки, выложенные на сервере Эстонского биоцентра . Они стали основой. Часть пробелов была заполнена выборками из недавней работы Hellenthal , их пришлось переконвертировать из build 36 в build 37. Отдельное спасибо Вадиму Вереничу за помощь с несколькими выборками, хорошо увеличившими охват этнокарты.

Главной сложностью в работе оказалось сведение геномов из всех источников вместе. В каждой научной работе использовался свой набор снипов, часто с разной ориентацией. Коммерческие выборки тоже неоднородны — например, в FTDNA, как оказалось, существует четыре варианта файлов raw data со слегка отличающимся набором снипов и разной ориентацией примерно трех сотен из них. Добавьте к этому два варианта выравнивания и трансферы из 23andMe (у которой нашлись свои заморочки, например, дублирование одних и тех же снипов под разными названиями).

Конечно, хотелось использовать как можно большее количество снипов. Однако после ряда попыток придумать коэффициенты пересчета и прочее, стало понятно, что это методологически неверно. Пришлось оставить лишь те снипы, которые присутствовали во всех используемых выборках, в стандарте FTDNA, а также на чипе v3 от 23andMe. Вероятно, в будущем придется включить в просчет и новый, четвертый чип от этой компании, однако пока я решил с ним не связываться. В общем итоге осталось около 244 тысяч снипов — не так уж мало, я опасался худшего. От покрытия FTDNA это составляет чуть больше трети.

Компания FTDNA и сервис Gedmatch используют для фильтрации общих сегментов критерий наличия не менее 700 снипов. Однако для мелких сегментов он выполняется не так уж часто (из-за чего у клиентов FTDNA возникает иллюзия сравнительно небольшого количества таких сегментов). Поэкспериментировав, я остановился на рубеже в 150 снипов — менее него количество сегментов, являющихся статистическими артефактами, начало быстро расти. Основным показателем для отрисовки на этнокарте я взял общую сумму сегментов длиной более 3 сМ. Конечно, более длинные сегменты являются более четким показателем родства, однако их заметно меньше. А это значит, что их количество более подвержено случайным отклонениям. С другой стороны, более мелкие сегменты сливаются в общую кашу. Таким образом, выбранный критерий является компромиссом. При увеличении объема выборок на порядки станет возможно использовать только длинные сегменты и улавливать родство более четко.

Метод дает релевантные результаты при сравнении с выборками свыше 10 человек. Чем меньше размер выборки, тем сильнее влияние случайных отклонений. Из-за этого часть выборок я объединил вместе (например, литовцы и латыши стали балтами), часть исключил с карты. Однако некоторые все же пришлось оставить — в первую очередь это финны (2 человека), западные украинцы (6), башкиры (6) и австрийцы (4). Если для какой-то популяции значения явно выпадают из ряда соседей, всегда обращайте внимание на размер выборки, приведенный в сопроводительной таблице.

Одновременно достоинством и недостатком метода является сильное влияние «эффекта основателя», «множественного родства», «бутылочных горлышек» и т.д. За этим перечислением скрывается примерно одно и то же — когда популяция происходит от сравнительно небольшой группы людей, ее члены разделяют между собой большое количество общих сегментов. Наиболее известным примером являются евреи-ашкенази — достаточно иметь одного отдаленного предка из этого народа, чтобы получить множество генетических «кузенов». Таким образом, родство с народом, подвергшемуся такому эффекту, видно более четко. Но это же искажает общую картину — одинаковое количество генетических пересечений может означать совершенно разную степень близости в зависимости от истории популяции.

Я сравнил 26 человек из коммерческих выборок, представляющие различные популяции интересующих меня регионов, с набором из 1130 геномов, взятых из научных выборок. Результаты сведены в таблицу и частично визуализированы на картах. При интерпретации помните о вышеперечисленных искажениях!

Начнем с представителя народа, считающегося наиболее архетипичными восточноевропейцами в большинстве этнокалькуляторов. Это литовцы (картинка увеличивается по клику):

 

LithuanianIBD

Как видно, литовец оправдывает это звание и по количеству общих сегментов. Красное пятно закрывает большую часть Восточной Европы, в том числе и балтийских финнов. Условно говоря, на этой карте мы видим некий «базовый уровень родства» среди восточноевропейцев.

Пятно восточного финна практически совпадает по форме, однако распределение интенсивности иное:

Finnish-EastIBD

Я бы сказал, что в основном это более частный и специфичный вариант того же, что мы видим у литовца. Доказательством может служить высокий уровень пересечения с балтской выборкой. В то же время, существует и финская специфика, например, пересечение с саами, которые у литовца довольно бледные. Более яркое и пересечение со шведами. Скорее всего, здесь мы видим результат включения в состав шведов финского субстрата, поскольку с теми же норвежцами интенсивность явно ниже.

Крайней западной точкой у нас будет представитель российских немцев. На этнокалькуляторах Admixture он получается достаточно типичным представителем немецкого народа, поэтому версию о заметном влиянии на его наследственность русских можно исключить.

German_RussiaIBD

К сожалению, немецкой выборки у меня нет, поэтому Германия закрашена серым. Некоторым заменителем является Швеция, которая чуть ярче соседей. К некоторому  удивлению, французы и британцы не показали заметной общности с немцем, хотя ее уровень все же выше средневосточноевропейского. Частично это может объясняться тем, что в британской выборке лишь семь человек из 23 — англичане, остальные являются ирландцами. шотландцами и валлийцами. Пятно у восточных украинцев и южных русских также загадочно — неужели это след знаменитых готов?

Невозможно исследовать генетическое разнообразие восточноевропейцев и обойти при этом ашкенази. Поэтому я позволил себе небольшую некорректность и разместил их на карте в районе нынешней Одессы. Картинка для ашкенази из коммерческой выборки:

AshkenaziIBD

Ожидаемое ярко-красное пятно сходства с родной популяцией, остальные все довольно далеко (на втором месте получилась выборка сефардов, но ее на карте нет). Повышение у басков и греков показывает родство ашкенази со средиземноморскими популяциями, пятно у восточных украинцев и белорусов объяснимо длительным совместным проживанием.

Перейдем к восточным славянам. Небольшой размер выборки западных украинцев не помешал им оказаться на первом месте у карпатского русина:

Carpathian_RusinIBD

Пятна на остальной территории получились довольно неровными. Я бы не стал делать из этого каких-то глубоких выводов о древних пересечениях карпатцев и финнов или эрзян.

Северо-восточная Беларусь:

BelarusianIBD

Украина (Полтава):

Ukrainian-PoltavaIBD

Обращает на себя внимание пересечение с поляками.

Человек смешанного происхождения — донские казаки и украинцы:

RuUa-CossackIBD

Тверь-Рязань:

Russian-CenterIBD

Как видно, балто-славянская общность улавливается всегда, в то время как более тонкие различия частично видны, частично скрываются шумом (случайными отклонениями).

Представители эрзи и мокши явно в своей основе близки балто-славянам. При этом балтийские финны никак не выделяются, а народы волго-уральского региона уже довольно далеки. Все это не является новостью для интересующихся темой людей, однако независимое подтверждение результатов показывает действенность методики.

Эрзя:

ErzyaIBD

Мокша:

MokshaIBD

Мокшанская выборка не помещена на карту из-за своего маленького размера (давала слишком большие случайные отклонения). У мокши «родная» выборка получилась заметно ближе эрзянской, у эрзи, соответственно, наоборот. Вероятно, это значит, что, несмотря на родственность двух групп, различие между ними с точки зрения разделяемой популяционной истории существенно (простыми словами, женились преимущественно внутри своего народа).

У северного русского видно родство как с балто-славянскими выборками, так и с балтийскими финнами:

Russian-NorthIBD

Наряду с этим, у русского из Пермского края ощущается влияние коми. Вероятно, с этим же связано и приближение других народов Урала:

Russian-PermIBD

В то же время, сами коми-зыряне скорее относятся к тому же «балто-славяно-финскому» кругу популяций:

KomiIBD

Чтобы не делать пост бесконечным, карты для народов волжско-уральского региона (в широком смысле) будут приведены в следующей части.

Гагаузы: ALDER анализ

Недавно я прочитал книгу о этногенезе гагаузов « Очерки истории гагаузов — потомков огузов (середина VIII- начало XXI вв.)» Федор Ангели.

На странице 285 при описании процесса заселения территории современной Гагаузии, Ангели приводит интересную информацию: » В официальном приеме иммигрантов царские власти не были последовательными. В 1770 году они на 12 лет запретили переселение иностранцев в Россию. Процесс этот возобновился в 1782 году. Колонистов стали расселять в Херсонской губернии. Вначале это были, в основном, шведы, а затем их ряды стали пополнять немецкие колонисты. Переселенцев с Балканского полуострова было мало. Подчеркнем, однако, что царские власти предоставляли широкую возможность выходцам из балканских народов, служившим в русской армии, обосноваться в пределах империи. Среди этой категории колонистов были гагаузы, болгары, греки.»

Не вызывает никакого сомнения, что гагаузы как относительно молодая популяция представляют собой интересный объект исследования процессов смешивания разных групп популяций. Именно поэтому я решил протестировать возможности программы ALDER применительно к  анализу гагаузов, благо что в моем проекте MDLP имеются данные по 7 гагаузам.

Как и в серии предыдущих анализов ALDER, я использовал дефолтные параметры программы, а также отфильтровал те результаты, которые соответствовали строгим условиям статистической значимости.  С целью еще более тщательного анализа, я также исключил из «положительных» результатов те комбинации, в которых датировка события смешивания популяций либо стремилась к нулю, либо давала громадный разброс значений в доверительном интервале.

Для всех референсных популяций в отфильтрованных комбинациях был расчитан нижний порог %- истинного адмикса.
Во избежание конфуза необходимо сделать важное примечание: согласно мануалу программы ALDER — «in practice, the true mixing population A is not available for sampling, but a closely-related population A0 may be. In this case, the value of a^ given by equation (12) with A0 in place of A is a lower bound on the true mixture fraction (Appendix 1).»  (На практике, истинная исходная популяция микса чато не доступна для сэмплирования, и вместо нее в выборке присутствует близкородственная популяция A0. В этом случае значение a^, заданное уравнением (12) с заменой  A0 вместо A  — является нижней границей на истинную фракцию микса (Приложение 1).)  Иными словами, это значение определяет насколько близка референсная популяция в выборке к истинной популяции адмикса.


Как видно, большинство дат предполагаемых событий адмикса попадает в интервал 13-14 поколений тому назад, то есть середина и  конец 16 века. Это был период когда предки гагаузов жили на территории Османской империи в провинции Добруджа. Единственная комбинация, выпадающая из этого тренда — калмыки+чуваши— дает датировку, верхний интервал которой попадает в эпоху распада Золотой Орды. Но основная часть приходится на середину-конец 16 века.

Любопытно, что датировка  подтверждается данным глоттохронологии в работах Мудрака (Язык во времени. Классификация тюркских языков.Лекция Олега Мудрака. 30 апреля 2009, 11:18): «Самые поздние деления. Вот делятся между собой язык гагаузский и язык турецкий. Гагаузы живут на территории Молдавии, Добруджи, Добруджа – это устье Дуная и сопредельные территории в северо-западном углу Черного моря. Про гагаузов, в том числе и у них самих, существует много разных легенд. Свое название они этимологизируют как «голубые» или «синие огузы», что, по-видимому, правильно. Но они считают, что они появились еще с тех времен, когда существовали печенеги, что они являются прямыми наследниками тех кочевых народов, про которых говорили и писали древнерусские летописи и византийские хроники. Это не так. При некоторой натяжке можно говорить, что гагаузский является просто диалектом турецкого языка. Его глубина очень мала и соотносима с глубиной голландского по отношению к африкаанс. Африкаанс – это язык голландских колонистов, попавших в Южную Африку. Оказалось, что все эти узлы ложатся на некоторые значимые исторические даты. Время распада гагаузского и турецкого – 1610-е годы плюс минус 10 лет. Это попадает на договор Житва-торок. По этому договору территория Валахии и Молдавии получают автономию, став независимыми господарствами в рамках Османской Империи. Там вводится своя администрация. Это была полоса неудач для Османской Империи. С этого момента получается, что туркоязычное население этих территорий прекращает прямой контакт с остальным населением и начинает оформляться гагаузский язык.«

Значения нижнего порога истинного адмикса (mixture fraction lower bound) по статистически значимым популяциям дают четкое представление о процессе этногенеза гагаузов, основу которого составляют балканские и карпатские популяции. Наиболее близкими к истинным популяциям адмикса оказываются популяции черногорцев, греков из центральной части Греции,  словаки и поляки. Самая близкая к истинной популяции адмикса тюркская популяция — популяция чувашей — имеет относительно низкое значение этого параметра 20.2+-8.0 %. Примечательно также присутствие североевропейского компонента, представленного в популяциях шведов, СEU и эстонцев.

Target ReferenceA ReferenceB Admixture dating Mixture fraction % Mixture fraction %
Gagauz Estonian Montenegrin 16.06+/-7.58 50.3 +/- 10.2 87.6 +/- 5.4
Gagauz Lithuanian_V Greek_Center 10.93+/-8.63 59.7 +/- 12.6 84.1 +/- 8.6
Gagauz Russian_V Greek_Center 10.81+/-3.91 68.0 +/- 9.1 84.1 +/- 8.6
Gagauz Nenets Greek_Center 8.99+/-4.54 2.5 +/- 1.1% 84.1 +/- 8.6
Gagauz Slovenian Greek_Center 12.11+/-9.33 79.6 +/- 9.5 84.1 +/- 8.6
Gagauz Nenets Polish 9.12+/-3.23 2.5 +/- 1.1% 69.0 +/- 6.2%
Gagauz Swedish Russian_V 10.75+/-3.1 58.9 +/- 9.9 68.0 +/- 9.1
Gagauz Slovakian CEU 12.8+/-9.45 78.7 +/- 6.7 66.1 +/- 12.2
Gagauz Ukrainian-West Nenets 9.24+/-3.76 74.9 +/- 8.1 2.5 +/- 1.1%
Gagauz Russian_Center Kalmyk 14.09+/-3.26 64.4 +/- 12.1 1.5 +/- 0.6
Gagauz Chuvash Kalmyk 12.13+/-12.05 20.2 +/- 8.0 1.5 +/- 0.6

Генетика носителей пазыркской культуры

Пазырыкская культура — археологическая культура железного века (6—3 вв. до н. э.), созданная скифами (у населения преобладали европеоидные черты, основное занятие – кочевое скотоводство). Была распространена на смежных территориях Казахстана, Республики Алтай и Монголии. Основной центр – Горный Алтай. Там обнаружена большая часть памятников.

Культура названа по памятнику в урочище Пазырык Улаганского района. Там в 1929 году академиком Руденко были раскопаны усыпальницы племенной знати. Эти гробницы представляли собой деревянные срубы. В силу особых климатических условий мумии вождей имеют отличную сохранность. Кожа мумий покрыта сложной татуировкой —  самыми древними образцами татуировки в мире.

С тех пор, как генетики научились извлекать ДНК из древних останков, пазыркские мумии уже не раз становились объектом палеогенетических исследований:

«Как было показано специалистами из Новосибирского института цитологии и генетики СОРАН, генетическими наследниками пазырыкских племен, вероятнее всего, являются современные самодийцы (селькупы и кеты),

населяющие северо-запад Сибири. Они пришли туда, вытесненные со своих территорий племенами хунну, двигавшимися с востока на запад. Впрочем, некоторые генетические данные (А. С. Пилипенко и др., 2011. Митохондриальная ДНК женщины из пещеры Каминная (Горный Алтай) эпохи позднего неолита, PDF, 1,22 МБ) говорят о более раннем (в IV–III тысячелетии) присутствии западных и восточных элементов в генофонде алтайского населения. Если это верно, то движение скифов (точнее, их потомков) в восточном направлении в VII–VI веках до н. э. только усилило перемешивание алтайского генофонда, но не перекроило по-новому его генетический узор. На сегодняшний день этнографы ставят вопрос об алтайском населении следующим образом: как экспансия скифов на восток изменила генофонд алтайцев во время железного века? Иными словами, насколько высока доля генетических вариантов, привнесенных в ходе западной экспансии в середине первого тысячелетия до н. э.?

Можно попытаться ответить на последний вопрос c помощью эксперимента в ALDer с популяцией современных алтайцев, используя ширкопанельную линейку снипов.Вот исходные параметры эксперимента (если кто хочет, может его повторить)


genotypename: /storage/hpchome/vadim78/admixtools/bin/reference.geno
snpname: /storage/hpchome/vadim78/admixtools/bin/reference.snps
indivname: /storage/hpchome/vadim78/admixtools/bin/reference.ind
num_threads: 10
jackknife: YES
output: Altaic
seed: 77
mindis: 0.001
admixpop: Altaic
refpops: Italian-Center;Sicilian;Sardinian;German;Lithuanian_V;Lithuanian;Latvian;Belarusian;Swedish;Polish_V;Russian_V;Russian_Center;Latvian_V;Inkeri;Russian_South;Ukrainian_V;Slovakian;Czech;Sorb;Estonian;Ukrainian;Belarusian_V;Ukrainian-East;Ukrainian-West;Mordovian;CEU;CEU_V;British;French;Orcadian;German-South;German-North;German_V;Bulgarian;Finnish-North;Cirkassian;Russian_cossack;Saami;Udmurd;Komi;Karelian;Vepsa;Mari;Bashkir;Nenets;Hant;Chuvash;Mansi;Finnish-South;Polish;Gagauz;Moldavian;Romania;Bosnian;Adygei;Croatian;Serbian;Slovenian;Montenegrin;Macedonian;Kosovar;Austrian;Greek_Azov;Greek_Center;Greek_North;Greek_South;Tatar_Crim;Azeri;Tadjik;Kyrgyz;Kazakh;Georgian;Georgian_Imereti;Georgian_Laz;NorthOssetian;Armenian;Kumyk;Chechen;Turk;Turkmen;Uzbek;Mongol;Karakalpak;Lak;Balkarian;Lezgin;Abhkasian;Kalmyk;Syrian;Kurd;Tabassaran;Hakas;Altaic;Tatar_Kryashen;Tartar_Mishar;Parsi;Avar;Nogai;Italian-North;Hungarian;Mongola;Hezhen;Uygur;Tu;Tujia;Xibo;Yakut;Buryat;Dolgan;Han-Beijing;Selkup;Ket;Nganassan 

Обсуждение

В данном эксперименте я использовал строгие критерии отбора: результаты формального теста должны быть статистически значимыми, взвешенная кривая экспонентная угасания LD должна иметь корреляцию у обеих рефренсных групп.
Единственный результат который отвечает этим критериям выглядит следущим образом:

DATA: success 4.7e-15 Altaic Sardinian Hezhen 8.79 8.88 2.97 25% 46.59 +/- 5.30 0.00043780 +/- 0.00002198 52.04 +/- 5.86 0.00021948 +/- 0.00001510 59.90 +/- 20.19 0.00007601 +/- 0.00001223

Популяция Hezehn (нанайцы) являются в данном контексте представляют собой «чистый» прототип носителей байкальского антропологического типа с небольшой примесью северного китайского антропологического компонента. Cардинцы — «чистый европейский компонент».

Время смешения этих групп датируется программой ALDER интервалом 46.59 +/- 5.30 поколений до нашего времени. То есть 1500-1200 лет тому назад, т.е. временами выхода на историческую арену тюрков и тюркских каганатов. Кто мог быть носителями европеидного элемента у предков алтайцев? Согласно моим представлениям, это скорее всего знаменитые динлины. Именно они как считается в ходе смешения с монголоидными племенами (сюнну-хунны?) стали предками части тюркских народов, в том числе хакасов. В китайских летописях потомков динлинов называли «теле». Большинство племен теле в IV–VI вв. обитало на территории современной Монголии, достигая во время перекочевий Тывы и горного Алтая. Динли́ны (Dingling (丁零) или Гаочэ (高車), Чилэ (敕勒), Телэ (鐵勒)) — древний народ Южной Сибири и Монголии, упомянутый впервые в китайском описании завоеваний хуннского шаньюя Модэ около 202 до н. э.

С IV—V веков обосновались на территории Китая в составе южных сюнну. Они играли довольно большую роль в варварских династиях.

В самой же Центральной Азии динлины появляются вновь в конце IV в. как враги табгачей. Немного позже они вступают в соперничество с жуаньжуанями.

Около 487 г.н.э динлины образовали конфедерацию из 12 племён во главе с двумя братьями Афучжило и Цюнци. Этноним динлин продолжает использоваться, но одновременно возникают и используются другие транскрипции и переводы. Одним из них является гаочэ (или гаоцзюй) — «высокие повозки», другими — дили, тэлэ, чилэ, чжилэ и телэ.

Также считается что предки динлинов были носителями тагарской культуры.Преобладающим у тагарцев являлся европеоидный тип, по всей видимости, восходящий к Андроновской культуре, однако черепа с монголоидными признаками обнаруживаются в курганах, датируемых началом тагарской культуры, и количество таких черепов постепенно возрастает к моменту прихода хуннов.

Комментарии

Vladimir Gurianov: По Y-гаплогруппам данных, к сожалению, опять не приводится. А ведь если селькупы и кеты являются наследниками пазарыкцев, то у последних просто обязательно должен быть высочайший процент Q1a3.

Vyacheslav Malinowsky: Вадим, там кроме динлинов были европеоиды и усуни и юэчжи и еще Бог знает кто..

Vadim Verenich: Это вообще-то только предположение: это мог быть кто-угодно — жуны, усуни и так далее. Сейчас не столько речь о поименованиях, сколько о присутствии европейского адмикса. Не знаю, совпадение или нет, но в последней большой обзорной работе по древним митохондриальным ДНК Евразии сардиниское митоДНК времен нурагической культуры (NUR) оказалось на PCA-графике митохондриальной вариации в одном кластере с митохондриальными ДНК останков из южносибирских курганов.

Vyacheslav Malinowsky: То есть Sardinian2 как и положено близки к «неолитчикам», а вот сардинцы бронзового века Nuragic Sardinians (Bronze Age) неожиданно оказались близки к мезолиту? Может просто именно в этих погребениях оказались U5?

Vadim Verenich: Ср.результаты ALDER  DATA: success 4.7e-15 Altaic Sardinian Hezhen 8.79 8.88 2.97 25% 46.59 +/- 5.30 0.00043780 +/- 0.00002198 52.04 +/- 5.86 0.00021948 +/- 0.00001510 59.90 +/- 20.19 0.00007601 +/- 0.00001223
Нет, митоДНК сардинцев бронзового века Nuragic Sardinians (Bronze Age) неожиданно оказались близки к южноcибирцам бронзового века, а также к финноугорам. Прошу отметить, что речь идет только о митохондриальной близости, а не о полногеномной.

Vadim Verenich: И судя по графику, это действительно вектор U5.

Vyacheslav Malinowsky: «Нет, митоДНК сардинцев бронзового века Nuragic Sardinians (Bronze Age) неожиданно оказались близки к южноcибирцам бронзового века, а также к финноугорам» Вадим, там эдаким «маркером» выступает упомянутая прибалтийская культура Кунда и европейский мезолит, а в двух «кундских» образцах U5b2? и U4. То же и в двух образцах поволжской Елшанской культуры (9-10 тысяч лет назад) — U5a1 и U5a.

Vadim Verenich: Я это понимаю, речь сейчас именно о странном совпадении близости митоДНК и близости по аутосомам.

Vyacheslav Malinowsky: Так по мито близость по осям Н и Т, наверное то же и по аутосомам — «неолитический», «переднеазиатский» компонент.

Vadim Verenich: Тут именно сардинцы.

Vyacheslav Malinowsky: Так у сардинцев вроде тоже «неолитического» компонента хватает? И у скифов он присутствовать должен был, частично от «неолитчиков» Причерноморья, частично из Средней Азии. Ну или-или..

ALDER: анализ адмикса грузинских популяций

По просьбе уважаемого Джемала Гогитидзе проанализировал компоненты адмикса у трех популяций:

1) общей популяции грузинов
2) популяции грузинов из исторической области Имерети
3) популяции грузинов-лазов из Турции

I.

Начну с имеретинцев. Исходные параметры те же, что и в предыдущем эксперименте. Из положительных результатов я выбрал только те, которые являются статистически значимыми и обе референсные популяции коррелируют по взвешенным значениям кривой угасания LD между генетическими маркерами.

DATA: success 0 Georgian_Imereti Latvian_V Russian_cossack 0.83 3.53 2.13 25% 28.47 +/- 25.43 0.00002239 +/- 0.00002694 34.41 +/- 7.50 0.00008249 +/- 0.00002334 36.45 +/- 14.39 0.00004179 +/- 0.00001966
DATA: success 0 Georgian_Imereti Saami Parsi 0.14 2.70 2.07 8% 8.67 +/- 44.21 0.00000557 +/- 0.00004042 8.71 +/- 3.03 0.00002525 +/- 0.00000935 9.40 +/- 3.88 0.00001202 +/- 0.00000582Второй результат — c большим уровнем статистического шума, на что эксплицитно указывает невероятный интервал времени адмикса 8.67 +/- 44.21. Поэтому я его рассматривать не буду, хотя сам по себе факт присутствие адмикса со стороны парсов примечателен.Первый результат — статистически значимый адмикс со стороны южнорусских козаков. Хотя разброс времени адмикса также велик по своей амплитуде — от 54 до 2 поколений тому назад. Поэтому уровень удельной доли популяций из южной части России в компонентах адмикса у грузинов-имеретинцев довольно высок. Скорее всего это отражает процесс генетического обмена с популяциями прикавказских степей на протяжении последнего тысячилетия.II.

Cледущая на очереди грузинская популяция — популяция лазов.
Условия эксперимента в программе ALDer те же самые (ceteris paribus). Зато результаты получились несколько противоречивыеДля начала результаты предварительного теста
Pre-test: Does Georgian_Laz have a 1-ref weighted LD curve with…
Italian-Center: NO (z = 0.02)
Sicilian: NO (z = 0.00)
Sardinian: NO (z = 0.00)

German: NO (z = 1.34)
Lithuanian_V: NO (z = 0.93)
Lithuanian: NO (z = 0.55)
Latvian: NO (z = 1.07)
Belarusian: NO (z = 1.42)
Swedish: NO (z = 0.00)
Polish_V: NO (z = 0.48)
Russian_V: NO (z = 0.26)
Russian_Center: NO (z = 0.80)
Latvian_V: NO (z = 1.16)
Inkeri: NO (z = 0.84)
Russian_South: NO (z = 0.00)
Ukrainian_V: NO (z = 0.69)
Slovakian: NO (z = 0.92)
Czech: NO (z = 1.64)
Sorb: NO (z = 1.76)
Estonian: NO (z = 0.13)
Ukrainian: NO (z = 0.90)
Belarusian_V: NO (z = 0.66)
Ukrainian-East: NO (z = 0.97)
Ukrainian-West: NO (z = 0.00)
Mordovian: NO (z = 0.16)
CEU: NO (z = 1.35)
CEU_V: NO (z = 0.53)
British: NO (z = 0.00)
French: NO (z = 0.00)
Orcadian: NO (z = 0.00)
German-South: NO (z = 1.14)
German-North: NO (z = 0.01)
German_V: NO (z = 1.16)
Bulgarian: NO (z = 0.29)
Finnish-North: NO (z = 0.00)
Cirkassian: YES (z = 2.73)
Russian_cossack: NO (z = 0.37)
Saami: NO (z = 0.29)
Udmurd: NO (z = 0.63)
Komi: NO (z = 1.78)
Karelian: NO (z = 1.07)
Vepsa: NO (z = 0.15)
Mari: NO (z = 0.63)
Bashkir: NO (z = 0.19)
Nenets: NO (z = 1.61)
Hant: NO (z = 1.21)
Chuvash: NO (z = 1.57)
Mansi: NO (z = 0.86)
Finnish-South: NO (z = 0.74)
Polish: NO (z = 0.00)
Gagauz: NO (z = 0.00)
Moldavian: NO (z = 0.89)
Romania: NO (z = 0.00)
Bosnian: NO (z = 0.04)
Adygei: NO (z = 0.00)
Croatian: NO (z = 0.88)
Serbian: NO (z = 1.79)
Slovenian: NO (z = 0.00)
Montenegrin: NO (z = 0.00)
Macedonian: NO (z = 0.00)
Kosovar: NO (z = 0.66)
Austrian: NO (z = 1.34)
Greek_Azov: NO (z = 0.96)
Greek_Center: NO (z = 0.27)
Greek_North: NO (z = 0.00)
Greek_South: NO (z = -0.90)
Tatar_Crim: NO (z = 1.38)
Azeri: NO (z = 0.92)
Tadjik: NO (cannot pre-test: long-range LD)
Kyrgyz: NO (z = 0.89)
Kazakh: NO (z = 0.49)
Georgian: NO (z = 1.58)
Georgian_Imereti: NO (z = 0.53)
NorthOssetian: NO (z = -0.69)
Armenian: NO (z = 0.00)
Kumyk: NO (z = 0.00)
Chechen: NO (z = 0.00)
Turk: NO (z = 0.00)
Turkmen: NO (cannot pre-test: long-range LD)
Uzbek: NO (z = 1.44)
Mongol: NO (z = 1.41)
Karakalpak: NO (z = 1.23)
Lak: NO (z = 0.21)
Balkarian: NO (z = 0.00)
Lezgin: NO (z = 0.00)
Abhkasian: NO (z = 0.34)
Kalmyk: YES (z = 1.96)
Syrian: NO (z = 0.00)
Kurd: NO (z = 1.07)
Tabassaran: NO (z = 1.29)
Hakas: NO (z = 1.59)
Altaic: NO (z = 1.61)
Tatar_Kryashen: NO (z = 1.73)
Tartar_Mishar: NO (z = 1.78)
Parsi: NO (z = 0.53)
Avar: NO (z = 0.56)
Nogai: NO (z = 0.66)
Italian-North: NO (z = 0.01)
Hungarian: NO (z = 0.89)Обратите на тот факт что с таджиками и туркменами лазы разделяют длинные сцепленные по неравновесному наследованию участки ДНK. Скорее всего это свидетельствует о смешении лазов с тюркскими популяциями турков сельджуков и османов. Однако в силу протяженности этих участков pre-test не удался.Из всех популяций положительный результат на тест адмикса дали только черкесы и калмыки.*** Admixture test summary ***

Weighted LD curves are fit starting at 0.5 cM

Does Georgian_Laz have a 2-ref weighted LD curve with Cirkassian and Kalmyk?
2-ref decay z-score: 0.99
2-ref amp_exp z-score: 0.74
NO: curve is not significant

Do 2-ref and 1-ref curves have consistent decay rates?
1-ref Cirkassian — 2-ref z-score: -0.61 (-89%)
1-ref Kalmyk — 2-ref z-score: -0.86 (-154%)
1-ref Kalmyk — 1-ref Cirkassian z-score: -1.91 (-99%)
WARNING: decay rates are inconsistent

Test FAILS (z=0.74, p=1.2e+03) for Georgian_Laz with {Cirkassian, Kalmyk} weights
note: p-value is multiplied by 2556 for multiple-hypothesis correction

DATA: failure (warning: decay rates inconsistent) 1.2e+03 Georgian_Laz Cirkassian Kalmyk 0.74 2.73 1.96 154% 136.64 +/- 137.79 0.00012196 +/- 0.00016441 52.24 +/- 16.04 0.00011765 +/- 0.00004317 17.68 +/- 9.01 0.00001803 +/- 0.00000795

Как видно из результатов, частота угасания LD между референсными популяциями в плане корреляции неустойчива. Это означает что популяции-доноры были разными. Адмикс с популяцией похожей на калмыцкую произошел сравнительно недавно 17.68 +/- 9.01 (Mixture fraction % lower bound (assuming admixture: 28.9 +/- 0.0%)

Метисизация с северно-кавказскими (аланы? кто был предками черкессов?) популяциями более древняя (52.24 +/- 16.04 поколений тому назад).

III
Наконец, результаты анализа по общей популяции грузинов:
DATA: success 0 Georgian Finnish-North Kazakh 2.64 2.55  2.72 17% 180.82 +/- 38.06 0.00011043 +/- 0.00004176 152.67 +/- 59.34 0.00005489 +/- 0.00002157 179.04 +/- 50.57 0.000164 01 +/- 0.00006020
DATA: success 0 Georgian Udmurd Nenets0.04 3.04 3.09  15% 50.95 +/- 684.55 0.00003125 +/- 0.00074081 53.70 +/- 17.64 0.00003998 +/- 0.00001263 46.07 +/- 10.30 0.00005336 +/- 0.00001729На основании этих результатов можно выдвинуть предположении о наличии в генофонде грузинов очень слабого сигнала адмикса со стороны древних популяций Центральной-Азии и Северо-Западной Сибири. Из-за присутствия популяционного шума и сложной модели смешивания этих популяций, ALDer не смог определить точный интервал события смешивания популяций в триплете [Georgian; Udmurd, Nenets], и как видно из результатов разброс значений приличный  — 50.95 +/- 684.55 поколений до настоящего времени. В случае с триплетом [Georgian;  Finnish-North, Kazakh] датировка события адмикса вызывает большее доверие: 180.82 +/- 38.06 поколений. Принимая на поколение 29 лет и за временной предел настоящего времени 1960 год, мы может перевести датировку в поколениях в привычную датировку в годах:  3300 +-1100 г. до нашей эры. Этот интервал времени частично перекрывается с интервалом бронзового века в степной полосе Евразии.
Википедия:Курганная гипотеза относит к периоду поздней бронзы раскол прежде единой протоиндоевропейской общности, населявшей причерноморские степи. Обозначения бронзы в различных индоевропейских языках происходят от одного корня. Мария Гимбутас и её последователи связывают с протоиндоевропейцами такие культуры раннего бронзового века, как катакомбная и ямная. К началу II тыс. до н. э. начинается распространение индоевропейских племён на восток и запад. Андроновская культура, связываемая с индоиранцами, занимает обширные пространства Центральной Евразии (см. СинташтаАркаим). Залогом успеха распространения индоевропейцев стало наличие у них таких новаторских технологий, как колесница и меч.Влиянием европеоидных пришельцев с запада отмечены культуры бронзового века в Южной Сибири — в первую очередь, карасукская и тагарская. Находки идентичного оружия на территории в тысячи километров (т. н. сейминско-турбинский феномен) позволяют археологам предположить, что над туземными народами лесной полосы Евразии с XVI в. до н. э. господствовала некая подвижная дружинная элита.
IV.

Обсуждение результатов
Jemal Gogitidze: Вадим, а насколько значителен «южнороссийский» адмикс у имеретинцев?
если судить по admixture painting, которое выкладывал ув. Александр в группе Молген, у них почти отсутствует СВ Европейский компонент. понятно, что алдер работает по иному принципу, но наверно примесь должна была бы отразиться и в admixture painting?
Vadim Verenich: Действительно, принципы работы у Alder и Admixture разный. Поскольку интервал адмикса большой, то и уровень адмикса значителей 80%. Скорее всего это отражает генетический обмен с жителями степи.
Valikhan Dumshebayev: Калмыки на Волге появились в первой половине 17 века. На Кавказ они так массово не мигрировали, чтобы оставить хоть какой-то генетический след у лазов.
Vadim Verenich: Калмыки — в данном случае это прокси тюркско-монголоидных популяций. Также как и черкесы скорее всего прокси северокавказских популяций.

Valikhan Dumshebayev: Да, я заметил что вы именно так и написали, популяция похожая на калмыков. На калмыков попадает только нижняя граница. Для кипчаков это поздно, не говоря об огузах. А если делать предположение, то это вполне могут быть ногаи, как потомки мангытов, которые то ли монголы, то ли тюрки.

Valikhan Dumshebayev: Про таджиков и туркмен довольно интересно. Я бы предположил что это скорее не тюрки-огузы, а некое автохтонное население от южного побережья Каспия до Памира. Но вот парсы и азербаиджанцы выпадают.