Этногеномика беларусов — часть IV

Анализ структуры аутосомного генофонда популяции беларусов: результаты анализа этнического адмикса.

 

После проведения анализа этно-популяционного адмикса мы получили следущие результаты, обсуждению которых будет посвящена следущая часть нашего исследования. Результаты представляют собой разбивку аллельных частот на 22 кластера, каждый из которых представляет собой гипотетическую предковую популяцию. Поскольку в цели данного небольшого исследования не входит подробный анализ всех популяций, мы ограничимся сравнительном анализом структуры (компонентов) беларусов c географически близкими популяциями, а также с теми популяциями, которые могли входить в исторические контакты с предками современных беларусов:

admix

 

Рисунок 3. Результатыанализа ADMIXTUREK=22

У рассматриваемых здесь европейских популяций наиболее часто представлены следующие компоненты:

North-East-European,Atlantic_Mediterranean_Neolithic,North-European-Mesolithic, West-Asian, Samoedic, Near_East.

Разберем вкратце каждый из них. В ракурсе нашего исследования самым важным компонентом представляется – северо-восточно-европейский компонент North-East-European, он присутствует почти у всех европейцов, и в самой значительной степени — у балтов и славян: литовцы (81,9), латыши (79,5), беларусы (76,4), эстонцы (75,2), поляки (70,2), русские (67- 70,4), украинцы (62,1- 67,1), сорбы (65,9), карелы (60,2), вепсы (62,5), чехи (57,4), северные немцы (54,6), южные- 42,6, у британцев от 46 до 49, норвежцы- 48,1, шведы- (53,7).

Второй по значимости компонент — Atlantic_Mediterranean_Neolithic (юго-западно-европейский или просто западно-европейский неолитический компонент).[1]У восточноевропейцев он выражен в умеренной степени- чехи (27,8), поляки (18,4), украинцы ( от 17 до 21%), беларусы (13%), русские (от 11 у северных до 17,3 у южных), у коми (8,9 %), манси (8,8 %).

Третьй компонент – северо-европейский мезолитический компонент -North-European-Mesolithic[2]: cаамы (76,4 %), финны (от 30,1 до 37,3 %), вепсы (24,1), карелы (23,2), ижорцы (22, 7). Заметен этот компонент и у северных русских (10,5 %), норвежцев (9,8 %), шведов (7,8 %), эстонцев (7,1 %). У беларусов он практически отсутствует (1.1%).

Четвертый компонент – западно-азиатский (кавказский) West Asian[3]. На интересуемой нас территории этот компонент чаще встречается у казанских татар (9,9 %), южных немцев (8,4), украинцев (от 6,6 до 7,7 %), южных русских (6,2%). На западе высок процент у итальянцев (21,5 % у центральных итальянцев), французов (6,7 %), у беларусов (2.2%).

Пятый компонент — уральский Samoedic. Значительно присутствует у селькупов (68,1%), хантов (64,6), ненцы (37,1), манси (30,9 %-), удмурты (29,6), марийцы (27, 8), шорцы (22,0 %), башкиры (21,7%), чуваши и хакассы по 17,6 %, коми- 16,4 %, казанских татар (11,9 %). У западноевропейцев этот компонент практически не встречается, у русских (от 1,0% у центральных до 4,7 % у северных), у карел (1,6%), словаков (1,4%), западных украинцев (1,7 %), беларусы (0.5%).

Шестой компонент – ближневосточный Near_East[4]У южных немцев (3,5), украинцы (от 2,3 у восточных до 3,8 % у западных), чехи (3,0), беларусы (3,4), словаки (3,2), у русских от 1,0 до 1,5%, у литовцев- 1,4%, у поляков- 1,3 %.

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[1]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[1]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[1]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

Анализ разделяемых аутосомных сегментов между популяциями Северо-Восточной Европы.

С целью верификации результатов анализа главных компонентов генетического разнообразия я подготовил новую выборку популяций, которая включает в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.В ходе нового экспериментального теста в ходе статистической обработки общих по генетическому происхождению сегментов хромосом в составе выборки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, т.е размера той популяции которая участвовала в репродукции или обмене генами в некоем отдаленном временном промежутке. Собственно говоря, эффективная популяция – это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955). Новая программа Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение составило 22 000. Это близко к значениям Neрекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных ниже результатов, даже 22 000 для совокупности эффективного размера элементарных популяций – это более, чем достаточно.

 

finest

Рисунок 4. Расположение популяций в пространстве 1 и 3 главных генетических компонентов

 

Изложим ниже некоторые закономерности размещения популяци

 

  1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
  2. Все литовцы (участники проекта + референсы из вышеупомянутой статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев

  3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.

  4. Ниже находится балканский кластер (румыны, болгары и часть венгров).

  5. К этому кластеру примыкают турки и часть армян

  6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов).

  7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.

  8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

  9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

  10. Левее этой группы популяций находится кластер ашкеназов.

  11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

  12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

  13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

  14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

  15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).[5]

 

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[2]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[3]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[4]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

[5]Такое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции.То есть все эти баски являются многократными родственниками между собой т.е., положение басков на графике есть следствие классического генного дрейфа, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества sharedDNAchunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.

Исходя из этого можно сделать вывод о том что баски эта экстремально-эндогенная популяция изолянтов, при этом генетическое разнообразие басков низко, т.к. размер эффективной популяции басков низок.

Этногеномика беларусов — часть III

Анализ этно-популяционного адмикса

 

В ходе следующеего этапа, окончательный набор данных по референсным популяциям (которые я храню в linkage-формате PLINK) был обработан в программеAdmixture. Во время выбора подходящей модели проведения теста на этно-популяционный адмикс, мы столкнулись с крайне трудной задачей: как было показано в профильных научных исследованиях (Pattersonetal.2006) количество маркеров, необходимых для надежной стратификации популяций в анализе обратно пропорциональна генетическому расстоянию (фСТ) между популяциями. Согласно рекомендациям пользователей программы Admixture, считается что примерно 10 000 генетических SNP-маркеров достаточно для выполнения интер-континентальной GWAS-коррекции обособленных популяций (например, уровень дивергенции между африканскими, азиатскими и европейскими популяциями FST> 0.05), в то время как для аналогичной коррекции между внутриконтинентальными популяциями требуется более чем 100000 маркеров (в Европе, например, ФСТ < 0.01). Для повышения точности результатов Admixtureмы решили использовать метод, предложенный Dienekes. Этот метод позволяетпреобразовать частот аллелей в “синтетические” индивиды (см. такжепример Зака Аджмалаиз проекта HarappaDNA). Идея метода довольно проста: сначала необходимо запустить unsupervisedанализ Admixtureс целью вычисления частот аллелей в так называемых предковых компонентов, а затем на основании аллельных частот сгенерировать “фиктивные популяции”. Именно эти фиктивные популяции и индивиды будут использоваться в ходе чистых референсов в ходе последующего анализа этно-популяционного анализа. Впрочем, как и любые другие исследователи, работающий над четким решением проблемы этно-популяционного адмикса, мы были вынуждены считаться с ограничениями этого подхода. Хотя мы отдаем себе отчет в существовании явных методологических подвохов в использовании смоделированных искусственных индивидов для определения адмикса в реальной популяции, мы полагаем что полученные в ходе аллельно-частотного моделирования “фиктивных индивидов” представляют самую лучшую аппроксимацию древних генетических компонентов предпологаемых древних компонентов. В ходе применения простого моделирующего метода, нами были получены значимые результаты в ходе создания нового калькулятора. Сначала мы произвели unsupervisedAdmixture(при значении К = 22, т.е 22 кластера частот аллель или предковых компонентов). По выполнению анализа нами были получены оценки коэффициентов адмикса в каждой из этих 22 аллельных кластеров, а также частоты аллелей для всех SNP-ов в каждой из 22 родовых популяций.

Затем мы использовали мнемонические обозначения для каждого компонента (имена для каждого из компонентов выведены в порядке их появления). Нужно помнить, что обозначения этих компонентов носят скорее мнемонический условный характер:

Pygmy

West-Asian
North-European-Mesolithic
Tibetan
Mesomerican
Arctic-Amerind
South-America_Amerind
Indian
North-Siberean
Atlantic_Mediterranean_Neolithic
Samoedic
Proto-Indo-Iranian
East-Siberean
North-East-European
South-African
North-Amerind
Sub-Saharian
East-South-Asian
Near_East
Melanesian
Paleo-Siberean
Austronesian

Вышеупомянутые частоты аллель, вычисленные в ходе unsupervised(безнадзорного) анализа (AdmixtureK= 22) объединенного набора данных, были затем использованы для симуляции синтетических индивидов, по 10 индивидов на каждую из 22 предковых компонент. Это симуляционное моделирование проводилось с помощью PLINKкоманды -simulateРасстояние между между симулированными «искусствеными» индивидами было визуаилизировано с использованием многомерного масштабирования.

simul

На следущем этапе, я включил группу смоделированных индивидов (220 индивидов) в новую эталонную популяцию. После чего я запустил новый анализ А, на этот раз в полном “поднадзорном” режиме для K= 22, причем полученные в ходе симуляционного моделирования фиктивные популяции фиктивных индивидов использовались в качестве новых референсных эталонных групп. На конвергенцию 22 априорно заданых предковых компонентов было затрачено 31 итераций (3 7773,1 сек) с окончательным loglikelihood: -188032005,430318 (ниже, на следущей странице, приведена таблица значений Fst между расчетными ‘предковыми’ популяциями):

fst dist

Рисунок 1. FST-дистанции между компонентами

 

Приведенная выше матрица Fstдистанций была использована для определения наиболее вероятной топологии NJ-дерева всех 22 предковых компонентов ( примечание: в качестве outgroup-таксона использовался South-Africancomponent).

Генетика носителей пазыркской культуры

Пазырыкская культура — археологическая культура железного века (6—3 вв. до н. э.), созданная скифами (у населения преобладали европеоидные черты, основное занятие – кочевое скотоводство). Была распространена на смежных территориях Казахстана, Республики Алтай и Монголии. Основной центр – Горный Алтай. Там обнаружена большая часть памятников.

Культура названа по памятнику в урочище Пазырык Улаганского района. Там в 1929 году академиком Руденко были раскопаны усыпальницы племенной знати. Эти гробницы представляли собой деревянные срубы. В силу особых климатических условий мумии вождей имеют отличную сохранность. Кожа мумий покрыта сложной татуировкой —  самыми древними образцами татуировки в мире.

С тех пор, как генетики научились извлекать ДНК из древних останков, пазыркские мумии уже не раз становились объектом палеогенетических исследований:

«Как было показано специалистами из Новосибирского института цитологии и генетики СОРАН, генетическими наследниками пазырыкских племен, вероятнее всего, являются современные самодийцы (селькупы и кеты),

населяющие северо-запад Сибири. Они пришли туда, вытесненные со своих территорий племенами хунну, двигавшимися с востока на запад. Впрочем, некоторые генетические данные (А. С. Пилипенко и др., 2011. Митохондриальная ДНК женщины из пещеры Каминная (Горный Алтай) эпохи позднего неолита, PDF, 1,22 МБ) говорят о более раннем (в IV–III тысячелетии) присутствии западных и восточных элементов в генофонде алтайского населения. Если это верно, то движение скифов (точнее, их потомков) в восточном направлении в VII–VI веках до н. э. только усилило перемешивание алтайского генофонда, но не перекроило по-новому его генетический узор. На сегодняшний день этнографы ставят вопрос об алтайском населении следующим образом: как экспансия скифов на восток изменила генофонд алтайцев во время железного века? Иными словами, насколько высока доля генетических вариантов, привнесенных в ходе западной экспансии в середине первого тысячелетия до н. э.?

Можно попытаться ответить на последний вопрос c помощью эксперимента в ALDer с популяцией современных алтайцев, используя ширкопанельную линейку снипов.Вот исходные параметры эксперимента (если кто хочет, может его повторить)


genotypename: /storage/hpchome/vadim78/admixtools/bin/reference.geno
snpname: /storage/hpchome/vadim78/admixtools/bin/reference.snps
indivname: /storage/hpchome/vadim78/admixtools/bin/reference.ind
num_threads: 10
jackknife: YES
output: Altaic
seed: 77
mindis: 0.001
admixpop: Altaic
refpops: Italian-Center;Sicilian;Sardinian;German;Lithuanian_V;Lithuanian;Latvian;Belarusian;Swedish;Polish_V;Russian_V;Russian_Center;Latvian_V;Inkeri;Russian_South;Ukrainian_V;Slovakian;Czech;Sorb;Estonian;Ukrainian;Belarusian_V;Ukrainian-East;Ukrainian-West;Mordovian;CEU;CEU_V;British;French;Orcadian;German-South;German-North;German_V;Bulgarian;Finnish-North;Cirkassian;Russian_cossack;Saami;Udmurd;Komi;Karelian;Vepsa;Mari;Bashkir;Nenets;Hant;Chuvash;Mansi;Finnish-South;Polish;Gagauz;Moldavian;Romania;Bosnian;Adygei;Croatian;Serbian;Slovenian;Montenegrin;Macedonian;Kosovar;Austrian;Greek_Azov;Greek_Center;Greek_North;Greek_South;Tatar_Crim;Azeri;Tadjik;Kyrgyz;Kazakh;Georgian;Georgian_Imereti;Georgian_Laz;NorthOssetian;Armenian;Kumyk;Chechen;Turk;Turkmen;Uzbek;Mongol;Karakalpak;Lak;Balkarian;Lezgin;Abhkasian;Kalmyk;Syrian;Kurd;Tabassaran;Hakas;Altaic;Tatar_Kryashen;Tartar_Mishar;Parsi;Avar;Nogai;Italian-North;Hungarian;Mongola;Hezhen;Uygur;Tu;Tujia;Xibo;Yakut;Buryat;Dolgan;Han-Beijing;Selkup;Ket;Nganassan 

Обсуждение

В данном эксперименте я использовал строгие критерии отбора: результаты формального теста должны быть статистически значимыми, взвешенная кривая экспонентная угасания LD должна иметь корреляцию у обеих рефренсных групп.
Единственный результат который отвечает этим критериям выглядит следущим образом:

DATA: success 4.7e-15 Altaic Sardinian Hezhen 8.79 8.88 2.97 25% 46.59 +/- 5.30 0.00043780 +/- 0.00002198 52.04 +/- 5.86 0.00021948 +/- 0.00001510 59.90 +/- 20.19 0.00007601 +/- 0.00001223

Популяция Hezehn (нанайцы) являются в данном контексте представляют собой «чистый» прототип носителей байкальского антропологического типа с небольшой примесью северного китайского антропологического компонента. Cардинцы — «чистый европейский компонент».

Время смешения этих групп датируется программой ALDER интервалом 46.59 +/- 5.30 поколений до нашего времени. То есть 1500-1200 лет тому назад, т.е. временами выхода на историческую арену тюрков и тюркских каганатов. Кто мог быть носителями европеидного элемента у предков алтайцев? Согласно моим представлениям, это скорее всего знаменитые динлины. Именно они как считается в ходе смешения с монголоидными племенами (сюнну-хунны?) стали предками части тюркских народов, в том числе хакасов. В китайских летописях потомков динлинов называли «теле». Большинство племен теле в IV–VI вв. обитало на территории современной Монголии, достигая во время перекочевий Тывы и горного Алтая. Динли́ны (Dingling (丁零) или Гаочэ (高車), Чилэ (敕勒), Телэ (鐵勒)) — древний народ Южной Сибири и Монголии, упомянутый впервые в китайском описании завоеваний хуннского шаньюя Модэ около 202 до н. э.

С IV—V веков обосновались на территории Китая в составе южных сюнну. Они играли довольно большую роль в варварских династиях.

В самой же Центральной Азии динлины появляются вновь в конце IV в. как враги табгачей. Немного позже они вступают в соперничество с жуаньжуанями.

Около 487 г.н.э динлины образовали конфедерацию из 12 племён во главе с двумя братьями Афучжило и Цюнци. Этноним динлин продолжает использоваться, но одновременно возникают и используются другие транскрипции и переводы. Одним из них является гаочэ (или гаоцзюй) — «высокие повозки», другими — дили, тэлэ, чилэ, чжилэ и телэ.

Также считается что предки динлинов были носителями тагарской культуры.Преобладающим у тагарцев являлся европеоидный тип, по всей видимости, восходящий к Андроновской культуре, однако черепа с монголоидными признаками обнаруживаются в курганах, датируемых началом тагарской культуры, и количество таких черепов постепенно возрастает к моменту прихода хуннов.

Комментарии

Vladimir Gurianov: По Y-гаплогруппам данных, к сожалению, опять не приводится. А ведь если селькупы и кеты являются наследниками пазарыкцев, то у последних просто обязательно должен быть высочайший процент Q1a3.

Vyacheslav Malinowsky: Вадим, там кроме динлинов были европеоиды и усуни и юэчжи и еще Бог знает кто..

Vadim Verenich: Это вообще-то только предположение: это мог быть кто-угодно — жуны, усуни и так далее. Сейчас не столько речь о поименованиях, сколько о присутствии европейского адмикса. Не знаю, совпадение или нет, но в последней большой обзорной работе по древним митохондриальным ДНК Евразии сардиниское митоДНК времен нурагической культуры (NUR) оказалось на PCA-графике митохондриальной вариации в одном кластере с митохондриальными ДНК останков из южносибирских курганов.

Vyacheslav Malinowsky: То есть Sardinian2 как и положено близки к «неолитчикам», а вот сардинцы бронзового века Nuragic Sardinians (Bronze Age) неожиданно оказались близки к мезолиту? Может просто именно в этих погребениях оказались U5?

Vadim Verenich: Ср.результаты ALDER  DATA: success 4.7e-15 Altaic Sardinian Hezhen 8.79 8.88 2.97 25% 46.59 +/- 5.30 0.00043780 +/- 0.00002198 52.04 +/- 5.86 0.00021948 +/- 0.00001510 59.90 +/- 20.19 0.00007601 +/- 0.00001223
Нет, митоДНК сардинцев бронзового века Nuragic Sardinians (Bronze Age) неожиданно оказались близки к южноcибирцам бронзового века, а также к финноугорам. Прошу отметить, что речь идет только о митохондриальной близости, а не о полногеномной.

Vadim Verenich: И судя по графику, это действительно вектор U5.

Vyacheslav Malinowsky: «Нет, митоДНК сардинцев бронзового века Nuragic Sardinians (Bronze Age) неожиданно оказались близки к южноcибирцам бронзового века, а также к финноугорам» Вадим, там эдаким «маркером» выступает упомянутая прибалтийская культура Кунда и европейский мезолит, а в двух «кундских» образцах U5b2? и U4. То же и в двух образцах поволжской Елшанской культуры (9-10 тысяч лет назад) — U5a1 и U5a.

Vadim Verenich: Я это понимаю, речь сейчас именно о странном совпадении близости митоДНК и близости по аутосомам.

Vyacheslav Malinowsky: Так по мито близость по осям Н и Т, наверное то же и по аутосомам — «неолитический», «переднеазиатский» компонент.

Vadim Verenich: Тут именно сардинцы.

Vyacheslav Malinowsky: Так у сардинцев вроде тоже «неолитического» компонента хватает? И у скифов он присутствовать должен был, частично от «неолитчиков» Причерноморья, частично из Средней Азии. Ну или-или..