Этногеномика беларусов — часть IV

Анализ структуры аутосомного генофонда популяции беларусов: результаты анализа этнического адмикса.

 

После проведения анализа этно-популяционного адмикса мы получили следущие результаты, обсуждению которых будет посвящена следущая часть нашего исследования. Результаты представляют собой разбивку аллельных частот на 22 кластера, каждый из которых представляет собой гипотетическую предковую популяцию. Поскольку в цели данного небольшого исследования не входит подробный анализ всех популяций, мы ограничимся сравнительном анализом структуры (компонентов) беларусов c географически близкими популяциями, а также с теми популяциями, которые могли входить в исторические контакты с предками современных беларусов:

admix

 

Рисунок 3. Результатыанализа ADMIXTUREK=22

У рассматриваемых здесь европейских популяций наиболее часто представлены следующие компоненты:

North-East-European,Atlantic_Mediterranean_Neolithic,North-European-Mesolithic, West-Asian, Samoedic, Near_East.

Разберем вкратце каждый из них. В ракурсе нашего исследования самым важным компонентом представляется – северо-восточно-европейский компонент North-East-European, он присутствует почти у всех европейцов, и в самой значительной степени — у балтов и славян: литовцы (81,9), латыши (79,5), беларусы (76,4), эстонцы (75,2), поляки (70,2), русские (67- 70,4), украинцы (62,1- 67,1), сорбы (65,9), карелы (60,2), вепсы (62,5), чехи (57,4), северные немцы (54,6), южные- 42,6, у британцев от 46 до 49, норвежцы- 48,1, шведы- (53,7).

Второй по значимости компонент — Atlantic_Mediterranean_Neolithic (юго-западно-европейский или просто западно-европейский неолитический компонент).[1]У восточноевропейцев он выражен в умеренной степени- чехи (27,8), поляки (18,4), украинцы ( от 17 до 21%), беларусы (13%), русские (от 11 у северных до 17,3 у южных), у коми (8,9 %), манси (8,8 %).

Третьй компонент – северо-европейский мезолитический компонент -North-European-Mesolithic[2]: cаамы (76,4 %), финны (от 30,1 до 37,3 %), вепсы (24,1), карелы (23,2), ижорцы (22, 7). Заметен этот компонент и у северных русских (10,5 %), норвежцев (9,8 %), шведов (7,8 %), эстонцев (7,1 %). У беларусов он практически отсутствует (1.1%).

Четвертый компонент – западно-азиатский (кавказский) West Asian[3]. На интересуемой нас территории этот компонент чаще встречается у казанских татар (9,9 %), южных немцев (8,4), украинцев (от 6,6 до 7,7 %), южных русских (6,2%). На западе высок процент у итальянцев (21,5 % у центральных итальянцев), французов (6,7 %), у беларусов (2.2%).

Пятый компонент — уральский Samoedic. Значительно присутствует у селькупов (68,1%), хантов (64,6), ненцы (37,1), манси (30,9 %-), удмурты (29,6), марийцы (27, 8), шорцы (22,0 %), башкиры (21,7%), чуваши и хакассы по 17,6 %, коми- 16,4 %, казанских татар (11,9 %). У западноевропейцев этот компонент практически не встречается, у русских (от 1,0% у центральных до 4,7 % у северных), у карел (1,6%), словаков (1,4%), западных украинцев (1,7 %), беларусы (0.5%).

Шестой компонент – ближневосточный Near_East[4]У южных немцев (3,5), украинцы (от 2,3 у восточных до 3,8 % у западных), чехи (3,0), беларусы (3,4), словаки (3,2), у русских от 1,0 до 1,5%, у литовцев- 1,4%, у поляков- 1,3 %.

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[1]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[1]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[1]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

Анализ разделяемых аутосомных сегментов между популяциями Северо-Восточной Европы.

С целью верификации результатов анализа главных компонентов генетического разнообразия я подготовил новую выборку популяций, которая включает в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.В ходе нового экспериментального теста в ходе статистической обработки общих по генетическому происхождению сегментов хромосом в составе выборки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, т.е размера той популяции которая участвовала в репродукции или обмене генами в некоем отдаленном временном промежутке. Собственно говоря, эффективная популяция – это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955). Новая программа Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение составило 22 000. Это близко к значениям Neрекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных ниже результатов, даже 22 000 для совокупности эффективного размера элементарных популяций – это более, чем достаточно.

 

finest

Рисунок 4. Расположение популяций в пространстве 1 и 3 главных генетических компонентов

 

Изложим ниже некоторые закономерности размещения популяци

 

  1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
  2. Все литовцы (участники проекта + референсы из вышеупомянутой статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев

  3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.

  4. Ниже находится балканский кластер (румыны, болгары и часть венгров).

  5. К этому кластеру примыкают турки и часть армян

  6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов).

  7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.

  8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

  9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

  10. Левее этой группы популяций находится кластер ашкеназов.

  11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

  12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

  13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

  14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

  15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).[5]

 

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[2]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[3]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[4]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

[5]Такое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции.То есть все эти баски являются многократными родственниками между собой т.е., положение басков на графике есть следствие классического генного дрейфа, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества sharedDNAchunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.

Исходя из этого можно сделать вывод о том что баски эта экстремально-эндогенная популяция изолянтов, при этом генетическое разнообразие басков низко, т.к. размер эффективной популяции басков низок.

Этногеномика беларусов — часть III

Анализ этно-популяционного адмикса

 

В ходе следующеего этапа, окончательный набор данных по референсным популяциям (которые я храню в linkage-формате PLINK) был обработан в программеAdmixture. Во время выбора подходящей модели проведения теста на этно-популяционный адмикс, мы столкнулись с крайне трудной задачей: как было показано в профильных научных исследованиях (Pattersonetal.2006) количество маркеров, необходимых для надежной стратификации популяций в анализе обратно пропорциональна генетическому расстоянию (фСТ) между популяциями. Согласно рекомендациям пользователей программы Admixture, считается что примерно 10 000 генетических SNP-маркеров достаточно для выполнения интер-континентальной GWAS-коррекции обособленных популяций (например, уровень дивергенции между африканскими, азиатскими и европейскими популяциями FST> 0.05), в то время как для аналогичной коррекции между внутриконтинентальными популяциями требуется более чем 100000 маркеров (в Европе, например, ФСТ < 0.01). Для повышения точности результатов Admixtureмы решили использовать метод, предложенный Dienekes. Этот метод позволяетпреобразовать частот аллелей в “синтетические” индивиды (см. такжепример Зака Аджмалаиз проекта HarappaDNA). Идея метода довольно проста: сначала необходимо запустить unsupervisedанализ Admixtureс целью вычисления частот аллелей в так называемых предковых компонентов, а затем на основании аллельных частот сгенерировать “фиктивные популяции”. Именно эти фиктивные популяции и индивиды будут использоваться в ходе чистых референсов в ходе последующего анализа этно-популяционного анализа. Впрочем, как и любые другие исследователи, работающий над четким решением проблемы этно-популяционного адмикса, мы были вынуждены считаться с ограничениями этого подхода. Хотя мы отдаем себе отчет в существовании явных методологических подвохов в использовании смоделированных искусственных индивидов для определения адмикса в реальной популяции, мы полагаем что полученные в ходе аллельно-частотного моделирования “фиктивных индивидов” представляют самую лучшую аппроксимацию древних генетических компонентов предпологаемых древних компонентов. В ходе применения простого моделирующего метода, нами были получены значимые результаты в ходе создания нового калькулятора. Сначала мы произвели unsupervisedAdmixture(при значении К = 22, т.е 22 кластера частот аллель или предковых компонентов). По выполнению анализа нами были получены оценки коэффициентов адмикса в каждой из этих 22 аллельных кластеров, а также частоты аллелей для всех SNP-ов в каждой из 22 родовых популяций.

Затем мы использовали мнемонические обозначения для каждого компонента (имена для каждого из компонентов выведены в порядке их появления). Нужно помнить, что обозначения этих компонентов носят скорее мнемонический условный характер:

Pygmy

West-Asian
North-European-Mesolithic
Tibetan
Mesomerican
Arctic-Amerind
South-America_Amerind
Indian
North-Siberean
Atlantic_Mediterranean_Neolithic
Samoedic
Proto-Indo-Iranian
East-Siberean
North-East-European
South-African
North-Amerind
Sub-Saharian
East-South-Asian
Near_East
Melanesian
Paleo-Siberean
Austronesian

Вышеупомянутые частоты аллель, вычисленные в ходе unsupervised(безнадзорного) анализа (AdmixtureK= 22) объединенного набора данных, были затем использованы для симуляции синтетических индивидов, по 10 индивидов на каждую из 22 предковых компонент. Это симуляционное моделирование проводилось с помощью PLINKкоманды -simulateРасстояние между между симулированными «искусствеными» индивидами было визуаилизировано с использованием многомерного масштабирования.

simul

На следущем этапе, я включил группу смоделированных индивидов (220 индивидов) в новую эталонную популяцию. После чего я запустил новый анализ А, на этот раз в полном “поднадзорном” режиме для K= 22, причем полученные в ходе симуляционного моделирования фиктивные популяции фиктивных индивидов использовались в качестве новых референсных эталонных групп. На конвергенцию 22 априорно заданых предковых компонентов было затрачено 31 итераций (3 7773,1 сек) с окончательным loglikelihood: -188032005,430318 (ниже, на следущей странице, приведена таблица значений Fst между расчетными ‘предковыми’ популяциями):

fst dist

Рисунок 1. FST-дистанции между компонентами

 

Приведенная выше матрица Fstдистанций была использована для определения наиболее вероятной топологии NJ-дерева всех 22 предковых компонентов ( примечание: в качестве outgroup-таксона использовался South-Africancomponent).

О «балтийских» корнях генофонда популяций эрзя и мокша

Анализ генома доисторических «шведов» (принадлежавших к готландской культуре ямочной керамики (Pitted Ware culture (около 3200 — 2300 гг. до н. э.)) показал, что они оказались в окружении плотного кольца из балтийских популяций. В эту группу вошли литовцы, белорусы, поляки, шведы, украинцы, русские (из Северной и Центральной России), мокша и эрзя. Это говорит о том, что у мокшан и эрзян сохранился генофонд старой Северной Европы.

 

 

Практические рекомендации по работе с данными древней ДНК – часть 3

В предыдущем посте я разместил  вторую часть примерных рекомендации по работе с данными древней ДНК с практическим примером директив программы Plink.

После проведения анализа я получил следующие данные о геномной «схожести» ДНК древних насельников Европы и cовременных популяций людей.

Итак, я начну с данных Этци-ледового человека из Тироля.

I.Этци

Данные схожи с результатами аналогичных вычислений в оригинальной статьей (в которой была показана близость Этци к современным сардинцам в ракурсе первых двух главных компонентов генетического разнообразия).  В нашей, более масштабной, выборке  Этци оказывается близок не только к сардинцам, но и к корсиканцам, северным итальянцам и тосканцам. Кроме того, в отличии от оригинальной статьи, видно что другие компоненты генетического разнообразия сближают Этци с ближневосточными популяциями, кавказцами и популяциями восточного Средиземноморья. Примечательно, что в программе fineStructure, где используются фазированные данные, Этци попадает в кластер пьемонтцев, — популяции наиболее близкой к местам в которых, как предполагается, жил Этци

Uzbeki_jew Otzi 0.646834
Irani-jew Otzi 0.645444
Azeri_jew Otzi 0.645254
Kumyk Otzi 0.644682
Algerian_Jew Otzi 0.644546
Corsican Otzi 0.6437835
Ashkenazi_Jew Otzi 0.643497
Sardinian Otzi 0.6430069
Cretan Otzi 0.642585
Tuscan Otzi 0.642299
Syrian_Jew Otzi 0.6422305
GreeceThessaly2 Otzi 0.641938666666667
Bulgarian Otzi 0.641346
Portugese Otzi 0.640887333333333
Center-Italian Otzi 0.64044025
Romanian Otzi 0.6397932
French_Basque Otzi 0.639631
Costanoan Otzi 0.639535
Egyptan Otzi 0.639511571428571
Azeri_Jew Otzi 0.639471333333333
Cypriot Otzi 0.639013
Bosnian Otzi 0.639004857142857
Yemen_Jew Otzi 0.638963
Toscanian Otzi 0.63891
Macedonian Otzi 0.638783625
Morocco_Jew Otzi 0.638593307692308
Greek Otzi 0.638391166666667
Gagauz Otzi 0.6383745
Italian_Jew Otzi 0.6382314
Spain Otzi 0.638200666666667
Sephard Otzi 0.637888105263158
North_Italian Otzi 0.637741333333333
North_Greek Otzi 0.637464333333333
Hungarian Otzi 0.63745125
French Otzi 0.63742736
Tunisian-jew Otzi 0.63733325
South-Germanian Otzi 0.637282482758621
Iraq_jew Otzi 0.637247
Sicilian Otzi 0.63712
Ashkenazi Otzi 0.6370677
Libyan_Jew Otzi 0.637057
Swede Otzi 0.636882647058824
Center-Greek Otzi 0.636866
North-Greek Otzi 0.63681875
CEU Otzi 0.6366755
Montenegrin Otzi 0.636612
South-Greek Otzi 0.636612
Czech Otzi 0.6365207
Colville Otzi 0.636485
Welsh Otzi 0.636406111111111
Iberian Otzi 0.636382375
German Otzi 0.6363546
Iraqi-jew Otzi 0.636351666666667
Georgian_Imereti Otzi 0.6363372
Turk Otzi 0.636294941176471
Syrian Otzi 0.636126461538462
Sorb Otzi 0.635990692307692
Belorusian Otzi 0.635913
Yemen_jew Otzi 0.635805285714286
Swiss Otzi 0.635714047619048
British Otzi 0.635675083333333
Jordanian Otzi 0.635631333333333
Libyan Otzi 0.635575538461538
Armenian Otzi 0.635448428571429
Balkar Otzi 0.635168333333333
Azeri Otzi 0.635065857142857
Iran_jew Otzi 0.6350402
Russian_cossack Otzi 0.6349466
Druze Otzi 0.634933818181818
Orcadian Otzi 0.634880833333333
Romanian_Jew Otzi 0.6348645
Libyan-jew Otzi 0.6348278
Mordovian Otzi 0.634652636363636
Slovenian Otzi 0.6346172
North-Ossetian Otzi 0.634498538461538
Croat Otzi 0.6344835
Algerian-jew Otzi 0.6344135
Tatar Otzi 0.6344055
Georgian_Laz Otzi 0.634376
France_Jew Otzi 0.6343665
Khazar_jew Otzi 0.634292242424242
Aleut Otzi 0.634197
Pole Otzi 0.634177428571429
Abhasian Otzi 0.6340056875
Palestinian Otzi 0.633990545454545
Tat Otzi 0.6339235
Georgian Otzi 0.633884785714286
Roma Otzi 0.633635409090909
Tunisian_Jew Otzi 0.63353
Ukrainian Otzi 0.6335218
Serb Otzi 0.633398909090909
Iraqi Otzi 0.633383
Egyptian Otzi 0.633367714285714

II. Gök и Ste7 — женщины-фермеры эпохи шведского позднего неолита (Культура воронковидных кубков, КВК (англ. Funnel Beaker culture, нем. Trichterbecherkultur, TRB) — мегалитическая культура (4000 — 2700 гг. до н. э.) эпохи позднего неолита.)

В отличие от нашего предыдущего анализа, где мы использовали только Gök, мы решили создать композитного индивида за счет слияния геномных данных Gök и Ste7 (см.предыдущие посты этой серии). Это было сделано с целью реконструировать аутосомные составляющие предковоой популяции культуры КВК. Из приведенной ниже таблицы становятся ясно, что:
1) большая часть генетического разнообразия у анализируемых индивидов не встречается ныне ни в одной из современных популяций, и именно это потерянное в результате дрейфа генетическое разнообразие объединяет носителей древней ДНК в общий красный кластер

2) у представителей культуры заметно влияние древних генетических контактов популяций Северной Европы и палеосибирских популяций, предковых по отношению к современным америндам (зеленый кластер).

3)  третья группа (обозначена синим цветом) аналогична одному из вышеупомянутых выше компоненту генетического разнообразия Этци. Она сближает древнее население КВК с современными популяциями западной и южной Европы. В этом компоненте нет существенных разногласий с исследованиями популяционных генетиков из Уппсальского университета Швеции.

F3.large

SwedeTBK Bra 0.905852  
SwedePWC SwedeTBK 0.866097  
SwedeTBK Otzi 0.807465  
SwedeTBK N._European 0.59325092
Athabask SwedeTBK 0.588854
Hungarian SwedeTBK 0.581786
Irani-jew SwedeTBK 0.580844
North_Italian SwedeTBK 0.580643
Kosovar SwedeTBK 0.58033
Bulgarian SwedeTBK 0.579557  
East-Ukrainian SwedeTBK 0.579557  
Kusunda SwedeTBK 0.5793  
Colville SwedeTBK 0.578864
French_Basque SwedeTBK 0.578806818181818
Serb SwedeTBK 0.577398818181818
Romanian SwedeTBK 0.5773258
Mansi SwedeTBK 0.5770508
CEU SwedeTBK 0.577024142857143
GreeceThessaly2 SwedeTBK 0.576754333333333
Kumyk SwedeTBK 0.576725  
Iraqi SwedeTBK 0.576398
SwedeTBK Buryat 0.5757842
Costanoan SwedeTBK 0.57571
Haida SwedeTBK 0.57571
German SwedeTBK 0.5753862
Nyshi SwedeTBK 0.57530875
Ket SwedeTBK 0.5750755
Bosnian SwedeTBK 0.574970714285714
Portugese SwedeTBK 0.574837  
Welsh SwedeTBK 0.574730333333333
Corsican SwedeTBK 0.574707  
North-Russian SwedeTBK 0.574510043478261
West-Ukrainian SwedeTBK 0.5742968
South-Russian SwedeTBK 0.574150333333333
Croat SwedeTBK 0.574003833333333
Karelian SwedeTBK 0.573929692307692
Slovak SwedeTBK 0.573892833333333
Tlingit SwedeTBK 0.573607
Tunisian-jew SwedeTBK 0.5735595
Syrian_Jew SwedeTBK 0.5734265
Chuvash SwedeTBK 0.573139533333333
Kalmyk SwedeTBK 0.573079727272727
Center-Russian SwedeTBK 0.572759636363636
SwedeTBK Totonac 0.572689041666667
Macedonian SwedeTBK 0.57251475
Center-Greek SwedeTBK 0.572348
Russian_cossack SwedeTBK 0.5723086
Mordovian SwedeTBK 0.572217636363636
Vepsa SwedeTBK 0.572191363636364
Brahmin_UttarPradesh SwedeTBK 0.572158
Spain SwedeTBK 0.572090666666667
Ecuadorian SwedeTBK 0.572029375
France_Jew SwedeTBK 0.571969833333333
Tatar SwedeTBK 0.571906642857143
Mari SwedeTBK 0.571502285714286
Saudi SwedeTBK 0.5714354
Greek SwedeTBK 0.571345
South-Greek SwedeTBK 0.571232333333333
Mexican SwedeTBK 0.57110925
Lahu SwedeTBK 0.570989
Serrano SwedeTBK 0.570978

III. Ajvs — древние жители культуры ямочной керамики (Культура ямочной керамики, Pitted Ware culture (около 3200 — 2300 гг. до н. э.) — культура охотников и собирателей эпохи неолита. Существовала на юге Скандинавии, в основном вдоль побережья Свеаланда, Гёталанда, Аландских островов, на северо-востоке Дании и на юге Норвегии. Была современницей, а в некоторых местах делила ареал с сельскохозяйственной культурой воронковидных кубков, а позднее — с сельскохозяйственной культурой шнуровой керамики.)

Также как и у представителей КВК, большая часть генетического разнообразия жителей у современных популяций Европы потеряна. Поэтому они попадают в общий кластер к другим древним исследованным европейским ДНК, и неспецифическому аутосомному фону Северной Европы.

Из современных популяциий наиболее близки к ним эстонцы, латыши,литовцы, а также ряд других популяций Балтийского  региона (обозначены фиолетовым цветом), а также ряду популяций западной и южной Европы.  Примечательно, что у Ajvs гораздо слабее выражен древний палеосибирский (квази-америндский компонент), и еще слабее типичный для Этци (I) и жителей культуры КВК (II) неолитический компонент, связывающий их с современными популяциями Ближнего Востока и Кавказа.
Здесь тоже нет существенных разногласиий с выводами группы Скоглунда, у которого (за отсутствием в выборке эстонцев, литовцев и латышей) самыми близкими к жителям культуры ямочной керамики оказываются поляки.

F3.large

SwedePWC Bra 0.908488  
SwedePWC SwedeTBK 0.866097  
SwedePWC Otzi 0.81501  
SwedePWC N._European 0.58268312
Estonian SwedePWC 0.578113944444444
Russian SwedePWC 0.577444333333333
Latvian SwedePWC 0.57607  
Lithuanian SwedePWC 0.575179642857143
Orcadian SwedePWC 0.575171333333333
Kosovar SwedePWC 0.574342  
Czech SwedePWC 0.57363895
French SwedePWC 0.57334168
South-Germanian SwedePWC 0.572643965517241
Pole SwedePWC 0.570919326530612
Haida SwedePWC 0.570593
Sorb SwedePWC 0.570527923076923
Center-Russian SwedePWC 0.570395727272727
Karelian SwedePWC 0.570175307692308
Swede SwedePWC 0.570099
Corsican SwedePWC 0.5696165
South-Russian SwedePWC 0.569518
Vepsa SwedePWC 0.569184181818182
CEU SwedePWC 0.568893571428571
Swiss SwedePWC 0.568845095238095
Komi SwedePWC 0.568339363636364
SwedePWC Totonac 0.568287625
Aleut SwedePWC 0.568253
Sardinian SwedePWC 0.5681032
North-Russian SwedePWC 0.567888695652174
Bosnian SwedePWC 0.567837857142857
French_Basque SwedePWC 0.567750181818182
Mordovian SwedePWC 0.567647363636364
Chuvash SwedePWC 0.567504666666667
Serb SwedePWC 0.567329090909091
Russian_North SwedePWC 0.567027
Cretan SwedePWC 0.5670035
German SwedePWC 0.5669944
North-German SwedePWC 0.566872769230769
SwedePWC Samoan 0.566706384615385
Montenegrin SwedePWC 0.566654333333333
East-Ukrainian SwedePWC 0.56619975
Tatar SwedePWC 0.566033785714286
Hungarian SwedePWC 0.565851625
Ket SwedePWC 0.5656705
Welsh SwedePWC 0.565641444444444
SwedePWC Irula 0.565603956521739
Bashkir SwedePWC 0.565471333333333
Tuscan SwedePWC 0.565401
Mexican SwedePWC 0.5653275
West-Ukrainian SwedePWC 0.5653062
Russian_Center SwedePWC 0.565276
Mansi SwedePWC 0.5651792
Macedonian SwedePWC 0.56517625
Udmurd SwedePWC 0.564932545454545
Balkar SwedePWC 0.564865
Ukrainian SwedePWC 0.5646252
Slovak SwedePWC 0.564342833333333
Irani-jew SwedePWC 0.564264
SwedePWC AP_Madiga 0.5642395
Tsimsian SwedePWC 0.564158
Center-Greek SwedePWC 0.564144
Spain SwedePWC 0.563930666666667
Bulgarian SwedePWC 0.563776
Costanoan SwedePWC 0.563768
Chenchus SwedePWC 0.563652
North_Italian SwedePWC 0.5636205
Mari SwedePWC 0.563564857142857
Croat SwedePWC 0.563453
Nenets SwedePWC 0.563393583333333

IV. La Brana  — испанский мезолит, 7000 лет до настоящего времени.

Результаты близки к результатам древних жителей Ajvs (культуры ямочной керамики), c той лишь разницей, что у них практически полностью отсутствует генетическая вариация, присущая современным южным европейцам. Кроме того, их мезолитический генофонд подвергся вымыванию в еще большей степени, чем генофонд древних жителей неолита, о которых я писал выше.  Примечательно, что в отличии от Ajvs,  у La Brana незаметна балтийская доминанта, хотя ближайшей популяцией и оказываются латыши. В оригинальной статье было показано, что древние мезолитические жители Иберии — La Brana — оказываются «близки» к западно-европейцам, и та же картина заметна и в нашем анализе

SwedePWC Bra 0.908488
SwedeTBK Bra 0.905852
Bra Otzi 0.843151
Bra N._European 0.60332376
Latvian Bra 0.576167975609756
North-German Bra 0.576164846153846
Estonian Bra 0.576057666666667
Lithuanian Bra 0.570270535714286
Russian Bra 0.569868833333333
Czech Bra 0.5694441
Swede Bra 0.569444029411765
Russian_North Bra 0.568627
Pole Bra 0.567495653061225
Orcadian Bra 0.567451
Bulgarian Bra 0.567146
South-Germanian Bra 0.566648551724138
TN_Brahmin Bra 0.566116
Swiss Bra 0.565266142857143
CEU Bra 0.564653642857143
Center-Russian Bra 0.564325727272727
Komi Bra 0.564082181818182
Belorusian Bra 0.563804
Athabask Bra 0.563369
Mordovian Bra 0.562895181818182
Kosovar Bra 0.56235
Corsican Bra 0.5621705
French Bra 0.56141128
Tsimsian Bra 0.560916
Croat Bra 0.560884666666667
Nguni Bra 0.560649
Slovak Bra 0.5605515
Hungarian Bra 0.560269
Yukagir Bra 0.559952
West-Ukrainian Bra 0.5596024
NAN_Melanesian Bra 0.559505
Chuvash Bra 0.559285866666667
Welsh Bra 0.559282666666667

 

Еще раз к проблеме генетической преемественности саамов и финнов

Одна из первых записей в этом дневнике была посвящена проблеме происхождения саамов. Поскольку все основные аргументы в споре генетиков, лингвистов и археологов были исчерпаны я решил не возвращаться к этой теме. Однако в середине мая со мной связался Андерс Полсен из генеографического проекта Fennoscandia . Нужно отметить необычайную активность Андерса, которая в последнее время особенно заметна на фоне бездеятельности остальных ведущих геномных блоггеров. В числе прочего следует упомянуть о ряде примечательных заметок Андерса, посвященных сравнительному анализу древнего ДНК останков из мезолитической испанской пещеры La Brana и  ДНК современных саамов. Эти заметки заслуживают дополнительного комментария. Анализом этно-популяционных компонентов ДНК  примерно год тому назад занимался Диенек Понтикос и автор этих строк. Понтикос отметил, в числе прочего, интересный момент:

В связи с небольшим числом извлеченных из останков снипов, я был вынужден создать композитный набор данных за счет слияния данных обеих генотипированных мезолитических индивидов; в моем калькуляторе K7b этот композитный индивид характеризуется наличием 9,3% африканских аллелей и 90,7% аллелей входящих в кластер Atlantic_Baltic, и этот расклад довольно точно соответствует положению этого композита на графике PCA … высокий процент компонента Atlantic_Baltic, согласуется с аналогичным высоким процентом Atlantic_Baltic, выявленным у  охотников-собирателей шведского неолита.

Поскольку география ареала распространения этого компонента, похоже, мало интересует Диенека, более он ничего не писал. Мой анализ показал несколько иную картину. Прежде всего, я использовал несколько иную группировку популяционных кластеров, определенных в ходе анализа чистот аллелей в разных популяциях. Во-вторых, в отличии Диенека, имеющего ограниченный сэмпл популяций балтийского и скандинавского регионов,  у меня была собрана солидная референсная группа эстонцев, шведов, латышей, финнов и саамов. Благодаря этому удалось показать, что ближе всего к La Brana находятся современные саамы, финны, латыши и эстонцы. Это геномная близость оказалась настолько явственной, что представляется возможным выделить компонент объединяющий все эти популяции и мезолитических испанцев в общий компонент, который я назвал палеоевропейским.

Эти выводы заинтересовали Андерса, поскольку в рамках своего проекта Фенноскандия, он уделяет особое внимание скандинавским популяциям, в том числе и саамам.  Месяц назад он написал мне письмо:

Я пытался  много раз проверить твои выводы (насчет близости саамов и мезолитических испанцев). Полученная в программе PLINK IBS матрица позволяет нам предположить, что  в абсолютном выражении, кратчайший путь от La Braña ведет к литовцам, и затем к  части финнов из северных регионов Финляндии. В программе Admixture, которая не учитывает перевес в пользу финнских и скандинавских образцов, финны и литовцы образовали  два разных кластера, а La Brana  попали в  общий кластер с финно-саамским компонентом, а не с литовцами. В другом запуске программы Admixture, я использовал равные по числу образцов выборки финнов и литовцев. В этом эксперимента я не обнаружил какого-либо расхождения между литовцами и финны, а La Brana попали целиком в этом общий финно-литовский компонент. Однако только что я завершил новый анализ структуры генофонда в программе fineStructure -Chromopainter. В размерности 4 «мирового» PCA La Brana  имеют одинаковую вариацию с двумя саамами и финном с небольшой примесью саамской крови.

В качестве ответа, я привел ряд своих собственных наблюдений насчет геномного сходства саамов.Я использовал совокупный набор данных для расчета матриц IBS и последующего импорта попарных IBS матриц в статистическое программное обеспечение R. Используя встроенные библиотеки программы R,  я вычислил средние значения наблюдений в наборе данных с попарными значениями IBS между образцами, включенными в анализ. Ниже приводится таблица с попарными значениями геномного сходства . Как видно,  в этот раз La Brana оказались гораздо более к балтийским популяциям:

Latvian Bra 0,5762
North-German Bra 0,5762
Estonian Bra 0,5761
Lithuanian Bra 0,5703
Russian Bra 0,5699
Czech Bra 0,5694
Swede Bra 0,5694
Russian_North Bra 0,5686
Pole Bra 0,5675
Orcadian Bra 0,5675
Bulgarian Bra 0,5671
South-Germanian Bra 0,5666
TN_Brahmin Bra 0,5661
Swiss Bra 0,5653
CEU Bra 0,5647
Center-Russian Bra 0,5643
Komi Bra 0,5641
Belorusian Bra 0,5638
Athabask Bra 0,5634
Mordovian Bra 0,5629
Kosovar Bra 0,5624
Corsican Bra 0,5622
French Bra 0,5614
Tsimsian Bra 0,5609
Croat Bra 0,5609
Nguni Bra 0,5606
Slovak Bra 0,5606
Hungarian Bra 0,5603
Yukagir Bra 0,5600
West-Ukrainian Bra 0,5596
NAN_Melanesian Bra 0,5595
Chuvash Bra 0,5593
Welsh Bra 0,5593
Colombian Bra 0,5592
Vepsa Bra 0,5591
Karelian Bra 0,5590
Miwok Bra 0,5589
North-Russian Bra 0,5587
Portugese Bra 0,5583
German Bra 0,5582
Macedonian Bra 0,5579
Finn Bra 0,5577
Russian_cossack Bra 0,5577
Colville Bra 0,5576
Russian_Center Bra 0,5576
Bosnian Bra 0,5571
Hakas Bra 0,5570
South-Russian Bra 0,5569
Lumbee Bra 0,5568
Sardinian Bra 0,5567
Selkup Bra 0,5567
Nenets Bra 0,5564
East-Ukrainian Bra 0,5563
Hausa Bra 0,5561
Tuva Bra 0,5558
Meghawal Bra 0,5556
Uzbeki_jew Bra 0,5556
Bashkir Bra 0,5555
Br Bra 0,5554
Inuit-West Bra 0,5552
Mexican Bra 0,5551
Tatar Bra 0,5550
Ukrainian Bra 0,5550
Naxi Bra 0,5548
Libyan-jew Bra 0,5548
British Bra 0,5548
North-Greek Bra 0,5546
French_Basque Bra 0,5545
Khant Bra 0,5544
Ashkenazi_Jew Bra 0,5543
Dharkar Bra 0,5543
Miaozu Bra 0,5542
Tatar_Lithuania Bra 0,5542
Daur Bra 0,5542
Spain Bra 0,5541
Saami Bra 0,5540
Romanian_Jew Bra 0,5540
Brahmin Bra 0,5537
Lezgin Bra 0,5536
Slovenian Bra 0,5536
Udmurd Bra 0,5534
Mongola Bra 0,5533
Sotho Bra 0,5533
Tuscan Bra 0,5533
Altaic Bra 0,5532
Burusho Bra 0,5529
North_Italian Bra 0,5525
Nogay Bra 0,5525
Azeri_Jew Bra 0,5525
Balkar Bra 0,5523
Adygei Bra 0,5522
Kol Bra 0,5520
Montenegrin Bra 0,5520
Gagauz Bra 0,5518
Hakkipikki Bra 0,5518
South-Greek Bra 0,5517
Han Bra 0,5516
Indian_muslim Bra 0,5516
Iberian Bra 0,5515
Georgian_Imereti Bra 0,5515
Greek_Azov Bra 0,5515
She Bra 0,5514
Yakut Bra 0,5513
GreeceThessaly2 Bra 0,5512
Serb Bra 0,5512
North-Ossetian Bra 0,5511
Lak Bra 0,5511
Chechen Bra 0,5511
Dusadh Bra 0,5511
Brahmin_UttarPradesh Bra 0,5510
Tlingit Bra 0,5507
Kalmyk Bra 0,5506
Toscanian Bra 0,5505
IndCan Bra 0,5505
Greek Bra 0,5504
Indian Bra 0,5504
Egyptan Bra 0,5503
Bengali Bra 0,5503
Haida Bra 0,5503
Ashkenazi Bra 0,5503
Kazakh Bra 0,5502
Mansi Bra 0,5502
Burmese Bra 0,5499
Georgian_Jew Bra 0,5499
Tunisian_Jew Bra 0,5496
Mongol Bra 0,5496
Kusunda Bra 0,5496
Turk Bra 0,5495
Karitiana Bra 0,5495
Uttar_Pradesh_scheduled_caste Bra 0,5494
Romanian Bra 0,5494
Kyrgyz Bra 0,5493
Uzbek Bra 0,5491
Roma Bra 0,5491
Ecuadorian Bra 0,5491
Xibo Bra 0,5490
Armenian Bra 0,5490
North_Greek Bra 0,5489
Tujia Bra 0,5489
Caribbean_Hispanic Bra 0,5489
Gond Bra 0,5488
Tatar_Crim Bra 0,5487
Turkmen Bra 0,5487
Iraqi-jew Bra 0,5486
Kurumba Bra 0,5486
Tu Bra 0,5486
Sindhi Bra 0,5484
Kshatriya Bra 0,5483
Oroqen Bra 0,5481
Aleut Bra 0,5478
Brg Bra 0,5478
Druze Bra 0,5478
Tadjik Bra 0,5477
Yizu Bra 0,5477
Kanjar Bra 0,5477
Naga Bra 0,5476
Irani-jew Bra 0,5476
Abhasian Bra 0,5475
Brahui Bra 0,5474
Georgian Bra 0,5472
Dai Bra 0,5471
Evenk Bra 0,5470
Tamil_Brahmin Bra 0,5470
Libyan Bra 0,5469
Cypriot Bra 0,5469
Mari Bra 0,5468
Kumyk Bra 0,5468
Hazara Bra 0,5467
Moroccan Bra 0,5467
Syrian Bra 0,5467
Inkeri Bra 0,5464
Azeri Bra 0,5464
Iraq_jew Bra 0,5464
Indian_Jew Bra 0,5464
Saudian Bra 0,5464
Lambadi Bra 0,5463
Cretan Bra 0,5462
Jordanian Bra 0,5461
Parsi Bra 0,5460
Ket Bra 0,5460
PuertoRican Bra 0,5460
Sephard Bra 0,5459
Chenchus Bra 0,5458
Nyshi Bra 0,5458
Chukchi Bra 0,5455
Shor Bra 0,5455
Velama Bra 0,5455
Lahu Bra 0,5454
Hezhen Bra 0,5454
Bedouin Bra 0,5454
Mozabite Bra 0,5452
Italian_Jew Bra 0,5452
Tamil_Nadu Bra 0,5450
Tharus Bra 0,5449
Chamar Bra 0,5448
Irani Bra 0,5448
Kinh Bra 0,5447
Yemen_jew Bra 0,5446
Center-Italian Bra 0,5445
Tunisian-jew Bra 0,5444
Lebanese Bra 0,5444
Balochi Bra 0,5443
Pygmy Bra 0,5442
Dolgan Bra 0,5442
Serrano Bra 0,5442
Palestinian Bra 0,5441
Brahmin-TNBRAS Bra 0,5441
Makrani Bra 0,5440
Piramalai_Kallar Bra 0,5439
Kalash Bra 0,5439
Algerian Bra 0,5438
Lemba Bra 0,5435
Yemeni Bra 0,5435
Fulani Bra 0,5433
South-Han Bra 0,5432
Uzbekistan_Jew Bra 0,5432
Center-Greek Bra 0,5432
Karakalpak Bra 0,5431
Costanoan Bra 0,5425
Morocco_Jew Bra 0,5422
Gujarati Bra 0,5420
Algerian-jew Bra 0,5418
Tswana Bra 0,5415
Iranian_Jew Bra 0,5413
Yemen_Jew Bra 0,5413
France_Jew Bra 0,5412
Iran_jew Bra 0,5409
Kurd_Jew Bra 0,5407
Egyptian Bra 0,5407
Afar Bra 0,5406
Iraqi Bra 0,5402
Chamat Bra 0,5397
North-Han Bra 0,5392
Khazar_jew Bra 0,5391
!Kung Bra 0,5390
Maya Bra 0,5387
Saudi Bra 0,5379
Tunisian Bra 0,5377
Sicilian Bra 0,5377
Georgian_Laz Bra 0,5373
Indan_muslim Bra 0,5370
Saharan Bra 0,5369
Meena Bra 0,5366
Azeri_jew Bra 0,5364
Ethiopian_Jew Bra 0,5362
Dogon Bra 0,5360
Indian_jew Bra 0,5357
Kongo Bra 0,5347
Algerian_Jew Bra 0,5337
Tat Bra 0,5335
Syrian_Jew Bra 0,5334
Madiga Bra 0,5331
Papuan Bra 0,5322
San Bra 0,5309
Somali Bra 0,5306
Dominican Bra 0,5296
Australian Bra 0,5296
Wolyata Bra 0,5285
Libyan_Jew Bra 0,5280
Bamoun Bra 0,5279
Brong Bra 0,5271
Bambaran Bra 0,5271
Afro-American Bra 0,5271
Tygray Bra 0,5269
Koryak Bra 0,5264
Sandawe Bra 0,5262
Ethiopian Bra 0,5259
Bulala Bra 0,5248
Mada Bra 0,5248
Amhara Bra 0,5246
Kaba Bra 0,5240
Hadza Bra 0,5224
Biaka_Pygmies Bra 0,5211
Oromo Bra 0,5201
Bantu Bra 0,5195
Yoruba Bra 0,5171
Mandenka Bra 0,5169
Igbo Bra 0,5157
African-Caribbean Bra 0,5154
Luhya Bra 0,5152
Yourba Bra 0,5127
Esomali Bra 0,5116
Ari Bra 0,5110
Fang Bra 0,5086
Anuak Bra 0,5077
Sudanese Bra 0,5021
Gumuz Bra 0,4993

Руководствуясь моими замечаниями, Андерс написал новую заметку в свой блог, и эта заметка настолько важна, что я решил ее перевести на русский целиком:

» Те, кто читал мой блог, или участвовал в  проекте Fennoscandia, уже привыкли к появлению на графике  PCA (анализа главных компонентов европейского генетического разнообразия) в программе Chromopainter-finesStructure  типичных фигур с формой напоминающей  символы  «>» или «<«. Обычно кластер располагается близко к корню в то время как популяции Центральной и Восточной Европе популяции оказываются на одной ветке или ребре этой V-образной фигуры, в то время как скандинавы, финны и саамы  — на другой.  Пример этой структуры приведен ниже:

Наверное, многие из моих читателей задавались вопросом, почему распределение популяций на графике PCA имеет именно эту геометрическую форму, а также вопросом касаемо того, сколько лет прошло с момента начала дивергенции двух вышеупомянутых группы популяций.  Чтобы ответить на этот вопрос я произвел анализ данных  по древней ДНК La Braña и MDS анализ  в программе PLINK.  Исходное число точечных мутаций -снипов было уменьшено до 69 000. В анализе я использовал всех участников проекта и референсных популяций. Как мы видим, нет * абсолютно * никаких сомнений, с кем именно кластеризуются древние La Braña в проекции двух основных компонентов генетического разнообразия.


Подобное расположение древних иберийских  La Braña, означает вероятно, что древние La Braña характеризовались определенными генетическими вариациями, вариациями которые напоминали генетические  вариации финнов и саамов  (и сегодня встречаются только в Фенноскандии). В западной и южной Европе эти генетические вариации отсутствуют. Кроме того, существуют вероятно компоненты, которые отделяют La Braña от финнов, и приближают их  к саамам.

Набор данных по La Braña включает в себя 183 000 снипа (эти снипы перекрываются набором данных из проекта 1000G) и мой текущий стандартный набор данных 289 000 снипа.   Интерсекция обеих наборов данных   дает в конечном итоге всего 4 000 снипа. Это явно небольшое количество полиморфизмов, недостаточное для полноценного анализа. Вместо этого я попытался посмотреть, если  другой способ решения этой проблемы, который позволяют произвести анализ с использованием всех 183 000 снипов La Braña. Тот факт, что оба набора данных в этом эксперименте — 183 000 снипа Lа Braña  и 288  000 cнипа  — полностью перекрываются снипами проекта 1000 геномов,  позволяет нам найти решение проблемы  путем импутации SNP-гаплотипов. Эта процедура определения снипов широко используется в генетических исследованиях  в тех случаях, когда объединенный набор данных был генотипирован на различных платформах с использованием общей референсной панели.

Импутация снипов была проnзведена в программе BEAGLE. После этого я сравнил  первоначальный набор данных с «импутированным» набором данных на предмет различий между. Поскольку большинство SNP-ов в данном анализе было определенно в ходе импутирования, то я заметил определенный » искусственный дрейф», состоящий в том, что индивиды с импутированными  снипами становятся более похожи друг на други, чем те же индивиды, но с первоначальными неимпутированными снипами 1000G Поэтому я исключил всех индивидов, чей набор данных содержал импутированные снипы (за исключением La Braña), предполагая что минимизаций фактора неопределенности приведет к тому, что неизбежные незначительные ошибки не будут столь значительно влиять на достоверность результатов. Все генотипы индивидов La Braña представляют собой реальные  генотипы (без использования импутации).

Как мы видим ниже, структура популяций определенная в программе Chromopainter-fineStructure, представляется релевантной как в мировом, так и  в паневропейском масштабе. Это доказывает надежность проведенной операции импутирования снипов,  поэтому эту методологию можно использовать для дальнейшего анализа.

На приведенных выше графиках видно, что отдельные компоненты аутосомных генетических вариаций La Braña сильно отделяет эту группу от остальной части современных европейцев, так же как и  в предыдущем посте с использованием неимпутированных гаплотипов. Причина этого феномена ясна: у индивидов La Braña африканское происхождение выражено более ярко, чем у остальных европейцев. Принадлежность к  восточно-азиатскому, сибирскому и индейскому кластеру, кажется, характерна для сегодняшних финнов.

В этой связи возникает закономерный вопрос: какая из современных нам популяций является самой близкой к La Brana?  При проведении простой IBS-кластеризации в PLINK, мною были получены величины Эвклидовой дистанции между геномными образцами. В режиме диплоидных данных наиболее близкими к La Brana оказываются литовцы и саамы, в  режиме гаплоидном режиме список возглавляют литовцы.


Однако по своему собственному опыту, я могу сказать что нельзя полностью доверять простым сравнениям IBS, поскольку на сходство могут повлиять очень многие факторы. С целью получения большей информации, я произвел новый анализ в  Chromopainter-fineStructure, — на этот раз с использованием только европейских популяций.

Как мы видим из вышеприведенной heatmap, cуществует определенная генетическая связь между литовцами, финнами и басками. В более отдаленной степени, в эту цепочку включаются и саамы.  Наличие большой асимметрии между полученными от других популяций хромосомными сегментами и хромосомными сегментами отданными в другие популяции в ходе процесса обмена генами, а также самый раннее ответвление    La Brana от остальной европейской панели, объясняется очевидно 10%  примеси африканских аллелей обнаруженных ранее.

Однако в анализ главных компонент PCA мы можем выделить влияние разных компонентов в генетическом наборе данных La Brana. В проекции 1 измерения PCA X-ASIS, мы наблюдаем значительную дисперсии отдельных популяций — La Braña находятся в крайне левом углу,  а литовцы — в дальнем правом. В перспективе 1 измерения    (размерности) главных компонентов генетического разнообразия нет никаких сомнений, что саамы находятся ближе всего к La Brana. В перспективе второго измерения 2,  дисперсия смещает La Brana к литовцам. Заметим, что здесь саамы и баски образуют противоположенные кластеры, которые отражают известную генетическую дихотомию-разделение Северо-Восточной  и Юго-Западной Европы.

В проекциях 1 и 3 измерения (Y-ось) мы видим, что La Braña наиболее близки к финнам и в некоторой степени также к пресловутым вологодским русским. В размерности 3 мы также видим, что баски и литовцы расходятся в противоположных направлениях, а  саамы появляется в качестве  промежуточное звена между ними.

Выводы: La Braña, судя по всему, отражают один из основных компонентов, которые в  самой значительной степени присутствуют среди современных популяциях у саамов, но практически отсутствует у остальных европейцев.  У саамы наблюдается и  второй значительный генетический компонент, который, кажется, отражает характерный градиент по направлению север-юг характерный  для  большой части финнов. Однако расположение La Braña в пространстве этого второго компонента нарушает общий тренд — они смещаются гораздо «южнее» от нижней части кластера литовцев в направлении кластера басков. Это означает, что у La Braña наблюдается значительный вклад южно-европейских предков. Оба доминирующих компонента в размерностях 1 и 2 на графики PCA достигают своего пика в северной части Европы (у саамов), причем второй компонент (который отсутствует у  La Braña) может указывать на аутентичный «северный» компонент, cвязанный с позднейшими миграциями. Интерпретация третьего компонента вызывает затруднения. Здесь присутствуют и финны, и русские из Вологда, в то время  как La Braña смещается ближе к литовцам, а  саамы —  в сторону кластера басков.

Заключение: Мезолитические жители Иберийского полуострова — La Brаna — характеризовались генетическими вариациями, которые в настоящее время встречаются среди саамов, и в то же время указывают на принадлежность к более южным популяциям, вроде литовцев и басков. Можно предположить, что оба компонента отражают «северный» и «южный» вклад в их родословную.

Наши наблюдения, по крайней мере частично, согласуются с  выводами Вадима Веренича впервые обнаружившим  связь между мезолитическими охотниками-собирателями Иберийского полуострова и саамами. Behind the Curtains: MDLP World 22 showcase

О неолитических тирольцах и шведах: опыт палеогентического анализа — часть 1

В мае прошлого года я провел три бессонные ночи, пытаясь извлечь SNP-ы из BAM файлов, любезно предоставленных профессором Уппсальского университета Понтусом Скоглундом — автором нашумевшего исследования древнего ДНК насельников шведского неолита.  Как мне представлялось, задача должна была оказаться несложной, особенно после того как в марте прошлого года я успешно произвел «выделение» геномных вариантов из аналогичных файлов содержащих информацию о геноме Эци.  Полученные на выходе файлы я намеривался соединить с имеющейся у меня базой данных SNP-ов современных евразийских популяций, а затем проанализировать в программе smartpca, входящей в пакет Eigenstrat.

Однако на поверку на эту процедуру пришлось потрать намного больше времени, в первую очередь из-за определенных трудностей с использованием vcftools, и определением надежных SNP-ов в сгенерированных в samtools pileup файлах.
Трудно описать мою радость, когда мне удалось взломать эти ‘крепкие геномные орешки’. После успешного определения SNP-ов, я произвел PCA-анализ с целью определения позиции неолитических фермеров (Gok4), охотников-собирателей (Ajv52, Ajv70) и Ötzi (Эци) на карте генетического вариативности населения западной части Евразии.

Мои эксперименты с Eigenstrat  частично подтвердили результаты аналогичныхз опытов Диэнека.

Как видно на приведенном графике, доисторические шведы Ajvs (принадлежавших к готландской культуре ямочной керамики (Pitted Ware culture (около 3200 — 2300 гг. до н. э.)) оказались на периферии современных северо-восточных европейских популяций.
Затем, по просьбе ряда посетителей форума ABF, я сделал PCA-график, на котором показаны обозначения популяций.

Как и прогнозировалось ранее, Ajv52 и Ajv70 оказались в окружении плотного кольца из балтийских популяций. В эту группу вошли литовцы, белорусы, поляки, шведы, украинцы, русские (из Северной и Центральной России) и мокша-эрзя. Однако, похоже,  в силу своего расположения на графике они также отдаленно связаны с современнами финнами и немцами

Генографическое размещение другого образца древнего ДНК — Gök4 (культура воронковидных кубков, КВК (англ. Funnel Beaker culture, нем. Trichterbecherkultur, TRB) — мегалитическая культура (4000 — 2700 гг. до н. э.)) — также оказалось весьма предсказуемым. Этот образце попал в один кластер с  тирольским Эци, популяциями средиземноморского региона (Vasconia, Iberia, Италия) и рядом западно-европейских популяций ( в том числе и из Франции).

Результаты аналогичны результатам из оригинальной статьи.

F1.large

Воодушевившись столь замечательными результатами, я решил выполнить элементарный анализ IBS. Для расчетов использовалась примерно такая же метрика, что и при вычисление геномного сходства (genome-wide similarity) в клиентской базе данных 23andme . На первый взгляд результаты кажутся несколько иными, чем те, что приведены в работе Skoglund et al.2012 (результаты приведены ниже):

Neolithic farmer Hunter-gatherers Long Lat chr.
Cyprus Cyp 68.20% 68.21% 33 35 8
Greece Gre 67.94% 68.51% 22 39 16
France Fra 67.89% 68.80% 2 46 178
Netherlands Net 67.88% 68.79% 5 52 34
Romania Rom 67.84% 68.62% 25 46 28
Italy Ita 67.81% 68.43% 12 42 438
Germany Ger 67.80% 68.80% 10 51 142
Croatia Cro 67.76% 68.67% 15 45 16
Portugal Por 67.75% 68.59% -8 39 256
Belgium Bel 67.73% 68.78% 4 50 86
Spain Spa 67.72% 68.59% -4 40 272
Poland Pol 67.71% 68.98% 20 52 44
Austria Aus 67.69% 68.65% 13 47 28
United Kingdom UK 67.68% 68.79% -2 53 400
Serbia Ser 67.67% 68.62% 20 44 88
Macedonia Mac 67.62% 68.58% 22 41 8
Sweden Swe 67.61% 68.84% 15 62 20
Ireland Ire 67.61% 68.71% -8 53 122
Hungary Hun 67.60% 68.58% 20 47 38
Russian Rus 67.56% 68.72% 37 55 12
Turkey Tur 67.55% 67.98% 35 39 8
FIN FIN 67.47% 68.77% 25 61 80
LSFIN LSFIN 67.44% 68.79% 26 64 162
Bosnia Bos 67.39% 68.81% 17 44 18
Scotland Sco 67.35% 68.81% -4 56 10

Различие с моими результатами может быть объяснены как различным числом используемых  SNP-ов (в исследовании Скоглунда их больше), так и отличием методологических подходов. Я использовал очень простой алгоритм в программе Plink для расчета IBS-матрицы, в то время как Скоглунд с соавторами использовал более сложный подход при расчете средней частоты аллелей.

Во всяком случае, с учетом вышесказанного, я все же хотел бы поделиться результатами IBS-анализа (ниже приведены только популяции с максимальным % общих аллелей, процентное соотношение выражено в виде дроби):

AJV70:

GOK4 0.85
AJV52 0.833333
Ötzi 0.7992
UKR 0.587516
BLR 0.586873
HNG 0.583655
RMN 0.583549
LTH 0.583012
LTH 0.583012
CEU 0.580438
FIN 0.580438

AJV52:

AJV70 0.833333
Ötzi 0.823864
GOK4 0.8
UKR 0.602506
HNG 0.596811
LTH 0.594533
RMN 0.593394
LTV 0.592818
CEU 0.592255
GER 0.592255
MR 0.591463

Ötzi

AJV52 0.823864
GOK4 0.813602
AJV70 0.7992
HNG 0.725414
NITAL 0.724004
NITAL 0,71989
LTH 0.718232
WUKR 0.718232
IBR 0.718162
RMN 0,71768
BLR 0.717367

GOK4

AJV70 0,85
Ötzi 0.813602
AJV52 0,8
НИУ 0.611345
NITAL 0.602941
CEU 0,60084
CEU 0,59979
NITAL 0.598739
RMN 0.598739
GBRORK 0.598309
RUS 0.595789

С другой стороны, если мы оставим в таблице только популяции Северной и Восточной Европы, результаты будут почти точно соответствовать таблице Скоглунда, и оба Ajvs будут наиболее близки к полякам.

Я должен подчеркнуть, что на самом деле мне удалось обнаружить SNP-ы и в образцах Ire8 и Ste7 (52322 SNP-а + инделов у Ire8 и 13175 вариантов у Ste7). Однако после слияния этих данных с общей базой данных, оказалось что большинство из генотипированных SNP-ов оказались либо новельными вариантами  либо находились за пределами современной генетической вариативности. Пересечение снипов Ste7 и Ire8 SNP  с моим основным наборов снипов дало 0, т. е. не существует никаких общих SNP-ов между моим текущим набором и набором данных у указанных выше образцов. Поэтому мне не оставалось ничего другого, как удалить Ste7/Ire8 из  конечной выборки.

fineStructure анализ популяций северо-восточной Европы: часть 1

Некоторое время тому назад в своем англоязычном блоге я разместил новый график, сделанный на основании анализа главных компонентов  генетического разнообразия в выборке, которая включала в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.

В ходе экспериментального теста в ходе статистической обработки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, которая  участвовала в репродукции или обмене генами в отдаленном прошлом. Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение  составило  22 000.Это близко к значениям Ne рекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных выше данных даже 22 000 для совокупности эффективного размера элементарных популяций — это более, чем достаточно. Например, численность эффективной популяции адыгов-шапсугов составляет по оценке попгенетиков всего 187 индивидов:

Почешхова, Э. А.  Структура миграций и дрейф генов в популяциях адыгов-шапсугов / Э. А. Почешхова // Медицинская генетика : ежемесячный научно-практический журнал. — Том 7,N 1. — Реферирована.  Важной  особенностью генофонда адыгов являются традиционная структура браков и  высокая эндогамия: 96,5% браков заключается в пределах своего этноса.  Одно из племен адыгов — шапсуги подразделено на две географически  изолированные группы. Шапсуги побережья Черного моря (от Туапсе до  Сочи), проживающие в районе наиболее интенсивного заселения пришлыми  народами, заключают 89% браков в пределах своей географической группы,  5% браков — с другими адыгами и лишь 6% браков — с представителями всех  остальных народов России и Закавказья. Шапсуги, переселенные в  Прикубанье (Западная Адыгея) и проживающие среди прочих племен адыгов,  заключают 77% браков в пределах своей географической группы, 21% браков —  с другими адыгами и 1,3% браков — с представителями иных этносов. Для  шапсугских аулов средний индекс эндогамии составил 0,40, гаметный индекс  — 0,7. Для элементарных популяций средний индекс эндогамии составляет  0,65. Малый генетически эффективный размер элементарных популяций  (Ne=187)


Или вот:

При оценке генного дрейфа на основе методов генетической демографии ключевыми параметрами являются эффективная численность Ne (размер, объем) популяции, составляющая примерно 30 % от общей численности, и миграция. Показано (Евсюков и др., 1996), что для коренных народов Сибири средний эффективный размер популяции равен 218, а для Северной Евразии в целом – 200, хотя изменчивость эффективного размера (Ne) популяций различалась на три порядка величин, как и их численность. Небольшая средняя величина Ne позволяет ожидать значительного эффекта генного дрейфа, если ему не противостоит миграция. Генный дрейф реализуется на уровне как популяции в целом, так и субпопуляций. В оригинальных исследованиях сибирских популяций получены следующие значения эффективного размера на уровне поселений(субпопуляций): алеуты Командорских островов – 75 чел. (Рычков, Шереметьева, 1972а, б), азиатские эскимосы и береговые чукчи – 70 и 61 чел. соответственно (Рычков, Шереметьева, 1972в), эвенки Нижней и Подкаменной Тунгуски – 27 чел. (Рычков и др., 1974б), коряки Камчатки – 71 чел. (Шереметьева, Горшков, 1982), северные ханты – 152 чел. (размах значений 98–348) (Пузырев и др., 1987). Эффективный размер сельских популяций Северной Евразии имеет клинальный тип изменчивости, убывая в направлении юго-запад – северо-восток, за исключением локального минимума в Средней Сибири у тунгусоязычных западных эвенков (Евсюков и др., 1996).


Из чего следует, что Ne размером в 22 000 человека или 1000 индивидов на кластер (а всего их выявленно 22 ) — это вполне достаточно для масштабирования частот рекомбинации гаплотипов. Можно прояснить смысл понятия эффективная популяция и другими словами. Во избежании ненужной путаницы необходимо сразу оговорить что понятие эффективной популяции носит сугубо теоретический характер, и в силу этого напрямую не имеет отношения к тому, каков был размер отдельной локальной популяции в определенный отдельно взятый промежуток времени.

Не имеет значения , так как речь идет о тех, кто внес свой вклад в генофонд существующих популяций.Причем эти все «отцы и матери-основатели» могут быть разнесены по времени на тысячелетия.


Собственно говоря, эффективная популяция — это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса  числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955).

Что касается размере эфективно-репродуктивной популяции для исходной популяции современных популяций Евразии, его достаточно легко вычислить исходя из аутосомного разнообразия. Например, соответствующие алгоритмы для вычисления Ne имплементированы в прогамме FineStructure.  По моим расчетам (близким к общепринятым) усредненный для всех хромосом размер эффективной популяции для всех задействованных мной евразийский популяций составил 14 000.

Исходя из общепринятого мнения, согласно которому размер Ne (эффективной популяции) в каждый синхронный период времени составляет примено 33% от общего размера популяции теоретически можно оценить величину популяции в момент времени, когда ее эффективный размер составлял 14 000 (это примерно 40 000).

Если бы мы знали, что все это родоначальники многобразия жили в одно время, тогда можно было бы интерполировать эти сведения для оценки это времени по обычной хронологической шкале. Но нет никаких оснований полагать, что они жили в одно и то же время.

«Effective size» of the population (commonly denoted as Ne in the population genetics literature) from which your dataset was sampled. This parameter scales the recombination rates that IMPUTE2  uses to guide its model of linkage disequilibrium patterns. When most  imputation runs were conducted with reference panels from HapMap  Phase 2, we suggested values of    11418    for imputation from HapMap CEU,    17469    for YRI, and     14269    for CHB+JPT.

Modern imputation analyses typically involve reference panels with  greater ancestral diversity, which can make it hard to determine the  «ideal» -Ne value for a particular study. Fortunately, we have found that imputation accuracy is highly robust to different -Ne values; within each of several human populations, we have obtained nearly identical accuracy levels for values between 10000 and25000. We suggest setting -Ne to 20000 in the majority of modern imputation analyses.

В качестве инструмента я использовал комбинацию нескольких программ из нового пакета биоинформатического программного обеспечения fineStructure/ChromoPainter. Как показали экспериментальные тесты  с использованием этого пакета, оптимизированный алгоритм обнаружения общих по происхождению сегментов в сравниваемых популяциях дает оптимальные результаты по разбивки индивидов на кластеры по признаку геномной близости (в качестве меры этого признака в данном случае я использовал число идентичных по происхождению геномных сегментов:  по полученным векторам признаков для каждого кластера производилось попарное сравнение и сортировка по мере близости в евклидовой метрике).

MDLset1-3 MDLsetMDLset

1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
2. Все литовцы (участники проекта + референсы из статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев 
3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.
4. Ниже находится балканский кластер (румыны, болгары и часть венгров).
5. К этому кластеру примыкают турки и часть армян 
6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов). 
7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.
8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

10. Левее этой группы популяций находится кластер ашкеназов.

11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).*

*—— Примечание


Т
акое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции. То есть все эти баски являются многократными родственниками между собой. Классический генный дрейф, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества shared DNA chunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.Исходя из этого можно сделать вывод о том
1) что баски эта экстремально-эндогенная популяция изолянтов
2) генетическое разнообразие низко, т.к. размер эффективной популяции низок.

 

 

Вы не поняли. 

Каких десятков тысяч предков славян?
По оценке профи, занимающихся анализом полных геномов, эффективный размер популяции генетических предков для современных популяций всей Евразии с трудом достигает 2 десятков тысяч,  причем общий консенсус сдвигается в сторону 15 000.