Три предковые группы европейцев

Получивший широкой резонанс в среде профильных профессиональных популяционных генетиков и простых любителей препринт статьи Lazaridis et al. 2013 содержит огромное количество важных наблюдений и заключений насчет происхождения и эволюции структуры генофонда современных европейцев. Объективности ради стоит отметить, что наверное не менее половины выводов вышеупомянутой статьи были озвучены ранее персональными геномными блоггерами в ходе более ранних самостоятельных экспериментов и анализов древней ДНК.  Но важность статьи Lazaridis et al. 2013, конечно же, в другом. В ней приводятся новые данные ( результаты изучения древнего ДНК) ряда доисторических популяций групп людей Европы. В частности, были приведены результаты изучения древнего ДНК мезолитических европейских охотников-собирателей из Люксембурга, чьи мтДНК были опубликована несколько лет назад; результаты генотипирования неолитического образца ДНК неолитического земледельца из Германии: наконец, препринт статьи содержал данные сразу по  нескольким мезолитическим охотникам-собирателей из Швеции.

По раскладу своих предковых компонентов, люксембургский образец похож на образцы  La Brana (иберийский палеолит). В свою очередь,  ДНК шведов периода мезолита похожа на ДНК шведских неолитических охотников-собирателей. Аналогично, структура предковых компонентов у неолитического земледельца напоминает распределение компонентов у тирольского ледового человека Этци, шведского неолитического земледельца культуры воронковидных кубков и современного населения Сардинии. Недавно опубликованный  верхнепалеолитический образец жителя стоянки Мальта (Прибайкалья), авторы относят к  отдельному генетическому супер-компоненту, который  в статье именуется  «компонентом древнего северо-евразийского населения», Согласно наиболее вероятной из обсуждаемых в статье моделей, носители этого компонента смешались с западными евразийцами  еще до того, как носители мезолитического европейского компонента смешались с неолитическими земледельцами с ближнего Востока.

Как я отмечал ранее, очевидность результатов вряд ли нуждается в отдельных комментариях.  Положение индивидов по степени их сходства (выраженного посредством параметра z D-статистики)  относительно условной оси на одном конце которых находятся южные европейцы, на другом — северные европейцы. Шведские сэмплы древнего ДНК времен мезолита и пост-мезолитической (переходной к неолиту) культуры ямочной керамики Готланда сдвигаются в сторону северных европейцев (представлены референсной популяцией литовцев).  Примечательно, что в ту же стороны сдвигаются и представители иберийско-испанского мезолита (образцы La Brana 1 и La Brana 2).
Образцы древнего ДНК представителей культуры воронковидных кубков, Эци Тирольца закономерно смещаются к другому полюса спектра — южным европейцам (которые представлены сардинцами).

PCA график дает отличное представление о соотношении различных компонентов:

europe

 

 

 

model

Таким образом, костяк европейского генофонда образован за счет сочетания трех компонентов:

мезолитические охотники-собирателей Европы (WHG) + древние северо-евразийские популяции между Уралом, Центральной Азией и Сибирью (AHE) + неолитический компонент (генетически связанный с ближневосточными земледельцами EEF).

 

Поскольку в нашем случае мы имеем три исходных компонента, то любая европейская популяция может быть представлена в виде тримодального распределения этих компонентов. Визуализация этого распределения достигается путем отображения популяций внутри треугольника (каждый из углов которого представляет собой отдельный чистый предковый компонент). Таким образом мы можем отображать не только группы людей (т.е популяции), но и отдельных современных индивидов с генотипированными снипами. При визуальном изучении расположения популяций внутри треугольника, мы можем отметить cмещение спектра разнообразия в сторону предкового компонента неолитических земледельцев (EEF). Это наблюдение еще раз подтверждает насколько важным событием для эволюции и развития европейского генофонда являлась  неолитическая революция. Она принесла с собой не только технологические изменения, но и перемены в генофонде тогдашних европейцев. Однако если быть более точным, то нет никаких сомнений в том что компонент EEF аккумулирует в себя не только генофонд первых европейских земледельцев, но и остаточный момент от смешения этого компонента с представителями четвертого компонента («базальных евразийцев»).

admixture

Выявленные предковые компоненты отличаются значительной дискретностью, и в своем чистом виде практически не перекрываются. Именно по этой причине именно эти компоненты (а не общепринятые ныне в аутосомных исследованиях попгенетиков  этногеографические компоненты) могут использоваться в качестве неколлинеарных факторов в анализе эволюции генофонда отдельных народов.

  1. Компонент западноевропейских охотников-собирателей мезолита ( WHG ): метапопуляция этого компонента включает в себя образец Loschbour (мезолитический Люксембург, 8000 лет до настоящего времени) и два мезолитических образца древнего ДНК людей из пещеры La Brana в Испании. Тем не менее, в настоящий момент своего пика WHG (почти 50%) достигает среди эстонцев и литовцев , на востоке Балтийского региона. В этом смысле эти популяции являются наследниками древнейших жителей мезолита Европы. К этой группе примыкает группа шведских неолитических популяций  (скандинавские охотники-собиратели (SHG ) : эта мета- субпопуляция состоиь из шведских мезолитических и неолитических образцов ДНК из Моталы и Готланда , соответственно. Судя по всему, здесь мы имеем дело с  более восточным вариантом WHG , с небольшой примесью генов от древних северо-евразийских популяций.

Удельная доля компонента WHG в генофонде популяций по мере убывания  (градиент убывания в направлении с северо-запада на юго-восток Европы).

Эстонцы 0,495
Литовцы 0,464
Исландцы 0.456
Беларусы 0,431
Норвежцы 0,428
Испанцы 0,068
Греки 0,058

Мальтийцы 0
Ашкенази 0
Сицилийцы 0

  1. Компонент ранних европейских земледельцев (EEF) : по всей видимости, это гибридный компонент являющийся  результатом смешивания части загадочных «базальных евразийцев» и носителей компонента WHG где-то в Европе, возможно, на Балканах. Метапопуляция EEF в чистом виде представлена у представителя линейно-ленточной керамики  (Штутгарт, Германия), Этци Тирольского человека, и неолитического земледельца культуры воронковидных кубков. В наше время пик это компонента  приходится на Сардинию, Сицилийцев, ашкеназов и жителей Мальты (примерно 80-90%).

Удельная доля компонента EEF в генофонде популяций по мере убывания  (градиент убывания частоты направлен в сторону обратную WHG, т.е с юго-востока Европы на северо-запад, однако градиент выражен гораздо менее четко).

Мальтийцы 0,932
Ашкеназим 0,931
Сицилийцы 0,903
Сардинцы 0,817
Испанцы 0,809
Норвежцы 0,411
Исландцы 0,394
Шотландцы 0,39
Литовцы 0,364
Эстонцы 0,322
3. Компонент древних северо-евразийцев ( ANE ): метапопуляция компонента включает в себя   24000 летний верхне-палеолитический образец охотника-собирателя из южно-центральной Сибири, принадлежащий к Y- ДНК гаплогруппе R *, (MA -1), а также  верхнепалеолитический образец из центральной Сибири (Афонтова Гора -2) ( AG2 ). Этот компонент мог вероятно присутствовать в Южной Скандинавии по крайней мере со времен мезолита, но Западной Европы  достиг уже в конце эпохи неолита. В современной Европе самый высокий процент это компонента наблюдается у эстонцев (на уровне чуть более 18%), и  достигает такого же уровня среди шотландцев.

Эстонцы 0,183
Шотландцы 0,182
Венгры 0,179
Литовцы 0,172
Чехи 0,167
Итальянцы из Бергамо 0,108
Сицилийцы 0,097
Ашкеназим 0,069
Мальтийцы 0,068
Сардинцы 0,008

Сводная таблица по раскладу компонент у отдельных популяций  и их формальной статистической значимости (f3-статистика):

q1is

Эпилог

В апреле и мае 2012 года (задолго до появления статьи Lazaridis et al. 2013), в ходе изучения структуры кластеров компонентов в древних ДНК (чьи SNP-данные были тогда у меня в наличии). В ходе анализа Admixture  K=3 программа дала интересное распределение по современным популяциям и древним образцам. Как видно из географического распространения, кластер-метопапуляции готландских охотников-собирателей/ мезолита и современных саамов в значительной части перекрывается с ареалом современного пика компонентов мезолитических охотников-собирателей. Неолитический (средиземноморский) компонент совпадает с ареалом компонента EEF. Наконец, контуры ареал компонента который я ошибочно обозначил как Corded Ware Indo-European, практически перекрываются контурами ареала ANE (пик которого, как отмечалось выше, приходится на популяции шотландцев и эстонцев).

admixture-3

K3-Admixture

 

.

Происхождение гаплогруппы I2a и путь миграции ее носителей в Европе (часть 2)

Еще в 2010 году я пробывал спроецировать итоги дискуссии о «начале гаплогруппы I» (Молген), а  также возраста гаплогрупп I1,I2a1,I2a2,I2b1,I2b2* (рассчитаные Кеном Нордтведтом)  на археологическую карту Европы эпипалеолита и раннего мезолита.
*——
С 2010 года ISOGG-номенклатура субклад гаплогруппы I поменялась. Я не стал вносить изменения в ранее сделанную карту, однако в целях синхронизации предыдущих своих наработок с современной номенклатурой нужно отметить что I1,I2a1,I2a2,I2b1,I2b2 в современной номенклатуре называются I1,I2a1a,I2a1b,I2a2a,I2a2b.

Карта строилась из предположения о моногаплогрупности Европы в палеолите. Это минимальное допущение — но возможно, что оно методологически
неверно. Во-первых, теоретически в Европе периода палеолита могло быть больше гаплогрупп, а в пределах I -больше «гипотетических субкладов»**.

**————

Данные статьи Lazaridis et al. 2013.  содержат убедительную аргменты в пользу существования в структуре I потерянных I* cубклад. В частности два образца с мезолитической стоянки Motala (Motala 2 и Motala 9) были определены как I*.
Если первое кажется маловероятным (т.к. если гаплогруппа I осталась в Европе, почему не остались другие), то второе заключение о большем разнообразии гаплогруппных субкладов кажется логичным.Тем не менее, ответ можно узнать только после анализа древних Y-ДНК.

Вот что примерно получилось.

Главнывывод, наверное, следущий -наибольшое разнообразие субкладов было в «Атлантидемезолитической Европы» — Доггерланде, на котором, видимо, находился эпицентр круга целого ряда мезолитических культур Маглемозе. Почему именно там? Около 8000 г. до н. э. северное побережье массива суши, Доггерленд, представляло собой береговую линию с лагунами, болотами, приливными берегами и пляжами. Возможно, в эпоху мезолита этатерритория была богатейшей в Европе с точки зрения охоты, добычи птицы и рыболовства ( Vincent Gaffney, «Global Warming and the Lost European Country»;
Patterson, W, «Coastal Catastrophe» (paleoclimate research document), University of Saskatchewan).

Следовательно, принимая во внимание богатство экологических ресурсов, охотники и рыболовы позднего палеолита и мезолита должны были стекаться туда в большем количестве. Доггерланд погрузился под воду в результате гигантского оползня Стурегга (когда от Норвегии откололся кусок побережья объемом 3 000 куб.кум) или вызванного оползнем цунами около 8200 лет назад (6200 г. до н. э.). Это отрезало мезолитические культуры Британских островов и часть популяции субклада I2a2a от континента. Что интересно — по расчетам Нордведта точка коалисценции (схождения генетических линий субклад
I2a2a-Isles***) составляет как раз примерно 8 000 лет до нашего времени.

***___________

В номенклатуре ISOGG I2a1b2. Isles — условное название кластера, представленного главным образом на Британских островах.

Представляю читателю результаты проекции гипотетических ареалов субклад I на карту Европы эпохи финального палеолита и мезолита.

Археологические культуры обозначены следующим образом:

1 — маглемозе (по Г. Кларку); 2 -аренсбургская; 3 — свидерская; 4 — тьонгер; 5 — рёссен; 6 — федермессер; 7 -ларнийская; 8 — обанская; 9 — крезвельская; 10 — фосна; 11 — комса; 12 -суомусярве; 13 — аскола; 14 — кунда; 15 — днепро-деснинская; 16 — верхнедонская;17 — волго-окская; 18 — днепро-донецкая; 19 — астурийская; 20 — раковинных куч устья р. Тахо; 21 — тарденуазская; 22 — советеррская; 23 — микролитические памятники Прованса; 24 — азильская; 25 — эпиграветт; 26 — альпийская; 27 -чешско-тюрингский мезолит; 28 — типичная капсийская; 29 — капсийская и иберо-мавританская; 30 — мезолитические памятники испанского Леванта

Источник (исходник) карты: Археология Западной Европы. Каменный век., Монгайт А.Л.

Субклады I и Европа в эпоху финального палеолита и мезолита
Европа в эпоху финального палеолита и мезолита

Митохондриальная ДНК древних жителей Европы.

Октябрь этого года был особо богат публикациями на тему древней ДНК. Самым важным представляется исследование Brandt et al. «Ancient DNA Reveals Key Stages in the Formation of Central European Mitochondrial Genetic Diversity». По своей сути, эта статья подводит итоги десятилетия исследования митохондриальной ДНК древних жителей Европы в период между мезолитом/ранним неолитом и бронзовым веком. Поскольку статья носит обзорный характер, то в ней больше обобщений накопленной информации, чем собственно новой информации.

Древняя митохондриальная ДНК, выделенная из древних скелетов, была использована для восстановления первой подробной генетической истории современных европейцев. Исследование продемонстрировало, как менялся состав населения, происходили волны доисторической миграции. Исследователи составили каталог 364 результатов мтДНК  доисторических жителей Центральной Европы в период начиная с раннего неолита до бронзового века (продолжительность периода составляет примерно четыре тысячи лет). Главным выводом работы представляется тезис авторов  о том, что смешение коренных охотников-собирателей и пришлых ближневосточных земледельцев не может объяснить современное генетическое разнообразие, гораздо более сложное, чем результат простого смешения. Вместе с тем, ученые обнаружили, что эти две культуры на грани бронзового века 4200 лет назад сыграли существенную роль в формирование генетического строения в Центральной Европе.

Исследователей заинтриговало то, что генетические связи можно напрямую сравнивать с изменениями в материальной культуре. Генетические изменения происходили в период, когда культура расширяла свое влияние, и это может служить доказательством взаимодействия древних людей на больших расстояниях. К таким взаимоотношениям относятся миграции из Западной и Восточной Европы в конце каменного века, за счет расширения таких культур, как культура колоколовидных кубков и культура шнуровой керамики (они получили название по форме изготавливаемой посуды).

Тем не менее, один предварительный вывод уже может быть сделан. Парадигма миграционизма жива и по-прежнему актуальна. Любому исследователю-приверженцу парадигмы «горшки -это не люди»  будет трудно объяснить дискретность/прерывание преемственности, обнаруженной при исследовании и сравнении образцов ДНК неолита и бронзового века. Наблюдается серия контрастов: контраст между мито-ДНК древнеевропейских охотников и собирателей (митогаплогруппы U, U4, U5, U8) и ДНК первых европейских земледельцев (митогаплогруппы N1a,T2,K,J,HV,V, W,X) которые, в свою очередь, отличаются от ДНК представителей  позднего европейского неолита (медного века, гаплогруппы I, U2, T1, R), которые вытеснили земледельцев спустя несколько тысяч лет и породили культуры бронзового века. Если парадигма «горшки — это не люди» верна,  то весьма странно, что контрасты между археологическими культурами,  в значительной степени маркируются типом горшков  также, совпадают с зоной генетических контрастов.

Кроме того, удалось проследить не только хорошо изученный миграционный путь через Ближний Восток во времена так называемой неолитической революции, но также путь из Западной и Восточной Европы.


Следующая статья Bollongino et al. 2013 «2000 Years of Parallel Societies in Stone Age Central Europe» рассматривает проблему генетической преемственности под несколько иным углом. В работе показывается,  что охотники-собиратели не исчезли в Центральной Европе после введения сельского хозяйства, но некоторые из их потомков сосуществовали вместе с земледельцами еще в течение двух тысяч лет.

 

О «балтийских» корнях генофонда популяций эрзя и мокша

Анализ генома доисторических «шведов» (принадлежавших к готландской культуре ямочной керамики (Pitted Ware culture (около 3200 — 2300 гг. до н. э.)) показал, что они оказались в окружении плотного кольца из балтийских популяций. В эту группу вошли литовцы, белорусы, поляки, шведы, украинцы, русские (из Северной и Центральной России), мокша и эрзя. Это говорит о том, что у мокшан и эрзян сохранился генофонд старой Северной Европы.

 

 

Практические рекомендации по работе с данными древней ДНК – часть 3

В предыдущем посте я разместил  вторую часть примерных рекомендации по работе с данными древней ДНК с практическим примером директив программы Plink.

После проведения анализа я получил следующие данные о геномной «схожести» ДНК древних насельников Европы и cовременных популяций людей.

Итак, я начну с данных Этци-ледового человека из Тироля.

I.Этци

Данные схожи с результатами аналогичных вычислений в оригинальной статьей (в которой была показана близость Этци к современным сардинцам в ракурсе первых двух главных компонентов генетического разнообразия).  В нашей, более масштабной, выборке  Этци оказывается близок не только к сардинцам, но и к корсиканцам, северным итальянцам и тосканцам. Кроме того, в отличии от оригинальной статьи, видно что другие компоненты генетического разнообразия сближают Этци с ближневосточными популяциями, кавказцами и популяциями восточного Средиземноморья. Примечательно, что в программе fineStructure, где используются фазированные данные, Этци попадает в кластер пьемонтцев, — популяции наиболее близкой к местам в которых, как предполагается, жил Этци

Uzbeki_jew Otzi 0.646834
Irani-jew Otzi 0.645444
Azeri_jew Otzi 0.645254
Kumyk Otzi 0.644682
Algerian_Jew Otzi 0.644546
Corsican Otzi 0.6437835
Ashkenazi_Jew Otzi 0.643497
Sardinian Otzi 0.6430069
Cretan Otzi 0.642585
Tuscan Otzi 0.642299
Syrian_Jew Otzi 0.6422305
GreeceThessaly2 Otzi 0.641938666666667
Bulgarian Otzi 0.641346
Portugese Otzi 0.640887333333333
Center-Italian Otzi 0.64044025
Romanian Otzi 0.6397932
French_Basque Otzi 0.639631
Costanoan Otzi 0.639535
Egyptan Otzi 0.639511571428571
Azeri_Jew Otzi 0.639471333333333
Cypriot Otzi 0.639013
Bosnian Otzi 0.639004857142857
Yemen_Jew Otzi 0.638963
Toscanian Otzi 0.63891
Macedonian Otzi 0.638783625
Morocco_Jew Otzi 0.638593307692308
Greek Otzi 0.638391166666667
Gagauz Otzi 0.6383745
Italian_Jew Otzi 0.6382314
Spain Otzi 0.638200666666667
Sephard Otzi 0.637888105263158
North_Italian Otzi 0.637741333333333
North_Greek Otzi 0.637464333333333
Hungarian Otzi 0.63745125
French Otzi 0.63742736
Tunisian-jew Otzi 0.63733325
South-Germanian Otzi 0.637282482758621
Iraq_jew Otzi 0.637247
Sicilian Otzi 0.63712
Ashkenazi Otzi 0.6370677
Libyan_Jew Otzi 0.637057
Swede Otzi 0.636882647058824
Center-Greek Otzi 0.636866
North-Greek Otzi 0.63681875
CEU Otzi 0.6366755
Montenegrin Otzi 0.636612
South-Greek Otzi 0.636612
Czech Otzi 0.6365207
Colville Otzi 0.636485
Welsh Otzi 0.636406111111111
Iberian Otzi 0.636382375
German Otzi 0.6363546
Iraqi-jew Otzi 0.636351666666667
Georgian_Imereti Otzi 0.6363372
Turk Otzi 0.636294941176471
Syrian Otzi 0.636126461538462
Sorb Otzi 0.635990692307692
Belorusian Otzi 0.635913
Yemen_jew Otzi 0.635805285714286
Swiss Otzi 0.635714047619048
British Otzi 0.635675083333333
Jordanian Otzi 0.635631333333333
Libyan Otzi 0.635575538461538
Armenian Otzi 0.635448428571429
Balkar Otzi 0.635168333333333
Azeri Otzi 0.635065857142857
Iran_jew Otzi 0.6350402
Russian_cossack Otzi 0.6349466
Druze Otzi 0.634933818181818
Orcadian Otzi 0.634880833333333
Romanian_Jew Otzi 0.6348645
Libyan-jew Otzi 0.6348278
Mordovian Otzi 0.634652636363636
Slovenian Otzi 0.6346172
North-Ossetian Otzi 0.634498538461538
Croat Otzi 0.6344835
Algerian-jew Otzi 0.6344135
Tatar Otzi 0.6344055
Georgian_Laz Otzi 0.634376
France_Jew Otzi 0.6343665
Khazar_jew Otzi 0.634292242424242
Aleut Otzi 0.634197
Pole Otzi 0.634177428571429
Abhasian Otzi 0.6340056875
Palestinian Otzi 0.633990545454545
Tat Otzi 0.6339235
Georgian Otzi 0.633884785714286
Roma Otzi 0.633635409090909
Tunisian_Jew Otzi 0.63353
Ukrainian Otzi 0.6335218
Serb Otzi 0.633398909090909
Iraqi Otzi 0.633383
Egyptian Otzi 0.633367714285714

II. Gök и Ste7 — женщины-фермеры эпохи шведского позднего неолита (Культура воронковидных кубков, КВК (англ. Funnel Beaker culture, нем. Trichterbecherkultur, TRB) — мегалитическая культура (4000 — 2700 гг. до н. э.) эпохи позднего неолита.)

В отличие от нашего предыдущего анализа, где мы использовали только Gök, мы решили создать композитного индивида за счет слияния геномных данных Gök и Ste7 (см.предыдущие посты этой серии). Это было сделано с целью реконструировать аутосомные составляющие предковоой популяции культуры КВК. Из приведенной ниже таблицы становятся ясно, что:
1) большая часть генетического разнообразия у анализируемых индивидов не встречается ныне ни в одной из современных популяций, и именно это потерянное в результате дрейфа генетическое разнообразие объединяет носителей древней ДНК в общий красный кластер

2) у представителей культуры заметно влияние древних генетических контактов популяций Северной Европы и палеосибирских популяций, предковых по отношению к современным америндам (зеленый кластер).

3)  третья группа (обозначена синим цветом) аналогична одному из вышеупомянутых выше компоненту генетического разнообразия Этци. Она сближает древнее население КВК с современными популяциями западной и южной Европы. В этом компоненте нет существенных разногласий с исследованиями популяционных генетиков из Уппсальского университета Швеции.

F3.large

SwedeTBK Bra 0.905852  
SwedePWC SwedeTBK 0.866097  
SwedeTBK Otzi 0.807465  
SwedeTBK N._European 0.59325092
Athabask SwedeTBK 0.588854
Hungarian SwedeTBK 0.581786
Irani-jew SwedeTBK 0.580844
North_Italian SwedeTBK 0.580643
Kosovar SwedeTBK 0.58033
Bulgarian SwedeTBK 0.579557  
East-Ukrainian SwedeTBK 0.579557  
Kusunda SwedeTBK 0.5793  
Colville SwedeTBK 0.578864
French_Basque SwedeTBK 0.578806818181818
Serb SwedeTBK 0.577398818181818
Romanian SwedeTBK 0.5773258
Mansi SwedeTBK 0.5770508
CEU SwedeTBK 0.577024142857143
GreeceThessaly2 SwedeTBK 0.576754333333333
Kumyk SwedeTBK 0.576725  
Iraqi SwedeTBK 0.576398
SwedeTBK Buryat 0.5757842
Costanoan SwedeTBK 0.57571
Haida SwedeTBK 0.57571
German SwedeTBK 0.5753862
Nyshi SwedeTBK 0.57530875
Ket SwedeTBK 0.5750755
Bosnian SwedeTBK 0.574970714285714
Portugese SwedeTBK 0.574837  
Welsh SwedeTBK 0.574730333333333
Corsican SwedeTBK 0.574707  
North-Russian SwedeTBK 0.574510043478261
West-Ukrainian SwedeTBK 0.5742968
South-Russian SwedeTBK 0.574150333333333
Croat SwedeTBK 0.574003833333333
Karelian SwedeTBK 0.573929692307692
Slovak SwedeTBK 0.573892833333333
Tlingit SwedeTBK 0.573607
Tunisian-jew SwedeTBK 0.5735595
Syrian_Jew SwedeTBK 0.5734265
Chuvash SwedeTBK 0.573139533333333
Kalmyk SwedeTBK 0.573079727272727
Center-Russian SwedeTBK 0.572759636363636
SwedeTBK Totonac 0.572689041666667
Macedonian SwedeTBK 0.57251475
Center-Greek SwedeTBK 0.572348
Russian_cossack SwedeTBK 0.5723086
Mordovian SwedeTBK 0.572217636363636
Vepsa SwedeTBK 0.572191363636364
Brahmin_UttarPradesh SwedeTBK 0.572158
Spain SwedeTBK 0.572090666666667
Ecuadorian SwedeTBK 0.572029375
France_Jew SwedeTBK 0.571969833333333
Tatar SwedeTBK 0.571906642857143
Mari SwedeTBK 0.571502285714286
Saudi SwedeTBK 0.5714354
Greek SwedeTBK 0.571345
South-Greek SwedeTBK 0.571232333333333
Mexican SwedeTBK 0.57110925
Lahu SwedeTBK 0.570989
Serrano SwedeTBK 0.570978

III. Ajvs — древние жители культуры ямочной керамики (Культура ямочной керамики, Pitted Ware culture (около 3200 — 2300 гг. до н. э.) — культура охотников и собирателей эпохи неолита. Существовала на юге Скандинавии, в основном вдоль побережья Свеаланда, Гёталанда, Аландских островов, на северо-востоке Дании и на юге Норвегии. Была современницей, а в некоторых местах делила ареал с сельскохозяйственной культурой воронковидных кубков, а позднее — с сельскохозяйственной культурой шнуровой керамики.)

Также как и у представителей КВК, большая часть генетического разнообразия жителей у современных популяций Европы потеряна. Поэтому они попадают в общий кластер к другим древним исследованным европейским ДНК, и неспецифическому аутосомному фону Северной Европы.

Из современных популяциий наиболее близки к ним эстонцы, латыши,литовцы, а также ряд других популяций Балтийского  региона (обозначены фиолетовым цветом), а также ряду популяций западной и южной Европы.  Примечательно, что у Ajvs гораздо слабее выражен древний палеосибирский (квази-америндский компонент), и еще слабее типичный для Этци (I) и жителей культуры КВК (II) неолитический компонент, связывающий их с современными популяциями Ближнего Востока и Кавказа.
Здесь тоже нет существенных разногласиий с выводами группы Скоглунда, у которого (за отсутствием в выборке эстонцев, литовцев и латышей) самыми близкими к жителям культуры ямочной керамики оказываются поляки.

F3.large

SwedePWC Bra 0.908488  
SwedePWC SwedeTBK 0.866097  
SwedePWC Otzi 0.81501  
SwedePWC N._European 0.58268312
Estonian SwedePWC 0.578113944444444
Russian SwedePWC 0.577444333333333
Latvian SwedePWC 0.57607  
Lithuanian SwedePWC 0.575179642857143
Orcadian SwedePWC 0.575171333333333
Kosovar SwedePWC 0.574342  
Czech SwedePWC 0.57363895
French SwedePWC 0.57334168
South-Germanian SwedePWC 0.572643965517241
Pole SwedePWC 0.570919326530612
Haida SwedePWC 0.570593
Sorb SwedePWC 0.570527923076923
Center-Russian SwedePWC 0.570395727272727
Karelian SwedePWC 0.570175307692308
Swede SwedePWC 0.570099
Corsican SwedePWC 0.5696165
South-Russian SwedePWC 0.569518
Vepsa SwedePWC 0.569184181818182
CEU SwedePWC 0.568893571428571
Swiss SwedePWC 0.568845095238095
Komi SwedePWC 0.568339363636364
SwedePWC Totonac 0.568287625
Aleut SwedePWC 0.568253
Sardinian SwedePWC 0.5681032
North-Russian SwedePWC 0.567888695652174
Bosnian SwedePWC 0.567837857142857
French_Basque SwedePWC 0.567750181818182
Mordovian SwedePWC 0.567647363636364
Chuvash SwedePWC 0.567504666666667
Serb SwedePWC 0.567329090909091
Russian_North SwedePWC 0.567027
Cretan SwedePWC 0.5670035
German SwedePWC 0.5669944
North-German SwedePWC 0.566872769230769
SwedePWC Samoan 0.566706384615385
Montenegrin SwedePWC 0.566654333333333
East-Ukrainian SwedePWC 0.56619975
Tatar SwedePWC 0.566033785714286
Hungarian SwedePWC 0.565851625
Ket SwedePWC 0.5656705
Welsh SwedePWC 0.565641444444444
SwedePWC Irula 0.565603956521739
Bashkir SwedePWC 0.565471333333333
Tuscan SwedePWC 0.565401
Mexican SwedePWC 0.5653275
West-Ukrainian SwedePWC 0.5653062
Russian_Center SwedePWC 0.565276
Mansi SwedePWC 0.5651792
Macedonian SwedePWC 0.56517625
Udmurd SwedePWC 0.564932545454545
Balkar SwedePWC 0.564865
Ukrainian SwedePWC 0.5646252
Slovak SwedePWC 0.564342833333333
Irani-jew SwedePWC 0.564264
SwedePWC AP_Madiga 0.5642395
Tsimsian SwedePWC 0.564158
Center-Greek SwedePWC 0.564144
Spain SwedePWC 0.563930666666667
Bulgarian SwedePWC 0.563776
Costanoan SwedePWC 0.563768
Chenchus SwedePWC 0.563652
North_Italian SwedePWC 0.5636205
Mari SwedePWC 0.563564857142857
Croat SwedePWC 0.563453
Nenets SwedePWC 0.563393583333333

IV. La Brana  — испанский мезолит, 7000 лет до настоящего времени.

Результаты близки к результатам древних жителей Ajvs (культуры ямочной керамики), c той лишь разницей, что у них практически полностью отсутствует генетическая вариация, присущая современным южным европейцам. Кроме того, их мезолитический генофонд подвергся вымыванию в еще большей степени, чем генофонд древних жителей неолита, о которых я писал выше.  Примечательно, что в отличии от Ajvs,  у La Brana незаметна балтийская доминанта, хотя ближайшей популяцией и оказываются латыши. В оригинальной статье было показано, что древние мезолитические жители Иберии — La Brana — оказываются «близки» к западно-европейцам, и та же картина заметна и в нашем анализе

SwedePWC Bra 0.908488
SwedeTBK Bra 0.905852
Bra Otzi 0.843151
Bra N._European 0.60332376
Latvian Bra 0.576167975609756
North-German Bra 0.576164846153846
Estonian Bra 0.576057666666667
Lithuanian Bra 0.570270535714286
Russian Bra 0.569868833333333
Czech Bra 0.5694441
Swede Bra 0.569444029411765
Russian_North Bra 0.568627
Pole Bra 0.567495653061225
Orcadian Bra 0.567451
Bulgarian Bra 0.567146
South-Germanian Bra 0.566648551724138
TN_Brahmin Bra 0.566116
Swiss Bra 0.565266142857143
CEU Bra 0.564653642857143
Center-Russian Bra 0.564325727272727
Komi Bra 0.564082181818182
Belorusian Bra 0.563804
Athabask Bra 0.563369
Mordovian Bra 0.562895181818182
Kosovar Bra 0.56235
Corsican Bra 0.5621705
French Bra 0.56141128
Tsimsian Bra 0.560916
Croat Bra 0.560884666666667
Nguni Bra 0.560649
Slovak Bra 0.5605515
Hungarian Bra 0.560269
Yukagir Bra 0.559952
West-Ukrainian Bra 0.5596024
NAN_Melanesian Bra 0.559505
Chuvash Bra 0.559285866666667
Welsh Bra 0.559282666666667

 

За кулисами: как создавался этно-популяционный калькулятор World-22

Летом 2011 года я создал целый рядсобственных модификаций получившего широкую известность калькулятора DIY Dodecad гениального грека Диенека Понтикоса. К моему приятному удивлению, за прошедшее время калькулятором успело воспользоваться несколько тысяч людей, некоторые из которых даже выложили свои результаты в Интернете.  Разумеется, многие также разместили и свои собственные интерпретации полученных результатов. Некоторые из приведенных в комментариях интерпретации выделялись (в хорошем смысле этого слова) высоким академическим уровнем, но мне попадались и такие комментарии, при чтении которых становилось понятно, что авторы не только не понимают принципов и сути парадигмы анализа, предложенного Понтикосом, но и — что гораздо хуже — выдавали свои фантазии за действительности. Особенно часто мне попадались подобные фантастические рассуждения в русскоязычном секторе Интернета.Пример такого невежества можно найти в рассуждениях само-провозглашенного академика ДНК-генеалогии Анатолия  Клесова:

Но и в этом случае различия все равно будут между русскими и монголами. Качественно и как-то полуколичественно его можно рассматривать, но не в виде профанации, как это делает Понтикос. Более того, это рассмотрение – если правильно – надо проводить не на выбранных маленьких фрагментах, а действительно по всему геному. На маленьких фрагментах будут вылезать отдельные особенности – то присущие в основном, например, гаплогруппам Y-I2 и мтДНК-Н, то кому-то еще. И это еще будет зависеть от разрешения, которые и обозначают индексами К=4, К=8 и другими. То есть берут маленький фрагмент генома, да еще с малым (или бóльшим) разрешением, стягивают в точку, и все равно получают в целом ерунду. Но для коммерции годится. Годятся для коммерции и вот такие, в частности, «открытия» того же Понтикоса: Перевод: Интересно то, что европейская популяция показывает присутствие американских индейцев, что показывает и f-статистика, и она же показывает присутствие компонента с Сардинией. Как видим, Понтикос уже забыл, что названия им придуманы как попало, и уже придает им абсолютные значения. Про Сардинию Понтикос уже вошел в состояние экзальтации. Он придает Сардинии некую пра-европейскую значимость, на основании, конечно, этой ерунды с «геномом», который анализирует как хочет. Пример – он трубил по всему свету, что Отци, «ледовый человек», имел геном «Сардинии». Однако только что опубликована статья о том, что Отци – никакая не Сардиния, а типичная Центральная Европа. Ну, и что делать будем? Понтикос, с его страстным желанием сенсаций, каждый раз наступает на одни и те же грабли. Впрочем, фарс продолжается. Теперь тем же занялся некто российский Веренич, а именно тоже насчитывает «польскую компоненту», пользуясь подходом своего гуру-Понтикоса.

Принимая во внимание вышесказанное, я решил просветить русскоязычную общественность относительно каким образом создавалось один из вышеупомянутых калькуляторов-модификаций (а именно World22, поскольку я считаю ее самой удачной модификацией). Тем более что в ходе многочисленных экспериментов было убедительно показано, что результаты моего калькулятора являются наиболее точными для выходцев из Восточной Европы.  В просветительских целях я перевел одно  из сообщений своего англоязычного блока на русский язык.  Надеюсь, что по прочтению этого текста, у читателя сложится более полное представление о принципах этно-популяционного анализа с помощью DIY калькуляторов.

Предварительные замечания

Как вы возможно знаете, MDLP блог не обновлялся с февраля 2012 года.  Полгода тому назад я пообещал себе, что я не буду писать новые сообщения на MDLP блоге до те пор пока я не напишу краткую научный отчет о проделенной работе. Так как приоритеты завершения научной работы были важнее рутиного обновления блога,  то  в связи с нехваткой времени, я был не в состоянии продолжать обновление блога на регулярной основе, в связи с нехваткой времени, я должен был внести изменения в свой исследовательский график. Поэтому я решил воздерживался от размещения новых данных на блоге в течение нескольких месяцев, фокусируясь на более важных вопросах. Несмотря на все ограничения, я продолжал втайне работать  на проектом MDLP, сбором необходимых данных и выполением различных ‘геномных’ экспериментов в целях достижения своей конечной цели. Однако с течением времени, некоторые результаты секретных экспериментов с новыми полногеномными популяционными выборками и инструментами в конечном итоге просочились в Интернет,  порождая огромный интерес к моему проекту. После выпуска новой версии моей собственной модификации DIYDodecad калькулятор на сайте Gedmatch.com, я был буквально завален письмами пользователями сервиса Gedmatch.com.
Тогда я осознал свою основную стратегическую ошибку, которая заключалась в  отсутствии подробной документации к выпущенными мной данными и результатам анализа, и почувствовал себя обязанным разместить более подробные разъяснения. Очевидно, я начну новую серию публикацию в своем блоге,  которая будет тесным образом связанна с теми аспектами моей работы, которая наиболее интересует общественность, то есть с калькулятором MDLP World22.

Основы отбора референсных популяций калькулятора MDLP World22.

Референсный набор  популяций в этом калькуляторе был собран в программе PLINK   методом «intersection&thinning» ( дословно «пересечением и истончением») образцов из различных источников данных: HapMap 3 (отфильтрованный набор данных КЕС, YRI, JPT, CHB), 1000genomes,   Rasmussen et al. (2010),   HGDP (кураторская база данных Стэнфордского университета), Metspalu et al. (2011),  Yunusbayev et al (2011), Chaubey et al. (2010) и т.д.
Кроме того, я отобрал произвольным образом по 10 сэмплов (или максимальное количество доступных сэмплов в тех случаях, когда общее число сэмплов в популяции было меньше 10) от каждой европейской страны, представленной в панеле базе данных POPRES. Наконец, для того чтобы оценить степень корреляции между современным и древним генетическим разнообразием населения Европы, я также включил в выборку образцы древней ДНК Эци (Keller et al. (2012)) ,  образцы житлей шведского неолита Gök4, Ajv52, Ajv70, Ire8, STE7 ( Skoglund et al. (2012)) и 2 образца La Braña  — останков мезолитических жителей Пиренейского полуострова (Sánchez-Quinto et al.(2012)).
Затем я добавил 90 образцов — анонимизированных данных — участников моего проекта. После слияния вышеупомянутых наборов данных и истончения набора SNP с  помощью особой команды PLINK, я исключил SNP-ы с  более чем 1% минорных аллелей. После чего я отфильтровал дубликаты, лиц с высоким уровнем общих по происхождению идентичных сегментов (IBD). В качестве критерия фильтрации  были использованы расчеты IBD в Plink, где IBD представлена как средняя доля аллелей общих между двумя людьми по всем анализируемым локусам.  Затем я удалил из выборки лиц с  высоким коэффициентом предпологаемого родства (коэффициенты родства были вычислены в программном обеспечении King). Для получения более стабильных результатов, я также отфильтровал сэмплы с более чем 3 стандартными отклонениями от средних данных  по популяции. Поскольку коэффициент родства может быть надежно определен с помощью оценки HWE (ожидания, вытекающего из закона Харди-Вайнберга) между SNP-ами с той же базовой частотой аллелей, то SNP-ы с существенным отклонением (p < 5.5 x10−8) от  ожидания Харди-Вайнберга были удалены из объединенного набора данных. После этого я выделил те SNP-ы, которые присутствовали в чипах Illumina / Affymetrix, и затем произвел фильтрацию снипов на основе расчетов степени неравновесного сцепления  (в этой я использовал хромосомное ‘окно’ размером в 50 базовых пар, с шагом 5 базовых пар и пороговым значением уровня сцепления R ^ 2, равным 0,3).
По окончанию этой сложной последовательности операций, я получил окончательноый набора данных, который включал в себя 80 751 снипов,  2516 человек и 225  референсных популяций.

Анализ этно-популяционного адмикс

 В ходе следующенго этапа, окончательный набор данных по референсным популяциям (которые я храню в linkage-формате PLINK) был обработан в программе Admixture.  Во время выбора подходящей модели проведения теста на этно-популяционный адмикс, я столкнулся с крайне трудной задачей: как было показано в профильных научных исследованиях (Patterson et al.2006) количество маркеров, необходимых для надежной стратификации популяций в анализе обратно пропорциональна генетическому расстоянию (фСТ) между популяциями. Согласно рекомендациям пользователей программы Admixture, считается что примерно 10 000 генетических SNP-маркеров достаточно для выполнения интер-континентальной GWAS -коррекции обособленных популяций (например, уровень дивергенции между африканскими, азиатскими и европейскими популяциями  FST > 0.05), в то время как для аналогичной коррекции между внутриконтинентальными популяциями требуется более чем 100000 маркеров (в Европе, например, ФСТ < 0.01). Для повышения точности результатов Admixture я решил использовать метод, предложенный Dienekes. Этот метод позволяет преобразовать частот аллелей в «синтетические» индивиды (см. также пример Зака Аджмала из проекта HarappaDNA). Идея метода довольно проста: сначала необходимо запустить unsupervised анализ Admixture с целью вычисления частот аллелей в так называемых предковых компонентов, а затем на основании аллельных частот сгенерировать «фиктивные популяции».  Именно эти фиктивные популяции и индивиды будут использоваться в ходе чистых референсов в ходе последующего анализа этно-популяционного анализа.
Впрочем, как и любой другой исследователь, работающий над четким решением проблемы этно-популяционного адмикса, я вынужден считаться с ограничениями этого подхода. Хотя я и отдаю себе отчет в существовании явных методологических подвохов в использовании смоделированных искусственных индивидов для определения адмикса в реальной популяции, я все же скорее склонен согласиться с Понтикосом, которые считаeт полученных в ходе  аллельно-частотного моделирования «фиктивных индивидов» лучшей аппроксимацией древних генетических компонентов мирового народонаселения.Как бы то не было, моделирующий подход, предложенный Диенеком и Заком, сослужил свою хорошую службу, поскольку были мной были получены  значимые результаты в ходе создания нового калькулятора. Сначала я произвел unsupervised Admixture (при значении К = 22, т.е 22 кластера частот аллель или предковых компонентов). По выполнению анализа нами были получены оценки коэффициентов адмикса в каждой из этих 22 аллельных кластеров, а также частоты аллелей для всех SNP-ов в каждой из 22 родовых популяций.
Затем я использовал мнемонические обозначения для каждого компонента (имена для каждого из компонентов выведены в  порядке их появления). Нужно помнить, что обозначения этих компонентов носят скорее мнемонический условный характер:
Pygmy
West-Asian
North-European-Mesolithic
Tibetan
Mesomerican
Arctic-Amerind
South-America_Amerind
Indian
North-Siberean
Atlantic_Mediterranean_Neolithic
Samoedic
Proto-Indo-Iranian
East-Siberean
North-East-European
South-African
North-Amerind
Sub-Saharian
East-South-Asian
Near_East
Melanesian
Paleo-Siberean
Austronesian
Вышеупомянутые частоты аллель, вычисленные в ходе unsupervised (безнадзорного) анализа (Admixture K = 22) объединенного набора данных, были затем использованы для симуляции синтетических индивидов, по 10 индивидов на каждую из 22 предковых компонент.  Это симуляционное моделирование проводилось с помощью PLINK команды -simulate Когда моделирование было закончено, я сделал визуализацию расстояния между симулированными индивидами с использованием многомерного масштабирования.
На следущем этапе, я включил группу смоделированных индивидов (220 индивидов) в новую эталонную популяцию. После чего я запустил новый анализ А, на этот раз в полном «поднадзорном» режиме для K = 22, причем полученные в ходе симуляционного моделирования фиктивные популяции фиктивных индивидов использовались в качестве новых референсных эталонных групп.  На конвергенцию 22 априорно заданых предковых компонентов было затрачено  31 итераций (3 7773,1 сек) с окончательным loglikelihood: -188032005,430318 (ниже приведена таблица значений Fst  между расчетными ‘предковыми’ популяциями):
Приведенная выше матрица  Fst дистанций  была использована для определения наиболее вероятной топологии NJ-дерева всех 22 предковых компонентов ( примечание: в качестве outgroup-таксона использовался South-African component). Индивидуальные результаты ‘поднадзорного’ анализа этно-популяционных миксов (в формате Excel) для участников проекта были загружены на GoogleDrive.

MDLP World22 DIYcalculator

Выходные файлы «поднадзорного» анализа  Admixture K=22 (средние значения коэффициентов адмикса в референсных популяциях и значения Fst) были использованы для разработки новой версии DIYcalculator MDLP, который более известен под кодовым названием «World22» (онлайн версия доступна разделе Admixture-утилит на сервисе Gedmatch в рамках проекта MDLP). Как я уже упоминал выше, MDLP DIYcalculator работает на коде Dodecad DIY calculator (c) Dienekes Pontikos.
В свою очередь,  реализованная на сервисе  Gedmatch модификация DIYcalculator ‘World22’ комбинирована с  Oracle ‘World22’ MDLP, который также работает на коде Диенека и Зака Аджмала ​​(Хараппа/DodecadOracle). Программа «Oracle» работает в двух режимах. В режиме single population программа определяет ближайщие (к анализируемому геному) референсные популяции калькулятора Word22. В смешанном режиме, Oracle рассматривает все пары населения, и для каждой из пар вычисляет минимальное Fst-взвешенное расстояние между парой и анализируемым геномом, а также  коэффициенты сходства.
Предковые популяции (т.е. полученные в ходе симуляционное моделирования популяции — см. выше) обозначены в результатах Oracle суффиксом anc, в то время реальные современные и древние популяции обозначены суффиксом der.
Если у Вас возникли проблемы с пониманием/интерпретацией результатов Oracle и DIYcalculcator,  то я настоятельно рекомендую обратится к соответствующим темам в блогах  Dodecad и НаrappaWorld . Я полагаю, что не имеет особого практического смысла заново изобретать велосипед и слово в слово повторять то, что уже было написано более компетентными в этом вопросе людьми.

Что представляют собой компоненты MDLP World-22?

Один из наиболее частых вопросов, которые задают мне пользователи калькулятора, напрямую касается практической интерпретации референсных популяций и предковых компонентов в моих калькуляторах K = 12 и World-22 анализов в виду. Чуть выше по тексту я уже привел часть ответа на этот вопрос , но — как гласит старинная китайская пословица — одна картинка стоит десять тысяч слов. Вот почему я решил визуализировать компоненты на поверхности земного шара путем отображения коэффициентов адмикса. Избегая излишних премудростей, я воспользовался готовым рецептом Франсуа Оливье, который предложал  использовать графическую библиотеку статистического программного обеспечения R для отображения пространственной интерполяции  коэффициентов адмикса (Q матрица) в двух измерениях (где пространственные координаты записываются как географические долгота и широта).  Благодаря этому решению, мне удалось создать по 2 контурные карты на каждый из предковых компонентов.Pygmy (модальный компонент в  популяциях африканских пигмеев Biaka и Mbuti)

West-Asian (бимодальный компонет с пиком на Кавказе и юго-восточной части Ирана, приблизительно идентичен компонентам Caucasian/Gedrosia Диенека Понтикоса)
North-European-Mesolithic (локальный архаичный компонент с пиком в популяции древних европейских жителей Иберийского полуострова La_Brana и современной популяции саамов).
Tibetan (Indo-Burmese) component (Гималаи-Тибет)
Mesomerican (главный генетический компонент  у мезоамериканских америндов)

 

North-Amerind (нативный компонент северо-американских америндов)

South-Amerind (нативный компонент южно-американских индейцев)
  Atlantic-Mediterranean-Neolithic (доминируюший компонент  в западной и юго-западной Европе)

Контурные карты прочих компонентов можно скачать здесь.

Практические рекомендации по работе с данными древней ДНК

В отличие от большинства записей в моем блоге,  эта запись будет посвящена практическим аспектам работы с геномными данными доисторических останков. В целях экономии времени и пространства, я пока не буду затрагивать вопросы связанные с чисто технической стороной работы с древней ДНК, тем более что ответы на эти вопросы неплохо освящены в соответствующей литературы(кратких конспектов).

Следует также заметить, что стиль изложения материала в данной заметке намерено упрощен в целях облегчения материала. Исходя из этого следует помнить, что чтение этого материала никоим образом не заменит собой более тщательного и глубокого ознакомления с исследовательской методологией.

В качестве примера в нашем туториале мы будем использовать данные, любезно предоставленные авторами работы P Skoglund, H Malmström, M Raghavan, J Storå, P Hall, E Willerslev, MTP Gilbert, A Götherström* & M Jakobsson* (2012) Origins and genetic legacy of Neolithic farmers and hunter-gatherers in Europe, и данные работы  Federico Sánchez-Quinto, Hannes Schroeder, Oscar Ramirez, María C. Ávila-Arcos, Marc Pybus, Iñigo Olalde, Amhed M.V. Velazquez, María Encina Prada Marcos, Julio Manuel Vidal Encinas, Jaume Bertranpetit, Ludovic Orlando, M. Thomas P. Gilbert, Carles Lalueza-Fox Genomic Affinities of Two 7,000-Year-Old Iberian Hunter-Gatherers.

Для успешного прохождения туториала нам потребуется:
1) наличие мотивации и желание изучить основы практической геномики

2) посколько большинство инструментов задействованных в данном туториале написны под Unix, то необходимо наличие опыта работы с Unix shell: желательно также иметь доступ к значительным вычислительным мощностями (некоторые из операций описанных ниже я производил в вычислительном кластере Тартуского университета).

3) пакет samtools последней версии

4) пакет snpEFF/snpSift

5) пакет vcftools и программа Plink

6) FASTA-файл с человеческий референсным геномом в  версии билда hg18: я рекомендую использовать модифицированную версию файла, в котором старый референсный митосиквенс заменен на новый референсный митосиквенс (rCRS:NC_012920 gi:251831106).

7) каталог генетических полиморфизмов dbSNP в версии билда hg18.

I этап — bamtools.

Используемые в нашем туториале исходные файлы представлены в формате bam — бинарном варианте стандартного файла SAM используемого для хранения элайнментов сиквенсов.
В нашем случае исходные файлы представляют собой конечный продукт,  в котором уже удалены дупликаты и артифакты клонирования в ходе PCR. Поэтому мы можем сразу же приступить к следущему этапу — объединения файлов bam в один общий файл:

samtools merge AjvIre.bam SNPs_Ajv52_r1_hits_rmdup.bam SNPs_Ajv52_r2_hits_rmdup.bam SNPs_Ajv70_r1_hits_rmdup.bam SNPs_Ajv70_r2_hits_rmdup.bam SNPs_Ire8_r1_hits_rmdup.bam SNPs_Ire8_r2_hits_rmdup.bam  
samtools merge GokSte.bam SNPs_Ste7_r1_hits_rmdup.bam SNPs_Ste7_r2_hits_rmdup.bam SNPs_Ste7_r3_hits_rmdup.bam SNPs_Ste7_r4_hits_rmdup.bam\

Далее, мы провидем сортировку файлов по контигам (контиг — это набор упорядоченных перекрывающихся клонов ДНК, охватывающих всю хромосому ил и какой-либо ее участок):

 samtools sort AjvIre.bam AjvIre.sorted.bam
 samtools sort GokSte.bam GokSte.sorted.bam
 samtools sort BRA.bam BRA.sorted.bam

Скачиваем референсный файл билда hg18

wget http://hgdownload.cse.ucsc.edu/goldenPath/hg18/bigZips/hg18.2bit
wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/twoBitToFa
./twoBitToFa hg18.2bit hg18.fa

Производим индексацию референсного файла человеческого генома (билд hg18) и сравниваем систему обозначения хромосомных контигов с аналогичной системой в наших образцах древних геномов:

samtools faidx hg18.fa
chr10    135374737    7    50    51
chr10_random    113275    138082253    50    51
chr11    134452384    138197801    50    51
chr11_random    215294    275339247    50    51
chr12    132349534    275558854    50    51
chr13    114142980    410555386    50    51
chr13_random    186858    526981240    50    51
chr14    106368585    527171843    50    51
chr15    100338915    635667807    50    51
chr15_random    784346    738013515    50    51
chr16    88827254    738813555    50    51
chr16_random    105485    829417369    50    51
chr17    78774742    829524971    50    51
chr17_random    2617613    909875222    50    51
chr18    76117153    912545195    50    51
chr18_random    4262    990184706    50    51
chr19    63811651    990189061    50    51
chr19_random    301858    1055276960    50    51
chr1    247249719    1055584862    50    51
chr1_random    1663265    1307779589    50    51
chr20    62435964    1309476127    50    51
chr21    46944323    1373160818    50    51
chr21_random    1679693    1421044042    50    51
chr22    49691432    1422757336    50    51
chr22_random    257318    1473442611    50    51
chr22_h2_hap1    63661    1473705091    50    51
chr2    242951149    1473770032    50    51
chr2_random    185571    1721580217    50    51
chr3    199501827    1721769506    50    51
chr3_random    749256    1925261383    50    51
chr4    191273063    1926025631    50    51
chr4_random    842648    2121124169    50    51
chr5    180857866    2121983676    50    51
chr5_random    143687    2306458713    50    51
chr5_h2_hap1    1794870    2306605288    50    51
chr6    170899992    2308436062    50    51
chr6_random    1875562    2482754067    50    51
chr6_cox_hap1    4731698    2484667156    50    51
chr6_qbl_hap2    4565931    2489493503    50    51
chr7    158821424    2494150759    50    51
chr7_random    549659    2656148625    50    51
chr8    146274826    2656709284    50    51
chr8_random    943810    2805909620    50    51
chr9    140273252    2806872313    50    51
chr9_random    1146434    2949951044    50    51
chrM    16571    2951120413    50    51
chrX    154913754    2951137322    50    51
chrX_random    1719168    3109149365    50    51
chrY    57772954    3110902923    50    51

samtools view -H AjvIre.sorted.bam

@HD    VN:1.0    SO:unsorted@PG    ID:dvtgmlqtca    PN:stampy    VN:1.0.10_(r854)    CL:-g hg18 -h hg18 --solexa --sensitive -f sam -o output/stampy_Ajv52_r1_aln1.sam -M /bubo/proj/b2010050/private/seqdata/neolitikum/Neolitisar/pruned/Ajv52_r1_trimmed.txt@CO    TM:Tue, 30 Nov 2010 12:35:43 CET    WD:/bubo/proj/b2010050/private/program/stampy-1.0.10    HN:q207.uppmax.uu.se    UN:pontuss@SQ    SN:NC_000001.9    LN:247249719    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000002.10    LN:242951149    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000003.10    LN:199501827    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000004.10    LN:191273063    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000005.8    LN:180857866    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000006.10    LN:170899992    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000007.12    LN:158821424    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000008.9    LN:146274826    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000009.10    LN:140273252    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000010.9    LN:135374737    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000011.8    LN:134452384    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000012.10    LN:132349534    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000013.9    LN:114142980    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000014.7    LN:106368585    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000015.8    LN:100338915    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000016.8    LN:88827254    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000017.9    LN:78774742    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000018.8    LN:76117153    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000019.8    LN:63811651    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000020.9    LN:62435964    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000021.7    LN:46944323    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000022.9    LN:49691432    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000023.9    LN:154913754    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_000024.8    LN:57772954    AS:hg18_ncbi36_rCRS    SP:human@SQ    SN:NC_012920.1    LN:16560    AS:hg18_ncbi36_rCRS    SP:human

Итак,  при сравнении вышеупомянутых двух файлов, мы видим что обозначение в референсном генома  отличается от обозначения начала хромосом в файле AjvIre (вместо традиционного обозначения chr1…chrM в этом файле используется номер сиквенса хромосомы в Генбанке, например сиквенс первой хромосомы — NC_000001.9, и т.д.).
Эта проблема решается сравнительно легко с помощью редактирования заголовка bam файла (заменой SO:unsorted@PG  на SO:sorted@PG и номеров Генбанка на порядковый номер хромосом) и следущих комбинаций директив samtools:

samtools view -H AjvIre.sorted.bam > originalheader
gedit originalheader
samtools reheader newheader AjvIre.reh.sorted.bam

Аналогичные операции производим и с файлом GokSte.sorted.bam. Файл Bra.sorted.bam редактировать нет надобности, поскольку обозначения хромосом соответствуют обозначению хромосом в референсном файле.

Таким образом, после выполнения означенных выше операций, мы подошли к самой важной процедуре — snp and indel calling, то есть «вызову» (определению) снипов и инделов в наших отсортированных и модифицированных bam файлах.

Нужно сразу отметить, что процедура нахождения генетических вариантов в древней ДНК существенно отличается от аналогичной процедуры в случае с современной ДНК.  Поэтому приходится применять фильтры samtools, которые в большинстве рутинных анализов просто не используются. Я не буду объяснять, что означает каждый из используемых фильтров. Достаточно будет сказать, что я следую рекомендациям профессора Понтуса Скоглунда.  Принимая во внимание ресурсоемкость операции нахождения генетических вариантов, я задействовал возможности тартуского вычислительного центра (ниже приведен пример с BRA.srt.bam):

qsub runSamstools.sh

#!/bin/bash
# This file is runSamtools
#
#PBS -N Samtools
#PBS -m be
#PBS -k oe
#PBS -l walltime=01:30:00
#PBS -l nodes=4:ppn=8
#PBS -l vmem=4gb
#PBS -d /storage/hpchome/vadim78

cd /storage/hpchome/vadim78/conversion/ancient
module load storage_software
samtools mpileup BRA.srt.bam -q 30 -Q 15 -uf hg18.fa |
/storage/hpchome/vadim78/samtools/bcftools/bcftools view -vcg - > BRA.vcf

II. Аннотация VCF файлов — snpSift.

Итак,  мы получили три файла VCF, которые содержат в себе информацию о найденных генетических вариантах — инделах и снипах.  При визуальном осмотре файлов сразу же бросается в глаза отсутствие идентификаторов снипов/инделов. Вместо привычных rs-id, варианты индексированы с помощью точек . Поскольку нам необходима для дальнейшего анализа традиционная система обозначения, мы должны произвести аннотирование файлов. Путем метода проб и ошибок я выбрал самую удобный для начинающих геномиков пакет snpEff.

В качестве источника аннотирования мы используем каталог генетических вариантов dbSNP, который содержит не только rs-индексы снипов, но и широкий спектр данных о функциональных связах снипа, в том числе и о генетических ассоциациях. Но мы не будем рассматривать весь спектр данных, поскольку нас интересуют индексы снипов.

Аннотирование  индексов снипов  в VCF-файлах выполняется с помощью  несложной командой (ниже приведен пример командной строки для файла GokSte.vcf).

java -Xmx2g -jar SnpSift.jar annotateMEM -id  ../dbsnp.vcf ../GokSte.vcf > GokSte.annotate.vcf

Очевидно, что древняя ДНК содержит значительное число новых истинных и ложных снипов, которых нет в индексах dbSNP.  В нашем туториале мы ограничимся лишь известными снипами, и поэтому отфильтруем «новельные» снипы.

java -Xmx2g -jar SnpSift.jar filter "(exists ID) & ( ID =~ 'rs' )"  GokSte.annotate.vcf > GokSte.snp.vcf

III.  Фильтрация снипов в vcftools

Как я указывал в предыдущем разделе, файлы VCF содержат в себе информацию о всех найденных генетических вариантах — инделах и снипах.  Несмотря на всю важность инделов в определение вариативности генофонда популяций,  во многих популяционно-генетических исследованиях явное предпочтение отдается снипам. Принимая это во внимание, я решил отсеять инделы в сторону и трансформировать файл VCF в более традиционный формат Plink PED:

./vcftools/bin/vcftools --vcf  GokSte.snp.vcf --remove-indels  --plink --out GokSte

На выходе, мы получил файл Plink PED, о котором мы поговорим в следущей части туториала.

Продолжение следует.