Палеоевропейцы из работы Haak et al, 2015 в свете анализа на IBD-сегменты

Сергей Козлов

Палеоевропейцы из работы Haak et al, 2015 в свете анализа на IBD-сегменты.

Обновлено 21.03.2015

В феврале произошло событие, которое многие геномные блоггеры с нетерпением ожидали на протяжении большей части предыдущего года — на  сервере Bioarxiv был размещен препринт статьи Haak et al с исследованием множества (преимущественно европейских) палеогеномов. Настолько качественного и подробного среза генетической истории европейцев мы еще не видели. Вадим Веренич уже разместил свой отзыв на работу, присовокупив к нему результаты собственных экспериментов и размышлений. Из его заметки можно составить прекрасное впечатление о статье.

Как это обычно и бывает, сообщество геномных блоггеров осталось не вполне удовлетворено полнотой предоставленной информации, и (повторюсь) с нетерпением ожидало возможности наложить свои руки на новые палеогеномы из статьи. Для этого пришлось дождаться официального выхода работы, и вот, наконец, момент настал. В первую очередь мне было интересно провести сравнение аутосомных IBD (или псевдо-IBD) сегментов с современными выборками и удостовериться — кто же все-таки в наибольшей степени является потомками людей, принадлежавших к исследованным археологическим культурам? Конечно, другие виды анализа тоже необходимо провести, но это сделают и без меня. К тому же об их результатах можно было догадаться из информации, опубликованной в статье (и эти догадки действительно подтвердились).

К сожалению, первая попытка оказалась неудачной — опубликованные на страничке лаборатории Райха геномы были полностью гаплоидными. Для того, чтобы сблизить условия анализа прочитанных с разным качеством палеогеномов, авторы статьи случайным образом выбирали один аллель для каждого снипа и далее использовали только его.  Разумеется, все IBD-сегменты при этом оказались разрушены. Однако проблему удалось обойти при помощи утилиты Феликса Чандракумара, преобразующую BAM-файлы в аналоги аутосомных файлов формата FTDNA. Лишь меньшая часть из обработанных геномов пригодна для IBD-анализа, но и прочитанных с удовлетворительным качеством достаточно много. Для этой заметки использованы следующие палеогеномы:

1) «Восточных охотников-собирателей», или EHG, представляет «оленеостровец» I0061 Karelia_HG    Yuzhnyy Oleni Ostrov, Karelia    5500-5000 BCE . «Самарский» образец EHG слишком плохо прочитан.

2) «Самарских ямников» представляют I0443    Yamnaya    Lopatino II, Sok River, Samara    3500-2700 BCE и I0231 Yamnaya    Ekaterinovka, Southern Steppe, Samara    2910-2875 calBCE

3) Культура шнуровой керамики также представлена двумя образцами, это I0103    Corded_Ware_LN    Esperstedt    2566-2477 calBCE и I0104 Corded_Ware_LN    Esperstedt    2473-2348 calBCE (восточная Германия, земля Саксония-Анхальт)

4) От культуры колоколовидных кубков лишь один образец, это I0112 Bell_Beaker_LN    Quedlinburg XII    2340-2190 calBCE (как и в случае КШК, земля Саксония-Анхальт)

5) Лучше всего обстоит дело с охватом неолитических земледельцев из культуры линейно-ленточной керамики, их целых четыре — I0054 LBK_EN    Unterwiederstedt    5209-5070 calBCE , I0100 LBK_EN    Halberstadt-Sonntagsfeld    5032-4946 calBCE, а также два ранее уже известных палеогенома — Stuttgart и NE1

Результаты по выборкам, представленным двумя или более образцами, усреднялись. Кроме этого, производилось нормирование результатов для каждой из пяти палеовыборок в пределах +- 10% с целью наилучшим образом попадать в диапазон карт и убрать влияние разницы в качестве прочтения. Конечно, это искусственное искажение данных, но все же, как мне кажется, оно скорее пошло на пользу, чем нанесло вред. В целом же карты получились качественными и наглядными. Думаю, что метод анализа на IBD-сегменты даже лучше подходит для палеогеномов, чем для наших современников.

«Оленеостровец» I0061 принадлежит к выборке, названной авторами EHG (Eastern Hunter-Gatherers). Это палеоевропейские охотники-собиратели северной части Восточной Европы, предположительно не затронутые позднейшим притоком генов с юга (от неолитических земледельцев и из других источников). И действительно, среди наших современников наибольшее количество пересечений с ним нашлось у северных восточноевропейцев — как говорящих на индоевропейских языках, так и уральцев. В первую очередь выделяются вепсы и северные русские из каргопольской выборки HGDP. Прибалтийская выборка, обычно проявляющаяся у восточноевропейцев наиболее ярко, на этот раз видна чуть слабее. Единственные, кто несколько выбивается из закономерности — поляки. Сложно сказать, случайность это, или же нет. Однако из-за этого отклонения польская выборка временами смотрится странно и на дальнейших «разностных» картах.

Оленеостровец (картинки можно увеличивать):

Обращает на себя внимание пятно в Средней Азии и северной Индии. Особенно интересна значительная разница между высшими и низшими кастами штата Уттар-Прадеш (на карте представлены обе выборки). Напрашивается версия, что это связано с приходом индоевропейцев с севера. Или же, как минимум, с приходом носителей R1a. Кстати, оленеостровец тоже принадлежал к этой Y-гаплогруппе (предковая ветвь R1a1).

Впрочем, как мне справедливо заметили, в северо-западную Индию было немало миграций и в более поздние времена. Например, «кшатрии» на севере считаются многими исследователями потомками переселенцев первого тысячелетия нашей эры.

Следующие на очереди — «ямники». В работе использованы образцы ямников из-под Самары, представляющие их крайний восточный вариант. Авторы статьи смоделировали их как 50% EHG / 50% современные армяне. Как будет показано далее, для этого есть некоторые основания. Однако с точки зрения предковых компонентов Admixture такая модель — далеко не лучший вариант, «южный» ямный компонент скорее связывается с чем-то в промежутке между Восточным Кавказом и Средней Азией. Как и предполагалось, он коррелирует с бимодальным компонентом, условно называемым Gedrosia. Исходя из современных максимумов, его исторический центр находится где-то в южном Прикаспии, возможно, восточнее. Судя по всему, он представляет собой результат смешения «ближневосточного» компонента ENF и ANE, поэтому теоретически исторического центра может и вообще не быть.

Самарские ямники:

В отличие от оленеостровца, «ямное» пятно более широко распределено по всей Европе, а Кавказ и Средняя Азия выделяются сильнее. Впрочем, лучше это смотреть на карте, отображающей разницу между ямниками и оленеостровцем. Не следует думать, что выборки, выделенные на разностной карте одним цветом, обязаны быть схожи между собой — просто разница их «расстояний» до I0443/I0231 и I0061 близка. И не забываем, что разностные карты в большей степени, чем одиночные, подвержены влиянию «шума» и случайных отклонений.

Разница между «оленеостровцем» и «ямниками». Красным цветом обозначено, у кого больше общих сегментов с первым, зеленым — со вторыми.

Как видно, наибольшая разница в пользу оленеостровца у представителей народов из уральской языковой семьи, причем тех, у кого силен «сибирский» вклад. Кроме жителей Западной Сибири, это марийцы (и родственные им тюрки-чуваши) в Поволжье, а также саами. Думаю, это неплохой довод в пользу ямников (или тесно связанной с ними группы), как распространителей индоевропейских языков. Наибольшая же разница «связь с ямниками» минус «связь с оленеостровцем» оказалась у уже упоминавшихся армян (и в целом зеленое пятно Кавказ-Малая Азия выражено сильнее всего). Таким образом, у армян хорошо выражены компоненты, имеющиеся у ямников, но отсутствующие у EHG. Но значит ли это, что модель «ямники=EHG+армяне» оптимальна? Я так не считаю. И при PCA-анализе, и при раскладке на компоненты Admixture мы видим, что «вторая половинка» должна быть где-то восточнее. На карте это проявляется в том, что взаимосвязь ямников с районом Пакистан-северная Индия (а особенно, что представляет отдельный интерес, с уйгурами. Уж не след ли это древних миграций индоевропейцев, например, тохаров, на восток?) выражена сильнее, чем у оленеостровца. Но модель считает, что это взято в основном от него, отсюда и заблуждение. Впрочем, и сами авторы пишут, что более адекватным видится вариант «третья группа, повлиявшая как на ямников, так и на современных армян».

Кроме уже перечисленных, явственно более сильную связь с ямниками проявляет выборка из Йемена (возникла мысль, что мы видим влияние небезызвестных Basal Eurasians — предположительно, именно йеменцы наиболее близки к ним из современных народов) и северо-западные европейцы. Это хорошо укладывается в предложенную авторами статьи модель, согласно которой северные европейцы в очень заметной мере являются потомками связанной с «ямниками» группы, которая мигрировала с востока и по большей части заместила предшествующее население. Кстати, у немцев (и германских народов в целом) необычно сильно проявляется все тот же компонент Gedrosia, которого не было у мезолитических охотников и неолитических земледельцев Западной Европы. И действительно, у восточногерманских образцов, принадлежащих к культуре шнуровой керамики, этот компонент появляется.

Карта для представителей КШК:

Очень похоже на «ямную» карту, не так ли? Но должны существовать и различия, попробуем их увидеть на разностной карте «самарцы» (красное) минус «шнуровики» (зеленое):

SamaraYamnayaMinusCWCIBDext

Картинка отнюдь не настолько контрастна, как было в случае сравнения ямников с оленеостровцем. Видимо, это связано с тем, что разница между сравниваемыми выборками в данном случае слабее. И все же некоторые взаимосвязи проявляются. Во-первых, заметно сильнее связь со шнуровиками у жителей острова Сардиния — как считается, они наиболее хорошо сохранили генофонд неолитических земледельцев Европы. Кроме этого, лучше связаны со шнуровиками, чем с ямниками, люди из района Белоруссия-Польша-Западная Украина. И наоборот, «ямные» пятна выделяются вокруг Удмуртии (уж не там ли живут потомки «самарцев»?), в районе «Средняя Азия-Индия» (включая уже упоминавшихся выше уйгуров), и в Закавказье/Малой Азии. Можно предположить, что шнуровики получились в результате смешения неолитических земледельцев и группы, родственной «самарцам», но более западной, сильнее связанной с «белорусским» пятном (и слабее — с тремя «ямными»).

Намного более наглядна разностная карта представителей культуры линейно-ленточной керамики (неолитических земледельцев) и шнуровиков:

LBKMinusCWCIBDext

Два мира — красным выделены народы, в большей степени связанные с неолитическими земледельцами (в отличие от предыдущей карты, сардинцы здесь сильнее связаны с противоположной шнуровикам стороной), зеленым — связанные с заместившими и поглотившими их пришельцами, носителями компонентов WHG и ANE. Обратите внимание, что армяне здесь ярко-красные — это еще раз доказывает ошибочность модели «ямников» как смеси EHG и армян в пропорции 50/50. Ведь тогда «армянский» вклад у «шнуровиков» был бы заметно сильнее.

А вот разница с «оленеостровцем»:

Здесь мало что можно добавить к тому, что уже писалось про разницу «оленеостровец»-«самарцы». Разве что Западное Средиземноморье стало более зеленым, а Средняя Азия-менее.

Наконец, для полного комплекта добавлю карту сравнения с представителем более западного варианта охотников-собирателей, Loschbour:

LoschbourMinusCWCIBDext

Родство с WHG преобладает лишь в дальнем северо-восточном углу Европы. Таков печальный итог нескольких волн миграций с замещением предыдущего населения.

Результаты для представительницы культуры колоколовидных кубков очень близки предшествующей «шнуровой» выборке. Поэтому разностная карта между ними еще более невразумительная, чем при сравнении шнуровиков и самарцев. Дело усугубляется еще и тем, что образец ККК лишь один, а значит, случайные отклонения и прочий «шум» выше.

ККК минус КШК:

BellBeakerMinusCWCIBDext

Судя по всему, у шнуровиков неколько выше доля вклада «охотников-собирателей» и «ямного» компонента в целом. В то же время «средиземноморский» компонент выглядит чуть сильнее у ККК. Но все это тонет в шуме.

Не вижу смысла приводить сравнения представительницы ККК с окружающими, аналогичные КШК, поскольку они выглядят практически так же. А следовательно, мой обзор закончен. Что ж, можно с глубоким удовлетворением отметить, что палеогеномы из работы Haak et al действительно проливают свет на процессы, происходившие в Европе на рубеже каменного и бронзового веков — естественно, уточняя и дополняя уже известное специалистам.

Генетический компонент северных евразийцев (ANE) в свете новых данных

Начало февраля порадовало важным событием: на  сервере Bioraxiv размещен препринт монументальной статьи Haak et al. (Iosif Lazaridis , Nick Patterson , Nadin Rohland , Swapan Mallick , Bastien Llamas , Guido Brandt , Susanne Nordenfelt , Eadaoin Harney , Kristin Stewardson , Qiaomei Fu , Alissa Mittnik , Eszter Bánffy , Christos Economou , Michael Francken , Susanne Friederich , Rafael Garrido Pena , Fredrik Hallgren , Valery Khartanovich , Aleksandr Khokhlov , Michael Kunst , Pavel Kuznetsov , Harald Meller , Oleg Mochalov , Vayacheslav Moiseyev , Nicole Nicklisch , Sandra L. Pichler , Roberto Risch , Manuel A. Rojo Guerra , Christina Roth , Anna Szécsényi-Nagy , Joachim Wahl , Matthias Meyer , Johannes Krause , Dorcas Brown , David Anthony , Alan Cooper , Kurt Werner Alt , David Reich) «Massive migration from the steppe is a source for Indo-European languages in Europe».  Несмотря на то, что сама статья еще находится на стадии препринта, уже сейчас очевидна глубина проработки материала. Нет никаких сомнений в том, что это объемное, вдумчивое и тщательное исследование  войдет в число главных работ в области индоевропеистики. По своей сути, коллектив авторов подвел в этой работе итоги всех предыдущих исследований введенных  «полных геномов» древних жителей Европы (возрастом в 8 000 -4 000 лет),  введенных в научных оборот за последние 2-3 года. Благодаря систематическому подходу к материалу и синтезу предыдущих наработок,  а также за счет использования  новейших физико-химических методов экстрагирования палео-ДНК вкупе с передовым современейшим биоинформатическим программным обеспечением,  авторы смогли строго и скурпулезно подойти к одному из важнейших вопросов истории, лингвистики и археологии — к вопросу о происхождении индоевропейцев.  К чести авторов, они признают, что даже после столь внушительного по своим размерам и качеству исследования, вопрос о первичном месте происхождения индоевропейцев остается открытым, и поэтому собственно обсуждение релевантности исследования палео-ДНК в свете существующих 4 главных теорий  происхождения индоевропейцев занимает в работе относительно мало места (стр.134-139).  Впрочем, вряд ли кто всерьез ожидал от этого исследования окончательного ответа на все вопросы индоевропеистики.  Тем не менее, подробный анализ аутосомного генома, а также однородительских маркеров (митохондриального генома и  Y-хромосомы) представителей целого ряда культур неолита, медногл и бронзового века восточной и западной Европы, и в особенности представителей Ямной культуры,  дает новую подпитку вечному спору между сторонниками разных версий происхождения индоевропейцев (т.к. многие вслед за Гимбутас связывают ямную культуру с общностью протоиндоевропейцев).

annurev-linguist-030514-124812.f2

Зато остальная часть этой 172-страничной работы настолько богата (насыщена) фактическим материалом, что любой, даже самый искушенный, читатель попгенетической литературы получит большое удовольствие от приобщения к плодам многолетней работы умнейших ученых.   А работа, действительно, проделана огромная. Ученые воссоздали геномные данные 69 европейцев, живших между 8 000-3000 лет тому назад, за счет обогащения амплифицированных библиотек палео-ДНК. Эти библиотеки палео-ДНК они использовали для целевого отбора  394577 таргентных полиморфизмов (снипов) в панелях Affymetrix Human Origins. Обогащение именно этих специально отобранных таргентных позиций позволило снизить необходимые для анализа древней ДНК объемы секвенирования в среднем примерно в 250 (!) раз, что позволило авторам изучить на порядок больше лиц в сравнении с предыдущими исследованиями, и получить более полные знания о прошлом.

map

В работе показано, что уже 8,000-5,000 лет  назад население западной и восточной Европы следовали противоположным траекториям развития.

На заре евпропейского неолита, примерно 8,000-7,000 лет назад, отдельныетесно связанные родством и отличные от коренных европейских охотников-собирателей, группы  ранних земледельцев появились в Германии, Венгрии и Испании, в то время как Россия была населена особой группой восточных охотников-собирателей, имеющих родство с населением сибирского палеолита (24 000 л.н.в) , эта группа древних северо-евразийцев (ANE), представлена образцом MA1 (мальчик с палеолитической стоянки Malta-1 из южной Сибири); кроме того, этот компонент неплохо аппроксимируется «сибирской частью» генома изолированных индейцев Южной Америки (каритиана). Два образца охотников-собирателей из России (Карелия и Самары) образуют кластер «восточно-европейских охотников-собирателей «(EHG); пост-мезолитические охотники-собиратели  из Люксембурга, Испании и Венгрии (WHG) находятся на противоположенном конце клина охотников-собирателей, в то время как охотники-собиратели  Швеции  (SHG) находятся посередине. Интересно отметить, что геном охотника-собирателя из Карелии представляет собой смесь 38-40% компонента ANE и 60-62% компонента WHG, причем величина ANE значительно выше 20% ANE, выведенных для  шведского-охотника собирателя Motala-12 в предыдущем исследовании Lazaridis et al 2014).
В соответствии с тем, что EHG являются обмен население больше аллелей с «древних Северной евразийцев» (ГУ 7), чем любой другой.

pca

Примерно  6-5 тысяч лет назад,  на большой части  Европы назад  произошел новый «подъем» потомков мезолитических охотников-собирателей, но в России  степные скотоводы Ямной культуры время произошли от смешивания  предыдущих племен восточно-европейских охотников-собирателей с населением ближневосточного происхождения.  Население Ямной культуры отличалось от своих предшественников -восточно-европейских охотников-собирателей EHG —  меньшим количеством обших аллелей с MA1 (| Z | = 6,7), что  свидетельствует о процессе дисперсии носителей ANE  на территории европейских степей где-то между 5 000-3 000 гг. до н.э. Уменьшение числа общих с образцом MA1 аллелей, вероятно объясняется появлением «примеси» от популяции или популяций, тесно связанных с
популяциями современного ближнего Востока, т.к. самая отрицательная f3-статистика  (отрицательная статистика однозначно свидетельствует о примеси) наблюдается при моделировании жителей Ямной культуры как продукта смешивания носителей компонента EHG  и современных популяций ближнего Востока, таких как армян (Z = -6,3).

Непосредственный контакт между населением западной и восточной Европой состоялся   ~ 4500 лет назад, а в геноме поздне-неолитического населения культуры шнуровой керамики на территории Германии прослеживается 75%-ный «генетический» вклад «степного» компонента представителей ямной культуры. Таким образом геном жителей культуры шнуровой керамики «документирует» массовую миграцию населения с восточной периферии Европы в ее центральные области. Данный «степной» компонент Yamna (гибрид EHG и ближневосточных популяций) сохранялась в значительных пропорциях у всех имеюшисхя образцах из центральной Европы как минимум до ~ 3000 г.н.э, и повсеместно встречается у современных европейцев.

 

admix2

 

Если географическая дихотомия неолитического и мезолитического генетических компонентов в Европе была отмечена еще в работах пионеров популяционной генетки вроде Л. Кавалли-Сфорца, то данные этой работы позволяют вставить последнее звено в решении головоломки. На основании данных можно предположить, каким именно образом третий генетический компонент европейцев (ANE) попал из Сибири  в Европу: сначала этот компонент несли представители EHG,  затем он перешло к «ямникам» (смешанная популяция восточно-европейских охотников-собирателей и населения ближневосточного типа), а затем от ямников к представителям культуры шнуровой керамики, которые представляли собой смесь представителей ямной культуры с средне-неолитическими европейцами.  В настоящее время этот компонент имеет плавное распределение на территории Европы, и по этой причине, мы можем использовать его в анализах структуры как генофонда целых народов, так и генома отдельно взятых людей.

В январе я провел небольшой  эксперимент c «чистым вариантом» аутосомного компонента ANE (ancestral North-Euarasians), впервые описаном в известной работе Lazaridis et al. 2014. Процедура вывода третьего генетического компонента в генофонде европейцев (ANE) оказалась гораздо сложнее, чем я предполагал в начале. Основная сложность заключалась в том, что в отличии от мезолитических и неолитческих сэмплов, у нас нет хорошого образца палеоДНК носителей компонента ANE. Пришлось заниматься реконструкцией генома, используя в качестве заменителей геном MA1 и не-восточноазиатскую часть генома индейцев каритиана. Технически, данный «компонент» был «синтезирован» в программе Plink с помощью 2последовательных запусков генерации «синтетических» популяций на основании частот аллелей аутосомных снипов, вычисленных в3 последовательных запусках программы Admixture.

Я получил компонент с максимально приближенным значениями к значениям компонента ANE в разных популяциях мира в работе Lazaridis et al. 2014. Изучение этого компонента важно для понимания многих неясных моментов истоии древних популяций в восточной Европе и на северном Кавказе. Последние статьи и анонсы лаборатории Давида Рейха к новой статье о составляющих аутосомного генофонда представителей ямной культуры и культуры шнуровой керамики дают основания полагать, что компонент ANE в Евразии могли разносить потоки миграции индоевропейцев, а генетическое разнообразие жителей Европы и Кавказа практически вписывается внутри класссического треугольника (клинов) генетических компонентов ANE-WHG-EEF (см.  ниже график PCA).

10896832_10205857624789575_5582535068712806983_n

Формально,эта гипотеза проверяется с помощью инструментов f3-статистики (A; B,C) — формального теста на статистическую значимость предполагаемого варианта присутствия адмикса двух популяций-доноров в популяции-рецепиенте.

Я решил проверить надежность модели путем представления ряда европейских и кавказских популяций в виде продукта гибридизации носителей компонента ANE с «неолитическим» и «пост-мезолитическим» населением Европы (результаты ниже,  Z в последней колонке.

 

North-Caucas Caucasian ANE -0.0006748 5.13E-05 -13.166
Mesolithic-North Loschbour ANE -0.0011573 0.0001605 -7.21171
Mediterranean-Neolithic Otzi ANE -0.0012012 0.0002376 -5.05634
Mesolithic-North LaBrana ANE -0.0010358 0.0002097 -4.94043
Italian-East Otzi ANE -0.0012473 0.0005013 -2.48825
Italian-East Italian-West ANE -0.0005022 0.0004325 -1.16129
Maltese Otzi ANE -0.0001611 0.0004147 -0.388512
Assyrian-1 Caucasian ANE -0.0002994 0.0009656 -0.310081
Spanish-Canar Loschbour ANE -0.0002557 0.0011264 -0.227017
Italian-East Maltese ANE 2.36E-05 0.0003026 0.0779574
Italian-East Caucasian ANE 6.32E-05 0.000274 0.230808
Spanish-Canar Otzi ANE 0.0003307 0.0012476 0.265081
Assyrian-1 Italian-West ANE 0.0003321 0.0012207 0.272035

Практически все полученные варианты для современных популяций в тесте f3 дали отрицательную Z-оценку.

Буквой Z обозначается стандартная оценка, основанная на нормальном распределении. Иначе говоря, Z-o. является мерой отклонения от среднего, выраженной в единицах стандартного отклонения. Z –оценка будет иметь отрицательную величину, если показатели адмикса будут выше медианного значения.
Очень высокие или очень низкие (отрицательные) Z-оценки, связанные с очень маленькими p-значениями, располагаются в хвостах нормального распределения, и является значимыми, а не случайными. А значит, компонент ANE был индуцирован мною правильно.

 

 

Что еще любопытно, так это то, что третья составляющая современных европейцев — компонент ANE в моем эксперименте плавно разделился на две подсоставляющих — MA1 (древние сибиряки эпохи палеолита) и Кавказ (в качестве основы я брал геномы грузин и армян).

То есть, скорее всего компонент ANE появился в результате смешивания «труъ» древних северных евразийцев и кавказцев. Собственно, об этом намекал Рейх в анонсе своей публикации результатов анализа геномов жителей ямной культуры.

Вероятно, что кавказские популяции (особенно в Дагестане), характеризующиеся высоким уровнем гомо- и аутозиготности в определенном смысле «законсервировали» в своем геноме тот первый массовый вброс компонента ANE в свой генофонд. И по этой причине, например, без специальной методики, в программе Admixture практически весь компонент ANE маскируется бимодальным компонентом, вроде знаменитого Caucas-Gedrosia в одном из первых этно-популяционных калькуляторов проекта Dodecad. Похоже, что генетика может в очередной раз частично примирить две антиномные теории (вернее, целые кластеры теорий) происхождения ИЕ — анатолийскую и степную. Нечто подобное наблюдалось после прочтения геномов неандертальцев и получения убедительных фактов гибридизации предков соврменного человека и архаических гомининов — неандертальцев, денисовцев. В результате чего теории мультирегионального и монорегионального происхождения человка были хотя бы в отдельных моментах приведены к общему знаменателю.

Как я уже упоминал ранее, мой опыт с «выведением» предкового аутосомного компонента индоевропейцев полностью удался. Поскольку всем очевидно, что этот компонент родственен «североиндийскому предковому компоненту» (ANI — обозначение из статьи Reich et al. 2009 и Moorjani et al 2011) о структуре генофонда индийских этнических групп), я взял 10 индийских этнических групп, имеющихся в кураторском наборе лаборатории Райха и проанализировал эту выборку в Admixture на пропорции вхождения их геномов в 2 априорно заданные кластеры. Первый кластер ANE был априорно задан 40 синтетическим индивидами, сгенерированными в программе Plink на основании расчитанных ранее частот аллелей «чистого» компонента ANE. В качестве дополнительного контрольного образца я использовал геном Malta1, т.к. он содержит в себе наивысшее содержание компонента ANE. Второй кластер был задан 4 индивидами Onge (одна из аборигенных народностей Андаманских островов). Как неоднократно указывалось в литературе, именно жители Андаманских островов являются самыми «чистыми» носителями т.н «южно-индийского» предкового компонента ASI (на континенте чистых носителей этого «компонента» не осталось, в том числе и среди популяций дравидов, ведда и мунда). После нескольких экспериментов по эвристическому методу проб и ошибок, я получил более или менее приемлимое разделение индивидов на 2 кластера, а затем вычислил частоты аллелей в каждом из этих кластеров. Любопытно, что в ходе опыта, удалось не только выделить компонент ANI, но и добиться неплохого уровня дискримнации между компонентом ANI, ANE, и благодаря этому, оба компонента могут быть включены в мой следующий этно-популяционный калькулятор.

Надежность компонентов я проверил на собственных данных. В рабочей модели калькулятора K14 удельное распределение этно-генографических компонентов моего генома выглядит следующим образом:

68.75% — европейский мезолитический компонент
13.12% — северо-евразийский компонент ANE
10.23% — европейский неолитический компонент
4% — ANI (северо-индийский предковый компонент)
1.6% — кавказский компонент
1.2% — алтайский компонент
0.2% — сибирский компонент

R Graphics Output

 

 

PCAdmix: инструмент и методология для оценки происхождения хромосомных сегментов

В марте прошлого года  Сергей Козлов — один из соавторов данного блога, — опубликовал важную с точки зрения методологии генетико-генеалогического анализа заметку о принципах оценки вероятности определения времени жизни последнего общего предка при попарном сравнении аутосомных данных двух или более сравниваемых индивидов.  Действительно, в последние годы среди людей, интересующихся генеалогией, приобрели заметную популярность сервисы, производящие поиск генетических родственников по всем линиям, а не только по прямой мужской и прямой женской. В качестве примера можно привести Family Finder от FTDNA и DNA relatives от 23andMe. Участник получает достаточно длинный список так называемых «совпаденцев» — людей, имеющих с ним один или более участок половинного совпадения (УПС) на аутосомах (неполовых хромосомах). Если участок достаточно длинный (а его длина измеряется в сантиморганидах, обозначающих вероятность разрыва участка при каждой передаче в следующее поколение), то это говорит о наличии общего предка (от которого участок и получен).
Для значительной части клиентов сервисов персональной коммерческой геномики, интересующихся исключительно вопросами своего происхождения, вопрос о достоверном определении времени жизни общих предков имеет первостепенное значение. И вместе с тем, именно проблема с получением четкого ответа на этот краеугольный вопрос служит одной из главных причин недовольства и раздражения клиентов компаний вроде FTDNA или 23andme.

Действительно, изучив длинные сегменты генома, передававшихся от поколения к поколению и встречающиеся у многих людей, можно примерно определить степень и интенсивность предковых связей, берущих начало много тысяч лет назад.  Здравый смысл подсказыает — дальние родственники имеют такие длинные сегменты генома потому, что они унаследовали их от общих предков. У более далеких родственников длина сегментов общих геномов соответственно становится короче, поскольку происходит рекомбинация гомологичных хромосом, в результате чего с каждым следующим поколением происходит перемешивание всей совокупности генов или генотипа. Очевидно, что число и размер совпадающих общих по происхождению сегментов геномов у двоих произвольно взятых лиц из однородной метапопуляции коррелирует с географический дистанцией —  количество общих генетических предков резко уменьшается по мере увеличения географического расстояния.

Однако наряду с  географически близкими (в пределях 50-100 км)  «совпаденцами», нередко в списках «совпаденцев», предоставляемых в 23andme или FTDNA появляются совершенно экзотические «совпаденцы». Например, у финна может появится совпаденец из Италии, а у корейца — из  Великобритании. Совершенно очевидно, что подобные случаи очень сложно объяснить не только простым сопоставлением сведений о географическом происхождении предков, но даже и безотказной в простых случаях  моделью наложения «этнопопуляционного аутосомного фона в виде коротких реликтовых  IBD сегментов».

В этой связи возникает практический вопрос — как интерпретировать подобные случаи, при условии что подобные сегменты представляют собой не «ложно-позитивные», а вполне достоверные совпадения, указываюшие на существование в неопределенный момент прошлого некоего общего предка. И подобные случаи характерны не только для коммерческих «выборок», но и для вполне серьезных научных баз данных, например 1000 Genomes. В частности,  в этой базе данных при сравнении редких снипов у 89 британцев и 97 китайцев были обнаружены три англо-китайские пары с отдаленным генеалогическим родством ( в геноме этих пар были обнаружены идентичные по происхождению фрагменты (IBD сегменты) ДНК,  которые составляют 0,001%, 0,004% и 0,01%  их геномов).

Самое простое решение этой проблемы некоторые из любителей генетической генеалогии пытались найти в обращении к сервисам главного инструмента аутосомной генетической генеалогии  Gedmatch. В частности, как известно, данный сервер содержит онлайн-версии практически всех популярных среди любителей модификаций DIYDodecad калькуляторов. Например, выбрав разработанный мною калькулятор MDLP K23b в режиме Chromosome painting: Paint differences between 2 kits, 1 chromosome   и сравнив характер распределения предковых компонентов на гомологичных хромосомах у двух сравниваемых людей, можно получить примерное представление о географическом ареале, в котором мог жить общий предок этих людей (вероятно, на этот ареал будет указывать доминирующий на совпадающем сегменте компонент). Логика простая. Предположим, например, что мы сравниваем  сегменты хромосомы X в данных индивида A этнического происхождения D c данными индивида В этнического происхождения С. Здесь возможны три варианта

  • С-происхождение предка или предков индивида A
  • D-происхождение предка или предков индивида B
  • Y-происхождение подмножества предков обоих индивидов

Используя эту логику,  можно предположить что если в попарном сравнении  сегмента обозначится хорошо выраженное преобладание (по отношению к средним значениям) компонента, характерного для этнопопуляции С, то следует выбрать первый сценарий; аналогично, если обнаружится избыток компонентов характерных для этнопопуляции D, то следует выбрать второй сценарий; если будет замечено преобладание редких  для этнопопуляций С и D компонентов, то следует остановится на третьем варианте.

 


Пример I.

В этом примере мы будем использовать свои данные и данные женщины, с которой у нас был обнаружен подтвержденный генеалогией общий предок, живший в середине 19 века.  При сравнении наших данных, алгоритм поиска достоверных генеалого-генетических совпадений обнаружил три сегмента с генетической дистанцией > 7 cантиморганов, cостоящих в блочной записи из более чем 700 последовательно совпадающих снипов

Start Location End Location Centimorgans (cM) SNPs
4 32232224 42421625 13.2 1115
7 8295405 13845989 9.8 885
11 36784445 45084878 8.0 881

Самый большой сегмент = 13.2 cM
Общий размер сегментов с сантиморганах > 7 cM = 30.9 cM
Приблизительное число поколений до общего предка  = 4.4

Задетектированные  сегменты хромосом идеографически отображаются при попарном сравнении в цветовой гамме — черный цвет означает несовпадающие сегменты, другие цвета — компонентную привязку к одному из компонентов моего калькулятора MDLP K23b.  Ниже приведены фрагменты идеографического отображения 2 из 3 вышеуказанных совпадающих сегментов на кариограмму 4 и 7 хромосомы.:

M051225_F298455_4_D64088
Сегмент на 4 хромосоме
M051225_F298455_7_BC1A38
Сегмент на 7 хромосоме

Самый значительный сегмент (13.2 сM) на 4 хромосоме имеют хорошо заметную привязку к северо-восточно-европейскому компоненту [зеленый цвет], в исторической перспективе связанному с наследием мезолитического населения этого региона. А вот сегмент на 7 хромосоме имеет более сложную структуру, в которой характерно преобладание кавказского компонента [голубой цвет]. Таким образом можно уверено утверждать, что общий предок (или предки) могли жить в регионе восточной Европы.

К сожалению, данный инструмент сегментного сравнения на  Gedmatch хотя и прост в обращении (в силу интуитивной понятности), однако  далек от совершенства. В первую очередь, на аккуратность определения «генографического»происхождения сегмента влияет отсутствие на сервере  гаплоидных фаз похромосомных данных. В результате, сравнение ведется не по конкретной фазе (т.е по конкретной хромосоме доставшейся ребенку от каждого из родителей), а по диплоидному составному блоку, т.е вместо настоящих IBD мы можем оперировать half-IBD (HBD), которые на слэнге русскоязычных любителей именуются УПС-ами. Во вторых, аккуратность генографического определения  зависит от аккуратности определения предковых компонентов в используемом варианте калькулятора, но это отдельная тема для разговора.


К счастью, парадокс «экзотических» совпаденцев имеет более точное решение с помощью одной из программ, позволяющих определять геногеографическую структуру или «локальное происхождение» совпадающих сегментов.  Можно использовать разные программы, HAPMIX, LAMP , HAPAA, ANCESTRYMAP — так как несмотря на ряд принципиальных отличий, все они используют алгоритмы моделнй скрытых марковских цепей (HMM) и поэтому выдают в целом схожие результаты. К этому же классу программ относится и более новая програма PCAdmix, которую я буду использовать в своем втором примере, в котором я задействую фазированные в BEAGLE генотипы.  В целях разжевывания принципов работы программы, следует вкратце описать рабочий процесс PCAdmix.
PCAdmix являет cобой метод, который оценивает локальное происхождение хромосомных сегментов с помощью анализа главных компонентов (PCA)  фазированных гаплотипов. В самом начале выполняется анализ главных компонентов в 2-3 референсных панелех, необходимых доя построения пространства главных компонентов, например, для хромосомы 22 . Поскольку метод использует фазированные данные, каждая копия хромосомы 22 в референсных панелях рассматривается как отдельная точка в пространстве главных компонентов. Первые две главные компоненты, как правило, представляют собой оси «предкового» расхождения популяций референсных панелей, что хорошо заметно на графиках. Если подобного рассхождения не наблюдается,  то скорее всего в популяциях референсных панелей «маскируется» присутствие неявной популяционной субструктуры. В построенное таким способом пространство главных компонентов в дальнейшем проецируется группа лиц «смешанного» происхождения, и затем определяется значение нагрузки главных компонентов для каждого снипа.  После этого метод переходит к анализу коротких «окон» снипов — для каждого из этих окон вычисляются  вероятности того, что данное окно в гаплотипе человека «смешанного» происхождения происходит от одной из референсных популяций. Вычисленные таким образоом вероятности различных вариантов происхождения каждого окна снипов, используются на заключительном этапе метода в  скрытой моделе Маркова (HММ) для сглаживания шума в определении происхождения «окон» снипов. Таким образом, данная скрытая модель Маркова НММ зависит от значений главных компонентов, доли каждого «компонента происхождения» на заданной хромосоме, а также матрицы перехода, которая, в свою очередь, зависит от числа поколений прошедших с момента смешивания популяций и генетического расстояния (сM) между двумя окнами снипов. В текущей версии метода, рекомбинаторные расстояния и число поколений определяются параметрами.
Конечным результатом рабочего процесса PCAdmix является матрица состяний скрытой модели Маркова, содержащая апостериорную вероятность каждого из возможных вариантов происхождения для данного «окна снипов», и эта вероятность обусловлена остальной частью данных для хромосомы. Важно отметить, что происхождение каждого окна снипов определяется только в том случае если апостериорная вероятность для одного из возможных происхождений > = 0,8. Любое окно, для которого максимальная апостериорная вероятность любого варианта происхождения <0,8, считается «неопределенным».


Пример 2

Данный пример основан на реальном случае, когда ко мне обратился человек, чьи предки происходят из центральных регионов Азии. Смущенный наличием в списке своих совпаденцев в сервисе Relative Finder 23andme  человека с корейскими и японскими корнями, а также  семейными легендами о «восточноазиатской»прабабушке, он попросил меня определить вероятность присутствия японцев в числе своих ближайших (в пределах 5 поколений) предков, опираясь исключительно на аутосомные данные.

В этом эксперименте, я решил скурпулезно следовать инструкциям разработчиков PCAdmix, и для начала произвел фазирование (биоинформатическую реконструкцию гаплотипных фаз аутосомных хромосом) в программе BEAGLE. Данные тестанта (ок 400 тыс. снипов) были фазированы в присутствии 3 контрольных референсных групп популяций — британцев GBR, китайцев CHB и японцев JPT — поскольку эти группы были позднее задействованы мной в качестве 3 референсных панелей. В целях уменьшения количества ошибок, которые неизбежно появляются в результате импутации пропущенных «генотипов» снипов, я использовал только те общие снипы, которые были определены как в аутосомных данных клиента 23andme, так и в трех референсных группах.

Затем фазированные данные тестанта были похромосомно обработаны в рабочих циклах программы PCAdmix. Программа отфильтровала cнипы с низким значением MAF и высоким значением LD, в результате чего число снипов уменьшилось почти вдвое. Оставшиеся снипы были разбиты на «окна снипов», каждое из которых состяло из 20 снипов.  При расчете по всем 22 хромосомах, общее количество полученных таким разбиением «окон» составило 11 997. В конце рабочего цикла (метод главных компонентов + HMM) программа выдала для каждой парной аутосомной хромосомы A и B  файл в формате bed, удобном для отображения дополнительной информации в аннотации генома (номер хромосомы, начало и конец сегмента, наиболее вероятный регион происхождения сегмента, cM, максимальная вероятность и апостериорная вероятность одного из трех вариантов происхождения — JPT, GBR, CHB, непоказана в таблице). В конечном отчете GBR используется как индикатор сегментов не-восточноазиатского происхождения (nEA), JPT — японского происхождения (JPA), CHB — неспецифичных сегментов восточноазиатского происхождения (EA) :

10 111955 468599 GBR 0.004885 0.134147 GBR* 0.636943
10 521723 811876 GBR 0.142147 0.582463 GBR* 0.646868
10 815149 1151723 GBR 0.585829 0.898724 GBR* 0.676252
10 1156487 1335849 GBR 0.901503 1.23673 GBR 0.925059
10 1337709 1449849 GBR 1.24246 1.60705 GBR 0.99999
10 1454864 1510208 GBR 1.61249 1.76798 GBR 0.999506
10 1512546 1623734 GBR 1.77039 2.12653 GBR 0.999647
10 1624900 1669347 GBR 2.13038 2.25357 GBR 0.999778


Выбор формата BED в качестве формата выходных в моем случае также был далеко неслучайным. C помощью одной из библиотеки платформы Bioconductor формат BED легко отображается в кариограмме 22 пар аутосомных хромосом человека (я использовал координаты геномного билда b37). Чтобы было понятно, что именно изображают эти «кариоплоты» (идеографические изображения хромосом), необходимо пояснить, что  «японское происхождение» (JPA) приписывалась 20-сниповому сегменту только в том случае, если апостериорная вероятность японского происхождения данного «окна из 20 снипов» составляла > = 0,8. Любое окно, для которого максимальная апостериорная вероятность любого варианта составляля <0,8, засчитывалось как окно  с «неопределенным» происхождением (UND).Chromosomes A

Chromosomes A

 

Chromosomes B
Chromosomes B

Эксперимент показал, что среди 11997 «окн» число  «окон» не-восточноазиатского (nEA) происхождения (7650) почти в два раза больше чем число «восточноазиатских» сегментов. Происхождение 2750 геномных «окон» снипов невозможно определеить, и только 965 «окна» могут быть определены как «японские по происхождению». Вместе с 617 окнами «китайского» (EA),  восточно-азиатские сегменты составляют меньше, чем 10% генома.
Не менее важно и то обстоятельства, что значительная доля этих сегментов-окон пришлась на низких «консервативные, низкорекомбинантные» области хромосом,  — такие, как  например, теломеры, центромеры и регионы с низкой плотностью снипов: сегменты в таких регионах могут переходить от одного поколения к другому фактически в неизменном виде. Наконец, те же закономерности распределения родословной были отмечены в обеих фазированных наборах аутосомных хромосом, что опровергает версию о недавной «восточноазиатской» примеси со стороны одного из родитедей и скорее  свидетельствует о древнем эпизоде смешивание определенных центрально- и юго-западноазиатских групп с группами восточноазиатского происхождения (например, в ходе монгольских или тюркских нашествий).

Разумеется, как и во многих других моделях анализа, основанных на вероятностях, наше заключение нельзя считать окончательным вердикторм. Вместо этого, лучше сказать, что шансы в пользу существования «недавнего японского предка» против шансов отсутствия такого, составляют 10 к 90. Другими словами, вариант с недавней японской «примесью» нельзя полностью исключить, поскольку вероятность такого сценария  составляет 11%.

 

2014 год — год палеогенетики и эпигенетики

Оглядываясь назад на события и открытия, коими в уходящем 2014 году ознаменовалась область исследований генетики человека, можно смело сказать что уходящий год был годом прорыва в двух принципиально различных направлениях — в палеогенетике, изучающей геномы популяций древних людей прошлого, и  в эпигенетике,  с помощью которой можно прогнозировать будущее (здоровье и качество жизни) отдельных людей.


Палеогенетика

В самом начале 2014 года, на руках немногочисленных исследователей  палеогеномов было менее десятка древних геномов человека, опубликованных в предыдущие года. К концу 2014 года опубликован ряд работ, посвященных попыткам генотипирования останков древних людей — от живших несколько тысячелетий назад до «усть-ишимца» с предположительным возрастом около 45 тысяч лет, неандертальцев и «денисовки». Количество таких расшифровок растет все быстрее, что не может не вызывать оптимизма.  Вторая половина 2014 года особенно примечательна как количеством подобных публикаций, так и числом полных геномных NGS-сиквенсов древних людей, размещенных в публичных репозиториях (банках геномных данных). Так, в сентябре в Nature была опубликована окончательная версия работы Lazaridis et al. 2014  «Ancient human genomes suggest three ancestral populations for present-day Europeans». Работа получила широкое освещение в СМИ, поскольку аналитическая выборка сэмплов в этом исследовании включала значительное количествао заново генотипированных (на чипе Affymetrix HumanOrigin) образцов ДНК из древних палеолитических стоянок Сибири (Афонтова Гора, Малта), представителя древней индейской культуры Кловис и палеоэскимоса Cаккак. В работе был представлен  целый  ряд образцов древней ДНК представителей европейских мезолитических и неолитических культур, опубликованных в более ранних работах 2012-2014 годов: Skoglund et a. 2014 «Genomic Diversity and Admixture Differs for Stone-Age Scandinavian Foragers and Farmers»(шведские земледельцы и охотники собиратели эпохи неолита); Olalde et al. 2014 «Derived immune and ancestral pigmentation alleles in a 7,000-year-old Mesolithic European» (дДНК мезолитического населения Иберийского полуострова) и т.д.

Опубликованные геномы так и остались бы достоянием небольшой группы ученых, и по-прежнему бы использовались бы только для сравнения с абстрактными и анонимизрованных данными референсных популяций человека, если бы усилиями пары любителей (прежде всего усилиям Чандракумара) палеогеномы не были преобразованы в привычные и удобные для популяционного анализа форматы  BAM, VCF и Plink binary, а также в стандартный формат геномных данных от FTDNA. По своей сути, преобразование состояло в сложной процедуре сборки генома из библиотек коротких геномных ридов (в формате sra., в котором эти риды хранятся в репозиториях крупных баз геномных данных). Полученные сборки геномов в формате sam/bam cравниваются с референсным геномом человека, и отличающиеся одиночные нуклеотидные полиморфизмы сохраняются в VCF файл. Здесь нужно помнить о том, что в этой процедуре не учитывался параметр качества сиквенса PHRED score. Традиционно рекомендуется использовать только те базовые пары, PHRED score которых превышает 30, т.е чья точность определения составляет 99.9% (или 1 ошибка на 1000 базовых пар). Кроме того, в этой процедуре разработчик не учел влияние постмортальных изменений ДНК. Cледует помнить, что ДНК, как и любая биомолекула, способна вступать в химические реакции с окружающим миром, тут-то и появляются различные модификации нуклеотидов (особенно по краям фрагментов древней ДНК). Наиболее частая постмортальная мутация — дезаминирование цитозинов (C), приводящая к возникновению урацилов (U) в последовательности древней ДНК, которые при проведении ПЦР многократно копируются «бездушным» ферментом ДНК-полимеразой как тимин (Т). Именно по этой причине, при оценке достоверности снипов в полученных из палеогеномов вариантах особое внимание требуется уделять транзициям C->T и  G->A.  Если при подсчете вариантов окажется, что такие транзиции встречаются чаще ожидаемого, то можно сделать вывод о существенном повреждении палео-ДНК.  И хотя по причине игнорирования этих ограничений, автором было получено большое количество снипов, в некоторых случаях, например при объединении полученных данных NGS c данными генотипирования с помощью классических технологий миркочипов, использование таких данных может существенно уменьшить качество интерпретации.

Тем не менее, благодаря этим усилиям, и не в меньшей степени, благодаря соотрудничеству с порталом Gedmatch и компанией  FTDNA, большинство клиентов ведущих компаний на рынке персональной геномики и генетической генеалогии (таких как 23andme, и FTDNA) могут сравнить свои данные с данными древних геномов либо путем сравнения частото аллелей, либо посегментно сравнивая свои хромосомы с гомологичными хромосомами древних геномов.  Более того, Феликс Чандракумар пошел дальше и разместил 10 наиболее качественных палеогеномов (т.е палеогеномов с наибольшим числом перекрывающихся разными микроматрицами снипов) на FTDNA. Таким образом, с помощью сервиса MyOrigins FTDNA, исследователи могут установить распределение «этно-популяционных составляющих» или «предковых этнопопуляционных компонентов» в этих древних геномов. Нужно помнить, конечно же, что в случае с наиболее древними геномами (геномами неандертальца, усть-ишимца и т.д.) полученное распределение более молодых компонентов (полученных из современных популяций) нельзя интерпретировать буквально.


Эту замечательную функцию дополняют калькуляторы Eurogenes, благодаря которым любой интересующийся человек может посмотреть, какой процент его/ее генома приходится на тот или иной древний геном. Для людей, озабоченных вопросами анонимности, Феликс разработал отдельное десктопное приложение  — калькулятор древней ДНК. Этот калькулятор  показывает, какой процент ДНК (составных сегментов) аутосомной ДНК клиента попадает в каждый из 30 образцов древней ДНК . Другими словами, он показывает  процент общих предков в сравнении современного ДНК и палеоДНК.

Подводя итоги года, можно сказать, что в области изучения древней ДНК все ожидания были оправданы.


Эпигенетика

Под эпигенетикой обычно понимают область знаний о совокупности свойств организма, которые не закодированы непосредственно в геноме, но могут и должны передаваться по наследству.Эпигенетика может быть определена как изучение механизмов контроля активности генов во времени и пространстве в процессе развития сложных организмов. К настоящему времени обнаружены и описаны различные механизмы контроля активности генов, однако в уходящем 2014 году особое внимание ученые уделяли  изучению одного из таких механизмов  — ферментативному (энзиматическому) метилированию самой генетической матрицы, то есть ДНК.

Метилирование — это изменение молекулы ДНК путем присоединения метильной группы (-СH3) к нуклеотиду C, причем необходимо, чтобы за С следовал нуклеотид G. Последовательность нуклеотидов -CG- называется СpG динуклеотидом, или CpG сайтом. Метилирование происходит не во всех клетках одновременно, поэтому говорят о проценте метилирования определенного CpG сайта.метилирование ДНК ощутимо сказывается на её взаимодействии (связывании) с различными белками. Во многих случаях метилирование по цитозиновым остаткам препятствует связыванию специфично реагирующих с ДНК ядерных белков (факторов), которые, собственно, и осуществляют разные генетические процессы, в том числе транскрипцию, репликацию и репарацию.Как известно, метилирование играет важнейшую роль в механизме экспрессии (т.е качественном и количественном проявлени) генотипа в фенотип. оказано, что с изменением профиля метилирования связаны такие заболевания, как различные виды рака, диабет первого и второго рода, шизофрения и т.д. Поэтому важно уметь анализировать профиль метилирования генома, и здесь перед энзимологией расскрываются огромные перспективы. Например, в 2014 году компания «СибЭнзайм» открыла новый фермент, на базе которого разработали новый метод детекции. Он позволяет определять, включен или выключен интересующий вас ген — э то управляющий механизм в организме, именно отключение отдельных генов ученые связывают с развитием рака:

С технической точки зрения, изучение метиляции ДНК происходит с использованием модифицированного варианта ChiPSeq (это комбинированный вариант иммунопреципитации хроматина (ChIP) и высокоэффективного секвенирования ДНК для определения участков связывания ДНК и белков). Не вдаваясь в биолого-химические подробности этого модифицированного метода, его можно кратко описать следующим образом. Каждый CpG сайт измеряется с помощью двух флуоресцентных проб. Флуоресцентный сигнал проб пропорционален соответственно количеству метилированных и неметилированных CpG сайтов в тестируемом образце.  Полученные данные образуют собой профиль метилирования, который удобно сравнивать с различными референсными образцами. Как уже говорилось выше, этот профиль можно использовать не только для медицинских целей (например, для изучения эпигенетических факторов развития различных заболеваний), но и для более общих целей. В недавном исследовании, проведённом специалистами из Калифорнийского университета (UCLA), выявило биологические часы, встроенные в геном человека и оно впервые определило, что внутренние часы в состоянии точно оценить возраст различных человеческих органов, тканей и клеток. Исследователи обратили свое внимание на метилировании – естественном процессе, изменяющем химический состав ДНК. Он изучил 121 набор данных, собранных ранее исследователями, изучавшими метилирование здоровых и раковых тканей человека. Проанализировав информацию по 8000 образцов из 51 типа тканей и клеток со всего тела, исследователи смогли определить, как возраст влияет на уровни метилирования с рождения до 101 года. Он определил, что метилирование работает на 353 участках ДНК, которые изменяются с возрастом. Таким образом, профиль метилирования ДНК представляет собой наиболее надежную метрику для расчетов биологического возраста как отдельных органов, так и всего организма.

Принимая это во внимание, можно сказать что и в последующие года эпигенетику ожидают радужные перспективы.

Публикации и работа с палеогеномами

Как я уже отмечал в своих предыдущих записях, за последние годы был опубликован ряд работ, посвященных попыткам генотипирования останков древних людей — от живших несколько тысячелетий назад до «усть-ишимца» с предположительным возрастом около 45 тысяч лет, неандертальцев и «денисовки». Количество таких расшифровок растет все быстрее, что не может не вызывать оптимизма.  Вторая половина 2014 года особенно примечательна как количеством подобных публикаций, так и числом полных геномных NGS-сиквенсов древних людей, размещенных в публичных репозиториях (банках геномных данных). Так, в сентябре в Nature была опубликована окончательная версия работы Lazaridis et al. 2014  «Ancient human genomes suggest three ancestral populations for present-day Europeans». Работа получила широкое освещение в СМИ, поскольку аналитическая выборка сэмплов в этом исследовании включала значительное количествао заново генотипированных (на чипе Affymetrix HumanOrigin) образцов ДНК из древних палеолитических стоянок Сибири (Афонтова Гора, Малта), представителя древней индейской культуры Кловис и палеоэскимоса Cаккак. В работе был представлен  целый  ряд образцов древней ДНК представителей европейских мезолитических и неолитических культур, опубликованных в более ранних работах 2012-2014 годов: Skoglund et a. 2014 «Genomic Diversity and Admixture Differs for Stone-Age Scandinavian Foragers and Farmers»(шведские земледельцы и охотники собиратели эпохи неолита); Olalde et al. 2014 «Derived immune and ancestral pigmentation alleles in a 7,000-year-old Mesolithic European» (дДНК мезолитического населения Иберийского полуострова) и т.д.

В этой связи необходимо также отметить статью Carpenter et al. 2013 «Pulling out the 1%: whole-genome capture for the targeted enrichment of ancient DNA sequencing libraries»в которой целый авторский коллектив представил результаты исследований древних образцов ДНК найденных в захоронениях бронзового века II тыс. д.н.э (Болгария и Дания).  В следующей работе опубликованной в конце октября, Gamba et al. 2014. «Genome flux and stasis in a five millennium transect of European prehistory»,  читателям была представлена хронологическая перспектива на процесс изменения генофонда населения популяций живших на территории  Паннонской равнины на протяжении 5000 лет (с эпохи неолита до конца железного века), проиллюстрированная на примере изучения 13 образцов древней ДНК. Параллельно вместе с этим Wellcome Trust Sanger Institute разместил геномные «риды» геномов древних англосаксов и бриттов (сама статья еще находится в процессе пре-публикации, презентация статьи была представлена на последней конференции AJHG).

Более важные публикации появилась совсем недавно. В частности, таковой публикацией является статья Fu et al. 2014 «Genome sequence of a 45,000-year-old modern human from western Siberia» о  геноме так называемого «усть-ишимца» (возраст останков которого датируются 45 000 д.н.э) и статья Seguin-Orlando et al. 2014 «Genomic structure in Europeans dating back at least 36,200 years», посвященная обсуждению результатов анализа ДНК знаменитого «папусоида»  с палеолитической стоянки Костенки-14.Тело мужчины, жившего 37 тыс. лет назад и найденное в 1954 г. на юго-западе России, оказалось источником старейшей европейской ДНК. Анализ его генома, опубликованный на прошлой неделе, показывает, что большинство разнообразных европейских генетических комбинаций существуют более 30 тыс.лет и пережили последний ледниковый период. Генетики обнаружили что ДНК Костенки-14 является близкородственным по отношению к раннеевропейским охотникам-собирателям, современным европейцам и жителям Сибири.
В то же время другой древний геном, данные о котором были опубликованы несколько недель назад, принадлежащий сорокапятитысячелетнему западному сибиряку, известному как Усть-Ишим, имел родство как с европейцами, так и с азиатами.  Любопытно, что в этой статье подтверждается то о чем я говорил гораздо раньше: процент неандертальских генов у древних евразийцев был выше чем у современных (о чем я упоминал в одной из своих заметок в этом блоге).

Трудами известного геномного блоггера Феликса Чандракумара большинство из них было переведено в простой и доступный формат, аналогичный файлам raw data от FTDNA и 23andMe. В GEDMatch можно поиграть с этнокалькуляторами и даже попытаться сравнить свой геном с геномами древних людей.Для этого следует взять из таблицы (кот. видна, если пройти по ссылке) номера, которыми обозначены древние геномы.

Sample Name Sample Location GEDMatch Sex Y-DNA Mt-DNA Approx. Age by authors My Analysis or Comments
Altai Neanderthal Denisova Cave, Siberia F999902 Female 50,000 years
Denisova Denisova Cave, Siberia F999903 Female 30,000 years
Palaeo-Eskimo Qeqertarsuaq, Greenland F999906 Male Q1a D2a1 4,000 years Palaeo-Eskimo 2000 BC DNA
Clovis-Anzick-1 Montana, North America F999919 Male Q-Z780 D4h3a 12,500 years Matches Living people.
Mal’ta South-Central Siberia F999914 Male R U 24,000 years Matches Living people on X Chromosome.
La Braña-Arintero León, Spain F999915 Male C-V183 U5b2c1 7,000 years Analyzing La Braña-Arintero Ancient DNA
Motala-12 Östergötland, Sweden F999917 Male I-L460 U2e1 7,000 years My Analysis of Motala-12 ancient DNA
LBK Stuttgart, Germany F999916 Female T2c2 7,500 years Matches Living people
Loschbour  Loschbour, Luxembourg F999918 Male I-L460 U5b1a 8,000 years Matches Living people
Ajvide58 Sweden F999924 Male I-CTS772 U4d 5000 years Ajvide58 DNA Analysis
Gökhem2 Sweden F999934 Female H1c 5000 years Gökhem2 Ancient DNA Analysis
Hinxton-2 Cambridgshire, UK F999921 Female H2a2b1 1300 years Hinxton-2 Analysis
Hinxton-3 Cambridgshire, UK F999922 Female K1a4a1a2b 1300 years Hinxton-3 Analysis
Hinxton-4 Cambridgshire, UK F999925 Male R-DF25 H1ag1 2000 years Hinxton-4 has X-Matches with living people
Hinxton-5 Cambridgshire, UK F999926 Female H2a2a1 1300 years Hinxton5 Ancient DNA Analysis
KO1 Tiszaszőlős-Domaháza, Hungary F999931 Male I-L68 R3 5650-5780 cal BC Analysis of Neolithic KO1 genome
NE1 Polgár-Ferenci-hát, Hungary F999937 Female U5b2c 5070-5310 cal BC NE1 Ancient DNA Analysis
NE5 Kompolt-Kigyósér, Hungary F999927 Male C-F3393 J1c 4990-5210 cal BC Ancient Hungarian Genome NE5 Analysis
NE6 Apc-Berekalja I., Hungary F999932 Male C-P255 K1a3a3 4950-5300 cal BC Analysis of Hungarian genome-NE6
NE7 Apc-Berekalja I., Hungary F999928 Male I-L1228 N1a 4360-4490 cal BC Ancient Hungarian genome — NE7
CO1 Apc-Berekalja I., Hungary F999930 Female H 2700-2900 cal BC Analysis of Copper age genome CO1
BR2 Ludas-Varjú-dűlő, Hungary F999933 Male J-M67 K1a1a 1110-1270 cal  BC Ancient BR2 matches living people
IR1 Ludas-Varjú-dűlő, Hungary F999929 Male N-M231 G2a1 830-980 cal BC Ancient Hungarian genome — IR1
Tyrolean Iceman
(ERP001144)
Tisenjoch Pass, Oetztal Alps Male 5300 years Pending
Ust’-Ishim Ust’-Ishim, Siberia F999935 Male K-M526 R 45,000 years Ust’-Ishim matches with living people!
Kostenki14 European Russia F999936 Male C-V199 U2b 38,700-36,200 years Kostenki14 Ancient DNA Analysis
Sample Name Sample Location Sex Y-DNA Mt-DNA Approx. Age by authors
Mezmaiskaya Neanderthal Mezmaiskaya Cave Female 29,000 years
Tianyuan Tianyuan Cave, China R 40,000 years
Afontova Gora-2 South-Central Siberia Male R1? R 17,000 years
Motala-1 Östergötland, Sweden Female U5a1 7,000 years
Motala-9 Östergötland, Sweden Female U5a2 or U5a1f1a1 7,000 years
Motala-6 Östergötland, Sweden Male U5a2d 7,000 years
Motala-2 Östergötland, Sweden Male F-P139 U5e1 7,000 years
Motala-4 Östergötland, Sweden Female U5a2d 7,000 years
Motala-3 Östergötland, Sweden Male I-M258 U2e1 7,000 years
Hinxton-1 Cambridgshire, UK Male R-L151 K1a1b1b 2000 years
Ajvide53 Sweden Female U4d 5000 years
Ajvide59 Sweden Male I-PF3796 U5b2c1 5000 years
Gökhem7 Sweden Female H 5000 years
Ire8 Sweden Male I-CTS6343 U4d 5000 years
StoraFörvar11 Stora Karlsö, Sweden Male I-CTS4077 U5a1f1a 7500 years
Gökhem4 Sweden Male CF-M3690 H 5000 years
Gökhem5 Sweden Female K1e 5000 years
Ajvide52 Sweden Male HIJK-F929 HV0a 5000 years
Ajvide70 Sweden Female U4d 5000 years
NE4 Polgár-Ferenci-hát, Hungary Female J1c 5050-5290 cal BC
NE3 Garadna, Hungary Female X2b 5010-5210 cal BC
BR1 Kompolt-Kigyósér, Hungary Female K1c1 1980-2190 cal BC
KO2 Berettyóújfalu-Morotva-liget, Hungary Female K1 5570-5710 cal BC
NE2 Debrecen Tócópart Erdõalja, Hungary Female HV 5060-5290 cal BC
V2 Vratitsa, Bulgaria Male U2e1’2’3 1500-1100 BC
M4 Borum Eshøj, Denmark Male B2 1350 BC
K8 Krushare, Bulgaria Male R 450-400 BC
NA43 Laguna de los Condores, Peru Male B4b’d’e 1000-1500 AD
AusAboriginal Western Austalian Male F-M235 O1a 100 years
NA41 Laguna de los Condores, Peru Male L3 1000-1500 AD
P192-1 Svilengrad, Bulgaria Male U3b 800-500 BC
T2G2 Stambolovo, Bulgaria Male H1c9a 850-700 BC
NA42 Laguna de los Condores, Peru Male D1 1000-1500 AD
NA50 Laguna de los Condores, Peru B4b’d’e 1000-1500 AD
NA47 Laguna de los Condores, Peru L3 1000-1500 AD
NA40 Laguna de los Condores, Peru L3 1000-1500 AD
NA39 Laguna de los Condores, Peru Male B2 1000-1500 AD
Feld1 Neanderthal Neander Valley, Germany 42,000 years
Sid1253 Neanderthal El Sidron cave, Asturias, Spain 49,000 years
Vi33.16 Neanderthal Vindija cave, Croatia Female 38,310 years
Vi33.25 Neanderthal Vindija cave, Croatia Female
Vi33.26 Neanderthal Vindija cave, Croatia Female 44,450 years

В своем блоге Феликс размещает аналитические отчеты по каждому из проведенных анализов, отчеты включают графическое отображения «состава различных геномных компонентов происхождения» каждого из образцов в калькуляторах Gedmatch (включая мой последний калькулятор K23b), фенотипические признаки (предположительный цвет кожи и глаз), возраст на момент смерти и т.д.
Пытаясь ответить на вопрос,  насколько  правдоподобны (в смысле реального генеалогического родства) результаты совпадения сегментов древних и современных людей, Феликс приводит замечательные вычисления оценки правдоподобия совпадений в геномах современных людей и древних образцов. К сожалению, рассуждения замечательные, но вызывающие определенные вопросы, которые я озвучу в другой заметке.

Так или иначе, поставленная Феликсом на поток и практически полностью автоматизированная работа с древними геномами заслуживает безусловного признания, поскольку в силу разделения труда позволяет другими исследователям-любителям полностью сконцетрировать свое внимание на процессе непосредственного анализа полученных данных, вместо того чтобы тратить свои ресурсы на процесс извлечения снипов из «сырых» геномных данных. Благодаря этому разделению труда,  Давид Веселовский из проекта Eurogenes провел ряд замечательных экспериментов с этими данными (включая PCA, Treemix и вычисление генного дрейфа с помощью f3). В основном выводы этих экспериментов повторят то, что было написано в статьях профильных генетиков, за исключением одного интересного вывода на основании графа Treemix, в котором отображено направление процессов обмена генами между различными древними популяциями:

«В отношении Kostenki14, графики  Treemix  подтверждают один из основных выводов работы Seguin-Orlando et al. 2014, согласно которой  главны компонент образца  Kostenki-14  является базальным «предковым» компонентом более поздних европейцев (Basal_Eurasian). Тем не менее, два последних графика показывают, что этот базальный «компонент» не тот же самый «базальный» компонент в геноме неолитического образца из Штутгарта, связанного с базальным евразийским  компонентом, который был описан  в работе Lazaridis et al. 2013″.

Другой геномный блоггер, Сергей Козлов, использовал те же самые данные палеогеномов (взятые с сайта Ф. Чандракумара) для создания замечательных карт, иллюстрирующих количество и интенсивность общих IBD-сегментов палеогеномов и геномов современных популяций.

Я решил не оставаться в стороне и провел собственный анализ PCA и кластеризации популяций по значениям компонентов генетического разнообразия.

Ниже приведены иллюстрации к моему опыту кластеризации собственного генома с геномами древних жителей Евразии. В качестве входных данных алгоритма ward-кластеризации в программе R, я использовал собственные значения 4 векторов главных компонентов (PC) разнообразия. Эти векторы, в свою очередь, были получены путем вычислений в большом массиве (2024 образца) генетических данных (примерно 110 тысяч снип-полиморфизмов) представителей современных и древних популяций. Мой геном (обозначенный как Vadim) представляет собой набор, полученныq в ходе импутации по датасету Human Origin значения снипов информативных с точки зрения эволюционного происхождения, и используется в качестве контрольной группы.

Для начала график PCA, и положение палеогеномов на этом графике.

10805810_10205228379818844_2683994891484833194_n

В аналитической выборке я задействовал снипы геномов высших и низших приматов (дендрограмма выборка укоренена на геноме мармозетки), древних гоминидов (денисовского человека и неандертальцев). Остальное — как я и упоминал выше — представляет собой совокупность снипов современных и древних популяций.

Благодаря характеру выборки и характеру используемых снипов, я могу взглянуть на свое происхождение с наиболее широкой перспективы, позволяющей проследить индивидуальный эволюционный путь от древнейших людей до наших современников.
Можно сказать, что я проделал самое далекое (из всех предыдущих) генеалогическое путешествие в собственное прошлое. Разумеется, без предыдущего выделения обработки образцов древнего ДНК новейшими биохимическими методами, а также публикации данных — это путешствие длинной в сотни тысяч лет не могло бы просто состоятся. Так что огромное спасибо всем биохимикам, генетикам и биоинформатиков работавшим с образцами древней ДНК.

Полученные мной кластерные дендрограммы вышли очень большого разрешения. В силу этого, имеет смысл изучить топологию, структуры и расположение популяционных групп-кластеров в полномасштабном варианте, иначе могут возникнуть интересные вопросы.

1557253_10205127321932460_4975988878575720296_o 10801887_10205156832150197_5471832914364777784_n (1) 10801887_10205156832150197_5471832914364777784_n 247121_10205156832710211_7030394711716209950_n 1235004_10205156831950192_4536397005560655073_n 1379610_10205156832350202_753531489446222277_n 10411811_10205156831710186_6596784203743263163_n

Поэтому — я подготовил соответствующие файлы PDF и разместил ссылки на эти файлы для удобного просмотра.

tree1

tree2

tree3

tree4

tree5

tree6

tree7

tree8

tree9

tree10

tree11

tree12

tree13

tree14

tree15

tree16

Здесь их опубликовать не представляется возможным, и по этой причине я ограничу себя размещением тех фрагментов трех вариантов кластерных диаграмм, на которых присутствуют древние образцы.
Забегая вперед, можно заметить, что образцы ДНК древних людей (т.е людей современного анатомического типа — homo sapiens sapiens), строго говоря, разбиваются на три органические суперкластера — древних сибириков (или евразийцев), древних европейских охотников-собирателей, и ранних неолитических европейских земледельцев. В основной своей части состав и топология популяционных кластеров стабилен в разных вариантах, наибольшие видоизменения заметны у тех образцов, чье множество снипов имеет меньшее пересечение с общим набором снипов. Отсюда довольно таки тривиальный вывод: чем меньше общее число снипов — тем больше флуктуаций наблюдается в расположении древних образцов внутри ветвей кластерной дендрограммы.

Кластер древних евразийцев наиболее стабилен (т.к. там всего два древних генома Afontova Gora 2 (AG2) и знаменитый мальчик с сибирской стоянки Malta (MA1); причем оба образца взяты из одного источника данных). Из современных популяций к этому кластеру наиболее органично примыкают различные группы населения центральной Азии — от таджиков до гуджаратов, и от калашей до пуштунов.

Кластер древних охотников-собирателей Европы наиболее неустойчив, и это объясняется прежде всего разным числом снипов в образцах, а также тем что сами образцы взяты из разных исследований. Тем не менее тенденция наглядна — древнейшие европейцы (охотники-собиратели мезолита) наиболее близки по своим аутосомным снипам к жителям современной западной и северной Европы — особенно Британских островов, Скандинавии и Балтийского региона. Практически во всех вариантах прибалтийцы близки к древним жителям Швеции (Готланда), а также мезолитическим образцам La Brana, Motala и Loshbour. Последние также близки к финнам, эстонцам и северным русским. Из более поздних и географически удаленных образцов к ним близки древние образцы из Венгрии неолитического периода, бронозового и железного веков (BR1, NE2 и KO1).

Интересно, что в этот же кластер входят как современные популяции западной Европы (британцы, норвежцы, французы и др.), так и современные жители центральной Европы — чехи хорваты и венгры. Является ли это наследием древних времен (гальштатской общности связываемой с древними кельтами) — трудно сказать. Не этим ли объясняется тот факт, что образцы древних англо-саксов и бриттов (обозначенные здесь как Hixton) иногда кластеризируются с (современными!) венграми, хорватами, иногда с современными англичанами из Кента и корнуэлльцами. При этом некоторые из образцов Hixton остаются близки (в смысле схожести генома) к скандинавам, оркнейцам, шотландцам, и даже литовцам.

Мой собственный «геном» (Vadim) также входит в эту группу, причем в разных вариантах он определенно близок одновременно и древним мезолитическим и эпинеолитическим шведам, а также более поздним образцам из Венгрии (киммерийского мальчика IR1, а также самый «балтийский» из всех древних венгерских обрацов — KO1). Интересно что IR1 («аутосомный геном» «киммерийского » мальчика Y-гаплогрупы N1a из захоронения паннонской культуры бронзового века Mezőcsát примерно 900 год до нашей эры) в первых четырех главных компонентах кластеризируется с моим собственным «аутосомным геномом»). Это наверное объясняет почему мой собственный геном дает хорошие комбинации (fit) к комбинации трапезундских турков и древних жителей Балтийского региона.

Как известно, попгенетики готовят к публикации большую статью, в которой подводятся итоги нескольких лет исследования генофонда представителей древних культуры шнуровой керамики* (известной также как культура боевых топоров) и ямной культуры** (другое название — древнеямная культурно-историческая общность). Безусловно, это исследование обещает пролить свет на некоторые темные места генетических связей жителей этих культур с современным населением Восточной Европы (особенно Польши, Украины, Беларуси и юго-западной части России).

Пока все детали исследования неизвестны, однако благодаря настойчивости некоторых энтузиастов генетической генеалогии (Веселовского и пр.) удалось выяснить, например, что генофонд древние образцы представителей Ямной культуры в рамках формальных тестов (f3 и D-статистик) наилучшим образом аппроксимируются как результат смешения древнего мезолитического населения севера Европы (в работе их представляют карельские образцы, очевидно из известных захоронений Палеострова) и населения, близкого к современным закавказским популяциям (лучший результат дали армяне из Еревана).

Признаюсь, эти сведения приободрили меня. Дело в том, что последние несколько недель я занимался изучением эволюции аутосомного генофонда беларусов (и своего тоже) из недавно опубликованного набора лаборатории Райха (это одна из усеченных версии их знаменитого кураторского набора Human Origin Dataset).
Как и раньше, для анализа я использовал инструменты разработанные программистами той же лаборатории (Admixtools), а также Alder — программу написанную на основе открытого кода Admixtools, и оптимизированную под более детальный анализ процесса смешивания различных предковых групп.

Так вот, до получения сведений о предварительных результатах попгенетиков, я был немного смущен полученной картиной. У меня получилось вот что. С точки зрения формальной оценки (f3-статистки, аналога более известной p-статистки) лучшие пары адмикса для беларусов (с отрицательным значением Z) представляли собой либо комбинацию мезолитического населения Европы (Loshbour) и современного населения современной Анатолии и ближнего Востока, либо комбинацию ‘генов’ неолитических жителей Европы (LBK380, а также современных сардинцев) и современных америндских популяций (происходящих, как нам известно, из восточной Сибири).
Вот начало списка значимых пар:

Mixe Sardinian Vadim -11.811
Sardinian Mixe Vadim -11.811
Karitiana Sardinian Vadim -11.757
Sardinian Karitiana Vadim -11.757
Zapotec Sardinian Vadim -11.638
Sardinian Zapotec Vadim -11.638
Loschbour Georgian_Megrels Vadim -11.599
Georgian_Megrels Loschbour Vadim -11.599
Piapoco Sardinian Vadim -11.482
Sardinian Piapoco Vadim -11.482
Loschbour Turkish_Trabzon  Vadim -11.434
Turkish_Trabzon Loschbour Vadim -11.434
Loschbour Assyrian_WGA Vadim -11.395
Assyrian_WGA Loschbour Vadim -11.395
LBK380 Piapoco Vadim -11.354
Piapoco LBK380 Vadim -11.354
Surui Sardinian Vadim -11.346
Sardinian Surui Vadim -11.346
Loschbour Abkhasian Vadim -11.293
Abkhasian Loschbour Vadim -11.293
Bolivian_LaPaz Sardinian Vadim -11.232
Sardinian Bolivian_LaPaz Vadim -11.232
Loschbour Iranian_Jew Vadim -11.231
Iranian_Jew Loschbour Vadim -11.231

Я выбрал около сотни значимых пар и проверил их достоверность «адмикса) с помощью инструментов D-статистки (qpDstat) в попарном сравнении каждой из значимых комбинаций (начало таблицы):

Vadim Italian_Tuscan : Loschbour Palestinian 0.0293 8.141 best
Vadim Iranian : LBK380 GujaratiC_GIH 0.0245 7.319 best
Vadim Motala12 : Druze Sardinian 0.0125 7.285 best
Vadim Loschbour : Palestinian Albanian 0.0146 7.17 best
Vadim Sardinian : GujaratiC_GIH Iranian 0.0121 7.151 best
Vadim Palestinian : Spanish_Pais_Vasco_IBS GujaratiC_GIH 0.0145 7.126 best
Vadim Egyptian_Comas : Basque_Spanish GujaratiC_GIH 0.0137 7.016 best
Vadim Sardinian : Loschbour Egyptian_Comas 0.0251 6.962 best
Vadim Sardinian : Loschbour Tunisian_Jew 0.0251 6.789 best
Vadim Palestinian : Basque_Spanish GujaratiC_GIH 0.013 6.758 best
Vadim Sardinian : Loschbour Palestinian 0.0237 6.69 best
Vadim Basque_Spanish : Balkar Palestinian 0.0076 6.601 best
Vadim GujaratiC_GIH : Tunisian_Jew Egyptian_Comas 0.0094 6.493 best
Vadim Spanish_Pais_Vasco_IBS : Balkar Palestinian 0.0079 6.458 best
Vadim Loschbour : Druze Italian_WestSicilian 0.0135 6.443 best
Vadim Loschbour : Iranian Albanian 0.0159 6.385 best
Vadim Palestinian : Sardinian Iranian 0.0083 6.344 best

Как видно, лучшая достоверность (обмена генами) у тех пар которые представляют собой комбинацию мезолитических популяций (Loshbour и Motala), популяций Кавказа, южной Европы и центральной Азии.

Это особенно хорошо заметно в тесте f4ratio. Вот например сравнение 2 квадропул, три популяции в каждой из которых идентичны (беларусы, кумыки и Losbour), а четвертая популяция отличается (балкарцы vs. Motala). Результат означает что кроме мезолитического компонента Loshbour (из западной Европы), у беларусов наблюдается эксцесс (28+-0.1%) дополнительного источника мезолитических «генов» (типично для балтийских популяций мезолита вроде Motala)

Vadim Kumyk Loschbour Motala12 : Vadim Kumyk Loschbour Balkar 0.285678 0.096194 2.97

Крайне любопытны и результаты проведенного мной в Alder исследования источников «древного» адмикса у беларусов.
Я выбрал только те пары, в которых амплитуда угасания LD в двух гипотетических популяциях-донорах была сопоставима с амплитудой угасания LD в популяции-реципиенте (т.е у беларусов). Интересно, что только две пары (пенджабцы + Motala) и (иракские евреи + чукчи) дали консистентную попарную подгонку кривой угасания LD с незначительным разбросом амплитуды (15-25%). К слову, комбинация Armenian+Motala-merge (примерно идентичная наиболее устойчивой модели адмикса у жителей ямной культуры) тоже присутствует в списке «успешных» комбинаций, однако кривые угасания LD имеют разную скорость угасания (их амплитуда отличается уже на 55% и поэтому они не консистентны, т.е несовместимы) в попарном режиме сравнения

DATA: success_consistent 0.0042 Belarusian Punjabi_Lahore_PJL Motala_merge 4.49 2.76 2.78 15%
DATA: success_consistent 0.0098 Belarusian Iraqi_Jew Chukchi 4.31 2.2 3.01 25%
DATA: success 0.0065 Belarusian Mongola Motala_merge 4.4 2.64 2.78 28%
DATA: success 0.011 Belarusian Yi Papuan 4.29 2.26 4.66 28%
DATA: success 0.00037 Belarusian Lebanese Papuan 4.98 2.69 4.66 38%
DATA: success 0.041 Belarusian Kusunda Motala_merge 3.98 2.61 2.78 41%
DATA: success 0.013 Belarusian Hezhen Motala_merge 4.25 2.17 2.78 49%
DATA: success 0.037 Belarusian Motala_merge Tu 4.01 2.78 3.13 51%
DATA: success 4.20E-06 Belarusian Kalmyk Motala_merge 5.79 2.36 2.78 54%
DATA: success 0.0086 Belarusian She Motala_merge 4.34 2.58 2.78 54%
DATA: success 0.0019 Belarusian Armenian Motala_merge 4.66 2.14 2.78 55%
DATA: success 0.048 Belarusian Daur Motala_merge 3.94 2.11 2.78 56%
DATA: success 0.0042 Belarusian Motala_merge Miao 4.49 2.78 3.5 59%
DATA: success 0.041 Belarusian Oroqen Motala_merge 3.98 2.28 2.78 59%
DATA: success 0.013 Belarusian Thai Motala_merge 4.25 2.13 2.78 65%
DATA: success 0.043 Belarusian Motala_merge Lahu 3.97 2.78 3.56 71%
DATA: success 0.0049 Belarusian Motala_merge Japanese 4.46 2.78 3.53 72%

Примечательно что для пары Belarusian Armenian Motala_merge  Admixtools датирует смешение 114.67+/-20.5 поколений тому назад. А вот датировка адмикса для двух первых пар (последняя колонка это датировка адмикса
Belarusian Punjabi_Lahore_PJL Motala_merge 4.49 2.76 2.78 15% 142.4+/-27.54
Belarusian Iraqi_Jew Chukchi 4.31 2.2 3.01 25% 43.28+/-9.45 То есь самое позднее 3500 лет до нашего времени.Итак, выводы: в эволюционной перспективе, костяк аутосомного генофонда беларусов составляет субстрат мезолитического генетического компонента Европы, к которому примешиваются два потока — один с юга, с наиболее значимым вливанием во времена неолита (земледельцы из Анатолии и ближнего Востока), другой — видимо более поздний (т.к. он отсутствует у ямников) из Сибири.


*Культура боевых топоров, культура шнуровой керамики (нем. Schnurkeramik) — археологическая культура медного и бронзового веков, распространенная на обширных территориях Центральной и Восточной Европы и датированная 3200 г. до н. э./2300 до н. э. — 2300 г. до н. э./1800 г. до н. э. Племена культуры боевых топоров часто считают первыми индоевропейцами на территории Средней Европы
**Я́мная культу́ра (точнее — Древнея́мная культу́рно-истори́ческая о́бщность) — археологическая культура эпохи позднего медного века — раннего бронзового века (3600—2300 до н. э.). Занимала территорию от Южного Приуралья на востоке до Днестра на западе, от Предкавказья на юге до Среднего Поволжья на севере.В рамках ранней версии курганной гипотезы Марии Гимбутас ямная культура связывалась с поздними протоиндоевропейцами.

 

Кластер древних жителей по своей устойчивости занимает промежуточное место между кластерами древних северных евразийцев и западных европейских охотников-собирателей.
В этот кластер, иерархически близкий популяциям Кавказа и ближнего Востока, предсказуемо входят предстаители самых классических популяции южной Европы — от греков и болгар, до басков и сардинцев. Как уже стало обычным, сардинцы кластеризуются с образцом тирольского человека Этци и женщины из линейноленточной культуры («LBK380»). В большинстве вариантов (2 из трех опубликованных) к этой подгруппе примыкают представители древнейших неолитических культур на территории современной Венгрии — CO1, H4, H3, NE5, NE7). Жители бронзового века (на графике они ошибочно обозначены как Europe оказались посередине между раннеевропейскими охотникам-собирателями и земледельцами.

Добавление к выборке древних геномов «усть-ишимца» и «костенковца» позволило пролить свет на некоторые особенности эволюции популяций центральной и восточной части Евразии. В кластерном анализе (вардовская кластеризация) по 4 первым компонентам PCA усть-ишимец у меня получился в одном кластере с киргизами и кажется селькупами. По первым двум компонентам в том варианте рейховского набора популяций, где нет андаманцев Onge — он попадает в один кластер с австралийскими аборигенами.
Думаю, что onge все же ближе, да к тому же во всех калькуляторах у усть-ишимца максимум «генома» приходится на сочетание южно-индийских и юго-восточноазиатских компонентов.  А вот «костенковец» оказывается ближе всего к чувашам и саамам. Что характерно — в предыдущих вариантах, в которых я не использовал костенковца, место костенковца часто занимал AG-2 (Afontova Gora).  Также заметна разница между кластерными схемами PC1-2 и PC-1-2-3-4.В первом случае костенковец в одном кластере с индусами, а во-втором с с чувашами и саамами. Характерно, что восточноевразийские палеогеномы Тяньюань и Усть-Ишим входят в один кластер (их положение не сильно меняется), а MA1 нет.

Расширенные карты для палеогеномов

Обновлено 30.11.2014

Этот пост также продолжает один из предыдущих, а именно визуализацию суммы IBD-сегментов (а возможно, это и не IBD — вопрос остается открытым) двух палеоевропейцев и мальчика со стоянки Мальта с современными  выборками. С тех пор в открытом доступе появилось еще несколько обработанных палеогеномов — «усть-ишимец«, «Костенки-14» («человек с Маркиной горы») и два палеогенома хорошего качества из Венгрии.

Результаты собраны мной в онлайн-таблицу, а также отрисованы на расширенных картах. Поскольку усть-ишимец явно тяготел к восточноазиатам, пришлось добавить к сравнению выборки из Южной и Восточной Азии. Ну а после этого логика подсказывала, что неолитических земледельцев Европы неплохо бы сравнить с жителями Ближнего Востока. Таким образом, все карты перерисованы.

Напомню также, что результаты для «мальтинца» и «костенковца» получены при ослабленных настройках фильтра из-за низкого качества прочтения этих двух геномов. Напрямую сравнивать их с пятью другими нельзя. Для отрисовки Loschbour значения умножены на 1,5 в целях повышения контрастности.

«Неолитическая фермерша» )) Stuttgart/LBK

«Неолитический земледелец» NE1:

Усреднение по двум земледельцам дает более ровную картинку:

«Охотник-собиратель» Loschbour:

Разница между «охотником-собирателем» и усреднением по двум земледельцам. Красное — больше сегментов с Loschbour, зеленое — c Stuttgart и NE1

Европеец позднего бронзового века BR2 из Венгрии:

«Усть-ишимец»:

Костенки-14 (ослабленные настройки):

Мальтинец (аналогично):

И наконец, в качестве примера результата нашего современника, моя собственная карта:

 

 

Визуализация уровня гомозиготности и генетического разнообразия у народов Евразии

Обновлено 30.11.2014

После составления при написании предыдущего поста таблицы уровня гомозиготности в выборках Евразии, мне, конечно же, захотелось визуализировать его на карте (дополнив рядом новых выборок) .  Можно считать, что эта карта показывает уровень генетического разнообразия у каждого народа (ведь чем ниже количество гомозиготных снипов, тем разнообразие выше), но с одной оговоркой. Дело в том, что это число сильно зависит от используемого набора снипов. Таким образом, если в наборе много снипов, более часто встречающихся у европейцев, то разнообразие у них автоматически окажется завышенным, а у жителей других частей света — заниженным. А поскольку чипы для генотипирования предназначены в первую очередь для европейцев, такое вполне возможно.

Но все же мне кажется, что этот эффект либо не повлиял на результаты, либо повлиял незначительно. Наиболее разнообразными выборками получились отнюдь не европейские, а жители районов, прилегающих к Красному Морю. Это выглядит вполне объяснимо, поскольку где-то там и находится прародина всех не-африканцев. Другие результаты смотрятся тоже очень логично — по мере удаления от прародины разнообразие постепенно терялось.

Update от 21.01.2015. Для оценки эффекта можно сравнить с подсчетами из работы Fu et al:

FuHomosyg

Как можно увидеть, результаты по неафриканским популяциям хорошо коррелируют с моими. Однако по африканским выборкам результат прямо противоположный. Очевидно, евразийские снипы у них менее распространены, зато имеются свои собственные. Таким образом, метод (с данным набором снипов) можно использовать для выборок за пределами Черной Африки.

На карте зеленым цветом выделены выборки с наибольшим разнообразием, красным — с наименьшим:

HomosygIBDext

Как я уже писал, наивысшим разнообразие получилось у жителей Египта, Эфиопии, Йемена. Наинизшее из присутствующих на карте — у народов Северо-Восточной Сибири и Южного Китая. Однако у не попавших на карту есть и гораздо более экстремальные значения гомозиготности. Наибольшей она оказалась у южноамериканских индейцев и выборки папуасов. Чуть отстали африканские пигмеи, а вот обычные африканцы (йоруба и кенийские банту) вышли примерно на уровне восточноазиатов. Возможно, их реальное разнообразие еще выше (с учетом эффекта, описанного в первом абзаце).

Видно снижение разнообразия у народов-изолятов — калашей и бедуинов. И наоборот, у народов смешанного происхождения разнообразие выше. Например, на границе Европы и Азии выделяются ногайцы, башкиры, татары, коми-зыряне. В целом в Европе разнообразие плавно снижается с юга на север, за исключением выборок-изолятов — басков и сардинцев. А, допустим, в Индии все наоборот — понижение идет с северо-запада, откуда шли вторжения пришельцев, на юг и восток, к дравидам и австроазиатам.

При подсчете суммы IBD-сегментов уровень гомозиготности в выборке играет заметную роль. Например, «экстремалы» эвенки и эвены всегда разделяют меньше сегментов с европейцами, чем их соседи, но зато больше — с восточноазиатами.

В заключение приведу обновленную таблицу среднего процента гомозиготных снипов по используемым выборкам (и по используемому набору снипов):

Yemenite 65,20%
Egyptian 65,31%
Ethiopian 65,33%
Nogay 65,49%
Moroccan 65,52%
BR2 65,61%
Tatar-Kazan 65,65%
Azerbaijani 65,66%
Tatar-Crimean 65,67%
Kumyk 65,71%
Uttar-Pradesh-HC 65,72%
Bashkir 65,73%
Balkarian 65,78%
Komi 65,88%
Gujarati 65,92%
Tadjik 65,92%
UAE 65,92%
Turkmen 65,95%
Uzbek 66,00%
Uygur 66,00%
Greek_Azov 66,01%
Ashkenazi 66,03%
Ossetian 66,04%
Spanish 66,05%
Burusho 66,05%
Chuvash 66,05%
Croatian 66,05%
Abkhazian 66,09%
Iranian 66,09%
Russian-North-East 66,10%
Lezgin 66,10%
German 66,10%
Armenian 66,13%
Bulgarian 66,13%
Russian-South 66,14%
Italian-South 66,15%
Romanian 66,16%
Ukrainian-West-and-Center 66,16%
Sicilian 66,16%
Russian-North-Kargopol 66,17%
Greek 66,17%
Cypriot 66,18%
Swedish 66,19%
Palestinian 66,19%
Chechen 66,20%
Belarusian 66,20%
Hungarian 66,23%
Hazara 66,23%
Moksha 66,23%
Erzya 66,24%
Udmurt 66,25%
Georgian 66,26%
Ukrainian-East-and-Center 66,26%
Sephard 66,27%
Italian 66,29%
Ust-Ishim 66,29%
Kazah 66,29%
Tatar_Lithuanian 66,30%
Kurd 66,32%
Jordanian 66,33%
Turkish 66,33%
Mari 66,33%
Polish 66,34%
Adygei 66,35%
Norwegian 66,35%
Russian-West 66,36%
French 66,36%
Estonian 66,42%
Balt 66,45%
Karelian 66,45%
Kol 66,47%
NE1 66,49%
Veps 66,50%
British 66,51%
Finnish 66,51%
Tunisian 66,52%
Uttar-Pradesh 66,53%
Mansi 66,60%
Sindhi 66,61%
Brahui 66,68%
Kanjar 66,71%
Pathan 66,75%
Syrian 66,78%
Kirgiz 66,79%
Saud 66,91%
Makrani 67,02%
Basque 67,02%
Druze 67,08%
LBK 67,08%
Sardinian 67,08%
Andhra-Pradesh 67,09%
Bedouin 67,27%
Karnataka 67,33%
Hakas 67,33%
Altaian 67,33%
Balochi 67,36%
Saami 67,55%
Mongol 67,56%
Kalash 67,59%
Shor 67,63%
Munda 67,75%
Kerala 67,88%
Burmese 67,97%
BantuKenia 68,08%
Tuvinian 68,08%
Dolgan 68,24%
Tamil-Nadu 68,27%
Buryat 68,48%
Selkup 68,49%
Ket 68,54%
Xibo 68,54%
Cambodian 68,61%
Mongola 68,63%
Tu 68,65%
Yoruba 68,68%
Yakut 69,01%
Daur 69,11%
Han-North 69,14%
Nivh 69,25%
Naxi 69,31%
Evenk 69,32%
Hezhen 69,34%
Oroqen 69,39%
Yi 69,40%
Han 69,48%
Dai 69,62%
Japanese 69,67%
Miao 69,73%
Tujia 69,80%
She 69,88%
Naga 70,06%
Lahu 70,14%
Nganassan 70,37%
Even 70,64%
BiakaPygmy 70,69%
Maya 71,08%
MbutiPygmy 72,80%
Melanesian 73,03%
Loschbour 73,79%
Papuan 75,67%
Karitiana 76,17%
Kostenki-14 85,96%
Motala12 90,19%
Malta 94,41%