О «ближневосточном компоненте» палеолитических охотников-собирателей Европы

Сергей Козлов

О «ближневосточном компоненте» палеолитических охотников-собирателей Европы

Описание
Рассмотрена статья Qiaomei Fu et al. «The genetic history of Ice Age Europe». Проведен анализ европейских палеогеномов возрастом от 37 до 8 тысяч лет из данной статьи и более ранних работ. Аутосомный компонент западных охотников-собирателей (WHG) — преимущественно результат генетического дрейфа, гипотеза авторов о его формировании в результате однократной миграции в Европу около 14 тысяч лет назад носителей ближневосточных аутосомных компонентов несостоятельна. Вместе с тем, обмен генофондом с ближневосточными популяциями несомненно происходил, однако для прояснения его истории необходимы палеогеномы с Ближнего Востока. Подтверждаются выводы из более старых работ о наличии ближневосточного («базального») компонента у образца Костенки-14 (человек с Маркиной Горы), отрицаемые в рассматриваемой статье. Вероятно, он связан с компонентом охотников-собирателей Кавказа (CHG). Опровергается вывод авторов о восточноазиатском влиянии на поздних WHG. Проведено моделирование ряда возможных событий смешения и построено дерево вероятных взаимосвязей аутосомных компонентов с размещением на нем имеющихся палеогеномов.

Обсуждение работы Qiaomei Fu et al на форуме «Молекулярная генеалогия».

Новые палеогеномы из статьи
В рассматриваемой статье впервые произведен временной срез геномов жителей Европы верхнего палеолита. Конечно, единичные геномы у нас были и раньше (Костенки-14, Oase1), однако не хватало системности для построения целостной картины изменений в генофонде европейцев на протяжении этого периода. Статья частично решает эту проблему — прочтено несколько десятков новых геномов. К сожалению, остался неохваченным период 19-28 тысяч лет назад (а с учетом лишь геномов приемлемого качества — 19-30 тлн), но и имеющиеся образцы позволяют сделать ряд интересных выводов.

Коротко о содержании рассматриваемой работы, критика
Авторы подтверждают выводы из более ранних работ об угасании вклада неандертальцев в генофонд современных европейцев с ходом времени (предположительно, на неандертальские участки ДНК действовал отрицательный отбор). Далее они касаются нескольких интересных мелочей (присутствие Y-гаплогруппы R1b в палеолитической Европе — образец Villabruna возрастом 14 тысяч лет, появление «мутации светлоглазости» почти одновременно в Европе и на Кавказе (разумеется, это не отменяет вероятности нахождения более древних образцов с этой мутацией впоследствии) и необычные для региона в наши дни митогаплогруппы). После этого авторы переходят к объединению образцов в кластеры и попытке реконструкции их взаимоотношений. По сути, здесь все просто — европейские палеогеномы из одной эпохи объединяются в один кластер. Классические европейские WHG выступают под псевдонимом «кластер Villabruna», их непосредственные предшественники — el Miron, и ряд геномов возрастом 30 тысяч лет (из них лишь один заслуживающего рассмотрения качества) — кластер Vestonice. Чуть более старые GoyetQ116-1 и костенковец не вошли ни в один кластер. Далее делается очень странный вывод, что с появлением кластера Villabruna (в дальнейшем я буду называть их «WHG» согласно общепринятой терминологии), произошло резкое изменение генофонда в результате вливания компонента, связанного с современными ближневосточными популяциями. Формально приводится и альтернативное объяснение — результат нормальной изменчивости среди охотников-собирателей, и группы с меньшей общностью с Ближним Востоком были замещены группами, изначально имевшими большую общность. Однако в abstract статьи попал лишь первый вариант.

Мое объяснение
Даже из диаграммы, которая должна иллюстрировать точку зрения авторов, следует прямо противоположный ей вывод — изменения, относимые к появлению классических WHG, начались задолго до этого и происходили постепенно. «Ближневосточное влияние» (зеленые ромбики) появляется в заметных масштабах уже в предшествующем кластере el Miron, на пять тысячелетий ранее. Но перед этим кластером находится разрыв в девять тысячелетий, где, вполне возможно, мы тоже могли бы увидеть это влияние. Однако на картинке разрыв закрыт и создается впечатление резкого перехода.
Исходное изображение:

ИсходнаяСхема
Отмасштабированная пропорционально реальной временной шкале картинка:
Безымянный-3
Как я покажу в дальнейшем, общность палеообразцов с классическими WHG и современными северными европейцами (которые являются преимущественно потомками WHG) с ходом времени росла постоянно — от костенковца и GoyetQ116-1 к el Miron, Villabruna и Loschbour. По моим предположениям, основной механизм здесь — дрейф генов. Не надо думать, что это был некий целенаправленный процесс — наоборот, дрейф генов во многом случаен (хотя и отбор наверняка сыграл свою роль), но именно то, что получилось в его результате, и стало европейскими охотниками-собирателями мезолита. Поэтому естественно, что чем ближе к нашему времени, тем выше сходство с итоговым результатом процесса.
Вместе с тем, с ходом времени мы наблюдаем и относительное повышение общности с ближневосточными популяциями, хотя и в заметно меньшем масштабе. Однако трудно сказать, кто, когда, сколько раз и на кого влиял. Допустим в качестве модели, что несущие компонент WHG группы повлияли на ближневосточников в относительно недавнем прошлом. Тогда повышение сходства палеогеномов с WHG автоматически будет немного повышать сходство и с ближневосточниками пропорционально доле WHG в их генофонде, даже если в ту эпоху на Ближнем Востоке о WHG и не слыхали. С другой стороны, небольшие равномерные вливания с Ближнего Востока в Европу могли дать такой же эффект. Или же третья группа, вроде CHG, могла повлиять как на WHG, так и на ближневосточников (необязательно одновременно). Словом, точку здесь поставит лишь хорошая выборка палеогеномов с Ближнего Востока -сравнение с современными популяциями всегда оставит место гаданиям.
Что касается восточноазиатского влияния на часть WHG (внимательные читатели критикуемой работы могли заметить, что оно «проявляется» и у одного из древнейших образцов — GoyetQ116-1), то оно объясняется ошибочностью принятия основой для сравнения образца Kostenki-14. Далее я еще коснусь этого.

Использованные для анализа методы и палеообразцы, причины их выбора
В этой заметке я не стал применять свой излюбленный метод — подсчет сумм общих (IBD) сегментов. Хотя качество некоторых образцов вполне позволяет его применить, трудно понять, как при этом надежно сравнить между собой образцы из эпох, разделенных десятками тысячелетий? Ведь сегменты со временем уменьшаются в размерах, при этом скорость процесса сильно зависит от популяционной истории — в одной выборке быстрее, в другой медленнее… Добавим к этому резко различающееся качество прочтения палеогеномов, и за корректность сравнения поручиться становится совершенно невозможно.
Поэтому я решил пойти путем подсчета доли общих снипов (IBS), как простого и объективного показателя. Чем больше значений снипов совпадает, тем выше генетическая близость. Я не согласен с мнением, что учитывать надо лишь производные (derived) аллели — ведь если оба варианта закрепились в популяции, то для дрейфа генов уже безразлично, какой из них предковый. Для того, чтобы поставить геномы разного качества в одинаковые условия, я случайным образом выбрал для каждого аллеля одно из прочтений и оставил лишь его, то есть создал искусственную гаплоидность, как часто делается с палеогеномами от лаборатории Райха. Обычно я ругаю этот подход, как разрушающий IBD-сегменты, но в данном случае он приносит пользу. Далее я ограничил набор снипов пересечением трех множеств — снипы, используемые мной для сравнения с современными выборками и снипы, прочитанные у образцов Villabruna и GoyetQ116-1. Более логично было бы выбрать в качестве базового образца WHG прочитанный наиболее качественно из всех Loschbour, однако носитель R1b Villabruna в любом случае будет вызывать интерес общественности и подозрения в отличиях от других WHG, поэтому решение было принято в его пользу. Что касается GoyetQ116-1, то из всех древних образцов он наиболее связан с «промежуточным» между палеолитическими европейцами и WHG el-Miron, за что и был выбран в качестве второй опоры. Итоговый набор составил около 107 тысяч снипов. Для сравнения Villabruna и Goyet с el Miron было проведено отдельное уменьшение набора до присутсвующих у всех троих 65 тысячи снипов.
Среди остальных использованных палеообразцов хорошо прочитанные Loschbour, Ust-Ishim, Kostenki, NE1, Kotias отмасштабировались практически без потерь в количестве снипов, Mota1 и Motala12 — с незначительными потерями. Несколько хуже отмасштабировались Vestonice16, «карел» c Оленьего острова I0061, «мальтинец» и один из наиболее ранних геномов неолитчических земледельцев Анатолии I0707, но они также были включены в сравнение, поскольку представляют явный интерес. Судя по сравнению результатов I0707 и его близкого аналога из Европы NE1, подсчеты сохранили корректность.

Таблица результатов и ее применение
Результаты сравнения сведены в таблицу, с которой желающие могут ознакомиться по ссылке. Кроме современных выборок, приведены и выборки из имеющихся палеогеномов (конец таблицы), хотя их качество очень разное. Впрочем, интересующие нас в первую очередь западные охотники-собиратели WHG и ранние неолитические земледельцы Анатолии AEF представлены вполне неплохо, хотя по Анатолии пока, к сожалению, охвачена лишь крайняя западная часть. Наиболее древние европейцы — Kostenki14, GoyetQ116-1, Vestonice16 объединены в выборку pre-WHG. Число в каждой ячейке — доля совпадающих аллелей для текущего образца с этой выборкой — допустим, 65 означает 65% общих снипов (на данном наборе снипов — число сильно зависит от набора).
Несмотря на все ухищрения, призванные поставить геномы в равные условия, прямое сравнение результатов оказалось невозможным — у некоторых образцов чуть больше совпадающих снипов со всеми выборками, у некоторых — чуть меньше. Разница невелика, но в этом методе играют роль даже доли процента. Возможно, причина — в разном качестве прочтения, возможно — индивидуальные особенности образцов или что-то еще. Однако решение проблемы существует. Поскольку увеличение или уменьшение доли совпадающих снипов примерно пропорционально для всех выборок, можно взять соотношение этой доли с выборкой, равно удаленной от всех («outgroup»). В качестве подобного ориентира я решил взять объединение всех четырех используемых мной выборок из Африки южнее Сахары — представителей пигмеев мбути и бьяка, кенийских банту, нигерийского племени йоруба. На графике ниже приведена доля общих снипов для каждого из палеогеномов с соответствующей выборкой (Balt, Druze, WHG и т.д.) после приведения доли общих снипов с африканцами к одинаковому с другими образцами значению путем домножения на коэффициент. Для проверки корректности метода на график помещены другие outgroups, которые в исследуемый период явно не могли участвовать в обмене генами ни с африканцами, ни с исследуемыми палеообразцами — выборка папуасов. Как интерпретировать их результат, я опишу чуть ниже.
График1
Палеогеномы (kya означает тысяч лет назад):
Ust-Ishim — усть-ишимский человек, наиболее древний приемлемо прочитанный геном человека современного типа.
Kostenki-14, GoyetQ116-1, Vestonice16 — древние геномы из Европы
el-Miron — предшественники WHG
Villabruna, Loschbour — WHG
Motala12 — охотник-собиратель из Швеции, представитель группы SHG (охотники-собиратели Скандинавии)
Karelian — образец с Оленьего Острова, так называемый EHG (восточный охотник-собиратель). Malta — древний «сибиряк» со стоянки Мальта, образец аутосомного компонента ANE — предковые северные евразийцы
EHG находятся в промежутке между WHG и ANE и, вероятно, являются их смесью.
I0707 — ранний неолитический земледелец с запада Анатолии
NE1 — ранний неолитический земледелец с территории Венгрии
Kotias — мезолитический охотник-собиратель с Кавказа

Ради интереса я также поместил на график результаты современного восточноевропейца с предками из трех восточнославянских народов (Modern EE).

Левая часть графика иллюстрирует изменения в генофонде европейцев с течением времени (усть-ишимский человек добавлен для сравнения, хотя он и не из Европы), правая — другие представляющие интерес геномы.
При сравнениях палеогеномов с палеовыборками сравнение «сам с собой» пропускалось.

Интерпретация сравнения с выборкой папуасов
Как мы видим, соотношение «родство с папуасами»/»родство с африканцами» для палеоевропейцев представляет собой почти горизонтальную линию. Это значит, что с какой скоростью европейцы «отдрейфовывали» от папуасов, примерно с такой же они отдалялись и от суб-сахарцев. Выглядит логично. Усть-ишимец выше всех, и это тоже логично — ведь он находится наиболее близко во времени к моменту расхождения папусов, восточноазиатов и WHG/ANE — значит, он и должен иметь относительно больше общего с папуасами. С другой стороны, для образца Kotias, имеющего много «базального» компонента, логично иметь заметно более низкое значение этого соотношения — момент расхождения «базальников» и предков остальных не-африканцев (включая папуасов) был очень давно. Ранние земледельцы, как смесь «базальников» и WHG, закономерно находятся в промежутке между WHG и Kotias. Даже неравномерности в графике охотников-собирателей находят свое объяснение — как я покажу позже, у костенковца вероятно небольшое влияние «базальников», и он проваливается на графике. Также я предполагаю небольшое базальное влияние у WHG и el Miron — соответственно, они находятся чуть ниже Goyet, мальтинца и оленеостровца. Итак, контрольная проверка показала применимость метода.

Важная ремарка — когда я в дальнейшем буду писать о росте доли общих снипов (график с течением времени идет вверх), надо понимать, что этот рост относительный. Есть некий базовый «уровень разбегания» — это скорость, с которой мы с каждым поколением отдаляемся от африканцев и папуасов из-за дрейфа генов и других факторов. Если в относительных значениях общность с друзами растет, это не значит, что она точно растет в абсолютных значениях — возможно, она тоже падает, но из-за обмена генами с нами падает медленнее, чем могла бы. А может, с друзами общность медленно растет, но с отстающими от них йеменцами медленно падает. Все зависит от соотношения скорости дрейфа генов, который нас растаскивает, и скорости обмена генами, который объединяет. В данном случае нас интересует, что удается увидеть наличие факта этого обмена.

Интерпретация графика
В первую очередь бросается в глаза пунктирная красная линия вверху — доля общих снипов с выборкой WHG. Как легко заметить, рост был почти непрерывен в течение всего времени, лишь, немного споткнувшись на образце Vestonice (возможно, поэтому в статье отнесли этот кластер к «тупиковой ветви». Впрочем, на сравнении с балтской выборкой такого не происходит, а современные выборки все же качеством на порядок выше — значит, доверия им больше). Ниже сплошной красной линией приведено сравнение с наиболее близкой к WHG выборкой наших современников — жителями восточного побережья Балтики (выборка Balt состоит из 11 литовских образцов, 6 латышских, 2 из Латгалии и одного с российско-латышской границы). Здесь картина аналогична — каждый следующий во времени образец ближе к балтам, чем предыдущий, включая даже Vestonice16. Очевидно, что объяснить это монотонное приближение единоразовой миграцией невозможно, а вот процессы генетического дрейфа укладываются в модель замечательно. Зеленые линии — аналогичная пара для неолитических земледельцев (пунктир) и считающихся (по результатам аутосомного анализа) наряду с армянами их наиболее сохранившимися представителями на Ближнем Востоке друзами Палестины. Здесь мы тоже видим рост, но более медленный по сравнению с ростом сходства с WHG. Если учесть, что порядка четверти генофонда AEF считается полученным от WHG, то примерно половину роста необходимо отнести на этот фактор. Оставшаяся половина и будет искомым обменом генами между «базальниками» и WHG. Для моделирования «базальников» зачастую применяют выборку из Йемена, как наиболее отдаленную от европейцев среди ближневосточников. Неизвестно, насколько это моделирование корректно, однако я включил их в сравнение (голубая линия). Родство с ними также растет, хотя и медленнее, чем с AEF или друзами. Однако, начав заметно ниже папуасов, ближе к нашему времени йеменцы успешно обгоняют их и становятся более близкими к WHG. Ведь обмен генами с йеменцами гораздо менее затруднен географически, чем с папуасами.

Несколько слов о правой половине графика
Представитель сестринской к WHG клады — ANE, мальтинец (24 тлн), обладает относительным сродством с WHG примерно на уровне европейских образцов 30-37 тысяч лет назад. Можно предположить, что момент расхождения был не слишком задолго до этого времени. При этом сродство с «балтской» выборкой относительно выше — поскольку в Восточной Европе присутствует не только WHG, но и доля ANE. У «карела» EHG связь с WHG закономерно выше (поскольку он и сам частично WHG), соответственно выросла и связь с ближневосточниками. То же самое, но в еще большей степени можно сказать про образец из Швеции Motala12 (скандинавские охотники-собиратели — SHG считаются WHG с примесью ANE). На паре AEF/NE1 можно пронаблюдать, как при продвижении в Европу у неолитчиков вырос вклад WHG, зато упал «ближневосточный» компонент. У «палеокавказца» Kotias по сравнению с ними резко падает связь с восточноевропейцами, и менее резко, но тоже падает — с ближневосточниками.

Определенный интерес представляет и сравнение с некоторыми другими современными выборками. Я не стал помещать их на основной график, чтобы избежать его перегруженности, но размещаю более полный вариант ниже.
График2
Сардинцы добавлены, как наиболее яркие современные представители неолитических земледельцев, удмурты — как связанные с EHG, корнцы — с более западным вариантом WHG, калаши — за «калашский» кластер, кеты и южноамериканские индейцы каритиана — за связь с ANE.

Карты для палеогеномов

Теперь перейдем к рассмотрению каждого из палеогеномов отдельно. Для начала несколько слов об усть-ишимце. Хотя он и наиболее близок к общему корню, но все же, судя по всему, в его времена расхождение неафриканского человечества на основные ветви уже состоялось. Ближайшими к усть-ишимцу выборками оказались меланезийцы и папуасы, далее идут жители юго-восточной Азии, тамилы и восточноазиаты.

Каждая карта нормируется отдельно — ярко-красным выделяется наиболее хорошо связанная с этим геномом выборка из представленных, ярко-зеленым — наименее связанная. Не представленные на карте выборки (четыре африканские, две америндские, папуасы и меланезийцы) в нормировании не участвуют, по сравнению с африканцами все неафриканцы были бы просто разными оттенками красного. Карты в этой статье построены согласно доле общих снипов (IBS), по тем же таблицам, что и предыдущий график. Это не IBD-анализ. В более хорошем качестве карты можно загрузить отсюда
UstIshim.png
Хотя европейцы и среднеазиаты чуть ближе к усть-ишимцу, чем североафриканцы и ближневосточники, разница сравнительно невелика. Частично удаление европейцев от усть-ишимца следует отнести на влияние «базальников», но думаю, WHG и сами по себе успели хорошо удалиться от восточной ветви человечества. Поэтому на роль представителя общей для всех базы усть-ишимец не годится.

GoyetQ116-1
По причинам, описанным мной в разделе «Использованные для анализа методы и палеообразцы», из наиболее древних европейских геномов на роль «базового» был выбран GoyetQ116-1. И, как показывает карта, уже 35 тысячелетий назад европейские аутосомы начали приобретать свои основные черты. На первом месте по схожести — уже упоминавшаяся выборка «Balt», она будет попадаться нам вновь и вновь. Родство с остальными европейцами выражено вполне отчетливо. Однако интересно обратить внимание на другие регионы. Во-первых, родство с североафриканскими и ближневосточными популяциями находится на том же уровне, что и родство с восточноазиатами. Видимо, мы поймали тот момент, когда протоевропейцы были равноудалены от этих двух стволов. В дальнейшем родство с восточноазиатами будет ослабевать, а с ближневосточниками — усиливаться. Как говорится, «география-это судьба».

GoyetQ116-1.png
Еще раз повторюсь, что речь идет о современных ближневосточниках. Насколько они репрезентативны по сравнению с населением региона 10, 20, 50 тысяч лет назад — совершенно непонятно.
Очень интересно «вторичное пятно» в Индии. Вероятно, оно было бы соединено яркой полосой с европейским ареалом, если бы не размывшие ее миграции «базальников» с юго-запада и восточноазиатов с северо-востока. При этом в юго-восточной Индии и Бирме ареал связи с прото-WHG перекрывается с ареалом хорошей связанности с усть-ишимцев. Не отсюда ли когда-то разошлись две наших ветки? Я не являюсь специалистом по Y-гаплогруппам, но кажется, с максимумом разнообразия макрогаплогруппы K, включающей в себя в качестве ветвей такие известные гаплогруппы, как N, O, R, Q, это соотносится хорошо (в таком случае, «базальников» можно связать с IJ). Разумеется, сюда также относится оговорка о возможной несхожести современного и древнего населения.

Vestonice16
Картина для Vestonice16 довольно схожа с картой GoyetQ116-1.

Vestonice16.pngПри сравнении видно, что связь с восточной (и в первую очередь Юго-Восточной) Азией несколько ослабла, а связь с западными выборками (как европейскими, так и ближневосточными) слегка усилилась. Однако разница невелика и из-за этого сравнительная карта выглядит некрасиво. Чтобы избежать загромождения излишними иллюстрациями, ее не привожу.

Kostenki14
Как и Вестонице, костенковец весьма схож с GoyetQ116-1. В данном случае мне хочется привести именно карту разницы со вторым палеогеномом, чтобы продемонстрировать его «южный» компонент. Зеленое — больше общего с костенковцем, красное — с Goyet.
GoyetQ116-1VsKostenki14Merged.png
Из-за схожести двух геномов карта очень зашумлена, однако противоположности проявляются хорошо. Ярко-зеленое прекрасно совпадает с областью распространения компонента кавказских охотников-собирателей CHG (ниже будет приведена карта и для них). Видны его максимумы на Кавказе и у калашей, на Балканах, и даже (хотя это может быть погрешностью) замечавшееся при анализе «ямных» геномов пятно в северо-западной Европе. Красное же в юго-восточной Азии — район максимальной «небазальности». Оттенки бурого и близкие к ним разглядывать нет смысла, также, как и отдельные «выбросы».
Как будет показано далее, костенковец наиболее успешно моделируется, как смесь 86% GoyetQ116-1 и 14% Kotias. Строго говоря, мы не можем утверждать, что GoyetQ116-1 представляет чистых прото-WHG, а костенковец является смесью с южанами. Не исключено, что «южный» компонент присутствует и у GoyetQ116-1, просто его меньше. В конце концов, смешение могло произойти еще по пути в Европу.

el Miron
Закончив с наиболее древними геномами, мы можем перейти к рассмотрению динамики европейского генофонда во времени (впрочем, до момента прибытия неолитических земледельцев она довольно однообразна). Поэтому ближайшие карты будут только сравнительными. Итак, красное — выборки, сходство с которыми у образца el Miron (19 тлн) усилилось по сравнению с образцом GoyetQ116-1 (35 тлн). зеленое — выборки, сходство с которыми ослабло. Бурое — возможно, слегка усилилось, возможно, ослабло, но не так сильно, как с зеленым. Об этом я написал в разделе «важная ремарка» после графика.

elMironVsGoyetQ116-1.png

Villabruna

VillabrunaVsElMiron.pngКак видите, прибытие Villabruna никакого переворота не произвело. Как и раньше, с ходом времени сходство с циркумбалтийцами усиливалось, с восточноазиатами — ослабевало, с ближневосточниками — то ли слегка усиливалось, то ли медленно ослабевало, но медленнее, чем с восточноазиатами.

Loschbour
Этот образец настолько схож с предыдущим (см график), что разностная карта показывает один шум. Поэтому я приведу конечный итог — вот к чему пришли WHG спустя 29 тысячелетий:
LoschbourVsGoyetQ116-1.png
А также сравнение — где произошли наибольшие изменения
Сравнение Loschbour и GoyetQ116-1

LoschbourVsGoyetQ116-1.png
Дальше всего «убежали» от протоевропейцев жители юго-восточной Азии, далее идут Индия, Восточная Сибирь и Северная Африка. За пределами основного региона меньше всего «скорость убегания» на Северном Кавказе, у ираноязычных памирцев, греков-киприотов и кетов (везде можно предположить контакты с носителями WHG).

Теперь перейдем к Кавказу и Анатолии. Уже упоминавшийся в пояснениях к карте для костенковца кавказский охотник-собиратель Kotias:

Kotias.png

Интересно попытаться расщепить этот компонент на составляющие. В значительной части он несомненно связан общим корнем с прото-WHG (хорошо выделяются оба значимых для этого компонента региона — Европа и Индия). Попробуем вычленить не-WHG часть путем сравнения с GoyetQ116-1.

KotiasVsGoyetQ116-1.png

В первую очередь закономерно выделяются зоны наибольшего распространения CHG — Кавказ и Афганистан (калаши)/Пакистан/Иран. Однако кроме этого, проявляется и связь с Ближним Востоком, Анатолией, Балканами — регионами распространения ранненеолитических земледельцев. Таким образом, можно предположить, что у CHG имеется связь с ближневосточным аутосомным компонентом (знаменитые «базальники»), который впоследствии стал основой генофонда неолитических земледельцев и через них повлиял на современных европейцев. Потому-то Европа и выглядит на этой карте в целом нейтрально — на юго-востоке персиливает влияние «базальников», на северо-востоке — WHG. И наоборот, Восточная Азия, куда базальники не добрались, оказалась ярко-зеленой — это говорит о том, что время их расхождения с восточноазиатами древнее, чем время расхождения восточноазиатов и WHG.

Тот же самый эффект, но с противоположной стороны мы можем наблюдать, сравнив Kotias и геном ранненеолитического земледельца из Анатолии:KotiasVsAEF.png

Поскольку теперь Kotias менее «базальный», на этот раз Восточная Азия оказалась красной. Хотя наиболее выражен «не-базальный» компонент Kotias в Индии. Поэтому я считаю, что компонент CHG следует считать смешанным между «ближневосточным» (предковым к AEF) и «индийским» (предковым к WHG) компонентом.

Раз уж я неоднократно упомянул AEF, приведу карту и для представителя этой выборки I0707.

AEF.png

Среди наших современников наиболее схожими с ним являются жители острова Сардиния, находящемся в западной части Средиземного Моря. Можно сказать, что компонент ранних земледельцев сохранился там, словно в заповеднике. В целом он лучше представлен в южной Европе, чем на Ближнем Востоке. Хотя не стоит забывать — для анализа у нас есть лишь палеогеномы с крайнего запада Анатолии, на границе с Европой. Вполне возможно, что ближневосточные геномы оказались бы ближе к современным выборкам с Ближнего Востока. Пока же мы можем сказать, что в регионе наиболее схожими с имеющимися образцами неолитчиков оказались армяне, друзы и греки-киприоты.

Наконец, последними я хочу привести две карты для образца возрастом в 24 тысячелетия со стоянки Мальта в Прибайкалье. На основе его анализа в свое время было выдвинуто предположении о существовании «популяции-призрака» — ANE, предковых северных евразийцев, которые повлияли на многих соседей, в том числе на американских индейцев, но сами к нашему времени исчезли. ANE считаются родственной к WHG веткой и не несут восточноазиатского или ближневосточного влияния. В схожести картин можно легко убедиться:

MaltaIBDext.png

Если WHG это западный вариант, то у ANE основная тяжесть приходится на выборки из Западной Сибири (кеты), Урала (манси) и недавных мигрантов из этого же региона (саами). Очевидно, в прошлом ареал ANE простирался заметно восточнее, но к нашим дням они оказались вытеснены мигрантами с юга, из Восточной Азии. Интересно сравнить, каковы же основные отличия ANE от прото-WHG:

MaltaVsGoyetQ116-1.png

Пятно в западной Сибири вполне ожидаемо. Меня более заинтересовало пятно вокруг выборки калашей в средней Азии. Если вспомнить о связи этого же региона с кавказскими охотниками-собирателями, то уместно предположить, что здесь мы нащупали корень не-ближневосточной части CHG. При анализе Admixture мальтинец показывал наличие около 30% CHG, поэтому я долго ломал голову, как связать этот факт с явной не-ближневосточностью мальтинца. Теперь все становится на свои места — взаимосвязь идет через «калашский» компонент.
Что касается отличий прото-WHG от ANE, то они чуть ближе к восточноазиатам (может, их точка отделения чуть юго-восточнее, чем у ANE?), и ближе к «базальникам», что вновь заставляет меня думать о «базальном» влиянии уже у GoyetQ116-1. В конце концов, если у двух других образцов оно есть, может быть и у этого. Но пока более «чистых» образцов у нас нет, сравнить не с кем. С другой стороны, мальтинский образец на одиннадцать тысячелетий моложе — возможно, за это время он сильнее отдрейфовал от остальных веток.

Численная оценка доли вклада каждого компонента в некоторые из адмиксов.
В процессе работы над сравнительными картами у меня возникла мысль, не попробовать ли сделать численную оценку на основе все тех же таблиц общности IBS с современными выборками. Действительно, если я предполагаю, что не-WHG компонент костенковца очень похож на результаты кавказского охотника-собирателя Kotias, то я могу проверить, насколько близка к костенковцу будет комбинация 1% Kotias + 99% GoyetQ116-1, 2% Kotias + 98% GoyetQ116-1 и так далее, проверив сумму среднеквадратичных отклонений по всем столбцам. Для того, чтобы исключить влияние уже упоминавшегося в начале статьи эффекта, для каждой тройки сравниваемых геномов производилось нормирование. Таким образом, суммы IBS с современными выборками по каждому геному совпадали.

Для проверки модели я решил использовать геном, смешанное происхождение которого достоверно известно. Как мы знаем, по мере продвижения в Европу и с ходом тысячелетий исходный генофонд неолитических земледельцев постепенно размывался благодаря влиянию местных охотников-собирателей. Следовательно, геном семитысячелетней давности земледельца из Венгрии NE1 должен хорошо моделироваться, как смесь земледельца из Анатолии AEF (возраст генома на тысячу лет больше) и WHG. Так и получается — если в роли представителя WHG выступает более ранний геном Villabruna, модель предсказывает соотношение 11% WHG на 89% AEF, для более позднего Loschbour соотношение почти такое же — 10% WHG на 90% AEF. Среднеквадратичное отклонение при этом меньше единицы — в дальнейшем будем считать такое значение признаком того, что смешение моделируется хорошо.
Ряд результатов для заинтересовавших меня вариантов моделирования приведен на изображениях ниже:
Оракул01.png
Кратко прокомментирую. При попытке смоделировать NE1, как смесь WHG и CHG отклонение резко возрастает, что говорит о неудачности такой модели по сравнению с предыдущим вариантом. Родственные WHG охотники-собиратели ANE могут частично служить заменой Villabruna, однако результат хуже. Таким образом, результаты моделирования полностью соответствуют здравому смыслу. Я решил попробовать сделать еще один шаг и ввести в модель искусственный образец «базальника», полученный вычитанием из геномов неолитических земледельцев 15-20 процентов вклада WHG. Конечно, точная доля компонента WHG в геномах неолитчиков нам неизвестна, однако это лучше, чем применять в качестве «базального» образца геном AEF.
Результат костенковца действительно лучше всего моделируется, как смесь 86% прото-WHG и 14% CHG (Kotias), что мы и наблюдали на сравнительной карте. Чуть хуже вариант 94% прото-WHG на 6% базальников. Для другого древнего образца из Европы, Vestonice16, картина противоположная — базальники лучше подходят в качестве второй стороны, чем кавказцы. Интересно, что наиболее старые образцы Y-гаплогруппы I пока что найдены именно у представителей кластера Вестонице — возможно, это не случайное совпадение и вливание «базального» компонента связано с приходом носителей этой гаплогруппы.
«Опорный» прото-WHG GoyetQ116-1 не моделируется, как смесь кого-либо из двух других представителей группы и южан. Однако он может быть относительно неплохо смоделирован, как 88% костенковца и 12% мальтинца. Вероятно, это связано с отсутствием «базального» компонента у образца со стоянки Мальта.

Оракул02.png
Носитель R1b Villabruna может быть смоделирован, как смесь одного из своих предшественников и базальников, однако отклонение при этом слишком велико, чтобы считать моделирование успешным.
CHG Kotias плохо моделируется, как смесь каких-либо двух других образцов. Наиболее удачный вариант — 48% Мальта и 52% базальники (что еще раз говорит о его промежуточном положении между двумя кладами).
«Оленеостровец» EHG наиболее хорошо моделируется, как  смесь 51% SHG (Motala12) и 49% ANE (мальтинец), отклонение великовато.

Оракул03.png
«Скандинав» Motala12 хорошо моделируется, как смесь 72% WHG и 28% EHG
Промежуточный между прото- и классическими WHG образец el Miron оптимально моделируется именно как смесь первых (GoyetQ116-1) и вторых (Villabruna). Однако при этом он оказывается ближе к более древним родственникам, хотя расстояние по времени до них гораздо больше. Возможно, это объясняется ускорением дрейфа в эпоху 19-14 тлн, но мне кажется более правдоподобным другое объяснение — WHG это потомки сестринской к el Miron ветви, поэтому часть дрейфа у них прошла отдельно.

Дерево вероятных взаимосвязей
Попытавшись максимально подробно и непротиворечиво свести вместе как данные, полученные в результате вышеописанных исследований, так и информацию из других работ, я изобразил дерево возможных взаимодействий палеообразцов и аутосомных компонентов. Схема достаточно условна, поэтому размещать на ней датировки далее 40 тысяч лет назад не имеет смысла. Гипотетический общий компонент «мальтинца» и охотников собирателей-кавказа я обозначил «Kalash», но надо понимать, что под этим вовсе не подразумеваются современные калаши — просто неким образом связанная с ними древняя предковая популяция. Серыми стрелками между «базальниками» и CHG, «базальниками» и WHG обозначено, что взаимодействия, по-видимому, были, но обозначить их одиночной линией на схеме тяжело. «Уральский» компонент — это часть генофонда народов Урала и западной Сибири, которую можно отнести к европейской ветви, для получения картины современного состояния необходимо объединить ее с восточноазиатским влиянием.

Дерево08.png

Думаю, что на самом деле все гораздо сложнее и запутаннее, чем изображено здесь )) Будем ждать новых расшифровок древних геномов для дальнейшего развития схемы.

Реклама

Подготовка к анализу новых образцов палеогеномов

Несколькими постами ранее ув. Сергей Козлов подготовил замечательный по своей глубине русскоязычный обозор новой статьи Allentoft et al. 2015 (еще раз выражаю свою благодарность). В этом обзоре были затронуты преимущественно технические вопросы, в то время как в аналогичном разборе на сайте генофонд.ру было пересказано общее содержание статьи:  » Cтатья большого международного коллектива, опубликованная 11 июня в журнале Nature, посвящена исследованию геномов популяций Евразии в бронзовом веке (изучен период от 3000 до 1000 лет до н.э.). Первый автор Мортен Aллентофт (Morten E. Allentoft) и ведущий автор Эске Виллерслев (Eske Willerslev) представляют Центр географической генетики Музея естественной истории Университета Копенгагена, Дания. Эта статья вызвала огромный интерес у специалистов по истории популяций человека — ведь в ней представлен анализ самого большого массива древних геномов из разных археологических культур эпохи бронзы. На основании анализа древних геномов авторы пробуют реконструировать древние миграции и распространение археологических культур во времени и пространстве. В бронзовом веке, начало которого датируют временем 3500-3300 лет до н.э., в производстве орудий и оружия камень все больше уступает место металлу. Это сопровождается   радикальными культурными и социальными изменениями в жизни людей. Они касаются не только хозяйственного уклада – возникает новое понимание имущественных отношений, семьи и личности. Основной вопрос, на который попытались ответить авторы статьи — были ли эти изменения результатом передачи культурных навыков или результатом миграций населения. Иными словами, «была ли это циркуляция людей или идей». Важнейший вопрос — связаны ли эти события с распространением индоевропейских языков, на которых сейчас говорит большая часть человечества.»

Лавина публикаций древних геномов (кроме вышеупомянутых статей Allentoft et al. 2015, Haak et al. 2015, летом опубликовались статьи Pinhasi et al. Optimal Ancient DNA Yields from the Inner Ear Part of the Human Petrous Bone,  и Fu et al.  An early modern human from Romania with a recent Neanderthal ancestor, однако к сожалению, количество снипов в большинстве образцов палеогеномов недостаточно для проведения развернутых анализов вместе с палеогеномами из других статей) заставила меня ускорить подготовку своей сводной выборки референсных образцов популяций (об этом я писал в предыдущих записях).

Я решил отказаться от полного импутирования древних геномов (очевидно бессмысленного занятия, так как у нас нет надежной референсной панели для импутирования выборочно секвенированных палеогеномв), и вместо этого ограничился импутированным (с помощью панели 1000 Genomes) набором снипов в контрольном наборе популяций лаборатории Райха (Affymetrix Human Origins Fully Public Dataset), этот набор использовался в статье Lazaridis et al. 2014.  

Разумеется, ни одна процедура «импутирования генома» (imputation of genome -сложнопереводимый на русский язык термин) не обходится без ошибок. Поэтому перед тем как приступить к самому анализу, я провел проверку качества выборки. На этот раз, я использовал  инструментарий Python — PyGenClean. Этот инструментий существенно облегчает стандартизацию генетических данных и  контроль качества выходных данных платформы генотипирования. Он минимизирует ошибки манипулирования данными, и ускоряет процесс очистки данных от потенциальных ошибок генотипирования,  а также позволяет составлять информативные графики и автоматически оценивать предварительные параметры последующего статистического анализа.

После отсеивания снипов c низким качеством и индивидов с низкой степенью генотипирования, а также снипов с существенным отклонением от равновесия Харди-Вайнберга, я посмотрел оставшиеся образцы на предмет наличия в выборке «оutliers» (так называемых «статистических выбросов»). До процедуры нахождения выбросов график главных компонент выглядел следующим образом:

И после нахождения выбросов (т.е образцов со стандартным отклонением больше 5 сигм)

Первоначально я планировал анализировать древние геномы вместе с геномами современных людей, однако (как видно из нижеприведенных графиков) палеогеномы гораздо в большей степени отклоняются от реперных точек, бессистемно разбиваясь на группы:

 

Поэтому такую очистку данных лучше проводить в два захода, один — для современных образцов, а другой — для палеогеномов. А затем полученные «качественные» выборки соединять в общую контрольную выборку.
В нашем случае, я так и поступил, получив выборку из 2250 этнопопуляционных образцов и 155 000 снипов.

Вот так выглядит взаимное расположение образцов геномов на PCA графике.

 

Caucasian, North-African, Afro-American, AG2, South-European, Alberstedt-LN, Native-American, Siberian, African, East-Asian, Near-Eastern, Atayal-Coriell, Native-Australian, Australian, Australian-ECCAC, East-European, Baalberge-MN, South-Asian, Volga-Ural, West-European, Bell-Beaker-LN, North-Indian, BenzigerodeHeimburg-LN, South-Indian, Ancient-African, American, Oceanian, South-East-Asian, Arctic, Corded-Ware, Near-East, Denisovan, Denmark-Carlstrup, Denmark-Falshoy, Denmark-Marbjerg, Denmark-Sebberskole, Esperstedt-MN, EuropeanIronAge, North-European, Halberstadt-LBA, Central-Asian, Hixton, Href, HungaryGamba-BA, HungaryGamba-CA, HungaryGamba-EN, HungaryGamba-HG, HungaryGamba-IA, Iceman, Karelia-HG, Karsdorf-LN, Kostenki14, LaBrana1, LateDorset, LBK-EN, WHG, MA1, Mezmaiskaya, MiddleDorset, North-Greek, South-Italian, Piramalai-Kallars, Poland-Polwice, Poland-Szczepankowice, Poland-Unetice, Poland-Chociwiel, Samara-HG, Saqqaq, East-Aasian, Spain-EN, Spain-EN-relative-of-I0410, Spain-MN, Starcevo-EN, Stuttgart, Sweden-Abekas, Sweden-Angamollan, Sweden-Visby, SwedenSkoglund-MHG, SwedenSkoglund-MN, SwedenSkoglund-NHG, Thule, Unetice-EBA, Ust-Ishim, Vindija, Yamnaya

Именно эту выборку я положил в основу своего нового тестового калькулятора K13 (о его создании я расскажу позже) — предназначенный для анализа «глубокого» происхождения популяций. Как всегда, модель нового калькулятора основана на базовой модели известного DIYDodecad калькулятора. Впервые я остался более или менее удовлетворен полученными результатами. Думаю, что от этой модели можно плясать дальше. И хотя модельная кластеризация с помощью алгоритма Mclust дает основание полагать, что используемая мной выборка из 2230 геномов наилучшим образом (т.е без неизбежного при больших значениях K вырождения компонентов) описывается моделью из 8 кластеров, я остановился на K=13 т.е 13 кластерах:

  1. Amerindian — модальный компонент американских индейцев

 

 

  • ANE — модальный компонент северных евразийцев, изолирован из общего с WHG кластера — наивысшие значения в древнесибирских образцах MA1, AG2, а также у андроновцев, синаштинцев, представителей ямной культуры, шнуровиков и т.д. Из ныне живущих популяций самый высокий процент у калашей. Практически совпадает с ANE в статье Lazaridis et al. 2014

 

 

  • Arctic — модальный компонент с пиком в популяциях коряков, чукчей, ительменов и эскимосов

 

 

  • ASI — модальный компонент южноиндийских популяций, у современных популяций наивысший процент у онге, идентичен ASI в работе Reich et al. 2009.

 

 

  • Caucas(us)-Gedrosia — идентичен кластеру, открытому в 2011 году Диенеком Понтикосом

 

 

  • EastAsian — модальный компонент жителей восточной Азии

 

 

  • ENF — компонент древних европейских земледельцев неолита, пик в образцах палеогеномов культуры линейно-ленточной керамики. Тождественен аналогичному компоненту в работах популяционных генетиков (Lazaridis et al. 2014, Haak et al. 2015). В современных этнопулах — наивысшие значения у сардинцев, корсиканцев и басков.

 

 

  • NearEast — модальный компонент жителей ближнего Востока

 

 

  • Oceanian — модальный компонент аборигенных жителей Океании, Австронезии, Меланезии и Микронезии — пик у современных папуасов и австралийских аборигенов

 

 

  • Paleo-African — модальный компонент африканских пигмеев и бушменов

 

 

  • Siberian — модальный компонент народностей юго-восточной Сибири

 

 

  • Subsaharian — второй африканских компонент — пик в популяциях мандинка, йоруба и ишан

 

 

  • WHG-UHG — компонент древних европейских мезолитических охотников-собирателей, пик в образцах палеогеномов мезолитических популяций европейских охотников-собирателей. Тождественен аналогичному компоненту в работах популяционных генетиков (Lazaridis et al. 2014, Haak et al. 2015). Из современных популяций — наивысший процент в популяциях эстонцев, литовцев, финнов и др.

 

 

MDS plot - K13 ancestral population

Как я и предполагал, модель калькулятора оказалась особенно хороша в применении к анализу древних геномов. И на самом деле, на нижеприведенном графике PCA (пространстве 2 главных компонент результатов анализа древних геномов в моем бета-калькуляторе K13) видны замечательные вещи. Расположение геномов хорошо вписывается в треугольник, один из углов которого образуют геномы древних «ямников» (из работы Haak et al. 2015), причем геномы «русских»ямники из работы Allentoft at al.2015 чуть-чуть сдвинуты в сторону древних мезолитических геномов древних европейских охотников-собирателей. За ними (в направлении «неолитического» угла) следуют представители шнуровой культуры, еще дальше — геномы представителей геномов унетицкой культуры и т.д. Второй угол треугольника образован неолитическим геномами, причем если более поздние неолитические геномы сдвигаются ближе к представителям линейно-ленточной культуры (англ. Linear Pottery culture, фр. Culture rubanée, нем. Linearbandkeramische Kultur, LBK — наиболее распространенная неолитическая культура Центральной Европы 5500—4500 гг. до н. э.), то более ранние геномы — геном представительницы более ранней фазы этой культуры (Stuttgart-LBK), а также геномы представителей балканских неолитических культур — Старчево и Винча — очень близки к палеогеному из Barcin (культура Чатал-Хююк, cамые ранние найденные культурные слои относятся к 7400 г. до н. э.). Таким образом генетика подтверждает утверждения археологов о близости неолитических культур Балкан и Анатолии. Более того — данные генетики свидетельствуют о том, что во времена т.н «неолитической революции» происходила не только и не столько миграция технологий (как считали некоторые археологи), но и миграция населения (из Анатолии на Балканы). Причем, судя по моему графику PCA, миграция происходила в несколько, хронологически удаленных, этапов, и — скорее всего — из разных мест. Крайную точку в этому угле треугольника я обозначил как «анатолийские земледельцы» (ближайший к этой точки геном — геном «земледельца» из культуры Старчево — взят из работ Haak et al. 2015).

Для людей, интересующихся вопросами происхождения индоевропейцев, разумеется будет более интересна другая сторона треугольника, которая скорее всего отражает градиент увеличения градиента частот так называемого ANE — «компонента древних северных евразийцев».

Образно говоря, вектор градиента начинается в геномах ямников (больше половины генома которых состояла из этого компонента) и затем идет к геномам представителей синташтинской, афанасьевской, андроновской, окуневской и карасукской культур.
Пару слов об этих культурах (положение геномов представителей которых можно посмотреть на графике).
1) Синташтинская культура формировалась из древнеямных и катакомбных племён и местного населения. Синташтинцев связывают с индоиранскими племенами.
2) Андроновская культура также развивается на базе ямной. На западе она доходила до района Урала и Волги, где контактировала со срубной культурой. На востоке андроновская культура распространилась до Минусинской котловины, частично включив в себя территорию ранней афанасьевской культуры. Андроновцев (также как и синаштинцев) относят к индоиранской сообщности.
3) Афанасьевская культура была создана мигрантами из Восточной Европы, в частности, носителями древнеямной культуры, ассимилировавшими местное население. Сменилась карасукской и окуневской культурами.Наследниками афанасьевцев были племена тагарской культуры, дожившей до III в. до н. э., по другой версии, тагарцы были скифами, а потомки афанасьевцев — тохарами, которых именно скифы-тагарцы вытеснили в Синьцзян.Большинство исследователей ассоциируют афанасьевскую культуру с (прото-)тохарами.
4) Окуневская культура — фнтропологический тип населения этой эпохи был смешанного европеоидно-монголоидного происхождения, с преобладанием монголоидного. Как отмечает А. В. Громов, бросается в глаза их морфологическая разнородность — встречаются как чисто монголоидные черепа, так и типично европеоидные, не обнаруживающими никаких следов монголоидной примеси. Проведя обстоятельный анализ антропологических особенностей населения неолита и ранней бронзы, А. А. Громов пришел к выводу, что физический тип окуневцев сложился в результате смешения местного неолитического населения с выходцами из территории Средней Азии и Казахстана (афанасьевцами)
5) Карасукская культура — развилась на основе окуневской культуры под влиянием андроновской культуры.

Интересно, что геном мальчика с южносибирской палеолитической стоянки MA-1 как раз проецируется между центроидами геномов представителей синташтинской, афанасьевской, андроновской, окуневской и карасукской культур. Эти геномы (вернее их центроиды) занимают на графике значительное место. Самый дальний из них — геном алтайца из эпохи железного века (примерно 50 год до нашей эры). Сразу за ним идут все из имеющихся у меня палеогеномов жителей Америков (палеоэскимосы — в том числе и Saqqaq; и «палеоиндейцы» — Clovis, древние жители Перу и палеогеномы Botocudo). Любопытно что последние — геномы Botocudo — хотя и являются самыми современными (1600 год нашей эры), однако в них хорошо заметен «океанский компонент», именно поэтому они смыкаются на графике с палеогеномом австралийского аборигена. В этой связи я вспоминаю оригинальную теорию Тура Хейердала о наличии доисторических контактов между жителями островов Тихого океана и жителями Южной Америки.

Особое место на графики занимают «живые реликты» — онге, один из коренных андаманских народов (адиваси), геномы так называемого «усть-ишимца» (возраст 45000 лет), костенковца (Kostenki-14, возраст 38 700 -36 200 лет), и недавно опубликованный палеогеном Oase из Румынии (возрастом 37000-42000 лет). Они образуют отдельную группу (особенно близки друг к другу румынский палеогеном Oase и усть-ишимец), однако я терясь в догадках о том, что именно означает столь заметная близость этих геномов.

 

 

Eurasian and American paleogenomes

Расширенные карты для палеогеномов

Обновлено 30.11.2014

Этот пост также продолжает один из предыдущих, а именно визуализацию суммы IBD-сегментов (а возможно, это и не IBD — вопрос остается открытым) двух палеоевропейцев и мальчика со стоянки Мальта с современными  выборками. С тех пор в открытом доступе появилось еще несколько обработанных палеогеномов — «усть-ишимец«, «Костенки-14» («человек с Маркиной горы») и два палеогенома хорошего качества из Венгрии.

Результаты собраны мной в онлайн-таблицу, а также отрисованы на расширенных картах. Поскольку усть-ишимец явно тяготел к восточноазиатам, пришлось добавить к сравнению выборки из Южной и Восточной Азии. Ну а после этого логика подсказывала, что неолитических земледельцев Европы неплохо бы сравнить с жителями Ближнего Востока. Таким образом, все карты перерисованы.

Напомню также, что результаты для «мальтинца» и «костенковца» получены при ослабленных настройках фильтра из-за низкого качества прочтения этих двух геномов. Напрямую сравнивать их с пятью другими нельзя. Для отрисовки Loschbour значения умножены на 1,5 в целях повышения контрастности.

«Неолитическая фермерша» )) Stuttgart/LBK

«Неолитический земледелец» NE1:

Усреднение по двум земледельцам дает более ровную картинку:

«Охотник-собиратель» Loschbour:

Разница между «охотником-собирателем» и усреднением по двум земледельцам. Красное — больше сегментов с Loschbour, зеленое — c Stuttgart и NE1

Европеец позднего бронзового века BR2 из Венгрии:

«Усть-ишимец»:

Костенки-14 (ослабленные настройки):

Мальтинец (аналогично):

И наконец, в качестве примера результата нашего современника, моя собственная карта:

 

 

Визуализация уровня гомозиготности и генетического разнообразия у народов Евразии

Обновлено 30.11.2014

После составления при написании предыдущего поста таблицы уровня гомозиготности в выборках Евразии, мне, конечно же, захотелось визуализировать его на карте (дополнив рядом новых выборок) .  Можно считать, что эта карта показывает уровень генетического разнообразия у каждого народа (ведь чем ниже количество гомозиготных снипов, тем разнообразие выше), но с одной оговоркой. Дело в том, что это число сильно зависит от используемого набора снипов. Таким образом, если в наборе много снипов, более часто встречающихся у европейцев, то разнообразие у них автоматически окажется завышенным, а у жителей других частей света — заниженным. А поскольку чипы для генотипирования предназначены в первую очередь для европейцев, такое вполне возможно.

Но все же мне кажется, что этот эффект либо не повлиял на результаты, либо повлиял незначительно. Наиболее разнообразными выборками получились отнюдь не европейские, а жители районов, прилегающих к Красному Морю. Это выглядит вполне объяснимо, поскольку где-то там и находится прародина всех не-африканцев. Другие результаты смотрятся тоже очень логично — по мере удаления от прародины разнообразие постепенно терялось.

Update от 21.01.2015. Для оценки эффекта можно сравнить с подсчетами из работы Fu et al:

FuHomosyg

Как можно увидеть, результаты по неафриканским популяциям хорошо коррелируют с моими. Однако по африканским выборкам результат прямо противоположный. Очевидно, евразийские снипы у них менее распространены, зато имеются свои собственные. Таким образом, метод (с данным набором снипов) можно использовать для выборок за пределами Черной Африки.

На карте зеленым цветом выделены выборки с наибольшим разнообразием, красным — с наименьшим:

HomosygIBDext

Как я уже писал, наивысшим разнообразие получилось у жителей Египта, Эфиопии, Йемена. Наинизшее из присутствующих на карте — у народов Северо-Восточной Сибири и Южного Китая. Однако у не попавших на карту есть и гораздо более экстремальные значения гомозиготности. Наибольшей она оказалась у южноамериканских индейцев и выборки папуасов. Чуть отстали африканские пигмеи, а вот обычные африканцы (йоруба и кенийские банту) вышли примерно на уровне восточноазиатов. Возможно, их реальное разнообразие еще выше (с учетом эффекта, описанного в первом абзаце).

Видно снижение разнообразия у народов-изолятов — калашей и бедуинов. И наоборот, у народов смешанного происхождения разнообразие выше. Например, на границе Европы и Азии выделяются ногайцы, башкиры, татары, коми-зыряне. В целом в Европе разнообразие плавно снижается с юга на север, за исключением выборок-изолятов — басков и сардинцев. А, допустим, в Индии все наоборот — понижение идет с северо-запада, откуда шли вторжения пришельцев, на юг и восток, к дравидам и австроазиатам.

При подсчете суммы IBD-сегментов уровень гомозиготности в выборке играет заметную роль. Например, «экстремалы» эвенки и эвены всегда разделяют меньше сегментов с европейцами, чем их соседи, но зато больше — с восточноазиатами.

В заключение приведу обновленную таблицу среднего процента гомозиготных снипов по используемым выборкам (и по используемому набору снипов):

Yemenite 65,20%
Egyptian 65,31%
Ethiopian 65,33%
Nogay 65,49%
Moroccan 65,52%
BR2 65,61%
Tatar-Kazan 65,65%
Azerbaijani 65,66%
Tatar-Crimean 65,67%
Kumyk 65,71%
Uttar-Pradesh-HC 65,72%
Bashkir 65,73%
Balkarian 65,78%
Komi 65,88%
Gujarati 65,92%
Tadjik 65,92%
UAE 65,92%
Turkmen 65,95%
Uzbek 66,00%
Uygur 66,00%
Greek_Azov 66,01%
Ashkenazi 66,03%
Ossetian 66,04%
Spanish 66,05%
Burusho 66,05%
Chuvash 66,05%
Croatian 66,05%
Abkhazian 66,09%
Iranian 66,09%
Russian-North-East 66,10%
Lezgin 66,10%
German 66,10%
Armenian 66,13%
Bulgarian 66,13%
Russian-South 66,14%
Italian-South 66,15%
Romanian 66,16%
Ukrainian-West-and-Center 66,16%
Sicilian 66,16%
Russian-North-Kargopol 66,17%
Greek 66,17%
Cypriot 66,18%
Swedish 66,19%
Palestinian 66,19%
Chechen 66,20%
Belarusian 66,20%
Hungarian 66,23%
Hazara 66,23%
Moksha 66,23%
Erzya 66,24%
Udmurt 66,25%
Georgian 66,26%
Ukrainian-East-and-Center 66,26%
Sephard 66,27%
Italian 66,29%
Ust-Ishim 66,29%
Kazah 66,29%
Tatar_Lithuanian 66,30%
Kurd 66,32%
Jordanian 66,33%
Turkish 66,33%
Mari 66,33%
Polish 66,34%
Adygei 66,35%
Norwegian 66,35%
Russian-West 66,36%
French 66,36%
Estonian 66,42%
Balt 66,45%
Karelian 66,45%
Kol 66,47%
NE1 66,49%
Veps 66,50%
British 66,51%
Finnish 66,51%
Tunisian 66,52%
Uttar-Pradesh 66,53%
Mansi 66,60%
Sindhi 66,61%
Brahui 66,68%
Kanjar 66,71%
Pathan 66,75%
Syrian 66,78%
Kirgiz 66,79%
Saud 66,91%
Makrani 67,02%
Basque 67,02%
Druze 67,08%
LBK 67,08%
Sardinian 67,08%
Andhra-Pradesh 67,09%
Bedouin 67,27%
Karnataka 67,33%
Hakas 67,33%
Altaian 67,33%
Balochi 67,36%
Saami 67,55%
Mongol 67,56%
Kalash 67,59%
Shor 67,63%
Munda 67,75%
Kerala 67,88%
Burmese 67,97%
BantuKenia 68,08%
Tuvinian 68,08%
Dolgan 68,24%
Tamil-Nadu 68,27%
Buryat 68,48%
Selkup 68,49%
Ket 68,54%
Xibo 68,54%
Cambodian 68,61%
Mongola 68,63%
Tu 68,65%
Yoruba 68,68%
Yakut 69,01%
Daur 69,11%
Han-North 69,14%
Nivh 69,25%
Naxi 69,31%
Evenk 69,32%
Hezhen 69,34%
Oroqen 69,39%
Yi 69,40%
Han 69,48%
Dai 69,62%
Japanese 69,67%
Miao 69,73%
Tujia 69,80%
She 69,88%
Naga 70,06%
Lahu 70,14%
Nganassan 70,37%
Even 70,64%
BiakaPygmy 70,69%
Maya 71,08%
MbutiPygmy 72,80%
Melanesian 73,03%
Loschbour 73,79%
Papuan 75,67%
Karitiana 76,17%
Kostenki-14 85,96%
Motala12 90,19%
Malta 94,41%

Оценка влияния уровня аутосомной гомозиготности при генотипировании на длину и количество ложных IBD-сегментов

В последнее время я пробовал сравнивать файлы геномов, полученные при генотипировании останков древних людей, с современными выборками в поисках  длинных общих IBD (или все же на деле это IBS?)-сегментов. Как выяснилось, результат в первую очередь зависит от качества прочтения древнего генома, особенно от уровня гомозиготности. Большинство древних геномов прочитывают с небольшим уровнем покрытия (1х-2х), и естественно, при этом захватывается лишь один аллель. Например. если реальные значения снипа A и T, при единичном прочтении можно увидеть либо A, либо T — второе значение останется нерасшифрованным. Любой длинный сегмент при этом окажется разорван.

Есть и геномы, прочитанные с высоким качеством. Их уровень гомозиготности близок к получающемуся у наших современников при коммерческом тестировании в FTDNA и 23andMe. Например, к таким относится BR2 из недавней работы Gamba et al. «Genome flux and stasis in a five millennium transect of European prehistory». Сумма общих сегментов у «венгра» бронзового века с европейскими выборками вполне сопоставима с тем, что получается у наших современников. Как уже неоднократно писалось, возраст таких сегментов вполне может насчитывать несколько тысячелетий, поэтому результат не слишком удивляет. Однако общие сегменты с нашими современниками нашлись и у «усть-ишимца» — древнейшего расшифрованного генома человека современного типа возрастом около 44 тысяч лет (согласно радиоуглеродной датировке). Сложно поверить, чтобы IBD-сегменты могли сохраняться так долго. Что послужило этому причиной? Поддержка отбора, ошибки генетической карты (расстояния между многими снипами получены интерполированием, а это может быть неправильно)? А может быть, это вовсе и не IBD-сегменты, а просто случайно возникшие IBS?

(IBD (identical by descent) — участки совпадающих последовательностей снипов, полученные несколькими людьми от одного и того же предка в результате общности происхождения. IBS (identical by state) — тоже участки совпадающих последовательностей снипов, но причины этого совпадения могут быть другими. Формально IBD это частный случай IBS, но часто понятие IBS используют как синоним лже-IBD сегмента)

Если высокий уровень гомозиготности способен разрушать сегменты, не может ли высокий уровень гетерозиготности создавать лже-сегменты? Вообще, насколько протяженными могут быть лже-IBD сегменты, и каково их количество? Понятно, что идеально гетерозиготный генотип (то есть несущий оба аллеля для каждого снипа) будет совпадать на уровне «родитель-ребенок» с любым человеком (в реальной жизни его возникновение невозможно, разве что искусственным путем). Также понятно, что по теории вероятностей между любыми двумя людьми будут возникать микро»сегменты» из случайно совпавших снипов. Насколько протяженными они могут быть?

Для начала я решил попробовать оценить уровень гомозиготности в используемом мной для IBD-карт наборе выборок. Для сравнения туда же добавлено несколько древних геномов (они выделены жирным шрифтом). «Усть-ишимец» пока выложен лишь до 8 хромосомы, это составляет около половины протяженности аутосом по количеству снипов. Используется набор из примерно 255 тысяч снипов, на другом наборе результаты должны отличаться. Показан усредненный по выборке процент снипов от общего числа, где оба аллеля совпадают.

Уровень гомозиготности по выборке:

Nogay 65,49%
BR2 65,61%
Tatar-Kazan 65,65%
Azerbaijani 65,66%
Tatar-Crimean 65,67%
Kumyk 65,71%
Bashkir 65,74%
Balkarian 65,78%
Komi 65,88%
Tadjik 65,92%
Turkmen 65,95%
Uzbek 66,00%
Uygur 66,00%
Greek_Azov 66,01%
Ossetian 66,01%
Ashkenazi 66,03%
Croatian 66,05%
Chuvash 66,08%
Iranian 66,09%
Lezgin 66,10%
German-Austrian 66,13%
Armenian 66,13%
Bulgarian 66,13%
Belarusian 66,13%
Russian-South 66,14%
Abkhazian 66,15%
Turkish 66,15%
Romanian 66,16%
Russian-North 66,17%
Greek 66,17%
Swedish 66,19%
Erzya 66,19%
Chechen 66,20%
Moksha 66,21%
Ukrainian-East-and-Center 66,21%
Georgian 66,22%
Hungarian 66,23%
Udmurt 66,25%
Sephard 66,27%
Italian 66,29%
Kazah 66,29%
Tatar_Lithuanian 66,30%
Ukrainian-West-and-Center 66,31%
Finnish 66,33%
Mari 66,33%
Polish 66,34%
Adygei 66,35%
Norwegian 66,35%
French 66,36%
Russian-West 66,37%
Estonian 66,42%
UstIshim 66,44%
Karelian 66,45%
Balt 66,46%
Veps 66,50%
British 66,51%
Mansi 66,60%
Kirgiz 66,79%
Basque 67,02%
LBK 67,08%
Sardinian 67,08%
Hakas 67,33%
Altaian 67,33%
Saami 67,55%
Mongol 67,56%
Shor 67,63%
Tuvinian 68,08%
Dolgan 68,24%
Buryat 68,48%
Selkup 68,49%
Ket 68,54%
Xibo 68,54%
Mongola 68,63%
Yakut 68,98%
Daur 69,11%
Han-North 69,14%
Nivh 69,25%
Evenk 69,32%
Hezhen 69,34%
Oroqen 69,39%
Nganassan 70,37%
Even 70,62%
Loschbour 73,79%
Motala12 90,19%
Malta-1 94,41%

Выборкой с наибольшим аутосомным разнообразием (наименьшей гомозиготностью)  оказались кубанские ногайцы, что совершенно не удивляет в связи с их смешанным происхождением. Многие другие народы из начала списка также известны своей смешанностью. Любопытно, что близки к началу и ашкенази, хотя я ожидал от них, наоборот, большего однообразия. Видимо, здесь проявляется их происхождение от двух различающихся групп — ближневосточников и европейцев.

Большая часть списка расположилась в промежутке 66-67% , в том числе и усть-ишимец. Несмотря на более свежий вклад неандертальцев и близость к общему корню, по уровню разнообразия он оказался таким же, как и наши современники. Либо здесь сказываются сложности с расшифровкой столь древнего генома, либо аутосомное разнообразие с тех времен поддерживалось на примерно одном уровне — вымывание одних снипов сопровождалось появлением новых.

Самым низким уровень разнообразия оказался у народов Сибири (где мы явно видим результат генного дрейфа) и китайцев (след быстрого расширения?). В Европе хуже всего с разнообразием оказалось у народов-изолятов — басков и сардинцев. Геном охотника-собирателя Loschbour, скорее всего, прочитан со средним качеством — похоже, это и было причиной того, что в предыдущей заметке у него оказалось меньше общих сегментов с нашими современниками, чем у «фермера» LBK, а вовсе не вымирание его народа.

Таким образом, за базовый уровень гомозиготности можно смело принять 66,6%, то есть 2/3 снипов из используемого мной набора у среднего европейца гомозиготны. Попробуем сделать оценку длины и количества лже-сегментов. Очевидно, что на гетерозиготных участках сегмент разорваться не может. Таким образом, вероятность разрыва на отдельно взятом снипе уже падает до 2/32/3=44,36% . (это оценка вероятности, что у обоих сравниваемых геномов выбранный снип гомозиготен. К сожалению, для упрощения модели пришлось использовать предположение, что для каждого снипа вероятность гетерозиготности примерно одинакова, в то время как в реальности это должно быть не так). Далее, если на гомозиготном участке у обоих геномов сравниваемый аллель один и тот же, то разрыва сегмента также не произойдет. Возьмем для простоты вероятность минорного варианта снипа как 1/6 (вероятность гетерозиготности на снипе 1/3, минорным мог быть либо первый, либо второй аллель, значит, делим вероятность пополам. В реальности надо считать сложнее, но для оценки подойдет). К разрыву могут привести два варианта — в первом геноме мажорный вариант снипа, во втором минорный — вероятность 5/61/6=5/36, и наоборот — в первом минорный, во втором мажорный вероятность такая же. Для получения итоговой вероятности разрыва сегмента на один снип мы умножаем 44,36% на (5/36+5/36) и получаем 12,32% вероятность разрыва лже-сегмента на любом случайно выбранном снипе.

Да уж, есть где запутаться ))) Надеюсь, я все же нигде сильно не ошибся и оценка близка к истине ))

Исходя из вероятности разрыва 12,32% на снип, лже-сегмент будет иметь кумулятивную, то есть накопленную вероятность разрыва 50% при прохождении 5-6 снипов (это медиана). Значит, половина лже-сегментов будет короче этого числа, половина-длиннее. Кумулятивная вероятность разрыва растет в 10 раз каждые 17-18 снипов — 90% лже-сегментов будут короче 18 снипов, 99% — короче 37,  99,9%-54 и так далее. Так как медианное значение при нормальном распределении обычно составляет около 0,7 от среднего, средняя длина лже-сегмента оценивается в 7,5 снипов. На 245 тысяч снипов будет приходиться 32 тысячи сегментов, а на 1130 геномов из используемых выборок — в общей сложности около 36 с половиной миллионов.

Из них около трех с половиной тысяч будут иметь длину не менее 72 снипа, около 36 — 107 снипов, а чтобы гарантированно снизить число лже-сегментов до нуля, нужно установить фильтр в районе 130-140 снипов. Что интересно, примерно на те же цифры я вышел экспериментальным путем, пробуя различные настройки. Оптимальным мне показалось отбрасывать все сегменты с длиной менее, чем 150 снипов. Теория неплохо сошлась с практикой.

Итак, лже-УПСы (участки половинного совпадения), возникшие по статистическим причинам, не должны оказывать особого влияния на IBD-сегменты. Подавляющее большинство из них по длине не превышает несколько десятков снипов (лишь примерно каждый тысячный преодолевает рубеж 50-60 снипов). Разумеется, из-за их наличия реально существующие сегменты неизбежно удлиняются, однако принципиально исказить картину это не может. Конечно, такие причины, как поддержка отбором и искажения, вызванные неточностью генетических карт, остаются в силе. Возможны и другие причины — загадка наличия значимых сегментов с палеоДНК продолжает требовать объяснения.

При ослаблении фильтра до 50 снипов, как в случае с мальтинцем, лже-УПСы уже должны стать заметными. Неудивительно, что при нормальных настройках значимых сегментов почти не получалось — уровень гомозиготности оказался весьма велик.

В заключение приведу график зависимости вероятности разрыва лже-сегмента от уровня гомозиготности в популяции при использовании той же формулы. Как уже писалось, идеально гетерозиготный геном не будет иметь разрывов вообще. Но и в идеально гомозиготной выборке разрывов не будет, ведь аллели у всех совпадают! Что же происходит в промежутке между этими двумя крайностями? Как выяснилось, максимальна вероятность разрыва лже-сегмента при уровне гомозиготности около 70%, что близко к реально существующему уровню. При больших значениях длина лже-сегментов начинает быстро расти из-за того, что все слишком похожи между собой, при меньших — из-за того, что на гетерозиготных снипах сегмент порваться не способен. Уровни ниже 0,45 я убрал из-за их явной нереалистичности. Как можно догадаться, там график движется к нулю.

HZ

Сравнение двух древних европейцев и одного сибиряка с выборками из современных народов методом поиска общих аутосомных сегментов

За последние годы был опубликован ряд работ, посвященных попыткам генотипирования останков древних людей — от живших несколько тысячелетий назад до «усть-ишимца» с предположительным возрастом около 45 тысяч лет, неандертальцев и «денисовки». Количество таких расшифровок растет все быстрее, что не может не вызывать оптимизма.  Трудами известного геномного блоггера Феликса Чандракумара большинство из них было переведено в простой и доступный формат, аналогичный файлам raw data от FTDNA и 23andMe.

Ради интереса я попробовал проверить геномы (предположительно, это два «бритта» железного века и три «англа», «сакса» или «юта» времен переселения этих племен в Британию) из одной из таких недавних работ на наличие IBD-сегментов с современными выборками. Ничего особенного от этой попытки я не ожидал, но результат все равно разочаровал. Никаких связей с современными германцами или кельтами, лишь короткие обрывки сегментов с северо-восточными европейцами.

Как выяснилось, большинство из имеющихся сейчас древних геномов совершенно не годится для такого рода анализа. Основная причина — крайне низкое качество генотипирования. Количество снипов и прочтений на один снип невелико, и подавляющее большинство из них гомозиготно (то есть второй аллель не прочитан). А это значит, что практически все IBD-сегменты разрушены и мы можем увидеть лишь самый базовый и древний уровень родства. В терминах этнокалькуляторов на основе Admixture это оказался (в данном случае) «северо-восточноевропейский» предковый компонент, который наиболее ярко проявляется у народов восточной Балтики — с ними и нашлось наибольшее количество обрывков.

Тем не менее, не все так плохо. Можно выделить известную работу Иосифа Лазаридиса с коллегами о трех предковых популяциях современных европейцев. Геномы европейского раннего земледельца культуры линейно-ленточной керамики (образец Stuttgart, или LBK. Около 7500 лет назад) и почти синхронного ему охотника-собирателя, останки которого найдены на территории нынешнего Люксембурга (Loschbour, около 8000 лет назад) прочитаны очень качественно и почти не уступают файлам от 23andMe и FTDNA.

Карта сумм общих сегментов древнего земледельца с современными выборками:

LBKIBD

С заметным отрывом от остальных лидируют жители острова Сардиния, считающиеся сохранившимися в наиболее чистом виде потомками когда-то переселившихся в Европу земледельцев Восточного Средиземноморья. За ними следуют другие южноевропейские популяции (включая ашкенази и сефардов), скандинавы и восточноевропейцы.

Sardinian 61,06 —//Confidence: very high
Italian 50,14 —//Confidence: very high
French 49,56 —//Confidence: very high
Bulgarian 48,9 —//Confidence: high
Hungarian 48,29 —//Confidence: very high
Basque 45,92 —//Confidence: very high
Greek 45,7 —//Confidence: very high
Norwegian 44,95 —//Confidence: high
Ashkenazi 44,04 —//Confidence: high
Sephard 43,52 —//Confidence: high
Croatian 42,23 —//Confidence: very high
Belarusian 42,12 —//Confidence: high
Swedish 41,86 —//Confidence: high
German-Austrian 41,33 —//Confidence: very low
British 41,2 —//Confidence: very high
Russian-South 40,7 —//Confidence: very high
Balt 40,38 —//Confidence: high
Greek_Azov 39,61 —//Confidence: low
Ukrainian-East-and-Center 39,49 —//Confidence: medium
Estonian 39,27 —//Confidence: high

Наличие общих сегментов с этими народами можно объяснять и миграциями потомков земледельцев на север, и ассимиляцией «земледельцами» «охотников» при продвижении вглубь Европы. Думается, для южных европейцев более актуальна первая причина, для восточных вторая, скандинавы где-то посередине.

Все это не новость, хотя мне понравилось подтверждение работоспособности метода. Более интересным мне показался «язык», протянувшийся на восток — через Кавказ и Среднюю Азию до самой Монголии. Забегая вперед, скажу, что у «охотника» Loschbour такого не наблюдается. Чем может объясняться эта связь? Приток генов с Востока к предкам «штутгартца»? Или же наоборот, его родственники, переселившиеся на восток, оставили свой след в геноме монголов? Для проверки я решил использовать один из этнокалькуляторов, разработанных до появления образца LBK в открытом доступе. При разработке более поздних он был использован как европеец и мог исказить картину.

LBK

Как видите, никаких следов Восточной Азии — чистый средиземноморец. Так что совсем не исключено, что на востоке мы здесь видим следы, к примеру, афанасьевцев.

«Охотник» Loschbour не показал такого яркого сходства ни с одной из современных выборок. Можно предположить, что его племя не оставило дожившего до наших дней потомства, или же оставило мало. Тем не менее, очень хорошо видно, кто из наших современников в наибольшей степени родственен древнему охотнику — это восточноевропейцы с максимумом на восточном побережье Балтийского моря

LoschbourIBD

Finnish 41,21 —//Confidence: very low
Estonian 39,63 —//Confidence: high
Balt 37,85 —//Confidence: high
Russian-North 36,25 —//Confidence: very high
Belarusian 35,31 —//Confidence: high
Karelian 35,21 —//Confidence: high
Veps 34,75 —//Confidence: medium
Ukrainian-West-and-Center 34,48 —//Confidence: medium
Polish 33,8 —//Confidence: high
Norwegian 32,34 —//Confidence: high
German-Austrian 31,4 —//Confidence: very low
Russian-South 30,87 —//Confidence: very high
Russian-West 30,73 —//Confidence: medium
Erzya 30,19 —//Confidence: medium
Saami 30,12 —//Confidence: high
Swedish 29,78 —//Confidence: high
Hungarian 28,55 —//Confidence: very high
Ukrainian-East-and-Center 28,54 —//Confidence: medium
Croatian 27,31 —//Confidence: very high
Komi 26,48 —//Confidence: high

Образец Loschbour в том же этнокалькуляторе MDLP K5:

Loschbour

Для визуализации разницы между «охотником» и «земледельцем» я нормировал значения первого путем умножения на 1.5. Красный цвет означает большее родство с Loschbour, зеленый — LBK. Бурый, как у удмуртов, эвенков или китайцев — нейтрален.

LminusLBKIBD

Но что же наш третий источник наследственности европейцев, аутосомный компонент Ancestral North Eurasian, полученный при генотипировании останков мальчика с сибирской палеолитической стоянки Мальта? К сожалению, его геном расшифрован не так хорошо по сравнению с двумя предыдущими. Это и неудивительно — оценочный возраст мальтинца втрое больше, около 24 тысяч лет. К тому же за это время и количество сегментов, дошедших до наших современников, должно заметно упасть. Поэтому поиск общих сегментов со стандартными настройками дал весьма невразумительную картину. Пришлось резко ослабить настройки фильтра — вместо минимального размера сегмента в 15о снипов (из примерно 200 тысяч) до 50, и вместо минимальной длины сегмента в 3 сМ до 2. После этого алгоритм смог кое-что уловить:

MaltaIBD

Итак, наиболее родственным мальтинцу народом среди наших современников получились удмурты. Вспоминается, что этот народ является одним из чемпионов по наличию Y-гаплогруппы N, пришедшей в Европу с востока. Впрочем, дело тут может быть совсем в другом.

Конечно, уровень погрешности здесь еще выше, чем в предыдущих случаях, но тем не менее, картина вырисовывается довольно отчетливо и неплохо коррелирует с распространением компонента ANE.

Сборный образец «древнего скандинава» Motala1-2 не показал столь же отчетливой картины, как Loschbour и LBK. Видимо, дело в том, что он получен в результате объединения данных из разных наиболее качественно прочитанных геномов. При ослаблении настроек фильтра аналогично мальтинцу получается весьма похожая на Loschbour картина, но более размытая. Не думаю, что есть смысл приводить ее здесь.

Итак, среди современных европейцев можно найти родственников представителей всех трех основных источников (по крайней мере, известных сейчас) их современного генофонда. Насколько реально это родство? Сложно сказать. Конечно, тяжело поверить в сохранение IBD-сегментов на протяжении сотен поколений. С другой стороны, как показало моделирование, мелкие сегменты почти неуничтожимы. А ведь для отрисовки карт используются в основном именно маленькие сегменты в диапазоне 3-4-5 сМ. Возможно, многие из них являются результатом случайного объединения еще более мелких сегментов, или они поддерживаются отбором, или случайно закрепились в популяции. Думаю, что мы в любом случае можем считать этих людей своими родственниками, хотя и не очень близкими ))

Исследование генетики татар Поволжья при помощи анализа на IBD-сегменты

Исследование генетики татар Поволжья при помощи анализа на IBD-сегменты

Не секрет, что под этнонимом «татары» в России зачастую скрываются совершенно разные этнические группы. Существуют татары казанские, астраханские, сибирские, крымские и т.д. В данном исследовании нас интересуют татары среднего Поволжья — казанцы и мишари.

Это достаточно многочисленный и активно тестирующийся народ, неплохо представленный в аутосомных базах 23andMe и FTDNA. По мере роста статистики прогонов татарских генотипов через калькулятор Вадима Веренича К27, я начал впадать в некоторое замешательство. В своем большинстве татары получались довольно близкими друг к другу по соотношению предковых компонентов Admixture. Однако одновременно существовали и различия, где было весьма сложно понять — не результат ли это попросту случайных отклонений? Разделение между казанскими татарами и мишарями проявлялось скорее как тенденция к несколько большим значениям «балто-славянских» и «финских» компонентов у вторых, чем как явный сигнал.

Поэтому при появлении у меня нового инструмента — скрипта, анализирующего наличие общих IBD-сегментов с научными выборками, я не замедлил пропустить через него имеющиеся генотипы татар из коммерческих выборок. Сразу же проявились различия, что позволило сделать вывод — несмотря на сходство татар по пропорциям предковых компонентов, их источники частично различаются.

Чтобы по возможности снизить влияние случайных отклонений, я постарался выделить усреднения по территориально-этническим группам. Наиболее бросающимся в глаза признаком казанских татар оказалось большое количество общих сегментов с марийской и чувашской выборками. Однако это еще не означает, что казанцы разделяют большую часть общих предков с марийцами или чувашами. Дело в том, что эти выборки испытали очень сильный генный дрейф. В результате даже не очень значительное родство с ними проявляется весьма ярко. В прошлой заметке я назвал это «эффект ашкенази», по имени наиболее известного примера. Судя по всему, марийцы и чуваши разделяют заметную часть общих предков, поэтому и «эффект ашкенази» у них общий.

Усреднение по трем казанским татарам из Апастовского района Татарстана:

Tatar-ApastovIBD

Довольно типичная картина — фоновая засветка по Восточной Европе, яркое пятно у марийцев и чувашей и более бледное — у татарской научной выборки. Точный источник татарской выборки мне неизвестен, но сравнительно слабые показатели могут хорошо объясняться большей численностью и генетическим разнообразием татар.

Татары из Тархановского района, 5 человек, выглядят весьма похоже, лишь марийско-чувашское пятно менее яркое:

Tatar-TarhanIBD

Татары из северо-западной части Башкирии, четыре человека. По сравнению с предыдущими выборками, добавилось некоторое влияние удмуртов и башкир:

Tatar-Bash-NWIBD

Насколько же велико может быть количество общих предков татар с чувашами и марийцами? Попробуем сравнить апастовскую выборку с усреднением по трем чувашам:

ChuvashIBD

В калькуляторах на базе Admixture у чувашей ярко проявляется «уральский» компонент, и здесь мы хорошо видим его распространение — от саами до манси. Уровень пересечения с чувашской выборкой при моих типичных настройках — 115 сМ. Примерно такой же уровень получился у марийца (отличие от чувашей — в более высоком пересечении с марийской выборкой). При этом у людей с наполовину марийским или чувашским происхождением этот показатель составил чуть меньше 80. У апастовской выборки — 67. Можно сделать прикидку, что при недавнем адмиксе это соответствовало бы примерно 1/3 общих предков. Однако если эти предки жили давно, когда дрейф проявился еще не так сильно, их доля могла быть выше. Таким образом, оценкой снизу будет 30%. Провести оценку сверху поможет упоминавшийся «уральский» компонент. При калибровке К27 его содержание у чувашей получилось равным 19, усреднение по татарам из апастовской выборки —  около 9. Таким образом, даже если все не пересекающиеся с чувашами предки были из популяций с нулевым содержанием этого компонента (что малореально), вклад чувашей не мог быть выше 50%. Думаю, что наиболее реалистичным вариантом будет все же 1/3.

Разумеется, существует еще вариант, что чуваши получили «уральский» компонент уже после разделения с татарами. Тогда количество общих предков может быть и гораздо большим. Однако этому варианту скорее соответствует некий более древний уровень родства, чем рассматриваемые здесь исторические времена.

Я попробовал подсчитать, исходя из предположения, что «чувашские» компоненты составили 1/3 наследственности татар, на что могли быть похожи оставшиеся 2/3 по К27. В одиночном режиме результат оказался непохожим ни на один народ, кроме самих татар. В режиме смеси комбинации тоже показались на первый взгляд очень странными, однако, как мы позже увидим, кое-какой смысл в них был:

Using 2 populations approximation:
1 Nogay_D+Russian_Novgorod_D @ 6,174824

Using 3 populations approximation:
1 50% Russian_North_R8 +25% Kazakh_R2 +25% Romanian_D @ 3,826868

2 50% Russian_North_R8 +25% Bulgarian_S14 +25% Kazakh_R2 @ 4,087314

У меня не нашлось полноценной мишарской выборки из районов за пределами Татарстана и Башкирии, поэтому пришлось объединить три образца, получившиеся похожими и по IBD-картографу, и по предковым компонентам в калькуляторе Вадима Веренича. Первый происходит из мишарей Нижегородской области, второй — из пензенских мишарей, третий — из служилых татар Самарской области.

Mishar-NPSIBD

Как мы можем видеть, здесь не только нет «марийского» пятна, но даже наоборот — на этом месте показано уменьшение количества общих сегментов по сравнению с соседними популяциями. Родство с чувашами имеется, однако, очевидно, идет по другой линии предков чувашей, не совпадающей с предками марийцев. Наиболее же сильно выделяются эрзяне. Как и в случае родства казанских татар с чувашами, это вовсе не говорит об определяющем вкладе эрзян в генетику мишарей. Нижний предел я бы оценил аналогичным предыдущему случаю методом примерно в 20-25%. Что касается верхнего ограничителя, тут сложнее из-за отсутствия специфического «эрзянского» компонента Admixture. Если ориентироваться на общий восточноевропейский компонент Balto-Slavic, то он ограничивает максимальный уровень примерно 70-80 процентами. Вполне возможно, что предками мишарей были не сами эрзяне или мокшане, а родственная им соседняя популяция — это дополнительно затрудняет оценку.

Для сравнения, эрзянская выборка, пять человек:

ErzyaIBD

Мишари из Дрожжановского района Татарстана, три человека:

Mishar-DrozzhIBD

Картина схожа с предыдущей мишарской выборкой, однако у марийцев уже нет провала. Возможно, это связано с близостью к Чувашии, возможно — с влиянием казанских татар.

Выборка мишарей из Башкирии получилась ближе к казанскому варианту. Это может объясняться спецификой именно данной выборки, либо различиями между мишарями в целом. Придумать объяснений можно много, но думаю, здесь нет смысла в них вдаваться.

Mishar-BashkIBD

Итак, для каждого из народов (или, при другом подходе, субэтносов), мы видим на картах один из предковых источников. Однако попытка вывести оставшиеся источники методом пересчета предковых компонентов оказалась малоудачной. Чтобы решить эту проблему, я попробовал визуализировать разницу с первым источником. На карте приведена разница между первой («сборной») мишарской выборкой и эрзянами, для контрастности умноженная на три:

MNPSminusErzyaIBD

Зеленые тона показывают выборки, более близкие эрзянам, красно-бурые — мишарской выборке. Промежуточные варианты одинаково близки и тем, и другим. Максимум разницы в пользу мишарей достигается из крупных выборок у бурят и тувинцев, что очень хорошо совпадает с недавней работой по генетическим следам тюркской экспансии . Немногим отстают от них и башкиры с казахами. Интересно, что кавказские выборки, за исключением ногайцев и балкарцев (наличие в этой компании армян остается загадкой )) ), получились несколько ближе к эрзянам, что говорит против теории о связи мишарей с Кавказом (либо она каким-то образом идет через эрзяноподобную сторону). Пятно у вепсов, думаю, тоже что-то означает, поскольку в слабом виде видно у многих татар. Однако это может быть и следствием более высокого уровня дрейфа у вепсов по сравнению с соседями.

При построении аналогичной карты для пары казанцы/чуваши в качестве базовой выборки я выбрал апастовскую. Башкирские по понятным причинам не могут служить типичным образцом, а тархановская демонстрирует тенденцию сдвига к мишарям. К тому же наиболее родственная чувашам выборка может выявить отличия с ними более показательно.

TAminusChuvashIBD

Зеленая зона вдоль северной части Сибири объясняется более высоким уровнем родства с этими народами у чувашей, чем у татар (все тот же уральский компонент). Родство с народами степной полосы и возможной тюркской прародины находится на примерно одном уровне у «чувашской» и «нечувашской» части генома казанских татар. Родство же с выборками Средней Азии, Кавказа, Средиземноморья — выше. Вероятно, средиземноморскими же пересечениями объясняется повышенный уровень общих сегментов с ашкенази (не забываем, что это число надо делить в разы из-за ашкенази-эффекта). Примерно такого же уровня пятно с крымскими татарами выглядит бледнее из-за небольшой площади полуострова. Интересно также пересечение с болгарами. Не думал, что их тюркский компонент проявится настолько заметно. Впрочем, возможно, это объясняется турецкими или татарскими вливаниями, а не древними булгарами. Ну и обращает на себя внимание знакомое пятно у вепсов и эстонцев.

А теперь вспомним еще раз раскладку при попытке реконструкции «нечувашской» части на базе К27:

2 50% Russian_North_R8 +25% Bulgarian_S14 +25% Kazakh_R2 @ 4,087314

Неправильно, однако уже не так странно, как казалось вначале.

Не следует думать, что перечисленные популяции составляют 2/3 наследственности казанских татар (раз уж 1/3 мы оцениваем вклад «чувашской» стороны). Более вероятным кажется вариант, когда заметную часть от этих 2/3 занимает некая нейтральная по отношению к чувашам популяция, у которой уровень IBD сегментов с другими уральцами и восточноевропейцами был близок к ней. Из-за нейтральности она плохо выделяется на картах IBD-разности, однако калькуляторы на базе Admixture показывают — вклад пришельцев с далекого Юга или Востока не мог быть определяющим. Возможно, именно на эту популяцию намекают «вепсско-эстонское» и «южно-русское» пятна.

В завершение я хочу привести карту разницы между мишарями и казанцами:

MNPSminusTAIBD

С казанской стороны мы видим знакомые марийско-чувашское и крымско-татарское пятна, а также, слегка неожиданно, но не удивительно, азербайджанское (с расширением вдоль Южного Каспия). С мишарской стороны знакомые эрзяне, неожиданно выделилась территория ВКЛ (какие-то вливания оттуда в геном мишарей?), и, по совсем непонятной причине, выборка коми. Родство с азиатскими выборками идет с некоторым перевесом в пользу казанцев, особенно в «зоне марийско-чувашского влияния».

Аналогично примечанию к предыдущей карте, не следует забывать — здесь показана разница. Нейтральная общность может быть велика, но не видна этим методом.