Структура генофонда населения Русского Севера по аутосомным данным

Сергей Козлов

Структура генофонда населения Русского Севера по аутосомным данным

Оригинал статьи расположен на ресурсе генофонд.рф

Содержание:

  • Цель работы, применяемые методы и инструменты.
  • Использованные выборки и источники их формирования. Некоторые важные работы, рассматривавшие тему северного генофонда.
  • Основные компоненты аутосомного генофонда северян.
  • Анализ взаимосвязей между неславянскими народами Севера.
  • Структура аутосомного генофонда северных русских (включая Урал и Сибирь).

 

Цель работы, применяемые методы и инструменты.

Цель данной работы – проанализировать то, как сложился аутосомный генофонд северных русских (до массовых миграций XX века), из каких компонентов он состоит и что послужило их источником. Для решения этой задачи создана модель, совместно использующая два подхода – IBD-анализ и сравнение пропорций компонентов Admixture. Метод экспериментальный и не претендует на то, чтобы служить истиной в последней инстанции. И все же, на мой взгляд, он позволяет улучшить детализацию и разглядеть дополнительные подробности по сравнению с полученными ранее результатами. По мере пополнения новыми данными модель может изменяться, или же послужить основой для других моделей и интерпретаций.

IBD-анализ – это подсчет количества достаточно длинных общих участков ДНК, полученных от общего предка (IBD-сегментов) между образцами из исследуемых выборок. Многие используемые при аутосомном анализе методы позволяют определить, насколько сравниваемые образцы схожи или различны между собой, но не дают прямого ответа – является ли обнаруженное сходство свидетельством исторически недавнего родства?

Например, находящиеся рядом на графике главных компонент образцы могут относиться к разошедшимся многие тысячелетия назад популяциям, или же сходство может вообще оказаться результатом конвергенции (когда сумма внешних влияний на сравниваемые популяции схожа, но приведшие к ним события происходили совершенно независимо друг от друга). И наоборот, происходящие от общей основы, но испытавшие сильно различающиеся влияния популяции окажутся на графике далеко друг от друга.

Именно для решения этой проблемы наиболее пригоден IBD-анализ. Поскольку при каждой передаче следующим поколениям часть общих сегментов укорачивается или теряется, их суммарная длина и количество находятся в прямой зависимости от родственности между популяциями. К сожалению, использовать это как непосредственный показатель уровня родства нельзя, поскольку результат очень зависит от популяционной истории – в первую очередь, от испытанного популяцией генетического дрейфа и снижения разнообразия. Например, у эстонцев сумма общих сегментов с восточнофинской выборкой больше, чем с собственно эстонской, поскольку финны испытали более сильный дрейф. Поэтому был применён более сложный подход. На первом этапе среди исследуемых популяций выделяются те, которые испытали наиболее значительный дрейф и родство с ними хорошо проявляется по IBD-сегментам. Такие выборки называются у меня «генетическими полюсами». Далее выделяются опорные популяции, которые будут служить основой для моделирования (остальные выборки представляются, как результат их смешения). К опорным выборкам могут относиться как «генетические полюса», так и другие. Например, выборки центральных и северо-западных русских не формируют «генетических полюсов», но несомненно нужны в качестве опорных при моделировании происхождения северных русских.

Для поиска наиболее хорошо подходящих комбинаций опорных выборок использован алгоритм, называющийся «оракул» (насколько мне известно, впервые примененный геномным блогером Dienekes Pontikos).  Он перебирает варианты смешения отобранных выборок и ищет результаты, где среднеквадратичное отклонение от целевой выборки будет наименьшим. В данной работе вклад каждой выборки при переборе изменяется с шагом 5%, поскольку шаг в 1% увеличит количество вычислений на порядки, но не даст реального повышения точности. Оракул может использовать как результаты IBD-анализа (тогда в качестве сравниваемых показателей используются суммы  общих сегментов опорных выборок с «генетическими полюсами»), так и пропорции компонентов Admixture. Здесь они выделяются согласно разработанной В. Вереничем 27-компонентной модели, которую я считаю наиболее удобной для сравнения восточноевропейцев между собой, при помощи инструмента DIYDodecad от Dienekes. Что касается IBD-сегментов, то выбраны следующие показатели – чтобы исключить случайные совпадения, длина каждого учитываемого сегмента должна быть не менее 3 сМ, и он должен состоять не менее, чем из 150 снипов. При сравнении двух выборок итоговая цифра показывает усредненный результат сравнения каждого генома из первой выборки с каждым геномом из второй (сумма в сМ).

Программные реализации оракула, IBD-анализа и алгоритма отображения на картах, применяемые в данной статье, созданы непосредственно автором.

 

Использованные выборки и источники их формирования.

В статье использованы как научные образцы, так и результаты людей, тестировавшихся частным образом в коммерческих лабораториях (компании 23andMe и FTDNA). Анализ производился по широкогеномным данным об аутосомных маркерах. Использовано несколько частично отличающихся панелей Illumina, некоторые образцы получены усечением полногеномных данных до широкогеномных. Для IBD-анализа применено усечение всех геномов до набора из 244 тысяч снипов, которые присутствуют во всех панелях. Для Admixture-анализа – усечение до 118 тысяч снипов, поскольку при этом виде анализа дополнительно исключаются близкорасположенные, «сцепленные» снипы. Сформированные выборки показаны на карте черными квадратами.

 

СеверВыборки

 

Две из них оказались за пределами карты – это потомки русских старожилов Сибири (5 человек) и Забайкалья (3 человека). Как иногда говорят, «чалдоны», или «челдоны». Цифры рядом с названием показывают размер каждой выборки. В случае указания размера через косую черту, число слева означает количество использованных образцов для выведения усреднений по компонентам Admixture, число справа – количество образцов, использованных для подсчета общих сегментов (имеются в виду малые выборки, которые сравниваются с большими. Они расположены под графиком сумм общих сегментов). Размеры больших выборок справа от IBD-графика (то есть тех, с которыми сравниваются малые выборки) следующие:

Balt 20 (литовцы, латыши и один схожий с ними геном с российско-латвийского пограничья);

Finnish-East 18 (восточные финны);

Karelian 18 (карелы);

Komi 19 (коми);

Mansi 9 (манси);

Mari 16 (марийцы);

Russian-Pomor 12 (русские поморы);

Saami 13 (саамы);

Udmurt 19  (удмурты);

Veps 14  (вепсы).

Выборки, использованные для построения карт, подробно не описываются, поскольку их очень много, а сами карты приводятся исключительно в иллюстративных целях.

Источник основной части научных образцов – Эстонский Биоцентр (геномы выкладываются здесь). Сложно перечислить, в какой из статей был впервые использован каждый геном, при желании эту информацию можно найти на сайте биоцентра. Кроме того, использованы выборки из проекта «1000 геномов», а также статьи Hellenthal et al, 2014 . Несмотря на небольшое количество геномов, очень полезными для анализа северного генофонда оказались полные сиквенсы из работы  Wong et al, 2015

«Изюминкой» моих работ можно посчитать включение «коммерческих» геномов. К сожалению, кроме плюсов (добавление результатов популяций, не охваченных научным тестированием), у этого решения есть и минусы. Главный из них – автор не может доказать, что используемые образцы соответствуют строгим научным критериям формирования выборок. Геномы высылались мне для анализа энтузиастами генетической генеалогии, собравшимися на площадке forum.molgen.org , при условии, что файлы не будут передаваться третьим лицам. В выборку включались люди, все ближайшие предки (хотя бы 2-3 поколения – одиночный предок далее прадедушек и прабабушек уже влияет на результаты очень мало) которых происходили из нужной местности и относились к нужному этносу. За время существования проекта было обработано более 500 «коммерческих» геномов восточноевропейцев, однако большинство из них нельзя включить в «опорные» выборки из-за несоответствия указанному критерию либо из-за близкородственности с уже обработанными геномами. Тем не менее, для проверки полученных результатов они вполне пригодны. Таким образом, общий объем восточноевропейской выборки весьма велик.

Лично я уверен в добросовестности генеалогов-молгеновцев. Свое происхождение они нередко знают на столетия назад, поэтому с моей точки зрения «коммерческие» выборки временами могут являться даже более качественными, чем научные. Косвенным доказательством их корректности служит то, что полученные результаты без каких-либо противоречий вписываются в единую систему с научными выборками. При появлении нужных научных выборок «коммерческие» результаты будут либо окончательно подтверждены, либо исправлены и дополнены.

Автор выражает особую благодарность за помощь при формировании северных выборок Анатолию Воронцову, Владимиру Волкову и Владимиру Беданову. Благодарность выражается и всем участникам проекта.

Причина разницы в количестве образцов, использованных для IBD- и Admixture- анализа заключается в том, что часть научных геномов уже была использована при создании 27-компонентной модели. Поэтому получаемые для них результаты отличаются от всех остальных, не использовавшихся при выведении компонентов Admixture и исключены из сравнения (так называемый «эффект калькулятора»). Для IBD-анализа подобной проблемы не существует.

Одним из первых толчков к написанию данной статьи следует признать работу Андрея Хрунина и др. от 2013 года, где, насколько мне известно, впервые в научном сообществе был выделен «северо-восточный» европейский аутосомный полюс. Надо упомянуть, что любителями, например, уже упоминавшимся В.Вереничем, при анализе Admixture этот полюс выделялся и ранее. Позднее авторы и далее развивали тему изучения северного генофонда, в том числе выступив соавторами в упомянутой выше статье Wong et al.

Более широкую известность получила статья 2011 года “Генофонд Русского Севера: Славяне? Финны? Палеоевропейцы?” Елены Балановской и др, однако в ней исследовались однородительские маркеры, и аутосомы остались почти незатронутыми (кроме одиночного маркера CCR5del32).

Сходства и различия изученных русских выборок между собой и с соседними славянскими, балтскими, финскими народами подробно изучались в известной статье о генофонде славян и балтов (Алёна Кушняревич и др., 2015), подытоживающей накопленную на тот момент научным сообществом информацию, а также вышедшей в конце того же года монографии Олега Балановского «Генофонд Европы» , дающей подробный обзор европейского генофонда. В обеих работах проводился анализ по всем трем основным системам генетических маркеров (мужские и женские однородительские линии, и аутосомы).

Перечислить все имеющие отношение к анализу северного генофонда научные работы крайне сложно, и все равно остается вероятность пропустить что-то важное. Поэтому не буду дополнительно углубляться в тему, а перейду к следующей части.

 

Основные компоненты аутосомного генофонда северян.

При анализе северного генофонда можно выделить три его главных источника. Здесь я не останавливаюсь подробно на их выведении, ограничившись общим описанием и несколькими иллюстрациям, поскольку эти компоненты можно увидеть во многих научных работах.

Первый, наиболее древний слой – это «палеоевропейский» компонент, и поныне преобладающий у всех северных европейцев. Благодаря произведенной за последние годы расшифровке заметного количества геномов древних охотников-собирателей мы можем уверенно судить, что его корни тянутся на десятки тысячелетий в прошлое. Правда, в основном эти геномы относятся к более южным регионам Европы – от  Испании (la Brana) до Воронежской области (Костёнки). Однако есть и результат «северянина» — это образец I0061 (из работы Haak et al. 2015 года) с Южного Оленьего острова, Карелия. Его возраст, согласно радиоуглеродной датировке, составляет около 7-7.5 тысяч лет. При его сравнении с современными выборками первая десятка с наибольшей долей совпадающих снипов (одиночных мутаций), по моим расчетам, оказалась следующей:

Эстонцы

Латыши и литовцы (объединенная «балтская» выборка)

Русские Каргополя («вологодская» выборка HGDP)

Поляки

Восточные финны

Карелы

Вепсы

Саами

Словаки

Западные финны

На момент сравнения у меня еще не была сформирована выборка беломорских русских (поморы) – не сомневаюсь, что она тоже заняла бы высокое место в этом «рейтинге палеоевропейскости».

Несмотря на географию, я не считаю «оленеостровца» представителем основной части предков современных прибалтийских финнов или собственно балтов — на эту роль лучше подходят более южные образцы. Думаю, что он ближе к предкам удмуртов (в рейтинге они отдалились из-за наличия у современных удмуртов восточноазиатского и степного влияния). Также любопытна его взаимосвязь с западнославянскими выборками. Вероятно, картина прояснится при появлении новых северных палеообразцов, а пока данных слишком мало, чтобы уверенно их структурировать.

Второй компонент можно назвать «уральско-сибирским». Его влияние заметно ниже, при этом в целом падает при продвижении с востока на запад. Видимо, изначальное происхождение компонента связано со смешением восточных, «сибирских» вариантов континуума древних охотников-собирателей Северной Евразии (западным вариантом которых являются палеоевропейцы) и пришельцев с юго-востока, принесших с собой восточноазиатские генетические варианты. Напрашивается предположение о взаимосвязи компонента с распространением в северо-восточной Европе языков уральской семьи, а также многих ветвей Y-гаплогруппы N. Согласно реконструкции Владимира Напольских, перед распадом прауральского языка его носители проживали в темнохвойной тайге западносибирского типа, вероятно, также частично захватывая Урал и Восточную Сибирь (см. «Предыстория уральских народов», 2001 ).  Можно предположить, что при продвижении на запад «уральские» мужчины женились на местных женщинах, и в следующих поколениях доля «восточных» аутосомных вариантов снижалась, замещаясь «западными». В результате наблюдаемая картина при использовании разных систем генетических маркеров резко различается – если по Y-гаплогруппам влияние пришельцев весьма высоко, а кое-где преобладает подавляюще, то по аутосомным и мито-маркерам оно или совсем невелико, или находится в меньшинстве.

Среди современных европейских народов наиболее сильно этот аутосомный компонент проявляется у марийцев. Однако и у них он смешан с «палеоевропейским», поэтому для его выделения удобнее использовать результаты угорских народов Западной Сибири.

 

MansiUS-IBD

 

Наконец, третий, наиболее поздний компонент – это вклад пришедших с юга восточнославянских переселенцев. Этот компонент также имеет палеоевропейскую основу (что затрудняет дифференцирование с первым компонентом), однако с некоторой добавкой «южных» влияний (предположительно, неолитических земледельцев Европы и степных групп бронзового либо железного века). Сложно оценить, насколько велико влияние восточных славян на финские и пермские народы. Некоторые следы этого можно увидеть, но какая его часть связана с русскими миграциями Средневековья и нового времени, а какая — с более ранними движениями населения (например, знаменитыми «шнуровиками», или контактами прафинноугров со степными индоевропейцами)? Точную оценку станет возможно сделать только после прочтения северных геномов дославянского периода, а пока что мы можем опираться лишь на результаты наших современников. Поэтому я принял в качестве рабочего предположения, что до XX века люди смешанного происхождения обычно либо входили в состав русских, либо это делали их потомки. Тогда влиянием русских на генофонд сохранившихся финнов и пермян можно условно пренебречь, а найденные у них «южные» аутосомные компоненты отнести на иные контакты.

Дальнейший анализ будет производиться в два этапа. На первом я попытаюсь раскрыть взаимосвязи между неславянскими народами Севера. На втором – опираясь на уже полученные результаты, провести анализ генофонда северных русских. Единственным исключением станет восточная половина выборки поморов – русские Пинеги и Мезени. Согласно реконструкции, в основной части они потомки дославянского населения Севера, с минимальным влиянием центральных и южных русских. Поэтому их результаты представляют большую ценность для понимания северного генофонда и включены уже в первый этап анализа. Разумеется, это не делает пинежан и мезенцев какими-то «неправильными» или «поддельными» русскими, как  иногда воспринимают мои слова.

 

Этап 1. Анализ взаимосвязей между неславянскими народами Севера.

 

ГрафикСевер1

 

Поскольку IBD-анализ чувствителен к размеру выборок, в поморскую выборку (Russian-Pomor), кроме мезенцев и пинежан, для надежности добавлены близкие к ним генетически русские из низовьев Северной Двины. Komi-Zyryan-NE – это объединение результатов двух ижемских коми м одного близкого к ним коми из другой научной выборки, точное происхождение которого неизвестно. Komi-Zyryan-SW – объединение результатов двух прилузских коми, одного коми из Сыктывкара и двух близких к ним коми из научной выборки, точное происхождение которых неизвестно.

Как видите, количество общих сегментов хорошо отображает географию (проживающие рядом народы имеют больше возможностей генетически повлиять друг на друга). Например, у карел очень много общих сегментов с вепсами. Однако при этом у прибалтийских финнов больше общих сегментов с карелами, чем с вепсами, а у поморов и коми – чуть больше с вепсами, чем с карелами, но в целом близко. Таким образом, можно сказать, что с точки зрения аутосомного генофонда карелы – это смешение вепсов и восточных финнов.

По пикам сумм IBD-сегментов в общей «палеоевропейской» массе можно выделить отдельные «генетические полюса». Причина их появления – генетический дрейф в результате изоляции. Население Севера долгое время было очень редким, поэтому выделение полюсов происходило быстрее их размывания в результате смешения с соседями. Южнее в большинстве случаев этого не происходило, размывание шло быстрее выделения. Однако, к примеру, евреи-ашкенази за примерно тысячелетие генетически изолированного от окружающих существования сформировали хорошо выраженный полюс. Также хорошо формируют «генетические полюса» народы Северного Кавказа, благодаря географической изоляции (горный рельеф).

Чем более сильным оказался дрейф, тем выше будет пик на IBD-графике у соответствующего полюса. Возможно и формирование вторичных полюсов – когда смешиваются уже хорошо отдрейфовавшие популяции, а получившаяся группа позже испытывает дополнительный дрейф (например, так предположительно произошло с вепсами и карелами).

Основные генетические полюса, проявляющиеся на Севере, изображены на схеме внизу в черных прямоугольниках от «Балтский» до «Пермский 2». В верхней строке приведено условное название полюса, в нижней – выборка, для которой его влияние проявляется наиболее ярко. При вычислении влияния полюса на соседние популяции значения для этих выборок условно приняты за 100%. Выделение полюсов основано на анализе IBD-сегментов, а вероятные пропорции смешения получены сравнением компонентов Admixture (диаграмма с их значениями будет приведена далее).

 

ДеревоСеверv2-1

В правом верхнем углу изображен гипотетический исходный «уральско-сибирский» компонент и его влияние на северные популяции (при оценке его влияния я в основном ориентировался на результаты выборки манси). В левом верхнем углу – «западный» компонент, проявляющийся на графиках Admixture у выборок, расположенных рядом с Финским заливом. Здесь за основу взяты результаты шведов, поскольку наиболее хорошо он выделяется у юго-западных финнов, а влияние шведов на их генофонд согласуется с известными из истории фактами. Впрочем, использование как манси, так и шведов – условность для целей моделирования. Это не значит, что соответствующее влияние шло именно от предков этих народов.

Центральные и южные русские (а также большинство остальных славян) тяготеют к «балтскому» полюсу.

Первые четыре полюса близкородственны между собой, в то время, как Пермский 2 (предки удмуртов) находится несколько поодаль, повлияв лишь на первый пермский полюс (поток генов от удмуртов к коми).  Положение коми-пермяков точно неизвестно, но логично предположить, что они должны быть смесью влияний двух пермских полюсов (это предположение будет использовано при анализе результатов пермских русских).

Любопытно, что выборка северо-восточных (ижемских) коми проявила гораздо больше общего с поморами, чем с другими пермянами. Думаю, что это разделенные части единой древней популяции (назовем ее «чудь заволочская»). Большинство ее представителей вошло в состав русского народа, но крайняя северо-восточная часть перешла на пермский язык (либо изначально была не финно-, а пермскоязычной) и стала коми-ижемцами.

Довольно сложным получилось происхождение кольских саами – хотя в наибольшей степени они связаны с «финским» полюсом, сильно проявлены как «поморский» полюс, так и «уральско-сибирский» компонент, который тоже, вероятно, можно разбить на несколько полюсов. Как мне кажется, «уральско-сибирское» влияние у саами больше марийского, чем мансийского или ненецкого типа, но тут тяжело надежно выявить подробности. Кроме того,  моделирование для саами произведено без участия Admixture, поэтому надежность реконструкции снижена.

И все же, насколько оправдано использовать результаты выборки восточных поморов в качестве 100% представителей дославянского генофонда? Результаты Admixture показывают, что они почти в точности вписываются между своими соседями с юго-запада (вепсы) и востока (коми-ижемцы).

 

AdmixtureСевер1

 

Russian_Mezen_Pinegav3

 

Как будет показано далее, вклинивающиеся между ними русские Каргополя аутосомно схожи с более южными и восточными выборками, такими, как русские Сольвычегодска. Восточные финны здесь  отличаются настолько сильно из-за того, что для них выделен отдельный компонент Admixture (на диаграмме выше голубой) и отклонение по нему наиболее велико.

Могут выдвинуть возражение, что это русские настолько повлияли на генофонд коми и вепсов, что они стали походить на поморов. Но если уж русский колонизационный поток был настолько мощным, чтобы кардинально менять генофонд местного населения, то собственно русские выборки Севера в таком случае должны быть неотличимы от центральных и южных русских. А подобного не наблюдается.

В качестве подкрепления выводов приведу часть графика главных (первая и вторая) компонент из упоминавшейся выше этапной работы Кушняревич и др., 2015 о генофонде славян и балтов. Здесь использованы только научные выборки. Черным курсивом даны мои комментарии и пояснения, мной же добавлена и черная линия, соединяющая наиболее «аутосомно северные» выборки:

 

PCA

 

Этап 2. Структура генофонда северных русских.

При решении вопроса, какие выборки отнести к северным русским, за основу взята карта русских говоров, составленная советскими лингвистами (по Русская диалектология / под ред. Р. И. Аванесова и В. Г. Орловой. М.: Наука, 1965). Она хорошо коррелирует с аутосомными данными, включая один спорный момент – жителей зон 16 и 17 (историческая Новгородская Земля, «словене ильменские») по некоторым признакам тоже можно отнести к северянам. Здесь это названо «западные окающие говоры». Как мы увидим, разница с зоной «западных акающих говоров» (Псковщина, «кривичи псковские») хорошо проявляется и в аутосомном генофонде. К сожалению, образцы из «чухломского острова» (зона 24) отсутствуют – было бы интересно сравнить их с соседями.

 

Диалектологическая-карта-1965

Кроме северян, использованы выборки новгородских русских (она должна представлять «новгородский» поток колонизации), псковская (для сравнения с новгородцами) и «ростовская» (она представляет не окрестности города Ростова, хотя есть и образец оттуда, но «ростовскую землю» и «низовский» поток колонизации в целом – использованы образцы от Углича до Иваново). Для отображения возможных колонизационных потоков «из глубин славянского мира» взята выборка смоленских русских. Из географических соображений на график добавлены тверские русские (без северо-восточной части Тверской области, относящейся уже к зоне северных говоров), и небольшая выборка муромчан. Сформировать выборку русских Владимирского Ополья не удалось – пришлось ограничиться «ростовцами».

Северяне принимали активное участие в процессе освоения русскими Урала и Сибири (долгое время основные пути туда проходили через Север). Поэтому в анализ включены выборки потомков русских старожилов Пермского края, южной части Западной Сибири и Забайкалья.

 

ГрафикСевер2

 

Отличить северян оказалось очень легко – если для русской выборки красная линия (пересечения с поморами) получилась выше или наравне с зеленой (пересечения с балтами) – перед нами северные русские. Если ниже – центральные, северо-западные, либо не показанные здесь южные.

Больше всего пересечений с балтами найдено у псковских русских. Псков, Смоленск и Тверь расположены на землях, которые когда-то населял славянский племенной союз кривичей. Археологи обнаруживают у них сильное балтское влияние и некоторые исследователи даже относят кривичей к ославяненым балтам. Впрочем, как я уже писал, большинство славян тяготеет к «балтскому» полюсу, и его можно с чистой совестью называть «балто-славянским». Просто у балтов он выражен несколько сильнее.

Очень своеобразны результаты новгородской выборки. У них относительно мало пересечений с поморами, но при этом проявлены пересечения с прибалтийско-финскими народами (это заметно при сравнении с соседями из Пскова и Твери). То есть новгородцы – северяне по параметру «есть предки из уральскоязычных народов», но не северяне по более узкому параметру «есть предки из чуди заволочской». Если вернуться к схеме взаимосвязей дославянского населения Севера, можно увидеть, что «уральско-сибирский» аутосомный компонент до Балтики практически не добрался, растворившись по дороге. На графике это отражается небольшим количеством пересечений с выборкой манси у новгородцев. По сути, здесь мы видим базовый уровень родства палеоевропейских времен (20-25 сМ). У карел и вепсов он повышается до 35, а у коми, удмуртов и саами – до 50-60 сМ. Для сравнения, у хантов этот показатель составил 229 сМ.

Для просчета возможных вариантов происхождения северян использован оракул на основе сравнения сумм IBD-сегментов в режиме «комбинация не более, чем пяти предковых популяций». В качестве опорных взяты выборки вепсов, карел, удмуртов, юго-западных коми-зырян («ижемскую» выборку включать нет смысла, поскольку она будет дублировать поморов с добавлением лишнего «уральско-сибирского» влияния), русских Пинеги-Мезени (поморы), Новгорода, Пскова, Ростова и Смоленска. Сравнение идет по суммам общих сегментов с представителями четырех «палеоевропейских» полюсов (балты, восточные финны, поморы, коми), а также четырьмя дополнительными выборками (вепсы, манси, саами, марийцы).

Для начала проверим оракул на новгородцах. Здесь и далее приводятся пять результатов с наименьшим среднеквадратичным отклонением (значение после @).

Russian-Smolensk 90% + Karelian 10% @ 7

Russian-Pskov 5% + Russian-Smolensk 85% + Karelian 10% @ 7,02

Vepsa 5% + Russian-Smolensk 85% + Karelian 10% @ 7,54

Vepsa 5% + Russian-Pskov 5% + Russian-Smolensk 85% + Karelian 5% @ 7,56

Russian-Pinega-Mezen 5% + Russian-Smolensk 85% + Karelian 10% @ 7,72

Russian-Pinega-Mezen 5% + Russian-Pskov 5% + Russian-Smolensk 80% + Karelian 10% @ 7,85

Лучше всего новгородцы моделируются, как смесь смоленских русских и небольшой доли карел или вепсов. Результат выглядит весьма правдоподобно. Хотя, скорее всего, источником «финского» влияния выступали не столько карелы, сколько более близкие географически народы (летописные чудь, водь и т.д.). Если вновь вернуться к схеме взаимоотношений дославянского населения из начала статьи, то результаты эстонцев показывают – у местных финнов должно было быть меньше «финского» и больше «балтского» влияния. Таким образом, более вероятное соотношение пришлого и местного элемента у новгородцев не 90 на 10, а примерно 80 на 20.

Перейдем к северянам. Как и на графике, выборки расположены в порядке убывания сумм IBD-пересечений с поморами – от более выраженных северян к менее выраженным.

Важная ремарка – я попытался просчитать не только соотношение вклада местного населения и пришельцев-славян, но и соотношение вклада различных групп этих пришельцев. Однако разница между ними относительно невелика, поэтому надежность дополнительного разбиения заметно ниже. Пожалуйста, имейте это в виду при анализе результатов.

Поморы с низовьев Северной Двины:

Russian-Pinega-Mezen 75% + Russian-Pskov 5% + Russian-Novgorod 15% + Karelian 5% @ 4,89

Russian-Pinega-Mezen 75% + Russian-Novgorod 20% + Karelian 5% @ 4,93

Vepsa 5% + Russian-Pinega-Mezen 70% + Russian-Pskov 15% + Russian-Novgorod 5% + Karelian 5% @ 5,01

Russian-Pinega-Mezen 70% + Russian-Pskov 20% + Karelian 10% @ 5,03

Russian-Pinega-Mezen 80% + Russian-Pskov 5% + Russian-Novgorod 5% + Russian-Smolensk 5% + Karelian 5% @ 5,08

Vepsa 5% + Russian-Pinega-Mezen 70% + Russian-Pskov 20% + Karelian 5% @ 5,09

Мы уже знали, что они весьма близки пинежско-мезенской выборке, поэтому затруднений у оракула не возникло. Доминирует местный элемент, плюс показывается некоторое влияние новгородцев и карел. В некоторых комбинациях алгоритм «расщепляет» влияние новгородцев на составляющие, которые мы уже видели в предыдущем примере (русские Пскова или Смоленска плюс карелы или вепсы).

Русские Сольвычегодска:

Russian-Pinega-Mezen 35% + Russian-Rostov 30% + Russian-Novgorod 15% + Komi-Zyryan-SW 10% + Karelian 10% @ 3,12

Russian-Pinega-Mezen 40% + Russian-Novgorod 40% + Komi-Zyryan-SW 10% + Karelian 5% + Udmurt 5% @ 3,65

Russian-Pinega-Mezen 35% + Russian-Pskov 10% + Russian-Rostov 35% + Komi-Zyryan-SW 10% + Karelian 10% @ 3,66

Russian-Pinega-Mezen 35% + Russian-Rostov 35% + Russian-Smolensk 10% + Komi-Zyryan-SW 10% + Karelian 10% @ 3,69

Russian-Pinega-Mezen 40% + Russian-Pskov 5% + Russian-Novgorod 35% + Komi-Zyryan-SW 15% + Karelian 5% @ 3,73

Здесь с автохтонной стороны к «поморскому» компоненту добавляется влияние коми, что выглядит логично с точки зрения географии. Со славянской же стороны алгоритм подставляет то ростовцев, то новгородцев. Это тоже можно посчитать логичным – Сольвычегодск расположен рядом с важнейшим перекрестком северных речных путей, где реки Сухона, Юг и Вычегда превращаются в Двину. Здесь долгое время шла борьба между «низовцами» и новгородцами (опорным пунктом первых был расположенный чуть западнее Великий Устюг). Как известно, соперничество Новгорода и Ростовской земли/Владимирской Руси/Великого Княжества Московского в конечном итоге закончилось поглощением Новгорода и его бывших северных владений Москвой.

Однако я не исключаю и варианта, описанного в ремарке – алгоритм просто не справился с разделением влияния групп славян. Само же соотношение пришлого и местного элемента в генофонде сольвычегодцев можно оценить, как 50 на 50.

 

1-4

 

Русские Пермского края:

Russian-Pinega-Mezen 40% + Russian-Pskov 15% + Russian-Novgorod 15% + Komi-Zyryan-SW 15% + Udmurt 15% @ 3,49

Russian-Pinega-Mezen 40% + Russian-Novgorod 20% + Russian-Smolensk 10% + Komi-Zyryan-SW 15% + Udmurt 15% @ 3,78

Russian-Pinega-Mezen 40% + Russian-Pskov 25% + Russian-Smolensk 5% + Komi-Zyryan-SW 15% + Udmurt 15% @ 3,8

Russian-Pinega-Mezen 40% + Russian-Pskov 30% + Komi-Zyryan-SW 15% + Udmurt 15% @ 3,85

Russian-Pinega-Mezen 40% + Russian-Pskov 25% + Russian-Rostov 5% + Komi-Zyryan-SW 15% + Udmurt 15% @ 3,95

Первоначальное заселение края русскими происходило северным путем, через Вычегду и волоки в бассейн Камы. Путь по Волге и низовьям Камы был перекрыт казанцами. Судя по результатам, Пермь стала областью вторичной колонизации, куда в основном переселялись уже северные русские – иначе не объяснить столь большую долю «поморского» компонента. Видимо, комбинации «40% поморы + 30% северо-западные русские» отражают вклад северян (с вероятным добавлением небольшой доли других групп русских) поскольку такая смесь примерно соответствует русским Сольвычегодска, которых я условно принял за типичных представителей северян. Тогда «15% коми-зыряне + 15% удмурты» — это преимущественно отображение вклада местного пермского населения. К сожалению, результатов коми-пермяков у меня нет, но с точки зрения географии они примерно так и должны выглядеть. На графике хорошо заметно повышение у пермских русских количества общих сегментов как с коми-зырянами (по этому показателю они на первом месте среди всех русских выборок), так и с удмуртами (второе место после одной специфичной вятской выборки). Однако здесь вклад дославянского населения в генофонд местных русских следует признать более низким, чем в предыдущих случаях – ведь «поморский» компонент на этот момент уже необходимо считать русским.  Если взять в качестве образца переселенцев-северян русских Сольвычегодска, то соотношение пришлого и местного элемента в генофонде пермских русских можно оценить, как 75 на 25, или даже 80 на 20 (поскольку “пермский” компонент частично присутствует уже у сольвычегодцев).

Русские Каргополя:

Russian-Pinega-Mezen 35% + Russian-Pskov 20% + Russian-Novgorod 30% + Komi-Zyryan-SW 5% + Udmurt 10% @ 1,67

Vepsa 5% + Russian-Pinega-Mezen 30% + Russian-Pskov 25% + Russian-Novgorod 25% + Udmurt 15% @ 1,83

Russian-Pinega-Mezen 35% + Russian-Rostov 15% + Russian-Smolensk 35% + Karelian 5% + Udmurt 10% @ 1,84

Russian-Pinega-Mezen 35% + Russian-Pskov 10% + Russian-Rostov 20% + Russian-Novgorod 25% + Udmurt 10% @ 1,95

Russian-Pinega-Mezen 35% + Russian-Rostov 30% + Russian-Novgorod 25% + Komi-Zyryan-SW 5% + Udmurt 5% @ 1,98

Знаменитая выборка из Human Genome Diversity Project, долгое время представлявшая в большинстве научных работ всех русских, что вызывало у многих бурное негодование (в том числе временами и у меня). Каргополь расположен рядом с границами Карелии, и само его название выводят от карельского «медвежья сторона». Поэтому я ожидал найти здесь немалое влияние карел. Однако ничего подобного не наблюдается — результаты схожи с полученными для более восточных выборок северных русских (сольвычегодцы). Откуда там взялись пересечения с удмуртами, непонятно. Впрочем, их не так и много – вероятно, удмурты введены алгоритмом в попытке сбалансировать комбинации, а реального влияния почти нет.

Возможно, местные финны оказались более схожи по аутосомному портрету не с используемой мной карельской выборкой из Приладожья, а с поморами. Еще один приходящий в голову вариант объяснения – каргопольская выборка представляет позднейших русских переселенцев с юга и востока (Сухона, Вычегда и т.д.). Город стоял на торговом пути, идущем от Вологды и Белозерска, то есть из сферы влияния «низовцев». Поэтому взаимосвязь тут возможна. На карте диалектов Каргополь размещен у границы вологодских и межзональных (переходных к ладого-тихвинским) говоров, то есть тяготеет к Сухоне.

Из-за подобной неопределенности оценка вклада местного и пришлого населения не производится.

Русские Устюжны:

Russian-Pinega-Mezen 15% + Russian-Rostov 30% + Russian-Novgorod 45% + Karelian 5% + Udmurt 5% @ 9,22

Russian-Pinega-Mezen 25% + Russian-Rostov 20% + Russian-Novgorod 50% + Udmurt 5% @ 9,24

Vepsa 5% + Russian-Pinega-Mezen 15% + Russian-Rostov 30% + Russian-Novgorod 45% + Udmurt 5% @ 9,24

Russian-Pinega-Mezen 25% + Russian-Rostov 15% + Russian-Novgorod 50% + Russian-Smolensk 5% + Udmurt 5% @ 9,26

Russian-Pinega-Mezen 25% + Russian-Pskov 5% + Russian-Rostov 15% + Russian-Novgorod 50% + Udmurt 5% @ 9,33

Согласно В. В. Седову, культура сопок, характеризующая ильменских словен, распространялась до бассейна реки Мологи, где и расположена Устюжна (Седов В. В. Древнерусская народность. Историко-археологическое исследование. М., 1999). Таким образом, район Устюжны начал заселяться будущими новгородцами очень рано. Неудивительно, что здесь преобладает «славянское» влияние, причем больше новгородского типа. На сдвиг в «новгородскую» сторону также могла оказать влияние проживавшая рядом летописная весь или (в более позднюю эпоху) тверские карелы.

Надо учесть, что устюжнинская выборка очень мала – всего два человека. В большинстве случаев такие выборки мной не используются, однако этот район хотелось тоже охватить анализом. В результате отклонение даже для самой лучшей комбинации довольно велико – 9.22, что говорит об усилении погрешности. Хотя сами по себе результаты выглядят нормально (Udmurt 5% можно спокойно пренебречь, это не 10-15%, как у каргопольцев).

Русские Вятки:

С размером выборки вятских русских проблем нет, однако она оказалась слишком неоднородной. Поэтому я вывел из нее результаты двух вятчан с сильным коми-пермяцким или удмуртским влиянием, которые превратились в отдельную выборку северо-восточных вятских русских (Russian-Vyatka-NE). На графике они показаны отдельно, однако приводить для них оракул я не вижу смысла. Для основной же выборки получены следующие варианты:

Vepsa 15% + Russian-Pinega-Mezen 5% + Russian-Smolensk 60% + Udmurt 20% @ 4,86

Vepsa 15% + Russian-Pinega-Mezen 5% + Russian-Pskov 5% + Russian-Smolensk 55% + Udmurt 20% @ 4,89

Vepsa 10% + Russian-Pinega-Mezen 10% + Russian-Novgorod 5% + Russian-Smolensk 55% + Udmurt 20% @ 4,99

Vepsa 10% + Russian-Pinega-Mezen 10% + Russian-Rostov 5% + Russian-Smolensk 60% + Udmurt 15% @ 5,08

Russian-Pinega-Mezen 25% + Russian-Smolensk 60% + Udmurt 15% @ 5,2

Согласно уже упоминавшейся формуле, комбинацию «русские Смоленска плюс немного вепсов» можно интерпретировать, как новгородцев (просто для алгоритма оказалось чуть удобнее разложить их таким образом). И тогда вятские русские получаются потомками новгородцев с некоторым местным влиянием (меньше, чем у пермских русских). В первом приближении интерпретация выглядит нормально, однако есть сомнения – почему тогда на графике провален характерный для новгородцев восточнофинский компонент, а поднят именно вепсский? Возможно, вепсы в комбинациях и обозначают (хотя бы частично) потомков летописной веси, влившихся в состав северян? Тогда для компенсации смоленские русские в комбинациях тоже должны частично обозначать переселенцев из коренной России.

Обе интерпретации видятся равноправными. Однако результаты русских Унжи навели меня на мысль о возможном третьем варианте, который остается чистым теоретизированием, но выглядит интересно. Об этом чуть ниже.

Русские Унжи:

Vepsa 5% + Russian-Pinega-Mezen 10% + Russian-Novgorod 70% + Komi-Zyryan-SW 10% + Udmurt 5% @ 1,75

Vepsa 5% + Russian-Pinega-Mezen 10% + Russian-Rostov 25% + Russian-Novgorod 50% + Komi-Zyryan-SW 10% @ 1,75

Vepsa 15% + Russian-Rostov 20% + Russian-Novgorod 50% + Komi-Zyryan-SW 5% + Udmurt 10% @ 1,76

Russian-Pinega-Mezen 15% + Russian-Novgorod 70% + Komi-Zyryan-SW 10% + Udmurt 5% @ 1,78

Russian-Pinega-Mezen 15% + Russian-Novgorod 50% + Russian-Smolensk 20% + Karelian 5% + Udmurt 10% @ 1,81

Выборка состоит из научных образцов Russian_Kostroma, плюс один геном из FTDNA (он не выбивается из общей тенденции). Результаты схожи с полученными для русских Вятки, за вычетом ослабления «пермского» компонента и усиления «прибалтийско-финского». По моему мнению, выглядят они странно, поскольку именно река Унжа была одной из дорог, по которой шла «низовская» колонизация Севера. Если где и должны в результатах преобладать Russian-Rostov, так это здесь.

В качестве возможного объяснения у меня родилась гипотеза, что под новгородцев в результатах северных русских может маскироваться летописная меря.

В наши дни этот народ не существует. Есть версия, что потомки мери – современные марийцы, однако мне она кажется неверной. И вот почему:

Если летописные чудь и пермь достоверно оставили след в русском генофонде, логично предполагать, что свой вклад должна была внести и меря. Однако марийцы формируют свой, хорошо выраженный «генетический полюс». Не заметить их влияние на генофонд русских было бы невозможно, но его следов нет. Аутосомные родственники марийцев известны – по моим исследованиям, в первую очередь это чуваши, и в меньшей степени – казанские татары.

Следовательно, чтобы вклад мери был трудноразличим, она должна быть генетически схожей с новоприбывшими в регион восточными славянами (аналогичное рассуждение справедливо и для двух других исчезнувших летописных племен – мещеры и муромы). Это вполне вероятно, поскольку известны результаты геномного анализа соседей мерян по региону, сохранивших языки уральской группы до наших дней – эрзян и мокшан. Их аутосомная основа – та же самая, что у балтов и славян («балтский генетический полюс»), лишь с некоторым «уральско-сибирским» налетом. У эрзян и мокшан нет «прибалтийско-финского акцента», однако северо-западными соседями мерян была летописная весь, современными потомками которой считаются вепсы. Следовательно, взаимосвязь с прибалтийскими финнами вполне возможна и даже вероятна. Вот и источник «вепсского» компонента у русских Унжи и Вятки.

А выборка, относящаяся к «балтскому полюсу», но с некоторым «прибалтийско-финским акцентом» — для оракула это и есть новгородцы.

С другой стороны, в противоречие с этой версией вступают результаты «ростовской» выборки русских – у них повышения количества пересечений с прибалтийско-финскими выборками не наблюдается (за исключением небольшого «бугорка» на графике пересечений с саами, которые очень специфические финны). А Ростов тоже относят к исторической территории мери. Впрочем, считается, что на костромщине меряне исчезли гораздо позже и имели больше возможностей оказать свое влияние. К тому же костромская меря могла заметно отличаться от ростовской.

Подытоживая, «мерянская» версия выступает здесь в качестве игры ума и не претендует на доказательность. Численную оценку влияния можно дать лишь очень грубо, исходя из компонентов  Admixture. Если гипотетическая меря находилась в аутосомном смысле примерно посередине между современными вепсами и эрзянами, ее вклад в генофонд русских Унжи должен составлять менее половины (этого хватит для достижения нужного эффекта).

Кроме того, возможность влияния новгородцев эти рассуждения никак не отменяют. Соотношение «новгородского» и «мерянского» вкладов у северян может быть любым, поскольку структурно они схожи.

Для наглядности результаты IBD-оракула сведены в общую схему. Тверская и ростовская выборки получились близкими к смоленской и новгородской, с небольшим сдвигом в сторону поморского и пермского полюсов (их сектора занимают по 5% у тверской и по 10% у ростовской выборки). Для них используемая модель уже не вполне применима (вероятно, IBD-пересечения со многими полюсами могут восходить к более древним временам, чем у северных русских. Также возможны влияния других полюсов, неучтенных в модели.), однако для иллюстрации решено разместить и их результаты. Компоненты со значениями менее 5% не отображались.

 

СеверСоотношения

 

AdmixtureСевер2

Ростовская выборка здесь разбита на две части — Иваново и Углич. Каргопольская и унжинская выборки исключены полностью, поскольку участвовали в первоначальном выведении компонентов Admixture.

Читатель мог заметить, что при анализе результаты сибирских и забайкальских русских старожилов оказались пропущены. Дело в том, что применять для них ту же модель было бы некорректно – ведь на генофонд русских Сибири и Дальнего Востока могли заметно повлиять не только северные популяции, но и другие восточные славяне, а также народы Сибири. Поэтому была использована новая модель, оракул на основе сравнения пропорций компонентов Admixture в режиме «не более четырех предковых популяций» (расчет пяти предков при большом количестве выборок слишком затратен по времени). Опорные популяции должны примерно перекрывать основные возможные варианты (исключена лишь экзотика, наподобие пленных шведов, отправленных в Сибирь после Полтавы – в любом случае их возможный вклад слишком мал). Для этого использованы следующие выборки:

Altaian – алтайцы (3)

Bashkir_East – восточные башкиры (2)

Belarusian_Minsk – белорусы (центр) (5)

Buryat – буряты (3)

Evenk – эвенки (3)

Khanty – ханты (4)

Polish – поляки (15)

Russian_Bryansk – русские Брянска (6)

Russian_Don_Cossack – русские с Дона (2)

Russian_Ivanovo – русские Иваново (2)

Russian_North_Dvina – русские поморы (Двина) (5)

Russian_Novgorod – русские Новгорода (2)

Russian_Pskov – русские Пскова (4)

Russian_Ryazan – русские Рязани (3)

Russian_Smolensk – русские Смоленска (3)

Russian_Solvychegodsk – русские Сольвычегодска (6)

Russian_Ustyuzhna – русские Устюжны (2)

Russian_Ural_West – русские Перми и Екатеринбурга (7)

Russian_Vyatka – русские Вятки (4)

Ukrainian_Poltava – украинцы Полтавы (3)

Ukrainian_Slobozhanshtchina – восточные украинцы (3)

При использовании IBD-метода как забайкальцы, так и южносибирские «чалдоны» оказались северянами по критерию превышения суммы сегментов с поморами над суммой с балтами, хотя и менее выраженными, чем большая часть выборок северных русских (думаю, это говорит о том, что генофонд сибиряков сформирован не только ими). Посмотрим, что покажет Admixture.

Русские Забайкалья:

Evenk 5% + Russian_Don_Cossack 15% + Russian_Solvychegodsk 35% + Russian_Ural_West 45% @ 1,9

Bashkir_East 5% + Evenk 5% + Russian_Don_Cossack 15% + Russian_Solvychegodsk 75% @ 1,91

Evenk 5% + Khanty 5% + Russian_Don_Cossack 20% + Russian_Solvychegodsk 70% @ 1,99

Bashkir_East 5% + Evenk 5% + Russian_Bryansk 15% + Russian_Solvychegodsk 75% @ 1,99

Bashkir_East 5% + Evenk 5% + Russian_Solvychegodsk 75% + Ukrainian_Slobozhanshtchina 15% @ 2,03

В забайкальскую выборку включены потомки русских старожилов Забайкальского Края и один образец из северо-восточной части Иркутской области. В отличие от Севера, здесь смешение русских переселенцев с местным населением происходило в очень ограниченных масштабах. Видимо, различия оказались слишком велики. Оракул предполагает примерно 5% влияния народов Восточной Сибири, которых в модели представляют эвенки (на графике Admixture это проявляется, как повышение доли East Asian). Остальная часть распределяется между классическими северными русскими (Сольвычегодск), русскими Перми (в части комбинаций они показаны, как смесь русских Сольвычегодска и небольшого количества башкир либо хантов, которые здесь представляют уральскую сторону пермяков) и южными русскими либо украинцами. Это не значит, что среди предков забайкальцев не могло быть, к примеру, центральных русских – но в таком случае их вклад находился внутри диапазона между северянами и южанами и в модели разделился между этими крайними влияниями. Как и ожидалось, северный генофонд преобладает (80/15/5).

Русские южной части Западной Сибири:

Polish 15% + Russian_Solvychegodsk 20% + Russian_Ural_West 55% + Ukrainian_Poltava 10% @ 1,45

Polish 25% + Russian_North_Dvina 5% + Russian_Solvychegodsk 15% + Russian_Ural_West 55% @ 1,46

Polish 20% + Russian_North_Dvina 10% + Russian_Ural_West 60% + Ukrainian_Poltava 10% @ 1,46

Polish 15% + Russian_Ustyuzhna 10% + Russian_Ural_West 65% + Ukrainian_Poltava 10% @ 1,46

Polish 25% + Russian_North_Dvina 5% + Russian_Ustyuzhna 5% + Russian_Ural_West 65% @ 1,47

Сибирская выборка составлена из жителей Новосибирской, Кемеровской, Томской областей и Алтайского края. Здесь оракул не обнаруживает даже 5% вклада дославянского населения (возможно, небольшая его доля способна «прятаться» в завышении вклада уральцев). В остальном же результаты однотипны с полученными для забайкальских русских – смесь северного и южного генофонда с преобладанием северного (75/25). Поляки аутосомно очень схожи с украинцами и южными русскими, нередко до неотличимости, поэтому их наличие в комбинациях не удивляет. Не думаю, что их вклад в генофонд южносибирских старожилов достигает 15-25 процентов, хотя чем черт не шутит.  Скорее комбинация с поляками просто оказалась чуть удобнее, чем с южными русскими или украинцами.

 

Russian_Siberiav3

 

Сибирь очень велика и наверняка во многих местах ситуация развивалась по другим сценариям (в качестве примера достаточно вспомнить затундренных крестьян). И все же я думаю, что в большинстве случаев генофонд старожилов был схож с двумя исследованными здесь выборками. В наши же дни «среднего сибирского русского» навряд ли можно назвать выраженным северянином – массовое переселенческое движение конца XIX – начала XX века в Сибирь и более поздние события размыли сформировавшийся за три предыдущих столетия генофонд и должны были сделать сибиряков более схожими с центральными и южными русскими.

Общую долю северных русских среди великороссов на 1795 год можно оценить, как 20-25%, в зависимости от отнесения к северянам жителей северо-западных губерний. Оценка сделана мной, основываясь на подсчетах численности русского населения по регионам согласно работе: Кабузан В.М. «Народы России в XVIII в.: Численность и этнический состав». М., 1990. Таким образом, вклад северян в генофонд русского народа достаточно значим.

Карта схожести по пропорциям Admixture для русских Белого Моря уже была показана ранее. Для сравнения приведу и результаты из двух других углов «северного треугольника» карты для русских Новогорода и русских Перми.

 

Russian_Novgorodv3

 

Russian_Ural_Westv3

 

Одна из основных сложностей при проведении аутосомного анализа заключается в том, что влияния всех эпох складываются в генофонде, наслаиваясь друг на друга. Чем дальше мы забираемся вглубь времён, тем больше позднейших наслоений следует учесть и попытаться убрать. Происхождение сибирских и уральских русских хорошо реконструируется, опираясь на результаты современных популяций. Полученные реконструкции соответствуют данным лингвистов и этнографов – действительно, мнение о том, что Урал первоначально заселялся русскими преимущественно с Севера, а Сибирь – преимущественно с Севера и Урала, но с заметным влиянием переселенцев из других регионов, можно считать практически общепринятым. Например (из Википедии):

«Сибирские старожильческие говоры,  хотя и происходят генетически от северного наречия, утратили часть его архаических черт под влиянием говоров переселенцев с юга России. Вятские говоры и пермские говоры, размещённые на территории Кировской, Пермской и Свердловской областей считаются самыми архаичными среди всех говоров северного наречия, поскольку эти говоры лучше других сохраняют фонетику и морфологические особенности наречия Новгородской земли XIII—XIV веков.»

Из «наказа» тобольским воеводам (1596 год):

«служилых людей в пашню вваживать, чтобы себе пашню пахали и впред бы с Руси хлебных запасов посылати меньше прежнего, и велети пашенных и посадцких людей призывать из Перми, с Вятки, с Солей Вычеготцких на льготу Охочих людей»

При движении на шаг далее в прошлое, начинаются сложности. Насколько достоверно современные новгородские русские и русские Пинеги-Мезени могут представлять средневековых новгородцев и «чудь заволочскую»? Этого мы точно не знаем, хотя косвенные соображения говорят, что могут. Верна ли моя гипотеза о влиянии летописной мери на часть северных русских, или это просто игра ума? Нет нынче мерян, чтобы сравнить. И все же от той эпохи сохранилось достаточно много, чтобы строить детальные предположения.

Предшествующие же эпохи пока обрисовываются только очень крупными мазками. Здесь я не касаюсь результатов, полученных археологами и антропологами. Вероятно, в какой-то момент после «оленеостровца» в регион пришли люди с юга, предки будущих восточных славян, балтов и финнов. Возможно, они говорили на индоевропейских языках, возможно, нет («черепки не говорят»). В какой-то момент часть из них перешла на языки уральской семьи, и я предполагаю, что это связано с притоком «восточных» генетических вариантов. Затем некоторые из потомков перешедших стали индоевропейцами (вновь?), войдя в состав русского народа.

Поэтому очень важно получение большого количества расшифровок древних геномов, представляющих разные эпохи и разные регионы. «Сетка» результатов даст опору, позволяющую реконструировать происходившие миграции с высокой достоверностью. К счастью, в последние годы эта область науки бурно развивается, и я надеюсь, что скоро нас ожидает много новых, интересных результатов.

О «ближневосточном компоненте» палеолитических охотников-собирателей Европы

Сергей Козлов

О «ближневосточном компоненте» палеолитических охотников-собирателей Европы

Описание
Рассмотрена статья Qiaomei Fu et al. «The genetic history of Ice Age Europe». Проведен анализ европейских палеогеномов возрастом от 37 до 8 тысяч лет из данной статьи и более ранних работ. Аутосомный компонент западных охотников-собирателей (WHG) — преимущественно результат генетического дрейфа, гипотеза авторов о его формировании в результате однократной миграции в Европу около 14 тысяч лет назад носителей ближневосточных аутосомных компонентов несостоятельна. Вместе с тем, обмен генофондом с ближневосточными популяциями несомненно происходил, однако для прояснения его истории необходимы палеогеномы с Ближнего Востока. Подтверждаются выводы из более старых работ о наличии ближневосточного («базального») компонента у образца Костенки-14 (человек с Маркиной Горы), отрицаемые в рассматриваемой статье. Вероятно, он связан с компонентом охотников-собирателей Кавказа (CHG). Опровергается вывод авторов о восточноазиатском влиянии на поздних WHG. Проведено моделирование ряда возможных событий смешения и построено дерево вероятных взаимосвязей аутосомных компонентов с размещением на нем имеющихся палеогеномов.

Обсуждение работы Qiaomei Fu et al на форуме «Молекулярная генеалогия».

Новые палеогеномы из статьи
В рассматриваемой статье впервые произведен временной срез геномов жителей Европы верхнего палеолита. Конечно, единичные геномы у нас были и раньше (Костенки-14, Oase1), однако не хватало системности для построения целостной картины изменений в генофонде европейцев на протяжении этого периода. Статья частично решает эту проблему — прочтено несколько десятков новых геномов. К сожалению, остался неохваченным период 19-28 тысяч лет назад (а с учетом лишь геномов приемлемого качества — 19-30 тлн), но и имеющиеся образцы позволяют сделать ряд интересных выводов.

Коротко о содержании рассматриваемой работы, критика
Авторы подтверждают выводы из более ранних работ об угасании вклада неандертальцев в генофонд современных европейцев с ходом времени (предположительно, на неандертальские участки ДНК действовал отрицательный отбор). Далее они касаются нескольких интересных мелочей (присутствие Y-гаплогруппы R1b в палеолитической Европе — образец Villabruna возрастом 14 тысяч лет, появление «мутации светлоглазости» почти одновременно в Европе и на Кавказе (разумеется, это не отменяет вероятности нахождения более древних образцов с этой мутацией впоследствии) и необычные для региона в наши дни митогаплогруппы). После этого авторы переходят к объединению образцов в кластеры и попытке реконструкции их взаимоотношений. По сути, здесь все просто — европейские палеогеномы из одной эпохи объединяются в один кластер. Классические европейские WHG выступают под псевдонимом «кластер Villabruna», их непосредственные предшественники — el Miron, и ряд геномов возрастом 30 тысяч лет (из них лишь один заслуживающего рассмотрения качества) — кластер Vestonice. Чуть более старые GoyetQ116-1 и костенковец не вошли ни в один кластер. Далее делается очень странный вывод, что с появлением кластера Villabruna (в дальнейшем я буду называть их «WHG» согласно общепринятой терминологии), произошло резкое изменение генофонда в результате вливания компонента, связанного с современными ближневосточными популяциями. Формально приводится и альтернативное объяснение — результат нормальной изменчивости среди охотников-собирателей, и группы с меньшей общностью с Ближним Востоком были замещены группами, изначально имевшими большую общность. Однако в abstract статьи попал лишь первый вариант.

Мое объяснение
Даже из диаграммы, которая должна иллюстрировать точку зрения авторов, следует прямо противоположный ей вывод — изменения, относимые к появлению классических WHG, начались задолго до этого и происходили постепенно. «Ближневосточное влияние» (зеленые ромбики) появляется в заметных масштабах уже в предшествующем кластере el Miron, на пять тысячелетий ранее. Но перед этим кластером находится разрыв в девять тысячелетий, где, вполне возможно, мы тоже могли бы увидеть это влияние. Однако на картинке разрыв закрыт и создается впечатление резкого перехода.
Исходное изображение:

ИсходнаяСхема
Отмасштабированная пропорционально реальной временной шкале картинка:
Безымянный-3
Как я покажу в дальнейшем, общность палеообразцов с классическими WHG и современными северными европейцами (которые являются преимущественно потомками WHG) с ходом времени росла постоянно — от костенковца и GoyetQ116-1 к el Miron, Villabruna и Loschbour. По моим предположениям, основной механизм здесь — дрейф генов. Не надо думать, что это был некий целенаправленный процесс — наоборот, дрейф генов во многом случаен (хотя и отбор наверняка сыграл свою роль), но именно то, что получилось в его результате, и стало европейскими охотниками-собирателями мезолита. Поэтому естественно, что чем ближе к нашему времени, тем выше сходство с итоговым результатом процесса.
Вместе с тем, с ходом времени мы наблюдаем и относительное повышение общности с ближневосточными популяциями, хотя и в заметно меньшем масштабе. Однако трудно сказать, кто, когда, сколько раз и на кого влиял. Допустим в качестве модели, что несущие компонент WHG группы повлияли на ближневосточников в относительно недавнем прошлом. Тогда повышение сходства палеогеномов с WHG автоматически будет немного повышать сходство и с ближневосточниками пропорционально доле WHG в их генофонде, даже если в ту эпоху на Ближнем Востоке о WHG и не слыхали. С другой стороны, небольшие равномерные вливания с Ближнего Востока в Европу могли дать такой же эффект. Или же третья группа, вроде CHG, могла повлиять как на WHG, так и на ближневосточников (необязательно одновременно). Словом, точку здесь поставит лишь хорошая выборка палеогеномов с Ближнего Востока -сравнение с современными популяциями всегда оставит место гаданиям.
Что касается восточноазиатского влияния на часть WHG (внимательные читатели критикуемой работы могли заметить, что оно «проявляется» и у одного из древнейших образцов — GoyetQ116-1), то оно объясняется ошибочностью принятия основой для сравнения образца Kostenki-14. Далее я еще коснусь этого.

Использованные для анализа методы и палеообразцы, причины их выбора
В этой заметке я не стал применять свой излюбленный метод — подсчет сумм общих (IBD) сегментов. Хотя качество некоторых образцов вполне позволяет его применить, трудно понять, как при этом надежно сравнить между собой образцы из эпох, разделенных десятками тысячелетий? Ведь сегменты со временем уменьшаются в размерах, при этом скорость процесса сильно зависит от популяционной истории — в одной выборке быстрее, в другой медленнее… Добавим к этому резко различающееся качество прочтения палеогеномов, и за корректность сравнения поручиться становится совершенно невозможно.
Поэтому я решил пойти путем подсчета доли общих снипов (IBS), как простого и объективного показателя. Чем больше значений снипов совпадает, тем выше генетическая близость. Я не согласен с мнением, что учитывать надо лишь производные (derived) аллели — ведь если оба варианта закрепились в популяции, то для дрейфа генов уже безразлично, какой из них предковый. Для того, чтобы поставить геномы разного качества в одинаковые условия, я случайным образом выбрал для каждого аллеля одно из прочтений и оставил лишь его, то есть создал искусственную гаплоидность, как часто делается с палеогеномами от лаборатории Райха. Обычно я ругаю этот подход, как разрушающий IBD-сегменты, но в данном случае он приносит пользу. Далее я ограничил набор снипов пересечением трех множеств — снипы, используемые мной для сравнения с современными выборками и снипы, прочитанные у образцов Villabruna и GoyetQ116-1. Более логично было бы выбрать в качестве базового образца WHG прочитанный наиболее качественно из всех Loschbour, однако носитель R1b Villabruna в любом случае будет вызывать интерес общественности и подозрения в отличиях от других WHG, поэтому решение было принято в его пользу. Что касается GoyetQ116-1, то из всех древних образцов он наиболее связан с «промежуточным» между палеолитическими европейцами и WHG el-Miron, за что и был выбран в качестве второй опоры. Итоговый набор составил около 107 тысяч снипов. Для сравнения Villabruna и Goyet с el Miron было проведено отдельное уменьшение набора до присутсвующих у всех троих 65 тысячи снипов.
Среди остальных использованных палеообразцов хорошо прочитанные Loschbour, Ust-Ishim, Kostenki, NE1, Kotias отмасштабировались практически без потерь в количестве снипов, Mota1 и Motala12 — с незначительными потерями. Несколько хуже отмасштабировались Vestonice16, «карел» c Оленьего острова I0061, «мальтинец» и один из наиболее ранних геномов неолитчических земледельцев Анатолии I0707, но они также были включены в сравнение, поскольку представляют явный интерес. Судя по сравнению результатов I0707 и его близкого аналога из Европы NE1, подсчеты сохранили корректность.

Таблица результатов и ее применение
Результаты сравнения сведены в таблицу, с которой желающие могут ознакомиться по ссылке. Кроме современных выборок, приведены и выборки из имеющихся палеогеномов (конец таблицы), хотя их качество очень разное. Впрочем, интересующие нас в первую очередь западные охотники-собиратели WHG и ранние неолитические земледельцы Анатолии AEF представлены вполне неплохо, хотя по Анатолии пока, к сожалению, охвачена лишь крайняя западная часть. Наиболее древние европейцы — Kostenki14, GoyetQ116-1, Vestonice16 объединены в выборку pre-WHG. Число в каждой ячейке — доля совпадающих аллелей для текущего образца с этой выборкой — допустим, 65 означает 65% общих снипов (на данном наборе снипов — число сильно зависит от набора).
Несмотря на все ухищрения, призванные поставить геномы в равные условия, прямое сравнение результатов оказалось невозможным — у некоторых образцов чуть больше совпадающих снипов со всеми выборками, у некоторых — чуть меньше. Разница невелика, но в этом методе играют роль даже доли процента. Возможно, причина — в разном качестве прочтения, возможно — индивидуальные особенности образцов или что-то еще. Однако решение проблемы существует. Поскольку увеличение или уменьшение доли совпадающих снипов примерно пропорционально для всех выборок, можно взять соотношение этой доли с выборкой, равно удаленной от всех («outgroup»). В качестве подобного ориентира я решил взять объединение всех четырех используемых мной выборок из Африки южнее Сахары — представителей пигмеев мбути и бьяка, кенийских банту, нигерийского племени йоруба. На графике ниже приведена доля общих снипов для каждого из палеогеномов с соответствующей выборкой (Balt, Druze, WHG и т.д.) после приведения доли общих снипов с африканцами к одинаковому с другими образцами значению путем домножения на коэффициент. Для проверки корректности метода на график помещены другие outgroups, которые в исследуемый период явно не могли участвовать в обмене генами ни с африканцами, ни с исследуемыми палеообразцами — выборка папуасов. Как интерпретировать их результат, я опишу чуть ниже.
График1
Палеогеномы (kya означает тысяч лет назад):
Ust-Ishim — усть-ишимский человек, наиболее древний приемлемо прочитанный геном человека современного типа.
Kostenki-14, GoyetQ116-1, Vestonice16 — древние геномы из Европы
el-Miron — предшественники WHG
Villabruna, Loschbour — WHG
Motala12 — охотник-собиратель из Швеции, представитель группы SHG (охотники-собиратели Скандинавии)
Karelian — образец с Оленьего Острова, так называемый EHG (восточный охотник-собиратель). Malta — древний «сибиряк» со стоянки Мальта, образец аутосомного компонента ANE — предковые северные евразийцы
EHG находятся в промежутке между WHG и ANE и, вероятно, являются их смесью.
I0707 — ранний неолитический земледелец с запада Анатолии
NE1 — ранний неолитический земледелец с территории Венгрии
Kotias — мезолитический охотник-собиратель с Кавказа

Ради интереса я также поместил на график результаты современного восточноевропейца с предками из трех восточнославянских народов (Modern EE).

Левая часть графика иллюстрирует изменения в генофонде европейцев с течением времени (усть-ишимский человек добавлен для сравнения, хотя он и не из Европы), правая — другие представляющие интерес геномы.
При сравнениях палеогеномов с палеовыборками сравнение «сам с собой» пропускалось.

Интерпретация сравнения с выборкой папуасов
Как мы видим, соотношение «родство с папуасами»/»родство с африканцами» для палеоевропейцев представляет собой почти горизонтальную линию. Это значит, что с какой скоростью европейцы «отдрейфовывали» от папуасов, примерно с такой же они отдалялись и от суб-сахарцев. Выглядит логично. Усть-ишимец выше всех, и это тоже логично — ведь он находится наиболее близко во времени к моменту расхождения папусов, восточноазиатов и WHG/ANE — значит, он и должен иметь относительно больше общего с папуасами. С другой стороны, для образца Kotias, имеющего много «базального» компонента, логично иметь заметно более низкое значение этого соотношения — момент расхождения «базальников» и предков остальных не-африканцев (включая папуасов) был очень давно. Ранние земледельцы, как смесь «базальников» и WHG, закономерно находятся в промежутке между WHG и Kotias. Даже неравномерности в графике охотников-собирателей находят свое объяснение — как я покажу позже, у костенковца вероятно небольшое влияние «базальников», и он проваливается на графике. Также я предполагаю небольшое базальное влияние у WHG и el Miron — соответственно, они находятся чуть ниже Goyet, мальтинца и оленеостровца. Итак, контрольная проверка показала применимость метода.

Важная ремарка — когда я в дальнейшем буду писать о росте доли общих снипов (график с течением времени идет вверх), надо понимать, что этот рост относительный. Есть некий базовый «уровень разбегания» — это скорость, с которой мы с каждым поколением отдаляемся от африканцев и папуасов из-за дрейфа генов и других факторов. Если в относительных значениях общность с друзами растет, это не значит, что она точно растет в абсолютных значениях — возможно, она тоже падает, но из-за обмена генами с нами падает медленнее, чем могла бы. А может, с друзами общность медленно растет, но с отстающими от них йеменцами медленно падает. Все зависит от соотношения скорости дрейфа генов, который нас растаскивает, и скорости обмена генами, который объединяет. В данном случае нас интересует, что удается увидеть наличие факта этого обмена.

Интерпретация графика
В первую очередь бросается в глаза пунктирная красная линия вверху — доля общих снипов с выборкой WHG. Как легко заметить, рост был почти непрерывен в течение всего времени, лишь, немного споткнувшись на образце Vestonice (возможно, поэтому в статье отнесли этот кластер к «тупиковой ветви». Впрочем, на сравнении с балтской выборкой такого не происходит, а современные выборки все же качеством на порядок выше — значит, доверия им больше). Ниже сплошной красной линией приведено сравнение с наиболее близкой к WHG выборкой наших современников — жителями восточного побережья Балтики (выборка Balt состоит из 11 литовских образцов, 6 латышских, 2 из Латгалии и одного с российско-латышской границы). Здесь картина аналогична — каждый следующий во времени образец ближе к балтам, чем предыдущий, включая даже Vestonice16. Очевидно, что объяснить это монотонное приближение единоразовой миграцией невозможно, а вот процессы генетического дрейфа укладываются в модель замечательно. Зеленые линии — аналогичная пара для неолитических земледельцев (пунктир) и считающихся (по результатам аутосомного анализа) наряду с армянами их наиболее сохранившимися представителями на Ближнем Востоке друзами Палестины. Здесь мы тоже видим рост, но более медленный по сравнению с ростом сходства с WHG. Если учесть, что порядка четверти генофонда AEF считается полученным от WHG, то примерно половину роста необходимо отнести на этот фактор. Оставшаяся половина и будет искомым обменом генами между «базальниками» и WHG. Для моделирования «базальников» зачастую применяют выборку из Йемена, как наиболее отдаленную от европейцев среди ближневосточников. Неизвестно, насколько это моделирование корректно, однако я включил их в сравнение (голубая линия). Родство с ними также растет, хотя и медленнее, чем с AEF или друзами. Однако, начав заметно ниже папуасов, ближе к нашему времени йеменцы успешно обгоняют их и становятся более близкими к WHG. Ведь обмен генами с йеменцами гораздо менее затруднен географически, чем с папуасами.

Несколько слов о правой половине графика
Представитель сестринской к WHG клады — ANE, мальтинец (24 тлн), обладает относительным сродством с WHG примерно на уровне европейских образцов 30-37 тысяч лет назад. Можно предположить, что момент расхождения был не слишком задолго до этого времени. При этом сродство с «балтской» выборкой относительно выше — поскольку в Восточной Европе присутствует не только WHG, но и доля ANE. У «карела» EHG связь с WHG закономерно выше (поскольку он и сам частично WHG), соответственно выросла и связь с ближневосточниками. То же самое, но в еще большей степени можно сказать про образец из Швеции Motala12 (скандинавские охотники-собиратели — SHG считаются WHG с примесью ANE). На паре AEF/NE1 можно пронаблюдать, как при продвижении в Европу у неолитчиков вырос вклад WHG, зато упал «ближневосточный» компонент. У «палеокавказца» Kotias по сравнению с ними резко падает связь с восточноевропейцами, и менее резко, но тоже падает — с ближневосточниками.

Определенный интерес представляет и сравнение с некоторыми другими современными выборками. Я не стал помещать их на основной график, чтобы избежать его перегруженности, но размещаю более полный вариант ниже.
График2
Сардинцы добавлены, как наиболее яркие современные представители неолитических земледельцев, удмурты — как связанные с EHG, корнцы — с более западным вариантом WHG, калаши — за «калашский» кластер, кеты и южноамериканские индейцы каритиана — за связь с ANE.

Карты для палеогеномов

Теперь перейдем к рассмотрению каждого из палеогеномов отдельно. Для начала несколько слов об усть-ишимце. Хотя он и наиболее близок к общему корню, но все же, судя по всему, в его времена расхождение неафриканского человечества на основные ветви уже состоялось. Ближайшими к усть-ишимцу выборками оказались меланезийцы и папуасы, далее идут жители юго-восточной Азии, тамилы и восточноазиаты.

Каждая карта нормируется отдельно — ярко-красным выделяется наиболее хорошо связанная с этим геномом выборка из представленных, ярко-зеленым — наименее связанная. Не представленные на карте выборки (четыре африканские, две америндские, папуасы и меланезийцы) в нормировании не участвуют, по сравнению с африканцами все неафриканцы были бы просто разными оттенками красного. Карты в этой статье построены согласно доле общих снипов (IBS), по тем же таблицам, что и предыдущий график. Это не IBD-анализ. В более хорошем качестве карты можно загрузить отсюда
UstIshim.png
Хотя европейцы и среднеазиаты чуть ближе к усть-ишимцу, чем североафриканцы и ближневосточники, разница сравнительно невелика. Частично удаление европейцев от усть-ишимца следует отнести на влияние «базальников», но думаю, WHG и сами по себе успели хорошо удалиться от восточной ветви человечества. Поэтому на роль представителя общей для всех базы усть-ишимец не годится.

GoyetQ116-1
По причинам, описанным мной в разделе «Использованные для анализа методы и палеообразцы», из наиболее древних европейских геномов на роль «базового» был выбран GoyetQ116-1. И, как показывает карта, уже 35 тысячелетий назад европейские аутосомы начали приобретать свои основные черты. На первом месте по схожести — уже упоминавшаяся выборка «Balt», она будет попадаться нам вновь и вновь. Родство с остальными европейцами выражено вполне отчетливо. Однако интересно обратить внимание на другие регионы. Во-первых, родство с североафриканскими и ближневосточными популяциями находится на том же уровне, что и родство с восточноазиатами. Видимо, мы поймали тот момент, когда протоевропейцы были равноудалены от этих двух стволов. В дальнейшем родство с восточноазиатами будет ослабевать, а с ближневосточниками — усиливаться. Как говорится, «география-это судьба».

GoyetQ116-1.png
Еще раз повторюсь, что речь идет о современных ближневосточниках. Насколько они репрезентативны по сравнению с населением региона 10, 20, 50 тысяч лет назад — совершенно непонятно.
Очень интересно «вторичное пятно» в Индии. Вероятно, оно было бы соединено яркой полосой с европейским ареалом, если бы не размывшие ее миграции «базальников» с юго-запада и восточноазиатов с северо-востока. При этом в юго-восточной Индии и Бирме ареал связи с прото-WHG перекрывается с ареалом хорошей связанности с усть-ишимцев. Не отсюда ли когда-то разошлись две наших ветки? Я не являюсь специалистом по Y-гаплогруппам, но кажется, с максимумом разнообразия макрогаплогруппы K, включающей в себя в качестве ветвей такие известные гаплогруппы, как N, O, R, Q, это соотносится хорошо (в таком случае, «базальников» можно связать с IJ). Разумеется, сюда также относится оговорка о возможной несхожести современного и древнего населения.

Vestonice16
Картина для Vestonice16 довольно схожа с картой GoyetQ116-1.

Vestonice16.pngПри сравнении видно, что связь с восточной (и в первую очередь Юго-Восточной) Азией несколько ослабла, а связь с западными выборками (как европейскими, так и ближневосточными) слегка усилилась. Однако разница невелика и из-за этого сравнительная карта выглядит некрасиво. Чтобы избежать загромождения излишними иллюстрациями, ее не привожу.

Kostenki14
Как и Вестонице, костенковец весьма схож с GoyetQ116-1. В данном случае мне хочется привести именно карту разницы со вторым палеогеномом, чтобы продемонстрировать его «южный» компонент. Зеленое — больше общего с костенковцем, красное — с Goyet.
GoyetQ116-1VsKostenki14Merged.png
Из-за схожести двух геномов карта очень зашумлена, однако противоположности проявляются хорошо. Ярко-зеленое прекрасно совпадает с областью распространения компонента кавказских охотников-собирателей CHG (ниже будет приведена карта и для них). Видны его максимумы на Кавказе и у калашей, на Балканах, и даже (хотя это может быть погрешностью) замечавшееся при анализе «ямных» геномов пятно в северо-западной Европе. Красное же в юго-восточной Азии — район максимальной «небазальности». Оттенки бурого и близкие к ним разглядывать нет смысла, также, как и отдельные «выбросы».
Как будет показано далее, костенковец наиболее успешно моделируется, как смесь 86% GoyetQ116-1 и 14% Kotias. Строго говоря, мы не можем утверждать, что GoyetQ116-1 представляет чистых прото-WHG, а костенковец является смесью с южанами. Не исключено, что «южный» компонент присутствует и у GoyetQ116-1, просто его меньше. В конце концов, смешение могло произойти еще по пути в Европу.

el Miron
Закончив с наиболее древними геномами, мы можем перейти к рассмотрению динамики европейского генофонда во времени (впрочем, до момента прибытия неолитических земледельцев она довольно однообразна). Поэтому ближайшие карты будут только сравнительными. Итак, красное — выборки, сходство с которыми у образца el Miron (19 тлн) усилилось по сравнению с образцом GoyetQ116-1 (35 тлн). зеленое — выборки, сходство с которыми ослабло. Бурое — возможно, слегка усилилось, возможно, ослабло, но не так сильно, как с зеленым. Об этом я написал в разделе «важная ремарка» после графика.

elMironVsGoyetQ116-1.png

Villabruna

VillabrunaVsElMiron.pngКак видите, прибытие Villabruna никакого переворота не произвело. Как и раньше, с ходом времени сходство с циркумбалтийцами усиливалось, с восточноазиатами — ослабевало, с ближневосточниками — то ли слегка усиливалось, то ли медленно ослабевало, но медленнее, чем с восточноазиатами.

Loschbour
Этот образец настолько схож с предыдущим (см график), что разностная карта показывает один шум. Поэтому я приведу конечный итог — вот к чему пришли WHG спустя 29 тысячелетий:
LoschbourVsGoyetQ116-1.png
А также сравнение — где произошли наибольшие изменения
Сравнение Loschbour и GoyetQ116-1

LoschbourVsGoyetQ116-1.png
Дальше всего «убежали» от протоевропейцев жители юго-восточной Азии, далее идут Индия, Восточная Сибирь и Северная Африка. За пределами основного региона меньше всего «скорость убегания» на Северном Кавказе, у ираноязычных памирцев, греков-киприотов и кетов (везде можно предположить контакты с носителями WHG).

Теперь перейдем к Кавказу и Анатолии. Уже упоминавшийся в пояснениях к карте для костенковца кавказский охотник-собиратель Kotias:

Kotias.png

Интересно попытаться расщепить этот компонент на составляющие. В значительной части он несомненно связан общим корнем с прото-WHG (хорошо выделяются оба значимых для этого компонента региона — Европа и Индия). Попробуем вычленить не-WHG часть путем сравнения с GoyetQ116-1.

KotiasVsGoyetQ116-1.png

В первую очередь закономерно выделяются зоны наибольшего распространения CHG — Кавказ и Афганистан (калаши)/Пакистан/Иран. Однако кроме этого, проявляется и связь с Ближним Востоком, Анатолией, Балканами — регионами распространения ранненеолитических земледельцев. Таким образом, можно предположить, что у CHG имеется связь с ближневосточным аутосомным компонентом (знаменитые «базальники»), который впоследствии стал основой генофонда неолитических земледельцев и через них повлиял на современных европейцев. Потому-то Европа и выглядит на этой карте в целом нейтрально — на юго-востоке персиливает влияние «базальников», на северо-востоке — WHG. И наоборот, Восточная Азия, куда базальники не добрались, оказалась ярко-зеленой — это говорит о том, что время их расхождения с восточноазиатами древнее, чем время расхождения восточноазиатов и WHG.

Тот же самый эффект, но с противоположной стороны мы можем наблюдать, сравнив Kotias и геном ранненеолитического земледельца из Анатолии:KotiasVsAEF.png

Поскольку теперь Kotias менее «базальный», на этот раз Восточная Азия оказалась красной. Хотя наиболее выражен «не-базальный» компонент Kotias в Индии. Поэтому я считаю, что компонент CHG следует считать смешанным между «ближневосточным» (предковым к AEF) и «индийским» (предковым к WHG) компонентом.

Раз уж я неоднократно упомянул AEF, приведу карту и для представителя этой выборки I0707.

AEF.png

Среди наших современников наиболее схожими с ним являются жители острова Сардиния, находящемся в западной части Средиземного Моря. Можно сказать, что компонент ранних земледельцев сохранился там, словно в заповеднике. В целом он лучше представлен в южной Европе, чем на Ближнем Востоке. Хотя не стоит забывать — для анализа у нас есть лишь палеогеномы с крайнего запада Анатолии, на границе с Европой. Вполне возможно, что ближневосточные геномы оказались бы ближе к современным выборкам с Ближнего Востока. Пока же мы можем сказать, что в регионе наиболее схожими с имеющимися образцами неолитчиков оказались армяне, друзы и греки-киприоты.

Наконец, последними я хочу привести две карты для образца возрастом в 24 тысячелетия со стоянки Мальта в Прибайкалье. На основе его анализа в свое время было выдвинуто предположении о существовании «популяции-призрака» — ANE, предковых северных евразийцев, которые повлияли на многих соседей, в том числе на американских индейцев, но сами к нашему времени исчезли. ANE считаются родственной к WHG веткой и не несут восточноазиатского или ближневосточного влияния. В схожести картин можно легко убедиться:

MaltaIBDext.png

Если WHG это западный вариант, то у ANE основная тяжесть приходится на выборки из Западной Сибири (кеты), Урала (манси) и недавных мигрантов из этого же региона (саами). Очевидно, в прошлом ареал ANE простирался заметно восточнее, но к нашим дням они оказались вытеснены мигрантами с юга, из Восточной Азии. Интересно сравнить, каковы же основные отличия ANE от прото-WHG:

MaltaVsGoyetQ116-1.png

Пятно в западной Сибири вполне ожидаемо. Меня более заинтересовало пятно вокруг выборки калашей в средней Азии. Если вспомнить о связи этого же региона с кавказскими охотниками-собирателями, то уместно предположить, что здесь мы нащупали корень не-ближневосточной части CHG. При анализе Admixture мальтинец показывал наличие около 30% CHG, поэтому я долго ломал голову, как связать этот факт с явной не-ближневосточностью мальтинца. Теперь все становится на свои места — взаимосвязь идет через «калашский» компонент.
Что касается отличий прото-WHG от ANE, то они чуть ближе к восточноазиатам (может, их точка отделения чуть юго-восточнее, чем у ANE?), и ближе к «базальникам», что вновь заставляет меня думать о «базальном» влиянии уже у GoyetQ116-1. В конце концов, если у двух других образцов оно есть, может быть и у этого. Но пока более «чистых» образцов у нас нет, сравнить не с кем. С другой стороны, мальтинский образец на одиннадцать тысячелетий моложе — возможно, за это время он сильнее отдрейфовал от остальных веток.

Численная оценка доли вклада каждого компонента в некоторые из адмиксов.
В процессе работы над сравнительными картами у меня возникла мысль, не попробовать ли сделать численную оценку на основе все тех же таблиц общности IBS с современными выборками. Действительно, если я предполагаю, что не-WHG компонент костенковца очень похож на результаты кавказского охотника-собирателя Kotias, то я могу проверить, насколько близка к костенковцу будет комбинация 1% Kotias + 99% GoyetQ116-1, 2% Kotias + 98% GoyetQ116-1 и так далее, проверив сумму среднеквадратичных отклонений по всем столбцам. Для того, чтобы исключить влияние уже упоминавшегося в начале статьи эффекта, для каждой тройки сравниваемых геномов производилось нормирование. Таким образом, суммы IBS с современными выборками по каждому геному совпадали.

Для проверки модели я решил использовать геном, смешанное происхождение которого достоверно известно. Как мы знаем, по мере продвижения в Европу и с ходом тысячелетий исходный генофонд неолитических земледельцев постепенно размывался благодаря влиянию местных охотников-собирателей. Следовательно, геном семитысячелетней давности земледельца из Венгрии NE1 должен хорошо моделироваться, как смесь земледельца из Анатолии AEF (возраст генома на тысячу лет больше) и WHG. Так и получается — если в роли представителя WHG выступает более ранний геном Villabruna, модель предсказывает соотношение 11% WHG на 89% AEF, для более позднего Loschbour соотношение почти такое же — 10% WHG на 90% AEF. Среднеквадратичное отклонение при этом меньше единицы — в дальнейшем будем считать такое значение признаком того, что смешение моделируется хорошо.
Ряд результатов для заинтересовавших меня вариантов моделирования приведен на изображениях ниже:
Оракул01.png
Кратко прокомментирую. При попытке смоделировать NE1, как смесь WHG и CHG отклонение резко возрастает, что говорит о неудачности такой модели по сравнению с предыдущим вариантом. Родственные WHG охотники-собиратели ANE могут частично служить заменой Villabruna, однако результат хуже. Таким образом, результаты моделирования полностью соответствуют здравому смыслу. Я решил попробовать сделать еще один шаг и ввести в модель искусственный образец «базальника», полученный вычитанием из геномов неолитических земледельцев 15-20 процентов вклада WHG. Конечно, точная доля компонента WHG в геномах неолитчиков нам неизвестна, однако это лучше, чем применять в качестве «базального» образца геном AEF.
Результат костенковца действительно лучше всего моделируется, как смесь 86% прото-WHG и 14% CHG (Kotias), что мы и наблюдали на сравнительной карте. Чуть хуже вариант 94% прото-WHG на 6% базальников. Для другого древнего образца из Европы, Vestonice16, картина противоположная — базальники лучше подходят в качестве второй стороны, чем кавказцы. Интересно, что наиболее старые образцы Y-гаплогруппы I пока что найдены именно у представителей кластера Вестонице — возможно, это не случайное совпадение и вливание «базального» компонента связано с приходом носителей этой гаплогруппы.
«Опорный» прото-WHG GoyetQ116-1 не моделируется, как смесь кого-либо из двух других представителей группы и южан. Однако он может быть относительно неплохо смоделирован, как 88% костенковца и 12% мальтинца. Вероятно, это связано с отсутствием «базального» компонента у образца со стоянки Мальта.

Оракул02.png
Носитель R1b Villabruna может быть смоделирован, как смесь одного из своих предшественников и базальников, однако отклонение при этом слишком велико, чтобы считать моделирование успешным.
CHG Kotias плохо моделируется, как смесь каких-либо двух других образцов. Наиболее удачный вариант — 48% Мальта и 52% базальники (что еще раз говорит о его промежуточном положении между двумя кладами).
«Оленеостровец» EHG наиболее хорошо моделируется, как  смесь 51% SHG (Motala12) и 49% ANE (мальтинец), отклонение великовато.

Оракул03.png
«Скандинав» Motala12 хорошо моделируется, как смесь 72% WHG и 28% EHG
Промежуточный между прото- и классическими WHG образец el Miron оптимально моделируется именно как смесь первых (GoyetQ116-1) и вторых (Villabruna). Однако при этом он оказывается ближе к более древним родственникам, хотя расстояние по времени до них гораздо больше. Возможно, это объясняется ускорением дрейфа в эпоху 19-14 тлн, но мне кажется более правдоподобным другое объяснение — WHG это потомки сестринской к el Miron ветви, поэтому часть дрейфа у них прошла отдельно.

Дерево вероятных взаимосвязей
Попытавшись максимально подробно и непротиворечиво свести вместе как данные, полученные в результате вышеописанных исследований, так и информацию из других работ, я изобразил дерево возможных взаимодействий палеообразцов и аутосомных компонентов. Схема достаточно условна, поэтому размещать на ней датировки далее 40 тысяч лет назад не имеет смысла. Гипотетический общий компонент «мальтинца» и охотников собирателей-кавказа я обозначил «Kalash», но надо понимать, что под этим вовсе не подразумеваются современные калаши — просто неким образом связанная с ними древняя предковая популяция. Серыми стрелками между «базальниками» и CHG, «базальниками» и WHG обозначено, что взаимодействия, по-видимому, были, но обозначить их одиночной линией на схеме тяжело. «Уральский» компонент — это часть генофонда народов Урала и западной Сибири, которую можно отнести к европейской ветви, для получения картины современного состояния необходимо объединить ее с восточноазиатским влиянием.

Дерево08.png

Думаю, что на самом деле все гораздо сложнее и запутаннее, чем изображено здесь )) Будем ждать новых расшифровок древних геномов для дальнейшего развития схемы.

Реконструкция миграций по палеоДНК

Сергей Козлов

Реконструкция миграций по палеоДНК

Накопившийся за последние годы объем информации по аутосомной палеоДНК стал уже слишком велик, а потому начал требовать систематизации. Для этой цели я нанес взаимоотношения между собой ряда образцов из Евразии на нижеследующую схему:

ВзаимоотношенияПалеообразцовv3

Стрелки отображают вероятные влияния, однако источником их не обязательно является культура, указанная в ячейке, из которой выходит стрелка. Здесь больше привязка к географии — если влиял и не этот конкретный источник, то какой-то близкий и схожий. Многие ячейки попросту оставлены пустыми. В противоположность этому, остриё каждой стрелки указывает на конкретные образцы из определенной культуры, проанализированные учёными.

Чтобы не загромождать схему, для Европы я не стал создавать множество колонок, поскольку они были бы структурно схожи между собой. Кроме отображенной в таблице Центральной Европы (в основном это образцы из Германии), неплохой временной срез существует по северной Испании, где пещеры хорошо сохранили древние образцы. Совершенно аналогично предыдущему случаю, в мезолите местность населяют охотники-собиратели WHG, далее появляются неолитические земледельцы (аутосомно близкие по всей Европе), после чего в их генофонде понемножку начинает расти доля WHG, вплоть до халколита. Более поздние палеообразцы оттуда мне пока неизвестны.

Охотники-собиратели юго-западной Скандинавии (SHG) по аутосомам находились между WHG и EHG (похоже, что мезолитические охотники-собиратели северо-западной Евразии формировали континуум с плавным переходом от WHG на западе к ANE на востоке). Впоследствии мы видим появление все тех же неолитических земледельцев, а еще позже в регион попадают «ямноподобные» носители CHG, как и в Германии. Среди археологов нередко принято выделять этих пришельцев в отдельную от их аналогов с южного берега Балтики (культура шнуровой керамики) культуру боевых топоров, или ладьевидных топоров. И генетика дает для этого некоторые основания — в отличие от германских шнуровиков, у образца из Швеции вклад CHG заметно ниже, а влияние северных охотников-собирателей — выше. Однако и здесь носители CHG явно свежие пришельцы, ранее этот компонент в регионе не находили.

Третьим регионом, по которому имеется временной срез, является Венгрия. Можно было бы включить ее в центральноевропейскую колонку, однако у венгерских образцов имеется своя специфика. Если на протяжении мезолита-неолита ситуация развивается по привычной схеме, то в эпоху бронзы новоприбывшее население заметно отличается от тех, кто мигрировал в более северные районы. Да, растет доля «кавказского» компонента, но он более «анатолийский», чем «степной-ямный» (казалось бы, именно в степной Венгрии можно в первую очередь ожидать «ямный» компонент). При этом доля «охотничьего» компонента у них также заметно повышена по сравнению с неолитчиками. Возможно, эти люди и ответственны за аутосомный сдвиг у представителей ККК и Унетицкой культуры, отображенный в таблице. С этого момента в Центральной Европе наличествуют все основные имеющиеся в ней в наши дни аутосомные компоненты и население становится достаточно схожим с нашими современниками.

К сожалению, между Волгой и Карпатами до сих пор не проанализировано ни одного образца из обсуждаемого периода (единственный удостоившийся подобной чести — палеолитический образец с Маркиной Горы (Костёнки-14), для нашей цели бесполезен). Поэтому остается лишь строить предположения, какие изменения происходили в генофонде населения Восточноевропейской равнины в это время. Когда будет закрыта эта дыра, на данный момент мне совершенно непонятно. Что касается Средней Азии и Кавказа, то мы можем ожидать появления новых результатов оттуда в обозримом будущем.

 

 

Охотники-собиратели Кавказа и южный генетический полюс ямников

Сергей Козлов

Охотники-собиратели Кавказа и южный генетический полюс ямников.

За прошедший год в научный оборот было введено множество палеогеномов из Европы и евразийской степи. Было доказано, что в западной части Европы произошло как минимум два резких смещения аутосомного ландшафта — сначала на палеоевропейские охотники-собиратели были замещены пришедшими из Анатолии неолитическими земледельцами (впрочем, часть их генофонда все же сохранилась), а впоследствии уже земледельцы оказались сильно потеснены новыми пришельцами, генетически схожими с представителями ямной КИО. Их след хорошо выделяется в современной Европе — во-первых, это относительно недавно обнаруженный, но ставший широко известным среди интересующихся геногеографией компонент ANE, во-вторых же, «загадочный» южный компонент ямников.

Авторы первой из опубликованных работ по аутосомам ямников смоделировали их, как смесь ~50 на 50 мезолитических восточноевропейских охотников-собирателей (EHG) и современных армян (впрочем, еще лучше на эту роль подошли иракские евреи, но их решили пропустить). Эта модель сразу вызвала во мне отрицательное отношение, поскольку у армян хорошо представлен аутосомный компонент неолитических земледельцев, а у ямников он не обнаружен в сколь-нибудь значимых количествах. Таким образом, модель изначально была неверна, но, к сожалению, была растиражирована еще до выхода статьи в свет (благодаря «утечкам» от авторов) и завладела многими умами. Постепенно вокруг слова «армянский» даже перестали ставить кавычки ))

К счастью, над палеогеномами работает целый ряд команд ученых и одна из них решила обратить внимание не только на северные палеообразцы, но и на остававшиеся долгое время в пренебрежении южные. Первой ласточкой стали два охотника-собирателя, жившие (согласно радиоуглеродной оценке) 9 и 13 тысяч лет назад на территории нынешней Грузии. В запаснике у этой команды еще немало могущих представлять интерес образцов древней ДНК, поэтому ждем дальнейших работ.

В качестве основного был использован более поздний из двух образцов, найденный в пещере Kotias. Он прочитан с весьма хорошим для палеогенома качеством (что позволило мне использовать его для подсчета IBD-сегментов). Моделирование показало, что в качестве «южного полюса» генофонда ямников кавказские охотники-собиратели (для них авторы статьи ввели новое сокращенное название — CHG) подходят намного лучше, чем любая из современных выборок:

CHGF3Stat

Это и неудивительно — ведь доминирующим аутосомным компонентом в предпочитаемом мной калькуляторе MDLP K27 у Kotias является Gedrosia-Caucasian, о котором я уже писал:

Однако с точки зрения предковых компонентов Admixture такая модель — далеко не лучший вариант, «южный» ямный компонент скорее связывается с чем-то в промежутке между Восточным Кавказом и Средней Азией. Как и предполагалось, он коррелирует с бимодальным компонентом, условно называемым Gedrosia. Исходя из современных максимумов, его исторический центр находится где-то в южном Прикаспии, возможно, восточнее. Судя по всему, он представляет собой результат смешения «ближневосточного» компонента ENF и ANE, поэтому теоретически исторического центра может и вообще не быть.

Как выяснилось, девять тысячелетий назад этот компонент преобладал и в более западных районах. Что ж, это делает его только еще более подходящим.

Результаты Kotias в K27:

0.42%   Nilotic-Omotic
  2.22% Ancestral-South-Ind.
  3.66% North-European-Balt.
  0.00% Uralic
  0.01% Australo-Melanesian
  1.79% East-Siberian
  0.00% Ancestral-Yayoi
30.28%   Caucasian-Near-East.
  0.00% Tibeto-Burman
  0.00% Austronesian
  0.00% Central-African-Pygm
  1.05% Central-African-HG
  3.66% Nilo-Saharian
  0.00% North-African
52.04%   Gedrosia-Caucasian
  0.00% Cushitic
  0.00% Congo-Pygmean
  1.73% Bushmen
  0.00% South-Meso-Amerind.
  0.00% South-West-European
  0.00% North-Amerindian
  0.00% Arabic
  0.01% North-Circumpolar
  3.13% Kalash
  0.00% Papuan-Australian
  0.00% Baltic-Finnic
  0.00% Bantu

Карта сумм IBD-сегментов Kotias с образцами из современных выборок:

KotiasSnpc-100IBDext

Лидерами по сумме сегментов оказались грузины (приведен список первых 25 результатов):

Georgian 71,79
Abkhazian 70,75
Lezgin 68,27
Greek_Azov 67,15
Balkarian 65,02
Kurd 64,38
Ossetian 62,66
Armenian 61,98
Nogay 60,38
Bosnian 60,23
Slovenian 60,02
Chechen 59,07
Adygei 58,39
Cypriot 58,28
Turkish 55,86
Kosovar 54,64
Ukrainian-West-and-Center 54,17
Bulgarian 53,21
Slovak 53,01
Cornish 52,46
Croatian 52,21
Kumyk 51,96
Makrani 51,91
Syrian 51,78
Greek 51,68

Что ж, можно их поздравить с генетической преемственностью на протяжении десятка тысячелетий. Однако по пропорциям компонентов Admixture грузины и абхазы довольно заметно отличаются от Kotias:

Abkhasian_S3 Georgian_Kaheti_R2 Georgian_West_R4 Svan_R3
Nilotic-Omotic 0,24 0,00 0,52 0,06
Ancestral-South-Indian 0,75 0,92 0,44 0,31
North-European-Baltic 8,58 5,60 6,87 6,93
Uralic 2,17 1,69 0,72 2,34
Australo-Melanesian 0,27 0,07 0,59 0,42
East-Siberean 1,20 0,00 0,20 0,42
Ancestral-Yayoi 0,72 0,00 0,00 0,44
Caucasian-Near-Eastern 40,79 41,08 45,61 42,85
Tibeto-Burman 0,00 1,09 0,12 0,38
Austronesian 0,72 0,20 0,00 0,23
Central-African-Pygmean 0,05 0,06 0,20 0,00
Central-African-Hunter-Gatherers 0,22 0,15 0,29 0,18
Nilo-Saharian 0,55 0,01 0,02 0,15
North-African 0,50 1,17 0,90 0,31
Gedrosia-Caucasian 32,01 31,65 33,18 35,31
Cushitic 1,17 1,56 0,31 0,42
Congo-Pygmean 0,00 0,25 0,18 0,35
Bushmen 0,04 0,00 0,00 0,00
South-Meso-Amerindian 0,27 0,04 0,14 0,12
South-West-European 2,68 5,06 2,73 1,91
North-Amerindian 0,13 0,04 0,13 0,23
Arabic 2,42 6,83 3,56 3,72
North-Circumpolar 0,47 0,09 0,99 0,41
Kalash 2,38 2,33 1,66 1,77
Papuan-Australian 0,42 0,11 0,33 0,32
Baltic-Finnic 1,25 0,00 0,20 0,14
Bantu 0,00 0,00 0,11 0,28

Как видно, компонент Gedrosia-Caucasian у них стал заметно ниже, а более западные и южные Caucasian-Near-Eastern, Arabic, South-West-European — выросли. Вырос и «северный» North-European Baltic. Думаю, что это связано с миграциями в регион новых групп, что несколько размыло изначальный генофонд. Поэтому современные грузины подошли на роль «южного компонента» в меньшей степени по сравнению с Kotias, и древние CHG выглядят на генетической карте более «восточными» (почему я и помещал этот компонент где-то в Прикаспии).

Кроме Кавказа, вызывает интерес явная связь CHG с рядом балканских популяций (и примыкающей к ним правобережной украинской выборке) — вероятно, это неспроста. Причем направление миграций здесь, очевидно, именно от CHG либо их родственников к балканцам.

Думаю, что сами CHG могут быть смоделированы, как смесь ближневосточников и носителей ANE откуда-то с родины компонента Gedrosia. Например, в калькуляторе ANE K7 Kotias получается таким (как обычно, «Африка» отображает архаику палеогеномов):

31.10%   ANE
  5.36% ASE
  0.01% WHG-UHG
  0.00% East_Eurasian
  2.47% West_African
  1.50% East_African
59.56%   ENF

Однако же никаких связей с Сибирью на карте IBD-сегментов он не проявляет. Таким образом, вновь встает вопрос о «южном» и «северном» вариантах ANE. Методами Admixture разделить его пока не удалось (если говорить о «чистом» ANE а не более новых компонентах, куда он входит составной частью). Возможно, он сам по себе является композитом — результатом смеси охотников северной Евразии и пришельцев с юга? Тогда у Kotias проявляется лишь его южная часть. Во всяком случае, мы можем выделить этот «восточный» компонент Kotias  в том числе и методом IBD-анализа, рассмотрев его разность с европейскими неолитическими земледельцами (EEF), выступающими здесь «прокси» ближневосточного компонента:

CHGMinusEEFIBDext

Результат прекрасно совпадает с распределением компонента Gedrosia-Caucasian — один из пиков оказался в Дагестане (лезгины), второй — рядом с исторической Гедрозией. Можно поздравить Вадима Веренича с удачным калькулятором. Любопытно, что соседи лезгинов по Восточному Кавказу — чеченцы и кумыки не оказались ярко выделенными, несмотря на немногим уступающую лезгинам долю ANE. Зато они выделяются у ямников и оленеостровца EHG. Возникает предположение, что либо эти народы в наибольшей степени испытали «ямное» влияние, либо «южный компонент» ямников наиболее связан с ними, либо их ANE относится к чуть другой веточке по сравнению с Kotias, более близкой к ямной. Во всяком случае. здесь есть, над чем подумать.

Теперь сравним Kotias с самими ямными геномами:

CHGMinusYamnayaIBDext

Как видите, связь с ямниками у выборок из Северной Европы и Поволжья-Урала очень сильна по сравнению со связью с CHG. Думаю, что основное объяснение этому — отсутствие у Kotias компонентов WHG и «северного» ANE. Они занимают основную часть как генофонда европейцев, так и ямников. Более интересна ситуация в Азии — в Средней Азии сильнее связь с ямниками, далее при движении на юг, к Индийскому океану, постепенно идет выравнивание в пользу CHG (возможно, это говорит о том, что ямное влияние сокращается и мы видим более «фоновое» родство) и на самом дальнем юге возвращается равновесие (эти популяции уже мало связаны как с ямниками, так и с CHG). «Ямный язык», вдающийся в Китай через алтайцев, уйгуров и Ту — не след ли это тоже индоевропейской миграции? Хотя это может быть и совпадением.

Что касается родного для Kotias Кавказа, то если на западе связь с ним очень сильна, к северо-востоку, как уже писалось, «ямное» влияние нарастает.

Некоторый интерес представляет и сравнение охотников-собирателей Кавказа с уже не раз упоминавшимися в этой заметке западноевразийскими охотниками-собирателями (WHG):

CHGMinusWHGIBDext

Поскольку WHG входит составной частью в генофонд неолитических земледельцев Европы (EEF), то «ближневосточное» влияние в Южной Европе, связанное с их миграциями, частично отфильтруется. Например, считающиеся наиболее схожими с EEF среди наших современников жители острова Сардиния здесь ярко-зеленые. Можно сделать вывод, что на Балканах и в южной Италии влияние CHG довольно серьезно (что мы и видели на первой карте). Хотя из-за влияния «чистого» WHG повсюду в Европе делать точные оценки сложно.

В заключение можно подытожить, что расшифровка геномов охотников-собирателей Кавказа является очередным, и достаточно заметным, шагом в деле восстановления доисторических миграций и формирования современной генетической картины в Евразии.

 

Палеогеномы — техническая информация

Сергей Козлов

Палеогеномы — техническая информация

Чтобы не допускать излишнего загромождения заметок длинными таблицами и диаграммами, я решил вынести часть из них в отдельный пост и при необходимости давать на него ссылку в тексте.

Для начала разберем качество прочтения палеогеномов, на которое я регулярно жалуюсь. Главным показателем является не столько количество прочтенных снипов для каждого генома, сколько уровень диплоидности, то есть доля снипов, для которых результаты прочтения каждого аллеля различаются (разумеется, эти показатели обычно коррелируют, но не строго). Для современных жителей Евразии нормальным является показатель 65-70% гаплоидных снипов в используемом мной основном наборе (у восточноазиатов чуть больше — сейчас я отношу это на то, что набор снипов все же в первую очередь разработан под европейцев), в чем можно убедиться из этой заметки. Можно подумать, что для древних образцов этот уровень не обязан быть в тех же пределах, однако для наиболее качественно прочитанных палеогеномов он близок к тем же 65-70%. Чем же грозит завышенная гаплоидность? Она означает, что часть аллелей просто не прочитана, любой более-менее длинный IBD-сегмент окажется из-за этого «разорван» и не сможет быть обнаружен. Мало того, образцы с высоким уровнем гаплоидности показывают отличающиеся от своих нормальных аналогов (из той же выборки) результаты в этнокалькуляторах на базе Admixture. Таким образом, результат искажается, и мы не в состоянии провести корректное сравнение с современными выборками и другими палеогеномами. Вполне возможно, что искажение распространяется и на другие виды анализа, например, такие, как построение PCA-плотов.

Итак, таблица уровня гаплоидности для обработанных мной палеогеномов (некоторые заведомо низкокачественные образцы были исключены из рассмотрения и в таблицу не попали):

BR2 65,61%
Ust-Ishim 66,29%
NE1 66,49%
LBK 67,08%
RISE493 69,35%
Anzick-1 72,25%
RISE497 73,14%
Loschbour 73,79%
I0118 73,89%
I0100 74,06%
I0408 74,08%
I0099 74,13%
I0406 74,20%
RISE505 74,99%
RISE98 75,02%
I0443 75,38%
I0061 75,81%
I0112 76,06%
RISE495 76,72%
I0104 77,13%
I0231 77,14%
I0103 77,34%
I0412 77,51%
I0054 77,57%
RISE511 80,16%
I0172 80,87%
RISE174 80,97%
RISE150 81,27%
RISE496 83,74%
I0410 84,10%
RISE552 84,62%
RISE523 84,86%
Motala12new 85,26%
RISE395 85,59%
Kostenki-14 85,96%
I0047 88,29%
Motala12 90,19%
RISE500 90,27%
RISE504 91,72%
RISE499 92,74%
RISE502 92,97%
RISE479 94,12%
RISE602 94,38%
Malta 94,41%
RISE94 94,81%
RISE548 94,90%
RISE601 95,25%
RISE577 95,59%
IR1 96,29%
RISE509 96,31%
RISE423 96,46%
RISE569 96,61%
RISE00 96,63%
RISE386 96,64%
KO1 96,67%
RISE97 96,88%
RISE503 96,90%
RISE71 97,08%
RISE600 97,33%
RISE392 98,22%
RISE61 98,39%
BR1 98,49%
RISE407 98,80%
RISE516 98,82%
RISE489 98,93%
RISE512 99,49%
RISE397 99,49%
RISE563 99,62%
RISE525 99,68%
RISE515 99,76%
RISE413 99,76%
RISE431 99,84%
RISE484 99,85%
RISE412 99,90%
RISE416 99,95%

Для IBD-анализа хорошим уровнем можно считать показатель до 75%, приемлемым — до 80, удовлетворительным — до 85. Как можно видеть, среди геномов из работы Allentoft et al к первой категории можно отнести лишь два образца карасукцев (RISE493 и RISE497), образец RISE505 андроновской культуры, и RISE98, отнесенный авторами к культуре боевых топоров. Еще восемь геномов попадают в приемлемо-удовлетворительный диапазон. Что касается этнокалькуляторов, здесь сложнее определить правильные границы, но грубо можно ориентироваться на те же показатели.

Обзор работы Allentoft et al «Популяционная геномика Евразии бронзового века»

Сергей Козлов

Обзор работы Allentoft et al «Популяционная геномика Евразии бронзового века»

Не так уж много времени прошло с момента появления работы Haak et al, неоднократно разобранной в этом блоге (1, 2, 3), как мы уже дождались очередной порции палеогеномов. Для меня свежевышедшая статья Allentoft et al в первую очередь интересна добавлением образцов жителей сердца Евразии бронзового века и смежных времен — представителей афанасьевской, синташтинской, андроновской, окуневской, карасукской, межовской культур, и других. Кроме этого, в работе представлены восемь палеогеномов из Армении, что тоже весьма важно, поскольку ранее регион был совершенно не охвачен.

К сожалению, техника прочтения, примененная для палеогеномов из статьи, менее пригодна для поиска IBD-сегментов, чем для геномов из работы Haak et al. Несмотря на то, что количество прочитанных снипов зачастую в разы больше, среднее количество прочтений на один снип невелико — для наиболее качественного случая это 7х. А следовательно, многие диплоидные варианты оказались непрочтенными, что налагает сильные ограничения. Например, все «армянские» образцы оказались непригодными для построения IBD-карт. Что ж, для них придется ограничиться данными этнокалькуляторов на базе Admixture.

Более подробно вопрос качества палеогеномов разобран в специальной технической заметке.

Согласно предпочитаемому мной калькулятору Вадима Веренича MDLP K27 таблица компонентов для древних образцов выглядит так:

N Nilotic-Omotic Ancestral-South-Indian North-European-Baltic Uralic Australo-Melanesian East-Siberean Ancestral-Yayoi Caucasian-Near-Eastern Tibeto-Burman Austronesian Central-African-Pygmean Central-African-Hunter-Gatherers Nilo-Saharian North-African Gedrosia-Caucasian Cushitic Congo-Pygmean Bushmen South-Meso-Amerindian South-West-European North-Amerindian Arabic North-Circumpolar Kalash Papuan-Australian Baltic-Finnic Bantu
Western_Hunter-Gatherers 1 0,00 0,00 52,00 0,00 0,48 0,00 0,38 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 29,85 0,00 0,00 0,00 0,00 0,20 17,08 0,00
Eastern_Hunter-Gatherers 1 0,00 0,00 53,03 20,35 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 2,00 0,00 0,00 0,00 0,69 0,00 9,87 0,00 1,71 3,02 0,00 9,34 0,00
European_Neolithic_Farmers-LBK 3 0,00 0,00 0,91 0,00 0,12 0,00 0,00 40,40 0,00 0,00 0,00 0,00 0,00 3,28 0,00 0,16 0,00 0,00 0,00 49,12 0,00 5,88 0,00 0,00 0,14 0,00 0,00
European_Neolithic_Farmers_Spain 2 0,00 0,00 0,00 0,00 0,12 0,00 0,00 32,84 0,00 0,00 0,00 0,00 0,00 2,78 0,00 0,00 0,01 0,00 0,00 61,97 0,00 2,08 0,00 0,00 0,22 0,00 0,00
European_Neolithic_Farmers_Spain_Late 2 0,00 0,01 7,43 0,00 0,37 0,00 0,00 20,51 0,00 0,73 0,01 0,00 0,00 4,42 0,00 0,00 0,00 0,00 0,00 64,72 0,00 1,69 0,00 0,00 0,13 0,00 0,00
European_Neolithic_Farmers_Center_Late 2 0,00 0,00 7,11 0,00 0,06 0,00 0,00 34,26 0,00 0,00 0,00 0,15 0,00 2,21 0,00 0,83 0,07 0,10 0,00 50,21 0,00 4,87 0,00 0,00 0,14 0,00 0,00
Yamnaya 3 0,00 0,00 45,59 8,40 0,06 0,00 0,00 0,00 0,00 0,00 0,02 0,04 0,02 0,00 28,15 0,00 0,05 0,00 1,02 2,39 1,62 0,00 0,14 5,17 0,27 7,06 0,00
Afanasyevo 1 0,00 0,00 50,81 9,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,13 0,13 0,00 24,02 0,00 0,00 0,01 0,64 0,00 2,47 0,00 0,00 4,82 0,00 7,97 0,00
Corded_Ware_Germany 2 0,00 0,00 39,93 4,52 0,00 0,00 0,00 0,15 0,00 0,00 0,13 0,22 0,00 0,23 20,16 0,00 0,00 0,00 0,44 19,19 1,27 0,00 0,00 4,37 0,06 9,37 0,00
Corded_Ware_North_Baltic 2 0,00 0,18 42,17 2,66 0,00 0,00 0,00 0,59 0,00 0,00 0,07 0,29 0,00 0,00 9,20 0,00 0,19 0,00 1,00 31,60 0,00 0,11 0,00 2,40 0,00 9,57 0,00
Bell-Beaker 1 0,00 0,00 34,36 2,68 0,00 0,00 0,00 1,96 0,00 0,00 0,00 0,00 0,00 0,00 13,60 0,00 0,00 0,11 0,50 37,44 0,19 0,93 0,07 1,53 0,00 6,63 0,00
Unetice 3 0,00 0,00 42,43 2,78 0,53 0,00 0,00 1,75 0,00 0,00 0,00 0,00 0,00 0,00 12,00 0,00 0,00 0,00 0,12 31,44 0,31 0,00 0,29 1,54 0,00 6,80 0,00
Bronze_Age_Hungary 1 0,00 0,00 35,72 0,15 0,30 0,00 0,00 16,45 0,00 0,00 0,42 0,27 0,00 0,01 4,19 1,60 0,00 0,04 0,00 30,36 0,72 2,85 0,00 1,03 0,08 5,81 0,00
Sintashta 3 0,00 0,00 44,15 4,30 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,05 0,00 0,00 11,21 0,00 0,00 0,00 0,00 30,83 1,53 0,00 0,19 1,78 0,00 5,94 0,00
Andronovo 2 0,00 0,53 39,94 8,16 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,08 0,00 0,00 17,27 0,00 0,00 0,00 0,00 20,67 2,07 0,00 0,01 3,97 0,02 7,31 0,00
Okunevo 1 0,00 0,00 32,54 18,48 0,00 13,11 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 7,78 0,00 0,00 0,00 0,00 0,01 14,14 0,00 9,74 2,20 0,00 2,01 0,00
Karasuk 2 0,00 1,21 22,39 15,86 0,45 19,19 0,00 0,00 3,64 0,00 0,01 0,00 0,00 0,00 10,61 0,00 0,03 0,00 1,54 5,75 4,83 0,00 4,80 2,77 0,58 6,12 0,27
Karasuk_496 1 0,00 0,00 34,23 13,36 0,00 8,01 0,00 0,00 0,00 0,00 0,29 0,00 0,00 0,00 14,65 0,00 0,00 0,00 2,88 14,24 2,95 0,00 1,06 1,51 0,00 6,82 0,00
Karasuk_497 1 0,00 1,47 0,02 16,85 0,00 44,80 1,84 0,00 15,37 0,00 0,06 0,00 0,00 0,00 1,45 0,00 0,04 0,00 2,41 0,00 6,19 0,00 7,51 0,72 1,27 0,00 0,00
Mezhovskaya 1 0,00 0,03 36,94 12,86 0,00 4,73 0,00 0,00 0,00 0,00 0,04 0,00 0,00 0,00 13,62 0,00 0,00 0,00 0,78 16,27 2,92 0,00 0,00 3,43 0,00 8,33 0,05
Armenian_MBA 1 0,00 0,00 17,19 3,15 0,00 1,46 0,00 27,36 0,00 0,91 0,00 0,43 0,00 1,97 28,92 0,00 0,00 0,00 0,63 6,71 0,43 6,81 0,00 2,99 0,53 0,52 0,00
Armenian_LBA 1 0,00 0,00 16,69 1,82 0,05 0,00 0,00 21,86 0,00 0,00 0,00 0,00 0,00 0,00 27,16 0,00 0,00 0,65 0,00 19,29 3,86 6,99 0,00 1,50 0,00 0,14 0,00

Среди ямников наилучшим качеством прочтения (или единственным, у кого оно не совсем ужасное )) ) обладает образец RISE552 (Ulan IV). На форумах высказывалось мнение, что его скорее следует отнести к катакомбникам. В любом случае, в аутосомных калькуляторах он получился весьма схожим с самарскими ямниками, лишь с незначительным повышением содержания «южного» аутосомного компонента (который можно назвать кавказским или среднеазиатским), и понижением «северного» (связываемого с европейскими охотниками-собирателями). Можно сделать вывод, что ямные образцы из Самары действительно отображали как минимум восточную часть ямной КИО, а не были неким экстремальным выбросом. Авторы статьи пишут об отсутствии у ямников (в отличие от более поздних образцов) европейского неолитического компонента. С этим можно согласиться относительно образцов из обсуждаемой статьи, однако у «самарцев» данный компонент наблюдается в некоторых этнокалькуляторах, хотя и в следовых количествах. Впрочем, это влияние достаточно мало, чтобы каким-то образом опровергать последующие выводы.

Карта IBD-сегментов, полученная для RISE552, структурно схожа с объединенной картой двух наиболее качественных образцов «самарцев». Сделаем лишь поправку на большую смазанность и зашумленность. Аналогично самарцам, выделяется Северо-Восточная Европа, где предположительно наиболее хорошо сохранился генофонд восточных групп европейских охотников-собирателей, полоса Германия-Венгрия, на мой взгляд, вероятно отображает постулируемое авторами обеих статей влияние ямников или подобных им групп на генофонд современных центральных и западных европейцев, а также уже отмечавшиеся ранее у самарцев пятна взаимосвязи с ираноязычными народами Средней Азии и выборкой браминов и кшатриев индийского штата Уттар-Прадеш:

RISE552_Yamnaya_lqIBDext

Аналогичным качеством обладает наилучший образец среди афанасьевцев, женщина RISE511 (Bateni). Как и описано в статье, аутосомно она весьма схожа с ямниками, хотя можно и провести некоторые различия — «южный» компонент несколько слабее, «северный» сильнее. Ничего восточноазиатского у афанасьевки не видно, и даже «среднеазиатское» влияние слабее по сравнению с «самарцами» и «ростовчанином» RISE552. Карта IBD-сегментов полностью соответствует выводам. которые можно сделать из Admixture-калькуляторов:

RISE511_Afanasyevo_lqIBDext

Любопытно, что наиболее отчетливо связь проявляется с районами европейских максимумов распространения Y-гаплогруппы N — Удмуртия, Финляндия/Карелия, Прибалтика. Кроме того, можно вспомнить и работу геномного блоггера Поляко с попыткой вывести «ямный» аутосомный компонент. Наиболее выраженным этот компонент оказался именно у удмуртов. Вообще удмурты выглядят очень интересно, нередко отличаясь в аутосомном плане как от своих ближайших языковых родственников-коми, так и от других соседей.

Связь же с Западной Европой, Кавказом, Средней Азией и Индией у представительницы афанасьевцев выражена по сравнению с ямниками слабее и при использовании этого метода.

Чтобы закончить сравнение двух работ, сделаю короткий обзор европейских образцов. Относительно неплохим качеством среди них выделяются RISE98 (L Beddinge 56) из южной Швеции, отнесенный к культуре боевых топоров (что у нас принято также относить к культуре шнуровой керамики), RISE150 (Przeslawice) — Унетице, и гораздо более приближенный к нам согласно датировке (611 н.э.) RISE174 (Oxie 7), тоже из Швеции. По сравнению с представителями «шнуровиков» из (нынешней) Восточной Германии, разобранных в работе Haak et al, у RISE98 заметно (примерно в два раза) ниже содержание «южного» компонента Gedrosia, который и можно связать с влиянием ямных или схожих с ними групп на европейцев. Очень похожи и результаты у представительницы КШК из Эстонии RISE00, не попавшей в IBD-сравнения из-за недостаточного качества прочтения генома. Что ж, с  точки зрения географии это выглядит логично и укладывается в выдвинутую авторами модель. Я попытался сформировать разностную карту для RISE98 и более южных шнуровиков от Haak. результат не вполне удовлетворительный, уровень «шума» высок, хотя некоторые интерпретации полученной картине можно дать.

Красное — больше общих сегментов с RISE98, зеленое — с I0103/I0104:

BAxeMinusCWCIBDext

Зеленые Средняя Азия и Кавказ отображают больший вклад южан в генофонд «германских» шнуровиков, чем «шведских» и  (предположительно) «эстонских». Зелень посреди Европы выглядит логично, а вот низкий результат у шведской выборки удивил. Что ж, в порядке компенсации неплохо связанными с RISE98 выглядят норвежцы и англичане (основу выборки составляют жители Кента). Саами, вероятно, представляют здесь вклад дошнурового населения Скандинавии, а баски выделяются на фоне соседей из-за их более высокого уровня аутосомного компонента WHG. Что касается волжско-уральского региона — возможно, общие сегменты с его жителями были также принесены в Европу вместе с «ямной» миграцией? Конечно, дело может быть и в чем-то другом.

Сравнение образца Унетице RISE150 (красное) и RISE98:

UneticeMinusBAxeIBDext

Наконец-то шведы присоединились к норвежцам и англичанам ) А вот результат ирландско-шотланской выборки заставляет задуматься, не являются ли восточные англичане вопреки выводам из недавней работы по этногеномике Британии в основной массе потомками недавних переселенцев с континента. Впрочем, странные результаты юго-западных финнов показывают, что делать глобальные выводы пока не стоит. В остальном же циркумбалтийцы явно ближе к шведскому шнуровику, в то время как центральноевропейцы — в основном к Унетице. Как и на прошлой карте, видно волжско-уральское пятно, со Средней Азией же и Кавказом ситуация интереснее. Народ-изолят калаши наиболее сильно сдвинут в сторону древнего скандинава, в то время как на противоположном полюсе находятся таджики. Напрашивается объяснение, что здесь мы видим разделение видов родства между Средней Азией и Европой по временной шкале. Более древнее родство (калаши), через компонент ANE и его влияние на северо-восточных охотников-собирателей, сильнее проявляется у RISE98. В то же время обратный поток генов, через степь бронзового века и более поздние миграции (таджики), лучше виден уже у более близких к степи центральноевропейцев. На Кавказе и Ближнем Востоке, видимо, придется предположить более сложную модель с не менее, чем тремя потоками — ANE->EHG, Ближний Восток->Южная Европа, Степь/Европа->Кавказ. Более подробно это видно при сравнении Унетице (красное) и германских шнуровиков (зеленое):

UneticeMinusCWCIBDext

Богатые компонентом ANE Восточный Кавказ и Средняя Азия более связаны со шнуровикам. Однако то же самое справедливо для Сардинии и Испании, наиболее сохранивших генофонд неолитических земледельцев Европы. Зато Унетице более связаны с Ближним Востоком.

Итак, если шнуровики хорошо моделируются как ямники+восточноевропейцы+неолитические земледельцы Европы, то Унетице можно смоделировать, как результат ослабления всех этих трех компонентов с добавлением нового, родственного неолитчикам, но отличного от них. Каким-то образом сюда могут быть причастны и баски. Что касается влияния Степь/Европа->Кавказ, на это указывают результаты «армян» бронзового века, о них позже.

Сравнение Унетице/ККК тоже производилось, но оттуда оказалось трудно выделить что-то полезное, поэтому углубляться в него не стану.

И наконец, RISE174. Как я уже упоминал, по сравнению с другими образцами это практически наш современник — согласно калиброванной радиоуглеродной датировке его возраст — рубеж VI и VII веков нашей эры. Наиболее родственны ему из наших современников представители германских народов, все жители Британских островов, некоторые циркумбалтийцы, а также мы видим тянущуюся на восток через Венгрию красную полосу.

RISE174_Sweden_IAIBDext

Однако интересно, что в аутосомных калькуляторах он демонстрирует более высокий уровень «охотничье-собирательских» и более низкий — «земледельческих» компонентов, чем современные шведы. Значит, изменения генетической картины продолжались и в более поздние эпохи.

Вернемся теперь в степи центральной Евразии. Многих очень заинтересовали образцы из знаменитой синташтинской культуры, вокруг происхождения которой сломано немало копий. Сейчас можно с уверенностью сказать, что (по крайней мере, представленные в обсуждаемой работе образцы) они оказались ярко выраженными европейцами. По компонентам Admixture наиболее схожи с ними жители современной северо-западной, центральной и восточной Европы, при этом доля «южных ямных» компонентов в разы ниже уровня ямников и афанасьевцев. Еще выше сходство с палеоевропейцами центральной Европы — например, с представителями унетицкой культуры, или с германскими шнуровиками. По суммам IBD-сегментов можно сделать аналогичные выводы:

RISE395_Sintashta_lqIBDext

Единственное, что удивляет — пятно у коми-зырян. Вполне вероятно, это просто случайное отклонение, но почему бы не поспекулировать на темы возможного пересечения предков коми и синташтинцев — география вполне позволяет.

К счастью, образец RISE505 из близких синташтинцам андроновцев оказался неплохого качества и дает более отчетливую картину:

AndronovoIBDextS

Наибольшее количество общих сегментов и здесь получено с жителями центральной и северо-западной Европы. Что касается компонентов Admixture, то у андроновцев растет доля «северо-восточных» и «юго-восточных» предковых компонентов, и это смещает их в сторону ямников. В этой связи интересно сравнить IBD-карту самарских ямников (красное) и андроновский образец (зеленое):

SamaraYamnayaMinusAndronovoIBDextS

Больше общего с ямниками у жителей крайнего северо-запада Европы («законсервированное» родство времен прихода в Европу «ямного» компонента?). В Восточной Европе картина весьма напоминает полученную в предыдущем обзоре при сравнении тех же самарцев и германских шнуровиков, а также «карела», охотника-собирателя с Оленьего острова. Выделяется полоса более близких ямникам выборок от Прибалтики к Поволжью, в то время как выборки поляков и беларусов оказываются ближе ко второй стороне. Точно такую же полосу Balt — Russian West — Erzya мы видим и на карте «ростовского» ямника RISE552. Думаю, это можно уже считать устойчивой тенденцией.

На Кавказе и в Средней Азии в большинстве случаев ближе к ямникам группы с высоким содержанием компонента ANE, который является одним из источников неоднократно упоминаемого мной компонента Gedrosia. Однако любопытно, что выборки из северо-западной Индии оказались ближе к андроновцам. Видимо, мы вновь наблюдаем разницу между более древним и относительно свежим родством. Кроме этого, устойчиво больше общего с андроновцами проявляют восточноазиатские выборки. Однако среди предковых компонентов RISE505 восточноазиатских выше «уровня шума» мы не видим! Если бы дело касалось только Сибири, это можно было бы отнести на «европейскую» сторону их генофонда, но для Юго-Восточной Азии такое объяснение не проходит. Либо мы видим здесь что-то очень базальное, либо все-таки это погрешность метода (при сравнении образцов разного качества и с разным количеством снипов исключить возможность артефактов нельзя). В то же время, объяснить большее количество общих сегментов с андроновцами у средиземноморцев можно легко — это проявляется вклад неолитических земледельцев Европы, принесенный андроновцам с запада, но практически отсутствующий у ямников. Хотя мне все же кажется, что частично здесь играет роль и аналогичная восточноазиатскому случаю погрешность. На это намекают результаты при сравнении с андроновцами уже упоминавшего RISE98 («Боевые топоры»/КШК, красное):

BattleAxeMinusAndronovoIBDextS

Дело в том, что этот образец более схож с RISE505 по уровню покрытия и методам обработки. И здесь, я бы сказал, на южном побережье Средиземного моря, а также в Юго-Восточной Азии мы не видим преимущества той или иной стороны — скорее обычный шум. Зато в других частях карты, как мне кажется, паттерны вполне наблюдаются:

Шведы, норвежцы и юго-восточные англичане определенно выглядят потомками «боевых топоров» (возможно, к ним бы присоединились датчане, северные немцы и другие англичане, но такие выборки не используются. Выборка «German», окрашивающая Германию и Данию, преимущественно состоит из южных и западных немцев). Центральноевропейцы, в свою очередь, сильнее связаны с андроновцами, чем с «топорами» (забегая вперед, скажу, что «германская» выборка выделяется и у более позднего образца RISE493_Karasuk). Кроме этого, с андроновцами определенно связаны жители Приуралья, а баланс на Кавказе и в Средней Азии заметно сместился в андроновскую сторону (неудивительно, содержание «Гедрозии» у «топоров» в разы ниже, чем было у ямников). На Востоке связанными с андроновцами выглядят алтайцы, хакасы, уйгуры и почему-то якуты (возможно, последних стоит отнести на шум).

Будет продолжено…

Палеоевропейцы из работы Haak et al, 2015 в свете анализа на IBD-сегменты

Сергей Козлов

Палеоевропейцы из работы Haak et al, 2015 в свете анализа на IBD-сегменты.

Обновлено 21.03.2015

В феврале произошло событие, которое многие геномные блоггеры с нетерпением ожидали на протяжении большей части предыдущего года — на  сервере Bioarxiv был размещен препринт статьи Haak et al с исследованием множества (преимущественно европейских) палеогеномов. Настолько качественного и подробного среза генетической истории европейцев мы еще не видели. Вадим Веренич уже разместил свой отзыв на работу, присовокупив к нему результаты собственных экспериментов и размышлений. Из его заметки можно составить прекрасное впечатление о статье.

Как это обычно и бывает, сообщество геномных блоггеров осталось не вполне удовлетворено полнотой предоставленной информации, и (повторюсь) с нетерпением ожидало возможности наложить свои руки на новые палеогеномы из статьи. Для этого пришлось дождаться официального выхода работы, и вот, наконец, момент настал. В первую очередь мне было интересно провести сравнение аутосомных IBD (или псевдо-IBD) сегментов с современными выборками и удостовериться — кто же все-таки в наибольшей степени является потомками людей, принадлежавших к исследованным археологическим культурам? Конечно, другие виды анализа тоже необходимо провести, но это сделают и без меня. К тому же об их результатах можно было догадаться из информации, опубликованной в статье (и эти догадки действительно подтвердились).

К сожалению, первая попытка оказалась неудачной — опубликованные на страничке лаборатории Райха геномы были полностью гаплоидными. Для того, чтобы сблизить условия анализа прочитанных с разным качеством палеогеномов, авторы статьи случайным образом выбирали один аллель для каждого снипа и далее использовали только его.  Разумеется, все IBD-сегменты при этом оказались разрушены. Однако проблему удалось обойти при помощи утилиты Феликса Чандракумара, преобразующую BAM-файлы в аналоги аутосомных файлов формата FTDNA. Лишь меньшая часть из обработанных геномов пригодна для IBD-анализа, но и прочитанных с удовлетворительным качеством достаточно много. Для этой заметки использованы следующие палеогеномы:

1) «Восточных охотников-собирателей», или EHG, представляет «оленеостровец» I0061 Karelia_HG    Yuzhnyy Oleni Ostrov, Karelia    5500-5000 BCE . «Самарский» образец EHG слишком плохо прочитан.

2) «Самарских ямников» представляют I0443    Yamnaya    Lopatino II, Sok River, Samara    3500-2700 BCE и I0231 Yamnaya    Ekaterinovka, Southern Steppe, Samara    2910-2875 calBCE

3) Культура шнуровой керамики также представлена двумя образцами, это I0103    Corded_Ware_LN    Esperstedt    2566-2477 calBCE и I0104 Corded_Ware_LN    Esperstedt    2473-2348 calBCE (восточная Германия, земля Саксония-Анхальт)

4) От культуры колоколовидных кубков лишь один образец, это I0112 Bell_Beaker_LN    Quedlinburg XII    2340-2190 calBCE (как и в случае КШК, земля Саксония-Анхальт)

5) Лучше всего обстоит дело с охватом неолитических земледельцев из культуры линейно-ленточной керамики, их целых четыре — I0054 LBK_EN    Unterwiederstedt    5209-5070 calBCE , I0100 LBK_EN    Halberstadt-Sonntagsfeld    5032-4946 calBCE, а также два ранее уже известных палеогенома — Stuttgart и NE1

Результаты по выборкам, представленным двумя или более образцами, усреднялись. Кроме этого, производилось нормирование результатов для каждой из пяти палеовыборок в пределах +- 10% с целью наилучшим образом попадать в диапазон карт и убрать влияние разницы в качестве прочтения. Конечно, это искусственное искажение данных, но все же, как мне кажется, оно скорее пошло на пользу, чем нанесло вред. В целом же карты получились качественными и наглядными. Думаю, что метод анализа на IBD-сегменты даже лучше подходит для палеогеномов, чем для наших современников.

«Оленеостровец» I0061 принадлежит к выборке, названной авторами EHG (Eastern Hunter-Gatherers). Это палеоевропейские охотники-собиратели северной части Восточной Европы, предположительно не затронутые позднейшим притоком генов с юга (от неолитических земледельцев и из других источников). И действительно, среди наших современников наибольшее количество пересечений с ним нашлось у северных восточноевропейцев — как говорящих на индоевропейских языках, так и уральцев. В первую очередь выделяются вепсы и северные русские из каргопольской выборки HGDP. Прибалтийская выборка, обычно проявляющаяся у восточноевропейцев наиболее ярко, на этот раз видна чуть слабее. Единственные, кто несколько выбивается из закономерности — поляки. Сложно сказать, случайность это, или же нет. Однако из-за этого отклонения польская выборка временами смотрится странно и на дальнейших «разностных» картах.

Оленеостровец (картинки можно увеличивать):

Обращает на себя внимание пятно в Средней Азии и северной Индии. Особенно интересна значительная разница между высшими и низшими кастами штата Уттар-Прадеш (на карте представлены обе выборки). Напрашивается версия, что это связано с приходом индоевропейцев с севера. Или же, как минимум, с приходом носителей R1a. Кстати, оленеостровец тоже принадлежал к этой Y-гаплогруппе (предковая ветвь R1a1).

Впрочем, как мне справедливо заметили, в северо-западную Индию было немало миграций и в более поздние времена. Например, «кшатрии» на севере считаются многими исследователями потомками переселенцев первого тысячелетия нашей эры.

Следующие на очереди — «ямники». В работе использованы образцы ямников из-под Самары, представляющие их крайний восточный вариант. Авторы статьи смоделировали их как 50% EHG / 50% современные армяне. Как будет показано далее, для этого есть некоторые основания. Однако с точки зрения предковых компонентов Admixture такая модель — далеко не лучший вариант, «южный» ямный компонент скорее связывается с чем-то в промежутке между Восточным Кавказом и Средней Азией. Как и предполагалось, он коррелирует с бимодальным компонентом, условно называемым Gedrosia. Исходя из современных максимумов, его исторический центр находится где-то в южном Прикаспии, возможно, восточнее. Судя по всему, он представляет собой результат смешения «ближневосточного» компонента ENF и ANE, поэтому теоретически исторического центра может и вообще не быть.

Самарские ямники:

В отличие от оленеостровца, «ямное» пятно более широко распределено по всей Европе, а Кавказ и Средняя Азия выделяются сильнее. Впрочем, лучше это смотреть на карте, отображающей разницу между ямниками и оленеостровцем. Не следует думать, что выборки, выделенные на разностной карте одним цветом, обязаны быть схожи между собой — просто разница их «расстояний» до I0443/I0231 и I0061 близка. И не забываем, что разностные карты в большей степени, чем одиночные, подвержены влиянию «шума» и случайных отклонений.

Разница между «оленеостровцем» и «ямниками». Красным цветом обозначено, у кого больше общих сегментов с первым, зеленым — со вторыми.

Как видно, наибольшая разница в пользу оленеостровца у представителей народов из уральской языковой семьи, причем тех, у кого силен «сибирский» вклад. Кроме жителей Западной Сибири, это марийцы (и родственные им тюрки-чуваши) в Поволжье, а также саами. Думаю, это неплохой довод в пользу ямников (или тесно связанной с ними группы), как распространителей индоевропейских языков. Наибольшая же разница «связь с ямниками» минус «связь с оленеостровцем» оказалась у уже упоминавшихся армян (и в целом зеленое пятно Кавказ-Малая Азия выражено сильнее всего). Таким образом, у армян хорошо выражены компоненты, имеющиеся у ямников, но отсутствующие у EHG. Но значит ли это, что модель «ямники=EHG+армяне» оптимальна? Я так не считаю. И при PCA-анализе, и при раскладке на компоненты Admixture мы видим, что «вторая половинка» должна быть где-то восточнее. На карте это проявляется в том, что взаимосвязь ямников с районом Пакистан-северная Индия (а особенно, что представляет отдельный интерес, с уйгурами. Уж не след ли это древних миграций индоевропейцев, например, тохаров, на восток?) выражена сильнее, чем у оленеостровца. Но модель считает, что это взято в основном от него, отсюда и заблуждение. Впрочем, и сами авторы пишут, что более адекватным видится вариант «третья группа, повлиявшая как на ямников, так и на современных армян».

Кроме уже перечисленных, явственно более сильную связь с ямниками проявляет выборка из Йемена (возникла мысль, что мы видим влияние небезызвестных Basal Eurasians — предположительно, именно йеменцы наиболее близки к ним из современных народов) и северо-западные европейцы. Это хорошо укладывается в предложенную авторами статьи модель, согласно которой северные европейцы в очень заметной мере являются потомками связанной с «ямниками» группы, которая мигрировала с востока и по большей части заместила предшествующее население. Кстати, у немцев (и германских народов в целом) необычно сильно проявляется все тот же компонент Gedrosia, которого не было у мезолитических охотников и неолитических земледельцев Западной Европы. И действительно, у восточногерманских образцов, принадлежащих к культуре шнуровой керамики, этот компонент появляется.

Карта для представителей КШК:

Очень похоже на «ямную» карту, не так ли? Но должны существовать и различия, попробуем их увидеть на разностной карте «самарцы» (красное) минус «шнуровики» (зеленое):

SamaraYamnayaMinusCWCIBDext

Картинка отнюдь не настолько контрастна, как было в случае сравнения ямников с оленеостровцем. Видимо, это связано с тем, что разница между сравниваемыми выборками в данном случае слабее. И все же некоторые взаимосвязи проявляются. Во-первых, заметно сильнее связь со шнуровиками у жителей острова Сардиния — как считается, они наиболее хорошо сохранили генофонд неолитических земледельцев Европы. Кроме этого, лучше связаны со шнуровиками, чем с ямниками, люди из района Белоруссия-Польша-Западная Украина. И наоборот, «ямные» пятна выделяются вокруг Удмуртии (уж не там ли живут потомки «самарцев»?), в районе «Средняя Азия-Индия» (включая уже упоминавшихся выше уйгуров), и в Закавказье/Малой Азии. Можно предположить, что шнуровики получились в результате смешения неолитических земледельцев и группы, родственной «самарцам», но более западной, сильнее связанной с «белорусским» пятном (и слабее — с тремя «ямными»).

Намного более наглядна разностная карта представителей культуры линейно-ленточной керамики (неолитических земледельцев) и шнуровиков:

LBKMinusCWCIBDext

Два мира — красным выделены народы, в большей степени связанные с неолитическими земледельцами (в отличие от предыдущей карты, сардинцы здесь сильнее связаны с противоположной шнуровикам стороной), зеленым — связанные с заместившими и поглотившими их пришельцами, носителями компонентов WHG и ANE. Обратите внимание, что армяне здесь ярко-красные — это еще раз доказывает ошибочность модели «ямников» как смеси EHG и армян в пропорции 50/50. Ведь тогда «армянский» вклад у «шнуровиков» был бы заметно сильнее.

А вот разница с «оленеостровцем»:

Здесь мало что можно добавить к тому, что уже писалось про разницу «оленеостровец»-«самарцы». Разве что Западное Средиземноморье стало более зеленым, а Средняя Азия-менее.

Наконец, для полного комплекта добавлю карту сравнения с представителем более западного варианта охотников-собирателей, Loschbour:

LoschbourMinusCWCIBDext

Родство с WHG преобладает лишь в дальнем северо-восточном углу Европы. Таков печальный итог нескольких волн миграций с замещением предыдущего населения.

Результаты для представительницы культуры колоколовидных кубков очень близки предшествующей «шнуровой» выборке. Поэтому разностная карта между ними еще более невразумительная, чем при сравнении шнуровиков и самарцев. Дело усугубляется еще и тем, что образец ККК лишь один, а значит, случайные отклонения и прочий «шум» выше.

ККК минус КШК:

BellBeakerMinusCWCIBDext

Судя по всему, у шнуровиков неколько выше доля вклада «охотников-собирателей» и «ямного» компонента в целом. В то же время «средиземноморский» компонент выглядит чуть сильнее у ККК. Но все это тонет в шуме.

Не вижу смысла приводить сравнения представительницы ККК с окружающими, аналогичные КШК, поскольку они выглядят практически так же. А следовательно, мой обзор закончен. Что ж, можно с глубоким удовлетворением отметить, что палеогеномы из работы Haak et al действительно проливают свет на процессы, происходившие в Европе на рубеже каменного и бронзового веков — естественно, уточняя и дополняя уже известное специалистам.

Расширенные карты для палеогеномов

Обновлено 30.11.2014

Этот пост также продолжает один из предыдущих, а именно визуализацию суммы IBD-сегментов (а возможно, это и не IBD — вопрос остается открытым) двух палеоевропейцев и мальчика со стоянки Мальта с современными  выборками. С тех пор в открытом доступе появилось еще несколько обработанных палеогеномов — «усть-ишимец«, «Костенки-14» («человек с Маркиной горы») и два палеогенома хорошего качества из Венгрии.

Результаты собраны мной в онлайн-таблицу, а также отрисованы на расширенных картах. Поскольку усть-ишимец явно тяготел к восточноазиатам, пришлось добавить к сравнению выборки из Южной и Восточной Азии. Ну а после этого логика подсказывала, что неолитических земледельцев Европы неплохо бы сравнить с жителями Ближнего Востока. Таким образом, все карты перерисованы.

Напомню также, что результаты для «мальтинца» и «костенковца» получены при ослабленных настройках фильтра из-за низкого качества прочтения этих двух геномов. Напрямую сравнивать их с пятью другими нельзя. Для отрисовки Loschbour значения умножены на 1,5 в целях повышения контрастности.

«Неолитическая фермерша» )) Stuttgart/LBK

«Неолитический земледелец» NE1:

Усреднение по двум земледельцам дает более ровную картинку:

«Охотник-собиратель» Loschbour:

Разница между «охотником-собирателем» и усреднением по двум земледельцам. Красное — больше сегментов с Loschbour, зеленое — c Stuttgart и NE1

Европеец позднего бронзового века BR2 из Венгрии:

«Усть-ишимец»:

Костенки-14 (ослабленные настройки):

Мальтинец (аналогично):

И наконец, в качестве примера результата нашего современника, моя собственная карта:

 

 

Визуализация уровня гомозиготности и генетического разнообразия у народов Евразии

Обновлено 30.11.2014

После составления при написании предыдущего поста таблицы уровня гомозиготности в выборках Евразии, мне, конечно же, захотелось визуализировать его на карте (дополнив рядом новых выборок) .  Можно считать, что эта карта показывает уровень генетического разнообразия у каждого народа (ведь чем ниже количество гомозиготных снипов, тем разнообразие выше), но с одной оговоркой. Дело в том, что это число сильно зависит от используемого набора снипов. Таким образом, если в наборе много снипов, более часто встречающихся у европейцев, то разнообразие у них автоматически окажется завышенным, а у жителей других частей света — заниженным. А поскольку чипы для генотипирования предназначены в первую очередь для европейцев, такое вполне возможно.

Но все же мне кажется, что этот эффект либо не повлиял на результаты, либо повлиял незначительно. Наиболее разнообразными выборками получились отнюдь не европейские, а жители районов, прилегающих к Красному Морю. Это выглядит вполне объяснимо, поскольку где-то там и находится прародина всех не-африканцев. Другие результаты смотрятся тоже очень логично — по мере удаления от прародины разнообразие постепенно терялось.

Update от 21.01.2015. Для оценки эффекта можно сравнить с подсчетами из работы Fu et al:

FuHomosyg

Как можно увидеть, результаты по неафриканским популяциям хорошо коррелируют с моими. Однако по африканским выборкам результат прямо противоположный. Очевидно, евразийские снипы у них менее распространены, зато имеются свои собственные. Таким образом, метод (с данным набором снипов) можно использовать для выборок за пределами Черной Африки.

На карте зеленым цветом выделены выборки с наибольшим разнообразием, красным — с наименьшим:

HomosygIBDext

Как я уже писал, наивысшим разнообразие получилось у жителей Египта, Эфиопии, Йемена. Наинизшее из присутствующих на карте — у народов Северо-Восточной Сибири и Южного Китая. Однако у не попавших на карту есть и гораздо более экстремальные значения гомозиготности. Наибольшей она оказалась у южноамериканских индейцев и выборки папуасов. Чуть отстали африканские пигмеи, а вот обычные африканцы (йоруба и кенийские банту) вышли примерно на уровне восточноазиатов. Возможно, их реальное разнообразие еще выше (с учетом эффекта, описанного в первом абзаце).

Видно снижение разнообразия у народов-изолятов — калашей и бедуинов. И наоборот, у народов смешанного происхождения разнообразие выше. Например, на границе Европы и Азии выделяются ногайцы, башкиры, татары, коми-зыряне. В целом в Европе разнообразие плавно снижается с юга на север, за исключением выборок-изолятов — басков и сардинцев. А, допустим, в Индии все наоборот — понижение идет с северо-запада, откуда шли вторжения пришельцев, на юг и восток, к дравидам и австроазиатам.

При подсчете суммы IBD-сегментов уровень гомозиготности в выборке играет заметную роль. Например, «экстремалы» эвенки и эвены всегда разделяют меньше сегментов с европейцами, чем их соседи, но зато больше — с восточноазиатами.

В заключение приведу обновленную таблицу среднего процента гомозиготных снипов по используемым выборкам (и по используемому набору снипов):

Yemenite 65,20%
Egyptian 65,31%
Ethiopian 65,33%
Nogay 65,49%
Moroccan 65,52%
BR2 65,61%
Tatar-Kazan 65,65%
Azerbaijani 65,66%
Tatar-Crimean 65,67%
Kumyk 65,71%
Uttar-Pradesh-HC 65,72%
Bashkir 65,73%
Balkarian 65,78%
Komi 65,88%
Gujarati 65,92%
Tadjik 65,92%
UAE 65,92%
Turkmen 65,95%
Uzbek 66,00%
Uygur 66,00%
Greek_Azov 66,01%
Ashkenazi 66,03%
Ossetian 66,04%
Spanish 66,05%
Burusho 66,05%
Chuvash 66,05%
Croatian 66,05%
Abkhazian 66,09%
Iranian 66,09%
Russian-North-East 66,10%
Lezgin 66,10%
German 66,10%
Armenian 66,13%
Bulgarian 66,13%
Russian-South 66,14%
Italian-South 66,15%
Romanian 66,16%
Ukrainian-West-and-Center 66,16%
Sicilian 66,16%
Russian-North-Kargopol 66,17%
Greek 66,17%
Cypriot 66,18%
Swedish 66,19%
Palestinian 66,19%
Chechen 66,20%
Belarusian 66,20%
Hungarian 66,23%
Hazara 66,23%
Moksha 66,23%
Erzya 66,24%
Udmurt 66,25%
Georgian 66,26%
Ukrainian-East-and-Center 66,26%
Sephard 66,27%
Italian 66,29%
Ust-Ishim 66,29%
Kazah 66,29%
Tatar_Lithuanian 66,30%
Kurd 66,32%
Jordanian 66,33%
Turkish 66,33%
Mari 66,33%
Polish 66,34%
Adygei 66,35%
Norwegian 66,35%
Russian-West 66,36%
French 66,36%
Estonian 66,42%
Balt 66,45%
Karelian 66,45%
Kol 66,47%
NE1 66,49%
Veps 66,50%
British 66,51%
Finnish 66,51%
Tunisian 66,52%
Uttar-Pradesh 66,53%
Mansi 66,60%
Sindhi 66,61%
Brahui 66,68%
Kanjar 66,71%
Pathan 66,75%
Syrian 66,78%
Kirgiz 66,79%
Saud 66,91%
Makrani 67,02%
Basque 67,02%
Druze 67,08%
LBK 67,08%
Sardinian 67,08%
Andhra-Pradesh 67,09%
Bedouin 67,27%
Karnataka 67,33%
Hakas 67,33%
Altaian 67,33%
Balochi 67,36%
Saami 67,55%
Mongol 67,56%
Kalash 67,59%
Shor 67,63%
Munda 67,75%
Kerala 67,88%
Burmese 67,97%
BantuKenia 68,08%
Tuvinian 68,08%
Dolgan 68,24%
Tamil-Nadu 68,27%
Buryat 68,48%
Selkup 68,49%
Ket 68,54%
Xibo 68,54%
Cambodian 68,61%
Mongola 68,63%
Tu 68,65%
Yoruba 68,68%
Yakut 69,01%
Daur 69,11%
Han-North 69,14%
Nivh 69,25%
Naxi 69,31%
Evenk 69,32%
Hezhen 69,34%
Oroqen 69,39%
Yi 69,40%
Han 69,48%
Dai 69,62%
Japanese 69,67%
Miao 69,73%
Tujia 69,80%
She 69,88%
Naga 70,06%
Lahu 70,14%
Nganassan 70,37%
Even 70,64%
BiakaPygmy 70,69%
Maya 71,08%
MbutiPygmy 72,80%
Melanesian 73,03%
Loschbour 73,79%
Papuan 75,67%
Karitiana 76,17%
Kostenki-14 85,96%
Motala12 90,19%
Malta 94,41%

Оценка влияния уровня аутосомной гомозиготности при генотипировании на длину и количество ложных IBD-сегментов

В последнее время я пробовал сравнивать файлы геномов, полученные при генотипировании останков древних людей, с современными выборками в поисках  длинных общих IBD (или все же на деле это IBS?)-сегментов. Как выяснилось, результат в первую очередь зависит от качества прочтения древнего генома, особенно от уровня гомозиготности. Большинство древних геномов прочитывают с небольшим уровнем покрытия (1х-2х), и естественно, при этом захватывается лишь один аллель. Например. если реальные значения снипа A и T, при единичном прочтении можно увидеть либо A, либо T — второе значение останется нерасшифрованным. Любой длинный сегмент при этом окажется разорван.

Есть и геномы, прочитанные с высоким качеством. Их уровень гомозиготности близок к получающемуся у наших современников при коммерческом тестировании в FTDNA и 23andMe. Например, к таким относится BR2 из недавней работы Gamba et al. «Genome flux and stasis in a five millennium transect of European prehistory». Сумма общих сегментов у «венгра» бронзового века с европейскими выборками вполне сопоставима с тем, что получается у наших современников. Как уже неоднократно писалось, возраст таких сегментов вполне может насчитывать несколько тысячелетий, поэтому результат не слишком удивляет. Однако общие сегменты с нашими современниками нашлись и у «усть-ишимца» — древнейшего расшифрованного генома человека современного типа возрастом около 44 тысяч лет (согласно радиоуглеродной датировке). Сложно поверить, чтобы IBD-сегменты могли сохраняться так долго. Что послужило этому причиной? Поддержка отбора, ошибки генетической карты (расстояния между многими снипами получены интерполированием, а это может быть неправильно)? А может быть, это вовсе и не IBD-сегменты, а просто случайно возникшие IBS?

(IBD (identical by descent) — участки совпадающих последовательностей снипов, полученные несколькими людьми от одного и того же предка в результате общности происхождения. IBS (identical by state) — тоже участки совпадающих последовательностей снипов, но причины этого совпадения могут быть другими. Формально IBD это частный случай IBS, но часто понятие IBS используют как синоним лже-IBD сегмента)

Если высокий уровень гомозиготности способен разрушать сегменты, не может ли высокий уровень гетерозиготности создавать лже-сегменты? Вообще, насколько протяженными могут быть лже-IBD сегменты, и каково их количество? Понятно, что идеально гетерозиготный генотип (то есть несущий оба аллеля для каждого снипа) будет совпадать на уровне «родитель-ребенок» с любым человеком (в реальной жизни его возникновение невозможно, разве что искусственным путем). Также понятно, что по теории вероятностей между любыми двумя людьми будут возникать микро»сегменты» из случайно совпавших снипов. Насколько протяженными они могут быть?

Для начала я решил попробовать оценить уровень гомозиготности в используемом мной для IBD-карт наборе выборок. Для сравнения туда же добавлено несколько древних геномов (они выделены жирным шрифтом). «Усть-ишимец» пока выложен лишь до 8 хромосомы, это составляет около половины протяженности аутосом по количеству снипов. Используется набор из примерно 255 тысяч снипов, на другом наборе результаты должны отличаться. Показан усредненный по выборке процент снипов от общего числа, где оба аллеля совпадают.

Уровень гомозиготности по выборке:

Nogay 65,49%
BR2 65,61%
Tatar-Kazan 65,65%
Azerbaijani 65,66%
Tatar-Crimean 65,67%
Kumyk 65,71%
Bashkir 65,74%
Balkarian 65,78%
Komi 65,88%
Tadjik 65,92%
Turkmen 65,95%
Uzbek 66,00%
Uygur 66,00%
Greek_Azov 66,01%
Ossetian 66,01%
Ashkenazi 66,03%
Croatian 66,05%
Chuvash 66,08%
Iranian 66,09%
Lezgin 66,10%
German-Austrian 66,13%
Armenian 66,13%
Bulgarian 66,13%
Belarusian 66,13%
Russian-South 66,14%
Abkhazian 66,15%
Turkish 66,15%
Romanian 66,16%
Russian-North 66,17%
Greek 66,17%
Swedish 66,19%
Erzya 66,19%
Chechen 66,20%
Moksha 66,21%
Ukrainian-East-and-Center 66,21%
Georgian 66,22%
Hungarian 66,23%
Udmurt 66,25%
Sephard 66,27%
Italian 66,29%
Kazah 66,29%
Tatar_Lithuanian 66,30%
Ukrainian-West-and-Center 66,31%
Finnish 66,33%
Mari 66,33%
Polish 66,34%
Adygei 66,35%
Norwegian 66,35%
French 66,36%
Russian-West 66,37%
Estonian 66,42%
UstIshim 66,44%
Karelian 66,45%
Balt 66,46%
Veps 66,50%
British 66,51%
Mansi 66,60%
Kirgiz 66,79%
Basque 67,02%
LBK 67,08%
Sardinian 67,08%
Hakas 67,33%
Altaian 67,33%
Saami 67,55%
Mongol 67,56%
Shor 67,63%
Tuvinian 68,08%
Dolgan 68,24%
Buryat 68,48%
Selkup 68,49%
Ket 68,54%
Xibo 68,54%
Mongola 68,63%
Yakut 68,98%
Daur 69,11%
Han-North 69,14%
Nivh 69,25%
Evenk 69,32%
Hezhen 69,34%
Oroqen 69,39%
Nganassan 70,37%
Even 70,62%
Loschbour 73,79%
Motala12 90,19%
Malta-1 94,41%

Выборкой с наибольшим аутосомным разнообразием (наименьшей гомозиготностью)  оказались кубанские ногайцы, что совершенно не удивляет в связи с их смешанным происхождением. Многие другие народы из начала списка также известны своей смешанностью. Любопытно, что близки к началу и ашкенази, хотя я ожидал от них, наоборот, большего однообразия. Видимо, здесь проявляется их происхождение от двух различающихся групп — ближневосточников и европейцев.

Большая часть списка расположилась в промежутке 66-67% , в том числе и усть-ишимец. Несмотря на более свежий вклад неандертальцев и близость к общему корню, по уровню разнообразия он оказался таким же, как и наши современники. Либо здесь сказываются сложности с расшифровкой столь древнего генома, либо аутосомное разнообразие с тех времен поддерживалось на примерно одном уровне — вымывание одних снипов сопровождалось появлением новых.

Самым низким уровень разнообразия оказался у народов Сибири (где мы явно видим результат генного дрейфа) и китайцев (след быстрого расширения?). В Европе хуже всего с разнообразием оказалось у народов-изолятов — басков и сардинцев. Геном охотника-собирателя Loschbour, скорее всего, прочитан со средним качеством — похоже, это и было причиной того, что в предыдущей заметке у него оказалось меньше общих сегментов с нашими современниками, чем у «фермера» LBK, а вовсе не вымирание его народа.

Таким образом, за базовый уровень гомозиготности можно смело принять 66,6%, то есть 2/3 снипов из используемого мной набора у среднего европейца гомозиготны. Попробуем сделать оценку длины и количества лже-сегментов. Очевидно, что на гетерозиготных участках сегмент разорваться не может. Таким образом, вероятность разрыва на отдельно взятом снипе уже падает до 2/32/3=44,36% . (это оценка вероятности, что у обоих сравниваемых геномов выбранный снип гомозиготен. К сожалению, для упрощения модели пришлось использовать предположение, что для каждого снипа вероятность гетерозиготности примерно одинакова, в то время как в реальности это должно быть не так). Далее, если на гомозиготном участке у обоих геномов сравниваемый аллель один и тот же, то разрыва сегмента также не произойдет. Возьмем для простоты вероятность минорного варианта снипа как 1/6 (вероятность гетерозиготности на снипе 1/3, минорным мог быть либо первый, либо второй аллель, значит, делим вероятность пополам. В реальности надо считать сложнее, но для оценки подойдет). К разрыву могут привести два варианта — в первом геноме мажорный вариант снипа, во втором минорный — вероятность 5/61/6=5/36, и наоборот — в первом минорный, во втором мажорный вероятность такая же. Для получения итоговой вероятности разрыва сегмента на один снип мы умножаем 44,36% на (5/36+5/36) и получаем 12,32% вероятность разрыва лже-сегмента на любом случайно выбранном снипе.

Да уж, есть где запутаться ))) Надеюсь, я все же нигде сильно не ошибся и оценка близка к истине ))

Исходя из вероятности разрыва 12,32% на снип, лже-сегмент будет иметь кумулятивную, то есть накопленную вероятность разрыва 50% при прохождении 5-6 снипов (это медиана). Значит, половина лже-сегментов будет короче этого числа, половина-длиннее. Кумулятивная вероятность разрыва растет в 10 раз каждые 17-18 снипов — 90% лже-сегментов будут короче 18 снипов, 99% — короче 37,  99,9%-54 и так далее. Так как медианное значение при нормальном распределении обычно составляет около 0,7 от среднего, средняя длина лже-сегмента оценивается в 7,5 снипов. На 245 тысяч снипов будет приходиться 32 тысячи сегментов, а на 1130 геномов из используемых выборок — в общей сложности около 36 с половиной миллионов.

Из них около трех с половиной тысяч будут иметь длину не менее 72 снипа, около 36 — 107 снипов, а чтобы гарантированно снизить число лже-сегментов до нуля, нужно установить фильтр в районе 130-140 снипов. Что интересно, примерно на те же цифры я вышел экспериментальным путем, пробуя различные настройки. Оптимальным мне показалось отбрасывать все сегменты с длиной менее, чем 150 снипов. Теория неплохо сошлась с практикой.

Итак, лже-УПСы (участки половинного совпадения), возникшие по статистическим причинам, не должны оказывать особого влияния на IBD-сегменты. Подавляющее большинство из них по длине не превышает несколько десятков снипов (лишь примерно каждый тысячный преодолевает рубеж 50-60 снипов). Разумеется, из-за их наличия реально существующие сегменты неизбежно удлиняются, однако принципиально исказить картину это не может. Конечно, такие причины, как поддержка отбором и искажения, вызванные неточностью генетических карт, остаются в силе. Возможны и другие причины — загадка наличия значимых сегментов с палеоДНК продолжает требовать объяснения.

При ослаблении фильтра до 50 снипов, как в случае с мальтинцем, лже-УПСы уже должны стать заметными. Неудивительно, что при нормальных настройках значимых сегментов почти не получалось — уровень гомозиготности оказался весьма велик.

В заключение приведу график зависимости вероятности разрыва лже-сегмента от уровня гомозиготности в популяции при использовании той же формулы. Как уже писалось, идеально гетерозиготный геном не будет иметь разрывов вообще. Но и в идеально гомозиготной выборке разрывов не будет, ведь аллели у всех совпадают! Что же происходит в промежутке между этими двумя крайностями? Как выяснилось, максимальна вероятность разрыва лже-сегмента при уровне гомозиготности около 70%, что близко к реально существующему уровню. При больших значениях длина лже-сегментов начинает быстро расти из-за того, что все слишком похожи между собой, при меньших — из-за того, что на гетерозиготных снипах сегмент порваться не способен. Уровни ниже 0,45 я убрал из-за их явной нереалистичности. Как можно догадаться, там график движется к нулю.

HZ