Подведение итогов экспериментов по неформальному моделированию адмикса в популяциях

Выполняю с небольшим опозданием данное ранее обещание и расскажу о слабых местах выявления процентов этнического происхождения с помощью анализа результатов ДНК-тестирования. Последние лет пять этот тип изучения этно-популяционного происхождения с привлечением данных генетики вошел в моду — в 2011 году, когда я первый раз провел подобный анализ существовало все 2 крупные компании в пакет клиентских услуг которых входило проведение подобных анализов клиентских данных. Ровно столько же было заметных в инете любителей, предлагающих более развернутый и разжеванный вариант подобного разбора этнопроисхождения добровольных участников своих проектов. Главным инструментым и тех и других являлись программы типа Admixture и STRUCTURE (разработанные академическими биоинформатиками для решения одной из задач популяционный генетики — а именно определения этнической субструктуры в структуре изучемых в ходе конкретного исследования национальной или региональной выборки народонаселения).
Прошло лет 6, я провел более тысячи подобных экспериментальных анализов — на принципиально разных выборках и образцах аутосомных снипов представителей разных народов. Каждый из таких экспериментов хотя бы немного отличался от других — и не только числом заранее заданных предковых компонентов этнических популяций, но и разнообразием самих этих популяций, их числом и качеством генетипированных в этих популяциях снипов, — например степенью сцепления снипов между собой, процентом минорных вариантов, количеством снипов, соотношение гомо- и гетерозиготных аллельных вариантов. На первом этапе основной проблемой являлась недостаточная представленность отдельных этносов в выборке вкупе с неполным совпадением популяций по числу генотипированных снипов
Позднее я частично научился обходить проблему за счет импутирования аллельных вариантов недостающих (негенотипированных) снипов по большим референсным панелям. В частности используемый Сергеем Козловым калькулятор K27 был сделан мною как раз с использованием таких импутированых вариантов.
Еще позже — после прорыва в области изучения палеоДНК — появилась возможность не угадывать предковые компоненты слепым перибором числка K (предковых компонентов), а задавать заведомо предковые популяции людей (жителей мезолита, неолита и бронзового века) в качестве чистых предковых популяций К современного народонаселения. Таков, например мой этнокалькулятор K11 Ancient, загруженный зимой этого года на Gedmatch.
Всего же за это время я разработал не менее 60 разных моделей в интервале от K=7 до K33, причем для многих K я разработал сразу несколько моделей.

Все эти модели (только калькуляторы; без инструментов поиска ближайших к тестируемому популяций) я размещаю в открытый доступ на OneDrive (ссылка открывается при нажатии на картинку). Эти файлы работают с программой DIYDodecad, инструкцию использования которой можно найти на сайте Диеникиса

























































Я решил подвести итог этому направлению своей деятельности, на которое ушло много сил, cредств и почти все мое свободное время. Вместо этого я переключусь на более точные формальные методы определения этнического происхождения, разработанный в генетической лаборатории Дэвида Райха из Гарварда.

Главная причина — в силу своего перфекционизма я не был доволен точностью определения частот конкретных предковых компонентов в состав генома отдельно взятых людей. Кроме того, этой зимой в ходе бесед с подобным же любителем насчет проблем Admixture, мы обнаружили ряд причин, приводящих при анализе данных отдельно взятых людей к странным и заведомо неверным комбинациям этнического раскалада предков.
Есть еще одна причина — перенасыщение данного маленького сегмента на рынке инетрпретации генетических данных. В настоящий момент существует уже целый ряд компаний (не менее дюжины), вышедших на рынок ДНК-генеалогии в относительно недавнее время. Каждая из них разработала свой алгоритм и красивый графический интерфейс для визуализации данных по прогнозируемому этнопроисхождению клиента. Увеличилось число крепких и активных любителей (я знаю не менее 10 таких людей), занимающихся в принципе тем же самым, причем иногда качества полученных ими моделей этнического происхождения выше таковых в коммерческих компаниях. Благодаря их усилиям, число доступных этнопопуляционных калькуляторов увеличилось буквально в разы.

Но перейдем к конкретике. Часто люди систематически получают странные результаты — таких примеров можно приводить много. Причем иногда такие странные и неверные расклады можно встретить в больших этнических сообществах — например у чеченцев стабильно в MyHeritage выскакивают в раскаладе предковых групп одинаковые 10-15% жителей Британских остров.
Этот, конечно, нелепый пример, отлично иллюстрирует первую проблемы, связанную с разделением выборки и клиентской базы на кластеры. В отличии от любителей; большинство коммерческих компаний (за исключенеим разве что FTDNA, где алгоритм опеределения процентов этнического происхождения разработал как раз любитель) не занимаются поисками настоящих предковых компонентов — вроде европейских охотников-собирателей, земледельцев и скотоводов бронзового века. Вместо этого все образцы популяций — преимущественно из академических источников — объединяются по географическому признаку в отдельные кластеры — например скандинавский или балканские кластеры. Кластеры задаются как условные предковые компоненты (их может быть довольно много — как например в компании AncestryDNA), якобы позволяющие в данном случае более точно выявить недавнее этнопопуляционное происхождение клиента. И что хуже всего в эти же кластеры включают данные самих клиентов — очень часто просто со слов клиента о своем этническом происхождении (как было в своем время в 23andme), хотя в последнее время в некоторых компаниях (AncestryDNAO) алгоритм усовершенствовали путем включения дополнительных фильтров для отсеивания (например с помощью определения в анализе главных компонентов резко отличающихся и резко выделяющихся в плане этнического происхождения клиентов). Тем не менее, даже самое методичное применение всевозможных дополнительных фильтров не может гарантировать повышение точности предика этнического происхождения. Проблема что в человеческих популяциях — за исключением небольшого количества изолированных задрейфованных популяций вроде нганасан, чукчей, ульчей, калашей, папуасов — ни в одной из этнических групп компоненты не являются дискретными, а представляют собой градиенты частот аллелей, очень часто с большим расбросом из-за чего хвосты частот распределния этих частот перекрываются. На практике этот феномен приводит к появлению в индивидуальных клиентских данных фантомных компонентов — например у европейцев часто появляются всевозможные невозможные компонентоы происхождения — Amerindian, Papuan, Onge и так далее. Подобный подход только вносит сумятицу или — говоря статистическим языком — шум в результаты.

Очевидно, что данная проблема связана с классической проблемой статистики — проблемой организации и подразделения выборки. Схожей по характеру проблемой являеется проблема разнообразия выборки используемой для определения компонентов происхождения. Очевидно, что очень сложно впихнуть все генетическое разнообразие человечества в относительно небольшую выборку — даже еслии ее размер достигает полмиллиона или больше образцов (как у 23andme). Проблема в сверхпредставленности отдельных этнических или квазиэтнических групп в подобных базах данных (западных европейцев, американцев, финнов, ашкеназов и так далее). При неравномерности выборки наблюдается другой классический статистический эффект — искажение результатов выборки в сторону наиболее представленных групп (как было в свое время в 23andme, когда наблюдался эффект сверхпредставленности евреев-ашкеназов в количестве так называех генетических совпаденцев).
Еще одна схожая проблема — в количестве совпадающих снипов (одинакового числа снипов) между тестируемыми индивидуальными образцами и референсными группами. Это проблема затрагивает, правда, только калькуляторы разработанные любителями на базе DIYDodecad — в алгоритмах коммерческих компаний число снипов в рефренсных популяциях и индивидуальных образцах одинаково, т.к. анализируются только те образцы, которые тестировались самой компанией. В вышеупомянутых же этнопопуляционных калькуляторах анализируемые всегда «кроссплатформены» — и если разработчик использовал для разработки калькулятора только те снипы, которые содержаться в чипах 23andme, тогда при анализе данных полученных в компаниях FTDNA или AncestryDNA совпадением снипов будет частичным (так как снипы генотипируемые в этих компаниях совпадают лишь частично). В итоге ситуация в которой сравниваются аллельные частоты снипов референсных популяций (полученные при одном количестве снипов) с аллельными частотами снипов индивида (полученные при совсем другом количестве снипов). Элементарная логика подсказывает что в таком случае будет наблюдаться искажение результатов в совершенно непредсказуемую сторону.
К счастью, у обеих проблем есть разумные решения. Число совпадающих снипов между чипами FTDNA, 23andme (разных версий) и AncestryDNA составляет примерно 300 000, что достатчно для создания калькуляторов приемлемых для анализа данных от всех этих компаний. Решение первой же проблемы тоже есть, но его стоимость немыслимо выскоа — необходимл использовать примерно несколько десятков миллионов ПОЛНЫХ геномов популяций людей со всего мира. Разумеется, никакие любители никогда в жизни не смогут собрать такое количество данных необходимых для создания сверхточных калькуляторов.

Все вышеперечисленные проблемы — сущая мелочь в сравнении с настоящими проблемами, обусловленными алгоритмической стороной вопроса. Дело в том, что все компании (и разумееися любители) — так или иначе — при вычислении аллельных частот в компонентах референсных популяций используют программы использующие парадигму Admixture/Structure. А они используют ML-алгоритмы, минимизирующие ГРУППОВЫЕ частоты аллелей между всеми образцами выборки, т.е. аллельные частоты ПОЛНОСТЬЮ зависят от состава исходной выборки, даже в случае так называемого supervised («обучаемого») анализа, в ходе которого некоторые популяции принимаются за исходные «чистые предковые группы». Поскольку в ранних версиях Admixture, отсутствовала опция фиксирования одной из вычисляемых матрицы (P- матрица аллельных частот снипов в каждом из гипотетических компонентов происхождения; Q-матрица — матрица индивидуальных коэффициентов вклада предковых компонентов в индивидуальный геном с общей построковой суммой в 100%), и практически все компании использовали один и тот же алгоритм (он в во всех подобных программх схож — хотя разняться его имплементации и способы оптимизации функции правдоподобия), то все они подвергнуты искажению истинных частот аллелей. Этот косяк вносит решающий вклад в появление фантомных компонентов происхождения.

То, что вычисленные таким способом значения (скажем русского) могут очень сильно отличаться в сравнении с индивидуальными частотами аллелей (для примера такого же русского из той же скажем Орловской области) — было впервые замечено геномным блоггером Polako.
К сожалению, в силу своем личной ненависти к первоначальному разработчику DIYDodecad — греку Диенекису Понтикосу — он не смог дать формальное объяснение феномена и назвал этот феномен «эффектом калькулятора» (как бы намекая на косорукость кода этой утилиты). На самом деле сам калькулятор здесь не причем — все дела в приниципиальных различиях между определение происхождения на основании частот аллелей вычисленных по группе образцов и тем же самым вычислением аллелей, но уже не в группе, а в индивидуальныом порядке. В этом легко убедиться самому — возьмите клиентские данные, например, норвежца. Вставьте его в большую выборку образцов (например 2000 человек) и прогоните в программе ADMIXTURE задав такое количество гипотетических предковых популяций (K), при котором становится заметна субструктура генофонда популяций на внутриконтинентальном уровне. А затем возьмите того же самого норвежца, но уже в единственном числе, и зафиксировав полученные в предыдущем шаге аллельные частоты в виде предковых популяций. Вы увидите, что различия между результатами анализа одних и тех же данных могут достигать 20 а то и более процентов. Это-то и есть ядро так называемого пресловутого эффекта калькулятора. Очевидно, что и Оракул (т.е. инструмент определения ближайших к клиенту этнических популяций а также моделирования происхождения клиента через набор из 2, 3, 4 популяций) в этом случае (искаженных аллельных частот) будет искусственно создавать фантомные предковые популяций. Например, у русского из Владимирской области могут появиться в качестве шведы,
эстонцы или англичане из Кента.

Строго говоря, первым написал об этой проблема некий Vikas Bansal — автор программы iAdmix:

«For comparison, we also ran ADMIXTURE (in supervised mode using the HapMap reference panel of individuals) on the same dataset (see Figure 1(b)). The European and African admixture estimates for each individual were highly consistent between the two methods. For some individuals, the European component of ancestry using our method was split between the TSI and CEU populations. This could reflect one important difference between the two methods in how they use data from reference individuals. Our method finds a maximum likelihood estimate of the admixture coefficients for each individual using the fixed set of allele frequencies. In contrast, ADMIXTURE, in the supervised mode, utilizes data for all individuals (both the reference populations and the individual(s) being analyzed) to estimate the allele frequencies for each cluster or population and maximize the likelihood function summed across all individuals. Therefore, the allele frequencies are determined not only by the genotypes of the reference individuals but also by the individual(s) that are analyzed for admixture. To confirm this, we estimated allele frequencies by running ADMIXTURE twice: (1) using 800 reference individuals simulated using allele frequencies for 8 HapMap populations (100 individuals per population, see previous section) and (2) 800 reference individuals and 1 additional individual with 100% CEU ancestry simulated using the HapMap allele frequencies. Subsequently, we used our method to estimate admixture coefficients for the simulated CEU individual using the two sets of allele frequencies separately. We found that using the first set of allele frequencies, the admixture coefficients for both CEU and TSI were non-zero. In contrast, using the second set of allele frequencies, only the CEU admixture coefficient was non-zero. This was similar to the results observed in the analysis of the Mozabite data and provided an empirical validation of our hypothesis regarding the difference in the admixture coefficients estimated by the two methods.»

Реклама

Структура генофонда населения Русского Севера по аутосомным данным

Сергей Козлов

Структура генофонда населения Русского Севера по аутосомным данным

Оригинал статьи расположен на ресурсе генофонд.рф

Содержание:

  • Цель работы, применяемые методы и инструменты.
  • Использованные выборки и источники их формирования. Некоторые важные работы, рассматривавшие тему северного генофонда.
  • Основные компоненты аутосомного генофонда северян.
  • Анализ взаимосвязей между неславянскими народами Севера.
  • Структура аутосомного генофонда северных русских (включая Урал и Сибирь).

 

Цель работы, применяемые методы и инструменты.

Цель данной работы – проанализировать то, как сложился аутосомный генофонд северных русских (до массовых миграций XX века), из каких компонентов он состоит и что послужило их источником. Для решения этой задачи создана модель, совместно использующая два подхода – IBD-анализ и сравнение пропорций компонентов Admixture. Метод экспериментальный и не претендует на то, чтобы служить истиной в последней инстанции. И все же, на мой взгляд, он позволяет улучшить детализацию и разглядеть дополнительные подробности по сравнению с полученными ранее результатами. По мере пополнения новыми данными модель может изменяться, или же послужить основой для других моделей и интерпретаций.

IBD-анализ – это подсчет количества достаточно длинных общих участков ДНК, полученных от общего предка (IBD-сегментов) между образцами из исследуемых выборок. Многие используемые при аутосомном анализе методы позволяют определить, насколько сравниваемые образцы схожи или различны между собой, но не дают прямого ответа – является ли обнаруженное сходство свидетельством исторически недавнего родства?

Например, находящиеся рядом на графике главных компонент образцы могут относиться к разошедшимся многие тысячелетия назад популяциям, или же сходство может вообще оказаться результатом конвергенции (когда сумма внешних влияний на сравниваемые популяции схожа, но приведшие к ним события происходили совершенно независимо друг от друга). И наоборот, происходящие от общей основы, но испытавшие сильно различающиеся влияния популяции окажутся на графике далеко друг от друга.

Именно для решения этой проблемы наиболее пригоден IBD-анализ. Поскольку при каждой передаче следующим поколениям часть общих сегментов укорачивается или теряется, их суммарная длина и количество находятся в прямой зависимости от родственности между популяциями. К сожалению, использовать это как непосредственный показатель уровня родства нельзя, поскольку результат очень зависит от популяционной истории – в первую очередь, от испытанного популяцией генетического дрейфа и снижения разнообразия. Например, у эстонцев сумма общих сегментов с восточнофинской выборкой больше, чем с собственно эстонской, поскольку финны испытали более сильный дрейф. Поэтому был применён более сложный подход. На первом этапе среди исследуемых популяций выделяются те, которые испытали наиболее значительный дрейф и родство с ними хорошо проявляется по IBD-сегментам. Такие выборки называются у меня «генетическими полюсами». Далее выделяются опорные популяции, которые будут служить основой для моделирования (остальные выборки представляются, как результат их смешения). К опорным выборкам могут относиться как «генетические полюса», так и другие. Например, выборки центральных и северо-западных русских не формируют «генетических полюсов», но несомненно нужны в качестве опорных при моделировании происхождения северных русских.

Для поиска наиболее хорошо подходящих комбинаций опорных выборок использован алгоритм, называющийся «оракул» (насколько мне известно, впервые примененный геномным блогером Dienekes Pontikos).  Он перебирает варианты смешения отобранных выборок и ищет результаты, где среднеквадратичное отклонение от целевой выборки будет наименьшим. В данной работе вклад каждой выборки при переборе изменяется с шагом 5%, поскольку шаг в 1% увеличит количество вычислений на порядки, но не даст реального повышения точности. Оракул может использовать как результаты IBD-анализа (тогда в качестве сравниваемых показателей используются суммы  общих сегментов опорных выборок с «генетическими полюсами»), так и пропорции компонентов Admixture. Здесь они выделяются согласно разработанной В. Вереничем 27-компонентной модели, которую я считаю наиболее удобной для сравнения восточноевропейцев между собой, при помощи инструмента DIYDodecad от Dienekes. Что касается IBD-сегментов, то выбраны следующие показатели – чтобы исключить случайные совпадения, длина каждого учитываемого сегмента должна быть не менее 3 сМ, и он должен состоять не менее, чем из 150 снипов. При сравнении двух выборок итоговая цифра показывает усредненный результат сравнения каждого генома из первой выборки с каждым геномом из второй (сумма в сМ).

Программные реализации оракула, IBD-анализа и алгоритма отображения на картах, применяемые в данной статье, созданы непосредственно автором.

 

Использованные выборки и источники их формирования.

В статье использованы как научные образцы, так и результаты людей, тестировавшихся частным образом в коммерческих лабораториях (компании 23andMe и FTDNA). Анализ производился по широкогеномным данным об аутосомных маркерах. Использовано несколько частично отличающихся панелей Illumina, некоторые образцы получены усечением полногеномных данных до широкогеномных. Для IBD-анализа применено усечение всех геномов до набора из 244 тысяч снипов, которые присутствуют во всех панелях. Для Admixture-анализа – усечение до 118 тысяч снипов, поскольку при этом виде анализа дополнительно исключаются близкорасположенные, «сцепленные» снипы. Сформированные выборки показаны на карте черными квадратами.

 

СеверВыборки

 

Две из них оказались за пределами карты – это потомки русских старожилов Сибири (5 человек) и Забайкалья (3 человека). Как иногда говорят, «чалдоны», или «челдоны». Цифры рядом с названием показывают размер каждой выборки. В случае указания размера через косую черту, число слева означает количество использованных образцов для выведения усреднений по компонентам Admixture, число справа – количество образцов, использованных для подсчета общих сегментов (имеются в виду малые выборки, которые сравниваются с большими. Они расположены под графиком сумм общих сегментов). Размеры больших выборок справа от IBD-графика (то есть тех, с которыми сравниваются малые выборки) следующие:

Balt 20 (литовцы, латыши и один схожий с ними геном с российско-латвийского пограничья);

Finnish-East 18 (восточные финны);

Karelian 18 (карелы);

Komi 19 (коми);

Mansi 9 (манси);

Mari 16 (марийцы);

Russian-Pomor 12 (русские поморы);

Saami 13 (саамы);

Udmurt 19  (удмурты);

Veps 14  (вепсы).

Выборки, использованные для построения карт, подробно не описываются, поскольку их очень много, а сами карты приводятся исключительно в иллюстративных целях.

Источник основной части научных образцов – Эстонский Биоцентр (геномы выкладываются здесь). Сложно перечислить, в какой из статей был впервые использован каждый геном, при желании эту информацию можно найти на сайте биоцентра. Кроме того, использованы выборки из проекта «1000 геномов», а также статьи Hellenthal et al, 2014 . Несмотря на небольшое количество геномов, очень полезными для анализа северного генофонда оказались полные сиквенсы из работы  Wong et al, 2015

«Изюминкой» моих работ можно посчитать включение «коммерческих» геномов. К сожалению, кроме плюсов (добавление результатов популяций, не охваченных научным тестированием), у этого решения есть и минусы. Главный из них – автор не может доказать, что используемые образцы соответствуют строгим научным критериям формирования выборок. Геномы высылались мне для анализа энтузиастами генетической генеалогии, собравшимися на площадке forum.molgen.org , при условии, что файлы не будут передаваться третьим лицам. В выборку включались люди, все ближайшие предки (хотя бы 2-3 поколения – одиночный предок далее прадедушек и прабабушек уже влияет на результаты очень мало) которых происходили из нужной местности и относились к нужному этносу. За время существования проекта было обработано более 500 «коммерческих» геномов восточноевропейцев, однако большинство из них нельзя включить в «опорные» выборки из-за несоответствия указанному критерию либо из-за близкородственности с уже обработанными геномами. Тем не менее, для проверки полученных результатов они вполне пригодны. Таким образом, общий объем восточноевропейской выборки весьма велик.

Лично я уверен в добросовестности генеалогов-молгеновцев. Свое происхождение они нередко знают на столетия назад, поэтому с моей точки зрения «коммерческие» выборки временами могут являться даже более качественными, чем научные. Косвенным доказательством их корректности служит то, что полученные результаты без каких-либо противоречий вписываются в единую систему с научными выборками. При появлении нужных научных выборок «коммерческие» результаты будут либо окончательно подтверждены, либо исправлены и дополнены.

Автор выражает особую благодарность за помощь при формировании северных выборок Анатолию Воронцову, Владимиру Волкову и Владимиру Беданову. Благодарность выражается и всем участникам проекта.

Причина разницы в количестве образцов, использованных для IBD- и Admixture- анализа заключается в том, что часть научных геномов уже была использована при создании 27-компонентной модели. Поэтому получаемые для них результаты отличаются от всех остальных, не использовавшихся при выведении компонентов Admixture и исключены из сравнения (так называемый «эффект калькулятора»). Для IBD-анализа подобной проблемы не существует.

Одним из первых толчков к написанию данной статьи следует признать работу Андрея Хрунина и др. от 2013 года, где, насколько мне известно, впервые в научном сообществе был выделен «северо-восточный» европейский аутосомный полюс. Надо упомянуть, что любителями, например, уже упоминавшимся В.Вереничем, при анализе Admixture этот полюс выделялся и ранее. Позднее авторы и далее развивали тему изучения северного генофонда, в том числе выступив соавторами в упомянутой выше статье Wong et al.

Более широкую известность получила статья 2011 года “Генофонд Русского Севера: Славяне? Финны? Палеоевропейцы?” Елены Балановской и др, однако в ней исследовались однородительские маркеры, и аутосомы остались почти незатронутыми (кроме одиночного маркера CCR5del32).

Сходства и различия изученных русских выборок между собой и с соседними славянскими, балтскими, финскими народами подробно изучались в известной статье о генофонде славян и балтов (Алёна Кушняревич и др., 2015), подытоживающей накопленную на тот момент научным сообществом информацию, а также вышедшей в конце того же года монографии Олега Балановского «Генофонд Европы» , дающей подробный обзор европейского генофонда. В обеих работах проводился анализ по всем трем основным системам генетических маркеров (мужские и женские однородительские линии, и аутосомы).

Перечислить все имеющие отношение к анализу северного генофонда научные работы крайне сложно, и все равно остается вероятность пропустить что-то важное. Поэтому не буду дополнительно углубляться в тему, а перейду к следующей части.

 

Основные компоненты аутосомного генофонда северян.

При анализе северного генофонда можно выделить три его главных источника. Здесь я не останавливаюсь подробно на их выведении, ограничившись общим описанием и несколькими иллюстрациям, поскольку эти компоненты можно увидеть во многих научных работах.

Первый, наиболее древний слой – это «палеоевропейский» компонент, и поныне преобладающий у всех северных европейцев. Благодаря произведенной за последние годы расшифровке заметного количества геномов древних охотников-собирателей мы можем уверенно судить, что его корни тянутся на десятки тысячелетий в прошлое. Правда, в основном эти геномы относятся к более южным регионам Европы – от  Испании (la Brana) до Воронежской области (Костёнки). Однако есть и результат «северянина» — это образец I0061 (из работы Haak et al. 2015 года) с Южного Оленьего острова, Карелия. Его возраст, согласно радиоуглеродной датировке, составляет около 7-7.5 тысяч лет. При его сравнении с современными выборками первая десятка с наибольшей долей совпадающих снипов (одиночных мутаций), по моим расчетам, оказалась следующей:

Эстонцы

Латыши и литовцы (объединенная «балтская» выборка)

Русские Каргополя («вологодская» выборка HGDP)

Поляки

Восточные финны

Карелы

Вепсы

Саами

Словаки

Западные финны

На момент сравнения у меня еще не была сформирована выборка беломорских русских (поморы) – не сомневаюсь, что она тоже заняла бы высокое место в этом «рейтинге палеоевропейскости».

Несмотря на географию, я не считаю «оленеостровца» представителем основной части предков современных прибалтийских финнов или собственно балтов — на эту роль лучше подходят более южные образцы. Думаю, что он ближе к предкам удмуртов (в рейтинге они отдалились из-за наличия у современных удмуртов восточноазиатского и степного влияния). Также любопытна его взаимосвязь с западнославянскими выборками. Вероятно, картина прояснится при появлении новых северных палеообразцов, а пока данных слишком мало, чтобы уверенно их структурировать.

Второй компонент можно назвать «уральско-сибирским». Его влияние заметно ниже, при этом в целом падает при продвижении с востока на запад. Видимо, изначальное происхождение компонента связано со смешением восточных, «сибирских» вариантов континуума древних охотников-собирателей Северной Евразии (западным вариантом которых являются палеоевропейцы) и пришельцев с юго-востока, принесших с собой восточноазиатские генетические варианты. Напрашивается предположение о взаимосвязи компонента с распространением в северо-восточной Европе языков уральской семьи, а также многих ветвей Y-гаплогруппы N. Согласно реконструкции Владимира Напольских, перед распадом прауральского языка его носители проживали в темнохвойной тайге западносибирского типа, вероятно, также частично захватывая Урал и Восточную Сибирь (см. «Предыстория уральских народов», 2001 ).  Можно предположить, что при продвижении на запад «уральские» мужчины женились на местных женщинах, и в следующих поколениях доля «восточных» аутосомных вариантов снижалась, замещаясь «западными». В результате наблюдаемая картина при использовании разных систем генетических маркеров резко различается – если по Y-гаплогруппам влияние пришельцев весьма высоко, а кое-где преобладает подавляюще, то по аутосомным и мито-маркерам оно или совсем невелико, или находится в меньшинстве.

Среди современных европейских народов наиболее сильно этот аутосомный компонент проявляется у марийцев. Однако и у них он смешан с «палеоевропейским», поэтому для его выделения удобнее использовать результаты угорских народов Западной Сибири.

 

MansiUS-IBD

 

Наконец, третий, наиболее поздний компонент – это вклад пришедших с юга восточнославянских переселенцев. Этот компонент также имеет палеоевропейскую основу (что затрудняет дифференцирование с первым компонентом), однако с некоторой добавкой «южных» влияний (предположительно, неолитических земледельцев Европы и степных групп бронзового либо железного века). Сложно оценить, насколько велико влияние восточных славян на финские и пермские народы. Некоторые следы этого можно увидеть, но какая его часть связана с русскими миграциями Средневековья и нового времени, а какая — с более ранними движениями населения (например, знаменитыми «шнуровиками», или контактами прафинноугров со степными индоевропейцами)? Точную оценку станет возможно сделать только после прочтения северных геномов дославянского периода, а пока что мы можем опираться лишь на результаты наших современников. Поэтому я принял в качестве рабочего предположения, что до XX века люди смешанного происхождения обычно либо входили в состав русских, либо это делали их потомки. Тогда влиянием русских на генофонд сохранившихся финнов и пермян можно условно пренебречь, а найденные у них «южные» аутосомные компоненты отнести на иные контакты.

Дальнейший анализ будет производиться в два этапа. На первом я попытаюсь раскрыть взаимосвязи между неславянскими народами Севера. На втором – опираясь на уже полученные результаты, провести анализ генофонда северных русских. Единственным исключением станет восточная половина выборки поморов – русские Пинеги и Мезени. Согласно реконструкции, в основной части они потомки дославянского населения Севера, с минимальным влиянием центральных и южных русских. Поэтому их результаты представляют большую ценность для понимания северного генофонда и включены уже в первый этап анализа. Разумеется, это не делает пинежан и мезенцев какими-то «неправильными» или «поддельными» русскими, как  иногда воспринимают мои слова.

 

Этап 1. Анализ взаимосвязей между неславянскими народами Севера.

 

ГрафикСевер1

 

Поскольку IBD-анализ чувствителен к размеру выборок, в поморскую выборку (Russian-Pomor), кроме мезенцев и пинежан, для надежности добавлены близкие к ним генетически русские из низовьев Северной Двины. Komi-Zyryan-NE – это объединение результатов двух ижемских коми м одного близкого к ним коми из другой научной выборки, точное происхождение которого неизвестно. Komi-Zyryan-SW – объединение результатов двух прилузских коми, одного коми из Сыктывкара и двух близких к ним коми из научной выборки, точное происхождение которых неизвестно.

Как видите, количество общих сегментов хорошо отображает географию (проживающие рядом народы имеют больше возможностей генетически повлиять друг на друга). Например, у карел очень много общих сегментов с вепсами. Однако при этом у прибалтийских финнов больше общих сегментов с карелами, чем с вепсами, а у поморов и коми – чуть больше с вепсами, чем с карелами, но в целом близко. Таким образом, можно сказать, что с точки зрения аутосомного генофонда карелы – это смешение вепсов и восточных финнов.

По пикам сумм IBD-сегментов в общей «палеоевропейской» массе можно выделить отдельные «генетические полюса». Причина их появления – генетический дрейф в результате изоляции. Население Севера долгое время было очень редким, поэтому выделение полюсов происходило быстрее их размывания в результате смешения с соседями. Южнее в большинстве случаев этого не происходило, размывание шло быстрее выделения. Однако, к примеру, евреи-ашкенази за примерно тысячелетие генетически изолированного от окружающих существования сформировали хорошо выраженный полюс. Также хорошо формируют «генетические полюса» народы Северного Кавказа, благодаря географической изоляции (горный рельеф).

Чем более сильным оказался дрейф, тем выше будет пик на IBD-графике у соответствующего полюса. Возможно и формирование вторичных полюсов – когда смешиваются уже хорошо отдрейфовавшие популяции, а получившаяся группа позже испытывает дополнительный дрейф (например, так предположительно произошло с вепсами и карелами).

Основные генетические полюса, проявляющиеся на Севере, изображены на схеме внизу в черных прямоугольниках от «Балтский» до «Пермский 2». В верхней строке приведено условное название полюса, в нижней – выборка, для которой его влияние проявляется наиболее ярко. При вычислении влияния полюса на соседние популяции значения для этих выборок условно приняты за 100%. Выделение полюсов основано на анализе IBD-сегментов, а вероятные пропорции смешения получены сравнением компонентов Admixture (диаграмма с их значениями будет приведена далее).

 

ДеревоСеверv2-1

В правом верхнем углу изображен гипотетический исходный «уральско-сибирский» компонент и его влияние на северные популяции (при оценке его влияния я в основном ориентировался на результаты выборки манси). В левом верхнем углу – «западный» компонент, проявляющийся на графиках Admixture у выборок, расположенных рядом с Финским заливом. Здесь за основу взяты результаты шведов, поскольку наиболее хорошо он выделяется у юго-западных финнов, а влияние шведов на их генофонд согласуется с известными из истории фактами. Впрочем, использование как манси, так и шведов – условность для целей моделирования. Это не значит, что соответствующее влияние шло именно от предков этих народов.

Центральные и южные русские (а также большинство остальных славян) тяготеют к «балтскому» полюсу.

Первые четыре полюса близкородственны между собой, в то время, как Пермский 2 (предки удмуртов) находится несколько поодаль, повлияв лишь на первый пермский полюс (поток генов от удмуртов к коми).  Положение коми-пермяков точно неизвестно, но логично предположить, что они должны быть смесью влияний двух пермских полюсов (это предположение будет использовано при анализе результатов пермских русских).

Любопытно, что выборка северо-восточных (ижемских) коми проявила гораздо больше общего с поморами, чем с другими пермянами. Думаю, что это разделенные части единой древней популяции (назовем ее «чудь заволочская»). Большинство ее представителей вошло в состав русского народа, но крайняя северо-восточная часть перешла на пермский язык (либо изначально была не финно-, а пермскоязычной) и стала коми-ижемцами.

Довольно сложным получилось происхождение кольских саами – хотя в наибольшей степени они связаны с «финским» полюсом, сильно проявлены как «поморский» полюс, так и «уральско-сибирский» компонент, который тоже, вероятно, можно разбить на несколько полюсов. Как мне кажется, «уральско-сибирское» влияние у саами больше марийского, чем мансийского или ненецкого типа, но тут тяжело надежно выявить подробности. Кроме того,  моделирование для саами произведено без участия Admixture, поэтому надежность реконструкции снижена.

И все же, насколько оправдано использовать результаты выборки восточных поморов в качестве 100% представителей дославянского генофонда? Результаты Admixture показывают, что они почти в точности вписываются между своими соседями с юго-запада (вепсы) и востока (коми-ижемцы).

 

AdmixtureСевер1

 

Russian_Mezen_Pinegav3

 

Как будет показано далее, вклинивающиеся между ними русские Каргополя аутосомно схожи с более южными и восточными выборками, такими, как русские Сольвычегодска. Восточные финны здесь  отличаются настолько сильно из-за того, что для них выделен отдельный компонент Admixture (на диаграмме выше голубой) и отклонение по нему наиболее велико.

Могут выдвинуть возражение, что это русские настолько повлияли на генофонд коми и вепсов, что они стали походить на поморов. Но если уж русский колонизационный поток был настолько мощным, чтобы кардинально менять генофонд местного населения, то собственно русские выборки Севера в таком случае должны быть неотличимы от центральных и южных русских. А подобного не наблюдается.

В качестве подкрепления выводов приведу часть графика главных (первая и вторая) компонент из упоминавшейся выше этапной работы Кушняревич и др., 2015 о генофонде славян и балтов. Здесь использованы только научные выборки. Черным курсивом даны мои комментарии и пояснения, мной же добавлена и черная линия, соединяющая наиболее «аутосомно северные» выборки:

 

PCA

 

Этап 2. Структура генофонда северных русских.

При решении вопроса, какие выборки отнести к северным русским, за основу взята карта русских говоров, составленная советскими лингвистами (по Русская диалектология / под ред. Р. И. Аванесова и В. Г. Орловой. М.: Наука, 1965). Она хорошо коррелирует с аутосомными данными, включая один спорный момент – жителей зон 16 и 17 (историческая Новгородская Земля, «словене ильменские») по некоторым признакам тоже можно отнести к северянам. Здесь это названо «западные окающие говоры». Как мы увидим, разница с зоной «западных акающих говоров» (Псковщина, «кривичи псковские») хорошо проявляется и в аутосомном генофонде. К сожалению, образцы из «чухломского острова» (зона 24) отсутствуют – было бы интересно сравнить их с соседями.

 

Диалектологическая-карта-1965

Кроме северян, использованы выборки новгородских русских (она должна представлять «новгородский» поток колонизации), псковская (для сравнения с новгородцами) и «ростовская» (она представляет не окрестности города Ростова, хотя есть и образец оттуда, но «ростовскую землю» и «низовский» поток колонизации в целом – использованы образцы от Углича до Иваново). Для отображения возможных колонизационных потоков «из глубин славянского мира» взята выборка смоленских русских. Из географических соображений на график добавлены тверские русские (без северо-восточной части Тверской области, относящейся уже к зоне северных говоров), и небольшая выборка муромчан. Сформировать выборку русских Владимирского Ополья не удалось – пришлось ограничиться «ростовцами».

Северяне принимали активное участие в процессе освоения русскими Урала и Сибири (долгое время основные пути туда проходили через Север). Поэтому в анализ включены выборки потомков русских старожилов Пермского края, южной части Западной Сибири и Забайкалья.

 

ГрафикСевер2

 

Отличить северян оказалось очень легко – если для русской выборки красная линия (пересечения с поморами) получилась выше или наравне с зеленой (пересечения с балтами) – перед нами северные русские. Если ниже – центральные, северо-западные, либо не показанные здесь южные.

Больше всего пересечений с балтами найдено у псковских русских. Псков, Смоленск и Тверь расположены на землях, которые когда-то населял славянский племенной союз кривичей. Археологи обнаруживают у них сильное балтское влияние и некоторые исследователи даже относят кривичей к ославяненым балтам. Впрочем, как я уже писал, большинство славян тяготеет к «балтскому» полюсу, и его можно с чистой совестью называть «балто-славянским». Просто у балтов он выражен несколько сильнее.

Очень своеобразны результаты новгородской выборки. У них относительно мало пересечений с поморами, но при этом проявлены пересечения с прибалтийско-финскими народами (это заметно при сравнении с соседями из Пскова и Твери). То есть новгородцы – северяне по параметру «есть предки из уральскоязычных народов», но не северяне по более узкому параметру «есть предки из чуди заволочской». Если вернуться к схеме взаимосвязей дославянского населения Севера, можно увидеть, что «уральско-сибирский» аутосомный компонент до Балтики практически не добрался, растворившись по дороге. На графике это отражается небольшим количеством пересечений с выборкой манси у новгородцев. По сути, здесь мы видим базовый уровень родства палеоевропейских времен (20-25 сМ). У карел и вепсов он повышается до 35, а у коми, удмуртов и саами – до 50-60 сМ. Для сравнения, у хантов этот показатель составил 229 сМ.

Для просчета возможных вариантов происхождения северян использован оракул на основе сравнения сумм IBD-сегментов в режиме «комбинация не более, чем пяти предковых популяций». В качестве опорных взяты выборки вепсов, карел, удмуртов, юго-западных коми-зырян («ижемскую» выборку включать нет смысла, поскольку она будет дублировать поморов с добавлением лишнего «уральско-сибирского» влияния), русских Пинеги-Мезени (поморы), Новгорода, Пскова, Ростова и Смоленска. Сравнение идет по суммам общих сегментов с представителями четырех «палеоевропейских» полюсов (балты, восточные финны, поморы, коми), а также четырьмя дополнительными выборками (вепсы, манси, саами, марийцы).

Для начала проверим оракул на новгородцах. Здесь и далее приводятся пять результатов с наименьшим среднеквадратичным отклонением (значение после @).

Russian-Smolensk 90% + Karelian 10% @ 7

Russian-Pskov 5% + Russian-Smolensk 85% + Karelian 10% @ 7,02

Vepsa 5% + Russian-Smolensk 85% + Karelian 10% @ 7,54

Vepsa 5% + Russian-Pskov 5% + Russian-Smolensk 85% + Karelian 5% @ 7,56

Russian-Pinega-Mezen 5% + Russian-Smolensk 85% + Karelian 10% @ 7,72

Russian-Pinega-Mezen 5% + Russian-Pskov 5% + Russian-Smolensk 80% + Karelian 10% @ 7,85

Лучше всего новгородцы моделируются, как смесь смоленских русских и небольшой доли карел или вепсов. Результат выглядит весьма правдоподобно. Хотя, скорее всего, источником «финского» влияния выступали не столько карелы, сколько более близкие географически народы (летописные чудь, водь и т.д.). Если вновь вернуться к схеме взаимоотношений дославянского населения из начала статьи, то результаты эстонцев показывают – у местных финнов должно было быть меньше «финского» и больше «балтского» влияния. Таким образом, более вероятное соотношение пришлого и местного элемента у новгородцев не 90 на 10, а примерно 80 на 20.

Перейдем к северянам. Как и на графике, выборки расположены в порядке убывания сумм IBD-пересечений с поморами – от более выраженных северян к менее выраженным.

Важная ремарка – я попытался просчитать не только соотношение вклада местного населения и пришельцев-славян, но и соотношение вклада различных групп этих пришельцев. Однако разница между ними относительно невелика, поэтому надежность дополнительного разбиения заметно ниже. Пожалуйста, имейте это в виду при анализе результатов.

Поморы с низовьев Северной Двины:

Russian-Pinega-Mezen 75% + Russian-Pskov 5% + Russian-Novgorod 15% + Karelian 5% @ 4,89

Russian-Pinega-Mezen 75% + Russian-Novgorod 20% + Karelian 5% @ 4,93

Vepsa 5% + Russian-Pinega-Mezen 70% + Russian-Pskov 15% + Russian-Novgorod 5% + Karelian 5% @ 5,01

Russian-Pinega-Mezen 70% + Russian-Pskov 20% + Karelian 10% @ 5,03

Russian-Pinega-Mezen 80% + Russian-Pskov 5% + Russian-Novgorod 5% + Russian-Smolensk 5% + Karelian 5% @ 5,08

Vepsa 5% + Russian-Pinega-Mezen 70% + Russian-Pskov 20% + Karelian 5% @ 5,09

Мы уже знали, что они весьма близки пинежско-мезенской выборке, поэтому затруднений у оракула не возникло. Доминирует местный элемент, плюс показывается некоторое влияние новгородцев и карел. В некоторых комбинациях алгоритм «расщепляет» влияние новгородцев на составляющие, которые мы уже видели в предыдущем примере (русские Пскова или Смоленска плюс карелы или вепсы).

Русские Сольвычегодска:

Russian-Pinega-Mezen 35% + Russian-Rostov 30% + Russian-Novgorod 15% + Komi-Zyryan-SW 10% + Karelian 10% @ 3,12

Russian-Pinega-Mezen 40% + Russian-Novgorod 40% + Komi-Zyryan-SW 10% + Karelian 5% + Udmurt 5% @ 3,65

Russian-Pinega-Mezen 35% + Russian-Pskov 10% + Russian-Rostov 35% + Komi-Zyryan-SW 10% + Karelian 10% @ 3,66

Russian-Pinega-Mezen 35% + Russian-Rostov 35% + Russian-Smolensk 10% + Komi-Zyryan-SW 10% + Karelian 10% @ 3,69

Russian-Pinega-Mezen 40% + Russian-Pskov 5% + Russian-Novgorod 35% + Komi-Zyryan-SW 15% + Karelian 5% @ 3,73

Здесь с автохтонной стороны к «поморскому» компоненту добавляется влияние коми, что выглядит логично с точки зрения географии. Со славянской же стороны алгоритм подставляет то ростовцев, то новгородцев. Это тоже можно посчитать логичным – Сольвычегодск расположен рядом с важнейшим перекрестком северных речных путей, где реки Сухона, Юг и Вычегда превращаются в Двину. Здесь долгое время шла борьба между «низовцами» и новгородцами (опорным пунктом первых был расположенный чуть западнее Великий Устюг). Как известно, соперничество Новгорода и Ростовской земли/Владимирской Руси/Великого Княжества Московского в конечном итоге закончилось поглощением Новгорода и его бывших северных владений Москвой.

Однако я не исключаю и варианта, описанного в ремарке – алгоритм просто не справился с разделением влияния групп славян. Само же соотношение пришлого и местного элемента в генофонде сольвычегодцев можно оценить, как 50 на 50.

 

1-4

 

Русские Пермского края:

Russian-Pinega-Mezen 40% + Russian-Pskov 15% + Russian-Novgorod 15% + Komi-Zyryan-SW 15% + Udmurt 15% @ 3,49

Russian-Pinega-Mezen 40% + Russian-Novgorod 20% + Russian-Smolensk 10% + Komi-Zyryan-SW 15% + Udmurt 15% @ 3,78

Russian-Pinega-Mezen 40% + Russian-Pskov 25% + Russian-Smolensk 5% + Komi-Zyryan-SW 15% + Udmurt 15% @ 3,8

Russian-Pinega-Mezen 40% + Russian-Pskov 30% + Komi-Zyryan-SW 15% + Udmurt 15% @ 3,85

Russian-Pinega-Mezen 40% + Russian-Pskov 25% + Russian-Rostov 5% + Komi-Zyryan-SW 15% + Udmurt 15% @ 3,95

Первоначальное заселение края русскими происходило северным путем, через Вычегду и волоки в бассейн Камы. Путь по Волге и низовьям Камы был перекрыт казанцами. Судя по результатам, Пермь стала областью вторичной колонизации, куда в основном переселялись уже северные русские – иначе не объяснить столь большую долю «поморского» компонента. Видимо, комбинации «40% поморы + 30% северо-западные русские» отражают вклад северян (с вероятным добавлением небольшой доли других групп русских) поскольку такая смесь примерно соответствует русским Сольвычегодска, которых я условно принял за типичных представителей северян. Тогда «15% коми-зыряне + 15% удмурты» — это преимущественно отображение вклада местного пермского населения. К сожалению, результатов коми-пермяков у меня нет, но с точки зрения географии они примерно так и должны выглядеть. На графике хорошо заметно повышение у пермских русских количества общих сегментов как с коми-зырянами (по этому показателю они на первом месте среди всех русских выборок), так и с удмуртами (второе место после одной специфичной вятской выборки). Однако здесь вклад дославянского населения в генофонд местных русских следует признать более низким, чем в предыдущих случаях – ведь «поморский» компонент на этот момент уже необходимо считать русским.  Если взять в качестве образца переселенцев-северян русских Сольвычегодска, то соотношение пришлого и местного элемента в генофонде пермских русских можно оценить, как 75 на 25, или даже 80 на 20 (поскольку “пермский” компонент частично присутствует уже у сольвычегодцев).

Русские Каргополя:

Russian-Pinega-Mezen 35% + Russian-Pskov 20% + Russian-Novgorod 30% + Komi-Zyryan-SW 5% + Udmurt 10% @ 1,67

Vepsa 5% + Russian-Pinega-Mezen 30% + Russian-Pskov 25% + Russian-Novgorod 25% + Udmurt 15% @ 1,83

Russian-Pinega-Mezen 35% + Russian-Rostov 15% + Russian-Smolensk 35% + Karelian 5% + Udmurt 10% @ 1,84

Russian-Pinega-Mezen 35% + Russian-Pskov 10% + Russian-Rostov 20% + Russian-Novgorod 25% + Udmurt 10% @ 1,95

Russian-Pinega-Mezen 35% + Russian-Rostov 30% + Russian-Novgorod 25% + Komi-Zyryan-SW 5% + Udmurt 5% @ 1,98

Знаменитая выборка из Human Genome Diversity Project, долгое время представлявшая в большинстве научных работ всех русских, что вызывало у многих бурное негодование (в том числе временами и у меня). Каргополь расположен рядом с границами Карелии, и само его название выводят от карельского «медвежья сторона». Поэтому я ожидал найти здесь немалое влияние карел. Однако ничего подобного не наблюдается — результаты схожи с полученными для более восточных выборок северных русских (сольвычегодцы). Откуда там взялись пересечения с удмуртами, непонятно. Впрочем, их не так и много – вероятно, удмурты введены алгоритмом в попытке сбалансировать комбинации, а реального влияния почти нет.

Возможно, местные финны оказались более схожи по аутосомному портрету не с используемой мной карельской выборкой из Приладожья, а с поморами. Еще один приходящий в голову вариант объяснения – каргопольская выборка представляет позднейших русских переселенцев с юга и востока (Сухона, Вычегда и т.д.). Город стоял на торговом пути, идущем от Вологды и Белозерска, то есть из сферы влияния «низовцев». Поэтому взаимосвязь тут возможна. На карте диалектов Каргополь размещен у границы вологодских и межзональных (переходных к ладого-тихвинским) говоров, то есть тяготеет к Сухоне.

Из-за подобной неопределенности оценка вклада местного и пришлого населения не производится.

Русские Устюжны:

Russian-Pinega-Mezen 15% + Russian-Rostov 30% + Russian-Novgorod 45% + Karelian 5% + Udmurt 5% @ 9,22

Russian-Pinega-Mezen 25% + Russian-Rostov 20% + Russian-Novgorod 50% + Udmurt 5% @ 9,24

Vepsa 5% + Russian-Pinega-Mezen 15% + Russian-Rostov 30% + Russian-Novgorod 45% + Udmurt 5% @ 9,24

Russian-Pinega-Mezen 25% + Russian-Rostov 15% + Russian-Novgorod 50% + Russian-Smolensk 5% + Udmurt 5% @ 9,26

Russian-Pinega-Mezen 25% + Russian-Pskov 5% + Russian-Rostov 15% + Russian-Novgorod 50% + Udmurt 5% @ 9,33

Согласно В. В. Седову, культура сопок, характеризующая ильменских словен, распространялась до бассейна реки Мологи, где и расположена Устюжна (Седов В. В. Древнерусская народность. Историко-археологическое исследование. М., 1999). Таким образом, район Устюжны начал заселяться будущими новгородцами очень рано. Неудивительно, что здесь преобладает «славянское» влияние, причем больше новгородского типа. На сдвиг в «новгородскую» сторону также могла оказать влияние проживавшая рядом летописная весь или (в более позднюю эпоху) тверские карелы.

Надо учесть, что устюжнинская выборка очень мала – всего два человека. В большинстве случаев такие выборки мной не используются, однако этот район хотелось тоже охватить анализом. В результате отклонение даже для самой лучшей комбинации довольно велико – 9.22, что говорит об усилении погрешности. Хотя сами по себе результаты выглядят нормально (Udmurt 5% можно спокойно пренебречь, это не 10-15%, как у каргопольцев).

Русские Вятки:

С размером выборки вятских русских проблем нет, однако она оказалась слишком неоднородной. Поэтому я вывел из нее результаты двух вятчан с сильным коми-пермяцким или удмуртским влиянием, которые превратились в отдельную выборку северо-восточных вятских русских (Russian-Vyatka-NE). На графике они показаны отдельно, однако приводить для них оракул я не вижу смысла. Для основной же выборки получены следующие варианты:

Vepsa 15% + Russian-Pinega-Mezen 5% + Russian-Smolensk 60% + Udmurt 20% @ 4,86

Vepsa 15% + Russian-Pinega-Mezen 5% + Russian-Pskov 5% + Russian-Smolensk 55% + Udmurt 20% @ 4,89

Vepsa 10% + Russian-Pinega-Mezen 10% + Russian-Novgorod 5% + Russian-Smolensk 55% + Udmurt 20% @ 4,99

Vepsa 10% + Russian-Pinega-Mezen 10% + Russian-Rostov 5% + Russian-Smolensk 60% + Udmurt 15% @ 5,08

Russian-Pinega-Mezen 25% + Russian-Smolensk 60% + Udmurt 15% @ 5,2

Согласно уже упоминавшейся формуле, комбинацию «русские Смоленска плюс немного вепсов» можно интерпретировать, как новгородцев (просто для алгоритма оказалось чуть удобнее разложить их таким образом). И тогда вятские русские получаются потомками новгородцев с некоторым местным влиянием (меньше, чем у пермских русских). В первом приближении интерпретация выглядит нормально, однако есть сомнения – почему тогда на графике провален характерный для новгородцев восточнофинский компонент, а поднят именно вепсский? Возможно, вепсы в комбинациях и обозначают (хотя бы частично) потомков летописной веси, влившихся в состав северян? Тогда для компенсации смоленские русские в комбинациях тоже должны частично обозначать переселенцев из коренной России.

Обе интерпретации видятся равноправными. Однако результаты русских Унжи навели меня на мысль о возможном третьем варианте, который остается чистым теоретизированием, но выглядит интересно. Об этом чуть ниже.

Русские Унжи:

Vepsa 5% + Russian-Pinega-Mezen 10% + Russian-Novgorod 70% + Komi-Zyryan-SW 10% + Udmurt 5% @ 1,75

Vepsa 5% + Russian-Pinega-Mezen 10% + Russian-Rostov 25% + Russian-Novgorod 50% + Komi-Zyryan-SW 10% @ 1,75

Vepsa 15% + Russian-Rostov 20% + Russian-Novgorod 50% + Komi-Zyryan-SW 5% + Udmurt 10% @ 1,76

Russian-Pinega-Mezen 15% + Russian-Novgorod 70% + Komi-Zyryan-SW 10% + Udmurt 5% @ 1,78

Russian-Pinega-Mezen 15% + Russian-Novgorod 50% + Russian-Smolensk 20% + Karelian 5% + Udmurt 10% @ 1,81

Выборка состоит из научных образцов Russian_Kostroma, плюс один геном из FTDNA (он не выбивается из общей тенденции). Результаты схожи с полученными для русских Вятки, за вычетом ослабления «пермского» компонента и усиления «прибалтийско-финского». По моему мнению, выглядят они странно, поскольку именно река Унжа была одной из дорог, по которой шла «низовская» колонизация Севера. Если где и должны в результатах преобладать Russian-Rostov, так это здесь.

В качестве возможного объяснения у меня родилась гипотеза, что под новгородцев в результатах северных русских может маскироваться летописная меря.

В наши дни этот народ не существует. Есть версия, что потомки мери – современные марийцы, однако мне она кажется неверной. И вот почему:

Если летописные чудь и пермь достоверно оставили след в русском генофонде, логично предполагать, что свой вклад должна была внести и меря. Однако марийцы формируют свой, хорошо выраженный «генетический полюс». Не заметить их влияние на генофонд русских было бы невозможно, но его следов нет. Аутосомные родственники марийцев известны – по моим исследованиям, в первую очередь это чуваши, и в меньшей степени – казанские татары.

Следовательно, чтобы вклад мери был трудноразличим, она должна быть генетически схожей с новоприбывшими в регион восточными славянами (аналогичное рассуждение справедливо и для двух других исчезнувших летописных племен – мещеры и муромы). Это вполне вероятно, поскольку известны результаты геномного анализа соседей мерян по региону, сохранивших языки уральской группы до наших дней – эрзян и мокшан. Их аутосомная основа – та же самая, что у балтов и славян («балтский генетический полюс»), лишь с некоторым «уральско-сибирским» налетом. У эрзян и мокшан нет «прибалтийско-финского акцента», однако северо-западными соседями мерян была летописная весь, современными потомками которой считаются вепсы. Следовательно, взаимосвязь с прибалтийскими финнами вполне возможна и даже вероятна. Вот и источник «вепсского» компонента у русских Унжи и Вятки.

А выборка, относящаяся к «балтскому полюсу», но с некоторым «прибалтийско-финским акцентом» — для оракула это и есть новгородцы.

С другой стороны, в противоречие с этой версией вступают результаты «ростовской» выборки русских – у них повышения количества пересечений с прибалтийско-финскими выборками не наблюдается (за исключением небольшого «бугорка» на графике пересечений с саами, которые очень специфические финны). А Ростов тоже относят к исторической территории мери. Впрочем, считается, что на костромщине меряне исчезли гораздо позже и имели больше возможностей оказать свое влияние. К тому же костромская меря могла заметно отличаться от ростовской.

Подытоживая, «мерянская» версия выступает здесь в качестве игры ума и не претендует на доказательность. Численную оценку влияния можно дать лишь очень грубо, исходя из компонентов  Admixture. Если гипотетическая меря находилась в аутосомном смысле примерно посередине между современными вепсами и эрзянами, ее вклад в генофонд русских Унжи должен составлять менее половины (этого хватит для достижения нужного эффекта).

Кроме того, возможность влияния новгородцев эти рассуждения никак не отменяют. Соотношение «новгородского» и «мерянского» вкладов у северян может быть любым, поскольку структурно они схожи.

Для наглядности результаты IBD-оракула сведены в общую схему. Тверская и ростовская выборки получились близкими к смоленской и новгородской, с небольшим сдвигом в сторону поморского и пермского полюсов (их сектора занимают по 5% у тверской и по 10% у ростовской выборки). Для них используемая модель уже не вполне применима (вероятно, IBD-пересечения со многими полюсами могут восходить к более древним временам, чем у северных русских. Также возможны влияния других полюсов, неучтенных в модели.), однако для иллюстрации решено разместить и их результаты. Компоненты со значениями менее 5% не отображались.

 

СеверСоотношения

 

AdmixtureСевер2

Ростовская выборка здесь разбита на две части — Иваново и Углич. Каргопольская и унжинская выборки исключены полностью, поскольку участвовали в первоначальном выведении компонентов Admixture.

Читатель мог заметить, что при анализе результаты сибирских и забайкальских русских старожилов оказались пропущены. Дело в том, что применять для них ту же модель было бы некорректно – ведь на генофонд русских Сибири и Дальнего Востока могли заметно повлиять не только северные популяции, но и другие восточные славяне, а также народы Сибири. Поэтому была использована новая модель, оракул на основе сравнения пропорций компонентов Admixture в режиме «не более четырех предковых популяций» (расчет пяти предков при большом количестве выборок слишком затратен по времени). Опорные популяции должны примерно перекрывать основные возможные варианты (исключена лишь экзотика, наподобие пленных шведов, отправленных в Сибирь после Полтавы – в любом случае их возможный вклад слишком мал). Для этого использованы следующие выборки:

Altaian – алтайцы (3)

Bashkir_East – восточные башкиры (2)

Belarusian_Minsk – белорусы (центр) (5)

Buryat – буряты (3)

Evenk – эвенки (3)

Khanty – ханты (4)

Polish – поляки (15)

Russian_Bryansk – русские Брянска (6)

Russian_Don_Cossack – русские с Дона (2)

Russian_Ivanovo – русские Иваново (2)

Russian_North_Dvina – русские поморы (Двина) (5)

Russian_Novgorod – русские Новгорода (2)

Russian_Pskov – русские Пскова (4)

Russian_Ryazan – русские Рязани (3)

Russian_Smolensk – русские Смоленска (3)

Russian_Solvychegodsk – русские Сольвычегодска (6)

Russian_Ustyuzhna – русские Устюжны (2)

Russian_Ural_West – русские Перми и Екатеринбурга (7)

Russian_Vyatka – русские Вятки (4)

Ukrainian_Poltava – украинцы Полтавы (3)

Ukrainian_Slobozhanshtchina – восточные украинцы (3)

При использовании IBD-метода как забайкальцы, так и южносибирские «чалдоны» оказались северянами по критерию превышения суммы сегментов с поморами над суммой с балтами, хотя и менее выраженными, чем большая часть выборок северных русских (думаю, это говорит о том, что генофонд сибиряков сформирован не только ими). Посмотрим, что покажет Admixture.

Русские Забайкалья:

Evenk 5% + Russian_Don_Cossack 15% + Russian_Solvychegodsk 35% + Russian_Ural_West 45% @ 1,9

Bashkir_East 5% + Evenk 5% + Russian_Don_Cossack 15% + Russian_Solvychegodsk 75% @ 1,91

Evenk 5% + Khanty 5% + Russian_Don_Cossack 20% + Russian_Solvychegodsk 70% @ 1,99

Bashkir_East 5% + Evenk 5% + Russian_Bryansk 15% + Russian_Solvychegodsk 75% @ 1,99

Bashkir_East 5% + Evenk 5% + Russian_Solvychegodsk 75% + Ukrainian_Slobozhanshtchina 15% @ 2,03

В забайкальскую выборку включены потомки русских старожилов Забайкальского Края и один образец из северо-восточной части Иркутской области. В отличие от Севера, здесь смешение русских переселенцев с местным населением происходило в очень ограниченных масштабах. Видимо, различия оказались слишком велики. Оракул предполагает примерно 5% влияния народов Восточной Сибири, которых в модели представляют эвенки (на графике Admixture это проявляется, как повышение доли East Asian). Остальная часть распределяется между классическими северными русскими (Сольвычегодск), русскими Перми (в части комбинаций они показаны, как смесь русских Сольвычегодска и небольшого количества башкир либо хантов, которые здесь представляют уральскую сторону пермяков) и южными русскими либо украинцами. Это не значит, что среди предков забайкальцев не могло быть, к примеру, центральных русских – но в таком случае их вклад находился внутри диапазона между северянами и южанами и в модели разделился между этими крайними влияниями. Как и ожидалось, северный генофонд преобладает (80/15/5).

Русские южной части Западной Сибири:

Polish 15% + Russian_Solvychegodsk 20% + Russian_Ural_West 55% + Ukrainian_Poltava 10% @ 1,45

Polish 25% + Russian_North_Dvina 5% + Russian_Solvychegodsk 15% + Russian_Ural_West 55% @ 1,46

Polish 20% + Russian_North_Dvina 10% + Russian_Ural_West 60% + Ukrainian_Poltava 10% @ 1,46

Polish 15% + Russian_Ustyuzhna 10% + Russian_Ural_West 65% + Ukrainian_Poltava 10% @ 1,46

Polish 25% + Russian_North_Dvina 5% + Russian_Ustyuzhna 5% + Russian_Ural_West 65% @ 1,47

Сибирская выборка составлена из жителей Новосибирской, Кемеровской, Томской областей и Алтайского края. Здесь оракул не обнаруживает даже 5% вклада дославянского населения (возможно, небольшая его доля способна «прятаться» в завышении вклада уральцев). В остальном же результаты однотипны с полученными для забайкальских русских – смесь северного и южного генофонда с преобладанием северного (75/25). Поляки аутосомно очень схожи с украинцами и южными русскими, нередко до неотличимости, поэтому их наличие в комбинациях не удивляет. Не думаю, что их вклад в генофонд южносибирских старожилов достигает 15-25 процентов, хотя чем черт не шутит.  Скорее комбинация с поляками просто оказалась чуть удобнее, чем с южными русскими или украинцами.

 

Russian_Siberiav3

 

Сибирь очень велика и наверняка во многих местах ситуация развивалась по другим сценариям (в качестве примера достаточно вспомнить затундренных крестьян). И все же я думаю, что в большинстве случаев генофонд старожилов был схож с двумя исследованными здесь выборками. В наши же дни «среднего сибирского русского» навряд ли можно назвать выраженным северянином – массовое переселенческое движение конца XIX – начала XX века в Сибирь и более поздние события размыли сформировавшийся за три предыдущих столетия генофонд и должны были сделать сибиряков более схожими с центральными и южными русскими.

Общую долю северных русских среди великороссов на 1795 год можно оценить, как 20-25%, в зависимости от отнесения к северянам жителей северо-западных губерний. Оценка сделана мной, основываясь на подсчетах численности русского населения по регионам согласно работе: Кабузан В.М. «Народы России в XVIII в.: Численность и этнический состав». М., 1990. Таким образом, вклад северян в генофонд русского народа достаточно значим.

Карта схожести по пропорциям Admixture для русских Белого Моря уже была показана ранее. Для сравнения приведу и результаты из двух других углов «северного треугольника» карты для русских Новогорода и русских Перми.

 

Russian_Novgorodv3

 

Russian_Ural_Westv3

 

Одна из основных сложностей при проведении аутосомного анализа заключается в том, что влияния всех эпох складываются в генофонде, наслаиваясь друг на друга. Чем дальше мы забираемся вглубь времён, тем больше позднейших наслоений следует учесть и попытаться убрать. Происхождение сибирских и уральских русских хорошо реконструируется, опираясь на результаты современных популяций. Полученные реконструкции соответствуют данным лингвистов и этнографов – действительно, мнение о том, что Урал первоначально заселялся русскими преимущественно с Севера, а Сибирь – преимущественно с Севера и Урала, но с заметным влиянием переселенцев из других регионов, можно считать практически общепринятым. Например (из Википедии):

«Сибирские старожильческие говоры,  хотя и происходят генетически от северного наречия, утратили часть его архаических черт под влиянием говоров переселенцев с юга России. Вятские говоры и пермские говоры, размещённые на территории Кировской, Пермской и Свердловской областей считаются самыми архаичными среди всех говоров северного наречия, поскольку эти говоры лучше других сохраняют фонетику и морфологические особенности наречия Новгородской земли XIII—XIV веков.»

Из «наказа» тобольским воеводам (1596 год):

«служилых людей в пашню вваживать, чтобы себе пашню пахали и впред бы с Руси хлебных запасов посылати меньше прежнего, и велети пашенных и посадцких людей призывать из Перми, с Вятки, с Солей Вычеготцких на льготу Охочих людей»

При движении на шаг далее в прошлое, начинаются сложности. Насколько достоверно современные новгородские русские и русские Пинеги-Мезени могут представлять средневековых новгородцев и «чудь заволочскую»? Этого мы точно не знаем, хотя косвенные соображения говорят, что могут. Верна ли моя гипотеза о влиянии летописной мери на часть северных русских, или это просто игра ума? Нет нынче мерян, чтобы сравнить. И все же от той эпохи сохранилось достаточно много, чтобы строить детальные предположения.

Предшествующие же эпохи пока обрисовываются только очень крупными мазками. Здесь я не касаюсь результатов, полученных археологами и антропологами. Вероятно, в какой-то момент после «оленеостровца» в регион пришли люди с юга, предки будущих восточных славян, балтов и финнов. Возможно, они говорили на индоевропейских языках, возможно, нет («черепки не говорят»). В какой-то момент часть из них перешла на языки уральской семьи, и я предполагаю, что это связано с притоком «восточных» генетических вариантов. Затем некоторые из потомков перешедших стали индоевропейцами (вновь?), войдя в состав русского народа.

Поэтому очень важно получение большого количества расшифровок древних геномов, представляющих разные эпохи и разные регионы. «Сетка» результатов даст опору, позволяющую реконструировать происходившие миграции с высокой достоверностью. К счастью, в последние годы эта область науки бурно развивается, и я надеюсь, что скоро нас ожидает много новых, интересных результатов.

Демография миграций в эпоху неолита и бронзового века

C ресурса Генофонд.ру (автор: Надежда Маркина)

 

Статья американских и шведских исследователей (Goldberg  et al.),опубликованная на сайте препринтов, вновь обращается к дискуссионной проблеме миграций в эпоху неолита и бронзового века.  В работе исследуется вопрос о доле мужского и женского населения  в составе мигрирующих групп, которые сформировали  генофонд  Центральной Европы. Авторы проверяют исходную гипотезу, что миграции из Анатолии в раннем неолите и миграции из понто-каспийских степей в течение позднего неолита и бронзового века были преимущественно мужскими.

Для ответа на это т вопрос авторы опираются не на Y-хромосому, передающуюся по отцовской линии,  и не на митохондриальную ДНК, передающуюся по материнской, как традиционно поступают генетики, а  Х-хромосому. Они вычисляют отношение эффективного размера популяции по Х-хромосоме к эффективному размеру популяции по аутосомам (неполовым хромосомам). Поскольку мужчины имеют одну Х-хромосому, а женщины – две, то в популяции с одинаковым соотношением мужчин и женщин отношение Х-хромосомы к аутосомам должно быть ¾. Отклонение от этой цифры говорит о разной демографической истории по мужской и женской линиям. Такова логика, лежащая в основе метода исследования, подробнее с ним можно познакомиться в тексте статьи.

Авторы изучили опубликованные образцы древней ДНК раннего и позднего неолита и бронзового века, проанализировав более 1,2 млн SNP, в том числе без малого 50 тысяч SNP на Х-хромосоме. Исследуемые образцы относились к популяциям охотников-собирателей, земледельцев Анатолии и понто-каспийских степей.

 

new-1

Схематическая демографическая история земледельцев Центральной Европы в течение неолита и бронзового века.

 

В противоположность существующему мнению, результаты не подтвердили, что миграции в неолите из Анатолии в Европу были преимущественно мужскими. Анализ  показал примерно одинаковое соотношение мужского и женского населения среди мигрантов. А вот миграция из понто-каспийских степей в Центральную Европу в  течение позднего неолита и бронзового века , действительно, была преимущественно мужской: по подсчетам  среди мигрантов на 5-14 мужчин приходилась одна женщина. Авторы показали, что эта миграция была растянута по времени на несколько поколений. В соответствии со своим мужским характером, именно она принесла в Европу технологические инновации.

 

new-2

Доли мужского (синие стрелки) и женского (розовые стрелки) населения в составе неолитической и степной миграций.

 

«Ледниковый период в Европе и изучение останков древнего человека на территории России»

Лекция Йоханнеса Краузе  (Johannes Krause) «Ледниковый период в Европе и изучение останков древнего человека на территории России» состоится в рамках Фестиваля науки

8 октября 2016  в  Шуваловском корпусе МГУ, аудитория «В4» 

12.45-13.45

Йоханнес Краузе  — профессор археологии и палеогенетики,  директор Института наук об истории человека Общества Макса Планка (Max Planck Institute for the Science of Human History) в Йене.

программу Фестиваля науки 7-9 октября можно скачать здесь  program-2016

«МОСКВА, 10 окт – РИА Новости. Известный палеогенетик Йоханнес Краузе рассказал РИА «Новости» о том, почему ученые сегодня считают степи Прикаспия родиной народов Европы, поделился мыслями о причинах почти полного вымирания Европы в конце ледникового периода, а также порассуждал о перспективе «воскрешения» средневековой чумы.

Йоханнес Краузе, палеогенетик из Института истории человека в Йене (Германия) – один из самых известных «некромантов» современности, которому удалось за последние несколько лет восстановить и изучить геномы средневековых возбудителей чумы и проказы, раскрыть тайны миграций и вымирания первых жителей Земли.

Кроме того, он обнаружил, что в конце ледникового периода фактически вся Европа вымерла и была заново заселена «северными евразийцами», поселенцами с юга России, а также нашел однозначные генетические свидетельства того, что неандертальцы были каннибалами. Обо всем этом Краузе рассказал на лекции в МГУ имени М.В. Ломоносова, которая проводилась в рамках всероссийского фестиваля Наука 0+.

— Йоханнес, недавно вы выяснили, что почти все первые жители Европы вымерли и не оставили следов в ДНК современного населения субконтинента. В чем могли быть причины такой катастрофы, вызвали ли ее болезни или климат?

— Сам по себе ледниковый период был периодом масштабных климатических изменений. Поэтому мы собственно и называем его ледниковым периодом – температуры упали на 10 градусов Цельсия, и большая часть Европы была покрыта льдом во время последнего ледникового максимума, 20 тысяч лет назад.

В то время, по сути, в Центральной Европе было невозможно жить – она представляла собой области вечной мерзлоты, покрытые тундрой и льдами.

Череп кроманьонца из Чехии
Генетики: в конце ледникового периода почти вся Европа вымерла

Поэтому то, что в то время местное население полностью вымерло и было замещено новой группой людей, никого не должно удивлять. Поэтому я считаю, что болезни, в том числе и чума, вряд ли могли вызвать это вымирание, а климатические изменения – вполне могли это сделать.— Вы и ваш коллега Дэвид Рейчпоказали в недавнем прошлом, что Европа была заселена несколькими волнами мигрантов, которых было или три, или четыре. Сколько их было на самом деле?

— На текущий момент у нас есть сведения о том, что первые люди появились в Европе примерно 40 тысяч лет назад. Следы этой популяции людей были найдены в Румынии в виде скелета одного человека, а также останками еще одного древнего кроманьонца, которые были открыты в окрестностях Омска, в Усть-Ишиме. Они являются на сегодняшний день древнейшими останками человека современного типа за пределами Африки.

Оба этих человека принадлежали к особой популяции древних людей, следов которых вообще не осталось в нашей ДНК. Иными словами, они не были предками современных жителей Азии и Европы. Их популяцию можно назвать первой провалившейся попыткой колонизовать мир за пределами Африки.

За ними следовали люди, подобные тем, чьи останки были найдены в окрестностях деревни Костенки в Воронежской области. Их следы уже можно заметить в ДНК последующих групп древних людей.

Реконструкция облика члена ямной культуры Прикаспя
Генетики нашли новые доказательства каспийских корней индоевропейцев

Со времени жизни людей в Костенках и до конца ледникового периода, который завершился примерно 15 тысяч лет назад, в генетике Европы почти ничего не поменялось. Примерно 14 тысяч лет назад в Европу проникли первые мигранты с Ближнего Востока, и затем, около 7-8 тысяч лет назад, произошла вторая волна ближневосточной миграции, принесшая с собой фермерское искусство. И последняя волна миграции, самая масштабная из них, произошла примерно пять тысяч лет назад, когда Европа была заселена жителями прикаспийских и причерноморских степей.

Проблема, на самом деле, не в подсчете волн миграции, а в самом термине. Под миграцией мы обычно понимаем перемещение больших групп людей, условно говоря, из точки А в точку Б. С другой стороны, в реальности могли происходить не массовые миграции, а просто медленная экспансия новых групп людей, распространявшихся по Европе со скоростью, скажем, пять километров в год. Поэтому нельзя говорить о том, что древние люди в один момент вдруг сказали «мы покидаем Россию, едем в Европу», собрали вещи и поехали – этот процесс мог протекать органично и незаметно для коренных жителей субконтинента, постепенно замещая их благодаря большему числу потомства и другим факторам. Мне кажется, именно так нужно думать, когда мы рассуждаем о волнах миграции в прошлом.»

 

Формальный анализ смешивания предковых популяций: белорусы, часть 2

Итак, после определения значимых для формального статистического моделирования комбинаций предковых популяций (или вернее, их суррогатов) представляется возможным смоделировать две вещи. Во-первых, необходимое с точки зрения статистики, число «импульсов» или «потоков» смешивания, а во-вторых, пропорции вклада «предковых» групп в генофонд белорусов.

Результаты анализа в программах qp3Pop и qpDstat показали, что в референтной группы белорусов присутствуют сигналы смешивания трех групп — мезолитических охотников-собирателей Европы (WHG), неолитических популяций земледельцев с Ближнего Востока и cибирских охотников-собирателей (чьи потомки в составе индоевропейцев) распространили свои гены по всей Европе.

Но меня больше интересует вопрос оценки величины доли вклада так называемого «базального компонента»(Basal Eurasian):

«четвертый элемент» — тот «базальный» компонент генофонда Европы, который проявился при моделировании истории сложения генофонда Европы в работе [Lazaridis et al., 2014] (см. раздел 8.4, рис 8.20) — предковой евразийской группой, которая внесла свой большой вклад и в геном неолитических земледельцев. Из аналогичной по методам модели, созданной в рассматриваемой работе [Seguin-Orlando et al., 2014], следует (рис. 8.6), что в геном человека из Костенок эти таинственные «базальные евразийцы» внесли не менее важный вклад, чем и верхнепалеолитические западные евразийцы. Также из модели следует, что он имел и общих, хотя и более отдаленных предков с древними северными евразийцами восточного ствола.

В этих целях я решил использовать в качестве суррогата базального евразийского генома геном Mota (древнего жителя Африки), примерно половину генома которого составлял тот самый пресловутый базальный компонент (результат обратных миграций натуфийского населния Ближнего Востока в восточную Африки)

Итак, в начале используем программу qpWave из того же пакета Admixtools

parameter file: qpWave.par

THE INPUT PARAMETERS

##PARAMETER NAME: VALUE
indivname: data.ind
snpname: data.snp
genotypename: data.geno
popleft: left
popright: right
maxrank: 6

qp4wave2 version: 200

left pops:
Levant_N
Mota
WHG
EHG

right pops:
Han
Onge
Papuan
Kostenki14
Ust_Ishim
Siberian_Upper_Paleolithic

0 Levant_N 13
1 Mota 1
2 WHG 2
3 EHG 3
4 Han 33
5 Onge 15
6 Papuan 14
7 Kostenki14 1
8 Ust_Ishim 1
9 Siberian_Upper_Paleolithic 1
jackknife block size: 0.050
snps: 572603 indivs: 84
number of blocks for block jackknife: 719
dof (jackknife): 631.955
numsnps used: 177238
f4info:
f4rank: 0 dof: 15 chisq: 574.447 tail: 9.47752373e-113 dofdiff: 0 chisqdiff: 0.000 taildiff: 1

<cf4info:
f4rank: 1 dof: 8 chisq: 115.553 tail: 2.7408605e-21 dofdiff: 7 chisqdiff: 458.894 taildiff: 5.4614954e-95
B:
scale 1.000
Onge -0.475
Papuan -0.521
Kostenki14 0.069
Ust_Ishim -0.746
Siberian_Upper_Paleolithic 1.986
A:
scale 290.851
Mota -0.932
WHG 0.299
EHG 1.429

f4info:
f4rank: 2 dof: 3 chisq: 8.502 tail: 0.036691843 dofdiff: 5 chisqdiff: 107.050 taildiff: 1.7204978e-21
B:
scale 1.000 1.000
Onge -0.462 -0.050
Papuan -0.522 -0.105
Kostenki14 0.288 2.189
Ust_Ishim -0.733 0.378
Siberian_Upper_Paleolithic 1.973 -0.232
A:
scale 286.604 578.115
Mota -0.951 -1.197
WHG 0.385 0.752
EHG 1.396 -1.001

f4info:
f4rank: 3 dof: 0 chisq: 0.000 tail: 1 dofdiff: 3 chisqdiff: 8.502 taildiff: 0.036691843
B:
scale 1.000 1.000 1.000
Onge -0.400 -0.203 1.065
Papuan -0.459 -0.258 0.882
Kostenki14 0.299 2.175 0.273
Ust_Ishim -0.645 0.116 1.513
Siberian_Upper_Paleolithic 2.031 -0.382 0.850
A:
scale 282.949 595.536 1395.824
Mota -0.857 -1.172 0.944
WHG 0.466 0.827 1.449
EHG 1.431 -0.971 0.093

## end of run

Нас интересует статистика f4rank 2, и как видно она убедительна: chisq: 8.502 tail: 0.036691843 dofdiff: 5 chisqdiff: 107.050 taildiff: 1.7204978e-21.  То есть, для моделирования референсной популяции достаточно трех «источников» (в f4rank 3, т.е с 4 предковыми популяциями, статистика гораздо хуже: chisq: 0.000 tail: 1 dofdiff: 3 chisqdiff: 8.502 taildiff: 0.036691843 ).

Следующим этапом будет оценка пропорций «адмикса», образованного смешением трех «источников»:

 

parameter file: qpAdm.par

THE INPUT PARAMETERS

##PARAMETER NAME: VALUE
genotypename: data.geno
snpname: data.snp
indivname: data.ind
popleft: left
popright: right
maxrank: 8

qpAdm version: 200

left pops:
Belarusian
Mota
WHG
EHG
right pops:
Han
Onge
Papuan
Kostenki14
Ust_Ishim
Siberian_Upper_Paleolithic
0 Belarusian 25
1 Mota 1
2 WHG 2
3 EHG 3
4 Han 33
5 Onge 15
6 Papuan 14
7 Kostenki14 1
8 Ust_Ishim 1
9 Siberian_Upper_Paleolithic 1
jackknife block size: 0.050
snps: 572603 indivs: 96
number of blocks for block jackknife: 719
dof (jackknife): 628.796
numsnps used: 227599
codimension 1
f4info:
f4rank: 2 dof: 3 chisq: 20.724 tail: 0.000120097824 dofdiff: 5 chisqdiff: -20.724 taildiff: 1
B:
scale 1.000 1.000
Onge -0.502 0.176
Papuan -0.562 0.218
Kostenki14 0.442 2.074
Ust_Ishim -0.735 0.779
Siberian_Upper_Paleolithic 1.923 -0.110
A:
scale 285.645 552.926
Mota -1.490 -0.238
WHG 0.017 1.685
EHG 0.883 -0.324
full rank 1
f4info:
f4rank: 3 dof: 0 chisq: 0.000 tail: 1 dofdiff: 3 chisqdiff: 20.724 taildiff: 0.000120097824
B:
scale 1.000 1.000 1.000
Onge -0.502 0.178 0.403
Papuan -0.599 0.280 0.995
Kostenki14 0.455 2.029 -0.773
Ust_Ishim -0.773 0.879 1.373
Siberian_Upper_Paleolithic 1.893 0.008 1.168
A:
scale 288.199 555.700 1346.772
Mota -1.449 -0.056 0.947
WHG 0.026 1.726 0.141
EHG 0.948 -0.132 1.444
best coefficients: 0.318 0.148 0.534
ssres:
0.000295769 0.000789821 0.000059100 0.001247609 0.001271289
0.335431254 0.895733409 0.067025433 1.414909018 1.441765444

Jackknife mean: 0.316895017 0.150748678 0.532356305
std. errors: 0.035 0.067 0.045
error covariance (* 1000000)
1212 -1838 625
-1838 4506 -2668
625 -2668 2043
fixed pat wt dof chisq tail prob
000 0 3 20.724 0.000120098 0.318 0.148 0.534
001 1 4 125.483 0 -0.088 1.088 0.000 infeasible
010 1 4 25.750 3.55457e-05 0.378 0.000 0.622
100 1 4 102.973 2.28952e-21 0.000 0.702 0.298
011 2 5 336.445 0 1.000 0.000 0.000
101 2 5 127.950 6.47788e-26 0.000 1.000 0.000
110 2 5 184.757 0 0.000 -0.000 1.000
best pat: 000 0.000120098 - -
best pat: 010 3.55457e-05 chi(nested): 5.025 p-value for nested model: 0.0249831
best pat: 101 6.47788e-26 chi(nested): 102.201 p-value for nested model: 5.01661e-24

end of run

Итак, лучшими коэффициентам (пропорциями адмикса) являются 0.318 0.148 0.534. То есть референсная популяция белорусов может быть смоделирована как 30 % базального компонента, 15% компонента мезолитических охотников собирателей и 53% компонента жителей степи бронзового века («индоевропейцев»). Очевидно, что большая часть базального компонента попала в Европу вместе неолитическими земледельцами, а оставшаяся часть — была принесена индоевропейцами.

 

Формальный анализ модели смешивания предковых популяций: белорусы

Перед подготовкой релиза новых калькуляторов K16 и K11 на Gedmatch, я решил провести пилотный (пробный) анализ референсной популяции белорусов (в которую входят публичные образцы из  базы данных HumanOrigin, EGDP новой панели референсных геномов Эстонского биоцентра, а также данные белорусов — участников моего проекта MDLP). Основным инструментом формального анализа надежности модели будет известный и популярный пакет Admixtools.
Перед тем, как дать краткое описание первых шагов, хочу отметить трудности работы с Admixtools — в первую очередь, крайнее низкую степень документированности (описания) практических аспектов работы большинства входящих в пакет инструментов. Данное обстоятельство существенным образом снижает темп изучения этого все более популярного пакета (с другой стороны, похоже что лаконичность изложения задумывалась изначально, для отсеивания слабо мотивированных дилетантов-любителей). Второе обстоятельство, затрудняющее использование Admixtools, заключается в необходимости компилировать отдельные компоненты пакета.

Пакет содержит шесть программ

 

convertf: программа конвертирования форматов
qp3Pop: формальный анализ сигнала "смешивания" в трех популяциях
qpBound: программа, вычисляющая верхнюю и нижнюю границу смешивания в трех популяциях (2 референсные популяции и 1 одна популяция, предположительно образованная за счет смешивания двух референсных популяций) 
qpDstat: формальный анализ "адмикса" в 4 популяциях
qpF4Ratio: программа для определения пропорций адмикса за счет проведения 2 f4-тестов
rolloff:  программа датировки адмикса.

В приницпе, четкого порядка работы с этими программами нет, однако авторы рекомендуют следовать приведенному списку (т.е. начинать с qp3Pop и заканчивать rolloff)

Outgroup-статистика f3 является крайне полезным аналитическим инструментом для понимания взаимных отношений разных популяций: основная задача теста состоит в определении характера этих отношений. Образована ли целевая популяция (target) за счет смешивания двух рефересных популяций, или же  популяции представляют собой две простые ветви популяционного дерева человечества (т.е. в образовании таргетной популяций не участвовали референсные популяции)

Статистика f3, так же, как два других вида статистик — f4 и f2 — представляют собой меру корреляции частот аллелей между рассматриваемыми популяциями. Все эти виды статистик были введены в научный оборот попгенетики биоинформатиком Ником Паттерсоном в статье 2012 года.

Статистика f3 используется в двух целях:

  1. в качестве теста  сигнала «адмикса» двух популяций-источников (A и B) в «целевой популяции» (С)
  2. для измерения общего разделяемого дрейфа двух тестовых популяций  (А и В) по отношению к  внешней группе (С).


В этой публикации я приведу пример первого случая использования. Статистика f3 в обоих случаях определяется как произведение разниц частот аллелей  между популяции C, А и В, соответственно:

  1. F3=<(c-a)(c-b)>

Итак, первый случай употребления (для определения сигнала смешивания), белорусы выступают в качестве тестовой популяции, две референсные популяции образованы пермутацией имеющихся у меня популяций

Итак, промежуточные результаты (я выбрал только комбинации с негативным значением Z, свидетельствующие о сигнале смешивания) :

Следующий тип статистики — f4, — реализован в программе qpDstat в виде D-статистки. Это формальный тест адмикса четырех групп (таксонов или популяций), позволяющий определить направления потока вливания генов. Немного теории:

Для любых 4-х популяций (W, X, Y, Z), qpDstat вычисляет D-статистику следующего вида

num = (w — х) (у — z)
den = (w + х — 2wx) (у + z — 2yz)

D = num / den

Результат qpDstat показывает направления вливания генов. Таким образом, для 4 групп (W, X, Y, Z) верно следующее положение:

Если значение Z положительное ( + ), то обмен генами происходил либо между W и Y, либо между X и Z
Если значение Z отрицательное (-), то обмен генами происходил либо между W и Z,  либо между X и Y.

 Кроме определения направления генного дрейфа, очень важным практическим применением D-статистики служит определения «левых» и «правых» популяций для теста qpAdm (о нем чуть позднее). Так, например,  комбинация из двух первых популяций left {L,L}  и двух правых популяций {R, R} должна быть выбрана таким образом, чтобы значение Z в D-статистике
a) было неотрицательным, и b) имело высокое абсолютное значения.  Я решил последовать совету и сгенерировал 225822 комбинаций из четырех популяций {W,Y,X,Z}, где W — фиксированная первая таргетная популяция «левого» списка, в нашем случае белорусы, Y — одна из имеющихся групп палеогеномов, X и Z — пермутация из 16 «чистых» современных популяций описанных в работе Lazaridis et al. 2016.

Итак, вот результаты (и снова я не привожу полный список, а только те комбинации, которые могут быть использованы для выбора состава «левых» и «правых» популяций.  и последующего моделирования в qpAdm):

Этюд на тему ДНК-генеалогия.

Мой блог посвящен преимущественно тематике аутосомной ДНК, однако время от времени я затрагиваю тему однородительских маркеров происхождения (Y-ДНК и митоДНК).  Начну заметку издалека.
Среди обывателей села Стахова бытует легенда, о том, что род Вереничей пришли на земли пинского Полесья из Югославии.К сожалению, как и в большинстве подобных легенд, cовершено невозможно разобраться в том, где правда, а где позднейшие выдумки. Так и в этом случае. Ни в одном из имеющихся e меня исторических документах нет даже и намека на балканское происхождение Вереничей. Даже в самых ранних документах (например, в «Ревизии пущ и переходов звериных в бывшем Великом княжестве Литовском с присовокуплением грамот и привилегий на входы в пущи и на земли, составленной старостою мстибоговским Григорием Богдановичем Воловичем в 1559 г. «, или в «Писцовой книге Пинского староства Лаврина Воина, 1561—66«) уже видно, что даже в то время род Вереничей на Полесье считался «издавним«.



Так в ревизии Воловича (1559 года) читаем, что

«Павел Веренич на дворище у Стохови жъ не покладалъ листовъ, только давность, и на другое дворище у Дубой».


Слово давность означает существование в течение долгого времени, издревле, искони. Происходящие от корня этого слова прилагательные и наречия попадаются в разных актах с конца XIII века. Как юридический термин существительное <давность> употреблялось уже весьма рано в западнорусском законодательстве; собственно же в России оно появляется в виде термина лишь с XVIII века. Выражение земская давность было юридическим термином в Литовском Статуте, из которого заимствовано русским законодательство.

 



В строго юридическом смысле срок давности владения определялся десятью годами. Впрочем, здесь давность может употребляться в другом значении. Так, в актовых материалах все той же «Ревизии пущ и переходов звериных в бывшем Великом княжестве Литовском с присовокуплением грамот и привилеев на входы в пущи и на земли, составленная старостою мстибогским Григорием Богдановичем Воловичем» в числе прочих землевладельцев Пинского повета упомянуты Грынь Веренич с братом Павлом «с имений своих стародавних [т.е. с незапамятных времен] военную службу служащих«. Судя по этому, Вереничи могли появится в Стахове уже в середине 15 века, если не раньше.
Когда, откуда, и при каких обстоятельствах — обо всем этом известные мне историко-юридические источники умалчивают. Более поздние документы не только не дают ответа на эти вопросы, а скорее еще больше запутывают ситуацию. Так например в «Выводе фамилии урожденных Стаховских придомка Веренич» (Год 1802 Месяца ноября двадцать второго дня на на сессии Депутации выводовой Губернии Минской) читаем следущее:

«Принесена была просьба от фамилии древней родовитой панской шляхты урождённых Вереничей Стаховских герба “Огончик” (пол-стрелы белой на половине перстня стоящей, в поле красном, над шлемом две женские руки вытянутые вверх) которая на наследственных землях и осадах в повете пинском лежащих от найяснейшых времён королевства Польского, прерогативами шляхетства пользовалась, и клейнотом родовитости неискаженно и непрерывно пользовались. [стр. 616] В потверждение указов найяснейшей воли – линия родословной своей вместе с документами перед депутацией выводовой губернии Минской составлена, потверждена доводами и внесена в дворянские книги Минской губернии в соответстии с законом.Родословие своего дома разделили на две линии. Дух родных братьев Семена и Дмитрия Вереничей Стаховских за родоначальников взяли, и от них до себя довели. И правдивость этого они через доказательства и документы следующим порядком довели. Семен и Дмитрий Вереничи Стаховские братья между собой родные. В повете Пинском осели и дали начало своему роду и фамилии. И в подтверждение своего первого поколения они предъявили привилегию от наияснейшего короля польского Сигизмунда Августа за год тысяча пятьсот шестьдесят шестой от июня двадцатого дня где, между другими для шляхты пинской пожалованиями за военную службу выше упомянутым Семену и Дмитрию Вереничам Стаховским земли в наследственное владение в повете Пинском лежащими дворища Веренича в Стахове и Дубой называющееся им и потомкам их пожаловал…»

Содержание начала текста весьма типично для подобных документов, но здесь нет сведений о точном времени появления Вереничей в Стахове, не говоря уже о явных хронологических несуразицах, которые я разбирал в другой заметке.

  1. Во-первых, под «привелем» 1566 года понимается общий «привилей» Сигизмунда-Августа, данные всей пинской шляхте в подтверждение их землевладельческих и шляхецких прав.
  2. Во-вторых, Семен и Дмитрий жили не в 1566 году, а как минимум на сто лет раньше — около 1456-1466 годов. В доказательство верности моих вычислений можно привести следующие аргументы. В решении судей Главного Трибунала ВКЛ от 1637 года упоминается о привелее кн. Марии Семеновны (+1501) ( в документе ошибочно указано Ярославовны) и ее сына кн. Василия Семеновича (+1495) от 6998 года индикта 8 (1490 года согласно современному летоисчислению), в котором подтверждается совместное владение Волошиным (sic!) Павлом и Ходором Вереничами даниной своей бабки в селе Тупчицы, Согласно родословной, Павел — сын Дмитрия и племянник Семена. В следующем по времени привилее кн. Федора Ивановича Ярославича от 26 апреля 1514 данном дочерям Антона (Андрей?) Дмитриевича Веренича потдверждается их вотчинное права на земли пожалованные их отцу в Стахове, Дубое и Тупчицах. Очевидно, Антон(или Андрей) — тоже сын Дмитрия, и более того, в 1514 году его дочери были уже совершеннолетними.
  3. В-третьих, в переписе войска литовского 1528 года упомянут пинский боярин Верениш (sic!), который служил «сам со своего имения». Далее, из судебного дела от 26 марта 1543 года по иску Пашки Павлова и его братьи Игнатия и Гаврила к Ваське Лозичу, который унаследовал по своей жене Ульяне Лукашевичевой Веренич часть имений Дубой и Стахово. мы узнаем, что в 1543 году внуки Дмитрия (Пашко Павлович и его двоюродные братья Гавриил и Игнат Васильевич) были уже взрослыми, так же как и покойная Ульяна Лукьяновна (дочь Лукьяна Семеновича, внучка Семена Веренича), после смерти которой третья часть дворища Веренич в Дубое и дворища Веренич в Стахово перешла к Ваське Лозичу.

 



Далее, в 1554 году — за 12 лет до указанной в привелее даты — в материалах, собранных в ходе ревизии пущ и переходов лесных -упомянуются Грынь Веренич с (троюродным) братом Павлом с имений своих стародавных военную службу служащих. Как известно, Грынь — внук Семена, а Павел или Пашко — внук Дмитрия. О самих Семене и Дмитрии ни слова, хотя если бы они жили в это время, то скорее всего именно они или их сыновья были бы записаны как старшие в своем роду, но никак не их внуки.В 1559 году, по все той же ревизии Воловича, в числе земян Стаховских опять упоминается Павел Веренич, правда, уже без Гриня. В тексте четко сказано, что Павел не покладал листов (т.е. не предъявил привелея), только давность на дворище у Стахова и другое дворище у Дубоя. Поскольку большую часть книги Воловича составляют привелеи, выданные или подтвержденные королевой Боной, следовательно, от Боны Вереничи привлеев не получали, по крайней мере, на земли в Дубое и Стахове.Все вышесказанное означает, что уже задолго до 1566 года Вереничи владели своими дворищами и землями на основании вотчинного права, и что феодальные права Вереничей на эти земли восходят — как минимум -временам кн. Марии Семеновны и ее сына Василия (то есть к периду между 1475-1490 гг).


Реконструкция позволяет очертить интервал появления Вереничей в Стахове — но с обстоятельствами появления по-прежнему нет никакой ясности. Поскольку скудные исторические свидетельства обходят  этот вопрос сторонй, то можно обратиться к преданиями. Среди старожилов села Стахова якобы сохранилось следующее якобы древнее предание:


Когда-то, давным-давно, жил на Полесье князь Карачинский (sic!). В его владениях находился большой дремучий бор, около которого проходил торговый шлях. По прошествии времени, в этом бору поселилось 100 половцев, которые совершали нападения на проезжающих купцов и селян. Князь, прослышав о разбойниках, повелел своим «палявничим» (охотникам) узнать, где находится разбойничье логово. Один из охотников решил проследить путь до логово половцев и стал делать топором зарубки на деревьях. Услышав стук топора, войны князя отправились в сторону, где раздавалось эхо стука топора. Таким образом, они вышли прямиком на логово разбойников и истребили их. В награду за верную службу, князь наградил находчивого охотника землям, где находился стан половцев. Охотник постоянно носил с собой «Ксендз Лаврентий Янович, каноник венденский, в своей речи на погребении Элжбеты с Стаховских Каренжины, жены вилькомирского судьи, изданной в сборнике «Золотой улов на реках и водах смертности сего мира и т.д» (Вильно 1665 г.) размещает следущее предание, относящиеся к истории Стахова.: «Князь Карачевский, владелец обширных волостей, лежащих на Пинщине, крайне скудными силами 100 половцев положил трупами и на там же месте похоронил, как и по ныне свидетельсвтуют о том курганы того места. За это мужесто правящий князь ему отдал в удел это поле, а также столько земли, сколько мог объять звонкий звук трубы. Отсель то земельное надание стало называтся Стоховым, потому что там похоронено сто убитых врагов.» (веренька, вярэнька), и поэтому его прозвали Веренькой. Его потомки приняли прозвище родоначальника в качестве фамилии.


К сожалению, изучение этого предания показывает его недавнее происхождение. Скорее всего, оно выписано из 9-го тома «Полного географического описания нашего отечества» изданного в 1905 году В.П.Семеновым-Тян-Шанским , куда, в свою очередь перекочевало из известного издания «Słownik geograficzny Królestwa Polskiego» изданного в 1880–1902 гг., а именно из 11 тома, в котором на стр.171-172 была размещена довольно объемная статья Александра Ельского и Эдварда Руликовского о Стахове. Именно с подачи Руликовского в этой статье была размещена выписка из издания 17 века:

«Ксендз Лаврентий Янович, каноник венденский, в своей речи на погребении Элжбеты с Стаховских Каренжины, жены вилькомирского судьи, изданной в сборнике «Золотой улов на реках и водах смертности сего мира и т.д» (Вильно 1665 г.) размещает следущее предание, относящиеся к истории Стахова: «Князь Карачевский, владелец обширных волостей, лежащих на Пинщине, крайне скудными силами 100 половцев положил трупами и на там же месте похоронил, как и по ныне свидетельствуют о том курганы того места. За это мужесто правящий князь ему отдал в удел это поле, а также столько земли, сколько мог объять звонкий звук трубы. Отсель то земельное надание стало называтся Стоховым, потому что там похоронено сто убитых врагов.»

 


В приведенном отрывке приводится родословное предание рода Стаховских герба Огоньчик, (проживавшего в мстиславском, виленском, новогрудском и пр. воеводствах ВКЛ), генеалогическая связь которого с Вереничами пока никак не проясняется. Главным фигурантом здесь выступает князь Карачевский (которого, видимо, Cтаховские считали своим предком), а вовсе не «охотник с сумкой из бересты». Можно с уверенностью сказать, что «легенда старожилов» Стахова появилась самое ранее в начале 20 века в среде «грамотеев» села Стахове как результат переосмысления текста статьи их энциклопедического справочника,  а затем объединения легенды об основании Стахова с народной этимологии фамилии Веренич.



Итак, и этот источник не дал нам ничего ценного. Поскольку возможности документальной генеалогии на этом этапе практически исчерпываются (и открытие новых источников вряд ли предвидится), остается обратится к новой отрасли — ДНК-генеалогии.

Генетическая генеалогия использует ДНК-тесты совместно с традиционными генеалогическими методами исследования. Каждый человек несёт в себе своего рода «биологический документ», который не может быть утерян — это ДНК человека. Методы генетической генеалогии позволяют получить доступ к той части ДНК, которая передаётся неизменной от отца к сыну по прямой мужской линии — Y-хромосоме. ДНК-тест Y-хромосомы позволяет, например, двум мужчинам определить, разделяют ли они общего предка по мужской линии или нет. ДНК-тесты не просто помощь в генеалогических исследованиях — это современный передовой инструмент, который генеалоги могут использовать для того, чтобы установить или опровергнуть родственные связи между несколькими людьми.

Итак, в 2008 году узнал свою Y-хромосомную гаплогруппу (I2a). Немного терминологии для читателей, далеких от науки:

Гаплогруппа (в популяционной генетике человека — науке, изучающей генетическую историю человечества) — группа схожих гаплотипов, имеющих общего предка, у которого в обоих гаплотипах имела место одна и та же мутация — однонуклеотидный полиморфизм.

 

 

Позднее протестировались еще 2 Веренича, и наши гаплогруппы совпали, что подтверждается достоверность официальной родословной. Казалось бы, после всех усилий, можно было бы легко определить ареал, откуда появились предки Вереничей (очевидно, что это ареал с наибольшей частотой или наибольшим разнообразием гаплогруппы I2a). На поверку же все оказалось гораздо сложнее. Географический ареал гаплогруппы I2a (вернее ее восточноевропейской, «динарской» ветви) характеризуется бимодальным распределением — в восточной Европе они приходятся на регион Полесье-Карпаты и на регион Балкан (с макисмальной частотой в Боснии-Герцеговине).

По иронии cудьбы, именно с этими двумя регионами связаны две наиболее вероятные версии происхождения Вереничей. Таким образом, знание одной лишь корневой гаплогруппы мне, по большому счету, не помогло ни подтвердить, ни опровергнуть одну из этих альтернативных версий.

Тупиковая ситуация изменилась лишь после того, как один из Вереничей сделал полный сиквенс Y-хромосомы (BigY в FTDNA). Благодаря ему удалось достаточно точно позиционировать расположение нашей ветви-кластера внутри общей структуры филогенетического дерева I2a.Благодаря присутствию Y-хромосомного сиквенса (YF03602) представителя рода Вереничей в базе данных yfull.com (спасибо за помощь Vladimir Semargl и Vadim Urasin) представляется возможным оценить возраст моего кластера. На настоящий момент в него входит еще один полный сиквенс Y-хромосомы (YF04188), о хозяине которого мне ничего неизвестно.

Возраст линии Вереничей оценивается в 1438 лет до настоящего времени, линии YF04188 — всего лишь в 546 лет.По расчету снип-мутаций возраст I-Y17665 (и возможно I-A7318) оценивается примерно в 1000 лет (т.е. временами Киевской Руси), а возраст родительской ветви A1328 в 1850 лет до настоящего времени (начало нашей эры). Возраст, определенный по снипам, указывает на время выделения ветви I-A1328, хотя возраст последнего общего предка (определенный по значениям других маркеров Y-хромосомы) чуть ниже -1400 лет (т. е примерно 5-6 века нашей эры). То есть ветвь моих прямых предков в это время прошла пресловутое бутылочное горлышко, сопровождаемое, как правило, падением числа представителей линии и уменьшением разнообразия.

Здесь начинается самое интересное.



Недавно, зайдя на сайт проекта I2a в FTDNA, я обнаружил результаты некоего Враньешевич из Черногории. Я бы не обратил на него внимание, если бы он не попал в тот же кластер, что и я (в этот кластер входит ветвь Вереничей, гаплогруппа (I2-A7318, т.е подветвь I-A1328)).Я решил рассчитать возраст I-A1328 с помощью калькулятора semargl.me и стандартных для набора 37 маркеров скорости мутации. К сожалению, в базе данных Semargl немного гаплотипов из конкретно моего кластера и ближайщих к нему братских кластеров. В общем возраст, по ASD методу получилось что возраст моего кластераI (Y17665) — 1050 лет, а при подключении (в качестве outgroup) гаплотипа из I-A1328* возраст кластера I-A1328* составил примерно 1850 лет. То есть, это верхний интервал временного промежутка, когда мог жить последний мой общий предок (MRCA) и Враньешевича.

I2a2 ‘Dinaric’ ..L621>CTS10228>S17250>Y4882>A1328>A7318 (I-A7318)

568 362501 Verenich Werenicz,Werenich,Verenich,Werenitz,Stachowski. Belarus I-A7318

I2a2 ‘Dinaric’ ..L621>CTS10228>S17250>Y4882>A1328 (I-A1328)
564 E13120 Vranjesevic Vranjesevic Milan-Mico, birth 1913, death 1992 Bosnia and Herzegovina I-A1328


Нижний интервал можно определить с помощью калькулятора McDonald. Для вычисления дистанции в годах я сравнил значения 67-маркерного гаплотипа одного из Вереничей с аналогичными маркерами гаплотипа Враньешевича. 10 маркеров имеют другое значения. Получается разница в 10 маркеров на 67 маркерных гаплотипах.

Generations Probability Cumulative
1 0.000000 0.000
2 0.000000 0.000
3 0.000000 0.000
4 0.000004 0.000
5 0.000022 0.000
6 0.000091 0.000
7 0.000279 0.000
8 0.000699 0.001
9 0.001495 0.003
10 0.002825 0.005
11 0.004827 0.010
12 0.007592 0.018
13 0.011137 0.029
14 0.015396 0.044
15 0.020223 0.065
16 0.025408 0.090
17 0.030697 0.121
18 0.035824 0.157
19 0.040537 0.197
20 0.044616 0.242
21 0.047893 0.290
22 0.050258 0.340
23 0.051662 0.391
24 0.052111 0.444
25 0.051660 0.495
26 0.050401 0.546
27 0.048451 0.594
28 0.045943 0.640
29 0.043014 0.683
30 0.039796 0.723
31 0.036412 0.759
32 0.032973 0.792
33 0.029568 0.822
34 0.026274 0.848
35 0.023146 0.871
36 0.020225 0.891
37 0.017537 0.909
38 0.015097 0.924
39 0.012906 0.937
40 0.010961 0.948
41 0.009252 0.957

 

14202591_10210357856572557_5019604267960638228_n-1 14199500_10210357943174722_1769976137139415870_n

Пик гистограммы приходится на интервал между 21-30 поколениями, начиная с 26 поколения кумулятивная вероятность родства достигает убедительных значений достигая 0.95 в 41 поколении. Т.е. нижняя граница приходится примерно интервал в 600-1025 лет до настоящего времени — другими словами между 15 и 10 веками нашей эры.

Разумеется, c генеалогической точки зрения, исследование нижнего интервала (с общим предков в 14-15 веках нашей веры) более перспективен, тем более что я проследил свою прямую мужскую линию до 19 поколения.

Но насколько возможен факт наличия общего прямого мужского предка белоруса и черногорца в 21-30 поколениях? Дает ли генеалогия Вереничей предпосылки для такого утверждения? Прямых предпосылок, разумеется, нет.


Зато есть соображение ономастического характера. Один из сыновей второго родоночальника — Дмитра — Василь носил прозвище Волошин — так обычно в русских землях называли валахов, хотя часто прозвище Волошин не имело этнической коннотации и могло выступать в качестве отыменного прозвища: например, Володшин cын -> Волошин или Власий -> Волос -> Волошин. Наконец, составитель документа или переписчик мог сделать обычную описку. Впрочем, последнее опровергает существование 2 топонимов в окрестностях Стахова — урочища и острова Волошиново — причем именно там находились в 16-17 веках владения потомков Дмитра Веренича (старшим сыном которого являлся Василь Волошин). Кстати, любопытно отметить, что иногда в документах 16 века фамилия Веренич записывается не с окончанием —ч, а с более традиционным для южных славян окончанием — ш (Верениш)

А как же тогда быть с Вранешьевичем? Какое отношение он может иметь к валахам?

Лет 8 тому назад я порылся в исторических документах и обнаружил, что похожая фамилия Вранчич (в хорватском произношении Веранчич) действительно существовала на территории так называемого царства Сербия. После фактического распада Сербского царства (около 1366-1371 года), часть Вранчичей переселилось в Южную Сербию и Черногорию (где потомок Вранчичей воевода Радич Црноевич основал династию Црноевичей, которая в 15 веке праваила Зетой и Черногорией), другая перешла на службу к усилившемуся после падения «црства Српскаго» боснийскому королю Стефану Твртко I, который в 1370 и 1389 годах принял титул короля сербов, Боснии (1379) , Далмации и Хорватии (1389). Эти боснийские Вранчичи после падения Боснии (1463 год) под ударами турков частью переселились в Далмацию (г.Шибеник), которая с1420 была под венецианским владычеством, другая переселилась на границу Герцеговины и Черногории, где владели под турками «хематом» Вранеш, названого так в честь «валашского» князя Херака Вранеша (Вранеш — это герцеговинское диалектное видоизменение имени Вранчич).»Из возможных потомков Вранчичей, оставшихся в восточной Боснии и Герцеговине, особого внимания заслуживает «влашский» (sic!) кнез Херак (Владиславич?) Враньеш.

Казалось бы, вышеприведенные рассуждения выглядят убедительно. На самом же деле, остается главная проблема — дело в том, что фактически на протяжении 14-17 веков неизвестно никаких миграций жителей Балкан и влахов на территорию Полесья. Да, действительно была т.н. валашская колонизация, но она затрагивала главным образом территорию юго-западной Украины (прежде всего «червонной Руси» и «любельской земли», т.е. земли вокруг Львова, Звенигорода, Галича, Теребовля, Санока, Кросно, Белза, Замосця, Холма (Хелма). Причем интенсивность расселения «валахов» даже в этих регионах резко уменьшалось по мере продвижения на север (см. приложенную ниже карту).

14212036_10210384176630542_5840107323456791924_n

Например, на ближайшей к Полесью Волыни встречаются лишь фрагментарные упоминания бояр «Волошинов» в документах Метрики Литовской начала 16 века — они касаются пожалования земель в кременецком повете, т.е на рубеже ВКЛ и русского воеводства короны Польской (причем многие из этих «волошинов» носят чисто румынские имена Негое, Урсул и так далее). Такой же фрагментарный характер носят и земельные пожалования «волошинам» и на Подолье. И уж совсем единичные упоминания Волошинов мы находим в документах Метрики Литовской, касающихся земель современной Беларуси. Правда, на Брестчине одна семья «волошинов» — Ходько, Зань и Васько — получила в начале 16 века привелей на имение Чернско (от них происходит род Черских в брестском воеводстве, который вымер в 17 веке).