Опыт извлечения STR из данных полученных с помощью технологий высокопроизводительного секвенирования (NGS)

Последние недели 2-3 я довольно плотно занимался изучением возможностей определения STR (коротких тандемных повторов) на основании данных новых технологий высокопроизводительного секвенирования (NGS).
Напомню, что основной способ определения гаплотипов (набора локусов STR) подразумевает использования более традиционных технологий вроде капиллярного электрофореза, ПЦР или пирофореза. Именно так до сих пор типируются гаплотипы Y в научных и коммерческих лабораториях (например, в FTDNA).
Технологии NGS (next generation sequencing), особенно полногеномного сиквенса, были придуманы для других целей, поэтому технически определение STR на уровне условного железа (т.е. с помощью секвенатора) пока не представляется возможным. Поэтому единственное возможное решение — использование особых алгоритмов поиска коротких тандемных повторов в сиквенсе, причем как известных, так и неизвестных. Я не считаю себя дилетантом в области работы с сиквенсами (и их элайнментами), но по мере углубления в материал, я быстро понял всю сложность задачи. Основная сложность — выявление правильной периодичности повторов, т.е. вычисление числа самих повторов. Даже в природе, во время репликации ДНК, полимераза часто произвольно пробуксовывает и дает сбои именно на коротких тандемных повторах, и за счет этого типа мутаций аккумулируется изменчивость (вариативность) этого типа маркеров. То же самое касается и используемых алгоритмов, которые часто ошибаются не в мотиве тандемного повтора, а в числе повторов. Т.е. предположим что мотив повтора состоит из нуклеотидов AGAA. Допустим у человека этот мотив повторяется 12 раз подряд, но программа определяет вместо 12 повторов 11 или, наоборот 13.
Я изучил три программы, созданных для определения STR из данных NGS. Нужно отдать должное чувству юмора их создаталей, ибо названия программы образованы от аббревиатуры STR путем добавления какого-то смыслообразующего корня. Поэтому названия выглядят комично:

lobSTR (http://lobstr.teamerlich.org/)
HipSTR (https://github.com/tfwillems/HipSTR)
GangSTR (https://github.com/gymreklab/GangSTR)

Последную программу я пока так и не смог заставить работать, возможно в ее коде содержится некий баг. Большего успеха я добился с самой известной в списке программой lobSTR и похожей на нее HipSTR. Обе программы показали хорошие тестовые результаты на BAM файлах с парными ридами (paired reads) и высокую корреляцию с данными FTDNA.

Теперь о эксперимента. Для определения аккуратности определяемых этими программами локусов — STR — я взял тестовый BAM файл с сиквенсом Y хромосомы одного из клиентов FTDNA. Поскольку у этого клиента был сделан обычный STR-тест, можно было легко определить аккуратность алгоритма программа путем элементарного сравнения определенных lobSTR/HipSTR локусных значений STR со значениями соответствующих локусов STR, полученных в лаборатории традиционным способом — т.е. PCR и электрофорезом.

К сожалению, выдаваемый клиентам FTDNA bam файл с сиквенсом Y-хромосомы малопригоден в своем изначальном виде для определения STR. Я не знаю в чем дело, но эксеприменты с исходным BAM не дали достоверных результатов. Скорее всего, BAM содержит гибридные риды (парные и одиночные) сиквенса, а также непонятные HipSTR флаги ридов. Видимо, BAM собирался из FASTQ файлов, полученных разными сиквенаторами.
Кроме того, FTDNA или ее партнерская лаборатория, скорее всего использует какой-то кастомный или самописный ассемблер генома — и как следствие, вышеназванные программы очень плохо считывают входящие данные (ибо заточены на работу с BAM файлом сгенерированным классическими ассемблерами вроде BWA, и в меньшей степени, bowtie).

Поэтому пришлось заняться обратной разработкой BAM файла. Сначала я выделил из BAM файла парные риды и экспортировал их в формат FASTQ, а непарные удалил.
Далее я уже следовал рекомендуемой ведущими биоинформатиками процедуре из 12 промежуточных этапов(я не буду описывать все детали, скажу лишь что этот процесс великого делания включает в себя многочисленные фильтровки и рекалибровки нуклеотидных баз собираемого генома).

Пересобранный таким образом геном стал более доступным для нисходящей обработки в lobSTR/HipSTR, и после нескольких неудачных попыток я смог определить значения STR, которые оказались либо идентичными, либо близкими (с разницей в 1-2 повтора) типированным значениям STR.

Вот результы сравнения полученных в HipSTR/lobSTR значений DYS локусов с теми, что содержатся в отчете FTDNA

DYS marker lobSTR HipSTR FTDNA report
DYS389I 13 13 13
DYS389I 13 13 13
DYS389I 13 13 13
DYS389I 13 13 13
DYS390 24 24 24
DYS391 10 10 10
DYS392 11 11 11
DYS393 13 13 13
DYS426 11 11 11
DYS434 9 9 9
DYS435 11 11 11
DYS436 12 12 12
DYS437 15 15 15
DYS438 10 10 10
DYS439 11 12 12
DYS442 17 17 12
DYS444 10 10 10
DYS445 10 12 10
DYS446 13 13 13
DYS454 11 11 11
DYS458 17 17 17
DYS460 10 10 10
DYS461 12 12 12
DYS462 12 12 12
DYS472 8 8 8
DYS485 15 15 14
DYS492 12 12 12
DYS494 9 9 9
DYS511 9 9 9
DYS520 23 23 22
DYS522 12 11 11
DYS531 12 11 11
DYS533 13 13 13
DYS534 12 12 12
DYS537 11 11 11
DYS549 11 11 11
DYS556 11 11 11
DYS565 9 9 9
DYS570 18 18 18
DYS576 16 16 17
DYS578 8 8 8
DYS590 7 7 7
DYS594 10 10 10
DYS607 16 16 12
DYS635 23 23 23
DYS638 11 11 11
DYS641 10 10 10
DYS643 10 10 10

Видно что корреляция между результатами HipSTR и lobSTR выше (0.99) чем попарная корреляция между ними и результатами коммерческого тестирования в FTDNA (0.955 и 0.954). То есть результаты программ чаще согласуются друг с другом, чем с результатами FTDNA.

Обращает внимание то обстоятельства что полученные значения маркеров DYS607 и DYS442 в моем эксперименте существенно отличаются по числу повторов от референсных. Различие 4- 5 повтора. Но тут дело не в ошибке программе, а в разнице использзуемых номенклатур.
DYS442 has had changes in its nomenclature (http://www.hprg.com/hapest5/page2.html). FamilyTreeDNA reports a value 5 units shorter than NIST.

Новый формат (стиль) будущих графиков PCA

Всю прошедшую неделю колдовал над графическим оформлением результатов анализа главных компонентов генетического разнообразия в своей коллекции геномов древних людей. Анализ был проведен в стиле лаборатории Давида Рейха из Гарварда — я взял набор референсных популяций современных людей и с помощью особой функции в программе smartpca (пакет EIGENSOFT) вычислил эйгенвекторы 9 главных компонентов.

Затем все древние геномы были спроецированы (опция lsqproject) на вычисленные эйгенвекторы. Этот трюк дает отличные результаты при анализе древних геномов с большим количеством отсутствующих маркеров. Без этого трюка не представляется возможным анализировать генетическое разнообразие древних людей в контексте генетического разнообразия современных людей
Кроме того, я поигрался с новой опцией autoshrink, введенной в код с целью уменьшения искажения проецируемях геномов в сторону референсных геномов.
Самое сложное было добится приемлимой визуализации.

Пришлось изучить синтаксис и семантику ggplot — пакета графической грамматики, написанной на языке R. По задумке авторов, четкое определение правил и грамматики, описывающей элементы графического изображения наподобие грамматическим правилом натуральных языков, обеспечивает максимальный скриптовый контроль над получаемым графиком. Основная проблема заключилась в том что легенда графика отображает только 1-2 эстетик, отображающих некоторые статистические закономерности изучаемых данных. Если используется два различных набора данных — референсный и анализируемый — то отобразить их на двух независмых легендах к графику просто не получится.
Пришлось придумывать обходных трюки и читать литературы/тематические форумы. Спустя неделю проб и ошибок, написал скрипт, дающий на выходе картинку, близкую к тому что мы видим в профессиональных журналах.
Затем я разбил коллекцию древних геномов на 20 условных групп и сгенерировал скриптом графики.
Похоже, мотор скрипта работает на ура. Остался вопрос доводки красивости изображения за счет изменения элемента стиля (верхнюю панель лучше перенести вниз, поиграться с цифровой палитрой пакета RColorBrewer и еще пару доводок).

Внизу примеры визуализации

 

Интроны Y-хромосомы

Еще раз о Y-хромосоме. В отличии от митохондриона, где практически все снипы локализуются в экзонах, больша часть снипов мужской Y-хромосомы лежит в «информационно бесполезных» интроных зонах. Поскольку экзомное тестирование не покрывает интроны, то большинство из известных Y-снипов просто выйдет за рамки теста

Убедился и я в этом на примере реальных данных (это представитель Y хромосомной гаплогруппы R1a1).
samtools view -h x.bam Y > Y.sam
samtools view -h -b -S Y.sam > Y.bam
samtools/samtools mpileup -C 50 -ugf chrY.fa Y.bam | /samtools/bcftools/bcftools view -vcg — > Y.raw.vcf

 

Данный подход позволил обнаружить у тестанта около сотни генетических полиморфизмов (координаты данные по билду hg19):
Y 4058546 0 A C
Y 4058566 0 ta t
Y 4457069 0 tctctcct tct
Y 6028350 0 A T
Y 8149348 0 G A
Y 8566853 0 GCCC GCCCC
Y 8783761 0 C T
Y 8881927 0 GGTGT GGTGTGT
Y 9198243 0 T A
Y 9304866 0 G A
Y 9368340 0 tg tGNg
Y 9384631 0 A C
Y 9385720 0 CGG CG
Y 9909058 0 T A
Y 9930114 0 C A
Y 9931330 0 T A
Y 9938790 0 C A
Y 9938851 0 A T
Y 9938982 0 T C
Y 9939117 0 T A
Y 9952497 0 A G
Y 9982892 0 G A
Y 9982917 0 C A
Y 10007709 0 C A
Y 10007727 0 G A
Y 10007741 0 G A
Y 10011344 0 A G
Y 10011487 0 A G
Y 10011498 0 G C
Y 10011502 0 A G
Y 10011545 0 T G
Y 10011604 0 C CTT
Y 10011648 0 T G
Y 10011673 0 G A
Y 10011677 0 G A
Y 10011698 0 A G
Y 10011878 0 G A
Y 10011935 0 C CT
Y 10011960 0 T C
Y 10011966 0 ATT AT
Y 10012012 0 T A
Y 10013318 0 A G
Y 10028123 0 C T
Y 10028180 0 A G
Y 10029163 0 A G
Y 10029228 0 G A
Y 10029308 0 A T
Y 10029322 0 T C
Y 10029340 0 T C
Y 10029485 0 G C
Y 10029487 0 T A
Y 10029513 0 A G
Y 10029610 0 G A
Y 10029616 0 G T
Y 10029623 0 C T
Y 10029629 0 A G
Y 10029649 0 C G
Y 10029711 0 A C
Y 10043269 0 C T
Y 13241432 0 G T
Y 13241656 0 G A
Y 13243050 0 C G
Y 13243352 0 G A
Y 13244666 0 C T
Y 13244690 0 A G
Y 13254228 0 C T
Y 13262943 0 ACCC ACC
Y 13263091 0 G A
Y 13263304 0 C T
Y 13263364 0 A G
Y 13263374 0 C G
Y 13266266 0 G A
Y 13266286 0 C T
Y 13266301 0 A G
Y 13266368 0 T G
Y 13266377 0 G C
Y 13266499 0 A G
Y 13266520 0 G T
Y 13266556 0 T G
Y 13266560 0 C T
Y 13266587 0 C G
Y 13268187 0 T C
Y 13268361 0 T C
Y 13268377 0 A G
Y 13268521 0 C T
Y 13307425 0 G T
Y 13307562 0 G A
Y 13309174 0 A T
Y 13309226 0 A C
Y 13309239 0 G C
Y 13309262 0 T C
Y 13309348 0 C T
Y 13311223 0 T A
Y 13311491 0 C T
Y 13311501 0 G A
Y 13312579 0 G A
Y 13312666 0 G C
Y 13312729 0 C T
Y 13312756 0 A G
Y 13312789 0 A G
Y 13332277 0 C T
Y 13357224 0 C T
Y 13370991 0 C A
Y 13445929 0 G C
Y 13445957 0 C G
Y 13463779 0 A C
Y 13463831 0 T A
Y 13463837 0 G A
Y 13463860 0 C G
Y 13465055 0 A G
Y 13470805 0 G A
Y 13470834 0 T C
Y 13470855 0 T G
Y 13470880 0 G A
Y 13470897 0 G A
Y 13475849 0 C T
Y 13476553 0 T C
Y 13478387 0 A T
Y 13478445 0 G C,A
Y 13478569 0 T G
Y 13478583 0 T G
Y 13478613 0 A G
Y 13485671 0 T G
Y 13488312 0 C A
Y 13488330 0 A G
Y 13488337 0 C T
Y 13488370 0 G A
Y 13488395 0 A G
Y 13488410 0 A T
Y 13488429 0 A G
Y 13488601 0 A C
Y 13488621 0 A G
Y 13488946 0 A C
Y 13488952 0 T C
Y 13488972 0 C G,T,A
Y 13488988 0 A G
Y 13488992 0 T C
Y 13489043 0 G A
Y 13489069 0 A C,G
Y 13489077 0 T C
Y 13489206 0 C G
Y 13489220 0 T C
Y 13489234 0 T C
Y 13489255 0 A G
Y 13489292 0 A G
Y 13489300 0 A G
Y 13492264 0 C A
Y 13500410 0 T G
Y 13500424 0 T C
Y 13500443 0 T C
Y 13502048 0 C T
Y 13524378 0 T C
Y 13524752 0 G T
Y 13524761 0 C T
Y 13524873 0 T C
Y 13537129 0 G A
Y 13537569 0 A T
Y 13537581 0 C T
Y 13541022 0 C A
Y 13541053 0 CA CATA
Y 13541068 0 T C
Y 13541199 0 A G
Y 13541232 0 A T
Y 13541288 0 G A
Y 13541293 0 ATTT ATT
Y 13541420 0 A C
Y 13541454 0 T C
Y 13541478 0 G T
Y 13541520 0 C T
Y 13541556 0 A C
Y 13541561 0 T G
Y 13541584 0 C G
Y 13572922 0 A C
Y 13572932 0 T C
Y 13572999 0 A G
Y 13573033 0 A C
Y 13573108 0 G C
Y 13573152 0 C A
Y 13573216 0 G A
Y 13573240 0 C T
Y 13573271 0 G T
Y 13595280 0 T C
Y 13687807 0 T G
Y 13688825 0 C G
Y 13689634 0 T C
Y 13689668 0 C G
Y 13689755 0 G C
Y 13690562 0 C T
Y 13694899 0 G A
Y 13694929 0 G A
Y 13694956 0 C G
Y 13694983 0 T A
Y 13695051 0 T G
Y 13726074 0 T A
Y 13726129 0 C G
Y 13842718 0 G C
Y 14482235 0 C A
Y 14485120 0 G A
Y 14498990 0 C T
Y 14771478 0 A T
Y 14898094 0 A G
Y 14958218 0 C T
Y 15026424 0 A C
Y 15027529 0 T G
Y 15930958 0 ccttcttcctc cCTTCTTCCTCCTcttcttcctc
Y 16751825 0 A G
Y 16832517 0 T C
Y 17231616 0 A G
Y 21154004 0 A C
Y 21154323 0 G A
Y 21154426 0 G A
Y 21154466 0 T A
Y 21208056 0 A G
Y 21208066 0 C G
Y 22260237 0 C T
Y 22510104 0 G A
Y 22510163 0 T A
Y 23473201 0 T A
Y 23800360 0 T G
Y 23805478 0 C A
Y 24008079 0 T A
Y 28582510 0 G C
Y 28582566 0 C G
Y 28582605 0 T C
Y 28582622 0 G A
Y 28582676 0 G A
Y 28582685 0 C A
Y 28582863 0 A G
Y 28582865 0 A G
Y 28582921 0 A G
Y 28582932 0 G A
Y 28583310 0 C T
Y 28583314 0 A G
Y 28583382 0 G C
Y 28583394 0 T C
Y 28583410 0 C G
Y 28583415 0 T C
Y 28583431 0 A T
Y 28583432 0 A G
Y 28583590 0 A C
Y 28586782 0 G A
Y 28586959 0 T C
Y 28587232 0 T C
Y 28689055 0 G T
Y 28709343 0 A G
Y 28780767 0 A C
Y 28780823 0 T A
Y 28780883 0 G A
Y 28815270 0 C A
Y 28815656 0 T C
Y 28816806 0 T C
Y 28816831 0 C T
Y 28816870 0 T G
Y 28816948 0 C G
Y 28817276 0 T G
Y 28817286 0 T G
Y 28817559 0 T G
Y 28817636 0 G A
Y 58856145 0 G C
Y 58883603 0 A T,C
Y 58883784 0 T A
Y 58883834 0 A T
Y 58893627 0 A T
Y 58968939 0 G A
Y 58975896 0 T C
Y 58981639 0 cctccactcca cCTCCActccactcca
Y 58982160 0 G T
Y 58982559 0 A C
Y 58982671 0 tcttccttc tcttc
Y 58985524 0 T G
Y 58996230 0 G A
Y 58996257 0 G T
Y 58999765 0 C T
Y 58999773 0 G A
Y 59001429 0 G A
Y 59001608 0 C T
Y 59001620 0 A C
Y 59001647 0 G A
Y 59001685 0 G C
Y 59001722 0 G A
Y 59001753 0 T C
Y 59001773 0 A C
Y 59001782 0 C A
Y 59001792 0 T C
Y 59001960 0 T A
Y 59002047 0 C G
Y 59002139 0 G T,A
Y 59005179 0 C A
Y 59010280 0 A G
Y 59015256 0 T A
Y 59017005 0 A G
Y 59017181 0 T A
Y 59017206 0 A G
Y 59017378 0 T G
Y 59017384 0 ag aGg
Y 59018341 0 C G
Y 59020728 0 A G
Y 59022718 0 A G
Y 59022723 0 C T
Y 59022734 0 C T
Y 59022768 0 A G
Y 59027525 0 A G
Y 59027700 0 A C
Y 59027882 0 T G
Y 59029728 0 C T

Протокол обработки древних геномов для получения данных о гаплогруппе образца

Я поработал тут над протоколом определения мужских Y-гаплогрупп в палеоДНК. В конце концов — через пару дней — я остановился над следующим варианте.
Протокол содержит две части — первая для геномов с высоким покрытием, вторая для геномов с низким качеством и малым покрытием.


1) Для геномов с высоким покрытием варианты Y определяются в программе GATK и выводятся в формат VCF
Файл VCF вводится в программу yHaplo (написанную Позником на основании алгоритма определения Y-гаплогруппы в 23andme)
2) Для геномов с низким покрытием используется программа samtools mpileup c параметрами -B -q30 -Q30 -C50. Файл пайлапа преобразуется в формат 23andme и вводится в ту же программу (yHaplo)


Я проверил работоспособность протокола на нескольких примерах, похоже все работает (варианты гаплогрупп в таблице совпадают с теми что были опубликованы в статьях)
Сначала геномы с высоким покрытием — 2 генома древних гладиаторов из Йорка

3DT26 J-CTS8938 J-M304 J
6DT3 R-L52 R-P311 R1b1a2a1a

Теперь геномы с низким покрытием — 2 древнеегиптских образца

ERR1654486 J-P58 J-P58 J1a2b
ERR1654487 E-V22 E-L677 E1b1b1a1b2

Теперь еще более экстремальный случай (качество и покрытие плохое) — геномы римского периода с территории Польши (предположительно готы из Вельбарской культуры)

kow45 I-L35 I-M436 I2a2
kow55 I-L80 I-M253 I1

Геном англосакса из Йорка

NO3423 I-DF29 I-DF29 I1a

Геном неолитического периода с территории Польши

pl-7 R-S24902 R-S24902 R1a1a1b1a2c

Читать далее Протокол обработки древних геномов для получения данных о гаплогруппе образца

Прошедшие две недели я посветил отработке новой методики увеличения аккуратности определения вариантов снипов в геномах древних образцов. Я решил отказаться от предыдущих способов, когда с помощью samtools и GATK сначала генерировались файлы пайлапа, а потом из этой кучи возможных вариантов случайным образом выбирался аллелель и дублировался (т.е образец получал гомозиготные варианты). Проблема этого подхода выяснилась во время импутирования геномов, искусственная псевдогаплоидность древних геномов приводила к громадному искажению в сторону референсных геномов. Я решил упростить сложности и теперь вместо приведения генотипов к псевдогаплоидности, я определяю в GATK UnifiedGenotyper 38 миллионов известных снипов с таким условием, что алгоритм сам отбирает только те аллели, которые заданы в dbsnp как референсный и альтернативный аллель снипа.
В принципе, после долгих головоломок, удалось получить приемлимый алгоритм действий.
Я апробировал его на 55 опубликованных палеогеномах из балтийского региона (Литва, Латвия и Эстония) времен мезолита, раннего, среднего и позднего неолита, а также бронзового времени.
Для большой точности я ограничился только теми образцами, для которых удалось определить генотипы как минимум половины из 38 миллионов снипов dbsnp.

Sample Culture
Donkalnis6 Baltic_EMN
Gyvakarai1 Baltic_LN
Kivutkalns19 Baltic_BA
Kivutkalns207 Baltic_BA
Kivutkalns209 Baltic_BA
Kivutkalns215 Baltic_BA
Kivutkalns222 Baltic_BA
Kivutkalns25 Baltic_BA
Kivutkalns42 Baltic_BA
Kretuonas2 Baltic_EMN
Kretuonas4 Baltic_EMN
MA969 Baltic_BN
MA973 Baltic_LN
Plinkaigalis242 Baltic_LN
Spiginas1 Baltic_EMN
Spiginas2 Baltic_LN
Spiginas4 Baltic_Mesolithic
ZVEJ25 Baltic_Mesolithic
ZVEJ27 Baltic_Mesolithic
ZVEJ31 Baltic_EMN
ZVEJ32 Baltic_Mesolithic

Перед тем как использовать полученный набор в downstream aнализе, я решил посмотреть насколько точно определилось структурное разделение генофонда этих древних геномов.
Я использовал программы peddy, ATK, а также разбиение на фракции компонентов происхождения в программах iAdmix и fastNGSadmix.
На графиках видно, что в принципе основная масса этих геномов проецируется на то место в пространстве генетического разнообразия современных популяций людей, где оно и должно находится c точки зрения здрового смысла.

#family_id sample_id paternal_id maternal_id sex phenotype het_call_rate het_ratio het_mean_depth het_idr_baf ancestry-prediction PC1 PC2 PC3
Donkalnis6 Donkalnis6_Donkalnis6 0 0 0 -9 0.996 0.3029 -2 0 EUR -0.4471 -1.312 0.4822
Gyvakarai1 Gyvakarai1_Gyvakarai1 0 0 0 -9 0.9214 0.2377 -2 0 AMR -0.09174 -1.431 0.4644
Kivutkalns19 Kivutkalns19_Kivutkalns19 0 0 0 -9 0.9923 0.3483 -2 0 EUR -0.5558 -1.044 0.803
Kivutkalns207 Kivutkalns207_Kivutkalns207 0 0 0 -9 0.997 0.3443 -2 0 EUR -0.4681 -1.071 0.5988
Kivutkalns209 Kivutkalns209_Kivutkalns209 0 0 0 -9 0.9596 0.2518 -2 0 EUR -0.4277 -1.495 0.4507
Kivutkalns215 Kivutkalns215_Kivutkalns215 0 0 0 -9 0.973 0.2798 -2 0 EUR -0.2305 -1.201 0.901
Kivutkalns222 Kivutkalns222_Kivutkalns222 0 0 0 -9 0.8608 0.1615 -2 0 AMR -0.4777 -1.456 0.3636
Kivutkalns25 Kivutkalns25_Kivutkalns25 0 0 0 -9 0.8956 0.1933 -2 0 AMR -0.5087 -1.067 0.5996
Kivutkalns42 Kivutkalns42_Kivutkalns42 0 0 0 -9 0.8412 0.1575 -2 0 AMR -0.1253 -1.393 0.4066
Kreutonas2 Kreutonas2_Kreutonas2 0 0 0 -9 0.8462 0.1364 -2 0 EUR -0.4288 -1.337 0.6583
Kreutonas4 Kreutonas4_Kreutonas4 0 0 0 -9 0.9985 0.3136 -2 0 EUR -0.3243 -1.217 0.7842
MA969 MA969_MA969 0 0 0 -9 0.8092 0.1161 -2 0 AMR -0.2649 -1.263 -0.2799
MA973 MA973_MA973 0 0 0 -9 0.9482 0.2736 -2 0 EUR -0.3808 -1.319 -0.2429
Plinkgailis242 Plinkgailis242_Plinkgailis242 0 0 0 -9 0.9777 0.2811 -2 0 EUR -0.5622 -1.108 0.341
Spiginas1 Spiginas1_Spiginas1 0 0 0 -9 0.9943 0.3158 -2 0 EUR -0.4762 -1.402 0.7969
Spiginas2 Spiginas2_Spiginas2 0 0 0 -9 0.974 0.2945 -2 0 EUR -0.5128 -1.521 0.3943
Spiginas4 Spiginas4_Spiginas4 0 0 0 -9 0.8427 0.1399 -2 0 AMR -0.3 -1.208 0.6467
ZVEJ25 ZVEJ25_ZVEJ25 0 0 0 -9 0.969 0.2344 -2 0 EUR -0.2371 -1.254 1.072
ZVEJ27 ZVEJ27_ZVEJ27 0 0 0 -9 0.5763 0.0387 -2 0 UNKNOWN -0.2384 -1.622 -0.7302
ZVEJ31 ZVEJ31_ZVEJ31 0 0 0 -9 0.6926 0.06053 -2 0 UNKNOWN 0.04159 -1.332 -0.1725
ZVEJ32 ZVEJ32_ZVEJ32 0 0 0 -9 0.7095 0.06971 -2 0 UNKNOWN -0.06001 -1.699 -0.3068

Подробное разложени образцов по компонентамм можно посмотреть в этой таблице

Структура генофонда населения Русского Севера по аутосомным данным

Сергей Козлов

Структура генофонда населения Русского Севера по аутосомным данным

Оригинал статьи расположен на ресурсе генофонд.рф

Содержание:

  • Цель работы, применяемые методы и инструменты.
  • Использованные выборки и источники их формирования. Некоторые важные работы, рассматривавшие тему северного генофонда.
  • Основные компоненты аутосомного генофонда северян.
  • Анализ взаимосвязей между неславянскими народами Севера.
  • Структура аутосомного генофонда северных русских (включая Урал и Сибирь).

 

Цель работы, применяемые методы и инструменты.

Цель данной работы – проанализировать то, как сложился аутосомный генофонд северных русских (до массовых миграций XX века), из каких компонентов он состоит и что послужило их источником. Для решения этой задачи создана модель, совместно использующая два подхода – IBD-анализ и сравнение пропорций компонентов Admixture. Метод экспериментальный и не претендует на то, чтобы служить истиной в последней инстанции. И все же, на мой взгляд, он позволяет улучшить детализацию и разглядеть дополнительные подробности по сравнению с полученными ранее результатами. По мере пополнения новыми данными модель может изменяться, или же послужить основой для других моделей и интерпретаций.

IBD-анализ – это подсчет количества достаточно длинных общих участков ДНК, полученных от общего предка (IBD-сегментов) между образцами из исследуемых выборок. Многие используемые при аутосомном анализе методы позволяют определить, насколько сравниваемые образцы схожи или различны между собой, но не дают прямого ответа – является ли обнаруженное сходство свидетельством исторически недавнего родства?

Например, находящиеся рядом на графике главных компонент образцы могут относиться к разошедшимся многие тысячелетия назад популяциям, или же сходство может вообще оказаться результатом конвергенции (когда сумма внешних влияний на сравниваемые популяции схожа, но приведшие к ним события происходили совершенно независимо друг от друга). И наоборот, происходящие от общей основы, но испытавшие сильно различающиеся влияния популяции окажутся на графике далеко друг от друга.

Именно для решения этой проблемы наиболее пригоден IBD-анализ. Поскольку при каждой передаче следующим поколениям часть общих сегментов укорачивается или теряется, их суммарная длина и количество находятся в прямой зависимости от родственности между популяциями. К сожалению, использовать это как непосредственный показатель уровня родства нельзя, поскольку результат очень зависит от популяционной истории – в первую очередь, от испытанного популяцией генетического дрейфа и снижения разнообразия. Например, у эстонцев сумма общих сегментов с восточнофинской выборкой больше, чем с собственно эстонской, поскольку финны испытали более сильный дрейф. Поэтому был применён более сложный подход. На первом этапе среди исследуемых популяций выделяются те, которые испытали наиболее значительный дрейф и родство с ними хорошо проявляется по IBD-сегментам. Такие выборки называются у меня «генетическими полюсами». Далее выделяются опорные популяции, которые будут служить основой для моделирования (остальные выборки представляются, как результат их смешения). К опорным выборкам могут относиться как «генетические полюса», так и другие. Например, выборки центральных и северо-западных русских не формируют «генетических полюсов», но несомненно нужны в качестве опорных при моделировании происхождения северных русских.

Для поиска наиболее хорошо подходящих комбинаций опорных выборок использован алгоритм, называющийся «оракул» (насколько мне известно, впервые примененный геномным блогером Dienekes Pontikos).  Он перебирает варианты смешения отобранных выборок и ищет результаты, где среднеквадратичное отклонение от целевой выборки будет наименьшим. В данной работе вклад каждой выборки при переборе изменяется с шагом 5%, поскольку шаг в 1% увеличит количество вычислений на порядки, но не даст реального повышения точности. Оракул может использовать как результаты IBD-анализа (тогда в качестве сравниваемых показателей используются суммы  общих сегментов опорных выборок с «генетическими полюсами»), так и пропорции компонентов Admixture. Здесь они выделяются согласно разработанной В. Вереничем 27-компонентной модели, которую я считаю наиболее удобной для сравнения восточноевропейцев между собой, при помощи инструмента DIYDodecad от Dienekes. Что касается IBD-сегментов, то выбраны следующие показатели – чтобы исключить случайные совпадения, длина каждого учитываемого сегмента должна быть не менее 3 сМ, и он должен состоять не менее, чем из 150 снипов. При сравнении двух выборок итоговая цифра показывает усредненный результат сравнения каждого генома из первой выборки с каждым геномом из второй (сумма в сМ).

Программные реализации оракула, IBD-анализа и алгоритма отображения на картах, применяемые в данной статье, созданы непосредственно автором.

 

Использованные выборки и источники их формирования.

В статье использованы как научные образцы, так и результаты людей, тестировавшихся частным образом в коммерческих лабораториях (компании 23andMe и FTDNA). Анализ производился по широкогеномным данным об аутосомных маркерах. Использовано несколько частично отличающихся панелей Illumina, некоторые образцы получены усечением полногеномных данных до широкогеномных. Для IBD-анализа применено усечение всех геномов до набора из 244 тысяч снипов, которые присутствуют во всех панелях. Для Admixture-анализа – усечение до 118 тысяч снипов, поскольку при этом виде анализа дополнительно исключаются близкорасположенные, «сцепленные» снипы. Сформированные выборки показаны на карте черными квадратами.

 

СеверВыборки

 

Две из них оказались за пределами карты – это потомки русских старожилов Сибири (5 человек) и Забайкалья (3 человека). Как иногда говорят, «чалдоны», или «челдоны». Цифры рядом с названием показывают размер каждой выборки. В случае указания размера через косую черту, число слева означает количество использованных образцов для выведения усреднений по компонентам Admixture, число справа – количество образцов, использованных для подсчета общих сегментов (имеются в виду малые выборки, которые сравниваются с большими. Они расположены под графиком сумм общих сегментов). Размеры больших выборок справа от IBD-графика (то есть тех, с которыми сравниваются малые выборки) следующие:

Balt 20 (литовцы, латыши и один схожий с ними геном с российско-латвийского пограничья);

Finnish-East 18 (восточные финны);

Karelian 18 (карелы);

Komi 19 (коми);

Mansi 9 (манси);

Mari 16 (марийцы);

Russian-Pomor 12 (русские поморы);

Saami 13 (саамы);

Udmurt 19  (удмурты);

Veps 14  (вепсы).

Выборки, использованные для построения карт, подробно не описываются, поскольку их очень много, а сами карты приводятся исключительно в иллюстративных целях.

Источник основной части научных образцов – Эстонский Биоцентр (геномы выкладываются здесь). Сложно перечислить, в какой из статей был впервые использован каждый геном, при желании эту информацию можно найти на сайте биоцентра. Кроме того, использованы выборки из проекта «1000 геномов», а также статьи Hellenthal et al, 2014 . Несмотря на небольшое количество геномов, очень полезными для анализа северного генофонда оказались полные сиквенсы из работы  Wong et al, 2015

«Изюминкой» моих работ можно посчитать включение «коммерческих» геномов. К сожалению, кроме плюсов (добавление результатов популяций, не охваченных научным тестированием), у этого решения есть и минусы. Главный из них – автор не может доказать, что используемые образцы соответствуют строгим научным критериям формирования выборок. Геномы высылались мне для анализа энтузиастами генетической генеалогии, собравшимися на площадке forum.molgen.org , при условии, что файлы не будут передаваться третьим лицам. В выборку включались люди, все ближайшие предки (хотя бы 2-3 поколения – одиночный предок далее прадедушек и прабабушек уже влияет на результаты очень мало) которых происходили из нужной местности и относились к нужному этносу. За время существования проекта было обработано более 500 «коммерческих» геномов восточноевропейцев, однако большинство из них нельзя включить в «опорные» выборки из-за несоответствия указанному критерию либо из-за близкородственности с уже обработанными геномами. Тем не менее, для проверки полученных результатов они вполне пригодны. Таким образом, общий объем восточноевропейской выборки весьма велик.

Лично я уверен в добросовестности генеалогов-молгеновцев. Свое происхождение они нередко знают на столетия назад, поэтому с моей точки зрения «коммерческие» выборки временами могут являться даже более качественными, чем научные. Косвенным доказательством их корректности служит то, что полученные результаты без каких-либо противоречий вписываются в единую систему с научными выборками. При появлении нужных научных выборок «коммерческие» результаты будут либо окончательно подтверждены, либо исправлены и дополнены.

Автор выражает особую благодарность за помощь при формировании северных выборок Анатолию Воронцову, Владимиру Волкову и Владимиру Беданову. Благодарность выражается и всем участникам проекта.

Причина разницы в количестве образцов, использованных для IBD- и Admixture- анализа заключается в том, что часть научных геномов уже была использована при создании 27-компонентной модели. Поэтому получаемые для них результаты отличаются от всех остальных, не использовавшихся при выведении компонентов Admixture и исключены из сравнения (так называемый «эффект калькулятора»). Для IBD-анализа подобной проблемы не существует.

Одним из первых толчков к написанию данной статьи следует признать работу Андрея Хрунина и др. от 2013 года, где, насколько мне известно, впервые в научном сообществе был выделен «северо-восточный» европейский аутосомный полюс. Надо упомянуть, что любителями, например, уже упоминавшимся В.Вереничем, при анализе Admixture этот полюс выделялся и ранее. Позднее авторы и далее развивали тему изучения северного генофонда, в том числе выступив соавторами в упомянутой выше статье Wong et al.

Более широкую известность получила статья 2011 года “Генофонд Русского Севера: Славяне? Финны? Палеоевропейцы?” Елены Балановской и др, однако в ней исследовались однородительские маркеры, и аутосомы остались почти незатронутыми (кроме одиночного маркера CCR5del32).

Сходства и различия изученных русских выборок между собой и с соседними славянскими, балтскими, финскими народами подробно изучались в известной статье о генофонде славян и балтов (Алёна Кушняревич и др., 2015), подытоживающей накопленную на тот момент научным сообществом информацию, а также вышедшей в конце того же года монографии Олега Балановского «Генофонд Европы» , дающей подробный обзор европейского генофонда. В обеих работах проводился анализ по всем трем основным системам генетических маркеров (мужские и женские однородительские линии, и аутосомы).

Перечислить все имеющие отношение к анализу северного генофонда научные работы крайне сложно, и все равно остается вероятность пропустить что-то важное. Поэтому не буду дополнительно углубляться в тему, а перейду к следующей части.

 

Основные компоненты аутосомного генофонда северян.

При анализе северного генофонда можно выделить три его главных источника. Здесь я не останавливаюсь подробно на их выведении, ограничившись общим описанием и несколькими иллюстрациям, поскольку эти компоненты можно увидеть во многих научных работах.

Первый, наиболее древний слой – это «палеоевропейский» компонент, и поныне преобладающий у всех северных европейцев. Благодаря произведенной за последние годы расшифровке заметного количества геномов древних охотников-собирателей мы можем уверенно судить, что его корни тянутся на десятки тысячелетий в прошлое. Правда, в основном эти геномы относятся к более южным регионам Европы – от  Испании (la Brana) до Воронежской области (Костёнки). Однако есть и результат «северянина» — это образец I0061 (из работы Haak et al. 2015 года) с Южного Оленьего острова, Карелия. Его возраст, согласно радиоуглеродной датировке, составляет около 7-7.5 тысяч лет. При его сравнении с современными выборками первая десятка с наибольшей долей совпадающих снипов (одиночных мутаций), по моим расчетам, оказалась следующей:

Эстонцы

Латыши и литовцы (объединенная «балтская» выборка)

Русские Каргополя («вологодская» выборка HGDP)

Поляки

Восточные финны

Карелы

Вепсы

Саами

Словаки

Западные финны

На момент сравнения у меня еще не была сформирована выборка беломорских русских (поморы) – не сомневаюсь, что она тоже заняла бы высокое место в этом «рейтинге палеоевропейскости».

Несмотря на географию, я не считаю «оленеостровца» представителем основной части предков современных прибалтийских финнов или собственно балтов — на эту роль лучше подходят более южные образцы. Думаю, что он ближе к предкам удмуртов (в рейтинге они отдалились из-за наличия у современных удмуртов восточноазиатского и степного влияния). Также любопытна его взаимосвязь с западнославянскими выборками. Вероятно, картина прояснится при появлении новых северных палеообразцов, а пока данных слишком мало, чтобы уверенно их структурировать.

Второй компонент можно назвать «уральско-сибирским». Его влияние заметно ниже, при этом в целом падает при продвижении с востока на запад. Видимо, изначальное происхождение компонента связано со смешением восточных, «сибирских» вариантов континуума древних охотников-собирателей Северной Евразии (западным вариантом которых являются палеоевропейцы) и пришельцев с юго-востока, принесших с собой восточноазиатские генетические варианты. Напрашивается предположение о взаимосвязи компонента с распространением в северо-восточной Европе языков уральской семьи, а также многих ветвей Y-гаплогруппы N. Согласно реконструкции Владимира Напольских, перед распадом прауральского языка его носители проживали в темнохвойной тайге западносибирского типа, вероятно, также частично захватывая Урал и Восточную Сибирь (см. «Предыстория уральских народов», 2001 ).  Можно предположить, что при продвижении на запад «уральские» мужчины женились на местных женщинах, и в следующих поколениях доля «восточных» аутосомных вариантов снижалась, замещаясь «западными». В результате наблюдаемая картина при использовании разных систем генетических маркеров резко различается – если по Y-гаплогруппам влияние пришельцев весьма высоко, а кое-где преобладает подавляюще, то по аутосомным и мито-маркерам оно или совсем невелико, или находится в меньшинстве.

Среди современных европейских народов наиболее сильно этот аутосомный компонент проявляется у марийцев. Однако и у них он смешан с «палеоевропейским», поэтому для его выделения удобнее использовать результаты угорских народов Западной Сибири.

 

MansiUS-IBD

 

Наконец, третий, наиболее поздний компонент – это вклад пришедших с юга восточнославянских переселенцев. Этот компонент также имеет палеоевропейскую основу (что затрудняет дифференцирование с первым компонентом), однако с некоторой добавкой «южных» влияний (предположительно, неолитических земледельцев Европы и степных групп бронзового либо железного века). Сложно оценить, насколько велико влияние восточных славян на финские и пермские народы. Некоторые следы этого можно увидеть, но какая его часть связана с русскими миграциями Средневековья и нового времени, а какая — с более ранними движениями населения (например, знаменитыми «шнуровиками», или контактами прафинноугров со степными индоевропейцами)? Точную оценку станет возможно сделать только после прочтения северных геномов дославянского периода, а пока что мы можем опираться лишь на результаты наших современников. Поэтому я принял в качестве рабочего предположения, что до XX века люди смешанного происхождения обычно либо входили в состав русских, либо это делали их потомки. Тогда влиянием русских на генофонд сохранившихся финнов и пермян можно условно пренебречь, а найденные у них «южные» аутосомные компоненты отнести на иные контакты.

Дальнейший анализ будет производиться в два этапа. На первом я попытаюсь раскрыть взаимосвязи между неславянскими народами Севера. На втором – опираясь на уже полученные результаты, провести анализ генофонда северных русских. Единственным исключением станет восточная половина выборки поморов – русские Пинеги и Мезени. Согласно реконструкции, в основной части они потомки дославянского населения Севера, с минимальным влиянием центральных и южных русских. Поэтому их результаты представляют большую ценность для понимания северного генофонда и включены уже в первый этап анализа. Разумеется, это не делает пинежан и мезенцев какими-то «неправильными» или «поддельными» русскими, как  иногда воспринимают мои слова.

 

Этап 1. Анализ взаимосвязей между неславянскими народами Севера.

 

ГрафикСевер1

 

Поскольку IBD-анализ чувствителен к размеру выборок, в поморскую выборку (Russian-Pomor), кроме мезенцев и пинежан, для надежности добавлены близкие к ним генетически русские из низовьев Северной Двины. Komi-Zyryan-NE – это объединение результатов двух ижемских коми м одного близкого к ним коми из другой научной выборки, точное происхождение которого неизвестно. Komi-Zyryan-SW – объединение результатов двух прилузских коми, одного коми из Сыктывкара и двух близких к ним коми из научной выборки, точное происхождение которых неизвестно.

Как видите, количество общих сегментов хорошо отображает географию (проживающие рядом народы имеют больше возможностей генетически повлиять друг на друга). Например, у карел очень много общих сегментов с вепсами. Однако при этом у прибалтийских финнов больше общих сегментов с карелами, чем с вепсами, а у поморов и коми – чуть больше с вепсами, чем с карелами, но в целом близко. Таким образом, можно сказать, что с точки зрения аутосомного генофонда карелы – это смешение вепсов и восточных финнов.

По пикам сумм IBD-сегментов в общей «палеоевропейской» массе можно выделить отдельные «генетические полюса». Причина их появления – генетический дрейф в результате изоляции. Население Севера долгое время было очень редким, поэтому выделение полюсов происходило быстрее их размывания в результате смешения с соседями. Южнее в большинстве случаев этого не происходило, размывание шло быстрее выделения. Однако, к примеру, евреи-ашкенази за примерно тысячелетие генетически изолированного от окружающих существования сформировали хорошо выраженный полюс. Также хорошо формируют «генетические полюса» народы Северного Кавказа, благодаря географической изоляции (горный рельеф).

Чем более сильным оказался дрейф, тем выше будет пик на IBD-графике у соответствующего полюса. Возможно и формирование вторичных полюсов – когда смешиваются уже хорошо отдрейфовавшие популяции, а получившаяся группа позже испытывает дополнительный дрейф (например, так предположительно произошло с вепсами и карелами).

Основные генетические полюса, проявляющиеся на Севере, изображены на схеме внизу в черных прямоугольниках от «Балтский» до «Пермский 2». В верхней строке приведено условное название полюса, в нижней – выборка, для которой его влияние проявляется наиболее ярко. При вычислении влияния полюса на соседние популяции значения для этих выборок условно приняты за 100%. Выделение полюсов основано на анализе IBD-сегментов, а вероятные пропорции смешения получены сравнением компонентов Admixture (диаграмма с их значениями будет приведена далее).

 

ДеревоСеверv2-1

В правом верхнем углу изображен гипотетический исходный «уральско-сибирский» компонент и его влияние на северные популяции (при оценке его влияния я в основном ориентировался на результаты выборки манси). В левом верхнем углу – «западный» компонент, проявляющийся на графиках Admixture у выборок, расположенных рядом с Финским заливом. Здесь за основу взяты результаты шведов, поскольку наиболее хорошо он выделяется у юго-западных финнов, а влияние шведов на их генофонд согласуется с известными из истории фактами. Впрочем, использование как манси, так и шведов – условность для целей моделирования. Это не значит, что соответствующее влияние шло именно от предков этих народов.

Центральные и южные русские (а также большинство остальных славян) тяготеют к «балтскому» полюсу.

Первые четыре полюса близкородственны между собой, в то время, как Пермский 2 (предки удмуртов) находится несколько поодаль, повлияв лишь на первый пермский полюс (поток генов от удмуртов к коми).  Положение коми-пермяков точно неизвестно, но логично предположить, что они должны быть смесью влияний двух пермских полюсов (это предположение будет использовано при анализе результатов пермских русских).

Любопытно, что выборка северо-восточных (ижемских) коми проявила гораздо больше общего с поморами, чем с другими пермянами. Думаю, что это разделенные части единой древней популяции (назовем ее «чудь заволочская»). Большинство ее представителей вошло в состав русского народа, но крайняя северо-восточная часть перешла на пермский язык (либо изначально была не финно-, а пермскоязычной) и стала коми-ижемцами.

Довольно сложным получилось происхождение кольских саами – хотя в наибольшей степени они связаны с «финским» полюсом, сильно проявлены как «поморский» полюс, так и «уральско-сибирский» компонент, который тоже, вероятно, можно разбить на несколько полюсов. Как мне кажется, «уральско-сибирское» влияние у саами больше марийского, чем мансийского или ненецкого типа, но тут тяжело надежно выявить подробности. Кроме того,  моделирование для саами произведено без участия Admixture, поэтому надежность реконструкции снижена.

И все же, насколько оправдано использовать результаты выборки восточных поморов в качестве 100% представителей дославянского генофонда? Результаты Admixture показывают, что они почти в точности вписываются между своими соседями с юго-запада (вепсы) и востока (коми-ижемцы).

 

AdmixtureСевер1

 

Russian_Mezen_Pinegav3

 

Как будет показано далее, вклинивающиеся между ними русские Каргополя аутосомно схожи с более южными и восточными выборками, такими, как русские Сольвычегодска. Восточные финны здесь  отличаются настолько сильно из-за того, что для них выделен отдельный компонент Admixture (на диаграмме выше голубой) и отклонение по нему наиболее велико.

Могут выдвинуть возражение, что это русские настолько повлияли на генофонд коми и вепсов, что они стали походить на поморов. Но если уж русский колонизационный поток был настолько мощным, чтобы кардинально менять генофонд местного населения, то собственно русские выборки Севера в таком случае должны быть неотличимы от центральных и южных русских. А подобного не наблюдается.

В качестве подкрепления выводов приведу часть графика главных (первая и вторая) компонент из упоминавшейся выше этапной работы Кушняревич и др., 2015 о генофонде славян и балтов. Здесь использованы только научные выборки. Черным курсивом даны мои комментарии и пояснения, мной же добавлена и черная линия, соединяющая наиболее «аутосомно северные» выборки:

 

PCA

 

Этап 2. Структура генофонда северных русских.

При решении вопроса, какие выборки отнести к северным русским, за основу взята карта русских говоров, составленная советскими лингвистами (по Русская диалектология / под ред. Р. И. Аванесова и В. Г. Орловой. М.: Наука, 1965). Она хорошо коррелирует с аутосомными данными, включая один спорный момент – жителей зон 16 и 17 (историческая Новгородская Земля, «словене ильменские») по некоторым признакам тоже можно отнести к северянам. Здесь это названо «западные окающие говоры». Как мы увидим, разница с зоной «западных акающих говоров» (Псковщина, «кривичи псковские») хорошо проявляется и в аутосомном генофонде. К сожалению, образцы из «чухломского острова» (зона 24) отсутствуют – было бы интересно сравнить их с соседями.

 

Диалектологическая-карта-1965

Кроме северян, использованы выборки новгородских русских (она должна представлять «новгородский» поток колонизации), псковская (для сравнения с новгородцами) и «ростовская» (она представляет не окрестности города Ростова, хотя есть и образец оттуда, но «ростовскую землю» и «низовский» поток колонизации в целом – использованы образцы от Углича до Иваново). Для отображения возможных колонизационных потоков «из глубин славянского мира» взята выборка смоленских русских. Из географических соображений на график добавлены тверские русские (без северо-восточной части Тверской области, относящейся уже к зоне северных говоров), и небольшая выборка муромчан. Сформировать выборку русских Владимирского Ополья не удалось – пришлось ограничиться «ростовцами».

Северяне принимали активное участие в процессе освоения русскими Урала и Сибири (долгое время основные пути туда проходили через Север). Поэтому в анализ включены выборки потомков русских старожилов Пермского края, южной части Западной Сибири и Забайкалья.

 

ГрафикСевер2

 

Отличить северян оказалось очень легко – если для русской выборки красная линия (пересечения с поморами) получилась выше или наравне с зеленой (пересечения с балтами) – перед нами северные русские. Если ниже – центральные, северо-западные, либо не показанные здесь южные.

Больше всего пересечений с балтами найдено у псковских русских. Псков, Смоленск и Тверь расположены на землях, которые когда-то населял славянский племенной союз кривичей. Археологи обнаруживают у них сильное балтское влияние и некоторые исследователи даже относят кривичей к ославяненым балтам. Впрочем, как я уже писал, большинство славян тяготеет к «балтскому» полюсу, и его можно с чистой совестью называть «балто-славянским». Просто у балтов он выражен несколько сильнее.

Очень своеобразны результаты новгородской выборки. У них относительно мало пересечений с поморами, но при этом проявлены пересечения с прибалтийско-финскими народами (это заметно при сравнении с соседями из Пскова и Твери). То есть новгородцы – северяне по параметру «есть предки из уральскоязычных народов», но не северяне по более узкому параметру «есть предки из чуди заволочской». Если вернуться к схеме взаимосвязей дославянского населения Севера, можно увидеть, что «уральско-сибирский» аутосомный компонент до Балтики практически не добрался, растворившись по дороге. На графике это отражается небольшим количеством пересечений с выборкой манси у новгородцев. По сути, здесь мы видим базовый уровень родства палеоевропейских времен (20-25 сМ). У карел и вепсов он повышается до 35, а у коми, удмуртов и саами – до 50-60 сМ. Для сравнения, у хантов этот показатель составил 229 сМ.

Для просчета возможных вариантов происхождения северян использован оракул на основе сравнения сумм IBD-сегментов в режиме «комбинация не более, чем пяти предковых популяций». В качестве опорных взяты выборки вепсов, карел, удмуртов, юго-западных коми-зырян («ижемскую» выборку включать нет смысла, поскольку она будет дублировать поморов с добавлением лишнего «уральско-сибирского» влияния), русских Пинеги-Мезени (поморы), Новгорода, Пскова, Ростова и Смоленска. Сравнение идет по суммам общих сегментов с представителями четырех «палеоевропейских» полюсов (балты, восточные финны, поморы, коми), а также четырьмя дополнительными выборками (вепсы, манси, саами, марийцы).

Для начала проверим оракул на новгородцах. Здесь и далее приводятся пять результатов с наименьшим среднеквадратичным отклонением (значение после @).

Russian-Smolensk 90% + Karelian 10% @ 7

Russian-Pskov 5% + Russian-Smolensk 85% + Karelian 10% @ 7,02

Vepsa 5% + Russian-Smolensk 85% + Karelian 10% @ 7,54

Vepsa 5% + Russian-Pskov 5% + Russian-Smolensk 85% + Karelian 5% @ 7,56

Russian-Pinega-Mezen 5% + Russian-Smolensk 85% + Karelian 10% @ 7,72

Russian-Pinega-Mezen 5% + Russian-Pskov 5% + Russian-Smolensk 80% + Karelian 10% @ 7,85

Лучше всего новгородцы моделируются, как смесь смоленских русских и небольшой доли карел или вепсов. Результат выглядит весьма правдоподобно. Хотя, скорее всего, источником «финского» влияния выступали не столько карелы, сколько более близкие географически народы (летописные чудь, водь и т.д.). Если вновь вернуться к схеме взаимоотношений дославянского населения из начала статьи, то результаты эстонцев показывают – у местных финнов должно было быть меньше «финского» и больше «балтского» влияния. Таким образом, более вероятное соотношение пришлого и местного элемента у новгородцев не 90 на 10, а примерно 80 на 20.

Перейдем к северянам. Как и на графике, выборки расположены в порядке убывания сумм IBD-пересечений с поморами – от более выраженных северян к менее выраженным.

Важная ремарка – я попытался просчитать не только соотношение вклада местного населения и пришельцев-славян, но и соотношение вклада различных групп этих пришельцев. Однако разница между ними относительно невелика, поэтому надежность дополнительного разбиения заметно ниже. Пожалуйста, имейте это в виду при анализе результатов.

Поморы с низовьев Северной Двины:

Russian-Pinega-Mezen 75% + Russian-Pskov 5% + Russian-Novgorod 15% + Karelian 5% @ 4,89

Russian-Pinega-Mezen 75% + Russian-Novgorod 20% + Karelian 5% @ 4,93

Vepsa 5% + Russian-Pinega-Mezen 70% + Russian-Pskov 15% + Russian-Novgorod 5% + Karelian 5% @ 5,01

Russian-Pinega-Mezen 70% + Russian-Pskov 20% + Karelian 10% @ 5,03

Russian-Pinega-Mezen 80% + Russian-Pskov 5% + Russian-Novgorod 5% + Russian-Smolensk 5% + Karelian 5% @ 5,08

Vepsa 5% + Russian-Pinega-Mezen 70% + Russian-Pskov 20% + Karelian 5% @ 5,09

Мы уже знали, что они весьма близки пинежско-мезенской выборке, поэтому затруднений у оракула не возникло. Доминирует местный элемент, плюс показывается некоторое влияние новгородцев и карел. В некоторых комбинациях алгоритм «расщепляет» влияние новгородцев на составляющие, которые мы уже видели в предыдущем примере (русские Пскова или Смоленска плюс карелы или вепсы).

Русские Сольвычегодска:

Russian-Pinega-Mezen 35% + Russian-Rostov 30% + Russian-Novgorod 15% + Komi-Zyryan-SW 10% + Karelian 10% @ 3,12

Russian-Pinega-Mezen 40% + Russian-Novgorod 40% + Komi-Zyryan-SW 10% + Karelian 5% + Udmurt 5% @ 3,65

Russian-Pinega-Mezen 35% + Russian-Pskov 10% + Russian-Rostov 35% + Komi-Zyryan-SW 10% + Karelian 10% @ 3,66

Russian-Pinega-Mezen 35% + Russian-Rostov 35% + Russian-Smolensk 10% + Komi-Zyryan-SW 10% + Karelian 10% @ 3,69

Russian-Pinega-Mezen 40% + Russian-Pskov 5% + Russian-Novgorod 35% + Komi-Zyryan-SW 15% + Karelian 5% @ 3,73

Здесь с автохтонной стороны к «поморскому» компоненту добавляется влияние коми, что выглядит логично с точки зрения географии. Со славянской же стороны алгоритм подставляет то ростовцев, то новгородцев. Это тоже можно посчитать логичным – Сольвычегодск расположен рядом с важнейшим перекрестком северных речных путей, где реки Сухона, Юг и Вычегда превращаются в Двину. Здесь долгое время шла борьба между «низовцами» и новгородцами (опорным пунктом первых был расположенный чуть западнее Великий Устюг). Как известно, соперничество Новгорода и Ростовской земли/Владимирской Руси/Великого Княжества Московского в конечном итоге закончилось поглощением Новгорода и его бывших северных владений Москвой.

Однако я не исключаю и варианта, описанного в ремарке – алгоритм просто не справился с разделением влияния групп славян. Само же соотношение пришлого и местного элемента в генофонде сольвычегодцев можно оценить, как 50 на 50.

 

1-4

 

Русские Пермского края:

Russian-Pinega-Mezen 40% + Russian-Pskov 15% + Russian-Novgorod 15% + Komi-Zyryan-SW 15% + Udmurt 15% @ 3,49

Russian-Pinega-Mezen 40% + Russian-Novgorod 20% + Russian-Smolensk 10% + Komi-Zyryan-SW 15% + Udmurt 15% @ 3,78

Russian-Pinega-Mezen 40% + Russian-Pskov 25% + Russian-Smolensk 5% + Komi-Zyryan-SW 15% + Udmurt 15% @ 3,8

Russian-Pinega-Mezen 40% + Russian-Pskov 30% + Komi-Zyryan-SW 15% + Udmurt 15% @ 3,85

Russian-Pinega-Mezen 40% + Russian-Pskov 25% + Russian-Rostov 5% + Komi-Zyryan-SW 15% + Udmurt 15% @ 3,95

Первоначальное заселение края русскими происходило северным путем, через Вычегду и волоки в бассейн Камы. Путь по Волге и низовьям Камы был перекрыт казанцами. Судя по результатам, Пермь стала областью вторичной колонизации, куда в основном переселялись уже северные русские – иначе не объяснить столь большую долю «поморского» компонента. Видимо, комбинации «40% поморы + 30% северо-западные русские» отражают вклад северян (с вероятным добавлением небольшой доли других групп русских) поскольку такая смесь примерно соответствует русским Сольвычегодска, которых я условно принял за типичных представителей северян. Тогда «15% коми-зыряне + 15% удмурты» — это преимущественно отображение вклада местного пермского населения. К сожалению, результатов коми-пермяков у меня нет, но с точки зрения географии они примерно так и должны выглядеть. На графике хорошо заметно повышение у пермских русских количества общих сегментов как с коми-зырянами (по этому показателю они на первом месте среди всех русских выборок), так и с удмуртами (второе место после одной специфичной вятской выборки). Однако здесь вклад дославянского населения в генофонд местных русских следует признать более низким, чем в предыдущих случаях – ведь «поморский» компонент на этот момент уже необходимо считать русским.  Если взять в качестве образца переселенцев-северян русских Сольвычегодска, то соотношение пришлого и местного элемента в генофонде пермских русских можно оценить, как 75 на 25, или даже 80 на 20 (поскольку “пермский” компонент частично присутствует уже у сольвычегодцев).

Русские Каргополя:

Russian-Pinega-Mezen 35% + Russian-Pskov 20% + Russian-Novgorod 30% + Komi-Zyryan-SW 5% + Udmurt 10% @ 1,67

Vepsa 5% + Russian-Pinega-Mezen 30% + Russian-Pskov 25% + Russian-Novgorod 25% + Udmurt 15% @ 1,83

Russian-Pinega-Mezen 35% + Russian-Rostov 15% + Russian-Smolensk 35% + Karelian 5% + Udmurt 10% @ 1,84

Russian-Pinega-Mezen 35% + Russian-Pskov 10% + Russian-Rostov 20% + Russian-Novgorod 25% + Udmurt 10% @ 1,95

Russian-Pinega-Mezen 35% + Russian-Rostov 30% + Russian-Novgorod 25% + Komi-Zyryan-SW 5% + Udmurt 5% @ 1,98

Знаменитая выборка из Human Genome Diversity Project, долгое время представлявшая в большинстве научных работ всех русских, что вызывало у многих бурное негодование (в том числе временами и у меня). Каргополь расположен рядом с границами Карелии, и само его название выводят от карельского «медвежья сторона». Поэтому я ожидал найти здесь немалое влияние карел. Однако ничего подобного не наблюдается — результаты схожи с полученными для более восточных выборок северных русских (сольвычегодцы). Откуда там взялись пересечения с удмуртами, непонятно. Впрочем, их не так и много – вероятно, удмурты введены алгоритмом в попытке сбалансировать комбинации, а реального влияния почти нет.

Возможно, местные финны оказались более схожи по аутосомному портрету не с используемой мной карельской выборкой из Приладожья, а с поморами. Еще один приходящий в голову вариант объяснения – каргопольская выборка представляет позднейших русских переселенцев с юга и востока (Сухона, Вычегда и т.д.). Город стоял на торговом пути, идущем от Вологды и Белозерска, то есть из сферы влияния «низовцев». Поэтому взаимосвязь тут возможна. На карте диалектов Каргополь размещен у границы вологодских и межзональных (переходных к ладого-тихвинским) говоров, то есть тяготеет к Сухоне.

Из-за подобной неопределенности оценка вклада местного и пришлого населения не производится.

Русские Устюжны:

Russian-Pinega-Mezen 15% + Russian-Rostov 30% + Russian-Novgorod 45% + Karelian 5% + Udmurt 5% @ 9,22

Russian-Pinega-Mezen 25% + Russian-Rostov 20% + Russian-Novgorod 50% + Udmurt 5% @ 9,24

Vepsa 5% + Russian-Pinega-Mezen 15% + Russian-Rostov 30% + Russian-Novgorod 45% + Udmurt 5% @ 9,24

Russian-Pinega-Mezen 25% + Russian-Rostov 15% + Russian-Novgorod 50% + Russian-Smolensk 5% + Udmurt 5% @ 9,26

Russian-Pinega-Mezen 25% + Russian-Pskov 5% + Russian-Rostov 15% + Russian-Novgorod 50% + Udmurt 5% @ 9,33

Согласно В. В. Седову, культура сопок, характеризующая ильменских словен, распространялась до бассейна реки Мологи, где и расположена Устюжна (Седов В. В. Древнерусская народность. Историко-археологическое исследование. М., 1999). Таким образом, район Устюжны начал заселяться будущими новгородцами очень рано. Неудивительно, что здесь преобладает «славянское» влияние, причем больше новгородского типа. На сдвиг в «новгородскую» сторону также могла оказать влияние проживавшая рядом летописная весь или (в более позднюю эпоху) тверские карелы.

Надо учесть, что устюжнинская выборка очень мала – всего два человека. В большинстве случаев такие выборки мной не используются, однако этот район хотелось тоже охватить анализом. В результате отклонение даже для самой лучшей комбинации довольно велико – 9.22, что говорит об усилении погрешности. Хотя сами по себе результаты выглядят нормально (Udmurt 5% можно спокойно пренебречь, это не 10-15%, как у каргопольцев).

Русские Вятки:

С размером выборки вятских русских проблем нет, однако она оказалась слишком неоднородной. Поэтому я вывел из нее результаты двух вятчан с сильным коми-пермяцким или удмуртским влиянием, которые превратились в отдельную выборку северо-восточных вятских русских (Russian-Vyatka-NE). На графике они показаны отдельно, однако приводить для них оракул я не вижу смысла. Для основной же выборки получены следующие варианты:

Vepsa 15% + Russian-Pinega-Mezen 5% + Russian-Smolensk 60% + Udmurt 20% @ 4,86

Vepsa 15% + Russian-Pinega-Mezen 5% + Russian-Pskov 5% + Russian-Smolensk 55% + Udmurt 20% @ 4,89

Vepsa 10% + Russian-Pinega-Mezen 10% + Russian-Novgorod 5% + Russian-Smolensk 55% + Udmurt 20% @ 4,99

Vepsa 10% + Russian-Pinega-Mezen 10% + Russian-Rostov 5% + Russian-Smolensk 60% + Udmurt 15% @ 5,08

Russian-Pinega-Mezen 25% + Russian-Smolensk 60% + Udmurt 15% @ 5,2

Согласно уже упоминавшейся формуле, комбинацию «русские Смоленска плюс немного вепсов» можно интерпретировать, как новгородцев (просто для алгоритма оказалось чуть удобнее разложить их таким образом). И тогда вятские русские получаются потомками новгородцев с некоторым местным влиянием (меньше, чем у пермских русских). В первом приближении интерпретация выглядит нормально, однако есть сомнения – почему тогда на графике провален характерный для новгородцев восточнофинский компонент, а поднят именно вепсский? Возможно, вепсы в комбинациях и обозначают (хотя бы частично) потомков летописной веси, влившихся в состав северян? Тогда для компенсации смоленские русские в комбинациях тоже должны частично обозначать переселенцев из коренной России.

Обе интерпретации видятся равноправными. Однако результаты русских Унжи навели меня на мысль о возможном третьем варианте, который остается чистым теоретизированием, но выглядит интересно. Об этом чуть ниже.

Русские Унжи:

Vepsa 5% + Russian-Pinega-Mezen 10% + Russian-Novgorod 70% + Komi-Zyryan-SW 10% + Udmurt 5% @ 1,75

Vepsa 5% + Russian-Pinega-Mezen 10% + Russian-Rostov 25% + Russian-Novgorod 50% + Komi-Zyryan-SW 10% @ 1,75

Vepsa 15% + Russian-Rostov 20% + Russian-Novgorod 50% + Komi-Zyryan-SW 5% + Udmurt 10% @ 1,76

Russian-Pinega-Mezen 15% + Russian-Novgorod 70% + Komi-Zyryan-SW 10% + Udmurt 5% @ 1,78

Russian-Pinega-Mezen 15% + Russian-Novgorod 50% + Russian-Smolensk 20% + Karelian 5% + Udmurt 10% @ 1,81

Выборка состоит из научных образцов Russian_Kostroma, плюс один геном из FTDNA (он не выбивается из общей тенденции). Результаты схожи с полученными для русских Вятки, за вычетом ослабления «пермского» компонента и усиления «прибалтийско-финского». По моему мнению, выглядят они странно, поскольку именно река Унжа была одной из дорог, по которой шла «низовская» колонизация Севера. Если где и должны в результатах преобладать Russian-Rostov, так это здесь.

В качестве возможного объяснения у меня родилась гипотеза, что под новгородцев в результатах северных русских может маскироваться летописная меря.

В наши дни этот народ не существует. Есть версия, что потомки мери – современные марийцы, однако мне она кажется неверной. И вот почему:

Если летописные чудь и пермь достоверно оставили след в русском генофонде, логично предполагать, что свой вклад должна была внести и меря. Однако марийцы формируют свой, хорошо выраженный «генетический полюс». Не заметить их влияние на генофонд русских было бы невозможно, но его следов нет. Аутосомные родственники марийцев известны – по моим исследованиям, в первую очередь это чуваши, и в меньшей степени – казанские татары.

Следовательно, чтобы вклад мери был трудноразличим, она должна быть генетически схожей с новоприбывшими в регион восточными славянами (аналогичное рассуждение справедливо и для двух других исчезнувших летописных племен – мещеры и муромы). Это вполне вероятно, поскольку известны результаты геномного анализа соседей мерян по региону, сохранивших языки уральской группы до наших дней – эрзян и мокшан. Их аутосомная основа – та же самая, что у балтов и славян («балтский генетический полюс»), лишь с некоторым «уральско-сибирским» налетом. У эрзян и мокшан нет «прибалтийско-финского акцента», однако северо-западными соседями мерян была летописная весь, современными потомками которой считаются вепсы. Следовательно, взаимосвязь с прибалтийскими финнами вполне возможна и даже вероятна. Вот и источник «вепсского» компонента у русских Унжи и Вятки.

А выборка, относящаяся к «балтскому полюсу», но с некоторым «прибалтийско-финским акцентом» — для оракула это и есть новгородцы.

С другой стороны, в противоречие с этой версией вступают результаты «ростовской» выборки русских – у них повышения количества пересечений с прибалтийско-финскими выборками не наблюдается (за исключением небольшого «бугорка» на графике пересечений с саами, которые очень специфические финны). А Ростов тоже относят к исторической территории мери. Впрочем, считается, что на костромщине меряне исчезли гораздо позже и имели больше возможностей оказать свое влияние. К тому же костромская меря могла заметно отличаться от ростовской.

Подытоживая, «мерянская» версия выступает здесь в качестве игры ума и не претендует на доказательность. Численную оценку влияния можно дать лишь очень грубо, исходя из компонентов  Admixture. Если гипотетическая меря находилась в аутосомном смысле примерно посередине между современными вепсами и эрзянами, ее вклад в генофонд русских Унжи должен составлять менее половины (этого хватит для достижения нужного эффекта).

Кроме того, возможность влияния новгородцев эти рассуждения никак не отменяют. Соотношение «новгородского» и «мерянского» вкладов у северян может быть любым, поскольку структурно они схожи.

Для наглядности результаты IBD-оракула сведены в общую схему. Тверская и ростовская выборки получились близкими к смоленской и новгородской, с небольшим сдвигом в сторону поморского и пермского полюсов (их сектора занимают по 5% у тверской и по 10% у ростовской выборки). Для них используемая модель уже не вполне применима (вероятно, IBD-пересечения со многими полюсами могут восходить к более древним временам, чем у северных русских. Также возможны влияния других полюсов, неучтенных в модели.), однако для иллюстрации решено разместить и их результаты. Компоненты со значениями менее 5% не отображались.

 

СеверСоотношения

 

AdmixtureСевер2

Ростовская выборка здесь разбита на две части — Иваново и Углич. Каргопольская и унжинская выборки исключены полностью, поскольку участвовали в первоначальном выведении компонентов Admixture.

Читатель мог заметить, что при анализе результаты сибирских и забайкальских русских старожилов оказались пропущены. Дело в том, что применять для них ту же модель было бы некорректно – ведь на генофонд русских Сибири и Дальнего Востока могли заметно повлиять не только северные популяции, но и другие восточные славяне, а также народы Сибири. Поэтому была использована новая модель, оракул на основе сравнения пропорций компонентов Admixture в режиме «не более четырех предковых популяций» (расчет пяти предков при большом количестве выборок слишком затратен по времени). Опорные популяции должны примерно перекрывать основные возможные варианты (исключена лишь экзотика, наподобие пленных шведов, отправленных в Сибирь после Полтавы – в любом случае их возможный вклад слишком мал). Для этого использованы следующие выборки:

Altaian – алтайцы (3)

Bashkir_East – восточные башкиры (2)

Belarusian_Minsk – белорусы (центр) (5)

Buryat – буряты (3)

Evenk – эвенки (3)

Khanty – ханты (4)

Polish – поляки (15)

Russian_Bryansk – русские Брянска (6)

Russian_Don_Cossack – русские с Дона (2)

Russian_Ivanovo – русские Иваново (2)

Russian_North_Dvina – русские поморы (Двина) (5)

Russian_Novgorod – русские Новгорода (2)

Russian_Pskov – русские Пскова (4)

Russian_Ryazan – русские Рязани (3)

Russian_Smolensk – русские Смоленска (3)

Russian_Solvychegodsk – русские Сольвычегодска (6)

Russian_Ustyuzhna – русские Устюжны (2)

Russian_Ural_West – русские Перми и Екатеринбурга (7)

Russian_Vyatka – русские Вятки (4)

Ukrainian_Poltava – украинцы Полтавы (3)

Ukrainian_Slobozhanshtchina – восточные украинцы (3)

При использовании IBD-метода как забайкальцы, так и южносибирские «чалдоны» оказались северянами по критерию превышения суммы сегментов с поморами над суммой с балтами, хотя и менее выраженными, чем большая часть выборок северных русских (думаю, это говорит о том, что генофонд сибиряков сформирован не только ими). Посмотрим, что покажет Admixture.

Русские Забайкалья:

Evenk 5% + Russian_Don_Cossack 15% + Russian_Solvychegodsk 35% + Russian_Ural_West 45% @ 1,9

Bashkir_East 5% + Evenk 5% + Russian_Don_Cossack 15% + Russian_Solvychegodsk 75% @ 1,91

Evenk 5% + Khanty 5% + Russian_Don_Cossack 20% + Russian_Solvychegodsk 70% @ 1,99

Bashkir_East 5% + Evenk 5% + Russian_Bryansk 15% + Russian_Solvychegodsk 75% @ 1,99

Bashkir_East 5% + Evenk 5% + Russian_Solvychegodsk 75% + Ukrainian_Slobozhanshtchina 15% @ 2,03

В забайкальскую выборку включены потомки русских старожилов Забайкальского Края и один образец из северо-восточной части Иркутской области. В отличие от Севера, здесь смешение русских переселенцев с местным населением происходило в очень ограниченных масштабах. Видимо, различия оказались слишком велики. Оракул предполагает примерно 5% влияния народов Восточной Сибири, которых в модели представляют эвенки (на графике Admixture это проявляется, как повышение доли East Asian). Остальная часть распределяется между классическими северными русскими (Сольвычегодск), русскими Перми (в части комбинаций они показаны, как смесь русских Сольвычегодска и небольшого количества башкир либо хантов, которые здесь представляют уральскую сторону пермяков) и южными русскими либо украинцами. Это не значит, что среди предков забайкальцев не могло быть, к примеру, центральных русских – но в таком случае их вклад находился внутри диапазона между северянами и южанами и в модели разделился между этими крайними влияниями. Как и ожидалось, северный генофонд преобладает (80/15/5).

Русские южной части Западной Сибири:

Polish 15% + Russian_Solvychegodsk 20% + Russian_Ural_West 55% + Ukrainian_Poltava 10% @ 1,45

Polish 25% + Russian_North_Dvina 5% + Russian_Solvychegodsk 15% + Russian_Ural_West 55% @ 1,46

Polish 20% + Russian_North_Dvina 10% + Russian_Ural_West 60% + Ukrainian_Poltava 10% @ 1,46

Polish 15% + Russian_Ustyuzhna 10% + Russian_Ural_West 65% + Ukrainian_Poltava 10% @ 1,46

Polish 25% + Russian_North_Dvina 5% + Russian_Ustyuzhna 5% + Russian_Ural_West 65% @ 1,47

Сибирская выборка составлена из жителей Новосибирской, Кемеровской, Томской областей и Алтайского края. Здесь оракул не обнаруживает даже 5% вклада дославянского населения (возможно, небольшая его доля способна «прятаться» в завышении вклада уральцев). В остальном же результаты однотипны с полученными для забайкальских русских – смесь северного и южного генофонда с преобладанием северного (75/25). Поляки аутосомно очень схожи с украинцами и южными русскими, нередко до неотличимости, поэтому их наличие в комбинациях не удивляет. Не думаю, что их вклад в генофонд южносибирских старожилов достигает 15-25 процентов, хотя чем черт не шутит.  Скорее комбинация с поляками просто оказалась чуть удобнее, чем с южными русскими или украинцами.

 

Russian_Siberiav3

 

Сибирь очень велика и наверняка во многих местах ситуация развивалась по другим сценариям (в качестве примера достаточно вспомнить затундренных крестьян). И все же я думаю, что в большинстве случаев генофонд старожилов был схож с двумя исследованными здесь выборками. В наши же дни «среднего сибирского русского» навряд ли можно назвать выраженным северянином – массовое переселенческое движение конца XIX – начала XX века в Сибирь и более поздние события размыли сформировавшийся за три предыдущих столетия генофонд и должны были сделать сибиряков более схожими с центральными и южными русскими.

Общую долю северных русских среди великороссов на 1795 год можно оценить, как 20-25%, в зависимости от отнесения к северянам жителей северо-западных губерний. Оценка сделана мной, основываясь на подсчетах численности русского населения по регионам согласно работе: Кабузан В.М. «Народы России в XVIII в.: Численность и этнический состав». М., 1990. Таким образом, вклад северян в генофонд русского народа достаточно значим.

Карта схожести по пропорциям Admixture для русских Белого Моря уже была показана ранее. Для сравнения приведу и результаты из двух других углов «северного треугольника» карты для русских Новогорода и русских Перми.

 

Russian_Novgorodv3

 

Russian_Ural_Westv3

 

Одна из основных сложностей при проведении аутосомного анализа заключается в том, что влияния всех эпох складываются в генофонде, наслаиваясь друг на друга. Чем дальше мы забираемся вглубь времён, тем больше позднейших наслоений следует учесть и попытаться убрать. Происхождение сибирских и уральских русских хорошо реконструируется, опираясь на результаты современных популяций. Полученные реконструкции соответствуют данным лингвистов и этнографов – действительно, мнение о том, что Урал первоначально заселялся русскими преимущественно с Севера, а Сибирь – преимущественно с Севера и Урала, но с заметным влиянием переселенцев из других регионов, можно считать практически общепринятым. Например (из Википедии):

«Сибирские старожильческие говоры,  хотя и происходят генетически от северного наречия, утратили часть его архаических черт под влиянием говоров переселенцев с юга России. Вятские говоры и пермские говоры, размещённые на территории Кировской, Пермской и Свердловской областей считаются самыми архаичными среди всех говоров северного наречия, поскольку эти говоры лучше других сохраняют фонетику и морфологические особенности наречия Новгородской земли XIII—XIV веков.»

Из «наказа» тобольским воеводам (1596 год):

«служилых людей в пашню вваживать, чтобы себе пашню пахали и впред бы с Руси хлебных запасов посылати меньше прежнего, и велети пашенных и посадцких людей призывать из Перми, с Вятки, с Солей Вычеготцких на льготу Охочих людей»

При движении на шаг далее в прошлое, начинаются сложности. Насколько достоверно современные новгородские русские и русские Пинеги-Мезени могут представлять средневековых новгородцев и «чудь заволочскую»? Этого мы точно не знаем, хотя косвенные соображения говорят, что могут. Верна ли моя гипотеза о влиянии летописной мери на часть северных русских, или это просто игра ума? Нет нынче мерян, чтобы сравнить. И все же от той эпохи сохранилось достаточно много, чтобы строить детальные предположения.

Предшествующие же эпохи пока обрисовываются только очень крупными мазками. Здесь я не касаюсь результатов, полученных археологами и антропологами. Вероятно, в какой-то момент после «оленеостровца» в регион пришли люди с юга, предки будущих восточных славян, балтов и финнов. Возможно, они говорили на индоевропейских языках, возможно, нет («черепки не говорят»). В какой-то момент часть из них перешла на языки уральской семьи, и я предполагаю, что это связано с притоком «восточных» генетических вариантов. Затем некоторые из потомков перешедших стали индоевропейцами (вновь?), войдя в состав русского народа.

Поэтому очень важно получение большого количества расшифровок древних геномов, представляющих разные эпохи и разные регионы. «Сетка» результатов даст опору, позволяющую реконструировать происходившие миграции с высокой достоверностью. К счастью, в последние годы эта область науки бурно развивается, и я надеюсь, что скоро нас ожидает много новых, интересных результатов.

Демография миграций в эпоху неолита и бронзового века

C ресурса Генофонд.ру (автор: Надежда Маркина)

 

Статья американских и шведских исследователей (Goldberg  et al.),опубликованная на сайте препринтов, вновь обращается к дискуссионной проблеме миграций в эпоху неолита и бронзового века.  В работе исследуется вопрос о доле мужского и женского населения  в составе мигрирующих групп, которые сформировали  генофонд  Центральной Европы. Авторы проверяют исходную гипотезу, что миграции из Анатолии в раннем неолите и миграции из понто-каспийских степей в течение позднего неолита и бронзового века были преимущественно мужскими.

Для ответа на это т вопрос авторы опираются не на Y-хромосому, передающуюся по отцовской линии,  и не на митохондриальную ДНК, передающуюся по материнской, как традиционно поступают генетики, а  Х-хромосому. Они вычисляют отношение эффективного размера популяции по Х-хромосоме к эффективному размеру популяции по аутосомам (неполовым хромосомам). Поскольку мужчины имеют одну Х-хромосому, а женщины – две, то в популяции с одинаковым соотношением мужчин и женщин отношение Х-хромосомы к аутосомам должно быть ¾. Отклонение от этой цифры говорит о разной демографической истории по мужской и женской линиям. Такова логика, лежащая в основе метода исследования, подробнее с ним можно познакомиться в тексте статьи.

Авторы изучили опубликованные образцы древней ДНК раннего и позднего неолита и бронзового века, проанализировав более 1,2 млн SNP, в том числе без малого 50 тысяч SNP на Х-хромосоме. Исследуемые образцы относились к популяциям охотников-собирателей, земледельцев Анатолии и понто-каспийских степей.

 

new-1

Схематическая демографическая история земледельцев Центральной Европы в течение неолита и бронзового века.

 

В противоположность существующему мнению, результаты не подтвердили, что миграции в неолите из Анатолии в Европу были преимущественно мужскими. Анализ  показал примерно одинаковое соотношение мужского и женского населения среди мигрантов. А вот миграция из понто-каспийских степей в Центральную Европу в  течение позднего неолита и бронзового века , действительно, была преимущественно мужской: по подсчетам  среди мигрантов на 5-14 мужчин приходилась одна женщина. Авторы показали, что эта миграция была растянута по времени на несколько поколений. В соответствии со своим мужским характером, именно она принесла в Европу технологические инновации.

 

new-2

Доли мужского (синие стрелки) и женского (розовые стрелки) населения в составе неолитической и степной миграций.

 

Формальный анализ модели смешивания предковых популяций: белорусы

Перед подготовкой релиза новых калькуляторов K16 и K11 на Gedmatch, я решил провести пилотный (пробный) анализ референсной популяции белорусов (в которую входят публичные образцы из  базы данных HumanOrigin, EGDP новой панели референсных геномов Эстонского биоцентра, а также данные белорусов — участников моего проекта MDLP). Основным инструментом формального анализа надежности модели будет известный и популярный пакет Admixtools.
Перед тем, как дать краткое описание первых шагов, хочу отметить трудности работы с Admixtools — в первую очередь, крайнее низкую степень документированности (описания) практических аспектов работы большинства входящих в пакет инструментов. Данное обстоятельство существенным образом снижает темп изучения этого все более популярного пакета (с другой стороны, похоже что лаконичность изложения задумывалась изначально, для отсеивания слабо мотивированных дилетантов-любителей). Второе обстоятельство, затрудняющее использование Admixtools, заключается в необходимости компилировать отдельные компоненты пакета.

Пакет содержит шесть программ

 

convertf: программа конвертирования форматов
qp3Pop: формальный анализ сигнала "смешивания" в трех популяциях
qpBound: программа, вычисляющая верхнюю и нижнюю границу смешивания в трех популяциях (2 референсные популяции и 1 одна популяция, предположительно образованная за счет смешивания двух референсных популяций) 
qpDstat: формальный анализ "адмикса" в 4 популяциях
qpF4Ratio: программа для определения пропорций адмикса за счет проведения 2 f4-тестов
rolloff:  программа датировки адмикса.

В приницпе, четкого порядка работы с этими программами нет, однако авторы рекомендуют следовать приведенному списку (т.е. начинать с qp3Pop и заканчивать rolloff)

Outgroup-статистика f3 является крайне полезным аналитическим инструментом для понимания взаимных отношений разных популяций: основная задача теста состоит в определении характера этих отношений. Образована ли целевая популяция (target) за счет смешивания двух рефересных популяций, или же  популяции представляют собой две простые ветви популяционного дерева человечества (т.е. в образовании таргетной популяций не участвовали референсные популяции)

Статистика f3, так же, как два других вида статистик — f4 и f2 — представляют собой меру корреляции частот аллелей между рассматриваемыми популяциями. Все эти виды статистик были введены в научный оборот попгенетики биоинформатиком Ником Паттерсоном в статье 2012 года.

Статистика f3 используется в двух целях:

  1. в качестве теста  сигнала «адмикса» двух популяций-источников (A и B) в «целевой популяции» (С)
  2. для измерения общего разделяемого дрейфа двух тестовых популяций  (А и В) по отношению к  внешней группе (С).


В этой публикации я приведу пример первого случая использования. Статистика f3 в обоих случаях определяется как произведение разниц частот аллелей  между популяции C, А и В, соответственно:

  1. F3=<(c-a)(c-b)>

Итак, первый случай употребления (для определения сигнала смешивания), белорусы выступают в качестве тестовой популяции, две референсные популяции образованы пермутацией имеющихся у меня популяций

Итак, промежуточные результаты (я выбрал только комбинации с негативным значением Z, свидетельствующие о сигнале смешивания) :

Следующий тип статистики — f4, — реализован в программе qpDstat в виде D-статистки. Это формальный тест адмикса четырех групп (таксонов или популяций), позволяющий определить направления потока вливания генов. Немного теории:

Для любых 4-х популяций (W, X, Y, Z), qpDstat вычисляет D-статистику следующего вида

num = (w — х) (у — z)
den = (w + х — 2wx) (у + z — 2yz)

D = num / den

Результат qpDstat показывает направления вливания генов. Таким образом, для 4 групп (W, X, Y, Z) верно следующее положение:

Если значение Z положительное ( + ), то обмен генами происходил либо между W и Y, либо между X и Z
Если значение Z отрицательное (-), то обмен генами происходил либо между W и Z,  либо между X и Y.

 Кроме определения направления генного дрейфа, очень важным практическим применением D-статистики служит определения «левых» и «правых» популяций для теста qpAdm (о нем чуть позднее). Так, например,  комбинация из двух первых популяций left {L,L}  и двух правых популяций {R, R} должна быть выбрана таким образом, чтобы значение Z в D-статистике
a) было неотрицательным, и b) имело высокое абсолютное значения.  Я решил последовать совету и сгенерировал 225822 комбинаций из четырех популяций {W,Y,X,Z}, где W — фиксированная первая таргетная популяция «левого» списка, в нашем случае белорусы, Y — одна из имеющихся групп палеогеномов, X и Z — пермутация из 16 «чистых» современных популяций описанных в работе Lazaridis et al. 2016.

Итак, вот результаты (и снова я не привожу полный список, а только те комбинации, которые могут быть использованы для выбора состава «левых» и «правых» популяций.  и последующего моделирования в qpAdm):

Этюд на тему ДНК-генеалогия.

Мой блог посвящен преимущественно тематике аутосомной ДНК, однако время от времени я затрагиваю тему однородительских маркеров происхождения (Y-ДНК и митоДНК).  Начну заметку издалека.
Среди обывателей села Стахова бытует легенда, о том, что род Вереничей пришли на земли пинского Полесья из Югославии.К сожалению, как и в большинстве подобных легенд, cовершено невозможно разобраться в том, где правда, а где позднейшие выдумки. Так и в этом случае. Ни в одном из имеющихся e меня исторических документах нет даже и намека на балканское происхождение Вереничей. Даже в самых ранних документах (например, в «Ревизии пущ и переходов звериных в бывшем Великом княжестве Литовском с присовокуплением грамот и привилегий на входы в пущи и на земли, составленной старостою мстибоговским Григорием Богдановичем Воловичем в 1559 г. «, или в «Писцовой книге Пинского староства Лаврина Воина, 1561—66«) уже видно, что даже в то время род Вереничей на Полесье считался «издавним«.



Так в ревизии Воловича (1559 года) читаем, что

«Павел Веренич на дворище у Стохови жъ не покладалъ листовъ, только давность, и на другое дворище у Дубой».


Слово давность означает существование в течение долгого времени, издревле, искони. Происходящие от корня этого слова прилагательные и наречия попадаются в разных актах с конца XIII века. Как юридический термин существительное <давность> употреблялось уже весьма рано в западнорусском законодательстве; собственно же в России оно появляется в виде термина лишь с XVIII века. Выражение земская давность было юридическим термином в Литовском Статуте, из которого заимствовано русским законодательство.

 



В строго юридическом смысле срок давности владения определялся десятью годами. Впрочем, здесь давность может употребляться в другом значении. Так, в актовых материалах все той же «Ревизии пущ и переходов звериных в бывшем Великом княжестве Литовском с присовокуплением грамот и привилеев на входы в пущи и на земли, составленная старостою мстибогским Григорием Богдановичем Воловичем» в числе прочих землевладельцев Пинского повета упомянуты Грынь Веренич с братом Павлом «с имений своих стародавних [т.е. с незапамятных времен] военную службу служащих«. Судя по этому, Вереничи могли появится в Стахове уже в середине 15 века, если не раньше.
Когда, откуда, и при каких обстоятельствах — обо всем этом известные мне историко-юридические источники умалчивают. Более поздние документы не только не дают ответа на эти вопросы, а скорее еще больше запутывают ситуацию. Так например в «Выводе фамилии урожденных Стаховских придомка Веренич» (Год 1802 Месяца ноября двадцать второго дня на на сессии Депутации выводовой Губернии Минской) читаем следущее:

«Принесена была просьба от фамилии древней родовитой панской шляхты урождённых Вереничей Стаховских герба “Огончик” (пол-стрелы белой на половине перстня стоящей, в поле красном, над шлемом две женские руки вытянутые вверх) которая на наследственных землях и осадах в повете пинском лежащих от найяснейшых времён королевства Польского, прерогативами шляхетства пользовалась, и клейнотом родовитости неискаженно и непрерывно пользовались. [стр. 616] В потверждение указов найяснейшей воли – линия родословной своей вместе с документами перед депутацией выводовой губернии Минской составлена, потверждена доводами и внесена в дворянские книги Минской губернии в соответстии с законом.Родословие своего дома разделили на две линии. Дух родных братьев Семена и Дмитрия Вереничей Стаховских за родоначальников взяли, и от них до себя довели. И правдивость этого они через доказательства и документы следующим порядком довели. Семен и Дмитрий Вереничи Стаховские братья между собой родные. В повете Пинском осели и дали начало своему роду и фамилии. И в подтверждение своего первого поколения они предъявили привилегию от наияснейшего короля польского Сигизмунда Августа за год тысяча пятьсот шестьдесят шестой от июня двадцатого дня где, между другими для шляхты пинской пожалованиями за военную службу выше упомянутым Семену и Дмитрию Вереничам Стаховским земли в наследственное владение в повете Пинском лежащими дворища Веренича в Стахове и Дубой называющееся им и потомкам их пожаловал…»

Содержание начала текста весьма типично для подобных документов, но здесь нет сведений о точном времени появления Вереничей в Стахове, не говоря уже о явных хронологических несуразицах, которые я разбирал в другой заметке.

  1. Во-первых, под «привелем» 1566 года понимается общий «привилей» Сигизмунда-Августа, данные всей пинской шляхте в подтверждение их землевладельческих и шляхецких прав.
  2. Во-вторых, Семен и Дмитрий жили не в 1566 году, а как минимум на сто лет раньше — около 1456-1466 годов. В доказательство верности моих вычислений можно привести следующие аргументы. В решении судей Главного Трибунала ВКЛ от 1637 года упоминается о привелее кн. Марии Семеновны (+1501) ( в документе ошибочно указано Ярославовны) и ее сына кн. Василия Семеновича (+1495) от 6998 года индикта 8 (1490 года согласно современному летоисчислению), в котором подтверждается совместное владение Волошиным (sic!) Павлом и Ходором Вереничами даниной своей бабки в селе Тупчицы, Согласно родословной, Павел — сын Дмитрия и племянник Семена. В следующем по времени привилее кн. Федора Ивановича Ярославича от 26 апреля 1514 данном дочерям Антона (Андрей?) Дмитриевича Веренича потдверждается их вотчинное права на земли пожалованные их отцу в Стахове, Дубое и Тупчицах. Очевидно, Антон(или Андрей) — тоже сын Дмитрия, и более того, в 1514 году его дочери были уже совершеннолетними.
  3. В-третьих, в переписе войска литовского 1528 года упомянут пинский боярин Верениш (sic!), который служил «сам со своего имения». Далее, из судебного дела от 26 марта 1543 года по иску Пашки Павлова и его братьи Игнатия и Гаврила к Ваське Лозичу, который унаследовал по своей жене Ульяне Лукашевичевой Веренич часть имений Дубой и Стахово. мы узнаем, что в 1543 году внуки Дмитрия (Пашко Павлович и его двоюродные братья Гавриил и Игнат Васильевич) были уже взрослыми, так же как и покойная Ульяна Лукьяновна (дочь Лукьяна Семеновича, внучка Семена Веренича), после смерти которой третья часть дворища Веренич в Дубое и дворища Веренич в Стахово перешла к Ваське Лозичу.

 



Далее, в 1554 году — за 12 лет до указанной в привелее даты — в материалах, собранных в ходе ревизии пущ и переходов лесных -упомянуются Грынь Веренич с (троюродным) братом Павлом с имений своих стародавных военную службу служащих. Как известно, Грынь — внук Семена, а Павел или Пашко — внук Дмитрия. О самих Семене и Дмитрии ни слова, хотя если бы они жили в это время, то скорее всего именно они или их сыновья были бы записаны как старшие в своем роду, но никак не их внуки.В 1559 году, по все той же ревизии Воловича, в числе земян Стаховских опять упоминается Павел Веренич, правда, уже без Гриня. В тексте четко сказано, что Павел не покладал листов (т.е. не предъявил привелея), только давность на дворище у Стахова и другое дворище у Дубоя. Поскольку большую часть книги Воловича составляют привелеи, выданные или подтвержденные королевой Боной, следовательно, от Боны Вереничи привлеев не получали, по крайней мере, на земли в Дубое и Стахове.Все вышесказанное означает, что уже задолго до 1566 года Вереничи владели своими дворищами и землями на основании вотчинного права, и что феодальные права Вереничей на эти земли восходят — как минимум -временам кн. Марии Семеновны и ее сына Василия (то есть к периду между 1475-1490 гг).


Реконструкция позволяет очертить интервал появления Вереничей в Стахове — но с обстоятельствами появления по-прежнему нет никакой ясности. Поскольку скудные исторические свидетельства обходят  этот вопрос сторонй, то можно обратиться к преданиями. Среди старожилов села Стахова якобы сохранилось следующее якобы древнее предание:


Когда-то, давным-давно, жил на Полесье князь Карачинский (sic!). В его владениях находился большой дремучий бор, около которого проходил торговый шлях. По прошествии времени, в этом бору поселилось 100 половцев, которые совершали нападения на проезжающих купцов и селян. Князь, прослышав о разбойниках, повелел своим «палявничим» (охотникам) узнать, где находится разбойничье логово. Один из охотников решил проследить путь до логово половцев и стал делать топором зарубки на деревьях. Услышав стук топора, войны князя отправились в сторону, где раздавалось эхо стука топора. Таким образом, они вышли прямиком на логово разбойников и истребили их. В награду за верную службу, князь наградил находчивого охотника землям, где находился стан половцев. Охотник постоянно носил с собой «Ксендз Лаврентий Янович, каноник венденский, в своей речи на погребении Элжбеты с Стаховских Каренжины, жены вилькомирского судьи, изданной в сборнике «Золотой улов на реках и водах смертности сего мира и т.д» (Вильно 1665 г.) размещает следущее предание, относящиеся к истории Стахова.: «Князь Карачевский, владелец обширных волостей, лежащих на Пинщине, крайне скудными силами 100 половцев положил трупами и на там же месте похоронил, как и по ныне свидетельсвтуют о том курганы того места. За это мужесто правящий князь ему отдал в удел это поле, а также столько земли, сколько мог объять звонкий звук трубы. Отсель то земельное надание стало называтся Стоховым, потому что там похоронено сто убитых врагов.» (веренька, вярэнька), и поэтому его прозвали Веренькой. Его потомки приняли прозвище родоначальника в качестве фамилии.


К сожалению, изучение этого предания показывает его недавнее происхождение. Скорее всего, оно выписано из 9-го тома «Полного географического описания нашего отечества» изданного в 1905 году В.П.Семеновым-Тян-Шанским , куда, в свою очередь перекочевало из известного издания «Słownik geograficzny Królestwa Polskiego» изданного в 1880–1902 гг., а именно из 11 тома, в котором на стр.171-172 была размещена довольно объемная статья Александра Ельского и Эдварда Руликовского о Стахове. Именно с подачи Руликовского в этой статье была размещена выписка из издания 17 века:

«Ксендз Лаврентий Янович, каноник венденский, в своей речи на погребении Элжбеты с Стаховских Каренжины, жены вилькомирского судьи, изданной в сборнике «Золотой улов на реках и водах смертности сего мира и т.д» (Вильно 1665 г.) размещает следущее предание, относящиеся к истории Стахова: «Князь Карачевский, владелец обширных волостей, лежащих на Пинщине, крайне скудными силами 100 половцев положил трупами и на там же месте похоронил, как и по ныне свидетельствуют о том курганы того места. За это мужесто правящий князь ему отдал в удел это поле, а также столько земли, сколько мог объять звонкий звук трубы. Отсель то земельное надание стало называтся Стоховым, потому что там похоронено сто убитых врагов.»

 


В приведенном отрывке приводится родословное предание рода Стаховских герба Огоньчик, (проживавшего в мстиславском, виленском, новогрудском и пр. воеводствах ВКЛ), генеалогическая связь которого с Вереничами пока никак не проясняется. Главным фигурантом здесь выступает князь Карачевский (которого, видимо, Cтаховские считали своим предком), а вовсе не «охотник с сумкой из бересты». Можно с уверенностью сказать, что «легенда старожилов» Стахова появилась самое ранее в начале 20 века в среде «грамотеев» села Стахове как результат переосмысления текста статьи их энциклопедического справочника,  а затем объединения легенды об основании Стахова с народной этимологии фамилии Веренич.



Итак, и этот источник не дал нам ничего ценного. Поскольку возможности документальной генеалогии на этом этапе практически исчерпываются (и открытие новых источников вряд ли предвидится), остается обратится к новой отрасли — ДНК-генеалогии.

Генетическая генеалогия использует ДНК-тесты совместно с традиционными генеалогическими методами исследования. Каждый человек несёт в себе своего рода «биологический документ», который не может быть утерян — это ДНК человека. Методы генетической генеалогии позволяют получить доступ к той части ДНК, которая передаётся неизменной от отца к сыну по прямой мужской линии — Y-хромосоме. ДНК-тест Y-хромосомы позволяет, например, двум мужчинам определить, разделяют ли они общего предка по мужской линии или нет. ДНК-тесты не просто помощь в генеалогических исследованиях — это современный передовой инструмент, который генеалоги могут использовать для того, чтобы установить или опровергнуть родственные связи между несколькими людьми.

Итак, в 2008 году узнал свою Y-хромосомную гаплогруппу (I2a). Немного терминологии для читателей, далеких от науки:

Гаплогруппа (в популяционной генетике человека — науке, изучающей генетическую историю человечества) — группа схожих гаплотипов, имеющих общего предка, у которого в обоих гаплотипах имела место одна и та же мутация — однонуклеотидный полиморфизм.

 

 

Позднее протестировались еще 2 Веренича, и наши гаплогруппы совпали, что подтверждается достоверность официальной родословной. Казалось бы, после всех усилий, можно было бы легко определить ареал, откуда появились предки Вереничей (очевидно, что это ареал с наибольшей частотой или наибольшим разнообразием гаплогруппы I2a). На поверку же все оказалось гораздо сложнее. Географический ареал гаплогруппы I2a (вернее ее восточноевропейской, «динарской» ветви) характеризуется бимодальным распределением — в восточной Европе они приходятся на регион Полесье-Карпаты и на регион Балкан (с макисмальной частотой в Боснии-Герцеговине).

По иронии cудьбы, именно с этими двумя регионами связаны две наиболее вероятные версии происхождения Вереничей. Таким образом, знание одной лишь корневой гаплогруппы мне, по большому счету, не помогло ни подтвердить, ни опровергнуть одну из этих альтернативных версий.

Тупиковая ситуация изменилась лишь после того, как один из Вереничей сделал полный сиквенс Y-хромосомы (BigY в FTDNA). Благодаря ему удалось достаточно точно позиционировать расположение нашей ветви-кластера внутри общей структуры филогенетического дерева I2a.Благодаря присутствию Y-хромосомного сиквенса (YF03602) представителя рода Вереничей в базе данных yfull.com (спасибо за помощь Vladimir Semargl и Vadim Urasin) представляется возможным оценить возраст моего кластера. На настоящий момент в него входит еще один полный сиквенс Y-хромосомы (YF04188), о хозяине которого мне ничего неизвестно.

Возраст линии Вереничей оценивается в 1438 лет до настоящего времени, линии YF04188 — всего лишь в 546 лет.По расчету снип-мутаций возраст I-Y17665 (и возможно I-A7318) оценивается примерно в 1000 лет (т.е. временами Киевской Руси), а возраст родительской ветви A1328 в 1850 лет до настоящего времени (начало нашей эры). Возраст, определенный по снипам, указывает на время выделения ветви I-A1328, хотя возраст последнего общего предка (определенный по значениям других маркеров Y-хромосомы) чуть ниже -1400 лет (т. е примерно 5-6 века нашей эры). То есть ветвь моих прямых предков в это время прошла пресловутое бутылочное горлышко, сопровождаемое, как правило, падением числа представителей линии и уменьшением разнообразия.

Здесь начинается самое интересное.



Недавно, зайдя на сайт проекта I2a в FTDNA, я обнаружил результаты некоего Враньешевич из Черногории. Я бы не обратил на него внимание, если бы он не попал в тот же кластер, что и я (в этот кластер входит ветвь Вереничей, гаплогруппа (I2-A7318, т.е подветвь I-A1328)).Я решил рассчитать возраст I-A1328 с помощью калькулятора semargl.me и стандартных для набора 37 маркеров скорости мутации. К сожалению, в базе данных Semargl немного гаплотипов из конкретно моего кластера и ближайщих к нему братских кластеров. В общем возраст, по ASD методу получилось что возраст моего кластераI (Y17665) — 1050 лет, а при подключении (в качестве outgroup) гаплотипа из I-A1328* возраст кластера I-A1328* составил примерно 1850 лет. То есть, это верхний интервал временного промежутка, когда мог жить последний мой общий предок (MRCA) и Враньешевича.

I2a2 ‘Dinaric’ ..L621>CTS10228>S17250>Y4882>A1328>A7318 (I-A7318)

568 362501 Verenich Werenicz,Werenich,Verenich,Werenitz,Stachowski. Belarus I-A7318

I2a2 ‘Dinaric’ ..L621>CTS10228>S17250>Y4882>A1328 (I-A1328)
564 E13120 Vranjesevic Vranjesevic Milan-Mico, birth 1913, death 1992 Bosnia and Herzegovina I-A1328


Нижний интервал можно определить с помощью калькулятора McDonald. Для вычисления дистанции в годах я сравнил значения 67-маркерного гаплотипа одного из Вереничей с аналогичными маркерами гаплотипа Враньешевича. 10 маркеров имеют другое значения. Получается разница в 10 маркеров на 67 маркерных гаплотипах.

Generations Probability Cumulative
1 0.000000 0.000
2 0.000000 0.000
3 0.000000 0.000
4 0.000004 0.000
5 0.000022 0.000
6 0.000091 0.000
7 0.000279 0.000
8 0.000699 0.001
9 0.001495 0.003
10 0.002825 0.005
11 0.004827 0.010
12 0.007592 0.018
13 0.011137 0.029
14 0.015396 0.044
15 0.020223 0.065
16 0.025408 0.090
17 0.030697 0.121
18 0.035824 0.157
19 0.040537 0.197
20 0.044616 0.242
21 0.047893 0.290
22 0.050258 0.340
23 0.051662 0.391
24 0.052111 0.444
25 0.051660 0.495
26 0.050401 0.546
27 0.048451 0.594
28 0.045943 0.640
29 0.043014 0.683
30 0.039796 0.723
31 0.036412 0.759
32 0.032973 0.792
33 0.029568 0.822
34 0.026274 0.848
35 0.023146 0.871
36 0.020225 0.891
37 0.017537 0.909
38 0.015097 0.924
39 0.012906 0.937
40 0.010961 0.948
41 0.009252 0.957

 

14202591_10210357856572557_5019604267960638228_n-1 14199500_10210357943174722_1769976137139415870_n

Пик гистограммы приходится на интервал между 21-30 поколениями, начиная с 26 поколения кумулятивная вероятность родства достигает убедительных значений достигая 0.95 в 41 поколении. Т.е. нижняя граница приходится примерно интервал в 600-1025 лет до настоящего времени — другими словами между 15 и 10 веками нашей эры.

Разумеется, c генеалогической точки зрения, исследование нижнего интервала (с общим предков в 14-15 веках нашей веры) более перспективен, тем более что я проследил свою прямую мужскую линию до 19 поколения.

Но насколько возможен факт наличия общего прямого мужского предка белоруса и черногорца в 21-30 поколениях? Дает ли генеалогия Вереничей предпосылки для такого утверждения? Прямых предпосылок, разумеется, нет.


Зато есть соображение ономастического характера. Один из сыновей второго родоночальника — Дмитра — Василь носил прозвище Волошин — так обычно в русских землях называли валахов, хотя часто прозвище Волошин не имело этнической коннотации и могло выступать в качестве отыменного прозвища: например, Володшин cын -> Волошин или Власий -> Волос -> Волошин. Наконец, составитель документа или переписчик мог сделать обычную описку. Впрочем, последнее опровергает существование 2 топонимов в окрестностях Стахова — урочища и острова Волошиново — причем именно там находились в 16-17 веках владения потомков Дмитра Веренича (старшим сыном которого являлся Василь Волошин). Кстати, любопытно отметить, что иногда в документах 16 века фамилия Веренич записывается не с окончанием —ч, а с более традиционным для южных славян окончанием — ш (Верениш)

А как же тогда быть с Вранешьевичем? Какое отношение он может иметь к валахам?

Лет 8 тому назад я порылся в исторических документах и обнаружил, что похожая фамилия Вранчич (в хорватском произношении Веранчич) действительно существовала на территории так называемого царства Сербия. После фактического распада Сербского царства (около 1366-1371 года), часть Вранчичей переселилось в Южную Сербию и Черногорию (где потомок Вранчичей воевода Радич Црноевич основал династию Црноевичей, которая в 15 веке праваила Зетой и Черногорией), другая перешла на службу к усилившемуся после падения «црства Српскаго» боснийскому королю Стефану Твртко I, который в 1370 и 1389 годах принял титул короля сербов, Боснии (1379) , Далмации и Хорватии (1389). Эти боснийские Вранчичи после падения Боснии (1463 год) под ударами турков частью переселились в Далмацию (г.Шибеник), которая с1420 была под венецианским владычеством, другая переселилась на границу Герцеговины и Черногории, где владели под турками «хематом» Вранеш, названого так в честь «валашского» князя Херака Вранеша (Вранеш — это герцеговинское диалектное видоизменение имени Вранчич).»Из возможных потомков Вранчичей, оставшихся в восточной Боснии и Герцеговине, особого внимания заслуживает «влашский» (sic!) кнез Херак (Владиславич?) Враньеш.

Казалось бы, вышеприведенные рассуждения выглядят убедительно. На самом же деле, остается главная проблема — дело в том, что фактически на протяжении 14-17 веков неизвестно никаких миграций жителей Балкан и влахов на территорию Полесья. Да, действительно была т.н. валашская колонизация, но она затрагивала главным образом территорию юго-западной Украины (прежде всего «червонной Руси» и «любельской земли», т.е. земли вокруг Львова, Звенигорода, Галича, Теребовля, Санока, Кросно, Белза, Замосця, Холма (Хелма). Причем интенсивность расселения «валахов» даже в этих регионах резко уменьшалось по мере продвижения на север (см. приложенную ниже карту).

14212036_10210384176630542_5840107323456791924_n

Например, на ближайшей к Полесью Волыни встречаются лишь фрагментарные упоминания бояр «Волошинов» в документах Метрики Литовской начала 16 века — они касаются пожалования земель в кременецком повете, т.е на рубеже ВКЛ и русского воеводства короны Польской (причем многие из этих «волошинов» носят чисто румынские имена Негое, Урсул и так далее). Такой же фрагментарный характер носят и земельные пожалования «волошинам» и на Подолье. И уж совсем единичные упоминания Волошинов мы находим в документах Метрики Литовской, касающихся земель современной Беларуси. Правда, на Брестчине одна семья «волошинов» — Ходько, Зань и Васько — получила в начале 16 века привелей на имение Чернско (от них происходит род Черских в брестском воеводстве, который вымер в 17 веке).

Размышления над эффективностью алгоритма SPA

Перед тем,  как закрыть тему SPA, я решил поразмышлять о причинах неточности определения географического ареала происхождения с помощью генома. Те, кто воспользовался моей моделью для программы SPA (последняя версия — сентябрь 2016 года), могли убедится в том, что даже при наличии большого количества маркеров, модель не во всех случаях точно определяет ареал происхождения (даже с поправкой на погрешность радиусом в 500 км).
В основу алгоритма SPA положены примерно те же самые предпосылки, что и в случае с классическим анализом главных компонент (PCA)

  • Первая предпосылка  подхода SPA состоит в том, что частота аллели каждого SNP в популяции может быть смоделирована в виде непрерывной двумерной функции на карте. Другими словами, при выборе хромосомы индивидуума из локации с позицией (х, у) на карте, вероятность наблюдения минорного аллеля в SNP j на хромосоме может быть сформулирована в виде функции F (х, у), где Fj является непрерывной функцией, описывающей поведение частоты аллеля в зависимости от географического положения
  • Затем на основании сказанного делается упрощающее предположение, что эта функция является экземпляром логистической функции

 

где х представляет собой вектор переменных, указывающих географическое местоположение и а и Ь коэффициенты функции. Авторы понимают каждую из этих функций, как функцию FJ функции наклона градиента частота в SNP J. Эта функция кодирует крутизну склона по норме а, при этом предпологается что смещение параметра b фиксировано. Кроме того, направленность наклона  кодируется в значении вектора а.  Более подробно, θj = арктангенс (aj(1) / aj(2)) могут быть приняты в знчения угла для SNP j, где aj(1)  и aj(2)  являются первым и вторым элементами вектора а.

Поскольку SPA имеет явные географические координаты, подход может быть расширен для систем за пределами обычной картезианской двумерной плоскости координат. В качестве демонстрации этого, авторы программы SPA использовали алгоритм для анализа пространственной структуры населения земного шара, в которой двухмерное отображение на двухмерной плоскости не может точно фиксировать структуру популяции. Таким образом, каждый индивид проецируется на точку земного шара в трехмерном пространстве. Соответственно, авторы использовали трехмерный вектор х (с ограничением || х || равным определенной константе), чтобы представить индивидуальную позицию.

Используя данные (генотипы индивидов из различных популяций из  HGDP), авторы обнаружили что пространственная топология расположения индивидов в пространстве SPA мы наблюдали, что сильно напоминала топологию географической карту мира. В частности, люди из того же континента были сгруппированы вместе, а континенты были разделены примерно так, как это следовало бы ожидать из пространственного расположения.

ng-2285-f3

 

Главная проблема метода состояла в другом. Несмотря на точность топологии взаимного расположения индивидов,  на карте SPA сильно искажены расстояния между континентами.

Например, продольный размер континента Евразии составил 92 градусов в  SPA-пространстве земного шара, в то время как в пространстве реального земного шара — 150 градусов. Продольное расстояние между Европой и Северной Америкой составило 167 градусов на SPA карте земного шара, в то время как на самом деле оно составляет 90 градусов.  Любопытно отметить, что мой опыт работы с этой программы показал, что наибольшую проблему составляют географические координаты долготы, в то время как широты предсказываются довольно точно. То есть по какой-то причине (несимметричность генетических градиентов в направлении север-юг и направлении восток-запад?) пространство SPA очень сильно искажается в продольном измерении (т.е в долготу).
По этой причине, вычисленные географические точки происхождения для европейцев часто оказываются в Атлантическом океана и так далее.

Я решил использовать данные импутированных генотипов для европейских популяций (я занимался их импутацией на протяжении последнего полгода). На этот раз я ограничился только европейскими популяциями. Я  сделал два разных набора с разным числом снипов — один с 1 062 376 снипами, которые содержатся в платформах генотиприрования клиентов 23andme и FTDNA, другой — примерно 590 395 снипов.  Обе модели можно скачать с Google Drive  (здесь и здесь).

Несмотря на тщательный подбор снипов, обе модели продолжают страдать характерным сдвигом географических долгот, а это означает, что данная проблема обусловлена не выборкой генотипов, а самим алгоритмом программы (т.е. улучшение качества выборки или увеличение количества снипов не приводит к повышению точности даже в том случае, если мы используем для тренировки программы на обучающей выборке  индивидов с известной географической локацией).

Это хорошо видно на полученных в ходе анализа моих собственных данных географических координатах 2 точек происхождения (одна из них в Гренландии,  другая в Средиземном море)

untitled

Разумеется, вряд ли можно говорить о точности подобных вычислений. В ходе размышлений над способом решения проблемы я вспомнил о существовании ортогонального прокрустового анализа.

Я взял две матрицы — одну с географическими координатами (фактически центроиды — географические центры стран) и  вторую с предсказанными  (в модели 1M cнипов) величинами географических координат тех же самых образцов (с усредненными значениями по этносам), а затем совершил прокрустово преобразование в программе R, получив новую матрицу с преобразованными значениями координат. Ниже виден результат операции (преобразованные усредненные координаты образцов спроецированы вместе с центроидами на карту Европы). И хотя координаты по-прежнему немного сдвинуты относительно истинных, в целом результат уже гораздо лучше (правдоподобнее).rplot14При проведении прокрустова анализа, кроме Xnew (трансформированной матрицы),  мы получили значения матрицы вращения R, s- коэффициент масштабирования и tt — вектор трансляции координат, минимизирующие дистанцию между матрицей предсказанных координат и матрицей географических координат.

Эти значения можно использовать для коррекции значений географических координат, рассчитанных в SPA. Я снова использую свои данные (2 предсказанные точки географического происхождения Xp):


Xt=sRXp + 1tt


При подстановке Xp получаем следующие значения

точка A:  60.245448+-11.059673 северной широты;  21.394898 +- -5.979712  восточной долготы (северо-западная Балтика и Скандинавия)

точка B: 43.000748+-8.801889 северной широты;  20.725216+-52.159598 восточной долготы (юго-восточная Европа, Балканы и Греция).