Опыт извлечения STR из данных полученных с помощью технологий высокопроизводительного секвенирования (NGS)

Последние недели 2-3 я довольно плотно занимался изучением возможностей определения STR (коротких тандемных повторов) на основании данных новых технологий высокопроизводительного секвенирования (NGS).
Напомню, что основной способ определения гаплотипов (набора локусов STR) подразумевает использования более традиционных технологий вроде капиллярного электрофореза, ПЦР или пирофореза. Именно так до сих пор типируются гаплотипы Y в научных и коммерческих лабораториях (например, в FTDNA).
Технологии NGS (next generation sequencing), особенно полногеномного сиквенса, были придуманы для других целей, поэтому технически определение STR на уровне условного железа (т.е. с помощью секвенатора) пока не представляется возможным. Поэтому единственное возможное решение — использование особых алгоритмов поиска коротких тандемных повторов в сиквенсе, причем как известных, так и неизвестных. Я не считаю себя дилетантом в области работы с сиквенсами (и их элайнментами), но по мере углубления в материал, я быстро понял всю сложность задачи. Основная сложность — выявление правильной периодичности повторов, т.е. вычисление числа самих повторов. Даже в природе, во время репликации ДНК, полимераза часто произвольно пробуксовывает и дает сбои именно на коротких тандемных повторах, и за счет этого типа мутаций аккумулируется изменчивость (вариативность) этого типа маркеров. То же самое касается и используемых алгоритмов, которые часто ошибаются не в мотиве тандемного повтора, а в числе повторов. Т.е. предположим что мотив повтора состоит из нуклеотидов AGAA. Допустим у человека этот мотив повторяется 12 раз подряд, но программа определяет вместо 12 повторов 11 или, наоборот 13.
Я изучил три программы, созданных для определения STR из данных NGS. Нужно отдать должное чувству юмора их создаталей, ибо названия программы образованы от аббревиатуры STR путем добавления какого-то смыслообразующего корня. Поэтому названия выглядят комично:

lobSTR (http://lobstr.teamerlich.org/)
HipSTR (https://github.com/tfwillems/HipSTR)
GangSTR (https://github.com/gymreklab/GangSTR)

Последную программу я пока так и не смог заставить работать, возможно в ее коде содержится некий баг. Большего успеха я добился с самой известной в списке программой lobSTR и похожей на нее HipSTR. Обе программы показали хорошие тестовые результаты на BAM файлах с парными ридами (paired reads) и высокую корреляцию с данными FTDNA.

Теперь о эксперимента. Для определения аккуратности определяемых этими программами локусов — STR — я взял тестовый BAM файл с сиквенсом Y хромосомы одного из клиентов FTDNA. Поскольку у этого клиента был сделан обычный STR-тест, можно было легко определить аккуратность алгоритма программа путем элементарного сравнения определенных lobSTR/HipSTR локусных значений STR со значениями соответствующих локусов STR, полученных в лаборатории традиционным способом — т.е. PCR и электрофорезом.

К сожалению, выдаваемый клиентам FTDNA bam файл с сиквенсом Y-хромосомы малопригоден в своем изначальном виде для определения STR. Я не знаю в чем дело, но эксеприменты с исходным BAM не дали достоверных результатов. Скорее всего, BAM содержит гибридные риды (парные и одиночные) сиквенса, а также непонятные HipSTR флаги ридов. Видимо, BAM собирался из FASTQ файлов, полученных разными сиквенаторами.
Кроме того, FTDNA или ее партнерская лаборатория, скорее всего использует какой-то кастомный или самописный ассемблер генома — и как следствие, вышеназванные программы очень плохо считывают входящие данные (ибо заточены на работу с BAM файлом сгенерированным классическими ассемблерами вроде BWA, и в меньшей степени, bowtie).

Поэтому пришлось заняться обратной разработкой BAM файла. Сначала я выделил из BAM файла парные риды и экспортировал их в формат FASTQ, а непарные удалил.
Далее я уже следовал рекомендуемой ведущими биоинформатиками процедуре из 12 промежуточных этапов(я не буду описывать все детали, скажу лишь что этот процесс великого делания включает в себя многочисленные фильтровки и рекалибровки нуклеотидных баз собираемого генома).

Пересобранный таким образом геном стал более доступным для нисходящей обработки в lobSTR/HipSTR, и после нескольких неудачных попыток я смог определить значения STR, которые оказались либо идентичными, либо близкими (с разницей в 1-2 повтора) типированным значениям STR.

Вот результы сравнения полученных в HipSTR/lobSTR значений DYS локусов с теми, что содержатся в отчете FTDNA

DYS marker lobSTR HipSTR FTDNA report
DYS389I 13 13 13
DYS389I 13 13 13
DYS389I 13 13 13
DYS389I 13 13 13
DYS390 24 24 24
DYS391 10 10 10
DYS392 11 11 11
DYS393 13 13 13
DYS426 11 11 11
DYS434 9 9 9
DYS435 11 11 11
DYS436 12 12 12
DYS437 15 15 15
DYS438 10 10 10
DYS439 11 12 12
DYS442 17 17 12
DYS444 10 10 10
DYS445 10 12 10
DYS446 13 13 13
DYS454 11 11 11
DYS458 17 17 17
DYS460 10 10 10
DYS461 12 12 12
DYS462 12 12 12
DYS472 8 8 8
DYS485 15 15 14
DYS492 12 12 12
DYS494 9 9 9
DYS511 9 9 9
DYS520 23 23 22
DYS522 12 11 11
DYS531 12 11 11
DYS533 13 13 13
DYS534 12 12 12
DYS537 11 11 11
DYS549 11 11 11
DYS556 11 11 11
DYS565 9 9 9
DYS570 18 18 18
DYS576 16 16 17
DYS578 8 8 8
DYS590 7 7 7
DYS594 10 10 10
DYS607 16 16 12
DYS635 23 23 23
DYS638 11 11 11
DYS641 10 10 10
DYS643 10 10 10

Видно что корреляция между результатами HipSTR и lobSTR выше (0.99) чем попарная корреляция между ними и результатами коммерческого тестирования в FTDNA (0.955 и 0.954). То есть результаты программ чаще согласуются друг с другом, чем с результатами FTDNA.

Обращает внимание то обстоятельства что полученные значения маркеров DYS607 и DYS442 в моем эксперименте существенно отличаются по числу повторов от референсных. Различие 4- 5 повтора. Но тут дело не в ошибке программе, а в разнице использзуемых номенклатур.
DYS442 has had changes in its nomenclature (http://www.hprg.com/hapest5/page2.html). FamilyTreeDNA reports a value 5 units shorter than NIST.

Реклама

Интроны Y-хромосомы

Еще раз о Y-хромосоме. В отличии от митохондриона, где практически все снипы локализуются в экзонах, больша часть снипов мужской Y-хромосомы лежит в «информационно бесполезных» интроных зонах. Поскольку экзомное тестирование не покрывает интроны, то большинство из известных Y-снипов просто выйдет за рамки теста

Убедился и я в этом на примере реальных данных (это представитель Y хромосомной гаплогруппы R1a1).
samtools view -h x.bam Y > Y.sam
samtools view -h -b -S Y.sam > Y.bam
samtools/samtools mpileup -C 50 -ugf chrY.fa Y.bam | /samtools/bcftools/bcftools view -vcg — > Y.raw.vcf

 

Данный подход позволил обнаружить у тестанта около сотни генетических полиморфизмов (координаты данные по билду hg19):
Y 4058546 0 A C
Y 4058566 0 ta t
Y 4457069 0 tctctcct tct
Y 6028350 0 A T
Y 8149348 0 G A
Y 8566853 0 GCCC GCCCC
Y 8783761 0 C T
Y 8881927 0 GGTGT GGTGTGT
Y 9198243 0 T A
Y 9304866 0 G A
Y 9368340 0 tg tGNg
Y 9384631 0 A C
Y 9385720 0 CGG CG
Y 9909058 0 T A
Y 9930114 0 C A
Y 9931330 0 T A
Y 9938790 0 C A
Y 9938851 0 A T
Y 9938982 0 T C
Y 9939117 0 T A
Y 9952497 0 A G
Y 9982892 0 G A
Y 9982917 0 C A
Y 10007709 0 C A
Y 10007727 0 G A
Y 10007741 0 G A
Y 10011344 0 A G
Y 10011487 0 A G
Y 10011498 0 G C
Y 10011502 0 A G
Y 10011545 0 T G
Y 10011604 0 C CTT
Y 10011648 0 T G
Y 10011673 0 G A
Y 10011677 0 G A
Y 10011698 0 A G
Y 10011878 0 G A
Y 10011935 0 C CT
Y 10011960 0 T C
Y 10011966 0 ATT AT
Y 10012012 0 T A
Y 10013318 0 A G
Y 10028123 0 C T
Y 10028180 0 A G
Y 10029163 0 A G
Y 10029228 0 G A
Y 10029308 0 A T
Y 10029322 0 T C
Y 10029340 0 T C
Y 10029485 0 G C
Y 10029487 0 T A
Y 10029513 0 A G
Y 10029610 0 G A
Y 10029616 0 G T
Y 10029623 0 C T
Y 10029629 0 A G
Y 10029649 0 C G
Y 10029711 0 A C
Y 10043269 0 C T
Y 13241432 0 G T
Y 13241656 0 G A
Y 13243050 0 C G
Y 13243352 0 G A
Y 13244666 0 C T
Y 13244690 0 A G
Y 13254228 0 C T
Y 13262943 0 ACCC ACC
Y 13263091 0 G A
Y 13263304 0 C T
Y 13263364 0 A G
Y 13263374 0 C G
Y 13266266 0 G A
Y 13266286 0 C T
Y 13266301 0 A G
Y 13266368 0 T G
Y 13266377 0 G C
Y 13266499 0 A G
Y 13266520 0 G T
Y 13266556 0 T G
Y 13266560 0 C T
Y 13266587 0 C G
Y 13268187 0 T C
Y 13268361 0 T C
Y 13268377 0 A G
Y 13268521 0 C T
Y 13307425 0 G T
Y 13307562 0 G A
Y 13309174 0 A T
Y 13309226 0 A C
Y 13309239 0 G C
Y 13309262 0 T C
Y 13309348 0 C T
Y 13311223 0 T A
Y 13311491 0 C T
Y 13311501 0 G A
Y 13312579 0 G A
Y 13312666 0 G C
Y 13312729 0 C T
Y 13312756 0 A G
Y 13312789 0 A G
Y 13332277 0 C T
Y 13357224 0 C T
Y 13370991 0 C A
Y 13445929 0 G C
Y 13445957 0 C G
Y 13463779 0 A C
Y 13463831 0 T A
Y 13463837 0 G A
Y 13463860 0 C G
Y 13465055 0 A G
Y 13470805 0 G A
Y 13470834 0 T C
Y 13470855 0 T G
Y 13470880 0 G A
Y 13470897 0 G A
Y 13475849 0 C T
Y 13476553 0 T C
Y 13478387 0 A T
Y 13478445 0 G C,A
Y 13478569 0 T G
Y 13478583 0 T G
Y 13478613 0 A G
Y 13485671 0 T G
Y 13488312 0 C A
Y 13488330 0 A G
Y 13488337 0 C T
Y 13488370 0 G A
Y 13488395 0 A G
Y 13488410 0 A T
Y 13488429 0 A G
Y 13488601 0 A C
Y 13488621 0 A G
Y 13488946 0 A C
Y 13488952 0 T C
Y 13488972 0 C G,T,A
Y 13488988 0 A G
Y 13488992 0 T C
Y 13489043 0 G A
Y 13489069 0 A C,G
Y 13489077 0 T C
Y 13489206 0 C G
Y 13489220 0 T C
Y 13489234 0 T C
Y 13489255 0 A G
Y 13489292 0 A G
Y 13489300 0 A G
Y 13492264 0 C A
Y 13500410 0 T G
Y 13500424 0 T C
Y 13500443 0 T C
Y 13502048 0 C T
Y 13524378 0 T C
Y 13524752 0 G T
Y 13524761 0 C T
Y 13524873 0 T C
Y 13537129 0 G A
Y 13537569 0 A T
Y 13537581 0 C T
Y 13541022 0 C A
Y 13541053 0 CA CATA
Y 13541068 0 T C
Y 13541199 0 A G
Y 13541232 0 A T
Y 13541288 0 G A
Y 13541293 0 ATTT ATT
Y 13541420 0 A C
Y 13541454 0 T C
Y 13541478 0 G T
Y 13541520 0 C T
Y 13541556 0 A C
Y 13541561 0 T G
Y 13541584 0 C G
Y 13572922 0 A C
Y 13572932 0 T C
Y 13572999 0 A G
Y 13573033 0 A C
Y 13573108 0 G C
Y 13573152 0 C A
Y 13573216 0 G A
Y 13573240 0 C T
Y 13573271 0 G T
Y 13595280 0 T C
Y 13687807 0 T G
Y 13688825 0 C G
Y 13689634 0 T C
Y 13689668 0 C G
Y 13689755 0 G C
Y 13690562 0 C T
Y 13694899 0 G A
Y 13694929 0 G A
Y 13694956 0 C G
Y 13694983 0 T A
Y 13695051 0 T G
Y 13726074 0 T A
Y 13726129 0 C G
Y 13842718 0 G C
Y 14482235 0 C A
Y 14485120 0 G A
Y 14498990 0 C T
Y 14771478 0 A T
Y 14898094 0 A G
Y 14958218 0 C T
Y 15026424 0 A C
Y 15027529 0 T G
Y 15930958 0 ccttcttcctc cCTTCTTCCTCCTcttcttcctc
Y 16751825 0 A G
Y 16832517 0 T C
Y 17231616 0 A G
Y 21154004 0 A C
Y 21154323 0 G A
Y 21154426 0 G A
Y 21154466 0 T A
Y 21208056 0 A G
Y 21208066 0 C G
Y 22260237 0 C T
Y 22510104 0 G A
Y 22510163 0 T A
Y 23473201 0 T A
Y 23800360 0 T G
Y 23805478 0 C A
Y 24008079 0 T A
Y 28582510 0 G C
Y 28582566 0 C G
Y 28582605 0 T C
Y 28582622 0 G A
Y 28582676 0 G A
Y 28582685 0 C A
Y 28582863 0 A G
Y 28582865 0 A G
Y 28582921 0 A G
Y 28582932 0 G A
Y 28583310 0 C T
Y 28583314 0 A G
Y 28583382 0 G C
Y 28583394 0 T C
Y 28583410 0 C G
Y 28583415 0 T C
Y 28583431 0 A T
Y 28583432 0 A G
Y 28583590 0 A C
Y 28586782 0 G A
Y 28586959 0 T C
Y 28587232 0 T C
Y 28689055 0 G T
Y 28709343 0 A G
Y 28780767 0 A C
Y 28780823 0 T A
Y 28780883 0 G A
Y 28815270 0 C A
Y 28815656 0 T C
Y 28816806 0 T C
Y 28816831 0 C T
Y 28816870 0 T G
Y 28816948 0 C G
Y 28817276 0 T G
Y 28817286 0 T G
Y 28817559 0 T G
Y 28817636 0 G A
Y 58856145 0 G C
Y 58883603 0 A T,C
Y 58883784 0 T A
Y 58883834 0 A T
Y 58893627 0 A T
Y 58968939 0 G A
Y 58975896 0 T C
Y 58981639 0 cctccactcca cCTCCActccactcca
Y 58982160 0 G T
Y 58982559 0 A C
Y 58982671 0 tcttccttc tcttc
Y 58985524 0 T G
Y 58996230 0 G A
Y 58996257 0 G T
Y 58999765 0 C T
Y 58999773 0 G A
Y 59001429 0 G A
Y 59001608 0 C T
Y 59001620 0 A C
Y 59001647 0 G A
Y 59001685 0 G C
Y 59001722 0 G A
Y 59001753 0 T C
Y 59001773 0 A C
Y 59001782 0 C A
Y 59001792 0 T C
Y 59001960 0 T A
Y 59002047 0 C G
Y 59002139 0 G T,A
Y 59005179 0 C A
Y 59010280 0 A G
Y 59015256 0 T A
Y 59017005 0 A G
Y 59017181 0 T A
Y 59017206 0 A G
Y 59017378 0 T G
Y 59017384 0 ag aGg
Y 59018341 0 C G
Y 59020728 0 A G
Y 59022718 0 A G
Y 59022723 0 C T
Y 59022734 0 C T
Y 59022768 0 A G
Y 59027525 0 A G
Y 59027700 0 A C
Y 59027882 0 T G
Y 59029728 0 C T

Протокол обработки древних геномов для получения данных о гаплогруппе образца

Я поработал тут над протоколом определения мужских Y-гаплогрупп в палеоДНК. В конце концов — через пару дней — я остановился над следующим варианте.
Протокол содержит две части — первая для геномов с высоким покрытием, вторая для геномов с низким качеством и малым покрытием.


1) Для геномов с высоким покрытием варианты Y определяются в программе GATK и выводятся в формат VCF
Файл VCF вводится в программу yHaplo (написанную Позником на основании алгоритма определения Y-гаплогруппы в 23andme)
2) Для геномов с низким покрытием используется программа samtools mpileup c параметрами -B -q30 -Q30 -C50. Файл пайлапа преобразуется в формат 23andme и вводится в ту же программу (yHaplo)


Я проверил работоспособность протокола на нескольких примерах, похоже все работает (варианты гаплогрупп в таблице совпадают с теми что были опубликованы в статьях)
Сначала геномы с высоким покрытием — 2 генома древних гладиаторов из Йорка

3DT26 J-CTS8938 J-M304 J
6DT3 R-L52 R-P311 R1b1a2a1a

Теперь геномы с низким покрытием — 2 древнеегиптских образца

ERR1654486 J-P58 J-P58 J1a2b
ERR1654487 E-V22 E-L677 E1b1b1a1b2

Теперь еще более экстремальный случай (качество и покрытие плохое) — геномы римского периода с территории Польши (предположительно готы из Вельбарской культуры)

kow45 I-L35 I-M436 I2a2
kow55 I-L80 I-M253 I1

Геном англосакса из Йорка

NO3423 I-DF29 I-DF29 I1a

Геном неолитического периода с территории Польши

pl-7 R-S24902 R-S24902 R1a1a1b1a2c

Читать далее Протокол обработки древних геномов для получения данных о гаплогруппе образца

Этюд на тему ДНК-генеалогия.

Мой блог посвящен преимущественно тематике аутосомной ДНК, однако время от времени я затрагиваю тему однородительских маркеров происхождения (Y-ДНК и митоДНК).  Начну заметку издалека.
Среди обывателей села Стахова бытует легенда, о том, что род Вереничей пришли на земли пинского Полесья из Югославии.К сожалению, как и в большинстве подобных легенд, cовершено невозможно разобраться в том, где правда, а где позднейшие выдумки. Так и в этом случае. Ни в одном из имеющихся e меня исторических документах нет даже и намека на балканское происхождение Вереничей. Даже в самых ранних документах (например, в «Ревизии пущ и переходов звериных в бывшем Великом княжестве Литовском с присовокуплением грамот и привилегий на входы в пущи и на земли, составленной старостою мстибоговским Григорием Богдановичем Воловичем в 1559 г. «, или в «Писцовой книге Пинского староства Лаврина Воина, 1561—66«) уже видно, что даже в то время род Вереничей на Полесье считался «издавним«.



Так в ревизии Воловича (1559 года) читаем, что

«Павел Веренич на дворище у Стохови жъ не покладалъ листовъ, только давность, и на другое дворище у Дубой».


Слово давность означает существование в течение долгого времени, издревле, искони. Происходящие от корня этого слова прилагательные и наречия попадаются в разных актах с конца XIII века. Как юридический термин существительное <давность> употреблялось уже весьма рано в западнорусском законодательстве; собственно же в России оно появляется в виде термина лишь с XVIII века. Выражение земская давность было юридическим термином в Литовском Статуте, из которого заимствовано русским законодательство.

 



В строго юридическом смысле срок давности владения определялся десятью годами. Впрочем, здесь давность может употребляться в другом значении. Так, в актовых материалах все той же «Ревизии пущ и переходов звериных в бывшем Великом княжестве Литовском с присовокуплением грамот и привилеев на входы в пущи и на земли, составленная старостою мстибогским Григорием Богдановичем Воловичем» в числе прочих землевладельцев Пинского повета упомянуты Грынь Веренич с братом Павлом «с имений своих стародавних [т.е. с незапамятных времен] военную службу служащих«. Судя по этому, Вереничи могли появится в Стахове уже в середине 15 века, если не раньше.
Когда, откуда, и при каких обстоятельствах — обо всем этом известные мне историко-юридические источники умалчивают. Более поздние документы не только не дают ответа на эти вопросы, а скорее еще больше запутывают ситуацию. Так например в «Выводе фамилии урожденных Стаховских придомка Веренич» (Год 1802 Месяца ноября двадцать второго дня на на сессии Депутации выводовой Губернии Минской) читаем следущее:

«Принесена была просьба от фамилии древней родовитой панской шляхты урождённых Вереничей Стаховских герба “Огончик” (пол-стрелы белой на половине перстня стоящей, в поле красном, над шлемом две женские руки вытянутые вверх) которая на наследственных землях и осадах в повете пинском лежащих от найяснейшых времён королевства Польского, прерогативами шляхетства пользовалась, и клейнотом родовитости неискаженно и непрерывно пользовались. [стр. 616] В потверждение указов найяснейшей воли – линия родословной своей вместе с документами перед депутацией выводовой губернии Минской составлена, потверждена доводами и внесена в дворянские книги Минской губернии в соответстии с законом.Родословие своего дома разделили на две линии. Дух родных братьев Семена и Дмитрия Вереничей Стаховских за родоначальников взяли, и от них до себя довели. И правдивость этого они через доказательства и документы следующим порядком довели. Семен и Дмитрий Вереничи Стаховские братья между собой родные. В повете Пинском осели и дали начало своему роду и фамилии. И в подтверждение своего первого поколения они предъявили привилегию от наияснейшего короля польского Сигизмунда Августа за год тысяча пятьсот шестьдесят шестой от июня двадцатого дня где, между другими для шляхты пинской пожалованиями за военную службу выше упомянутым Семену и Дмитрию Вереничам Стаховским земли в наследственное владение в повете Пинском лежащими дворища Веренича в Стахове и Дубой называющееся им и потомкам их пожаловал…»

Содержание начала текста весьма типично для подобных документов, но здесь нет сведений о точном времени появления Вереничей в Стахове, не говоря уже о явных хронологических несуразицах, которые я разбирал в другой заметке.

  1. Во-первых, под «привелем» 1566 года понимается общий «привилей» Сигизмунда-Августа, данные всей пинской шляхте в подтверждение их землевладельческих и шляхецких прав.
  2. Во-вторых, Семен и Дмитрий жили не в 1566 году, а как минимум на сто лет раньше — около 1456-1466 годов. В доказательство верности моих вычислений можно привести следующие аргументы. В решении судей Главного Трибунала ВКЛ от 1637 года упоминается о привелее кн. Марии Семеновны (+1501) ( в документе ошибочно указано Ярославовны) и ее сына кн. Василия Семеновича (+1495) от 6998 года индикта 8 (1490 года согласно современному летоисчислению), в котором подтверждается совместное владение Волошиным (sic!) Павлом и Ходором Вереничами даниной своей бабки в селе Тупчицы, Согласно родословной, Павел — сын Дмитрия и племянник Семена. В следующем по времени привилее кн. Федора Ивановича Ярославича от 26 апреля 1514 данном дочерям Антона (Андрей?) Дмитриевича Веренича потдверждается их вотчинное права на земли пожалованные их отцу в Стахове, Дубое и Тупчицах. Очевидно, Антон(или Андрей) — тоже сын Дмитрия, и более того, в 1514 году его дочери были уже совершеннолетними.
  3. В-третьих, в переписе войска литовского 1528 года упомянут пинский боярин Верениш (sic!), который служил «сам со своего имения». Далее, из судебного дела от 26 марта 1543 года по иску Пашки Павлова и его братьи Игнатия и Гаврила к Ваське Лозичу, который унаследовал по своей жене Ульяне Лукашевичевой Веренич часть имений Дубой и Стахово. мы узнаем, что в 1543 году внуки Дмитрия (Пашко Павлович и его двоюродные братья Гавриил и Игнат Васильевич) были уже взрослыми, так же как и покойная Ульяна Лукьяновна (дочь Лукьяна Семеновича, внучка Семена Веренича), после смерти которой третья часть дворища Веренич в Дубое и дворища Веренич в Стахово перешла к Ваське Лозичу.

 



Далее, в 1554 году — за 12 лет до указанной в привелее даты — в материалах, собранных в ходе ревизии пущ и переходов лесных -упомянуются Грынь Веренич с (троюродным) братом Павлом с имений своих стародавных военную службу служащих. Как известно, Грынь — внук Семена, а Павел или Пашко — внук Дмитрия. О самих Семене и Дмитрии ни слова, хотя если бы они жили в это время, то скорее всего именно они или их сыновья были бы записаны как старшие в своем роду, но никак не их внуки.В 1559 году, по все той же ревизии Воловича, в числе земян Стаховских опять упоминается Павел Веренич, правда, уже без Гриня. В тексте четко сказано, что Павел не покладал листов (т.е. не предъявил привелея), только давность на дворище у Стахова и другое дворище у Дубоя. Поскольку большую часть книги Воловича составляют привелеи, выданные или подтвержденные королевой Боной, следовательно, от Боны Вереничи привлеев не получали, по крайней мере, на земли в Дубое и Стахове.Все вышесказанное означает, что уже задолго до 1566 года Вереничи владели своими дворищами и землями на основании вотчинного права, и что феодальные права Вереничей на эти земли восходят — как минимум -временам кн. Марии Семеновны и ее сына Василия (то есть к периду между 1475-1490 гг).


Реконструкция позволяет очертить интервал появления Вереничей в Стахове — но с обстоятельствами появления по-прежнему нет никакой ясности. Поскольку скудные исторические свидетельства обходят  этот вопрос сторонй, то можно обратиться к преданиями. Среди старожилов села Стахова якобы сохранилось следующее якобы древнее предание:


Когда-то, давным-давно, жил на Полесье князь Карачинский (sic!). В его владениях находился большой дремучий бор, около которого проходил торговый шлях. По прошествии времени, в этом бору поселилось 100 половцев, которые совершали нападения на проезжающих купцов и селян. Князь, прослышав о разбойниках, повелел своим «палявничим» (охотникам) узнать, где находится разбойничье логово. Один из охотников решил проследить путь до логово половцев и стал делать топором зарубки на деревьях. Услышав стук топора, войны князя отправились в сторону, где раздавалось эхо стука топора. Таким образом, они вышли прямиком на логово разбойников и истребили их. В награду за верную службу, князь наградил находчивого охотника землям, где находился стан половцев. Охотник постоянно носил с собой «Ксендз Лаврентий Янович, каноник венденский, в своей речи на погребении Элжбеты с Стаховских Каренжины, жены вилькомирского судьи, изданной в сборнике «Золотой улов на реках и водах смертности сего мира и т.д» (Вильно 1665 г.) размещает следущее предание, относящиеся к истории Стахова.: «Князь Карачевский, владелец обширных волостей, лежащих на Пинщине, крайне скудными силами 100 половцев положил трупами и на там же месте похоронил, как и по ныне свидетельсвтуют о том курганы того места. За это мужесто правящий князь ему отдал в удел это поле, а также столько земли, сколько мог объять звонкий звук трубы. Отсель то земельное надание стало называтся Стоховым, потому что там похоронено сто убитых врагов.» (веренька, вярэнька), и поэтому его прозвали Веренькой. Его потомки приняли прозвище родоначальника в качестве фамилии.


К сожалению, изучение этого предания показывает его недавнее происхождение. Скорее всего, оно выписано из 9-го тома «Полного географического описания нашего отечества» изданного в 1905 году В.П.Семеновым-Тян-Шанским , куда, в свою очередь перекочевало из известного издания «Słownik geograficzny Królestwa Polskiego» изданного в 1880–1902 гг., а именно из 11 тома, в котором на стр.171-172 была размещена довольно объемная статья Александра Ельского и Эдварда Руликовского о Стахове. Именно с подачи Руликовского в этой статье была размещена выписка из издания 17 века:

«Ксендз Лаврентий Янович, каноник венденский, в своей речи на погребении Элжбеты с Стаховских Каренжины, жены вилькомирского судьи, изданной в сборнике «Золотой улов на реках и водах смертности сего мира и т.д» (Вильно 1665 г.) размещает следущее предание, относящиеся к истории Стахова: «Князь Карачевский, владелец обширных волостей, лежащих на Пинщине, крайне скудными силами 100 половцев положил трупами и на там же месте похоронил, как и по ныне свидетельствуют о том курганы того места. За это мужесто правящий князь ему отдал в удел это поле, а также столько земли, сколько мог объять звонкий звук трубы. Отсель то земельное надание стало называтся Стоховым, потому что там похоронено сто убитых врагов.»

 


В приведенном отрывке приводится родословное предание рода Стаховских герба Огоньчик, (проживавшего в мстиславском, виленском, новогрудском и пр. воеводствах ВКЛ), генеалогическая связь которого с Вереничами пока никак не проясняется. Главным фигурантом здесь выступает князь Карачевский (которого, видимо, Cтаховские считали своим предком), а вовсе не «охотник с сумкой из бересты». Можно с уверенностью сказать, что «легенда старожилов» Стахова появилась самое ранее в начале 20 века в среде «грамотеев» села Стахове как результат переосмысления текста статьи их энциклопедического справочника,  а затем объединения легенды об основании Стахова с народной этимологии фамилии Веренич.



Итак, и этот источник не дал нам ничего ценного. Поскольку возможности документальной генеалогии на этом этапе практически исчерпываются (и открытие новых источников вряд ли предвидится), остается обратится к новой отрасли — ДНК-генеалогии.

Генетическая генеалогия использует ДНК-тесты совместно с традиционными генеалогическими методами исследования. Каждый человек несёт в себе своего рода «биологический документ», который не может быть утерян — это ДНК человека. Методы генетической генеалогии позволяют получить доступ к той части ДНК, которая передаётся неизменной от отца к сыну по прямой мужской линии — Y-хромосоме. ДНК-тест Y-хромосомы позволяет, например, двум мужчинам определить, разделяют ли они общего предка по мужской линии или нет. ДНК-тесты не просто помощь в генеалогических исследованиях — это современный передовой инструмент, который генеалоги могут использовать для того, чтобы установить или опровергнуть родственные связи между несколькими людьми.

Итак, в 2008 году узнал свою Y-хромосомную гаплогруппу (I2a). Немного терминологии для читателей, далеких от науки:

Гаплогруппа (в популяционной генетике человека — науке, изучающей генетическую историю человечества) — группа схожих гаплотипов, имеющих общего предка, у которого в обоих гаплотипах имела место одна и та же мутация — однонуклеотидный полиморфизм.

 

 

Позднее протестировались еще 2 Веренича, и наши гаплогруппы совпали, что подтверждается достоверность официальной родословной. Казалось бы, после всех усилий, можно было бы легко определить ареал, откуда появились предки Вереничей (очевидно, что это ареал с наибольшей частотой или наибольшим разнообразием гаплогруппы I2a). На поверку же все оказалось гораздо сложнее. Географический ареал гаплогруппы I2a (вернее ее восточноевропейской, «динарской» ветви) характеризуется бимодальным распределением — в восточной Европе они приходятся на регион Полесье-Карпаты и на регион Балкан (с макисмальной частотой в Боснии-Герцеговине).

По иронии cудьбы, именно с этими двумя регионами связаны две наиболее вероятные версии происхождения Вереничей. Таким образом, знание одной лишь корневой гаплогруппы мне, по большому счету, не помогло ни подтвердить, ни опровергнуть одну из этих альтернативных версий.

Тупиковая ситуация изменилась лишь после того, как один из Вереничей сделал полный сиквенс Y-хромосомы (BigY в FTDNA). Благодаря ему удалось достаточно точно позиционировать расположение нашей ветви-кластера внутри общей структуры филогенетического дерева I2a.Благодаря присутствию Y-хромосомного сиквенса (YF03602) представителя рода Вереничей в базе данных yfull.com (спасибо за помощь Vladimir Semargl и Vadim Urasin) представляется возможным оценить возраст моего кластера. На настоящий момент в него входит еще один полный сиквенс Y-хромосомы (YF04188), о хозяине которого мне ничего неизвестно.

Возраст линии Вереничей оценивается в 1438 лет до настоящего времени, линии YF04188 — всего лишь в 546 лет.По расчету снип-мутаций возраст I-Y17665 (и возможно I-A7318) оценивается примерно в 1000 лет (т.е. временами Киевской Руси), а возраст родительской ветви A1328 в 1850 лет до настоящего времени (начало нашей эры). Возраст, определенный по снипам, указывает на время выделения ветви I-A1328, хотя возраст последнего общего предка (определенный по значениям других маркеров Y-хромосомы) чуть ниже -1400 лет (т. е примерно 5-6 века нашей эры). То есть ветвь моих прямых предков в это время прошла пресловутое бутылочное горлышко, сопровождаемое, как правило, падением числа представителей линии и уменьшением разнообразия.

Здесь начинается самое интересное.



Недавно, зайдя на сайт проекта I2a в FTDNA, я обнаружил результаты некоего Враньешевич из Черногории. Я бы не обратил на него внимание, если бы он не попал в тот же кластер, что и я (в этот кластер входит ветвь Вереничей, гаплогруппа (I2-A7318, т.е подветвь I-A1328)).Я решил рассчитать возраст I-A1328 с помощью калькулятора semargl.me и стандартных для набора 37 маркеров скорости мутации. К сожалению, в базе данных Semargl немного гаплотипов из конкретно моего кластера и ближайщих к нему братских кластеров. В общем возраст, по ASD методу получилось что возраст моего кластераI (Y17665) — 1050 лет, а при подключении (в качестве outgroup) гаплотипа из I-A1328* возраст кластера I-A1328* составил примерно 1850 лет. То есть, это верхний интервал временного промежутка, когда мог жить последний мой общий предок (MRCA) и Враньешевича.

I2a2 ‘Dinaric’ ..L621>CTS10228>S17250>Y4882>A1328>A7318 (I-A7318)

568 362501 Verenich Werenicz,Werenich,Verenich,Werenitz,Stachowski. Belarus I-A7318

I2a2 ‘Dinaric’ ..L621>CTS10228>S17250>Y4882>A1328 (I-A1328)
564 E13120 Vranjesevic Vranjesevic Milan-Mico, birth 1913, death 1992 Bosnia and Herzegovina I-A1328


Нижний интервал можно определить с помощью калькулятора McDonald. Для вычисления дистанции в годах я сравнил значения 67-маркерного гаплотипа одного из Вереничей с аналогичными маркерами гаплотипа Враньешевича. 10 маркеров имеют другое значения. Получается разница в 10 маркеров на 67 маркерных гаплотипах.

Generations Probability Cumulative
1 0.000000 0.000
2 0.000000 0.000
3 0.000000 0.000
4 0.000004 0.000
5 0.000022 0.000
6 0.000091 0.000
7 0.000279 0.000
8 0.000699 0.001
9 0.001495 0.003
10 0.002825 0.005
11 0.004827 0.010
12 0.007592 0.018
13 0.011137 0.029
14 0.015396 0.044
15 0.020223 0.065
16 0.025408 0.090
17 0.030697 0.121
18 0.035824 0.157
19 0.040537 0.197
20 0.044616 0.242
21 0.047893 0.290
22 0.050258 0.340
23 0.051662 0.391
24 0.052111 0.444
25 0.051660 0.495
26 0.050401 0.546
27 0.048451 0.594
28 0.045943 0.640
29 0.043014 0.683
30 0.039796 0.723
31 0.036412 0.759
32 0.032973 0.792
33 0.029568 0.822
34 0.026274 0.848
35 0.023146 0.871
36 0.020225 0.891
37 0.017537 0.909
38 0.015097 0.924
39 0.012906 0.937
40 0.010961 0.948
41 0.009252 0.957

 

14202591_10210357856572557_5019604267960638228_n-1 14199500_10210357943174722_1769976137139415870_n

Пик гистограммы приходится на интервал между 21-30 поколениями, начиная с 26 поколения кумулятивная вероятность родства достигает убедительных значений достигая 0.95 в 41 поколении. Т.е. нижняя граница приходится примерно интервал в 600-1025 лет до настоящего времени — другими словами между 15 и 10 веками нашей эры.

Разумеется, c генеалогической точки зрения, исследование нижнего интервала (с общим предков в 14-15 веках нашей веры) более перспективен, тем более что я проследил свою прямую мужскую линию до 19 поколения.

Но насколько возможен факт наличия общего прямого мужского предка белоруса и черногорца в 21-30 поколениях? Дает ли генеалогия Вереничей предпосылки для такого утверждения? Прямых предпосылок, разумеется, нет.


Зато есть соображение ономастического характера. Один из сыновей второго родоночальника — Дмитра — Василь носил прозвище Волошин — так обычно в русских землях называли валахов, хотя часто прозвище Волошин не имело этнической коннотации и могло выступать в качестве отыменного прозвища: например, Володшин cын -> Волошин или Власий -> Волос -> Волошин. Наконец, составитель документа или переписчик мог сделать обычную описку. Впрочем, последнее опровергает существование 2 топонимов в окрестностях Стахова — урочища и острова Волошиново — причем именно там находились в 16-17 веках владения потомков Дмитра Веренича (старшим сыном которого являлся Василь Волошин). Кстати, любопытно отметить, что иногда в документах 16 века фамилия Веренич записывается не с окончанием —ч, а с более традиционным для южных славян окончанием — ш (Верениш)

А как же тогда быть с Вранешьевичем? Какое отношение он может иметь к валахам?

Лет 8 тому назад я порылся в исторических документах и обнаружил, что похожая фамилия Вранчич (в хорватском произношении Веранчич) действительно существовала на территории так называемого царства Сербия. После фактического распада Сербского царства (около 1366-1371 года), часть Вранчичей переселилось в Южную Сербию и Черногорию (где потомок Вранчичей воевода Радич Црноевич основал династию Црноевичей, которая в 15 веке праваила Зетой и Черногорией), другая перешла на службу к усилившемуся после падения «црства Српскаго» боснийскому королю Стефану Твртко I, который в 1370 и 1389 годах принял титул короля сербов, Боснии (1379) , Далмации и Хорватии (1389). Эти боснийские Вранчичи после падения Боснии (1463 год) под ударами турков частью переселились в Далмацию (г.Шибеник), которая с1420 была под венецианским владычеством, другая переселилась на границу Герцеговины и Черногории, где владели под турками «хематом» Вранеш, названого так в честь «валашского» князя Херака Вранеша (Вранеш — это герцеговинское диалектное видоизменение имени Вранчич).»Из возможных потомков Вранчичей, оставшихся в восточной Боснии и Герцеговине, особого внимания заслуживает «влашский» (sic!) кнез Херак (Владиславич?) Враньеш.

Казалось бы, вышеприведенные рассуждения выглядят убедительно. На самом же деле, остается главная проблема — дело в том, что фактически на протяжении 14-17 веков неизвестно никаких миграций жителей Балкан и влахов на территорию Полесья. Да, действительно была т.н. валашская колонизация, но она затрагивала главным образом территорию юго-западной Украины (прежде всего «червонной Руси» и «любельской земли», т.е. земли вокруг Львова, Звенигорода, Галича, Теребовля, Санока, Кросно, Белза, Замосця, Холма (Хелма). Причем интенсивность расселения «валахов» даже в этих регионах резко уменьшалось по мере продвижения на север (см. приложенную ниже карту).

14212036_10210384176630542_5840107323456791924_n

Например, на ближайшей к Полесью Волыни встречаются лишь фрагментарные упоминания бояр «Волошинов» в документах Метрики Литовской начала 16 века — они касаются пожалования земель в кременецком повете, т.е на рубеже ВКЛ и русского воеводства короны Польской (причем многие из этих «волошинов» носят чисто румынские имена Негое, Урсул и так далее). Такой же фрагментарный характер носят и земельные пожалования «волошинам» и на Подолье. И уж совсем единичные упоминания Волошинов мы находим в документах Метрики Литовской, касающихся земель современной Беларуси. Правда, на Брестчине одна семья «волошинов» — Ходько, Зань и Васько — получила в начале 16 века привелей на имение Чернско (от них происходит род Черских в брестском воеводстве, который вымер в 17 веке).

Эпигенетика Y-хромосомы человека

О генетике (в том числе и о популяционной генетике)  Y-хромосомы написано немало статей — теперь пришла очередь эпигенетики. Полгода тому назад я постулировал наличие в Y-хромосоме гаплогруппно-специфичных сайтов метиляции, влияющих на экспрессию специфически мужских генов. Данная гипотеза позволила мне решить старую диллему — с одной стороны малая генетическая информативность Y-хромосомы (мало генов), c другой стороны слабая корреляция между поведением и гаплогруппой. И вот пару дней назад, китайские исследователи опубликовали статью на эту тему. Перефразируя расхожое, можно сказать: «О чем бы вы не подумали, китайцы уже написали про это статью».

Что поделать — таков закон больших чисел.

«According to the human reference sequence (hg19), the tested sites on the Y chromosome were distributed on 11 regions: TSS1500 (-1500 bp from the nearest TSS), TSS200 (-200 bp from the nearest TSS), 5’UTR, EXON1 (1st exon of genes), 3’UTR, Gene Body, CpG islands, NSHORE(-2 kb region flanking the CpG island), SSHORE (+2 kb region flanking the CpG island),NSHELF (-4 to -2 kb region flanking the CpG island), and SSHELF (+2 to +4 kb region flank-ing the CpG island) (S3 Table). The mean methylation level of all tested sites within eachregion was taken as this region’s methylation index.We found that the variation in gene body region was greater than in other regions by calcu-lating the standard deviation of each region among all samples (Fig 5A). Further, we assessed the overall methylation pattern of 53 tested genes. Result showed that the methylation patternof two genes was haplogroup O3a2b-specific (LOC100101116,TTTY1)(Fig 5C). However, wedid not find such a haplogroup-specific variation on the other 10 functional regions (Fig 5Band 5D,S5 Fig).Fig 5. The methylation pattern of functional regions on the Y chromosome.A) Box plots showing thestandard deviation of methylation level within each region. The median line indicates the average methylationlevel, the edges represent the 25th/75th percentile, and the whiskers represent the 2.5th/97.5th percentile. B−D). Heat map showing the methylation levels of 38 detected TSS1500 regions (B), 53 gene body regions(C), and 55 CpG island regions (D)»

 

Fig 5. The methylation pattern of functional regions on the Y chromosome. A) Box plots showing the standard deviation of methylation level within each region. The median line indicates the average methylation level, the edges represent the 25th/75th percentile, and the whiskers represent the 2.5th/97.5th percentile. B − D). Heat map showing the methylation levels of 38 detected TSS1500 regions (B), 53 gene body regions (C), and 55 CpG island regions (D). 

Я пролистал статью китайских генетиков про консервативность эпигенетичских паттернов на Y-хромосоме. К сожалению, авторы ограничиваются только важными для юго-восточной Азии ветвями гаплогруппы O2 и O3 (особо выделяются когорты потомков разных императоров), а интересно было бы сравнить эпигенетические паттерны у носителей этой гаплогруппы с таковыми у других евразийских, американских и африканских гаплогрупп и изучить животрепещущие вопросы:

  1.  Дает ли преимущество разница в профилях метиляции ДНК Y-хромосом?
  2. Если дает, то какого рода c учетом мужской специфики? Возможные варианты: разница в фертильности спермы, отличия в уровне выработки тестостерона — и влияние на сопутствующие мужские признаки телесной конституции и поведения?
  3.  Помогает ли понимание разницы метилирования ДНК мужской половой хромосоомы объяснить разницу в физических, гендерных, функциональных, эмоциональных и интеллектуальных чертах мужчин разных гаплогрупп?

Вот о чем надо было рассуждать, а не о эволюционной консервативности метиляции Y-хромосомы. Это и так понятно любому думающему человеку.

Тезисные выводы статьи о эволюции «динарской подгруппы» гаплогруппы I2a

На протяжении последних двух месяцев я уделил много cвободного времени организации собранного мной на протяжении последних 6 лет материала и экспериментальных данных, касающихся демографической истории популяции носителей «мужской» (Y-хромосомной) гаплогруппы I2a, причем в фокусе исследования находился тот вариант, который наиболее распространен в Восточной Европе — т.н «динарская ветвь» или «динарская субклада». К началу декабря окончательный вариант статьи (объемом в 50 страниц) был подготовлен к реценизированию, которое должно занять несколько месяцев.

Пару дней назад один из рецензентов, историк Вячеслав Носевич из Беларуси, опубликовал публичный вариант рецензии статьи (этот вариант рецензии я размещу чуть ниже).

Пока ожидается рецензия второго рецензента, я хочу познакомить читателя с главными выводами исследования


Выводы исследования

 

Перед тем как приступить к  обсуждению результатов исследования, необходимо вкратце сформулировать в виде тезисов основные результаты анализов, проведенных в рамках системного метода:

  1. Гаплогруппа I2a1b2a1 определяется снипами CTS176/S2621, CTS1293/S2632, CTS1802/S2638, CTS5375/S2679, CTS5985/S2687, CTS7218/S2702, CTS8239/S2715, CTS8486/S2722, CTS11030/S2768, L178/S328 (и пр.). Согласно данным экспериментальной филогении (эспериментальному дереву гаплогрупп) Yfull (2014) и ISOGG, эта клада разбивается на субклады новыми снипами I-S17250 (к этой субкладе принадлежат все из протестированных представителей т.н «южного динарского Y-STR кластера» и часть представителей т.н. «северного динарского кластера», в то время как у остальной части обнаружено «предковое значение» аллели снипа I-S17250 –), I2a1b2a1b — Y4460 (Y3106, в эту кладу входят выходцы из Беларуси, Латвии, Росии, Польши), и Z17855 (в эту «безымянную» субкладу, еще не принятую в номенклатуре ISOGG, входит часть болгар, македонцев и украинцев).
  2. Самый большую подгруппу образуют дочерние кластеры самой большой субклады I-S17250 (обозначенной в дереве ISOGG как I2a1b2a1a): I2a1b2a1a1-Z16971(Y5596,Y5595, обнаружена у представителей небольшого кавказско-украинского кластера, чей возраст по расчетам дисперсии Y-STR составляет 1000 лет), I2a1b2a1a2-Y4882 (Y4883, представлена в выборке беларусов, украинцев и поляков), I2a1b2a1a3-A356/Z16983 (Y4790, Y4789, данные снипы найдены у части представителей описанного выше «южного-динарского» кластера). Данное распределение субклад гаплогруппы I2a1b2a1 показывает, что разнообразие субклад (ветвей) этой гаплогруппы гораздо выше в восточной Европе, где ареалы распространения дочерних субклад динарского субклала в значительной степени накладываются друг на друга. На Балканах и в южной Европе разнообразие дочерних субклад I2a1b2a1 ниже.
  3. Исходя из имеющихся ныне фактов, можно сделать вывод о том, что так называемый северно-динарский Y-STR кластер I2a1b2a1 («Dinaric-N») соответствует той части родительской ветви I2a1b2a1CTS5966, которая не входит в субкладу I2a1b2a1a3- Z16982/ Z16983/A356 (последняя включает значительную часть южно-динарского Y-STR кластера)[1]. У большинства представителей всей динарской гаплогруппы I2a1b2a1 обнаружены мутировавшие аллели в Y-снипах Y3548, S17250, и YP205. Cледовательно, варианты Y-хромосомы гаплогруппы I2a1b2a1, не имеющие эти три снип-мутации, представляют собой самое ранее кладистическое разделение гаплогруппы I2a1b2a1-CTS5966, видимо незадолго до последующей популяционной экспансией. Прямая патрилинейная родословная носителей этих «предковых вариантов» прослеживается в регионы юго-восточной Польши и смежных регионов западной Украине. Кроме того, в ходе коммерческих исследований проекта FTDNA I2a, у одного из представителей субклада «Disles» (I2a1b2a-CTS10936) — ближайшего (и возможно «родительского») по отношению к корневому уровню «динарской субклады» были определены 2 предковых (-) значения снипов, играющих важное значение в кладистическом разделении «динарского субклада» — CTS10936 + CTS10228- CTS5966-. Примечательно, что этот мужчина по прямой линии тоже происходит из южной Польши. Подводя итог сказанному, можно заметить, что распространение гаплогруппы I2a1b2a1CTS5966 началось в регионе западной Украины или юго-восточной Польше, где до сих пор сохранились «реликтовые» клады (ветви) I2a1b2a1CTS5966 с  «предковыми значениям» трех снипов.[2]
  4. Таким образом, более раннее разделение субклады I2a1b2a1 по 2 DYS-локусам на два кластера – южной и северный — не отражает истинной филогении: по состоянию на конец 2014 года субклад разделяется на 2-3 группы с дальнейшим разбиением на подгруппы; однако в настоящий момент из-за недостатка статистических данных трудно сказать, какие из данных мутаций являются приватными (генеалогическими), а какие актуальны для этнопопуляционных построений.

[1]  Кроме этих снипов, формирующих четко выраженные клады в структуре дерева I2a1b2a1, в одном из  тестов Geno 2.0  у представителя этой гаплогруппы были обнаружен снип CTS8429, чье положение в структуре дерева I2a1b2a1 неизвестно. Стоит также упоминуть снип YP206 (находящийся под снипом  S17250);  зафиксированный в полных геномных данных двух сардинцев из работ Francalacci et al. (2013); а также одноуровневые снипу YP206 ( M1345/CTS934).

[2] В частной переписке К.Нордтведт высказал мнение о том, что первичный ареал распространения этой  гаплогруппы находился в Польше, к югу от Вистулы.

  1. Генография субклад I2a носит нон-инклюзивный характер по отношению других субклад I2a, иными словами ареалы распространения отдельных субклад I2a практически не пересекаются. Распространение I2a1b-M423 в восточной Европе (где представлена главным образом ее «динарская субклада» I2a1b2a1) характеризуется резким градиентом частот: частоты Y хромосом этой субклады резко уменьшаются по мере удаления к западу от Балкан – так, например, этот субклад практически отсутствует у итальянцев, немцев, французов, и швейцарцев. При движении на северо-восток уменьшение частот гораздо более плавное, I2a1b-M423 сохраняет заметные частоты среди населения, говорящего на славянских языках. Распространение частот гаплогруппы I2a1b-M423 в восточной Европе носит бимодальный характер – с максимальным пиком (30-50 %) на Балканах, и с менее выраженным пиком (20-30%) в карпатско-полесском регионе. Наибольшие частоты распространения I2a1b встречаются у жителей Боснии-Герцеговины и хорватов Далмации от 40 до 60%, у сербов и македонцев 20-30%, примерно столько же в Молдавии у гагаузов.
  2. Благодаря находкам древнй ДНК удалось уточнить место первоначального распространения гаплогруппы I2a1b M423 (северо-западная часть Европы), по-крайней мере одной из ее древнейших исчезнувших ветвей, выделившейся из родительской гаплогруппы примерно 8700-9000 лет назад. Образец Лошбур (Loshbour) принадлежит к ветви, параллельной современным дочерним субкладам, которая отделилась от основной ветви не позднее чем 10 000 лет тому назад: к этой исчезнувшей ветви принадлежат и несколько образцов ДНК жителей шведской мезолитической стоянки Motala (Motala 3, Motala 12), которая существовала синхронно Лошбуру. Видимо, в этом же регионе и произошло выделение предковой ветви I2a1b2a12/CTS5966, так как ближайшая к динарской субкладе сестринская субклада I2a1b2a* (так называемый кластер Disles) встречается как в Польше, так и на британских островах, а следующая по удаленности клада (островная субкладаIsles I2a1b1 (L161.1/S185)) встречается практически исключительно на британских островах (подобный изолированный характер может быть связан с обособлением этой ветви в мезолите как следствие гипотетического затоплением Доггерланда около 8500 лет тому назад (Weninger 2008)). Кроме того, оба найденных (в захоронениях древних жителей Паноннской равнины) образцов ДНК гаплогруппы I, (образец NE7 — I2a2a-L1228 и образец KO1 – I2a-L68) принадлежат к параллельным ветвям, ни одна из которых не является предковой ветвью динарской субклады I2a1b2a1.  Исходя из этого можно сделать осторожное предположение о том, что представители динарской субклады I2a1b2a1L147.2/CTS5966 появились на Балканах гораздо позднее неолитического периода.
  3. Визуальное изучение структур минимального остовного и штейрновского деревьев филогенетической сети гаплотипов I2a1b2a1 показало, что большое скопление гаплотипов вокруг большых узлов обеих деревьев  имеет типичную форму филогенетического старкластера  Подобная форма филогенетических кластеров в основном наблюдается в тех случаях, когда происходит быстрый демографический рост одного конкретной филогенетической линии, и этот рост приводит к появлению серии одновременных мутационных событий. Большинство из гаплотипов, входящий в большой узел графа, принадлежат к этнопулам жителей южной Европы (главным образом, Балкан) Исходя из этого можно предположить что экспансия носителей I2a1b2a1-L2/CTS5966 на территории Балкан сопровождалась быстрым демографическим ростом попуялции.
  4. На реконструированной карте место «выделения» I2a1b родительской популяции современных представителей субклады I2a1b2a1 -разместилось чуть южнее швейцарских Альп (обозначено большой красной точкой) (Рисунок 10), примерно в 420 километрах к юго-востоку от места обнаружения древнейшего (8000 лет до настоящего времени) образца ДНК мужчины, принадлежавшего к гаплогруппе I2a1b (Loschbour-Heffingen, Luxembourg) и примерно в 650 километрах к югу от Лихтенштейнской пещеры, в которые были обнаружены 4 скелета мужчин с древнейшими (3000 лет до настоящего времени, культура полей погребения) из найденных образцов гаплогруппы I2a2b, а также в 920 к юго-западу от местонахождения неолитического поселения Apc-Berekalja (Венгрия), где был обнаружен древнейший из найденных образцов I2a2a (возрастом в 6700 лет ). Заметная близость реконструированного места выделения предковой линии I2a1b2a1 к местам нахождения древнейших образцов гаплогруппы I2a в Европе подтверждает правдоподобность подобной реконструкции.
  5. При сопоставлении интервалов возрастов гаплогруппы (т.е расчетных времен жизни ближайшего общего предка гаплогруппы) I2a1b2a1, мы получили среднее медианное значение интервала полученных возрастов. Оно составляет 2757 лет, стандартное отклонение 404 лет (2757 ± 404), верхний предел интервала TMRCA перекрывается с интервалом TMRCA, вычисленного с помощью ρ-статистики 3400 ± 200 лет: Примечательно также, что время расхождения Y-STR кластеров внутри филогенетического дерева лежит в интервале 1700-1300 год до настоящего времени. Это означает, что в этот период времени (т.е между 4 и 7 веками нашей эры) гаплогруппа I2a1b2a1 находилась в активной стадии экспансии.
  6. Безусловный пик-максимум распространения I2a1b2a1 приходится на Балканы (особенно на регион Боснии-Герцеговины), а один из пиков значений дисперсии (разнообразия) гаплотипов — на полесско-карпатский регион Восточной Европы. Исходя из общего правила о приоритете разнообразия (дисперсии) над частотой распространений генетических линий при определении «начальной точки экспансии», предпочтение было отдано дисперсии как  более устойчивому индикатору, в то время, как частоты гаплогрупп больше подвергнуты флуктуациям.
  7. Полученные этнопулы или этнические кластеры имеют специфический: например в выборке выделяется характерный еврейский кластер (украинские и белорусские евреи-представители этого кластера имеют редкие характерные значения Y-STR локусов: DYS537 = 11, DYS464a = 13, DYS456 = 14, DYS458 = 18, DYS576 = 19,DYS570 = 16) с самой высокой интерпопуляционной дистанцией от остальных кластеров и самым низким разнообразием азывает на недавнее происхождение кластера как следствие чистого эфекта основателя, имевшего место примерно 500 лет назад. Боснийско-герцеговинский кластер (второй после еврейского кластера по величине интерпопуляционной дистанции), но с более высоким уровнем разнообразия указывает на более удаленный по времени популяционный эфект основателя. В то время, как географически близкий к боснийско-гецеговинскому кластеру хорватский кластер  I2a1b2a1 характеризуется относительно низким уровнем молекулярного разнообразия (многие хорватские гаплотипы I2a1b2a1 имеют характерный гаплотипный мотив DYS19=14), и незначительной дистанцией с другими популяциями, что отражается в более низком значении индекса стандартного разнообразия (что подразумевает изменение размера эффективной популяции). Данный эффект можно объяснить кумулятивным действием двух параллельных популяционных эффектов -эффекта основателя и эффекта «бутылочного горлышка»
  8. Полученные в ходе анализа молекулярного разнообразия I2a1b2a1 данные свидетельствуют в пользу нашего предположения о том гаплогруппа I2a1b2a1 не является автохтонной гаплогруппой Балкан и Динарских Альп, в противном случае наблюдалась более существенная корреляция между популяцией носителей этой гаплогруппы и антротипом. Поскольку популяции I2a1b2a1 лучше коррелируют с языком, а не с антротипом, то можно сделать два вывода: 1) экспансия носителей субклада I2a1b2a1 произошла недавно, т.к. не утерялась связь представителей генетической линии с языком; 2) поскольку славянские языки были явно привнесены на Балканы, то нужно признать, что I2a1b2a1 были в числе генетических линий, представители которых привнесли славянские языки на Балканы.
  9. По мнению авторов статьи (Boattini et al. 2011) генофонд (включая генофонд Y хромосом) изолированной популяции арберешей не только должен отражать структуру генетического пула алабанцев 500 летней давности, но и служить своего рода «эталоном» генофонда древних балканских популяций. Принимая во внимание низкую частоту встречаемости динарского субклада I2a1b2a1 у современных арбарешей, можно предположить, что субклада I2a1b2a1 встречалась в генофонде популяцих южной части Балканского полуострова 500 лет назад гораздо реже, чем сейчас. Очевидно, что в ходе дальнейших демографических процессов %-ная доля I2a1b2a1 в генофонде южнобалканских популяций значительно увеличилась.
  10. Гипотетическое направление миграций можно восстановить с помощью проекции градиентов значений индекса молекулярного разнообразия на векторную карту со стрелеками, отображающими направление уменьшения значений индекса молекулярного разнообразия. Примечательно, что стрелки направления уменьшения разнообразия гаплотипов в значительной мере перекрываются с маршрутами славянской экспансии.
  11. Результаты теста Мантеля говорят о том, что в выборке I2a1b2a1 не наблюдается статистически значимой корреляции между географической и генетической дистанцией.

Обсуждение выводов исследования

 

Как представляется автору этой статьи, вопрос происхождения и миграции носителей «динарской субклады» I2a1b2a1 невозможно изучить вне интердисциплинарной подхода, т.е подхода в котором тезисы результатов популяционно-генетического исследования будут рассмотрены в более широком ключе, c привлечением данных из исторических наук. В этой связи необходимо посмотреть на эту проблему глазами историка, тем более что время экспансии «динарцев» отлично накладывается на временной интервал экспансии славян на Балканы в «историческое время».

В силу фрагментарности обзора мы не будем касаться не менее важных вопросов о том, как и когда гаплогруппа I появилась в Европе, а также вопросов о времени и месте разделения базальной ветви I на гаплогруппы I1 и I2. В настоящее время мы не располагаем достаточным количеством фактов в пользу одной из многочисленных и равновероятных версий сценария, и поэтому просто обойдем эти вопросы стороны в надежде на предстоящее изучение древней ДНК жителей Европы среднего палеолита и мезолита. По имеющимся в настоящее время данным палеогенетики, гаплгогруппа I (и одна из ее двух основных ветвей — I2a) была широко распространена в западной и северной Европе уже вскоре после окончания последнего ледникового максимума (последняя ледниковая эпоха закончилась между 15 000 и 10 000 годами до н. э., а древнейшие образцы палео-ДНК с гаплогруппой I2a1b датируются 6 тыс. до н.э). Около 14 000 лет до настоящего времени из гаплогруппы I2a выделились I2a1a-M26/PF4056 (эта группа мигрировала к югу от швейцарских Альп в сторону Пиренейского полуострова, и I2a1b-M423, которая мигироровала на север вслед за отступающим ледником и тундровой фауной. Примерно 10 000 лет назад, где-то на территории современной Германии из I2a1b выделились линия  I2a1b1 (кластер «Isles», мигрировавший на Британские острова) и линия I2a1b2 (динарский кластер и кластер Disles). Можно предполагать, что в последующее время I2a1b2 была связана со свидерской культурой — археологической культуры финального палеолита (9 – 8 тыс. до н.э.) на территории Центральной и Восточной Европы, которая была представлена стоянками тундровых охотников на северного оленя, которые использовали стрелы с кремневыми наконечниками. Гипотетическое развитие дальнейшей истории общности носителей I2a1b2 — непосредственных предков I2a1b2a1 – можно выстроить в виде цепочки приемственности культур вплоть до культур участвовавших в этногенезе славян, однако из-за недостаточных сведений о мужском палеогенофонде представителей этих культур данная реконструкция не может быть использована как основание для дальнейших заключений.

К сожалению, cпециальных популяционно-генетических исследований гаплогруппе I крайне мало. Достаточно сказать, что последние специальные исследования по этой гаплогруппе были опубликованы почти 10 лет назад в 2004,2006, 2007 годах – (Rootsi et al. 2004; Roewer et al. 2005; Underhill et al. 2007). Остальные работы, особенно касающиеся Y-хромосомного разнообразия популяций на территории Балкан и бывшей Югославии, преимущественно повторяют выводы озвученные в вышеупомянутых трех работах, ничего не добавляя от себя (Marjanović et al.2005; Peričić et al. 2005; Rebała et al. 2007). Более новые работы со специфическим фокусом на гаплогруппе I1 (Shtrunov 2010) и (De Beule 2010) были незаслуженно обойдены вниманием научного сообщества, так как были написаны «любителями» и опубликованы в неакадемических изданиях.  Поэтому именно работы эстонской исследовательницы-популяционного генетика Роотси задали целый ряд основных положений-гипотез по вопросу происхождения гаплогруппы I, закрепившихся позднее в научных и научно-популярных (Википедия) источниках. Со временем данное положение стало общим местом статей популяционных генетиков при описании особенностей генофонда различных популяций. Если на заре популяционной генетики, выводы делались лишь на основании распределения частот гаплогрупп (большой группы схожих гаплотипов) Y хромосом, то с накоплением фактического материала и совершенствованием методов исследования  появилась возможность кроме частоты учитывать  молекулярное разнообразие и генетические дистанции. Уже без этих исследований выводы на основании только частот являются неполными, а часто и совершенно неверными.

В настоящее время, исходя из описаного выше опыта полисистемного анализа и синтеза молекулярно-генетических (филогенетических и статистических), исторических, археологических данных, а также данных археогенетики (древняя ДНК), можно предположить динарская субклада I2a1b2a1 в массовом количестве появились на Балканах не ранее 2-3 в.н.э и не позднее 6-7 в.н.э., что точно соответствует времени великого переселения народов. В числе значительных миграций населения на Балканы в этом период времени можно назвать миграцию готов, гепидов с севера, а также более позднюю по времени экспансии славян (вернее, генофонда общности, которая говорила на славянском или протославянском языках), которые и принесли с собой этот субклад на Балканы.  Кроме этих двух вариантов, можно рассмотреть и третий вариант, согласно которому субклад I2a1b2a1 уже присутствовал на генофонде балканских популяций на момент начала переселения народов (эта гипотеза предполагает что первоначально популяционная общность носителей  I2a1b2a1 была так или иначе  с дако-фракийским кругом археологических культур). В статье 2010 года (Носевич 2010), Вячеслав Носевич напрямую связывает носителей I2a1b2a1 с фракийским субстратом в формировании славян, отмечая что более высокая концентрация I2а1b2a1 на Полесье по сравнению с Западной Украиной и Словакией говорит в пользу это предположения. Традиционно считается, что вся гаплогруппа I2a cвязана с кругом культур балканского неолита и в том числе, c культурами близкими к трипольцам. Такой вариант возможен, однако окончательный вариант должны дать палеогенетического исследования останков представителей этих культур. Но, если гаплогруппа I2а и присутствовали у трипольцев, их вряд ли можно считать коренным элементом (ядро которого составляли выходцы с Ближнего Востока), скорее всего они представляли остатки местного мезолитического элемента, инкорпорированного в состав этой культуры.

При взвешенном сопоставлении эмпирических статистических данных о характере распространения и разнообразия I2a1b2a1 с различными моделеми миграциий тезис о связи доисторических носителей I2a1b2a1 с фрако-дакийцами представляется несколько натянутым. Этот тезис завязан целико на интерполяции современных частот гаплогрупп на гаплогруппные частоты в прошлом — однако манипуляции с современными частотами в целях реконструкции гипотетических частот распространения в генофонде древних народов всегда вызывают закономерные вопросы. По-крайней мере, подобные эксперименты возможны только исходя из генетических данных полученных в результате анализа останков из захоронений соотвествующих культур или народностей. В противном случае – расчеты могут оказаться совершено произвольны, и им нельзя будет доверять. Однако даже если мы будем из реконструкции предковых частот, то увидем, что I2a1b2a1 вряд ли могла присутствовать в столь значительных количествах у фракийцев, так как и у современных «потомков фракийцев и даков» (болгаров и румын) как частоты распространения, так и уровень дисперсии гаплотипов I2a1b значительно ниже чем у тех же словаков и западных украинцев.  Далее, «балкано-иллирийско-фракийская гипотеза» совершенно не объясняет высокие частоты т.н. «динарской субклады» I2a1b2a1 в Полесье. Не объясняет эта теории и того, что филогенетически I2a1b2a1  не образует удалённых кластеров, что невозможно объяснить допуская автохтонность носителей этой гаплогруппы на Балканах. Ведь за тысячи лет эта линия должна была разветвиться. Но сегодняшние её носители исключительно близки друг к другу и подавляющее их число — славяне.

Тезис о связи носителей I2a1b2a1 c германских субстратом в этногенезе славян также вызывает определенные вопросы. Можно предположить, что присутствие носителей I2a1b2a1 вполне может быть связано как с особенностью ранних (прото-)славянских популяций, так и с непосредственной инвазией северных германцев (например, готов). По крайней мере сейчас уже доказно, что более 8 тысяч лет назад параллельная ветвь носителей I2a1b-M423 проживали в том числе на юге Скандинавии, а зафиксированные в историческое время (эру великого переселения народов) места проживания готов в Восточной Европы (королевство остготов на Балканах и «черняховская» культура в западной Украине) По крайней мере, среди современных этнических скандинавских германцев гаплогруппа I2a1b2a1 не встречается, также как и в Испании, Италии (где  находились королевства готов в раннем средневековье), зато с заметной частотой встречается по всему славянскому ареалу :очень высокие концентрации действительно отмечаются на Балканах, но и у западных славян присутствие его значительно, 8-10% у чехов и поляков, до 20% у словаков).

Довольно высокие частоты распространения и высокий уровень внутригаплогруппного разнообразия, специфическая топология филогенетических деревьев гаплогруппы I2a1b2a1, а также факт нахождения «реликтовых вариантов» гаплогруппы I2a1b2a1 в Польше и Западной Украины  свидетельствует о формировании предкового пула этой субклады в северо-восточной Европе в 1 тыс. до нашей эры и экспансии в 1 тыс. нашей эры. В свете представленных в виде тезисов основных выводо исследованиях, наиболее предпочтителен вариант распространения гаплогруппы I2a1b2a1 на Балканах и всей восточной Европе во время славянской экспансии. Новизна предложенного нами варианта заключается в том, что  коренным образом противоречит принятому в оффициальной популяционной генетике представлению о Балканах, как «прародине» популяции I2a2b (см. раздел (Гаплогруппа I2a общие сведения и обзор публикаций)). Обычно в качестве одного из главных аргументов против версии распространения гаплогруппы I2a1b2a1 вместе с миграциями славянской выдвигается тезис о  однородности состава гаплогрупп у  ранних славян (предполагается, что они принадлежали к различными субкладам R1a1-Z283, (Rebala et al. 2007) особенно R1a1-M458 (Underhill et al. 2009), современный эпицентр распространения которой приходится на ареал пшеворской культуры). Данный аргумент не может быть воспринят так как последние исследования генофонда неолитических культур Европы показали, что уже генофонд этих ранних культур был далеко неоднородны, а в бронзовом веке и позднее степень смешения должна была только увеличится хотя бы в сиду большей мобильности населения. Более вероятным представляется сценарий, в котором уже ранняя славянская общность (которая определяется лингвистическими и археологическими, а не генетическом признаками) была достаточно гетерогенна и включала в себя, наряду с типичными «славянскими» сублкадами R1a1-Z283 (прежде всего дочерних субклад R1a1-M458 и R1a1-Z280), и субклады других гаплогрупп, в частности и I2a1b2a1. В этом случае  ранние славяне образовались в результате «наслоения» R1a-Z280 и/или R1a-M458 на I2a1b2a1. Эта (одна из возможных) модель этногенеза соответствует одной из существующих моделей происхождения славянских языков: неиндоевропейский субстрат оторвал балтов от славян и дал отчёт их самостоятельному существованию в истории как языковой группе, так и целому археологических ряду культур связанных с ними.

 


Первая рецензия В.Л.Носевича

К вопросу о предыстории славян

 

 

 

 

Этногеномика беларусов — часть IV

Анализ структуры аутосомного генофонда популяции беларусов: результаты анализа этнического адмикса.

 

После проведения анализа этно-популяционного адмикса мы получили следущие результаты, обсуждению которых будет посвящена следущая часть нашего исследования. Результаты представляют собой разбивку аллельных частот на 22 кластера, каждый из которых представляет собой гипотетическую предковую популяцию. Поскольку в цели данного небольшого исследования не входит подробный анализ всех популяций, мы ограничимся сравнительном анализом структуры (компонентов) беларусов c географически близкими популяциями, а также с теми популяциями, которые могли входить в исторические контакты с предками современных беларусов:

admix

 

Рисунок 3. Результатыанализа ADMIXTUREK=22

У рассматриваемых здесь европейских популяций наиболее часто представлены следующие компоненты:

North-East-European,Atlantic_Mediterranean_Neolithic,North-European-Mesolithic, West-Asian, Samoedic, Near_East.

Разберем вкратце каждый из них. В ракурсе нашего исследования самым важным компонентом представляется – северо-восточно-европейский компонент North-East-European, он присутствует почти у всех европейцов, и в самой значительной степени — у балтов и славян: литовцы (81,9), латыши (79,5), беларусы (76,4), эстонцы (75,2), поляки (70,2), русские (67- 70,4), украинцы (62,1- 67,1), сорбы (65,9), карелы (60,2), вепсы (62,5), чехи (57,4), северные немцы (54,6), южные- 42,6, у британцев от 46 до 49, норвежцы- 48,1, шведы- (53,7).

Второй по значимости компонент — Atlantic_Mediterranean_Neolithic (юго-западно-европейский или просто западно-европейский неолитический компонент).[1]У восточноевропейцев он выражен в умеренной степени- чехи (27,8), поляки (18,4), украинцы ( от 17 до 21%), беларусы (13%), русские (от 11 у северных до 17,3 у южных), у коми (8,9 %), манси (8,8 %).

Третьй компонент – северо-европейский мезолитический компонент -North-European-Mesolithic[2]: cаамы (76,4 %), финны (от 30,1 до 37,3 %), вепсы (24,1), карелы (23,2), ижорцы (22, 7). Заметен этот компонент и у северных русских (10,5 %), норвежцев (9,8 %), шведов (7,8 %), эстонцев (7,1 %). У беларусов он практически отсутствует (1.1%).

Четвертый компонент – западно-азиатский (кавказский) West Asian[3]. На интересуемой нас территории этот компонент чаще встречается у казанских татар (9,9 %), южных немцев (8,4), украинцев (от 6,6 до 7,7 %), южных русских (6,2%). На западе высок процент у итальянцев (21,5 % у центральных итальянцев), французов (6,7 %), у беларусов (2.2%).

Пятый компонент — уральский Samoedic. Значительно присутствует у селькупов (68,1%), хантов (64,6), ненцы (37,1), манси (30,9 %-), удмурты (29,6), марийцы (27, 8), шорцы (22,0 %), башкиры (21,7%), чуваши и хакассы по 17,6 %, коми- 16,4 %, казанских татар (11,9 %). У западноевропейцев этот компонент практически не встречается, у русских (от 1,0% у центральных до 4,7 % у северных), у карел (1,6%), словаков (1,4%), западных украинцев (1,7 %), беларусы (0.5%).

Шестой компонент – ближневосточный Near_East[4]У южных немцев (3,5), украинцы (от 2,3 у восточных до 3,8 % у западных), чехи (3,0), беларусы (3,4), словаки (3,2), у русских от 1,0 до 1,5%, у литовцев- 1,4%, у поляков- 1,3 %.

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[1]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[1]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[1]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

Анализ разделяемых аутосомных сегментов между популяциями Северо-Восточной Европы.

С целью верификации результатов анализа главных компонентов генетического разнообразия я подготовил новую выборку популяций, которая включает в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.В ходе нового экспериментального теста в ходе статистической обработки общих по генетическому происхождению сегментов хромосом в составе выборки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, т.е размера той популяции которая участвовала в репродукции или обмене генами в некоем отдаленном временном промежутке. Собственно говоря, эффективная популяция – это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955). Новая программа Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение составило 22 000. Это близко к значениям Neрекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных ниже результатов, даже 22 000 для совокупности эффективного размера элементарных популяций – это более, чем достаточно.

 

finest

Рисунок 4. Расположение популяций в пространстве 1 и 3 главных генетических компонентов

 

Изложим ниже некоторые закономерности размещения популяци

 

  1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
  2. Все литовцы (участники проекта + референсы из вышеупомянутой статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев

  3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.

  4. Ниже находится балканский кластер (румыны, болгары и часть венгров).

  5. К этому кластеру примыкают турки и часть армян

  6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов).

  7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.

  8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

  9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

  10. Левее этой группы популяций находится кластер ашкеназов.

  11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

  12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

  13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

  14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

  15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).[5]

 

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[2]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[3]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[4]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

[5]Такое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции.То есть все эти баски являются многократными родственниками между собой т.е., положение басков на графике есть следствие классического генного дрейфа, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества sharedDNAchunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.

Исходя из этого можно сделать вывод о том что баски эта экстремально-эндогенная популяция изолянтов, при этом генетическое разнообразие басков низко, т.к. размер эффективной популяции басков низок.