Опыт извлечения STR из данных полученных с помощью технологий высокопроизводительного секвенирования (NGS)

Последние недели 2-3 я довольно плотно занимался изучением возможностей определения STR (коротких тандемных повторов) на основании данных новых технологий высокопроизводительного секвенирования (NGS).
Напомню, что основной способ определения гаплотипов (набора локусов STR) подразумевает использования более традиционных технологий вроде капиллярного электрофореза, ПЦР или пирофореза. Именно так до сих пор типируются гаплотипы Y в научных и коммерческих лабораториях (например, в FTDNA).
Технологии NGS (next generation sequencing), особенно полногеномного сиквенса, были придуманы для других целей, поэтому технически определение STR на уровне условного железа (т.е. с помощью секвенатора) пока не представляется возможным. Поэтому единственное возможное решение — использование особых алгоритмов поиска коротких тандемных повторов в сиквенсе, причем как известных, так и неизвестных. Я не считаю себя дилетантом в области работы с сиквенсами (и их элайнментами), но по мере углубления в материал, я быстро понял всю сложность задачи. Основная сложность — выявление правильной периодичности повторов, т.е. вычисление числа самих повторов. Даже в природе, во время репликации ДНК, полимераза часто произвольно пробуксовывает и дает сбои именно на коротких тандемных повторах, и за счет этого типа мутаций аккумулируется изменчивость (вариативность) этого типа маркеров. То же самое касается и используемых алгоритмов, которые часто ошибаются не в мотиве тандемного повтора, а в числе повторов. Т.е. предположим что мотив повтора состоит из нуклеотидов AGAA. Допустим у человека этот мотив повторяется 12 раз подряд, но программа определяет вместо 12 повторов 11 или, наоборот 13.
Я изучил три программы, созданных для определения STR из данных NGS. Нужно отдать должное чувству юмора их создаталей, ибо названия программы образованы от аббревиатуры STR путем добавления какого-то смыслообразующего корня. Поэтому названия выглядят комично:

lobSTR (http://lobstr.teamerlich.org/)
HipSTR (https://github.com/tfwillems/HipSTR)
GangSTR (https://github.com/gymreklab/GangSTR)

Последную программу я пока так и не смог заставить работать, возможно в ее коде содержится некий баг. Большего успеха я добился с самой известной в списке программой lobSTR и похожей на нее HipSTR. Обе программы показали хорошие тестовые результаты на BAM файлах с парными ридами (paired reads) и высокую корреляцию с данными FTDNA.

Теперь о эксперимента. Для определения аккуратности определяемых этими программами локусов — STR — я взял тестовый BAM файл с сиквенсом Y хромосомы одного из клиентов FTDNA. Поскольку у этого клиента был сделан обычный STR-тест, можно было легко определить аккуратность алгоритма программа путем элементарного сравнения определенных lobSTR/HipSTR локусных значений STR со значениями соответствующих локусов STR, полученных в лаборатории традиционным способом — т.е. PCR и электрофорезом.

К сожалению, выдаваемый клиентам FTDNA bam файл с сиквенсом Y-хромосомы малопригоден в своем изначальном виде для определения STR. Я не знаю в чем дело, но эксеприменты с исходным BAM не дали достоверных результатов. Скорее всего, BAM содержит гибридные риды (парные и одиночные) сиквенса, а также непонятные HipSTR флаги ридов. Видимо, BAM собирался из FASTQ файлов, полученных разными сиквенаторами.
Кроме того, FTDNA или ее партнерская лаборатория, скорее всего использует какой-то кастомный или самописный ассемблер генома — и как следствие, вышеназванные программы очень плохо считывают входящие данные (ибо заточены на работу с BAM файлом сгенерированным классическими ассемблерами вроде BWA, и в меньшей степени, bowtie).

Поэтому пришлось заняться обратной разработкой BAM файла. Сначала я выделил из BAM файла парные риды и экспортировал их в формат FASTQ, а непарные удалил.
Далее я уже следовал рекомендуемой ведущими биоинформатиками процедуре из 12 промежуточных этапов(я не буду описывать все детали, скажу лишь что этот процесс великого делания включает в себя многочисленные фильтровки и рекалибровки нуклеотидных баз собираемого генома).

Пересобранный таким образом геном стал более доступным для нисходящей обработки в lobSTR/HipSTR, и после нескольких неудачных попыток я смог определить значения STR, которые оказались либо идентичными, либо близкими (с разницей в 1-2 повтора) типированным значениям STR.

Вот результы сравнения полученных в HipSTR/lobSTR значений DYS локусов с теми, что содержатся в отчете FTDNA

DYS marker lobSTR HipSTR FTDNA report
DYS389I 13 13 13
DYS389I 13 13 13
DYS389I 13 13 13
DYS389I 13 13 13
DYS390 24 24 24
DYS391 10 10 10
DYS392 11 11 11
DYS393 13 13 13
DYS426 11 11 11
DYS434 9 9 9
DYS435 11 11 11
DYS436 12 12 12
DYS437 15 15 15
DYS438 10 10 10
DYS439 11 12 12
DYS442 17 17 12
DYS444 10 10 10
DYS445 10 12 10
DYS446 13 13 13
DYS454 11 11 11
DYS458 17 17 17
DYS460 10 10 10
DYS461 12 12 12
DYS462 12 12 12
DYS472 8 8 8
DYS485 15 15 14
DYS492 12 12 12
DYS494 9 9 9
DYS511 9 9 9
DYS520 23 23 22
DYS522 12 11 11
DYS531 12 11 11
DYS533 13 13 13
DYS534 12 12 12
DYS537 11 11 11
DYS549 11 11 11
DYS556 11 11 11
DYS565 9 9 9
DYS570 18 18 18
DYS576 16 16 17
DYS578 8 8 8
DYS590 7 7 7
DYS594 10 10 10
DYS607 16 16 12
DYS635 23 23 23
DYS638 11 11 11
DYS641 10 10 10
DYS643 10 10 10

Видно что корреляция между результатами HipSTR и lobSTR выше (0.99) чем попарная корреляция между ними и результатами коммерческого тестирования в FTDNA (0.955 и 0.954). То есть результаты программ чаще согласуются друг с другом, чем с результатами FTDNA.

Обращает внимание то обстоятельства что полученные значения маркеров DYS607 и DYS442 в моем эксперименте существенно отличаются по числу повторов от референсных. Различие 4- 5 повтора. Но тут дело не в ошибке программе, а в разнице использзуемых номенклатур.
DYS442 has had changes in its nomenclature (http://www.hprg.com/hapest5/page2.html). FamilyTreeDNA reports a value 5 units shorter than NIST.

Интроны Y-хромосомы

Еще раз о Y-хромосоме. В отличии от митохондриона, где практически все снипы локализуются в экзонах, больша часть снипов мужской Y-хромосомы лежит в «информационно бесполезных» интроных зонах. Поскольку экзомное тестирование не покрывает интроны, то большинство из известных Y-снипов просто выйдет за рамки теста

Убедился и я в этом на примере реальных данных (это представитель Y хромосомной гаплогруппы R1a1).
samtools view -h x.bam Y > Y.sam
samtools view -h -b -S Y.sam > Y.bam
samtools/samtools mpileup -C 50 -ugf chrY.fa Y.bam | /samtools/bcftools/bcftools view -vcg — > Y.raw.vcf

 

Данный подход позволил обнаружить у тестанта около сотни генетических полиморфизмов (координаты данные по билду hg19):
Y 4058546 0 A C
Y 4058566 0 ta t
Y 4457069 0 tctctcct tct
Y 6028350 0 A T
Y 8149348 0 G A
Y 8566853 0 GCCC GCCCC
Y 8783761 0 C T
Y 8881927 0 GGTGT GGTGTGT
Y 9198243 0 T A
Y 9304866 0 G A
Y 9368340 0 tg tGNg
Y 9384631 0 A C
Y 9385720 0 CGG CG
Y 9909058 0 T A
Y 9930114 0 C A
Y 9931330 0 T A
Y 9938790 0 C A
Y 9938851 0 A T
Y 9938982 0 T C
Y 9939117 0 T A
Y 9952497 0 A G
Y 9982892 0 G A
Y 9982917 0 C A
Y 10007709 0 C A
Y 10007727 0 G A
Y 10007741 0 G A
Y 10011344 0 A G
Y 10011487 0 A G
Y 10011498 0 G C
Y 10011502 0 A G
Y 10011545 0 T G
Y 10011604 0 C CTT
Y 10011648 0 T G
Y 10011673 0 G A
Y 10011677 0 G A
Y 10011698 0 A G
Y 10011878 0 G A
Y 10011935 0 C CT
Y 10011960 0 T C
Y 10011966 0 ATT AT
Y 10012012 0 T A
Y 10013318 0 A G
Y 10028123 0 C T
Y 10028180 0 A G
Y 10029163 0 A G
Y 10029228 0 G A
Y 10029308 0 A T
Y 10029322 0 T C
Y 10029340 0 T C
Y 10029485 0 G C
Y 10029487 0 T A
Y 10029513 0 A G
Y 10029610 0 G A
Y 10029616 0 G T
Y 10029623 0 C T
Y 10029629 0 A G
Y 10029649 0 C G
Y 10029711 0 A C
Y 10043269 0 C T
Y 13241432 0 G T
Y 13241656 0 G A
Y 13243050 0 C G
Y 13243352 0 G A
Y 13244666 0 C T
Y 13244690 0 A G
Y 13254228 0 C T
Y 13262943 0 ACCC ACC
Y 13263091 0 G A
Y 13263304 0 C T
Y 13263364 0 A G
Y 13263374 0 C G
Y 13266266 0 G A
Y 13266286 0 C T
Y 13266301 0 A G
Y 13266368 0 T G
Y 13266377 0 G C
Y 13266499 0 A G
Y 13266520 0 G T
Y 13266556 0 T G
Y 13266560 0 C T
Y 13266587 0 C G
Y 13268187 0 T C
Y 13268361 0 T C
Y 13268377 0 A G
Y 13268521 0 C T
Y 13307425 0 G T
Y 13307562 0 G A
Y 13309174 0 A T
Y 13309226 0 A C
Y 13309239 0 G C
Y 13309262 0 T C
Y 13309348 0 C T
Y 13311223 0 T A
Y 13311491 0 C T
Y 13311501 0 G A
Y 13312579 0 G A
Y 13312666 0 G C
Y 13312729 0 C T
Y 13312756 0 A G
Y 13312789 0 A G
Y 13332277 0 C T
Y 13357224 0 C T
Y 13370991 0 C A
Y 13445929 0 G C
Y 13445957 0 C G
Y 13463779 0 A C
Y 13463831 0 T A
Y 13463837 0 G A
Y 13463860 0 C G
Y 13465055 0 A G
Y 13470805 0 G A
Y 13470834 0 T C
Y 13470855 0 T G
Y 13470880 0 G A
Y 13470897 0 G A
Y 13475849 0 C T
Y 13476553 0 T C
Y 13478387 0 A T
Y 13478445 0 G C,A
Y 13478569 0 T G
Y 13478583 0 T G
Y 13478613 0 A G
Y 13485671 0 T G
Y 13488312 0 C A
Y 13488330 0 A G
Y 13488337 0 C T
Y 13488370 0 G A
Y 13488395 0 A G
Y 13488410 0 A T
Y 13488429 0 A G
Y 13488601 0 A C
Y 13488621 0 A G
Y 13488946 0 A C
Y 13488952 0 T C
Y 13488972 0 C G,T,A
Y 13488988 0 A G
Y 13488992 0 T C
Y 13489043 0 G A
Y 13489069 0 A C,G
Y 13489077 0 T C
Y 13489206 0 C G
Y 13489220 0 T C
Y 13489234 0 T C
Y 13489255 0 A G
Y 13489292 0 A G
Y 13489300 0 A G
Y 13492264 0 C A
Y 13500410 0 T G
Y 13500424 0 T C
Y 13500443 0 T C
Y 13502048 0 C T
Y 13524378 0 T C
Y 13524752 0 G T
Y 13524761 0 C T
Y 13524873 0 T C
Y 13537129 0 G A
Y 13537569 0 A T
Y 13537581 0 C T
Y 13541022 0 C A
Y 13541053 0 CA CATA
Y 13541068 0 T C
Y 13541199 0 A G
Y 13541232 0 A T
Y 13541288 0 G A
Y 13541293 0 ATTT ATT
Y 13541420 0 A C
Y 13541454 0 T C
Y 13541478 0 G T
Y 13541520 0 C T
Y 13541556 0 A C
Y 13541561 0 T G
Y 13541584 0 C G
Y 13572922 0 A C
Y 13572932 0 T C
Y 13572999 0 A G
Y 13573033 0 A C
Y 13573108 0 G C
Y 13573152 0 C A
Y 13573216 0 G A
Y 13573240 0 C T
Y 13573271 0 G T
Y 13595280 0 T C
Y 13687807 0 T G
Y 13688825 0 C G
Y 13689634 0 T C
Y 13689668 0 C G
Y 13689755 0 G C
Y 13690562 0 C T
Y 13694899 0 G A
Y 13694929 0 G A
Y 13694956 0 C G
Y 13694983 0 T A
Y 13695051 0 T G
Y 13726074 0 T A
Y 13726129 0 C G
Y 13842718 0 G C
Y 14482235 0 C A
Y 14485120 0 G A
Y 14498990 0 C T
Y 14771478 0 A T
Y 14898094 0 A G
Y 14958218 0 C T
Y 15026424 0 A C
Y 15027529 0 T G
Y 15930958 0 ccttcttcctc cCTTCTTCCTCCTcttcttcctc
Y 16751825 0 A G
Y 16832517 0 T C
Y 17231616 0 A G
Y 21154004 0 A C
Y 21154323 0 G A
Y 21154426 0 G A
Y 21154466 0 T A
Y 21208056 0 A G
Y 21208066 0 C G
Y 22260237 0 C T
Y 22510104 0 G A
Y 22510163 0 T A
Y 23473201 0 T A
Y 23800360 0 T G
Y 23805478 0 C A
Y 24008079 0 T A
Y 28582510 0 G C
Y 28582566 0 C G
Y 28582605 0 T C
Y 28582622 0 G A
Y 28582676 0 G A
Y 28582685 0 C A
Y 28582863 0 A G
Y 28582865 0 A G
Y 28582921 0 A G
Y 28582932 0 G A
Y 28583310 0 C T
Y 28583314 0 A G
Y 28583382 0 G C
Y 28583394 0 T C
Y 28583410 0 C G
Y 28583415 0 T C
Y 28583431 0 A T
Y 28583432 0 A G
Y 28583590 0 A C
Y 28586782 0 G A
Y 28586959 0 T C
Y 28587232 0 T C
Y 28689055 0 G T
Y 28709343 0 A G
Y 28780767 0 A C
Y 28780823 0 T A
Y 28780883 0 G A
Y 28815270 0 C A
Y 28815656 0 T C
Y 28816806 0 T C
Y 28816831 0 C T
Y 28816870 0 T G
Y 28816948 0 C G
Y 28817276 0 T G
Y 28817286 0 T G
Y 28817559 0 T G
Y 28817636 0 G A
Y 58856145 0 G C
Y 58883603 0 A T,C
Y 58883784 0 T A
Y 58883834 0 A T
Y 58893627 0 A T
Y 58968939 0 G A
Y 58975896 0 T C
Y 58981639 0 cctccactcca cCTCCActccactcca
Y 58982160 0 G T
Y 58982559 0 A C
Y 58982671 0 tcttccttc tcttc
Y 58985524 0 T G
Y 58996230 0 G A
Y 58996257 0 G T
Y 58999765 0 C T
Y 58999773 0 G A
Y 59001429 0 G A
Y 59001608 0 C T
Y 59001620 0 A C
Y 59001647 0 G A
Y 59001685 0 G C
Y 59001722 0 G A
Y 59001753 0 T C
Y 59001773 0 A C
Y 59001782 0 C A
Y 59001792 0 T C
Y 59001960 0 T A
Y 59002047 0 C G
Y 59002139 0 G T,A
Y 59005179 0 C A
Y 59010280 0 A G
Y 59015256 0 T A
Y 59017005 0 A G
Y 59017181 0 T A
Y 59017206 0 A G
Y 59017378 0 T G
Y 59017384 0 ag aGg
Y 59018341 0 C G
Y 59020728 0 A G
Y 59022718 0 A G
Y 59022723 0 C T
Y 59022734 0 C T
Y 59022768 0 A G
Y 59027525 0 A G
Y 59027700 0 A C
Y 59027882 0 T G
Y 59029728 0 C T

Протокол обработки древних геномов для получения данных о гаплогруппе образца

Я поработал тут над протоколом определения мужских Y-гаплогрупп в палеоДНК. В конце концов — через пару дней — я остановился над следующим варианте.
Протокол содержит две части — первая для геномов с высоким покрытием, вторая для геномов с низким качеством и малым покрытием.


1) Для геномов с высоким покрытием варианты Y определяются в программе GATK и выводятся в формат VCF
Файл VCF вводится в программу yHaplo (написанную Позником на основании алгоритма определения Y-гаплогруппы в 23andme)
2) Для геномов с низким покрытием используется программа samtools mpileup c параметрами -B -q30 -Q30 -C50. Файл пайлапа преобразуется в формат 23andme и вводится в ту же программу (yHaplo)


Я проверил работоспособность протокола на нескольких примерах, похоже все работает (варианты гаплогрупп в таблице совпадают с теми что были опубликованы в статьях)
Сначала геномы с высоким покрытием — 2 генома древних гладиаторов из Йорка

3DT26 J-CTS8938 J-M304 J
6DT3 R-L52 R-P311 R1b1a2a1a

Теперь геномы с низким покрытием — 2 древнеегиптских образца

ERR1654486 J-P58 J-P58 J1a2b
ERR1654487 E-V22 E-L677 E1b1b1a1b2

Теперь еще более экстремальный случай (качество и покрытие плохое) — геномы римского периода с территории Польши (предположительно готы из Вельбарской культуры)

kow45 I-L35 I-M436 I2a2
kow55 I-L80 I-M253 I1

Геном англосакса из Йорка

NO3423 I-DF29 I-DF29 I1a

Геном неолитического периода с территории Польши

pl-7 R-S24902 R-S24902 R1a1a1b1a2c

Читать далее Протокол обработки древних геномов для получения данных о гаплогруппе образца

Этюд на тему ДНК-генеалогия.

Мой блог посвящен преимущественно тематике аутосомной ДНК, однако время от времени я затрагиваю тему однородительских маркеров происхождения (Y-ДНК и митоДНК).  Начну заметку издалека.
Среди обывателей села Стахова бытует легенда, о том, что род Вереничей пришли на земли пинского Полесья из Югославии.К сожалению, как и в большинстве подобных легенд, cовершено невозможно разобраться в том, где правда, а где позднейшие выдумки. Так и в этом случае. Ни в одном из имеющихся e меня исторических документах нет даже и намека на балканское происхождение Вереничей. Даже в самых ранних документах (например, в «Ревизии пущ и переходов звериных в бывшем Великом княжестве Литовском с присовокуплением грамот и привилегий на входы в пущи и на земли, составленной старостою мстибоговским Григорием Богдановичем Воловичем в 1559 г. «, или в «Писцовой книге Пинского староства Лаврина Воина, 1561—66«) уже видно, что даже в то время род Вереничей на Полесье считался «издавним«.



Так в ревизии Воловича (1559 года) читаем, что

«Павел Веренич на дворище у Стохови жъ не покладалъ листовъ, только давность, и на другое дворище у Дубой».


Слово давность означает существование в течение долгого времени, издревле, искони. Происходящие от корня этого слова прилагательные и наречия попадаются в разных актах с конца XIII века. Как юридический термин существительное <давность> употреблялось уже весьма рано в западнорусском законодательстве; собственно же в России оно появляется в виде термина лишь с XVIII века. Выражение земская давность было юридическим термином в Литовском Статуте, из которого заимствовано русским законодательство.

 



В строго юридическом смысле срок давности владения определялся десятью годами. Впрочем, здесь давность может употребляться в другом значении. Так, в актовых материалах все той же «Ревизии пущ и переходов звериных в бывшем Великом княжестве Литовском с присовокуплением грамот и привилеев на входы в пущи и на земли, составленная старостою мстибогским Григорием Богдановичем Воловичем» в числе прочих землевладельцев Пинского повета упомянуты Грынь Веренич с братом Павлом «с имений своих стародавних [т.е. с незапамятных времен] военную службу служащих«. Судя по этому, Вереничи могли появится в Стахове уже в середине 15 века, если не раньше.
Когда, откуда, и при каких обстоятельствах — обо всем этом известные мне историко-юридические источники умалчивают. Более поздние документы не только не дают ответа на эти вопросы, а скорее еще больше запутывают ситуацию. Так например в «Выводе фамилии урожденных Стаховских придомка Веренич» (Год 1802 Месяца ноября двадцать второго дня на на сессии Депутации выводовой Губернии Минской) читаем следущее:

«Принесена была просьба от фамилии древней родовитой панской шляхты урождённых Вереничей Стаховских герба “Огончик” (пол-стрелы белой на половине перстня стоящей, в поле красном, над шлемом две женские руки вытянутые вверх) которая на наследственных землях и осадах в повете пинском лежащих от найяснейшых времён королевства Польского, прерогативами шляхетства пользовалась, и клейнотом родовитости неискаженно и непрерывно пользовались. [стр. 616] В потверждение указов найяснейшей воли – линия родословной своей вместе с документами перед депутацией выводовой губернии Минской составлена, потверждена доводами и внесена в дворянские книги Минской губернии в соответстии с законом.Родословие своего дома разделили на две линии. Дух родных братьев Семена и Дмитрия Вереничей Стаховских за родоначальников взяли, и от них до себя довели. И правдивость этого они через доказательства и документы следующим порядком довели. Семен и Дмитрий Вереничи Стаховские братья между собой родные. В повете Пинском осели и дали начало своему роду и фамилии. И в подтверждение своего первого поколения они предъявили привилегию от наияснейшего короля польского Сигизмунда Августа за год тысяча пятьсот шестьдесят шестой от июня двадцатого дня где, между другими для шляхты пинской пожалованиями за военную службу выше упомянутым Семену и Дмитрию Вереничам Стаховским земли в наследственное владение в повете Пинском лежащими дворища Веренича в Стахове и Дубой называющееся им и потомкам их пожаловал…»

Содержание начала текста весьма типично для подобных документов, но здесь нет сведений о точном времени появления Вереничей в Стахове, не говоря уже о явных хронологических несуразицах, которые я разбирал в другой заметке.

  1. Во-первых, под «привелем» 1566 года понимается общий «привилей» Сигизмунда-Августа, данные всей пинской шляхте в подтверждение их землевладельческих и шляхецких прав.
  2. Во-вторых, Семен и Дмитрий жили не в 1566 году, а как минимум на сто лет раньше — около 1456-1466 годов. В доказательство верности моих вычислений можно привести следующие аргументы. В решении судей Главного Трибунала ВКЛ от 1637 года упоминается о привелее кн. Марии Семеновны (+1501) ( в документе ошибочно указано Ярославовны) и ее сына кн. Василия Семеновича (+1495) от 6998 года индикта 8 (1490 года согласно современному летоисчислению), в котором подтверждается совместное владение Волошиным (sic!) Павлом и Ходором Вереничами даниной своей бабки в селе Тупчицы, Согласно родословной, Павел — сын Дмитрия и племянник Семена. В следующем по времени привилее кн. Федора Ивановича Ярославича от 26 апреля 1514 данном дочерям Антона (Андрей?) Дмитриевича Веренича потдверждается их вотчинное права на земли пожалованные их отцу в Стахове, Дубое и Тупчицах. Очевидно, Антон(или Андрей) — тоже сын Дмитрия, и более того, в 1514 году его дочери были уже совершеннолетними.
  3. В-третьих, в переписе войска литовского 1528 года упомянут пинский боярин Верениш (sic!), который служил «сам со своего имения». Далее, из судебного дела от 26 марта 1543 года по иску Пашки Павлова и его братьи Игнатия и Гаврила к Ваське Лозичу, который унаследовал по своей жене Ульяне Лукашевичевой Веренич часть имений Дубой и Стахово. мы узнаем, что в 1543 году внуки Дмитрия (Пашко Павлович и его двоюродные братья Гавриил и Игнат Васильевич) были уже взрослыми, так же как и покойная Ульяна Лукьяновна (дочь Лукьяна Семеновича, внучка Семена Веренича), после смерти которой третья часть дворища Веренич в Дубое и дворища Веренич в Стахово перешла к Ваське Лозичу.

 



Далее, в 1554 году — за 12 лет до указанной в привелее даты — в материалах, собранных в ходе ревизии пущ и переходов лесных -упомянуются Грынь Веренич с (троюродным) братом Павлом с имений своих стародавных военную службу служащих. Как известно, Грынь — внук Семена, а Павел или Пашко — внук Дмитрия. О самих Семене и Дмитрии ни слова, хотя если бы они жили в это время, то скорее всего именно они или их сыновья были бы записаны как старшие в своем роду, но никак не их внуки.В 1559 году, по все той же ревизии Воловича, в числе земян Стаховских опять упоминается Павел Веренич, правда, уже без Гриня. В тексте четко сказано, что Павел не покладал листов (т.е. не предъявил привелея), только давность на дворище у Стахова и другое дворище у Дубоя. Поскольку большую часть книги Воловича составляют привелеи, выданные или подтвержденные королевой Боной, следовательно, от Боны Вереничи привлеев не получали, по крайней мере, на земли в Дубое и Стахове.Все вышесказанное означает, что уже задолго до 1566 года Вереничи владели своими дворищами и землями на основании вотчинного права, и что феодальные права Вереничей на эти земли восходят — как минимум -временам кн. Марии Семеновны и ее сына Василия (то есть к периду между 1475-1490 гг).


Реконструкция позволяет очертить интервал появления Вереничей в Стахове — но с обстоятельствами появления по-прежнему нет никакой ясности. Поскольку скудные исторические свидетельства обходят  этот вопрос сторонй, то можно обратиться к преданиями. Среди старожилов села Стахова якобы сохранилось следующее якобы древнее предание:


Когда-то, давным-давно, жил на Полесье князь Карачинский (sic!). В его владениях находился большой дремучий бор, около которого проходил торговый шлях. По прошествии времени, в этом бору поселилось 100 половцев, которые совершали нападения на проезжающих купцов и селян. Князь, прослышав о разбойниках, повелел своим «палявничим» (охотникам) узнать, где находится разбойничье логово. Один из охотников решил проследить путь до логово половцев и стал делать топором зарубки на деревьях. Услышав стук топора, войны князя отправились в сторону, где раздавалось эхо стука топора. Таким образом, они вышли прямиком на логово разбойников и истребили их. В награду за верную службу, князь наградил находчивого охотника землям, где находился стан половцев. Охотник постоянно носил с собой «Ксендз Лаврентий Янович, каноник венденский, в своей речи на погребении Элжбеты с Стаховских Каренжины, жены вилькомирского судьи, изданной в сборнике «Золотой улов на реках и водах смертности сего мира и т.д» (Вильно 1665 г.) размещает следущее предание, относящиеся к истории Стахова.: «Князь Карачевский, владелец обширных волостей, лежащих на Пинщине, крайне скудными силами 100 половцев положил трупами и на там же месте похоронил, как и по ныне свидетельсвтуют о том курганы того места. За это мужесто правящий князь ему отдал в удел это поле, а также столько земли, сколько мог объять звонкий звук трубы. Отсель то земельное надание стало называтся Стоховым, потому что там похоронено сто убитых врагов.» (веренька, вярэнька), и поэтому его прозвали Веренькой. Его потомки приняли прозвище родоначальника в качестве фамилии.


К сожалению, изучение этого предания показывает его недавнее происхождение. Скорее всего, оно выписано из 9-го тома «Полного географического описания нашего отечества» изданного в 1905 году В.П.Семеновым-Тян-Шанским , куда, в свою очередь перекочевало из известного издания «Słownik geograficzny Królestwa Polskiego» изданного в 1880–1902 гг., а именно из 11 тома, в котором на стр.171-172 была размещена довольно объемная статья Александра Ельского и Эдварда Руликовского о Стахове. Именно с подачи Руликовского в этой статье была размещена выписка из издания 17 века:

«Ксендз Лаврентий Янович, каноник венденский, в своей речи на погребении Элжбеты с Стаховских Каренжины, жены вилькомирского судьи, изданной в сборнике «Золотой улов на реках и водах смертности сего мира и т.д» (Вильно 1665 г.) размещает следущее предание, относящиеся к истории Стахова: «Князь Карачевский, владелец обширных волостей, лежащих на Пинщине, крайне скудными силами 100 половцев положил трупами и на там же месте похоронил, как и по ныне свидетельствуют о том курганы того места. За это мужесто правящий князь ему отдал в удел это поле, а также столько земли, сколько мог объять звонкий звук трубы. Отсель то земельное надание стало называтся Стоховым, потому что там похоронено сто убитых врагов.»

 


В приведенном отрывке приводится родословное предание рода Стаховских герба Огоньчик, (проживавшего в мстиславском, виленском, новогрудском и пр. воеводствах ВКЛ), генеалогическая связь которого с Вереничами пока никак не проясняется. Главным фигурантом здесь выступает князь Карачевский (которого, видимо, Cтаховские считали своим предком), а вовсе не «охотник с сумкой из бересты». Можно с уверенностью сказать, что «легенда старожилов» Стахова появилась самое ранее в начале 20 века в среде «грамотеев» села Стахове как результат переосмысления текста статьи их энциклопедического справочника,  а затем объединения легенды об основании Стахова с народной этимологии фамилии Веренич.



Итак, и этот источник не дал нам ничего ценного. Поскольку возможности документальной генеалогии на этом этапе практически исчерпываются (и открытие новых источников вряд ли предвидится), остается обратится к новой отрасли — ДНК-генеалогии.

Генетическая генеалогия использует ДНК-тесты совместно с традиционными генеалогическими методами исследования. Каждый человек несёт в себе своего рода «биологический документ», который не может быть утерян — это ДНК человека. Методы генетической генеалогии позволяют получить доступ к той части ДНК, которая передаётся неизменной от отца к сыну по прямой мужской линии — Y-хромосоме. ДНК-тест Y-хромосомы позволяет, например, двум мужчинам определить, разделяют ли они общего предка по мужской линии или нет. ДНК-тесты не просто помощь в генеалогических исследованиях — это современный передовой инструмент, который генеалоги могут использовать для того, чтобы установить или опровергнуть родственные связи между несколькими людьми.

Итак, в 2008 году узнал свою Y-хромосомную гаплогруппу (I2a). Немного терминологии для читателей, далеких от науки:

Гаплогруппа (в популяционной генетике человека — науке, изучающей генетическую историю человечества) — группа схожих гаплотипов, имеющих общего предка, у которого в обоих гаплотипах имела место одна и та же мутация — однонуклеотидный полиморфизм.

 

 

Позднее протестировались еще 2 Веренича, и наши гаплогруппы совпали, что подтверждается достоверность официальной родословной. Казалось бы, после всех усилий, можно было бы легко определить ареал, откуда появились предки Вереничей (очевидно, что это ареал с наибольшей частотой или наибольшим разнообразием гаплогруппы I2a). На поверку же все оказалось гораздо сложнее. Географический ареал гаплогруппы I2a (вернее ее восточноевропейской, «динарской» ветви) характеризуется бимодальным распределением — в восточной Европе они приходятся на регион Полесье-Карпаты и на регион Балкан (с макисмальной частотой в Боснии-Герцеговине).

По иронии cудьбы, именно с этими двумя регионами связаны две наиболее вероятные версии происхождения Вереничей. Таким образом, знание одной лишь корневой гаплогруппы мне, по большому счету, не помогло ни подтвердить, ни опровергнуть одну из этих альтернативных версий.

Тупиковая ситуация изменилась лишь после того, как один из Вереничей сделал полный сиквенс Y-хромосомы (BigY в FTDNA). Благодаря ему удалось достаточно точно позиционировать расположение нашей ветви-кластера внутри общей структуры филогенетического дерева I2a.Благодаря присутствию Y-хромосомного сиквенса (YF03602) представителя рода Вереничей в базе данных yfull.com (спасибо за помощь Vladimir Semargl и Vadim Urasin) представляется возможным оценить возраст моего кластера. На настоящий момент в него входит еще один полный сиквенс Y-хромосомы (YF04188), о хозяине которого мне ничего неизвестно.

Возраст линии Вереничей оценивается в 1438 лет до настоящего времени, линии YF04188 — всего лишь в 546 лет.По расчету снип-мутаций возраст I-Y17665 (и возможно I-A7318) оценивается примерно в 1000 лет (т.е. временами Киевской Руси), а возраст родительской ветви A1328 в 1850 лет до настоящего времени (начало нашей эры). Возраст, определенный по снипам, указывает на время выделения ветви I-A1328, хотя возраст последнего общего предка (определенный по значениям других маркеров Y-хромосомы) чуть ниже -1400 лет (т. е примерно 5-6 века нашей эры). То есть ветвь моих прямых предков в это время прошла пресловутое бутылочное горлышко, сопровождаемое, как правило, падением числа представителей линии и уменьшением разнообразия.

Здесь начинается самое интересное.



Недавно, зайдя на сайт проекта I2a в FTDNA, я обнаружил результаты некоего Враньешевич из Черногории. Я бы не обратил на него внимание, если бы он не попал в тот же кластер, что и я (в этот кластер входит ветвь Вереничей, гаплогруппа (I2-A7318, т.е подветвь I-A1328)).Я решил рассчитать возраст I-A1328 с помощью калькулятора semargl.me и стандартных для набора 37 маркеров скорости мутации. К сожалению, в базе данных Semargl немного гаплотипов из конкретно моего кластера и ближайщих к нему братских кластеров. В общем возраст, по ASD методу получилось что возраст моего кластераI (Y17665) — 1050 лет, а при подключении (в качестве outgroup) гаплотипа из I-A1328* возраст кластера I-A1328* составил примерно 1850 лет. То есть, это верхний интервал временного промежутка, когда мог жить последний мой общий предок (MRCA) и Враньешевича.

I2a2 ‘Dinaric’ ..L621>CTS10228>S17250>Y4882>A1328>A7318 (I-A7318)

568 362501 Verenich Werenicz,Werenich,Verenich,Werenitz,Stachowski. Belarus I-A7318

I2a2 ‘Dinaric’ ..L621>CTS10228>S17250>Y4882>A1328 (I-A1328)
564 E13120 Vranjesevic Vranjesevic Milan-Mico, birth 1913, death 1992 Bosnia and Herzegovina I-A1328


Нижний интервал можно определить с помощью калькулятора McDonald. Для вычисления дистанции в годах я сравнил значения 67-маркерного гаплотипа одного из Вереничей с аналогичными маркерами гаплотипа Враньешевича. 10 маркеров имеют другое значения. Получается разница в 10 маркеров на 67 маркерных гаплотипах.

Generations Probability Cumulative
1 0.000000 0.000
2 0.000000 0.000
3 0.000000 0.000
4 0.000004 0.000
5 0.000022 0.000
6 0.000091 0.000
7 0.000279 0.000
8 0.000699 0.001
9 0.001495 0.003
10 0.002825 0.005
11 0.004827 0.010
12 0.007592 0.018
13 0.011137 0.029
14 0.015396 0.044
15 0.020223 0.065
16 0.025408 0.090
17 0.030697 0.121
18 0.035824 0.157
19 0.040537 0.197
20 0.044616 0.242
21 0.047893 0.290
22 0.050258 0.340
23 0.051662 0.391
24 0.052111 0.444
25 0.051660 0.495
26 0.050401 0.546
27 0.048451 0.594
28 0.045943 0.640
29 0.043014 0.683
30 0.039796 0.723
31 0.036412 0.759
32 0.032973 0.792
33 0.029568 0.822
34 0.026274 0.848
35 0.023146 0.871
36 0.020225 0.891
37 0.017537 0.909
38 0.015097 0.924
39 0.012906 0.937
40 0.010961 0.948
41 0.009252 0.957

 

14202591_10210357856572557_5019604267960638228_n-1 14199500_10210357943174722_1769976137139415870_n

Пик гистограммы приходится на интервал между 21-30 поколениями, начиная с 26 поколения кумулятивная вероятность родства достигает убедительных значений достигая 0.95 в 41 поколении. Т.е. нижняя граница приходится примерно интервал в 600-1025 лет до настоящего времени — другими словами между 15 и 10 веками нашей эры.

Разумеется, c генеалогической точки зрения, исследование нижнего интервала (с общим предков в 14-15 веках нашей веры) более перспективен, тем более что я проследил свою прямую мужскую линию до 19 поколения.

Но насколько возможен факт наличия общего прямого мужского предка белоруса и черногорца в 21-30 поколениях? Дает ли генеалогия Вереничей предпосылки для такого утверждения? Прямых предпосылок, разумеется, нет.


Зато есть соображение ономастического характера. Один из сыновей второго родоночальника — Дмитра — Василь носил прозвище Волошин — так обычно в русских землях называли валахов, хотя часто прозвище Волошин не имело этнической коннотации и могло выступать в качестве отыменного прозвища: например, Володшин cын -> Волошин или Власий -> Волос -> Волошин. Наконец, составитель документа или переписчик мог сделать обычную описку. Впрочем, последнее опровергает существование 2 топонимов в окрестностях Стахова — урочища и острова Волошиново — причем именно там находились в 16-17 веках владения потомков Дмитра Веренича (старшим сыном которого являлся Василь Волошин). Кстати, любопытно отметить, что иногда в документах 16 века фамилия Веренич записывается не с окончанием —ч, а с более традиционным для южных славян окончанием — ш (Верениш)

А как же тогда быть с Вранешьевичем? Какое отношение он может иметь к валахам?

Лет 8 тому назад я порылся в исторических документах и обнаружил, что похожая фамилия Вранчич (в хорватском произношении Веранчич) действительно существовала на территории так называемого царства Сербия. После фактического распада Сербского царства (около 1366-1371 года), часть Вранчичей переселилось в Южную Сербию и Черногорию (где потомок Вранчичей воевода Радич Црноевич основал династию Црноевичей, которая в 15 веке праваила Зетой и Черногорией), другая перешла на службу к усилившемуся после падения «црства Српскаго» боснийскому королю Стефану Твртко I, который в 1370 и 1389 годах принял титул короля сербов, Боснии (1379) , Далмации и Хорватии (1389). Эти боснийские Вранчичи после падения Боснии (1463 год) под ударами турков частью переселились в Далмацию (г.Шибеник), которая с1420 была под венецианским владычеством, другая переселилась на границу Герцеговины и Черногории, где владели под турками «хематом» Вранеш, названого так в честь «валашского» князя Херака Вранеша (Вранеш — это герцеговинское диалектное видоизменение имени Вранчич).»Из возможных потомков Вранчичей, оставшихся в восточной Боснии и Герцеговине, особого внимания заслуживает «влашский» (sic!) кнез Херак (Владиславич?) Враньеш.

Казалось бы, вышеприведенные рассуждения выглядят убедительно. На самом же деле, остается главная проблема — дело в том, что фактически на протяжении 14-17 веков неизвестно никаких миграций жителей Балкан и влахов на территорию Полесья. Да, действительно была т.н. валашская колонизация, но она затрагивала главным образом территорию юго-западной Украины (прежде всего «червонной Руси» и «любельской земли», т.е. земли вокруг Львова, Звенигорода, Галича, Теребовля, Санока, Кросно, Белза, Замосця, Холма (Хелма). Причем интенсивность расселения «валахов» даже в этих регионах резко уменьшалось по мере продвижения на север (см. приложенную ниже карту).

14212036_10210384176630542_5840107323456791924_n

Например, на ближайшей к Полесью Волыни встречаются лишь фрагментарные упоминания бояр «Волошинов» в документах Метрики Литовской начала 16 века — они касаются пожалования земель в кременецком повете, т.е на рубеже ВКЛ и русского воеводства короны Польской (причем многие из этих «волошинов» носят чисто румынские имена Негое, Урсул и так далее). Такой же фрагментарный характер носят и земельные пожалования «волошинам» и на Подолье. И уж совсем единичные упоминания Волошинов мы находим в документах Метрики Литовской, касающихся земель современной Беларуси. Правда, на Брестчине одна семья «волошинов» — Ходько, Зань и Васько — получила в начале 16 века привелей на имение Чернско (от них происходит род Черских в брестском воеводстве, который вымер в 17 веке).

Эпигенетика Y-хромосомы человека

О генетике (в том числе и о популяционной генетике)  Y-хромосомы написано немало статей — теперь пришла очередь эпигенетики. Полгода тому назад я постулировал наличие в Y-хромосоме гаплогруппно-специфичных сайтов метиляции, влияющих на экспрессию специфически мужских генов. Данная гипотеза позволила мне решить старую диллему — с одной стороны малая генетическая информативность Y-хромосомы (мало генов), c другой стороны слабая корреляция между поведением и гаплогруппой. И вот пару дней назад, китайские исследователи опубликовали статью на эту тему. Перефразируя расхожое, можно сказать: «О чем бы вы не подумали, китайцы уже написали про это статью».

Что поделать — таков закон больших чисел.

«According to the human reference sequence (hg19), the tested sites on the Y chromosome were distributed on 11 regions: TSS1500 (-1500 bp from the nearest TSS), TSS200 (-200 bp from the nearest TSS), 5’UTR, EXON1 (1st exon of genes), 3’UTR, Gene Body, CpG islands, NSHORE(-2 kb region flanking the CpG island), SSHORE (+2 kb region flanking the CpG island),NSHELF (-4 to -2 kb region flanking the CpG island), and SSHELF (+2 to +4 kb region flank-ing the CpG island) (S3 Table). The mean methylation level of all tested sites within eachregion was taken as this region’s methylation index.We found that the variation in gene body region was greater than in other regions by calcu-lating the standard deviation of each region among all samples (Fig 5A). Further, we assessed the overall methylation pattern of 53 tested genes. Result showed that the methylation patternof two genes was haplogroup O3a2b-specific (LOC100101116,TTTY1)(Fig 5C). However, wedid not find such a haplogroup-specific variation on the other 10 functional regions (Fig 5Band 5D,S5 Fig).Fig 5. The methylation pattern of functional regions on the Y chromosome.A) Box plots showing thestandard deviation of methylation level within each region. The median line indicates the average methylationlevel, the edges represent the 25th/75th percentile, and the whiskers represent the 2.5th/97.5th percentile. B−D). Heat map showing the methylation levels of 38 detected TSS1500 regions (B), 53 gene body regions(C), and 55 CpG island regions (D)»

 

Fig 5. The methylation pattern of functional regions on the Y chromosome. A) Box plots showing the standard deviation of methylation level within each region. The median line indicates the average methylation level, the edges represent the 25th/75th percentile, and the whiskers represent the 2.5th/97.5th percentile. B − D). Heat map showing the methylation levels of 38 detected TSS1500 regions (B), 53 gene body regions (C), and 55 CpG island regions (D). 

Я пролистал статью китайских генетиков про консервативность эпигенетичских паттернов на Y-хромосоме. К сожалению, авторы ограничиваются только важными для юго-восточной Азии ветвями гаплогруппы O2 и O3 (особо выделяются когорты потомков разных императоров), а интересно было бы сравнить эпигенетические паттерны у носителей этой гаплогруппы с таковыми у других евразийских, американских и африканских гаплогрупп и изучить животрепещущие вопросы:

  1.  Дает ли преимущество разница в профилях метиляции ДНК Y-хромосом?
  2. Если дает, то какого рода c учетом мужской специфики? Возможные варианты: разница в фертильности спермы, отличия в уровне выработки тестостерона — и влияние на сопутствующие мужские признаки телесной конституции и поведения?
  3.  Помогает ли понимание разницы метилирования ДНК мужской половой хромосоомы объяснить разницу в физических, гендерных, функциональных, эмоциональных и интеллектуальных чертах мужчин разных гаплогрупп?

Вот о чем надо было рассуждать, а не о эволюционной консервативности метиляции Y-хромосомы. Это и так понятно любому думающему человеку.

Константа скорости SNP мутаций Y-хромосомы по данным полного секвенирования

Появилась долгожданая статья  о «скоростях мутирования снипов в cпецифически мужской, нерекомбинантной части Y хромосомы», написанная в соавторстве коллективом разработчиков средств анализа NGS-данных полных сикенсов Y-хромосомы Yfull и двумя видными теоретиками ДНК-генеалогии. Хотя ни один из авторов не является профессиональным генетиком или биологом, уровень статьи, также как и описанный в статье метод вполне соответствуют профессиональным стандартом в этих областях.

Абстракт

Накопление данных тестирования BigY, FGC, с одной стороны, публикация сиквенсов Y-хромосомы древних образцов Anzick-1, Ust-Ishim, K14, с другой, дает возможность оценить среднюю скорость однонуклеотидных (SNP) мутаций.Авторы разработали собственный метод отбора истинных мутаций в современных и древних образцах и несколькими способами определили с высокой точностью константу скорости SNP мутаций

 

Метод отбора реальных мутаций, разрабтанный в настоящем исследовании, позволяет полностью устранить из анализа ложные варианты. Описание метода содержится в разделе «Материалы и методы». Метод основан на отборе X-degenerate последовательностей. Для этого авторами был применен критерий отбора однонуклеотидных полиморфизмов combBED, созданный на основе координат (в системе hg19) начала и конца участков Y-хромосомы, внутрь которых должны попадать отбираемые производные варианты. В Таблице 1 Приложения к настоящей статье указано расположение 857 «хороших» участков Y-хромосомы общей длиной 8 473 821 bp. Калибровка скорости SNP мутаций была проведена для этих участков, совокупность которых в дальнейшем будет именоваться «областью combBED».

 

Для калибровки средней скорости SNP мутаций были использованы данные полного секвенирования Y-хромосомы приватных образцов, сделанные в коммерческих лабораториях FTDNA и Full Genome Corp. Образцы были предоставлены группой YFull с соблюдением требований конфиденциальности персональных данных, на основании разрешений частных лиц об использовании их данных в научных исследованиях.
Данные об Y-хромосоме древних образцов были взяты из открытых источников научных статей: Anzick-1 — Rasmussen et al. (2014), Усть-Ишимский человек — Fu et al. (2014), К14 — Seguin-Orlando et al. (2014). Разработанный авторами настоящей работы метод отбора позволяет с высокой эффек-
тивностью исключать из рассмотрения ложные варианты с производными аллелями. Отбор кандидатур для выявления истинных му-
таций происходил в следующей последовательности критериев:

  1. Критерий Reg. Различные варианты производных, то есть отличающихся от референсной последовательности аллелей, выявлялись по BAM файлам. Анализируемые участки нуклеотидных последовательностей Y-хромосомы имеют общую длину 13-15 Mbp для теста BigY и около 23 Mbp для теста FGC. Кратность чтения (покрытие) одного сайта – от 1Х до 8000Х. Среднее покрытие коммерческих образцов – около 60Х. Из этой совокупности кандидатур отбирались только такие, координаты которых попадали внутрь участков, ограниченных областью combBED. Область combBED была сконструирована авторами для отбора X-degenerate участков. Границы combBED участков образованы путем взаимного пересечения BED файла из работы Poznik et al. (2013) общей длиной 10.45 Mbp и обобщенного BED файла BigY (11.38 Mbp), опубликованного в BigY White Paper (2014). В результате образовались 857 непрерывных участков Y-хромосомы общей длиной 8 473 821 bp.

2.Критерий Indel. Исключались варианты инсерций и делеций (инделов), а также кратных нуклеотидных мутаций (более одной по-зиции с производными аллелями, MNP).

3.Критерий Locs. В некоторых случаях одни и те же кандидатуры выявляются в образцах из разных гаплогрупп, из разных субкладов. Одна из причин – отличие аллеля референсной последовательности, составленной в основном по данным гаплогрупп R1b и G, от фактически наблюдаемого пред-
кового аллеля. Другая причина – ошибки маппирования. Эмпирическим путем было выявлено, что в случае, если один и тот же вариант был обнаружен не менее, чем в шести локализациях, то соответствующая кандидатура однонуклеотидного полиморфизма может быть исключена из рассмотрения по указанным выше причинам. Под локализацией понимается группа образцов из базы данных YFull (2900 образцов на февраль 2015 года), принадлежащих одному субкладу и имеющих производный аллель изучаемой кандидатуры.
Этот критерий достаточно мягкий, но весьма эффективный.
4. Критерий Reads. Исключаются кандидатуры с общим числом прочтений менее трех раз, т.е. с одним или двумя ридами.
5. Критерий Qual. Качество определяется стандартным образом, как средневзвешенное от показателя качества прочтений в одной и той же позиции, где правильные значения берутся с плюсом, а ошибочные значения с минусом. Отбор проходили кандидатуры с качеством 90% и более, кандидатуры с каче- ством менее 90% отклонялись.
6. Критерий Post mortal. Применяется только в отношении древних образцов: исключаются постмортальные повреждения в ДНК, выражающиеся в замене следующих пар оснований: C→T и G→A (Briggs et al.,2007). Для современных образцов критерий
не применяется.

  1. Критерий Single SNP. Из-за технических особенностей применяемой программы обработки часть кандидатур с двойной мутацией (Double Nucleotide Polymorphisms) проходила критерий Indel. Программа интерпретировала двукратный нуклеотидный полиморфизм как две SNP мутации в соседних позициях. Этот вспомогательный критерий позволяет отклонять оба варианта.
  2. Критерий Trash. Исключаются кандидатуры, вызывающие подозрение в том, что это ошибка выравнивания или чтения. В основ-
    ном, это мутации в палиндромных участках и участках, имеющих копии на других участках Y-хромосомы.

Результаты

Разработанный авторами метод отбора кандидатур в снипы из BAM файлов индивидуальных образцов позволяет с высокой эффективностью отбирать реальные SNP мутации и отклонять различные ложные варианты.
Использование четырех независимых калибровок, ранжирование их по степени достоверности и надежности позволили получить модельно независимую оценку константы скорости SNP мутаций в год на п.н.о., 95% CI:

0.82*10-9  (95%: 0.7-0.94 * 10-9)

Произведенная оценка скорости мутаций совместно с накопленной в группе YFull базой данных коммерческих образцов BigY и FGC позволяют оценить время заселения Америки человеком в 14.8 тыс. лет назад, Австралии – в 49.2 тыс. лет назад.

 

Citizen scientists определили терминальный снип индейского мальчика

В феврале было опубликовано замечательное исследование Rasmussen et al., наглядно доказавшее взаимосвязь древней индейской популяции (вернее одного из ее представителей — мальчика, получившего «научное» имя Anzick1) с современными популяциями Америки и Евразии. Захоронение, обнаруженное в Западной Монтане, было отнесено археологами к культуре Кловис (Clovis) и соответствующим образом датировано (12,6 kya).

The genome of a Late Pleistocene human from a Clovis burial site in western Montana

Rasmussen et al., 2014
Nature 506, 225–229 (13 February 2014) doi:10.1038/nature13025
Received 03 November 2013 Accepted 14 January 2014 Published online 12 February 2014

Clovis, with its distinctive biface, blade and osseous technologies, is the oldest widespread archaeological complex defined in North America, dating from 11,100 to 10,700 14C years before present (BP) (13,000 to 12,600 calendar years BP)1, 2. Nearly 50 years of archaeological research point to the Clovis complex as having developed south of the North American ice sheets from an ancestral technology3. However, both the origins and the genetic legacy of the people who manufactured Clovis tools remain under debate. It is generally believed that these people ultimately derived from Asia and were directly related to contemporary Native Americans2. An alternative, Solutrean, hypothesis posits that the Clovis predecessors emigrated from southwestern Europe during the Last Glacial Maximum4. Here we report the genome sequence of a male infant (Anzick-1) recovered from the Anzick burial site in western Montana. The human bones date to 10,705 ± 35 14C years BP (approximately 12,707–12,556 calendar years BP) and were directly associated with Clovis tools. We sequenced the genome to an average depth of 14.4× and show that the gene flow from the Siberian Upper Palaeolithic Mal’ta population5 into Native American ancestors is also shared by the Anzick-1 individual and thus happened before 12,600 years BP. We also show that the Anzick-1 individual is more closely related to all indigenous American populations than to any other group. Our data are compatible with the hypothesis that Anzick-1 belonged to a population directly ancestral to many contemporary Native Americans. Finally, we find evidence of a deep divergence in Native American populations that predates the Anzick-1 individual.

http://www.nature.com/nature/journal/v506/n7487/full/nature13025.html

Приведу цитату из вышеуказанного исследования.

«Мы определили Y-гаплогруппу образца Anzick-1 как Q-L54* (хM3) и используя 15 ранее проанализированных последовательностями Y-хромосомы построили дерево, чтобы проиллюстрировать филогенетическое контекст, в рамках гаплогруппы Q. Используя данные об одиночных нуклеотидных полиморфизмах (SNP), мы использовала данные Anzick-1, чтобы оценить время дивергенции между субкладами Q-L54* (хM3) и Q-M3, двух из главных вариаций Y-хромосомы,  характерных для Америки. Нами получено время дивергенции примерно 16 900 лет назад (95% доверительный интервал: 13 000 — 19700 лет назад». 

nature13025-sf2

При этом сравнение  генома Anzick-1 с 52 современными индейскими популяциями выявило большую близость  к ним, чем к современным популяциям Евразии. Причем он оказался ближе к популяциям Центральной Америки, чем Северной.

nature13025-f2

Но, несмотря на явно прорывный характер этой работы для филогении гаплогруппы Q, авторы не пошли дальше определения L54 в качестве терминального снипа.

Отметим, что L54  достаточно «широкий» снип c географической точки зрения. Он распространен по обе стороны Берингова пролива.В частности, в Евразии остался субклад L54+ L330+, представители которого зафиксированы в ряде популяций: от коренных народов Сибири до евреев-романиотов в Греции. 

Исследование проведенное российскими сitizen scientists из группы YFull, занимающейся интерпретацией данных полного сиквенса Y-хромосомы, позволило заглянуть глубже. Anzick1 принадлежит к субкладу L54+ Z780+. Причем данные полного сиквенса его Y-хромосомы, приведенные в дополнительном материале к исследованию Rasmussen et al. (2014), позволили уточнить филогению гаплогруппы Q в целом и даже выделить ещё один субклад L54+ Y2816+

1618571_414955885305304_560427902_n

Еще раз о эволюции «динарской клады» гаплогруппы I2a1b и славянизации Балкан

Как известно моим постоянным читателям, я уже на протяжении почти 5 лет пытаюсь опровергнуть устоявшееся в популяционное генетике представление о том, что частотный пик распространения на Балканах гаплотипов так называемой динарской клады гаплогруппы I2a1b можно объяснить  непрерывной генетической приемственностью населения этого региона со времен палеолита. Даже само кодовое название «ветви» — «динарская» — носит условный характер. Вопреки популярной точки зрения,  на самом деле название восходит не к трудам Нордтведту (который его просто популяризировал), а к известной cтарой статье Barac et al.2003. Авторы описали Dinaric Modal Haplotype в его 5-маркерной форме «(DMH: 16–24–11–11–13) by DYS19–390–391–392–393, respectively». Позднее он был расширен до 17, 37,67 и 111 маркеров и обнаружен не только на Балканах, но и по всей Восточной Европе

К сожалению, большинство из моих убедительных аргументов остаются без должного внимания со стороны профильных популяционных генетиков.  На дворе уже 2014 год и что мы видим в свежих работах по популяционной генетике населения Восточной Европы? Собственно говоря, ничего нового. В статье В.С. Панкратова, О.Г. Давыденко «Структура генофондов населения двух регионов Белорусского Полесья» 2013, стр.46 читаем: «Различие частот гаплогруппы I2a2 между популяциями «Вичина» и Западного Полесья не является достоверным, соответственно, она могла попасть в «Вичин» из других регионов Западного Полесья, при этом не происходило событий, приводящих к сильному генетическому дрейфу. Напомним, что для данной гаплогруппы характерна более высокая частота в Полесье, чем в других частях Беларуси, что предположительно является результатом мигра- ции ее носителей из потенциального балканского ледникового рефугиума на территорию юга современной Беларуси. Таким образом, заселение «Вичина» носителями Y-хромосомы I2a2 произошло либо так же, как и заселение других регионов Западного Полесья (в результате миграции с Балкан), либо позже в результате миграции с прилежащих территорий).»  Что характерно — здесь эта гаплогруппа (а речь идет конечно же о печально известной динарской субкладе этой гаплогруппы) названа I2a2 по старой терминологии, а в таблице частот уже по более новой I2a1. Это обстоятельство указывает на то, что статья писалась (или дописывалась) в разные времена. Похоже это общее место всех работ в области популяционой генетики,  так или иначе затрагивающих проблематику балканского палеолитического рефугиума, уже никогда не устранить. И это несмотря на то, что открытие новых снипов и соответствующие изменения в филогенетическом дереве гаплогруппы I2a-P37.2  дают надежные доказательства верности моей первоначальной гипотезы. Вот так, например, выглядит разметка филогенетического древа I2a-P37.2 по состоянию на начало 2014 года.

Еще более глубокая структура субкладов I2a1b приведена в черновой рабочей схеме компании Yfull.

I2_M423_20140203

Несмотря на интуитивно понятную структуру организации информации в филогенетических деревьях (кладограммах), они не могут быть использованы в качестве окончательного аргумента при строгом логическом доказательстве какой бы то ни было гипотезы.
Так уж повелось, что при аргументировании своей позиции в попгенетике надо оперировать языком сухой статистики и математики. Выводы и модели могут быть верными, частично неверными или даже полностью неправильными. Но если они выражены в формально-математическом виде, они имеют полное легитимное право на принятие к обсуждению в ситуации рациональной и конструктивной дискуссии. Поэтому статья (с рабочим названием » ‘Динарская субклада’ I2a1b: маркер славянской экспансии на Балканы?»)  должна  включать в себя, к примеру,  графическое отображение графа филогенетической сети гаплотипов динарской клады, но традиционными методами эту задачу решить крайне сложно. Я наткнулся на интересную альтернативу для тех случаев, когда вместо филогенетической схемы гаплотипов нужно строить гаплотипные сети (haplotype networks), но из-за больших объемов данных построить их в стандартной попгенетической программе Fluxus-Network в течении разумного времени не получается.

Вместо классического, но медленного FN можно использовать бесплатное программное обеспечение Arlequin > HapStar > Graphviz/Gephi/R-Graphviz. Первая попытка визуализации в Gephi:

1526576_10202941657572217_2008628619_n
Поскольку с эстетитческой точки зрения эта попытка была не очень удачной, то я решил повторить эксперимент с визуализацией MST динарского кластера гаплогруппы I2a — на этот раз в цветном исполнении.  В самом центре белоруские гаплотипы, окруженные украинскими гаплотипами. Ветвь Вереничей (Belarus19) в кластере гаплогруппы I2a: Belarus32->Bulgaria68->Poland365->Belarus 19, и очень близко к центру.

1048962_10202961233661607_1211213762_oЗатем я  частично переработал граф сети гаплотипов динарского кластера гаплогруппы I2a1b. Алгоритм Force Atlas 2, хотя и позволяет разглядеть мелкие детали размещения отдельных гаплотипов, — в конечном итоге дает уникальную структуру графа, и эта структура существенным образом отличается от привычной структуры сети гаплотипов в работах попгенетиков. Исходя из этого, я решил ограничиться применением Force Atlas, а затем сгруппировал перекрывающиеся узлы графа в одну группу. Благодаря этому незамысловатому трюку, на выходе я получил гораздо более приемлимый с точки зрения академического стандарта графический вариант. Это, конечно же, не штейнеровское MP-дерево гаплотипов в Fluxus Network, однако и оно дает неплохое представление о характере развития динарского кластера.

Задача: как вы думаете, где находится визуальный центр равновесия графа?

Подсказка: Иногда люди ошибочно полагают, что предковые гаплотипы — это гаплотипы в самом большом кластере. Например, в данном случае — в оранжевом метаузле. Однако это предположение работает только в том случае, если в популяции не было быстрого роста и экспансии. В противном случае может статься так, что носитель маргинального гаплотипа способен, в силу случайных и неслучайных причин вызвать эффект основателя, породив множество потомков. В таких случаях мы можем наблюдать картину характерную для данного графа. И это далеко не единственный случай

1555325_10202973979300240_689832560_n

Еще немного покопался в графе (MST) гаплотипов динарского кластера I2a1b. На полпути зум в Gephi сломался, и процесс «причесывания» начального графа пришлось заканчивать уже в Adobe Illustrator и Adobe Photoshop. Но надеюсь, что теперь-то граф представлен в удобоваримом формате:


1536644_10202976299438242_1824667689_nВ процессе подготовки материала к своей статье о динарской субкладе I2a1b, я сделал график многомерного шкалирования по вычисленной в Арлекине матрице Fst-расстояний между 42 популяционными группировками гаплотипов динарской субклады.

1656113_10203040706128369_1678657762_n

Примечательно что скорректированный коэффициент детерминации R2 в данном случае негативный (что редкость), впрочем этого можно было ожидать так как сам коэффициент детерминации R2 достаточно близок к нулю (R2=0.015), то есть данная модель — разбивка носителей по этногеографическим группам — объясняет 1.5% всей статистической вариативности всей выборки. Кроме того, p-value=1, а это означает, что мы должны принять нулевую гипотезу (отсутствие корреляции). Это близко к полученным значениям AMOVA, согласно которым на генетическое разнообразие между этническими группами приходится только 1% всего генетической разнообразия выборки. 98% приходится на разнообразие между отдельными гаплотипами. Говоря простыми словами, в выборке динариков-I2a1b отсутствует значимая кластеризация по этническому признаку.

Более надежное доказательство вышеозвученного вывода было получено при выполнения теста Мантеля, в котором определялась наличие и надежность корреляции между матрицнй географических расстояний и матрицы попарных Fst между группами популяций. Значения p-value c двухсторонним критерием (two-tailed p value) значительно больше 0.05, что означает  только одного — значимой корреляции не наблюдается, несмотря даже на приличный размер выборки — 774 гаплотипа.

Разумеется, если бы моя статья сопровождалось только схемами и результатами вычислений, то тогда это было бы статья стандартного формата популяционной генетики. Однако, как мне представляется, гораздо интереснее рассмотреть вопрос эволюции и миграции носителей «динарской клады» I2a1b в интердисциплинарном ключе. В этой связи необходимо посмотреть на эту проблему глазами историка, тем более что время экспансии  «динарцев» отлично накладывается на временной интервал экспансии славян на Балканы.

Как я уже отмечал ранее, в журнале Studia Slavica et Balcanica Petropolitana cодержится немало интересных статьей, в которых освещается современное состояние вопроса о так называемой славянизации Балкан во второй половине первого тысячелетия нашей эры.
По непонятной причине, в этом вопросе задают тон те слависты-историки, которые занимаются изучением проблем хорватского этногенеза. По этой причине в журнале представлены сразу 4 альтернативные взгляда на происхождение хорватов, которые представляют собой не столько развитие традиционных конкурирующих теорий автохтонности хорватов (Иван Лучич, Фердо Шишич, Франьо Рачки и пр.) versus миграционной модели (кульминировавшей в дискурссе иллиризма в середине 19 века), сколько новый тренд постмодернистского переосмысления многих традиционных понятий обеих теорий и исторических источников в виде идеологических конструктов и дискурссивных формантов.

  1. Алимов Д. Е. В поисках «племени»: этногенетическая модель «Венской школы» и проблема появления хорватской этничности.
    Алимов отвергает примордиалистский подход к хорватской этничности, в которой далмацкие хорваты виделись осколками первичной хорватской этничности. Термин «хорват» гентилистский, а не этнический: в Аварском каганате этот термин обозначал одну из (много) этно-социальных групп gentes разного происхождения, объединенных не родовыми связями, а принадлежностью к общей воинской группе.Может ли хорватский гентилизм служить свидетельством неславянского характера хорватской этничности или его следует понимать как закономерный социальный продукт миграции со свойственным этому процессу выдвижением на передний
    план — в том числе и в процессах групповой идентификации — воинского дружинного элемента? В свое время Х. Л овмяньский, размышляя над путями формирования так называемых «больших племен» в славянском мире, предположил, что в условиях славянских миграций и колонизации новых пространств закрепить название старого «большого племени» на новом месте, образовав новое «большое племя» со старым названием, могли только хорошо организованные воинские группы [34, Подобным же образом рассуждает и М. Анчич, полагая, что под хорватами и сербами Константина Багрянородного следует разуметь правящие слои соответствующих политий, состоявшие из знатных родов. Во время распада Аварского каганата разные группы хорватов укрылись кто в горах Карпат, кто в Судетах, кто в Восточных Альпах, кто на Динарском нагорье. Поскольку обозначение хорват обозначал лишь принадлежность к определенной социальной группе аварского каганата, то между карпатскими, силезскими, альпийскими и далматскиим славянами нет родства. То есть хорватская идентичность есть продукт трансформации соционима в этноним.
  2. Известная работа Флорина Курты «Создание Славян».
    Если выразить смысл этой работы одним предложением, то автор отрицает самое существование славян до их встречи с византийцев. Само слово славяне и понятие славянства есть продукт византийского имперского дискурса, и первоначально включал в себя не только славян в собственном смысле этого слова, но и германцев, иранцев, фракийцев и так далее.Заключительный раздел труда Ф. Курты суммирует выводы исследования. Особенно важным представляется вывод о том, что раннеславянская этничность не основывалась на языковой общности. (При этом, автор совершенно справедливо замечает, что сам этноним словене появляется гораздо позднее и лишь на периферии славянского ареала.) «Создание славян, — пишет Ф. Курта, — явилось не столько результатом этногенеза, сколько итогом инвенции, воображения и систематизации византийских авторов. … Это была… Самобытность сформированная в тени Юстиниановых крепостей… Имеются существенные основания утверждать, что эта самобытность была значительно более сложной, чем дублет «cклавены — анты» навязанный византийской историографией. … Первое отчетливое утверждение «мы — славяне» происходит из Повести временных лет XII в. Этой летописью завершается процесс создания славян…» (с. 349-350).
  3. Мягкий вариант синтеза «готской теории» и «автохтонтизма» в статьях Мужича. На основании источников, содержащих информацию о переселениях на современную хорватскую территорию, автор приходит к выводу, что именем Sclavi(ni) в принципе назывались полиэтничные переселенцы на Балканах. Суммируя результаты антропологических и генетических исследований, автор заключает, что современные хорваты по преимуществу являются потомками автохтонного населения Балкан. Автор доказывает, что хорватский народ возник как новая этническая общность на Балканах этническим соединением и социальным взаимодействием пришедших с севера воинских контингентов «гото-склавинов» и проживавших здесь различных популяций более многочисленных автохтонов.
  4. Постмодерниcтский-постколониальный этнодискурс австралийского исследователя Дэниела Дзино — книга «Becoming Slav, becoming Croat: identity transformations in post-Roman and early medieval Dalmatia» (Leiden; Boston: Brill, 2010). В книге на методологической платформе постмодернизма и конструктивистского подхода к этничности рассматриваются этносоциальные процессы, протекавшие на территории Далмации (Хорватия) в период поздней античности и раннего Средневековья.

<

p>Попробуем подвести промежуточные выводы этих моделей. Ведущие хорватские историки-слависты, а также некоторые российские «хорватоведы» рассматривают процесс генеза славян в виде некоего подобия черного ящика. Напомню: черный ящик — это система, в которой внешнему наблюдению доступны лишь входные и выходные величины, а ее внутреннее устройство и протекающие в ней процессы не известны. В этом смысле, Аварский кагант действительно хорошо подходит на роль «черного ящика». Большинство исторических сведений об Аварском каганате касается лишь его внешней политики (прежде всего, военных действий). Что касается внутреннего устройства этой кочевой империи, то оно по-прежнему остается terra incognita для историков в силу скудности, фрагментарности и противоречивости имеющихся источников о государственно-административном устройстве этого государства. Поэтому приходится либо интерпролировать имеющиеся сведения о социально-политической структуре других кочевых империй (тюрков, гуннов, монголов), либо просто фантазировать.
Согласно мнению Курты и его сторонников, процесс этногенеза славян протекал следующим образом. Где-то в середине 6 века нашей эры некие ещенеславянские сообщества людей попадают в «черный ящик» Аварского каганата. Спустя несколько поколений «инкубации» славянства из черного ящика Аварского каганата выходит некая, как говорили марксисты, «новая сообщность людей». Эта «новая сообщность», nihilnominus Sclavi («ничтожные именем склавины», как выразился один франкский летописец) внезапно (!) появляется в поле зрения византийцев, «выходя из-за тени построенных Юстинианом на Дунае крепостей» (Ф.Курта). Именно им византийцы и дают имя «славян», имя которых потомки разнесут по всей восточной Европе.

Я конечно же понимаю, что перед хорватскими историками перед самым кануном вступления Хорватии в ЕС, был поставлен политический заказ воскресить старые идеи неславянского происхождения хорватов времен младонационалистического иллирического романтизма в новом, постмодернистском исполнении. Перефразируя вышеупомянутого Д.Дзино, суть этого идеологического заказа можно выразить следующим девизом: «Перестанем быть славянами -станем европейцами!». Но зачем так ненавидеть свои корни, cвое происхождение и свои истоки — это мне непонятно.

Этот конструктивистский подход к вопросу этнической идентичности, согласно которому Аварский каганат выступил в роле катализатора этноформирующей реакции, в результате которой миру была явлена славянская идентичность, мне представляется сомнительным. Здесь уместно вспомнить этническую ситуацию в более поздних империях, например в империи Габсбургов, СССР, ту же Югославию времен Броза Тита. Пример СССР особенно поучителен, особенно если мы учтем тот факт, что СССР существовал примерно столько же лет, сколько и власть Аварского каганата на территории современной Хорватии (не больше 70-80 лет). Хорошо известно, что одной из основной задач национальной политики CCCР было создание новой общности людей — «homines sovetici» («советские люди»). Однако как показала история, в процессе крушения империи (также как и в Югославии) этноцентробежные силы не только не исчезли, но скорее даже усилились. Нет никакого основания полагать, что во времена падения Аварского каганата все могло выглядеть иначе.

При сопоставлени этих моделей мы неизбежно сталкиваемся с закономерным вопросом: а что генетика или ДНК-генеалогия могут прояснить в хитросплетениях исторических фактов?  К счастью, многие историки начинают всерьез интересоваться методами популяционной генетики и ДНК-генетика применительно к вопросам этногенеза и миграции отдельных исторических этносообществ. К несчастью, нейтральные выводы генетики зачастую искажаются или подгоняются историками под те априорные модели, которых эти историки придерживаются. Вот, в свете этой переводной статьи хорвата Ивана Мужича, становится ясно, каким образом происходят злостные манипуляции с интерпретацией данных популяционно-генетического анализа. Этот автор придерживается комбинированной модели происхождения хорват (смешивание автохтонов и готов), поэтому он интерпретирует выкладки популяционной генетики по структуре Y-хромосомного генофонда хорват исключительно в свете предпосылки антропологической и генетической приемственности населения Балкан со времен палеолита.

1743460_10203015436016632_1110433635_n
Такие манипуляции нуждаются в опровержении — и именно эту задачу я считаю главной в своем исследовании.

Новые работы по молекулярной генетике Y-хромосомы

Начало января 2014 года не было богато новыми публикациями на тему популяционной и эволюционной генетики человека. В числе немногих публикаций, стоит отметить 2 статьи, в которых затрагиваются вопросы реконструкции Y-филогенетического древа, оценки скорости мутации и влияния естественного отбора на молекулярно-биологические особенности Y-хромосомы.

Стоит отметить, что по понятным причинам Y-хромосому вряд ли можно отнести к популярным объектам исследования генетиков. Одной из причиной отсутствия мотивации изучения Y-хромосомы является крайне низкая плотность распределения генов на этой хромосоме.

По состоянию на 2012 год известно несколько десятков генов на Y-хромосоме в отношении которых имеется корреляция с наследуемыми признаками или риском заболеваний. В английской Википедии приведен ряд самых важных сцепленных с Y-хромосомой генов:

ASMTY (acetylserotonin methyltransferase),
TSPY (testis-specific protein),
IL3RAY (interleukin-3 receptor),
SRY (sex-determining region),
TDF (testis determining factor),
ZFY (zinc finger protein),
PRKY (protein kinase, Y-linked),
AMGL (amelogenin),
CSF2RY (granulocyte-macrophage, colony-stimulating factor receptor, alpha subunit on the Y chromosome),
ANT3Y (adenine nucleotide translocator-3 on the Y),
SOX21 (known to cause baldness),
AZF2 (azoospermia factor 2),
BPY2 (basic protein on the Y chromosome),
AZF1 (azoospermia factor 1),
DAZ (Spermatogenes is deleted in azoospermia),
RBM1 (RNA binding motif protein, Y chromosome, family 1, member A1),
RBM2 (RNA binding motif protein 2), and
UTY (ubiquitously transcribed TPR gene on Y chromosome).
USP9Y
AMELY

Принимая во внимание эти обстоятельства, любая из публикаций на тему Y-хромосомы заслуживает пристольного внимание, особенно в тех случаях когда она содержит новые фактологические данные, полезные для антропологических и генеалогических реконструкций.

Итак, в первой работе «New chronology of Y chromosome phylogeny» (Scozzari et al. 2013), авторы возвращаются к старой проблеме определения топологической структуры Y-хромосомного филогенетического дерева человечества и датировки возраста каждой из Y-хромосомных гаплогрупп. Путем интерполяции скоростей SNP-мутаций в аутосомах, авторы приходят к выводу, что частота мутаций в Y-хромосоме равна 0,64 х 10e-9 . Эта величина лежит в промежутке между двумя другими, недавно опубликованными значениями скорости мутаций. Вместе с тем,  полученная методом интерполяции величина скорости мутации ниже, чем значение полученное путем прямого измерения этой величины. Используя предложенную величину скорости мутаций, авторы определили приблизительное время дивергенции самых древних ветвей на Y-хромосомном древе человечества.

Вторая статья, в силу специфичности своего материала, будет интересна прежде всего специалистам в области эволюционной биологии или медицинской генетики. В статье «Natural selection on human Y chromosomes» Jangravi et al. (2013) идет речь о новом интересном проекте в рамаках проекта по изучению Human Proteome (Y-HPP). Объектом изучения в этом проекте является Y -хромосома, вернее MSY — male-specific region of Y. Этот замечательный проект планируется запустить в течение ближайших 10 лет, и как утверждается в статье «конечная цель проекта состоит в подробном отображении и аннотации всех протеинов, кодируемых генами в сиквенсе MSY».  Вместе с тем, наряду с описанием планов проекта, обсуждаемая статья содержит в себе превосходный  реферативный сводный обзор всех предыдущих работ на тему Y-хромосомы. В этом смысле, статья представляет собой a must read для любого человека, желающего  систематизировать и расширить свои знания в области структуры и функции Y-хромосомы.
Как известно, специфически мужская (нерекомбинантная) часть Y хромосомы (MSY) состоит из трех  доменов-регионов, первоначально описанных в статье Skaletsky et al. (2003 ) :

  •    X- вырожденый регион (остатки предковых половых хромосом )
  •     X- транспонированный регион ( результат переноса части генов с X хромосомы на Y хромосому после разделения линий шимпанзе и человека )
  •    Регион ампликонов (дупликаций) ( повторящаяся область — результат переноса генов с аутосомных хромосом).

В дополнение к этим регионам в специфически мужской части Y хромосомы, на ней имеются два псевдоаутосомных региона, последовательность нуклеотидов к котором являются гомологичным аналогичным участкам на Х-хромосоме.

Интересные факты

Доказано существование 60 уникальных генов ( локусов ) на специфически мужской части (MSY) Y -хромосомы, но надежное доказательство производства протеиновго продукта имеется только для  20 из этих генов. Это означает, что  хотя последовательность ДНК указывает на наличиие функционирующего генного продукта, и у исследователей есть образцы транскриптов для большинства из них, эспериментальные анализы не смогли показать наличие произведенного геном функционального белка.

  1. Из всех протеинов MSY, примерно у 16,0 % отсутствует известная молекулярная функция.
  2. Субклеточная локализация 25,0% протеинов остается неизвестной.
  3. Примерно 15% всех женщин с XY (sex-reversal), имеют мутации в гене SRY.
  4. Ген SRY вызывает дифференциацию первичных клеток Сертоли, стимулируя формирование яичка и подавляя гены, которые способствуют образованию женской половой железы, начиная  примерно с 7 недели развития плода.
  5. 5.  Сертоли-клеточный синдром. 

В основе заболевания — аплазия зародышевой ткани яичка, что приводит к бесплодию. При биопсии яичек обнаруживают умеренное уменьшение размеров извитых канальцев семенников и отсутствие зародышевых клеток. Семенные канальцы выстланы только клетками Сертоли. В эякуляте таких больных сперматозоиды не обнаруживаются. С точки зрения генетики синдром является результатом мутаций в локусах DDX3Y и USP9Y .DDX3Y (АТФ- зависимая РНК- хеликаза ) и USP9Y ( кодирует протеазу с специфической активностью к убиквитину и участвует в регуляции метаболизма белка ( обмене белков) ).

6.  Каждый шестой образец рака простаты показал, по крайней мере, потерю некоторых  генов в MSY регионе Y хромосомы. Уменьшение  ( <20 ) числа копий гена TSPY связано с увеличением риска развития рака простаты.

В работе приводится ссылка на  базу данных белковых взаимодействий Y- сцепленных генов. Эта база данных доступна в разделе PPI .  К сожалению,  большинство пост-трансляционных (эпигенетических) модификаций (то есть тех изменений, внесенных в белок, который мы не можем в настоящее время предсказать исходя из  ДНК-последовательности гена ) до сих пор плохо изучены. Для Y -сцепленного гена DDX3Y по крайней мере, были обнаружены примерно 67 посттрансляционные модификации, исходя из пять разных типов пост-трансляционного воздействия (фосфорилирования, дезаминирования , ацетилирования, убиквитинирования и метилирования).

Созданный в рамках проекта по изучения протеома человека, проект PPI интересен свой структурой. В отдельных его разделах можно найти подробную информацию о генных продуктах,  информацию о экспресии и онтологии гена. Лично мне были интересны некоторые типы интеракций продуктов генов Y-хромосомы, в частности протеина SP1 (Co-Immunoprecipitation), который участвует в синергической активации гена MAO (расположенного на X хромосоме). Расположенный на X-хромосоме ген, кодирующий МАО-А  оказался первым кандидатом в «гены агрессии «. В 1993 г. Х.Г. Бруннер с коллегами  описали семью, в которой пятеро мужчин характеризовались некоторым снижением интеллекта и агрессивностью. У всех этих мужчин была обнаружена точковая мутация (замена одного из нуклеотидных оснований на другое) в гене МАОА. Эта мутация вела к дефициту МАО и тем самым к возрастанию уровня серотонина, что противоречило общепринятым представлениям о снижении уровня серотонина при импульсивной агрессии (подробности здесь).

Наконец, в отдельном меню приведены систематизированные (по генам) данные о связи отдельных заболеваний или синдромов с определенными типами экспресии генов или микроделеций. Любопытно, что спектр изученных Y-хромосомных ассоциаций с заболеваний пока изучен слабо — в основном это нарушения мужской фертильности, рак простаты, реверсии пола, аутизм.

Происхождение гаплогруппы I2a и путь миграции ее носителей в Европе (часть 2)

Еще в 2010 году я пробывал спроецировать итоги дискуссии о «начале гаплогруппы I» (Молген), а  также возраста гаплогрупп I1,I2a1,I2a2,I2b1,I2b2* (рассчитаные Кеном Нордтведтом)  на археологическую карту Европы эпипалеолита и раннего мезолита.
*——
С 2010 года ISOGG-номенклатура субклад гаплогруппы I поменялась. Я не стал вносить изменения в ранее сделанную карту, однако в целях синхронизации предыдущих своих наработок с современной номенклатурой нужно отметить что I1,I2a1,I2a2,I2b1,I2b2 в современной номенклатуре называются I1,I2a1a,I2a1b,I2a2a,I2a2b.

Карта строилась из предположения о моногаплогрупности Европы в палеолите. Это минимальное допущение — но возможно, что оно методологически
неверно. Во-первых, теоретически в Европе периода палеолита могло быть больше гаплогрупп, а в пределах I -больше «гипотетических субкладов»**.

**————

Данные статьи Lazaridis et al. 2013.  содержат убедительную аргменты в пользу существования в структуре I потерянных I* cубклад. В частности два образца с мезолитической стоянки Motala (Motala 2 и Motala 9) были определены как I*.
Если первое кажется маловероятным (т.к. если гаплогруппа I осталась в Европе, почему не остались другие), то второе заключение о большем разнообразии гаплогруппных субкладов кажется логичным.Тем не менее, ответ можно узнать только после анализа древних Y-ДНК.

Вот что примерно получилось.

Главнывывод, наверное, следущий -наибольшое разнообразие субкладов было в «Атлантидемезолитической Европы» — Доггерланде, на котором, видимо, находился эпицентр круга целого ряда мезолитических культур Маглемозе. Почему именно там? Около 8000 г. до н. э. северное побережье массива суши, Доггерленд, представляло собой береговую линию с лагунами, болотами, приливными берегами и пляжами. Возможно, в эпоху мезолита этатерритория была богатейшей в Европе с точки зрения охоты, добычи птицы и рыболовства ( Vincent Gaffney, «Global Warming and the Lost European Country»;
Patterson, W, «Coastal Catastrophe» (paleoclimate research document), University of Saskatchewan).

Следовательно, принимая во внимание богатство экологических ресурсов, охотники и рыболовы позднего палеолита и мезолита должны были стекаться туда в большем количестве. Доггерланд погрузился под воду в результате гигантского оползня Стурегга (когда от Норвегии откололся кусок побережья объемом 3 000 куб.кум) или вызванного оползнем цунами около 8200 лет назад (6200 г. до н. э.). Это отрезало мезолитические культуры Британских островов и часть популяции субклада I2a2a от континента. Что интересно — по расчетам Нордведта точка коалисценции (схождения генетических линий субклад
I2a2a-Isles***) составляет как раз примерно 8 000 лет до нашего времени.

***___________

В номенклатуре ISOGG I2a1b2. Isles — условное название кластера, представленного главным образом на Британских островах.

Представляю читателю результаты проекции гипотетических ареалов субклад I на карту Европы эпохи финального палеолита и мезолита.

Археологические культуры обозначены следующим образом:

1 — маглемозе (по Г. Кларку); 2 -аренсбургская; 3 — свидерская; 4 — тьонгер; 5 — рёссен; 6 — федермессер; 7 -ларнийская; 8 — обанская; 9 — крезвельская; 10 — фосна; 11 — комса; 12 -суомусярве; 13 — аскола; 14 — кунда; 15 — днепро-деснинская; 16 — верхнедонская;17 — волго-окская; 18 — днепро-донецкая; 19 — астурийская; 20 — раковинных куч устья р. Тахо; 21 — тарденуазская; 22 — советеррская; 23 — микролитические памятники Прованса; 24 — азильская; 25 — эпиграветт; 26 — альпийская; 27 -чешско-тюрингский мезолит; 28 — типичная капсийская; 29 — капсийская и иберо-мавританская; 30 — мезолитические памятники испанского Леванта

Источник (исходник) карты: Археология Западной Европы. Каменный век., Монгайт А.Л.

Субклады I и Европа в эпоху финального палеолита и мезолита
Европа в эпоху финального палеолита и мезолита