Формальный анализ смешивания предковых популяций: белорусы, часть 2

Итак, после определения значимых для формального статистического моделирования комбинаций предковых популяций (или вернее, их суррогатов) представляется возможным смоделировать две вещи. Во-первых, необходимое с точки зрения статистики, число «импульсов» или «потоков» смешивания, а во-вторых, пропорции вклада «предковых» групп в генофонд белорусов.

Результаты анализа в программах qp3Pop и qpDstat показали, что в референтной группы белорусов присутствуют сигналы смешивания трех групп — мезолитических охотников-собирателей Европы (WHG), неолитических популяций земледельцев с Ближнего Востока и cибирских охотников-собирателей (чьи потомки в составе индоевропейцев) распространили свои гены по всей Европе.

Но меня больше интересует вопрос оценки величины доли вклада так называемого «базального компонента»(Basal Eurasian):

«четвертый элемент» — тот «базальный» компонент генофонда Европы, который проявился при моделировании истории сложения генофонда Европы в работе [Lazaridis et al., 2014] (см. раздел 8.4, рис 8.20) — предковой евразийской группой, которая внесла свой большой вклад и в геном неолитических земледельцев. Из аналогичной по методам модели, созданной в рассматриваемой работе [Seguin-Orlando et al., 2014], следует (рис. 8.6), что в геном человека из Костенок эти таинственные «базальные евразийцы» внесли не менее важный вклад, чем и верхнепалеолитические западные евразийцы. Также из модели следует, что он имел и общих, хотя и более отдаленных предков с древними северными евразийцами восточного ствола.

В этих целях я решил использовать в качестве суррогата базального евразийского генома геном Mota (древнего жителя Африки), примерно половину генома которого составлял тот самый пресловутый базальный компонент (результат обратных миграций натуфийского населния Ближнего Востока в восточную Африки)

Итак, в начале используем программу qpWave из того же пакета Admixtools

parameter file: qpWave.par

THE INPUT PARAMETERS

##PARAMETER NAME: VALUE
indivname: data.ind
snpname: data.snp
genotypename: data.geno
popleft: left
popright: right
maxrank: 6

qp4wave2 version: 200

left pops:
Levant_N
Mota
WHG
EHG

right pops:
Han
Onge
Papuan
Kostenki14
Ust_Ishim
Siberian_Upper_Paleolithic

0 Levant_N 13
1 Mota 1
2 WHG 2
3 EHG 3
4 Han 33
5 Onge 15
6 Papuan 14
7 Kostenki14 1
8 Ust_Ishim 1
9 Siberian_Upper_Paleolithic 1
jackknife block size: 0.050
snps: 572603 indivs: 84
number of blocks for block jackknife: 719
dof (jackknife): 631.955
numsnps used: 177238
f4info:
f4rank: 0 dof: 15 chisq: 574.447 tail: 9.47752373e-113 dofdiff: 0 chisqdiff: 0.000 taildiff: 1

<cf4info:
f4rank: 1 dof: 8 chisq: 115.553 tail: 2.7408605e-21 dofdiff: 7 chisqdiff: 458.894 taildiff: 5.4614954e-95
B:
scale 1.000
Onge -0.475
Papuan -0.521
Kostenki14 0.069
Ust_Ishim -0.746
Siberian_Upper_Paleolithic 1.986
A:
scale 290.851
Mota -0.932
WHG 0.299
EHG 1.429

f4info:
f4rank: 2 dof: 3 chisq: 8.502 tail: 0.036691843 dofdiff: 5 chisqdiff: 107.050 taildiff: 1.7204978e-21
B:
scale 1.000 1.000
Onge -0.462 -0.050
Papuan -0.522 -0.105
Kostenki14 0.288 2.189
Ust_Ishim -0.733 0.378
Siberian_Upper_Paleolithic 1.973 -0.232
A:
scale 286.604 578.115
Mota -0.951 -1.197
WHG 0.385 0.752
EHG 1.396 -1.001

f4info:
f4rank: 3 dof: 0 chisq: 0.000 tail: 1 dofdiff: 3 chisqdiff: 8.502 taildiff: 0.036691843
B:
scale 1.000 1.000 1.000
Onge -0.400 -0.203 1.065
Papuan -0.459 -0.258 0.882
Kostenki14 0.299 2.175 0.273
Ust_Ishim -0.645 0.116 1.513
Siberian_Upper_Paleolithic 2.031 -0.382 0.850
A:
scale 282.949 595.536 1395.824
Mota -0.857 -1.172 0.944
WHG 0.466 0.827 1.449
EHG 1.431 -0.971 0.093

## end of run

Нас интересует статистика f4rank 2, и как видно она убедительна: chisq: 8.502 tail: 0.036691843 dofdiff: 5 chisqdiff: 107.050 taildiff: 1.7204978e-21.  То есть, для моделирования референсной популяции достаточно трех «источников» (в f4rank 3, т.е с 4 предковыми популяциями, статистика гораздо хуже: chisq: 0.000 tail: 1 dofdiff: 3 chisqdiff: 8.502 taildiff: 0.036691843 ).

Следующим этапом будет оценка пропорций «адмикса», образованного смешением трех «источников»:

 

parameter file: qpAdm.par

THE INPUT PARAMETERS

##PARAMETER NAME: VALUE
genotypename: data.geno
snpname: data.snp
indivname: data.ind
popleft: left
popright: right
maxrank: 8

qpAdm version: 200

left pops:
Belarusian
Mota
WHG
EHG
right pops:
Han
Onge
Papuan
Kostenki14
Ust_Ishim
Siberian_Upper_Paleolithic
0 Belarusian 25
1 Mota 1
2 WHG 2
3 EHG 3
4 Han 33
5 Onge 15
6 Papuan 14
7 Kostenki14 1
8 Ust_Ishim 1
9 Siberian_Upper_Paleolithic 1
jackknife block size: 0.050
snps: 572603 indivs: 96
number of blocks for block jackknife: 719
dof (jackknife): 628.796
numsnps used: 227599
codimension 1
f4info:
f4rank: 2 dof: 3 chisq: 20.724 tail: 0.000120097824 dofdiff: 5 chisqdiff: -20.724 taildiff: 1
B:
scale 1.000 1.000
Onge -0.502 0.176
Papuan -0.562 0.218
Kostenki14 0.442 2.074
Ust_Ishim -0.735 0.779
Siberian_Upper_Paleolithic 1.923 -0.110
A:
scale 285.645 552.926
Mota -1.490 -0.238
WHG 0.017 1.685
EHG 0.883 -0.324
full rank 1
f4info:
f4rank: 3 dof: 0 chisq: 0.000 tail: 1 dofdiff: 3 chisqdiff: 20.724 taildiff: 0.000120097824
B:
scale 1.000 1.000 1.000
Onge -0.502 0.178 0.403
Papuan -0.599 0.280 0.995
Kostenki14 0.455 2.029 -0.773
Ust_Ishim -0.773 0.879 1.373
Siberian_Upper_Paleolithic 1.893 0.008 1.168
A:
scale 288.199 555.700 1346.772
Mota -1.449 -0.056 0.947
WHG 0.026 1.726 0.141
EHG 0.948 -0.132 1.444
best coefficients: 0.318 0.148 0.534
ssres:
0.000295769 0.000789821 0.000059100 0.001247609 0.001271289
0.335431254 0.895733409 0.067025433 1.414909018 1.441765444

Jackknife mean: 0.316895017 0.150748678 0.532356305
std. errors: 0.035 0.067 0.045
error covariance (* 1000000)
1212 -1838 625
-1838 4506 -2668
625 -2668 2043
fixed pat wt dof chisq tail prob
000 0 3 20.724 0.000120098 0.318 0.148 0.534
001 1 4 125.483 0 -0.088 1.088 0.000 infeasible
010 1 4 25.750 3.55457e-05 0.378 0.000 0.622
100 1 4 102.973 2.28952e-21 0.000 0.702 0.298
011 2 5 336.445 0 1.000 0.000 0.000
101 2 5 127.950 6.47788e-26 0.000 1.000 0.000
110 2 5 184.757 0 0.000 -0.000 1.000
best pat: 000 0.000120098 - -
best pat: 010 3.55457e-05 chi(nested): 5.025 p-value for nested model: 0.0249831
best pat: 101 6.47788e-26 chi(nested): 102.201 p-value for nested model: 5.01661e-24

end of run

Итак, лучшими коэффициентам (пропорциями адмикса) являются 0.318 0.148 0.534. То есть референсная популяция белорусов может быть смоделирована как 30 % базального компонента, 15% компонента мезолитических охотников собирателей и 53% компонента жителей степи бронзового века («индоевропейцев»). Очевидно, что большая часть базального компонента попала в Европу вместе неолитическими земледельцами, а оставшаяся часть — была принесена индоевропейцами.

 

Реклама

Формальный анализ модели смешивания предковых популяций: белорусы

Перед подготовкой релиза новых калькуляторов K16 и K11 на Gedmatch, я решил провести пилотный (пробный) анализ референсной популяции белорусов (в которую входят публичные образцы из  базы данных HumanOrigin, EGDP новой панели референсных геномов Эстонского биоцентра, а также данные белорусов — участников моего проекта MDLP). Основным инструментом формального анализа надежности модели будет известный и популярный пакет Admixtools.
Перед тем, как дать краткое описание первых шагов, хочу отметить трудности работы с Admixtools — в первую очередь, крайнее низкую степень документированности (описания) практических аспектов работы большинства входящих в пакет инструментов. Данное обстоятельство существенным образом снижает темп изучения этого все более популярного пакета (с другой стороны, похоже что лаконичность изложения задумывалась изначально, для отсеивания слабо мотивированных дилетантов-любителей). Второе обстоятельство, затрудняющее использование Admixtools, заключается в необходимости компилировать отдельные компоненты пакета.

Пакет содержит шесть программ

 

convertf: программа конвертирования форматов
qp3Pop: формальный анализ сигнала "смешивания" в трех популяциях
qpBound: программа, вычисляющая верхнюю и нижнюю границу смешивания в трех популяциях (2 референсные популяции и 1 одна популяция, предположительно образованная за счет смешивания двух референсных популяций) 
qpDstat: формальный анализ "адмикса" в 4 популяциях
qpF4Ratio: программа для определения пропорций адмикса за счет проведения 2 f4-тестов
rolloff:  программа датировки адмикса.

В приницпе, четкого порядка работы с этими программами нет, однако авторы рекомендуют следовать приведенному списку (т.е. начинать с qp3Pop и заканчивать rolloff)

Outgroup-статистика f3 является крайне полезным аналитическим инструментом для понимания взаимных отношений разных популяций: основная задача теста состоит в определении характера этих отношений. Образована ли целевая популяция (target) за счет смешивания двух рефересных популяций, или же  популяции представляют собой две простые ветви популяционного дерева человечества (т.е. в образовании таргетной популяций не участвовали референсные популяции)

Статистика f3, так же, как два других вида статистик — f4 и f2 — представляют собой меру корреляции частот аллелей между рассматриваемыми популяциями. Все эти виды статистик были введены в научный оборот попгенетики биоинформатиком Ником Паттерсоном в статье 2012 года.

Статистика f3 используется в двух целях:

  1. в качестве теста  сигнала «адмикса» двух популяций-источников (A и B) в «целевой популяции» (С)
  2. для измерения общего разделяемого дрейфа двух тестовых популяций  (А и В) по отношению к  внешней группе (С).


В этой публикации я приведу пример первого случая использования. Статистика f3 в обоих случаях определяется как произведение разниц частот аллелей  между популяции C, А и В, соответственно:

  1. F3=<(c-a)(c-b)>

Итак, первый случай употребления (для определения сигнала смешивания), белорусы выступают в качестве тестовой популяции, две референсные популяции образованы пермутацией имеющихся у меня популяций

Итак, промежуточные результаты (я выбрал только комбинации с негативным значением Z, свидетельствующие о сигнале смешивания) :

Следующий тип статистики — f4, — реализован в программе qpDstat в виде D-статистки. Это формальный тест адмикса четырех групп (таксонов или популяций), позволяющий определить направления потока вливания генов. Немного теории:

Для любых 4-х популяций (W, X, Y, Z), qpDstat вычисляет D-статистику следующего вида

num = (w — х) (у — z)
den = (w + х — 2wx) (у + z — 2yz)

D = num / den

Результат qpDstat показывает направления вливания генов. Таким образом, для 4 групп (W, X, Y, Z) верно следующее положение:

Если значение Z положительное ( + ), то обмен генами происходил либо между W и Y, либо между X и Z
Если значение Z отрицательное (-), то обмен генами происходил либо между W и Z,  либо между X и Y.

 Кроме определения направления генного дрейфа, очень важным практическим применением D-статистики служит определения «левых» и «правых» популяций для теста qpAdm (о нем чуть позднее). Так, например,  комбинация из двух первых популяций left {L,L}  и двух правых популяций {R, R} должна быть выбрана таким образом, чтобы значение Z в D-статистике
a) было неотрицательным, и b) имело высокое абсолютное значения.  Я решил последовать совету и сгенерировал 225822 комбинаций из четырех популяций {W,Y,X,Z}, где W — фиксированная первая таргетная популяция «левого» списка, в нашем случае белорусы, Y — одна из имеющихся групп палеогеномов, X и Z — пермутация из 16 «чистых» современных популяций описанных в работе Lazaridis et al. 2016.

Итак, вот результаты (и снова я не привожу полный список, а только те комбинации, которые могут быть использованы для выбора состава «левых» и «правых» популяций.  и последующего моделирования в qpAdm):

SNPweights: использование модели калькулятора K16 для анализа главных компонентов происхождения

Ранее я уже отрапортовал о создании двух новых моделей для стандартного этно-популяционного калькулятора, в разработке которых использовались геномы людей, cамостоятельно указавшими свое происхождение (self-reported ancestry).
К сожалению, очень часто субъективная оценка собственного происхождения (указываемого респондентами в опросниках) недостаточно надежна для статистических методов анализа происхождения, поскольку некоторые люди либо сообщают ложные сведения о своей родословной или же просто не знают о своем истинном происхождении. Что еще хуже, — во многих публичных популяционных выборках мы не находим никаких  сведений о точном этническом составе людей в выборке . Как многие из вас знают,  существует множество способов достаточно точной оценки происхождения индивида на основе данных SNP генотипирования.

Самый простой способ сводится к следующему: сначала исследователь объединяет генотипы из своего исследования с генотипами образцов в референсной панели (например: HapMap или 1000 геномов),  затем находит пересечение SNP-ов в каждом наборе данных, а затем запускает программу кластеризации, чтобы увидеть, каким образом образцы исследования группируются с популяциями референсных панелей.  В принципе,  сам процесс несложный, но требует немало времени

К счастью, в 2014 году лабораторией Alkes была предложена программа которая, по сути, значительно облегчает процесс, выполняя большую часть работу за вас. Программа называется SNPWEIGHTS и можно скачать здесь.  Говоря простым языком, программа принимает  в качестве входных данных генотипы SNP-ов, самостоятельно находит пересечение генотипов SNP с генотипами в эталонной выборке , рассчитывает веса SNP-ов на основе предварительно настроенных параметров, чтобы построить первую пару главных компонентов (иначе говоря,  cобственных векторов), а затем вычисляет процентное значение происхождения индивидуума из каждой предковой популяции (кластера).

Для того, чтобы запустить программу, необходимо убедится в том, что в вашей системе установлен Python, и что ваши данные генотипирования приведены в формате EIGENSTRAT. Краткую инструкции по преобразованию в формат EIGENSTRAT с помощью инструмента convertf можно почитать здесь.  Данные аутосомного генотипирования FTDNA или 23andme можно напрямую преобразовать в формат EIGENSTRAT с помощью утилиты aconv от Феликса Чандракумара (либо любого самописного софта).

Затем необходимо загрузить сам пакет SNPWEIGHTS и референтную панель с весами снипов.

  • Панель весов SNP для популяций Европы и Западной Африки можно скачать здесь.
  • SNP веса для населения Европы, Западной Африки и  Восточной Азии можно скачать здесь.
  • SNP веса для населения Европы, Западной Африки, Восточной Азии и популяций американских индейцев можно скачать здесь.
  • SNP веса для популяций северо-западной, юго-восточной части Европы, ашкеназских евреев и можно скачать здесь.

Затем необходимо создать файл параметров par.SNPWEIGHTS с названиями входных файлов EIGENSTRAT, референтной панели, и файл c результатами. Например:

input_geno: data.geno
input_snp: data.snp
input_ind: data.ind
input_pop: CO
output: ancestry.txt

И, наконец, нужно запустиь программу с помощью команды inferancestry.py —par par.SNPWEIGHTS. Для того чтобы программа работала, убедитесь, что inferancestry.info и  файл референтной панели  находятся в том же каталоге, что и файл inferancestry.py.

Полученные результаты можно использовать для разных целей. Например,  можно сгенерировать два информативные графика.

Первый график — обычный график PCA c двумя первыми компонентами (собственными векторами) и наложенный на график процентный расклад компонентов происхождения:

Второй треугольный график, на каждом отрезке которого , представлен процентный вклад одной из трех исконных групп популяции (например: Европы, Африки и Азии, в случае с нашими данными этот пример можно заменить на европейских охотников-собирателей, земледельцев неолита и степных скотоводов эпохи бронзы).

Вот простой код генерирования этих графиков в R. В программе R нет базовых пакетов для построения триангулярных графиков, поэтому  нужно будет сначала установить пакет plotrix. Ancestry.txt  — это файл полученный на выходе из SNPWEIGHTS:

# EV Plot with Percent Ancestry Overlay
data=read.table("ancestry.txt", as.is=T, header=F)
names(data)
plot(data$EV1, data$EV2, pch=20, col="gray", xlab="EV1", ylab="EV2")
text(data$EV1, data$EV2,labels=round(data$EUR,2)100, cex=0.4, offset=0.1, pos=3)
text(data$EV1, data$EV2,labels=round(data$AFR,2)
100, cex=0.4, offset=0.1, pos=2)
text(data$EV1, data$EV2,labels=round(data$ASN,2)*100, cex=0.4, offset=0.1, pos=1)
#Triangle Plot
data$total=data$EUR+data$AFR+data$ASN # Need to account
data$European=data$EUR/data$total # for slight rounding
data$African=data$AFR/data$total # in the ancestry
data$Asian=data$ASN/data$total # estimation file for
data_p=data[c("European","Asian","African")] # triax.plot to work
library(plotrix)
triax.plot(data_p, pch=20, cc.axes=T, show.grid=T)

 

Разумеется, размещенные на сайте разработчика референтные панели носят ограниченный характер. Поэтому я решил заполнить пробелы, преобразовав аллельные частоты SNP-ов в 16 предковых компонентах в 16 синтетических «чистых» предковых популяций, каждая из которых состояла из 200 синтетических индивидов («симулянтов») состоящих на 100 процентов из одного компонента происхождения в модели K16). Файл с генотипами 3200 «симулянтов» я использовал для вычисления весов снипов в каждом компоненте. Продвинутые пользователи, желающие протестировать модель K16 до ее публичного релизма, могут скачать полученный файл с весами снипов  здесь, а затем, cледуя приведенным выше инструкциям, использовать его в качестве референтной панели (а затем сравнить свои результаты с усредненными результатами разных этнических популяций).

Я протестировал веса снипов в модели K16 (выражаю признательность автору программу Чену за помощь), и обнаружил, что между данными калькулятора и данными SNPWEIGHTS расхождения носят незначительный характер, хотя похоже, что SNPWEIGHTS не так сглаживает минорные компоненты происхождения (что позволяет легче выделить в пространстве главных компонент кластеры):

test (1)

Вторая фаза нового проекта

Две недели назад я сообщил об окончании первой фазы своего нового проекта (на первом этапе работы удалось собрать надежную выборку из более чем 5000 образцов более чем 250 различных этно-популяционных групп людей по всему миру.

Как я уже рапортовал ранее, самой сложной из запланированных на втором этапе задач являлась импутирование (импутация) отсутствующих генотипов.  Читатели моего блога помнят, что две предыдущие экспериментальные попытки импутирования больших выборок     — в 2013  и в 2015  — закончились неудачно (или, если говорить точнее, качество импутированных генотипов не оправдало моих завышенных ожиданий). В предыдущих опытах я задействовал мощную комбинацию программ ShapeIT и IMPUTE и  метод импутирования снипов за счет использования большой референсной панели аутосомных гаплотипов (из 1000 genomes),  гарантирующей более аккуратное определение генотипов.

На этот раз, я решил не повторять ошибок, и обратился к использованию других программ — в частности , к  Minimac3, хорошо зарекомендовавшую себя в работе с геномами 1000G.  К моему счастью, я набрел на недавно появившиеся публичные сервера, работающие с «облачным» сервисом импутирования Cloudgene. геномов.
Серверы импутирования геномов позволяют использовать полную референсную панель гаплотипов для точного определения недостающих генотипов в анализируемых данных. Пользователи подобных серверов могут загружать (предварительно фазированные или несфазированные) данные генотипов на сервер. Процедура импутирования  будет осуществляться на удаленном сервере, и по окончанию этого процесса рассчитанные данные доступны пользователю для скачивания. Наряду с импутированием, подобные сервисы позволяют провести процедуру контроля качества (QC) и фазировки данных в качестве предварительного этапа процесса импутирования генотипов.

Прототипы серверов импутирования уже доступны в институте Сангера и Мичиганского университета. В дополнение к вышеназванным серверам, можно упомянуть прототип сервера поэтапной полномасштабной  фазировки генотипов анализируемых образцов (прототип создан биоинформатиками Оксфордского университета). На мой взгляд, самое простое и доступное решение задачи импутирования на удаленном сервере было разработано сотрудниками   Мичиганского университета. Дополнительное преимущество этому решению дает грамотная документация по использованию сервиса.

Основная рабочая лошадка сервиса — это комбинация двух или трех программ — две програмы для фазирования диплоидных генотипов в гаплоидную фазу  ShapeIT и Hapi-UR , а в качестве основного ПО для самого процесса импутирования (определения) недостающих генотипов — вышеупомянутую программу Minimac3.

Описание эксперимента с импутированием генотипов на удаленном сервере

В самом начале,  я разбил свою выборку на пять когорт (т.к. референсные панели на сервере также разбиты на «этнографические группы»):

  1. европейцы (европейцы + кавказцы) — 1715 образцов -87169 снипа
  2. азиаты (+американские аборигены и аборигены островов Тихого Океана) — 2356 образцов — 87044 снипа
  3. африканцы — 1054 образца — 86754 снипов
  4. палеогеномы древних жителей Евразии, Африки и Америки -340 — 594500 снипов
  5. смешанные группы — преимущественно мозабиты, пуэрто-риканцы и др.
QC-Report
На рисунке показана корреляция между частотами аллелей в изучаемоей выборке (здесь: европейская когорта) и частотами аллелей в референсной панели

К моему вящему неудовльствию,  некоторые образцы в сводной выборке не прошли контроль качества — в первую очередь это касается образцов европейцев из базы данных POPRES, а также выборок статьи  Xing et al. (2010). Скорее всего, их нужно будет импутировать отдельно.

Несмотря на значительную скорость обработки генотипов на удаленном сервере, к настоящему времени эксперимент еще не доведен до конца.  Пока я планирую ограничиться импутированием генотипов в 3 первых когортах (т.к. импутирование палеогеномов с помощью современных референсных панелей гаплотипов вероятнее всего приведет к искажению истинного разнообразия палеогеномов за счет проекции на современные группы населения, хотя авторы статьи Gamba et al. 2014 в сопроводительном материале к своей статье утверждают обратное).

После окончания фазирования и последующей обработки генотипов европейской когорты в программе Plink (были отсеяны все варианты с вероятностью ниже 0.9) ,  я получил выборку из 1715 европейцев с 25 215 169 снипами против изначальных 87169, т.е число снипов в выборке увеличилось в 290 раз!
В азиатской когорте соотношение импутированных генотипов к исходным составило чуть меньшую величину 19 048 308 / 87044 = 219.

Проверка результатов

Разумеется, все полученные результаты нуждались в дополнительной проверке качества генотипирования.
Cначала я объединил импутированную европейскую когорту с когортой палеогеномов (которая не была импутирована) и рассчитал в программе PLINK 1.9 матрицу IBS (т.е. сходства образцов в выборке между собой, эта метрика отдаленно напоминает Global Similarity в клиентских отчетах 23andme), а затем усреднил данные по популяциям и произвел по усредненным значениям иерархическую кластеризацию по признакам сходства (IBS, identity by state). Результат превзошел все мои пессимистические ожидания

 

 

Как становится очевидно из приведенной выше кластерограммы,  в целом взаимное расположение популяций в кластерах соответствует (в общих чертах) взаимному географическому положению. Присутствуют, правда, и некоторые огрехи. Так, например, венгры очутились в одном кластере с русскими из Курска,  норвежцы — с русскими из Смоленска, а усредненные «русские» — с американцами европейского происхождения из штата Юта и французами. Трудно сказать, в чем здесь причина, тем более что матрица была составлена по значениям IBS (идентичности по состоянию), а не IBD (идентичности по происхождению).  Более подробные данные о попарных значениях IBS между популяциями выборки можно посмотреть в этой таблице

Импутированная азиатская когорта (несмотря на расширение географии за счет включения образцов коренного населения Америки и аборигенов бассейна Тихого океана)  тоже  оказалась на удивление надежной. Я пока не буду останавливаться на подробностях изучения этой когорты, вместо этого я размещаю здесь результаты MDS- мультдименсионального шкалирования образцов выборки, образованной в ходе слияния 2 импутированных когорт (европейской и азиатской) с 1 неимпутированной (палеогеномы). Цветовое обозначение точек соответствует определенным кластерам, выявленных в выборке с помощью алгоритма MCLUST (cледуя рекомендациям Диенека Понтикоса). Всего этих кластеров 15 и они обозначены последовательностью чисел от 1 до 15, и каждый из этих кластеров имеет свою четкую географическую привязку:

  • 1 — кластер популяций ближнего Востока и  Анатолии
  • 2 — кластер популяций северного Кавказа
  • 3 — «индоевропейский» кластер древних популяций Синташта, шнуровой культуры, Ямной культуры и т.д.
  •  4 — кластер аборигенных жителей Америки (эскимосов и индейцев)
  • 5 — суперкластер популяций средиземноморского и восточноевропейского региона
  • 6 — сибирский кластер алтайских и самодийских популяций
  • 7 — кластер популяций западной и северной Европы
  • 8 — кластер палеосибирских популяций (таких как чукчи, ительмены и коряки)
  • 9 — кластер аборигенных (австронезийских и тай-кадайских) популяций юго-восточной Азии (даи, атаяла и ами)
  • 10 — кластер неолитических популяций
  • 11 — еще один ближневосточно-средиземноморский кластер (ашкеназим, сардинцы и так далее)
  • 12 — кластер североиндийских популяций
  • 13 — кластер центральноазиатских популяций
  • 14 — поволжские популяции
  • 15 — разные групп индусов

 

Этногеномика беларусов — часть 1

I. Анализ аутосомного генофонда беларусов

Наряду с ставшими уже традиционными методами анализа структуры генофонда популяций по Y-хромосоме и митохондриальном ДНК (о которых мы упоминали выше), в последнее время все большее распространение получают новые и более точные методы анализа генофонда популяций, в основу которых положены данные о частотах аллелей большого числе генетических локусов на неполовых хромосомах. В силу того, что в передаче генетического материала на неполовых (аутосомальных) хромосомах участвуют как мужчины, так женщины, подробный и детальный анализ распространения аллельных вариант способен дать более точную характеристику процессов исторических и эволюционных процессов в отдельно взятой популяции. Кроме того, большая часть человеческого генома сосредоточена в неполовых хромосомах — количество генов (точнее определенных генетических локусов) локализованных на неполовых хромосомах, несоизмеримо выше числа генов в митоДНК и половых хромосмах. Поэтому анализ аутосомных хромосом обладает более высокой степенью информационного разрешения. Выбор типа локусов в нашем исследовании также обусловлен сугубо прагматическими соображениями.
Поскольку существует разные типы генетических маркеров, мы ограничились снипами — точечными мутациями, представляющими собой замену одиночного нуклеотида. Как было показанов других исследованиях, математико-статистические методы исследования распределения аллельных вариантов(генотипов) отдельных снипов характеризуются наивысшой разрешающой способности в плане изучения воздействия всех известных генетических эффектов на историческую демографию популяции.

Перед тем, как перейти к весьма сжатому и краткому описанию результов анализа популяции беларусов по определенному набору типированных снипов,  следует вкратце описать предысторию изучения аутосомных маркеров беларуской популяции. Как уже отмечалось выше, новые методы исследования генофонда популяция с помощью изучения статистических характеристик одиночных нуклеотидных вариантов (SNV/SNP), были введены в популяционной генетике и биоинформатике относительно недавно. В более ранней парадигме, анализ (в том числе, и сравнительный) аутосомной составляющей генофонда состоял в определении набор-панели высокополиморфных и слабо сцепленных между собой аутосомных ДНК маркеров. В то же самое время, насколько нам известно, аналогичный анализ с использованием другого типа маркеров –снипов- до совсем недавнего временине проводился. Например, в исследованиях аутосомных ДНК-маркеров часто использовался стандартный набор CODIS, который первоначально разрабатывался для нужд ДНК-профилирования в криминалистике.В данную систему CODIS входят 16 аутосомных STR локусов и амелогениновый тест на определение половой принадлежностиОднако относительно простота амплификации сателлитной ДНК в формате мультиплексной PCR, и доступность методов статистической обработки с использованием современных статистических подходов, применяемых в популяционной генетике и судебной медицине, привела к тому что эта система часто использовалась в ранних исследованиях генофонда популяций Восточной Европы.

Cамой масштабной работой такого рода( а именно, c использованием классических аутосомных маркеров STR), является совместная статья Балановского и Тегако. В свете нашего исследованияпредставляется нужным отметить наиболее интересующий нас аспект вышеупомянутой работы, а именно сравнительный анализ генофонда беларусов с генофондами других популяций Западной Евразии. Как отмечают авторы, cравнительный анализ генофондов Западной Евразии показал, что «поаутосомным ДНКмаркерам все восточные славяне входят в один кластер Восточной Европы. Однако русские и украинские популяции расположены ближе друг к другу, чем к белорусам… Русские и украинцы оказываются ближе к популяциям Западной и Южной Европы, чем белорусы. К сожалению, по этим маркерам не изучены ближайшие западные и северные соседи белорусов, и в частности, балтские народы. Можно предполагать, что некоторое своеобразие генофонда белорусов связано с вкладом балтского субстрата»[1]
Использованные в работе Балановского и Тегакогенетические данные по генофонду популяций беларусов были взяты из баз данных Института генетики НАН Беларуси, где хранятся базы данных по 35 аутосомным генам, изучаемых, главным образом, в целях медицинской генетики. Однако, как отмечается в статье О.Давыденко и Е. Кушнеревич «Гаплогруппы Y-хромосомы и происхождение национального генофонда», для эволюционных исследований эти маркеры не совсем удобны, так как на частоту и характер распространения аллелей зачастую оказывает влияние жесткий естественный отбор, и поэтому по одним только результатам анализа распределения частот невозможно судить о генетическом родстве разных популяций.[2]

Несмотря на то, что основное внимание в статье Давыденко и Кушнеревич уделяется анализу Y-хромосомных гаплогрупп беларусов, в конце статьи авторы мимоходом упоминают о результатх исследования аутосомного генофонда, проведенного междунродным коллективом под руководством Дорона Бехара[3]:

«В работе израильского ученого Дорона Бехара с соавторами изучались различные популяции евреев и анализировалась генетическая взаимосвязь между ними и их «хозяйскими» популяциями. В большинстве случаев эта связь была незначительной. Белорусская «хозяйская» популяция также исследовалась с использованием именно нашего ДНК-банка, то есть эти данные весьма сопоставимы, поскольку сделаны на одной той же представительной выборке. Ученые сравнивали 100 тыс. однонуклеотидных замен (то есть изучали 100 тыс. точек, разбросанных по всему геному человека). Результаты работы демонстрируют достаточно близкий спектр изменений у белорусов, литовцев и русских и свидетельствуют о присутствии трех основных «древних» компонентов в сопоставимых пропорциях. Это также косвенно указывает на возможность общего происхождения славян и балтов, а также на то, что основы генофонда различных европейских народов заложены еще в доисторическое время.Если сопоставить данные математической лингвистики с данными по геномному анализу, нельзя не увидеть определенного параллелизма не только в дивергентном характере, но и во временных оценках эволюции – как языка, так и генетики. Эти данные также могут свидетельствовать в пользу предположения общности происхождения славян и балтов из некогда единой популяции.»

В приведенной выше цитате мы выделили самую важную часть, в которой авторы высказывают предположение о том, что присутствие трех основных древних компонентов указывает на возможность общего происхождения славян и балтов. Очевидно, что предложенная авторами спорная(на наш взгляд) интерпретация противоречит выводам Балановского и Тегако о том, что своебразие аутосомного генофонда беларусов может быть связано с вкладом балтского субстрата. К сожалению, в обеих статьях авторы не сочли нужным подробно аргументировать свои выводы по столь важному вопросу. Поэтому одной из задач нашего небольшого исследования мы ставим критический разбор обеих утверждений на основане полученных нами данных о структуре аутосомного генофонда беларусов.

 

[1] Балановский О. П., Тегако О. В. Генофонд белорусов по данным о трех типах генетических маркеров — аутосомных, митохондриальных,Y-хромосомы.

[2] Давыденко Олег, Кушнеревич Елена.2011. Гаплогруппы У-хромосом и происхождение национального генофонда. Наука и Инновации.Тайна происхождения белорусов. 9(103),12-15.

 

[3] Behar, Doron.M.2010.The genome-wide structure of the Jewish people.Nature 466, 238–242.

Дайджест новостей генетики и ДНК-генеалогии за январь-февраль 2014 года (часть 2)

**

Разработчики pyGenClean разместили полезный инструмент для предварительной подготовки выборки популяций для GWAS и этно-популяционного анализа. С помощью можно значительно автоматизировать относительно сложный процесс нахождения генетических outliers (т.е посторонних образцов выделающихся на фоне гомогенной однородной структуры популяции), а также провести многомерное шкалирования имеющихся популяций.

**

Я закончил проект по изучению структуры аутосомного генофонда грузинских этнографических групп. Ниже приведены выполненные в проекте публикую графики c результатами многомерного скалирования (MDS) и  анализа главных компонент (PCA) в изученной выборке. Еще я понял свою главную ошибку во время работы с предыдущими графиками — она состоит в том, что я раньше не сохранял в R framework данные и историю проделанных над ними операций. R очень гибкая среда для статистического анализа, но в силу большого разнообразия существующих пакетов для визуализации данных для выполнения одних и тех же команд часто возникает путаница с выбором подходящей техники визуализации. Поэтому лучше всего не начинать каждый раз с нуля, а сохранять workflow для последующих экспериментов. 1488015_10202873063857417_243934024_n 1526938_10202873450227076_1155088601_n

**

В русскоязычном секторе Интернета увеличивается число простых людей (и не совсем простых людей, вроде Татьяны Толстой), которые не боятся рассказывать открыто о своих генетических рисках, хотя в силу своего непонимания того что именно означает указанная в отчете risk odd (вероятность риска) , многие их выводы выглядят наивными.
Впрочем, ничего нет нового под Луной. Многие из моих сверхоптимистеских собеседников предполагали, что именно благодаря 23andme у рядового обывателя появилась возможность  наблюдения за своими генотипами (или геномами , под которым мы — summa summarum — понимаем здесь всю совокупность прочитанных генотипов), и даже за динамикой экспрессии свого экзома.
Тем не менее, даже я помню, как задолго до начала моего увлечения генетикой, примерно в 2002 году я видел передачу про исландскую компанию Decodeme по Discovery Channel. После длинного интервью с тогдашним ведущим сотрудником этой компании (К.Стефансон), в котором он рассказал о тотальном (почти 80%) генотипировании всей исландской нации, создатели фильма взяли краткие интервью у простых исландцев. Мне запомнился один исландец-докер, который — не отрываясь от процесса разгрузки траулера с рыбой, — с улыбкой на лице сказал: «Я могу выпивать по 10 чашек кофе в течении одного часа. Cогласно исследованиям ученных из DeCODE Genetics, в гене метаболизма кофеина у меня аллельный вариант, повышаюший скорость метаболизма кофеина».
Вывод — 23andme не были первыми, их заслуга в другом — в том что они вывели персональную геномику (в ее упрощенной форме) на новый, международно доступный уровень.

**
Компания Nanoporetech выпустила на рынок портативное устройство MinION, предназначенное для анализа молекул (в том числе и молекул ДНК), его можно применять для анализа структуры протеина и секвенрования ДНК. Устройство можно подключить к обычному компьютеру через USB-порт.
**

Уважаемый Pavel Bernshtam предложил реалистичную перспективу на стартапы. Кроме всего прочего, между строк замечаний Бернштама можно прочитать имплицитное неявное объяснение феномена значительной молодости самых известных стартаперов (им нечего терять и их руки-головы не связаны-загружены семейными обязанностями прокормки супруги и спиногрызов).
Я стою на перепутье выбора между развитием идеи этно-популяционного ДНК-калькулятора в форме стартапа, либо форме краудсорзинга, либо некоммерческая инструментализация разработки в криминалистике (в виде патента на методику нового вида криминалистической ДНК-экспертизы, которая со временем заменит надоевший всем фбр-овский CODIS):

«Хорошо, если просили про стартапы. Для стартапа нужно несколько вещей. Самое простое — идея. Идея сама по себе не стоит ничего. 0. Самая классная идея — НИЧЕГО. Идея начинает хоть что то стоить (тоже немного) если на ее основе написан бизнес план. Обоснованный бизнес план. Бизнес план, который может убедить. Сколько юзеров придет к вам на сайт в первые полгода? миллион? А почему? Докажите. А сколько зарегестрируется? Почему?
Следущее, что нужно — человек, который может принести инвестиции. Для этого нужно — представительность, бизнес план, знакомства и уйма всего иного. Нужно найти выход на инвесторов (без выхода тоже можно, но разговаривать с тобой будут иначе), нужно что бы тебя порекомендовали, нужно уметь рассказывать и убеждать. Далее — деньги. Скорее всего у Вас не получится сделать прототип, достаточный для получения инвестиции вечером на коленке, параллельно с основной работой. Вам надо будет уволиться и писать код.»

**
Как Вы помните, на Gedmatch.com были размещены разработанные мною этно-популяционные калькуляторы MDLP на платформе DIY Dodecad. Они позволяют довольно-точно определять этническое и популяционное происхождение исходя только из сравнительноого анализа частот полиморфизмов ДНК протестированного человека с частотами полиморфизмов ДНК в референсных популяциях. Несмотря на простоту использования (загрузил свое raw data, нажал на кнопку — получил результат), основные пользователи этого инструмента — американцы — имеют траблз с пониманием и интерпретацией результатов. Вот например, из свежего, присланного мне в январе. Ко мне уже обращаются как к доктору, который должен выдать свой авторитетный этнодиагноз:

» I had my test at 23and me and it has me as 100 European.
My mom says its a lie as my dad was an inuit from Alaska .My kit is ******
Could you please debunk inuit story»

Papa was a rolling stone (c)

«My results are for North-Amerind, (North American Indian) .. I suspect 4 generations back

Chr 1 1.7%
Chr 7 3.3%
Chr 18 2.5%

Is this a definite result for American Indian Heritage?»

На такие письма я вообще больше не отвечаю. Весьма странно что у столь многих американцев в последнее время появился фетиш происхождения от американских индейцев. Раньше это было не так заметно.

**

Повторное ресеквенирование «древнего» генома останков жителя мезолитической Иберии из La Brana 1 (того самого, которого исследовали в позапрошлом году на аутосомы и митохондриальный геном) показало, что этот человек имел очень необычную для Европы Y-хромосомную гаплогруппы — С6. Странности заметны на и уровне фенотипа: согласно анализу комплекса снипов, определяющих на уровне генотипа цвет кожи и глаз, он был темнокожим человеком с голубыми глазами (!).  У древнего европейца, жившего в пещере Ла-Бранья-Аринтеро (La Braña-Arintero, León) на севере Испании примерно 7 тысяч лет назад, были голубые глаза и очень смуглая кожа. Так художник представил себе то, как выглядел житель испанской пещеры 7 тысяч лет назад. (Ниже рисунок, опубликованный в Эль Паис.)

Палеогенетики успешно прочитали ДНК из костей древнего европейца, жившего в одной из пещер на севере Испании примерно 7 тысяч лет назад, и выяснили, что у него были голубые глаза и очень смуглая кожа, говорится в статье, опубликованной в журнале Nature. «Главным сюрпризом для нас стало то, что этот человек обладал типично «африканскими» версиями генов, которые управляют пигментацией кожи, что вероятно делало его очень смуглым или даже темнокожим, хотя мы и не можем точно определить ее тон. Еще более удивительным стало то, что этот «испанец» обладал теми вариациями генов, которые делают глаза европейцев голубыми, что делает этот геном уникальных, так как по всем остальным признакам он происходит из Северной Европы», — заявил Карлес Лалуэса-Фокс из Института эволюционной биологии в Барселоне (Испания). Что касается редкой гаплогруппы (C6, или по мнению некоторых исследователей просто C), то оказывается, что еще в 2013 году несколько любителей-непрофессионалов предсказывали вероятность присутствия С у части жителей палеолитической и мезолитиской Европы — по их мнению, мужское население палеолитической Европы могло принадлежать к линиям — C-V20 (в ISOGG С6), F и IJ.

«Ранние представители современного человека в Европе (EEMH), широко известные как кроманьонцы, мигрировали с Ближнего Востока в Европу несколькими волнами. Задумывашись над тем, какие гаплогруппы Y-ДНК могут быть связаны с ними, и в каком порядке они мигрировали в Европу, я придумал следующую хронологии для верхнего палеолита.

1) Гаплогруппа С6 (или С *, которая развилась в C6 в Европе)

2) Гаплогруппа F

3) Гаплогруппа IJ (которая развилась в Европе в гаплогруппу I) «

Заслуживает внимание и мастерское использование в данном исследовании методов секвенирования нового поколения — в частности, после того как генетики собрали геном древнего европейца из прочитанных мелких сегментов ДНК («ридов») по методу отображения ридов на референсный геном человека,  осталось приличное количество неиспользованных ридов. Генетики использовали «сухой остаток» для проведения метагеномического анализа. Как известно, метагеномика работает с набором всех ДНК находящихся в среде; следовательно генетики сделали удачное предположение о том, что «риды» без привязки к человеческому геному принадлежали геномам бактерии. BLAST-анализ ридов в Генбанке позволил установить те виды бактерий, секвенсы геномов которых были наиболее близки к изучаемым ридам.


В конце января были опубликованы две замечательные статьи на русском языке, посвященные бурно развивающейся области исследований — молекулярной патологии: «Молекулярная патология и роль врача-патологоанатома»  и «Наследственно обусловленный рак молочной железы и яичников«.


The Coop Lab продолжает размещать материалы о статистических рассхождениях в характере наследования генетического материала у ближайших родственников. Традиционно считается, что сибсы (сиблинги) одного пола похожи друг на друга в той или иной степени. Различие в фенотипических чертах объясняются разными факторами окружающей среды воздействующих в разной степени на их развитие. Тем не менее, как было показано в статье The Coop Lab,сибсы различаются также на уровне своего генома, за счет случайности сегрегации и рекомбинации.


Китайские генетики разработали  новый метод генной хирургии (точное геномое редактирование) и успешно применили его на макаках.


Ученные из университета Северной Аризоны «возродили» вирус древней чумы, пандемия которой пришлась на время правения византийского императора Юстиниана (Юстинианова чума). В лаборатории был прочтена последовательность ДНК бактерии-возбудителя чумы, которая содержалась в останках жертв этой пандемии. Очевидно, здесь также применялись методы метагеномики.


В сетевой версии журнала «Наука и жизнь» размещена статья о характере генетической интрогрессии (межвидовым обменом чужеродной генетической изменчивостью) произошедшей между неандертальцами и предками анатомически современного человека много десятков тысяч лет назад, и приведшей к частичной гибридизации двух видов, чьи эволюционные пути разошлись около полумиллиона лет тому назад:
«Оказалось, что практически все неандертальские гены локализованы в Х хромосоме, а значит, передались нам по женской линии. Ученые пришли к выводу, что мальчики, рождавшиеся в результате смешения кровей, были в большинстве своем бесплодны. «Когда неандертальцы и люди скрещивались, это было на краю биологической совместимости, ведь два генома не встречались друг с другом примерно полмиллиона лет», — комментирует результаты исследования один из его авторов Дэвид Рейч, генетик из Медицинской школы Гарварда (США).»

Я еще в 2010 году говорил, что если смешивание с неандертальцами происходило, то скорее всего гены были привнесены от связей между мужчинами homo sapiens sapiens и женщинами-неандертальцами. Не откажу себе в удовольствии процитировать свое сообщение на форуме Молгена.

«Re: Люди носят гены неандертальцев
Ответ #23 : 10 Май 2010, 19:40:25  Самое неубедительное в обеих работах это
1)отбор снипов для анализа (перекрестное сравнение снипов орангутанга, человека и шимпанзе — выбрали те, которые у человека являются, как считается, потомковыми).
2) по отобранным снипами произвели выравнивание (alignment) секвенсов шимпанзе, человека и неандертальца фазирование предкового генотипа общего предка человека, неандертальца и современного человека (т.е говоря проще, реконструировали (предсказали) гипотетический генотип по методу Байесовской апостериорной вероятности)
3) затем разбили фрагменты генома неандертала по снипами по признаку совпадения или несовпадения с предковыми значения гипотетического секвенса общего предка шимпанзе и гомо, на три группы -гомозиготные с предковым значением снипа, гомозиготные с потомковым значением и просто гетерозиготы. Про исключение более половины мутаций (пусть и синонимических), я вообще молчу. Но кто может гарантировать, что предковый генотип реконструирован верно, и, что самое главное — где доказательство того, что у неандертала должно быть именно предковое значение снипа, а не мутировавшее параллельно с человеком.
Наконец, на приведенном выше графике, разброс участков генома совпадающих у человека и неандертальца по X хромосоме, находится в меньшем диапозоне SD (стандартного отклонения), эти участки небольшие, но по структуре более дивергентные.
Из чего следует 2 вывода:
a) основное генное вливание шло через X хромосому и b) поскольку около 2/3 генетической информации X хромосомы аккумулируется в женских линиях, то направление вливания шло через самок неандертальцев и мужчин-сапиенсов, что несколько противроечит картине изображенной в первой статье.»

Любопытно, что при ресеквенировании геномов неандертальцев и секвенировании геномов новых неандертальцев (из пещеры Окладникова) применили новый метод секвенирования. В частности, они секвенировали митохондриальную ДНК из кости неандертальца и отделили ее от ДНК современного человека, что позволило доказать родство между жившими в Сибири и в Европе неандертальцами.Метод определения посторонних наслоений ДНК основан на анализе ее естественных мутаций. Так, у 30–40% образцов, возраст которых насчитывает несколько тысяч лет, цитозин превращается в тимин, а гуанин — в аденин. Ученые разработали систему, моделирующую процессы естественного изменения ДНК и сравнивающую полученный результат с данными образца.

Аналогичная методика была применена и в отношении менее древних образцов ДНК. Насчет мезолитических образцов из работы Лазаридиса, я не читал ту часть сапплемента где описывается техническая сторона опыта. Но в другой работе упомянутого в статье Скоглунда (Skoglund et al .2012) — в неолитическах образцах результаты поссмертной гидролитической деаминации (cytosine —> thymine or guanine —> adenine) были удалены. Но у неандера разумеется из было горадо больше и пришлось придумывать методику реконструкции первоначальных нуклеотидов.Кроме того, в статье Lazardis et.al.2013 (точнее в сапплементе) содержится указание на использование урацил-ДНК-гликосилазы и эндонуклеозы при подготовке библиотек для сиквенирования.Использование этого метода значительно (!) уменьшает включение деаминированных остатков C/G→T/A (здесь подробности).


Уважаемый «любитель» Владимир Таганкин на основе большого эмпирического материала (десятки тысяч гаплотипов) провел серьезное исследование дисперсии значений локусов Y-STR. Это исследование  по своему качеству превосходит многие статьи профессиональных популяционных генетиков.


В статье доктора Линча известный «феномен раздутости нефункциональной части человеческого генома» объясняется сочетанием ряда генетических факторов. Мутации, увеличивающие размер генома (дупликации), с гораздо меньшей вероятностью вредят организму, чем мутации, при которых часть генома теряется (делеции). Поэтому с увеличением частоты мутаций геном начинает непроизвольно расти. То есть причинно-следственная цепочка тут следующая:

малый размер популяции > увеличение генетического дрейфа > нарушение аккуратности репликации генома (увеличение частоты мутаций) > увеличение размера генома.

Как мне кажется, это объяснение можно применить к анализу всех мутаций, в том числе и STR (коротких тандемных потворов).


В январе и начале февраля было опубликовано несколько статей, в которых затрагивается тематика ДНК-криминалистика. Так в ходе проведенного Федеральным Бюро Расследований США аудита национальной базы данных ДНК, было обнаружено 166 ДНК-профиля, которые содержали ошибки. Часть этих ошибок появилась в результате ошибок клерков, другая часть связана с ошибками при интерпретации данных допущенных сотрудниками лабораторий. Проведенная тогда же проверка профилей ДНК в базе данных города Нью-Йорке дала аналогичные результаты. Неприятный факт обнаружения ошибок в STR-профилях ДНК поднимает старые вопрос о необходимости замены существующей системы CODIS. В более ранней работе, в которой рассматривалась роль и место устаревающей, но по-прежнему существующей системы CODIS в системе быстро развивающегося комплекса знаний о геноме человека, авторы сделали интересный вывод: несмотря на то, что маркеры CODIS часто лежат в пределах геномных и генных доменов, связанных с риском развития определенных заболеваний или отвечающих за определенные функции генома, не было найдено никаких  убедительных доказательств того, что «короткие тандемные повторы», используемые в качестве маркеров CODIS, могут помочь установить физические черты человека.  Наконец, в совсем новой работе по ДНК-криминалистике («Recent Advances in Forensic DNA analysis«), наряду с обсуждением сугубо технических моментов сбора и подготовки биологического материала к анализу, затрагивается и вопрос о возможных альтернативах STR (коротких тандемных повторов), т.е того типа маркеров которые лежат в основе системы CODIS. Одной из логичных альтернатив являются однонуклеотидные полиморфизмы (снипы). Одним из преимуществ снипов над STR является тот факт, что в сильнодеградированные фрагменты ДНК могут быть проанализированы только с помощью снипов. Будучи биаллельным маркером, снип может быть включен в ДНК-профиль, однако информативность одичного снипа гораздо ниже информативности STR-локусов, в силу чего  процесс установления личности при работе со смесью разнородных ДНК усложняется. Хотя единчный снип менее информативен ( в силу биаллельности), чем STR, но этот недостаток можно легко избежать за счет увеличения  количества SNP(снип)-маркеров, используемых при анализе. Разный уровень гетерозиготности  является одной из наиболее ценных особенностей снипов. Другой положительной чертой снипов является то, что при определении снипов нет нужды на разделение сегментов по их размеру, что делает мультиплексирование и автоматизации более доступны, чем  в анализе коротких тандемных повторов. Кроме того,  низкая скорость мутации снипов значительно улучшает их стабильность в качестве генетических маркеров.

 

Еще раз о эволюции «динарской клады» гаплогруппы I2a1b и славянизации Балкан

Как известно моим постоянным читателям, я уже на протяжении почти 5 лет пытаюсь опровергнуть устоявшееся в популяционное генетике представление о том, что частотный пик распространения на Балканах гаплотипов так называемой динарской клады гаплогруппы I2a1b можно объяснить  непрерывной генетической приемственностью населения этого региона со времен палеолита. Даже само кодовое название «ветви» — «динарская» — носит условный характер. Вопреки популярной точки зрения,  на самом деле название восходит не к трудам Нордтведту (который его просто популяризировал), а к известной cтарой статье Barac et al.2003. Авторы описали Dinaric Modal Haplotype в его 5-маркерной форме «(DMH: 16–24–11–11–13) by DYS19–390–391–392–393, respectively». Позднее он был расширен до 17, 37,67 и 111 маркеров и обнаружен не только на Балканах, но и по всей Восточной Европе

К сожалению, большинство из моих убедительных аргументов остаются без должного внимания со стороны профильных популяционных генетиков.  На дворе уже 2014 год и что мы видим в свежих работах по популяционной генетике населения Восточной Европы? Собственно говоря, ничего нового. В статье В.С. Панкратова, О.Г. Давыденко «Структура генофондов населения двух регионов Белорусского Полесья» 2013, стр.46 читаем: «Различие частот гаплогруппы I2a2 между популяциями «Вичина» и Западного Полесья не является достоверным, соответственно, она могла попасть в «Вичин» из других регионов Западного Полесья, при этом не происходило событий, приводящих к сильному генетическому дрейфу. Напомним, что для данной гаплогруппы характерна более высокая частота в Полесье, чем в других частях Беларуси, что предположительно является результатом мигра- ции ее носителей из потенциального балканского ледникового рефугиума на территорию юга современной Беларуси. Таким образом, заселение «Вичина» носителями Y-хромосомы I2a2 произошло либо так же, как и заселение других регионов Западного Полесья (в результате миграции с Балкан), либо позже в результате миграции с прилежащих территорий).»  Что характерно — здесь эта гаплогруппа (а речь идет конечно же о печально известной динарской субкладе этой гаплогруппы) названа I2a2 по старой терминологии, а в таблице частот уже по более новой I2a1. Это обстоятельство указывает на то, что статья писалась (или дописывалась) в разные времена. Похоже это общее место всех работ в области популяционой генетики,  так или иначе затрагивающих проблематику балканского палеолитического рефугиума, уже никогда не устранить. И это несмотря на то, что открытие новых снипов и соответствующие изменения в филогенетическом дереве гаплогруппы I2a-P37.2  дают надежные доказательства верности моей первоначальной гипотезы. Вот так, например, выглядит разметка филогенетического древа I2a-P37.2 по состоянию на начало 2014 года.

Еще более глубокая структура субкладов I2a1b приведена в черновой рабочей схеме компании Yfull.

I2_M423_20140203

Несмотря на интуитивно понятную структуру организации информации в филогенетических деревьях (кладограммах), они не могут быть использованы в качестве окончательного аргумента при строгом логическом доказательстве какой бы то ни было гипотезы.
Так уж повелось, что при аргументировании своей позиции в попгенетике надо оперировать языком сухой статистики и математики. Выводы и модели могут быть верными, частично неверными или даже полностью неправильными. Но если они выражены в формально-математическом виде, они имеют полное легитимное право на принятие к обсуждению в ситуации рациональной и конструктивной дискуссии. Поэтому статья (с рабочим названием » ‘Динарская субклада’ I2a1b: маркер славянской экспансии на Балканы?»)  должна  включать в себя, к примеру,  графическое отображение графа филогенетической сети гаплотипов динарской клады, но традиционными методами эту задачу решить крайне сложно. Я наткнулся на интересную альтернативу для тех случаев, когда вместо филогенетической схемы гаплотипов нужно строить гаплотипные сети (haplotype networks), но из-за больших объемов данных построить их в стандартной попгенетической программе Fluxus-Network в течении разумного времени не получается.

Вместо классического, но медленного FN можно использовать бесплатное программное обеспечение Arlequin > HapStar > Graphviz/Gephi/R-Graphviz. Первая попытка визуализации в Gephi:

1526576_10202941657572217_2008628619_n
Поскольку с эстетитческой точки зрения эта попытка была не очень удачной, то я решил повторить эксперимент с визуализацией MST динарского кластера гаплогруппы I2a — на этот раз в цветном исполнении.  В самом центре белоруские гаплотипы, окруженные украинскими гаплотипами. Ветвь Вереничей (Belarus19) в кластере гаплогруппы I2a: Belarus32->Bulgaria68->Poland365->Belarus 19, и очень близко к центру.

1048962_10202961233661607_1211213762_oЗатем я  частично переработал граф сети гаплотипов динарского кластера гаплогруппы I2a1b. Алгоритм Force Atlas 2, хотя и позволяет разглядеть мелкие детали размещения отдельных гаплотипов, — в конечном итоге дает уникальную структуру графа, и эта структура существенным образом отличается от привычной структуры сети гаплотипов в работах попгенетиков. Исходя из этого, я решил ограничиться применением Force Atlas, а затем сгруппировал перекрывающиеся узлы графа в одну группу. Благодаря этому незамысловатому трюку, на выходе я получил гораздо более приемлимый с точки зрения академического стандарта графический вариант. Это, конечно же, не штейнеровское MP-дерево гаплотипов в Fluxus Network, однако и оно дает неплохое представление о характере развития динарского кластера.

Задача: как вы думаете, где находится визуальный центр равновесия графа?

Подсказка: Иногда люди ошибочно полагают, что предковые гаплотипы — это гаплотипы в самом большом кластере. Например, в данном случае — в оранжевом метаузле. Однако это предположение работает только в том случае, если в популяции не было быстрого роста и экспансии. В противном случае может статься так, что носитель маргинального гаплотипа способен, в силу случайных и неслучайных причин вызвать эффект основателя, породив множество потомков. В таких случаях мы можем наблюдать картину характерную для данного графа. И это далеко не единственный случай

1555325_10202973979300240_689832560_n

Еще немного покопался в графе (MST) гаплотипов динарского кластера I2a1b. На полпути зум в Gephi сломался, и процесс «причесывания» начального графа пришлось заканчивать уже в Adobe Illustrator и Adobe Photoshop. Но надеюсь, что теперь-то граф представлен в удобоваримом формате:


1536644_10202976299438242_1824667689_nВ процессе подготовки материала к своей статье о динарской субкладе I2a1b, я сделал график многомерного шкалирования по вычисленной в Арлекине матрице Fst-расстояний между 42 популяционными группировками гаплотипов динарской субклады.

1656113_10203040706128369_1678657762_n

Примечательно что скорректированный коэффициент детерминации R2 в данном случае негативный (что редкость), впрочем этого можно было ожидать так как сам коэффициент детерминации R2 достаточно близок к нулю (R2=0.015), то есть данная модель — разбивка носителей по этногеографическим группам — объясняет 1.5% всей статистической вариативности всей выборки. Кроме того, p-value=1, а это означает, что мы должны принять нулевую гипотезу (отсутствие корреляции). Это близко к полученным значениям AMOVA, согласно которым на генетическое разнообразие между этническими группами приходится только 1% всего генетической разнообразия выборки. 98% приходится на разнообразие между отдельными гаплотипами. Говоря простыми словами, в выборке динариков-I2a1b отсутствует значимая кластеризация по этническому признаку.

Более надежное доказательство вышеозвученного вывода было получено при выполнения теста Мантеля, в котором определялась наличие и надежность корреляции между матрицнй географических расстояний и матрицы попарных Fst между группами популяций. Значения p-value c двухсторонним критерием (two-tailed p value) значительно больше 0.05, что означает  только одного — значимой корреляции не наблюдается, несмотря даже на приличный размер выборки — 774 гаплотипа.

Разумеется, если бы моя статья сопровождалось только схемами и результатами вычислений, то тогда это было бы статья стандартного формата популяционной генетики. Однако, как мне представляется, гораздо интереснее рассмотреть вопрос эволюции и миграции носителей «динарской клады» I2a1b в интердисциплинарном ключе. В этой связи необходимо посмотреть на эту проблему глазами историка, тем более что время экспансии  «динарцев» отлично накладывается на временной интервал экспансии славян на Балканы.

Как я уже отмечал ранее, в журнале Studia Slavica et Balcanica Petropolitana cодержится немало интересных статьей, в которых освещается современное состояние вопроса о так называемой славянизации Балкан во второй половине первого тысячелетия нашей эры.
По непонятной причине, в этом вопросе задают тон те слависты-историки, которые занимаются изучением проблем хорватского этногенеза. По этой причине в журнале представлены сразу 4 альтернативные взгляда на происхождение хорватов, которые представляют собой не столько развитие традиционных конкурирующих теорий автохтонности хорватов (Иван Лучич, Фердо Шишич, Франьо Рачки и пр.) versus миграционной модели (кульминировавшей в дискурссе иллиризма в середине 19 века), сколько новый тренд постмодернистского переосмысления многих традиционных понятий обеих теорий и исторических источников в виде идеологических конструктов и дискурссивных формантов.

  1. Алимов Д. Е. В поисках «племени»: этногенетическая модель «Венской школы» и проблема появления хорватской этничности.
    Алимов отвергает примордиалистский подход к хорватской этничности, в которой далмацкие хорваты виделись осколками первичной хорватской этничности. Термин «хорват» гентилистский, а не этнический: в Аварском каганате этот термин обозначал одну из (много) этно-социальных групп gentes разного происхождения, объединенных не родовыми связями, а принадлежностью к общей воинской группе.Может ли хорватский гентилизм служить свидетельством неславянского характера хорватской этничности или его следует понимать как закономерный социальный продукт миграции со свойственным этому процессу выдвижением на передний
    план — в том числе и в процессах групповой идентификации — воинского дружинного элемента? В свое время Х. Л овмяньский, размышляя над путями формирования так называемых «больших племен» в славянском мире, предположил, что в условиях славянских миграций и колонизации новых пространств закрепить название старого «большого племени» на новом месте, образовав новое «большое племя» со старым названием, могли только хорошо организованные воинские группы [34, Подобным же образом рассуждает и М. Анчич, полагая, что под хорватами и сербами Константина Багрянородного следует разуметь правящие слои соответствующих политий, состоявшие из знатных родов. Во время распада Аварского каганата разные группы хорватов укрылись кто в горах Карпат, кто в Судетах, кто в Восточных Альпах, кто на Динарском нагорье. Поскольку обозначение хорват обозначал лишь принадлежность к определенной социальной группе аварского каганата, то между карпатскими, силезскими, альпийскими и далматскиим славянами нет родства. То есть хорватская идентичность есть продукт трансформации соционима в этноним.
  2. Известная работа Флорина Курты «Создание Славян».
    Если выразить смысл этой работы одним предложением, то автор отрицает самое существование славян до их встречи с византийцев. Само слово славяне и понятие славянства есть продукт византийского имперского дискурса, и первоначально включал в себя не только славян в собственном смысле этого слова, но и германцев, иранцев, фракийцев и так далее.Заключительный раздел труда Ф. Курты суммирует выводы исследования. Особенно важным представляется вывод о том, что раннеславянская этничность не основывалась на языковой общности. (При этом, автор совершенно справедливо замечает, что сам этноним словене появляется гораздо позднее и лишь на периферии славянского ареала.) «Создание славян, — пишет Ф. Курта, — явилось не столько результатом этногенеза, сколько итогом инвенции, воображения и систематизации византийских авторов. … Это была… Самобытность сформированная в тени Юстиниановых крепостей… Имеются существенные основания утверждать, что эта самобытность была значительно более сложной, чем дублет «cклавены — анты» навязанный византийской историографией. … Первое отчетливое утверждение «мы — славяне» происходит из Повести временных лет XII в. Этой летописью завершается процесс создания славян…» (с. 349-350).
  3. Мягкий вариант синтеза «готской теории» и «автохтонтизма» в статьях Мужича. На основании источников, содержащих информацию о переселениях на современную хорватскую территорию, автор приходит к выводу, что именем Sclavi(ni) в принципе назывались полиэтничные переселенцы на Балканах. Суммируя результаты антропологических и генетических исследований, автор заключает, что современные хорваты по преимуществу являются потомками автохтонного населения Балкан. Автор доказывает, что хорватский народ возник как новая этническая общность на Балканах этническим соединением и социальным взаимодействием пришедших с севера воинских контингентов «гото-склавинов» и проживавших здесь различных популяций более многочисленных автохтонов.
  4. Постмодерниcтский-постколониальный этнодискурс австралийского исследователя Дэниела Дзино — книга «Becoming Slav, becoming Croat: identity transformations in post-Roman and early medieval Dalmatia» (Leiden; Boston: Brill, 2010). В книге на методологической платформе постмодернизма и конструктивистского подхода к этничности рассматриваются этносоциальные процессы, протекавшие на территории Далмации (Хорватия) в период поздней античности и раннего Средневековья.

<

p>Попробуем подвести промежуточные выводы этих моделей. Ведущие хорватские историки-слависты, а также некоторые российские «хорватоведы» рассматривают процесс генеза славян в виде некоего подобия черного ящика. Напомню: черный ящик — это система, в которой внешнему наблюдению доступны лишь входные и выходные величины, а ее внутреннее устройство и протекающие в ней процессы не известны. В этом смысле, Аварский кагант действительно хорошо подходит на роль «черного ящика». Большинство исторических сведений об Аварском каганате касается лишь его внешней политики (прежде всего, военных действий). Что касается внутреннего устройства этой кочевой империи, то оно по-прежнему остается terra incognita для историков в силу скудности, фрагментарности и противоречивости имеющихся источников о государственно-административном устройстве этого государства. Поэтому приходится либо интерпролировать имеющиеся сведения о социально-политической структуре других кочевых империй (тюрков, гуннов, монголов), либо просто фантазировать.
Согласно мнению Курты и его сторонников, процесс этногенеза славян протекал следующим образом. Где-то в середине 6 века нашей эры некие ещенеславянские сообщества людей попадают в «черный ящик» Аварского каганата. Спустя несколько поколений «инкубации» славянства из черного ящика Аварского каганата выходит некая, как говорили марксисты, «новая сообщность людей». Эта «новая сообщность», nihilnominus Sclavi («ничтожные именем склавины», как выразился один франкский летописец) внезапно (!) появляется в поле зрения византийцев, «выходя из-за тени построенных Юстинианом на Дунае крепостей» (Ф.Курта). Именно им византийцы и дают имя «славян», имя которых потомки разнесут по всей восточной Европе.

Я конечно же понимаю, что перед хорватскими историками перед самым кануном вступления Хорватии в ЕС, был поставлен политический заказ воскресить старые идеи неславянского происхождения хорватов времен младонационалистического иллирического романтизма в новом, постмодернистском исполнении. Перефразируя вышеупомянутого Д.Дзино, суть этого идеологического заказа можно выразить следующим девизом: «Перестанем быть славянами -станем европейцами!». Но зачем так ненавидеть свои корни, cвое происхождение и свои истоки — это мне непонятно.

Этот конструктивистский подход к вопросу этнической идентичности, согласно которому Аварский каганат выступил в роле катализатора этноформирующей реакции, в результате которой миру была явлена славянская идентичность, мне представляется сомнительным. Здесь уместно вспомнить этническую ситуацию в более поздних империях, например в империи Габсбургов, СССР, ту же Югославию времен Броза Тита. Пример СССР особенно поучителен, особенно если мы учтем тот факт, что СССР существовал примерно столько же лет, сколько и власть Аварского каганата на территории современной Хорватии (не больше 70-80 лет). Хорошо известно, что одной из основной задач национальной политики CCCР было создание новой общности людей — «homines sovetici» («советские люди»). Однако как показала история, в процессе крушения империи (также как и в Югославии) этноцентробежные силы не только не исчезли, но скорее даже усилились. Нет никакого основания полагать, что во времена падения Аварского каганата все могло выглядеть иначе.

При сопоставлени этих моделей мы неизбежно сталкиваемся с закономерным вопросом: а что генетика или ДНК-генеалогия могут прояснить в хитросплетениях исторических фактов?  К счастью, многие историки начинают всерьез интересоваться методами популяционной генетики и ДНК-генетика применительно к вопросам этногенеза и миграции отдельных исторических этносообществ. К несчастью, нейтральные выводы генетики зачастую искажаются или подгоняются историками под те априорные модели, которых эти историки придерживаются. Вот, в свете этой переводной статьи хорвата Ивана Мужича, становится ясно, каким образом происходят злостные манипуляции с интерпретацией данных популяционно-генетического анализа. Этот автор придерживается комбинированной модели происхождения хорват (смешивание автохтонов и готов), поэтому он интерпретирует выкладки популяционной генетики по структуре Y-хромосомного генофонда хорват исключительно в свете предпосылки антропологической и генетической приемственности населения Балкан со времен палеолита.

1743460_10203015436016632_1110433635_n
Такие манипуляции нуждаются в опровержении — и именно эту задачу я считаю главной в своем исследовании.