Формальный анализ смешивания предковых популяций: белорусы, часть 2

Итак, после определения значимых для формального статистического моделирования комбинаций предковых популяций (или вернее, их суррогатов) представляется возможным смоделировать две вещи. Во-первых, необходимое с точки зрения статистики, число «импульсов» или «потоков» смешивания, а во-вторых, пропорции вклада «предковых» групп в генофонд белорусов.

Результаты анализа в программах qp3Pop и qpDstat показали, что в референтной группы белорусов присутствуют сигналы смешивания трех групп — мезолитических охотников-собирателей Европы (WHG), неолитических популяций земледельцев с Ближнего Востока и cибирских охотников-собирателей (чьи потомки в составе индоевропейцев) распространили свои гены по всей Европе.

Но меня больше интересует вопрос оценки величины доли вклада так называемого «базального компонента»(Basal Eurasian):

«четвертый элемент» — тот «базальный» компонент генофонда Европы, который проявился при моделировании истории сложения генофонда Европы в работе [Lazaridis et al., 2014] (см. раздел 8.4, рис 8.20) — предковой евразийской группой, которая внесла свой большой вклад и в геном неолитических земледельцев. Из аналогичной по методам модели, созданной в рассматриваемой работе [Seguin-Orlando et al., 2014], следует (рис. 8.6), что в геном человека из Костенок эти таинственные «базальные евразийцы» внесли не менее важный вклад, чем и верхнепалеолитические западные евразийцы. Также из модели следует, что он имел и общих, хотя и более отдаленных предков с древними северными евразийцами восточного ствола.

В этих целях я решил использовать в качестве суррогата базального евразийского генома геном Mota (древнего жителя Африки), примерно половину генома которого составлял тот самый пресловутый базальный компонент (результат обратных миграций натуфийского населния Ближнего Востока в восточную Африки)

Итак, в начале используем программу qpWave из того же пакета Admixtools

parameter file: qpWave.par

THE INPUT PARAMETERS

##PARAMETER NAME: VALUE
indivname: data.ind
snpname: data.snp
genotypename: data.geno
popleft: left
popright: right
maxrank: 6

qp4wave2 version: 200

left pops:
Levant_N
Mota
WHG
EHG

right pops:
Han
Onge
Papuan
Kostenki14
Ust_Ishim
Siberian_Upper_Paleolithic

0 Levant_N 13
1 Mota 1
2 WHG 2
3 EHG 3
4 Han 33
5 Onge 15
6 Papuan 14
7 Kostenki14 1
8 Ust_Ishim 1
9 Siberian_Upper_Paleolithic 1
jackknife block size: 0.050
snps: 572603 indivs: 84
number of blocks for block jackknife: 719
dof (jackknife): 631.955
numsnps used: 177238
f4info:
f4rank: 0 dof: 15 chisq: 574.447 tail: 9.47752373e-113 dofdiff: 0 chisqdiff: 0.000 taildiff: 1

<cf4info:
f4rank: 1 dof: 8 chisq: 115.553 tail: 2.7408605e-21 dofdiff: 7 chisqdiff: 458.894 taildiff: 5.4614954e-95
B:
scale 1.000
Onge -0.475
Papuan -0.521
Kostenki14 0.069
Ust_Ishim -0.746
Siberian_Upper_Paleolithic 1.986
A:
scale 290.851
Mota -0.932
WHG 0.299
EHG 1.429

f4info:
f4rank: 2 dof: 3 chisq: 8.502 tail: 0.036691843 dofdiff: 5 chisqdiff: 107.050 taildiff: 1.7204978e-21
B:
scale 1.000 1.000
Onge -0.462 -0.050
Papuan -0.522 -0.105
Kostenki14 0.288 2.189
Ust_Ishim -0.733 0.378
Siberian_Upper_Paleolithic 1.973 -0.232
A:
scale 286.604 578.115
Mota -0.951 -1.197
WHG 0.385 0.752
EHG 1.396 -1.001

f4info:
f4rank: 3 dof: 0 chisq: 0.000 tail: 1 dofdiff: 3 chisqdiff: 8.502 taildiff: 0.036691843
B:
scale 1.000 1.000 1.000
Onge -0.400 -0.203 1.065
Papuan -0.459 -0.258 0.882
Kostenki14 0.299 2.175 0.273
Ust_Ishim -0.645 0.116 1.513
Siberian_Upper_Paleolithic 2.031 -0.382 0.850
A:
scale 282.949 595.536 1395.824
Mota -0.857 -1.172 0.944
WHG 0.466 0.827 1.449
EHG 1.431 -0.971 0.093

## end of run

Нас интересует статистика f4rank 2, и как видно она убедительна: chisq: 8.502 tail: 0.036691843 dofdiff: 5 chisqdiff: 107.050 taildiff: 1.7204978e-21.  То есть, для моделирования референсной популяции достаточно трех «источников» (в f4rank 3, т.е с 4 предковыми популяциями, статистика гораздо хуже: chisq: 0.000 tail: 1 dofdiff: 3 chisqdiff: 8.502 taildiff: 0.036691843 ).

Следующим этапом будет оценка пропорций «адмикса», образованного смешением трех «источников»:

 

parameter file: qpAdm.par

THE INPUT PARAMETERS

##PARAMETER NAME: VALUE
genotypename: data.geno
snpname: data.snp
indivname: data.ind
popleft: left
popright: right
maxrank: 8

qpAdm version: 200

left pops:
Belarusian
Mota
WHG
EHG
right pops:
Han
Onge
Papuan
Kostenki14
Ust_Ishim
Siberian_Upper_Paleolithic
0 Belarusian 25
1 Mota 1
2 WHG 2
3 EHG 3
4 Han 33
5 Onge 15
6 Papuan 14
7 Kostenki14 1
8 Ust_Ishim 1
9 Siberian_Upper_Paleolithic 1
jackknife block size: 0.050
snps: 572603 indivs: 96
number of blocks for block jackknife: 719
dof (jackknife): 628.796
numsnps used: 227599
codimension 1
f4info:
f4rank: 2 dof: 3 chisq: 20.724 tail: 0.000120097824 dofdiff: 5 chisqdiff: -20.724 taildiff: 1
B:
scale 1.000 1.000
Onge -0.502 0.176
Papuan -0.562 0.218
Kostenki14 0.442 2.074
Ust_Ishim -0.735 0.779
Siberian_Upper_Paleolithic 1.923 -0.110
A:
scale 285.645 552.926
Mota -1.490 -0.238
WHG 0.017 1.685
EHG 0.883 -0.324
full rank 1
f4info:
f4rank: 3 dof: 0 chisq: 0.000 tail: 1 dofdiff: 3 chisqdiff: 20.724 taildiff: 0.000120097824
B:
scale 1.000 1.000 1.000
Onge -0.502 0.178 0.403
Papuan -0.599 0.280 0.995
Kostenki14 0.455 2.029 -0.773
Ust_Ishim -0.773 0.879 1.373
Siberian_Upper_Paleolithic 1.893 0.008 1.168
A:
scale 288.199 555.700 1346.772
Mota -1.449 -0.056 0.947
WHG 0.026 1.726 0.141
EHG 0.948 -0.132 1.444
best coefficients: 0.318 0.148 0.534
ssres:
0.000295769 0.000789821 0.000059100 0.001247609 0.001271289
0.335431254 0.895733409 0.067025433 1.414909018 1.441765444

Jackknife mean: 0.316895017 0.150748678 0.532356305
std. errors: 0.035 0.067 0.045
error covariance (* 1000000)
1212 -1838 625
-1838 4506 -2668
625 -2668 2043
fixed pat wt dof chisq tail prob
000 0 3 20.724 0.000120098 0.318 0.148 0.534
001 1 4 125.483 0 -0.088 1.088 0.000 infeasible
010 1 4 25.750 3.55457e-05 0.378 0.000 0.622
100 1 4 102.973 2.28952e-21 0.000 0.702 0.298
011 2 5 336.445 0 1.000 0.000 0.000
101 2 5 127.950 6.47788e-26 0.000 1.000 0.000
110 2 5 184.757 0 0.000 -0.000 1.000
best pat: 000 0.000120098 - -
best pat: 010 3.55457e-05 chi(nested): 5.025 p-value for nested model: 0.0249831
best pat: 101 6.47788e-26 chi(nested): 102.201 p-value for nested model: 5.01661e-24

end of run

Итак, лучшими коэффициентам (пропорциями адмикса) являются 0.318 0.148 0.534. То есть референсная популяция белорусов может быть смоделирована как 30 % базального компонента, 15% компонента мезолитических охотников собирателей и 53% компонента жителей степи бронзового века («индоевропейцев»). Очевидно, что большая часть базального компонента попала в Европу вместе неолитическими земледельцами, а оставшаяся часть — была принесена индоевропейцами.

 

Размышления над эффективностью алгоритма SPA

Перед тем,  как закрыть тему SPA, я решил поразмышлять о причинах неточности определения географического ареала происхождения с помощью генома. Те, кто воспользовался моей моделью для программы SPA (последняя версия — сентябрь 2016 года), могли убедится в том, что даже при наличии большого количества маркеров, модель не во всех случаях точно определяет ареал происхождения (даже с поправкой на погрешность радиусом в 500 км).
В основу алгоритма SPA положены примерно те же самые предпосылки, что и в случае с классическим анализом главных компонент (PCA)

  • Первая предпосылка  подхода SPA состоит в том, что частота аллели каждого SNP в популяции может быть смоделирована в виде непрерывной двумерной функции на карте. Другими словами, при выборе хромосомы индивидуума из локации с позицией (х, у) на карте, вероятность наблюдения минорного аллеля в SNP j на хромосоме может быть сформулирована в виде функции F (х, у), где Fj является непрерывной функцией, описывающей поведение частоты аллеля в зависимости от географического положения
  • Затем на основании сказанного делается упрощающее предположение, что эта функция является экземпляром логистической функции

 

где х представляет собой вектор переменных, указывающих географическое местоположение и а и Ь коэффициенты функции. Авторы понимают каждую из этих функций, как функцию FJ функции наклона градиента частота в SNP J. Эта функция кодирует крутизну склона по норме а, при этом предпологается что смещение параметра b фиксировано. Кроме того, направленность наклона  кодируется в значении вектора а.  Более подробно, θj = арктангенс (aj(1) / aj(2)) могут быть приняты в знчения угла для SNP j, где aj(1)  и aj(2)  являются первым и вторым элементами вектора а.

Поскольку SPA имеет явные географические координаты, подход может быть расширен для систем за пределами обычной картезианской двумерной плоскости координат. В качестве демонстрации этого, авторы программы SPA использовали алгоритм для анализа пространственной структуры населения земного шара, в которой двухмерное отображение на двухмерной плоскости не может точно фиксировать структуру популяции. Таким образом, каждый индивид проецируется на точку земного шара в трехмерном пространстве. Соответственно, авторы использовали трехмерный вектор х (с ограничением || х || равным определенной константе), чтобы представить индивидуальную позицию.

Используя данные (генотипы индивидов из различных популяций из  HGDP), авторы обнаружили что пространственная топология расположения индивидов в пространстве SPA мы наблюдали, что сильно напоминала топологию географической карту мира. В частности, люди из того же континента были сгруппированы вместе, а континенты были разделены примерно так, как это следовало бы ожидать из пространственного расположения.

ng-2285-f3

 

Главная проблема метода состояла в другом. Несмотря на точность топологии взаимного расположения индивидов,  на карте SPA сильно искажены расстояния между континентами.

Например, продольный размер континента Евразии составил 92 градусов в  SPA-пространстве земного шара, в то время как в пространстве реального земного шара — 150 градусов. Продольное расстояние между Европой и Северной Америкой составило 167 градусов на SPA карте земного шара, в то время как на самом деле оно составляет 90 градусов.  Любопытно отметить, что мой опыт работы с этой программы показал, что наибольшую проблему составляют географические координаты долготы, в то время как широты предсказываются довольно точно. То есть по какой-то причине (несимметричность генетических градиентов в направлении север-юг и направлении восток-запад?) пространство SPA очень сильно искажается в продольном измерении (т.е в долготу).
По этой причине, вычисленные географические точки происхождения для европейцев часто оказываются в Атлантическом океана и так далее.

Я решил использовать данные импутированных генотипов для европейских популяций (я занимался их импутацией на протяжении последнего полгода). На этот раз я ограничился только европейскими популяциями. Я  сделал два разных набора с разным числом снипов — один с 1 062 376 снипами, которые содержатся в платформах генотиприрования клиентов 23andme и FTDNA, другой — примерно 590 395 снипов.  Обе модели можно скачать с Google Drive  (здесь и здесь).

Несмотря на тщательный подбор снипов, обе модели продолжают страдать характерным сдвигом географических долгот, а это означает, что данная проблема обусловлена не выборкой генотипов, а самим алгоритмом программы (т.е. улучшение качества выборки или увеличение количества снипов не приводит к повышению точности даже в том случае, если мы используем для тренировки программы на обучающей выборке  индивидов с известной географической локацией).

Это хорошо видно на полученных в ходе анализа моих собственных данных географических координатах 2 точек происхождения (одна из них в Гренландии,  другая в Средиземном море)

untitled

Разумеется, вряд ли можно говорить о точности подобных вычислений. В ходе размышлений над способом решения проблемы я вспомнил о существовании ортогонального прокрустового анализа.

Я взял две матрицы — одну с географическими координатами (фактически центроиды — географические центры стран) и  вторую с предсказанными  (в модели 1M cнипов) величинами географических координат тех же самых образцов (с усредненными значениями по этносам), а затем совершил прокрустово преобразование в программе R, получив новую матрицу с преобразованными значениями координат. Ниже виден результат операции (преобразованные усредненные координаты образцов спроецированы вместе с центроидами на карту Европы). И хотя координаты по-прежнему немного сдвинуты относительно истинных, в целом результат уже гораздо лучше (правдоподобнее).rplot14При проведении прокрустова анализа, кроме Xnew (трансформированной матрицы),  мы получили значения матрицы вращения R, s- коэффициент масштабирования и tt — вектор трансляции координат, минимизирующие дистанцию между матрицей предсказанных координат и матрицей географических координат.

Эти значения можно использовать для коррекции значений географических координат, рассчитанных в SPA. Я снова использую свои данные (2 предсказанные точки географического происхождения Xp):


Xt=sRXp + 1tt


При подстановке Xp получаем следующие значения

точка A:  60.245448+-11.059673 северной широты;  21.394898 +- -5.979712  восточной долготы (северо-западная Балтика и Скандинавия)

точка B: 43.000748+-8.801889 северной широты;  20.725216+-52.159598 восточной долготы (юго-восточная Европа, Балканы и Греция).

 

 

 

 

 

Две новые модели для калькулятора DIYDodecad

Закончил на 99% подготовку 2 моделей этно-популяционных калькуляторов ДНК — заточенную под deep ancestry (анализ современных геномов с использование древних геномов) K11 и модель для анализа популяционного происхождения современных популяций K16.

 

В число 16 «предполагаемых предковых» популяций в K16 входят следующие выделенные группы:

Австрало-веддоидная
Палеолитические охотники-собиратели Кавказа
Американские аборигены
Охотники-собиратели скандинавского мезолита
Австронезийцы
Ближневосточные неолитические земледельцы
Сибирские аборигены
Ближне-восточные популяции
Североафриканские популяции
Популяции западной Африки
Северные популяции Индостана
Юго-восточноазиатские популяции
Восточные охотники-собиратели
Неолитическое население Европы
Восточно-африканские популяции
Западноевропейские охотники-собиратели

 

Таблица FST между компонентами K11 (FST — Индекс фиксации Райта Fst, отражающий меру дифференциации популяций)

Кластеризация компонентов модели K11 по степени дифференциации

Таблица FST между компонентами K16

Кластеризация компонентов модели K16 по степени дифференциации

 

На следующем PCA графике отображены 2 группы компонентов — предковые компоненты K16 (полученные в программе ADMIXTURE в ходе анализа современных популяций) и предковые компоненты K11 (они вычислены в той же программе, но на другой выборке аутентичных палеогеномов). Поскольку у пользователей подобных калькуляторов часто возникает вопрос о соотношении компонентов разных моделей калькуляторов, я решил разместить их на одном графике. Методология довольно проста. Сначала я сгенерировал в программе PLINK 220 «синтетических» геномов (20 индивидов в 11 группах). В основу положен предложенный Понтикосом метод популяционных «zombies», в котором используется частоты аллелей снипов, полученных в программе ADMIXTURE. Каждая из 11 групп состоит из 20 «индивидов», геном которых на 100% состоит из одного компонента.
То же самое я сделал с компонентами K16. Затем в целях изучения соотношения компонентов этих двух разных моделей, я пропустил «геномы синтетических индивидов» K16 через калькулятор K11. В итоге выяснилось, что только несколько компонентов K16 полностью совпадают с компонентами K11 (например, Amerindian и African). Остальные компоненты K16 разложились на комбинации компонентов K11. Этот простой эксперимент еще раз подтвердил очевидный факт: предковые компоненты ADMIXTURE, выявленные в ходе анализа современных популяций только в редких случаях соответствуют настоящим предковым компонентам. Большинство подобных компонентов возникают в результате сложного процесса фиксации аллельных частот, например в тех случаях, когда непосредственно после смешивания предковых групп разного происхождения происходит процесс генетического дрейфа. Закон Харди—Вайнберга утверждает, что в теоретической идеальной популяции распределение генов будет оставаться постоянным из поколения в поколение. Так, в популяции растений количество «внуков» с генами высокорослости будет ровно таким же, сколько было родителей с этим геном. Но в реальных популяциях дело обстоит иначе. Из-за случайных событий частота распределения генов из поколения в поколение несколько варьирует — это явление называется дрейфом генов. Рассмотрим крупную размножающуюся популяцию со строго определенным распределением аллелей. Представим, что по той или иной причине часть этой популяции отделяется и начинает формировать собственное сообщество. Распределение генов в субпопуляции может быть нехарактерным для более широкой группы, но с этого момента и впредь в субпопуляции будет наблюдаться именно такое, нехарактерное для нее распределение. Это явление называется эффектом основателя.Дрейф генов сходного типа можно наблюдать и на примере явления с запоминающимся названием эффект бутылочного горлышка. Если по какой-либо причине численность популяции резко уменьшится — под воздействием сил, не связанных с естественным отбором (например, в случае необычной засухи или непродолжительного увеличения численности хищников), быстро появившихся и затем исчезнувших, — то результатом будет случайное устранение большого числа индивидуумов. Как и в случае эффекта основателя, к тому времени, когда популяция вновь будет переживать расцвет, в ней будут гены, характерные для случайно выживших индивидуумов, а вовсе не для исходной популяции.

PCA correlation between K11 and K16 components Вот эта таблица с усредненными значениями «симулянтов» компонентов K16 в калькуляторе K11 (колонки — компоненты K16, столбцы — компоненты K11, их пересечения — проекция компонентов K16 в компоненты K11).

Для облегчения понимания сказанного, приведу немного теории. Начну с основ.

Определение базовых терминов

ADMIXTURE (буквально: примесь) – это компьютерная программа (анализ), позволяющая выявлять смешанность состава некоего набора индивидов на основе данных о генотипах и тем самым строить предположения о происхождении популяции.

Принцип работы ADMIXTURE.

Рассмотрим принцип работы ADMIXTURE на примере образцов и популяций из проекта HapMap.

Всего у нас N = 324 образца/индивида, каждый из которых относится к одной из четырех нижеперечисленных популяций:

АФРИКА (ASW) – Африканские предки из Юго-Западной части США
ЮТА (CEU) – жители штата Юта США с корнями из Северной и Западной Европы
МЕКСИКА (MEX) – Мексиканцы, Лонг-Айленд США
ЙОРУБА (URI) – Йоруба, Нигерия
Для удобства дальнейшего изложения будем называть эти популяции «известными».

Также мы предполагаем, что они произошли от К разных предковых популяций (мы не знаем от каких именно). В дальнейшем будем называть эти предковые популяцие «предполагаемыми предковыми». Этих «предполагаемых предковых» популяций на самом деле не существует, у них нет общепризнанных названий и характеристик. И на этом этапе мы даже не знаем какие образцы к какой из этих К популяций могут быть отнесены. Теоретически возможно, что образцы из одной и той же «известной» популяции могут принадлежать к двум разным «предполагаемым предковым» популяциям.

Пример 1.

Предположим, что К = 3.

ADMIXTURE далее работает с образцами (их генотипами) и заданным нами числом К = 3. Имея сведения о генотипах и предположение о количестве «предполагаемых предковых» популяций (К) ADMIXTURE строит свою модель (предположение) того, каков вклад каждой из «предполагаемых предковых» популяций в каждый индивид. В результате мы имеем для каждого индивида 3 цифры: количественный вклад каждой из трех популяций (или образно говоря, на сколько процентов данный индивид состоит из первой «предполагаемой предковой» популяции, на сколько – из второй и на сколько – из третьей). При этом может быть и такая ситуация, что у конкретного индивида в составе отсутствует какая-то из «предполагаемых предковых» популяций, даже возможно, что он принадлежит только к одной из «предполагаемых предковых» поуляций. Предположим, для индивида №1 эти цифры такие: 0.3, 0.5 и 0.2. Что эти цифры означают? Означают они доли каждой из «предполагаемых предковых» популяций (ППП) в индивиде №1, т.е. индивид состоит на 30% из первой ППП, на 50% — из второй и 20% — из третьей. Чем больше вклад каждой ППП в индивида, тем больше индивид является «носителем» данной популяции и ее представителем.
Так называемый этно-популяционный калькулятор ДНК представляет собой инструмент, позволяющий использовать заранее определенные (вычисленные) компоненты этнического происхождения K для определения той комбинация исходных предковых компонентов дает наилучшее соответствие (аппроксимирует) происхождение носителя тестируемой ДНК.

При создании калькулятора ДНК в основу берется определенная модель (например, задается исходное число компонентов или состав референсной выборки), что неизбежно приводит к определенным уступкам в плане точности и проявлению слабых сторон модели. Например, часто люди критикуют подобные модели калькуляторов за излишнюю европоцентричность и недостаточную представленность геномов из других мест, или же используемые для определения компонентов происхождения выборки данных по отдельным популяциям слишком малы для определения сложной субструктуры генофонда референсной популяции. Наконец, более грамотные люди указывают на отсутствие необходимо инструментария (например, формальной статистики) для проверки статистической значимости определенных компонентов в отдельных моделях калькулятора.
Движок обеих калькуляторов — все та же программа DIYDodecad, После того, как ппрограммма ДНКа калькулятора выдаст первичные результаты — процентное распределение компонентов этно-популяционного происхождения в изучаемом геноме, можно будет перейти к вторичному анализу. Суть его проста — зная процентную комбинацию компонентов происхождения в своем геноме, довольно просто смоделировать свой геном в виде смеси нескольких референсных популяций.

Поэтому, в отличие от предыдущих релизов, K11 и K16 будут включать в себя дополнительный контент:

1) классический Oracle, позволяющий смоделировать анализируемый «геном» (точнее, набор из 100-200 тысяч информативный снипов) в виде комбинации двух референсных популяций, а также установить группу генетически ближайших референсных популяций к геному изучаемого индивида. Однако этот инструмент не может быть использован в случае сложного смешанного происхождения (например, когда изучаемый индивид происходит из более чем двух разных этнических популяций). Иногда программа выдает довольно глупые комбинации, cущественным образом понижая достоверность результатов. Впрочем основное преимущество Oracle и состоит в том, что программа предлагает вместо окончательного «простого» решения список альтернативных вариантов.

Пример: в качестве примера я буду использовать собственные данные.
Исходя из полученных в модели K16 значений компонентов, мой условный наиболее близок к восточнославянским популяциям
«Ukrainian-Center» «2.5884»
«Pole» «3.0962»
«Sorb» «3.1733»
«Polish_West» «3.5992»
«Russian-North-West» «3.7265»
«Russian_Smolensk» «3.834»
«Polish» «4.0348»
«Belarusian_EastBelarus» «4.0852»
«Belarusian_WestBelarus» «4.1216»
«DonKuban_cossack» «4.7769»

В комбинированном варианте двух смешанных популяций распределение предковых компонентов происхождения может быть аппроксимировано следующими комбинациями:

«65.8% Belarusian_EastBelarus + 34.2% Norwegian» «1.1023»
«66.4% Belarusian_EastBelarus + 33.6% Icelandic» «1.1118»
«80.9% Latvian + 19.1% Spanish_Baleares_IBS» «1.1154»
«30% French + 70% Lithuanian» «1.1206»
«29% French + 71% Latvian» «1.1215»
«55% French_West + 45% Lithuanian_Zemajitia» «1.1302»
«28.9% French_East + 71.1% Latvian» «1.1402»
«29% French_Northwest + 71% Latvian» «1.1563»
«72.3% Belarusian_EastBelarus + 27.7% Orcadian» «1.1766»
«57.2% European_Utah + 42.8% Lithuanian_Zemajitia» «1.1825»

Основная часть генома — условно славяно-балтийская (что ожидаемо), но с существенным сдвигом в сторону Скандинавии и западной Европы(примерно 20-30%). Скорее всего, это наследие готов, или контактов балтийских племен с викингами. Интересно, что модель K11 (c использованием современных референсных популяций) дает примерно такой же расклад — разве что древний скандинавско-германский пласт выражен чуть резче чем в модели K16

«Belarusian_West» «2.3841»
«Belarusian» «2.4187»
«Pole_Poland» «2.5278»
«Belarusian_East» «3.7288»
«Russian_Central» «3.7635»
«Swede» «3.9724»
«Russian_cossack» «4.1139»
«Ukrainian» «4.2647»
«Russian_Southern» «4.5204»
«Ukrainian_East» «4.8635»
«66.6% Icelandic + 33.4% Latvian» «1.586»
«41.1% Latvian + 58.9% Orcadian» «1.5898»
«47.9% Lithuanian + 52.1% Orcadian» «1.6007»
«60.2% Icelandic + 39.8% Lithuanian» «1.6082»
«5.7% Basque_Spanish + 94.3% Belarusian» «1.6386»
«5.8% Basque_French + 94.2% Belarusian» «1.6406»
«67.2% Belarusian + 32.8% Swede» «1.659»
«40.2% Lithuanian + 59.8% Norwegian» «1.6876»
«33.7% Latvian + 66.3% Norwegian» «1.689»
«94.1% Belarusian + 5.9% Spanish_Pais_Vasco_IBS» «1.7359

В палеокалькуляторе K11 (т.е. с древними геномами) картинка кажется более убедительной

«Unetice_EBA» «2.7065»
«Bell_Beaker_Czech» «5.0633»
«British_AngloSaxon» «5.1998»
«Nordic_LN» «5.6157»
«Corded_Ware_Proto_Unetice_Poland» «6.3751»
«Nordic_MN_B» «6.3865»
«Halberstadt_LBA» «6.4422»
«BenzigerodeHeimburg_LN» «7.4695»
«Nordic_IA» «7.5404»
«Corded_Ware_Estonia» «7.7635»

Из всех палеогеномов наиболее близок к моему геном представителя унетицкой культуры. Происхождение унетицкой культуры до сих пор не выяснено. Между позднейшими энеолитическими культурами и унетицкой культурой существует типологический и хронологический разрыв. Наибольшее признание в результате последних исследований получило предположение, согласно которому в ее возникновении главную роль сыграли культура колоколовидных кубков и надиревская культура, распространенная в Венгрии (см. ниже). У культуры колоколовидных кубков и унетицкой имеется сходство в керамике, в погребальном обряде и в орудиях труда. Небольшую роль могла сыграть культура шнуровой керамики, хотя в целом они очень различаются. Закономерно, что следующими — хотя и с большим отрывом — близкими к моему геному группами палеогеномов являются геномы древних англосаксов (которые близки к древним скандинавам) и представителей чешского ареала культуры колоковидных кубков).
Аналогично, в режиме смешенных популяций хорошо заметны две тенденции. Во-первых, мой геном может быть представлен в виде комбинации палеогенома представителя позднебронзового века (Хальберштадт) и палеогеномов восточных охотников-собирателей эпохи энеолита, во-вторых как смесь 23.4% генома представителей балтийской позднебронзовой эпохи и все того же позднебронзового палеогенома из Хальберштадта

«86.4% Halberstadt_LBA + 13.6% Karelia_HG» «2.139»
«74.1% Bell_Beaker + 25.9% LesCloseaux13_Mesolithic» «2.1574» «35.9% Hungary_BA + 64.1% Poltavka_MBA_outlier» «2.319»
«65.7% Halberstadt_LBA + 34.3% Poltavka_MBA_outlier» «2.4387»
«83.2% Alberstedt_LN + 16.8% Karelia_HG» «2.443»
«23.4% Baltic_LBA + 76.6% Halberstadt_LBA» «2.4846»
«16.7% Europe_MN + 83.3% Poltavka_MBA_outlier» «2.4897»
«83.4% Halberstadt_LBA + 16.6% Samara_Eneolithic» «2.536»
«12.9% Halberstadt_LBA + 87.1% Unetice_EBA» «2.5603»
«16.1% Bell_Beaker_Czech + 83.9% Unetice_EBA» «2.5747»

2) файлы модели K11 и K16 для более сложной программы 4Admix (разработанной Александром Бурнашевом). Вторым инструментом вторичного анализа является 4Mix. Он работает по методу brute-force, шаг за шагом перебирая все возможные комбинации, а по окончанию цикла программа возвращает результат с наименьшим евклидовым расстоянием (по выбору можно использовать гауссово сглаживание, снижающее случайный статистический шум результатов). Как и в классическом Oracle, комбинация cмешиваемых этнических групп не может содержать более 4 популяций, хотя в отличие от классического Oracle, программа может моделировать комбинации из 3 и 4 этнических групп.

Пример. Приведу пример этих 3- и 4-членных аппроксимаций. В принципе, все то же самое, c той лишь разницей что теперь программа выделяет в комбинациях балтийскую и славянскую составляющую. Интересно, что скандинавская составляющая никуда не исчезла, оставаясь в пределах 20-25%
Using 3 populations approximation:
1 50% Belarusian_EastBelarus +25% English_Kent_GBR +25% Latvian @ 0.973956
2 50% Belarusian_EastBelarus +25% English_Kent_GBR +25% Lithuanian @ 0.988467
3 50% Latvian +25% French +25% Balt @ 1.036492
4 50% Lithuanian_Zemajitia +25% French +25% Irish_Connacht @ 1.05259
5 50% Lithuanian +25% Sorb +25% French_West @ 1.059638
6 50% Belarusian +25% Icelandic +25% French_West @ 1.06158
7 50% Lithuanian_Zemajitia +25% French +25% Irish_Cork_Kerry @ 1.074796
8 50% Lithuanian_Aukstajtia +25% French_East +25% Irish_Connacht @ 1.076771
9 50% Lithuanian_Zemajitia +25% French +25% Irish_Ireland @ 1.078576
10 50% Belarusian +25% Norwegian +25% French_West @ 1.079741
11 50% European_Utah +25% Lithuanian_Zemajitia +25% Balt @ 1.084317
12 50% Dane +25% Belarusian_EastBelarus +25% Lithuanian_Aukstajtia @ 1.090086
13 50% Lithuanian_Zemajitia +25% French +25% Scottish_Highlands @ 1.093951
14 50% Lithuanian +25% North_European +25% Sorb @ 1.103744
15 50% Lithuanian_Aukstajtia +25% English_GBR +25% French_Northwest @ 1.105369
16 50% Lithuanian_Zemajitia +25% French +25% Scottish_Grampian @ 1.106616
17 50% Lithuanian_Aukstajtia +25% French_Northwest +25% Irish_Connacht @ 1.106771
18 50% Lithuanian_Aukstajtia +25% French_Northwest +25% Scottish_Dumfries_Galloway @ 1.108261
19 50% Lithuanian +25% French_West +25% Polish_West @ 1.113695
20 50% Latvian +25% North_European +25% Sorb @ 1.115164
31501779 iterations.
Using 4 populations approximation:
1Belarusian_EastBelarus+Lithuanian_Zemajitia+Swede+French_West @ 0.947002
2Belarusian_EastBelarus+English_Kent_GBR+Lithuanian_Aukstajtia+Sorb @ 0.971605
3Belarusian_EastBelarus+Belarusian_EastBelarus+English_Kent_GBR+Latvian @ 0.973956
4Belarusian_EastBelarus+English_Kent_GBR+Lithuanian_Aukstajtia+Polish_East @ 0.986863
5Belarusian_EastBelarus+Belarusian_EastBelarus+English_Kent_GBR+Lithuanian @ 0.988467
6 French+Lithuanian_Zemajitia+Swede+Balt @ 0.98916
7Belarusian_EastBelarus+English_Kent_GBR+Lithuanian_Aukstajtia+Polish @ 0.996302
8 Belarusian+Lithuanian_Aukstajtia+Shetlandic+French_West @ 1.010485
9 Belarusian+Lithuanian_Zemajitia+Irish_Ulster+French_West @ 1.01227
10 Belarusian+Lithuanian_Zemajitia+French_West+Irish_Ulster @ 1.012977
11 Belarusian_EastBelarus+Lithuanian_Aukstajtia+Swede+Welsh @ 1.013043
12Belarusian_EastBelarus+European_Utah+Lithuanian_Aukstajtia+Swede @ 1.013805
13Belarusian_EastBelarus+Lithuanian_Aukstajtia+Swede+French_West @ 1.018296
14German_NorthGermany+Lithuanian_Aukstajtia+Balt+French_West @ 1.026503
15 Lithuanian_Aukstajtia+Sorb+Ukrainian-Center+French_West @ 1.027473
16 Belarusian+Lithuanian_Zemajitia+French_West+Irish_Connacht @ 1.031967
17Belarusian+Lithuanian_Zemajitia+French_West+Irish_Cork_Kerry @ 1.035716
18 French+Latvian+Latvian+Balt @ 1.036492
и т.д.
То же самое, но в модели K11
Using 3 populations approximation:
1 50% Poltavka_MBA_outlier +25% Halberstadt_LBA +25% Hungary_BA @ 2.031302
2 50% Poltavka_MBA_outlier +25% Bell_Beaker_Czech +25% Hungary_BA @ 2.072453
3 50% British_AngloSaxon +25% Halberstadt_LBA +25% Poltavka_MBA_outlier @ 2.125791
4 50% Bell_Beaker +25% Bell_Beaker +25% LesCloseaux13_Mesolithic @ 2.209118
5 50% Halberstadt_LBA +25% British_AngloSaxon +25% Poltavka_MBA_outlier @ 2.244371
6 50% Halberstadt_LBA +25% Hungary_BA +25% Samara_HG @ 2.270667
7 50% Halberstadt_LBA +25% Poltavka_MBA_outlier +25% Unetice_EBA @ 2.291406
8 50% Poltavka_MBA_outlier +25% British_AngloSaxon +25% Hungary_BA @ 2.30791
9 50% Bell_Beaker_Czech +25% Hungary_BA +25% Samara_HG @ 2.356281
10 50% Halberstadt_LBA +25% Nordic_BA +25% Poltavka_MBA_outlier @ 2.358744
11 50% Bell_Beaker +25% Hungary_BA +25% Karelia_HG @ 2.369978
12 50% Bell_Beaker_Czech +25% Nordic_BA +25% Poltavka_MBA_outlier @ 2.385823
13 50% Halberstadt_LBA +25% Corded_Ware_Germany +25% Nordic_BA @ 2.490915
14 50% Poltavka_MBA_outlier +25% Hungary_BA +25% Unetice_EBA @ 2.503754
15 50% British_AngloSaxon +25% Bell_Beaker_Czech +25% Poltavka_MBA_outlier @ 2.53217
16 50% Halberstadt_LBA +25% Baltic_LBA +25% Halberstadt_LBA @ 2.540751
17 50% Hungary_BA +25% Poltavka_MBA_outlier +25% Samara_HG @ 2.551414
18 50% Poltavka_MBA_outlier +25% Alberstedt_LN +25% Hungary_BA @ 2.561557
19 50% British_AngloSaxon +25% Poltavka_MBA_outlier +25% Unetice_EBA @ 2.575398
20 50% Bell_Beaker_Czech +25% British_AngloSaxon +25% Poltavka_MBA_outlier @ 2.575919
1127348 iterations.
Using 4 populations approximation:
1 Halberstadt_LBA+Hungary_BA+Poltavka_MBA_outlier+Poltavka_MBA_outlier @ 2.031302
2 Halberstadt_LBA+Nordic_BA+Poltavka_MBA_outlier+Unetice_EBA @ 2.03713
3 Bell_Beaker_Czech+Hungary_BA+Poltavka_MBA_outlier+Poltavka_MBA_outlier @ 2.072453
4 British_AngloSaxon+Halberstadt_LBA+Poltavka_MBA_outlier+Unetice_EBA @ 2.088049
5 British_AngloSaxon+British_AngloSaxon+Halberstadt_LBA+Poltavka_MBA_outlier @ 2.125791
6 British_AngloSaxon+Halberstadt_LBA+Hungary_BA+Samara_HG @ 2.131526
7 Bell_Beaker_Czech+Halberstadt_LBA+Hungary_BA+Samara_HG @ 2.14648
8 Bell_Beaker+Bell_Beaker+Bell_Beaker+LesCloseaux13_Mesolithic @ 2.209118
9 Bell_Beaker_Czech+Halberstadt_LBA+Nordic_BA+Poltavka_MBA_outlier @ 2.209365
10 Bell_Beaker_Germany+British_AngloSaxon+Hungary_BA+Samara_HG @ 2.212982
11 Bell_Beaker_Czech+Bell_Beaker_Germany+Hungary_BA+Samara_HG @ 2.232922
12 British_AngloSaxon+Halberstadt_LBA+Halberstadt_LBA+Poltavka_MBA_outlier @ 2.244371
13 British_AngloSaxon+Halberstadt_LBA+Nordic_BA+Poltavka_MBA_outlier @ 2.254756
14 Alberstedt_LN+British_AngloSaxon+Hungary_BA+Samara_HG @ 2.255589
15 Bell_Beaker_Czech+British_AngloSaxon+Halberstadt_LBA+Poltavka_MBA_outlier @ 2.256027
16 Halberstadt_LBA+Halberstadt_LBA+Hungary_BA+Samara_HG @ 2.270667

3) новым инструментом в релизе будет R программа nMonte, разработанная голландцем Гером Гизбертом. В отличие от двух предыдущих инструментов (ограниченных в числе используемых для моделирования этнических групп), nMonte позволяет использовать для моделирования (аппроксимации) генмоа все референсные грппы. Программа использует алгоритм эволюционного моделирования по методу Монте-Карло.
После пошагового добавления новой популяции программа определяет уменьшается ли евклидово расстояние; если да, то шаг сохраняется, в противном случае шаг отклоняется. Алгоритм завершает свою работу после выполнения примерно миллиона шагов. Как и два предыдущих инструмента программа стремится к минимализации евклидова расстония; но похоже за счет использования метода Монте-Карло, алгоритм гораздо более эффективен. И, также, как и в других инструментах, в nMonte «наилучшая комбинация» определяется как комбинация с наименьшим расстоянием. Недостаток же nMonte состоит в том, что она выдает только наилучшее подходящее решение, в то время как Oracle представляет альтернативные варианты.
Пример. Посмотрим, сколько потенциальных предковых популяций выдаст nMonte при аппроксимации моего генома.
При первом запуске программа выдала комбинацию (в cкобках процентный вклад референсной популяции) следующих 65 популяций. Также как и в других инструментах, тон задают балтийские популяции, а также белорусы, сорбы и поляки.

Lithuanian_Zemajitia 10.1
Latvian 7.85
Lithuanian_Aukstajtia 7.85
Belarusian_SouthBelarus 6.55
Lithuanian 6.5
Pole 5.45
Belarusian_WestBelarus 4.8
Balt 4.35
Sorb 3.35
Belarusian 3.05
Belgian 3
Norwegian 2.95
Czech 2.75
Dane 2.5
Slovak 2.4
Icelandic 1.9
Swede 1.9
French_SouthFrance 1.5
Slovenian 1.5
Basque_Spanish 1.3
Frisian 1.15
German_NorthGermany 1.1
Sardinian 1.1
Polish_East 1.05
Ukrainian_WestUkraina 1
Polish 0.95
Basque_French 0.9
Orcadian 0.7
Spanish_Pais_Vasco_IBS 0.7
Hungarian 0.65
Irish_Connacht 0.65
DonKuban_cossack 0.6
Dutch 0.6
Ukrainian_EastUkraina 0.6
Scottish_Argyll_Bute_GBR 0.55
European_Utah 0.5
English_GBR 0.45
Croatian 0.4
Russian-Pskov 0.4
French_South 0.4
Welsh 0.35
Irish_Ulster 0.35
Scottish_Fife 0.3
German_SouthGermany 0.25
Scottish_Dumfries_Galloway 0.25
Belarusian_CentralBelarus 0.2
Datog 0.2
English_Cornwall_GBR 0.2
North_European 0.2
Ukrainian 0.2
Russian_Orjol 0.15
Afar 0.1
Belarusian_EastBelarus 0.1
English_Kent_GBR 0.1
Irish 0.1
Kambera 0.1
Russian_Smolensk 0.1
Vindija 0.1
Belarusian-East 0.1
Spanish_Canarias_IBS 0.1
Spanish_Cantabria_IBS 0.1
Spanish_Cataluna_IBS 0.1
Peruvian 0.05
Russian_Voronezh 0.05

В K11 показаны следующие палеогеномы (или их группы). По-прежнему, основа генома 40% моделируется как геном представителя культуры колоколовидных кубков.

«Bell_Beaker» 40.3
«Halberstadt_LBA» 31.6
«Samara_HG» 8.5
«Tyrolean_Iceman_EN» 2.05
«Esperstedt_MN» 1.95
«Swedish_Mesolithic» 1.95
«BerryAuBac_Mesolithic» 1.85
«Swedish_Motala_Mesolithic» 1.7
«Bichon_Azillian» 1.6
«Continenza_Paleolithic» 1.5
«Hungary_BA» 1.5
«LaBrana_Mesolithic» 1.35
«Bell_Beaker_Germany» 1.05
«Hungary_HG» 0.85

4) следующим новым инструментом будет 4mix, более упрощенный вариант 4Admix. Он разработан тем же Г. Гизбертом. Основное отличие от 4Admix — если 4Admix перебирает все возможные комбинации из 4 популяций, то в 4mix можно эксплицитно задавать отдельные комбинации и определять евклидову дистанции между этой комбинацией и аппроксимируемым геномом в пространстве моделей
5) карты компонентов с аннотацией. Аннотации компонентов будут чуть позже, а вот карты уже готовы

Карты распространения некоторых компонентов K16 и K11  в ряде географических ареалов

6) я включил в релиз модифицированный скрип GPS лаборатории Элхайка для определения географического ареала происхождения предков человека, чей геном является предметом изучения. Я включил пару строчек кода для проецирования вычисленных географических координат на географическую карту.
Пример. Ниже показаны две карты, на которые спроецированы географические координаты вычисленной алгоритмом GPS (GPS DNA tool ) точки «этнического происхождения».
Я проверил работоспособность алгоритма на обеих моделях.
В модели K16 (современные популяции) GPS-координаты точки моего «происхождения» 49.7648663288835 32.4345922625112 (примерно 49 градусов северной широты и 32 градуса восточной долготы), т.е где-то на левом берегу Днепра в Украине. Как утверждают разработчики программы, она позволяет определить место происхождения с радиусом погрешности в 500 км. Я вычислил расстояние от полученной точки до настоящего места жительства предков (южная часть Брестской области) и получилось 470 км. Т.е точка попадает в радиус, хотя и с некоторым трудом.

Rplot

Что касается модели K11 (древние геномы), то в этой модели мой «Urheimat» локализуется — весьма ожидаемо — на землях древней унетицкой и лужицких культур (51.1254133094371 13.2336209988448)

Rplot

 

 

О «ближневосточном компоненте» палеолитических охотников-собирателей Европы

Сергей Козлов

О «ближневосточном компоненте» палеолитических охотников-собирателей Европы

Описание
Рассмотрена статья Qiaomei Fu et al. «The genetic history of Ice Age Europe». Проведен анализ европейских палеогеномов возрастом от 37 до 8 тысяч лет из данной статьи и более ранних работ. Аутосомный компонент западных охотников-собирателей (WHG) — преимущественно результат генетического дрейфа, гипотеза авторов о его формировании в результате однократной миграции в Европу около 14 тысяч лет назад носителей ближневосточных аутосомных компонентов несостоятельна. Вместе с тем, обмен генофондом с ближневосточными популяциями несомненно происходил, однако для прояснения его истории необходимы палеогеномы с Ближнего Востока. Подтверждаются выводы из более старых работ о наличии ближневосточного («базального») компонента у образца Костенки-14 (человек с Маркиной Горы), отрицаемые в рассматриваемой статье. Вероятно, он связан с компонентом охотников-собирателей Кавказа (CHG). Опровергается вывод авторов о восточноазиатском влиянии на поздних WHG. Проведено моделирование ряда возможных событий смешения и построено дерево вероятных взаимосвязей аутосомных компонентов с размещением на нем имеющихся палеогеномов.

Обсуждение работы Qiaomei Fu et al на форуме «Молекулярная генеалогия».

Новые палеогеномы из статьи
В рассматриваемой статье впервые произведен временной срез геномов жителей Европы верхнего палеолита. Конечно, единичные геномы у нас были и раньше (Костенки-14, Oase1), однако не хватало системности для построения целостной картины изменений в генофонде европейцев на протяжении этого периода. Статья частично решает эту проблему — прочтено несколько десятков новых геномов. К сожалению, остался неохваченным период 19-28 тысяч лет назад (а с учетом лишь геномов приемлемого качества — 19-30 тлн), но и имеющиеся образцы позволяют сделать ряд интересных выводов.

Коротко о содержании рассматриваемой работы, критика
Авторы подтверждают выводы из более ранних работ об угасании вклада неандертальцев в генофонд современных европейцев с ходом времени (предположительно, на неандертальские участки ДНК действовал отрицательный отбор). Далее они касаются нескольких интересных мелочей (присутствие Y-гаплогруппы R1b в палеолитической Европе — образец Villabruna возрастом 14 тысяч лет, появление «мутации светлоглазости» почти одновременно в Европе и на Кавказе (разумеется, это не отменяет вероятности нахождения более древних образцов с этой мутацией впоследствии) и необычные для региона в наши дни митогаплогруппы). После этого авторы переходят к объединению образцов в кластеры и попытке реконструкции их взаимоотношений. По сути, здесь все просто — европейские палеогеномы из одной эпохи объединяются в один кластер. Классические европейские WHG выступают под псевдонимом «кластер Villabruna», их непосредственные предшественники — el Miron, и ряд геномов возрастом 30 тысяч лет (из них лишь один заслуживающего рассмотрения качества) — кластер Vestonice. Чуть более старые GoyetQ116-1 и костенковец не вошли ни в один кластер. Далее делается очень странный вывод, что с появлением кластера Villabruna (в дальнейшем я буду называть их «WHG» согласно общепринятой терминологии), произошло резкое изменение генофонда в результате вливания компонента, связанного с современными ближневосточными популяциями. Формально приводится и альтернативное объяснение — результат нормальной изменчивости среди охотников-собирателей, и группы с меньшей общностью с Ближним Востоком были замещены группами, изначально имевшими большую общность. Однако в abstract статьи попал лишь первый вариант.

Мое объяснение
Даже из диаграммы, которая должна иллюстрировать точку зрения авторов, следует прямо противоположный ей вывод — изменения, относимые к появлению классических WHG, начались задолго до этого и происходили постепенно. «Ближневосточное влияние» (зеленые ромбики) появляется в заметных масштабах уже в предшествующем кластере el Miron, на пять тысячелетий ранее. Но перед этим кластером находится разрыв в девять тысячелетий, где, вполне возможно, мы тоже могли бы увидеть это влияние. Однако на картинке разрыв закрыт и создается впечатление резкого перехода.
Исходное изображение:

ИсходнаяСхема
Отмасштабированная пропорционально реальной временной шкале картинка:
Безымянный-3
Как я покажу в дальнейшем, общность палеообразцов с классическими WHG и современными северными европейцами (которые являются преимущественно потомками WHG) с ходом времени росла постоянно — от костенковца и GoyetQ116-1 к el Miron, Villabruna и Loschbour. По моим предположениям, основной механизм здесь — дрейф генов. Не надо думать, что это был некий целенаправленный процесс — наоборот, дрейф генов во многом случаен (хотя и отбор наверняка сыграл свою роль), но именно то, что получилось в его результате, и стало европейскими охотниками-собирателями мезолита. Поэтому естественно, что чем ближе к нашему времени, тем выше сходство с итоговым результатом процесса.
Вместе с тем, с ходом времени мы наблюдаем и относительное повышение общности с ближневосточными популяциями, хотя и в заметно меньшем масштабе. Однако трудно сказать, кто, когда, сколько раз и на кого влиял. Допустим в качестве модели, что несущие компонент WHG группы повлияли на ближневосточников в относительно недавнем прошлом. Тогда повышение сходства палеогеномов с WHG автоматически будет немного повышать сходство и с ближневосточниками пропорционально доле WHG в их генофонде, даже если в ту эпоху на Ближнем Востоке о WHG и не слыхали. С другой стороны, небольшие равномерные вливания с Ближнего Востока в Европу могли дать такой же эффект. Или же третья группа, вроде CHG, могла повлиять как на WHG, так и на ближневосточников (необязательно одновременно). Словом, точку здесь поставит лишь хорошая выборка палеогеномов с Ближнего Востока -сравнение с современными популяциями всегда оставит место гаданиям.
Что касается восточноазиатского влияния на часть WHG (внимательные читатели критикуемой работы могли заметить, что оно «проявляется» и у одного из древнейших образцов — GoyetQ116-1), то оно объясняется ошибочностью принятия основой для сравнения образца Kostenki-14. Далее я еще коснусь этого.

Использованные для анализа методы и палеообразцы, причины их выбора
В этой заметке я не стал применять свой излюбленный метод — подсчет сумм общих (IBD) сегментов. Хотя качество некоторых образцов вполне позволяет его применить, трудно понять, как при этом надежно сравнить между собой образцы из эпох, разделенных десятками тысячелетий? Ведь сегменты со временем уменьшаются в размерах, при этом скорость процесса сильно зависит от популяционной истории — в одной выборке быстрее, в другой медленнее… Добавим к этому резко различающееся качество прочтения палеогеномов, и за корректность сравнения поручиться становится совершенно невозможно.
Поэтому я решил пойти путем подсчета доли общих снипов (IBS), как простого и объективного показателя. Чем больше значений снипов совпадает, тем выше генетическая близость. Я не согласен с мнением, что учитывать надо лишь производные (derived) аллели — ведь если оба варианта закрепились в популяции, то для дрейфа генов уже безразлично, какой из них предковый. Для того, чтобы поставить геномы разного качества в одинаковые условия, я случайным образом выбрал для каждого аллеля одно из прочтений и оставил лишь его, то есть создал искусственную гаплоидность, как часто делается с палеогеномами от лаборатории Райха. Обычно я ругаю этот подход, как разрушающий IBD-сегменты, но в данном случае он приносит пользу. Далее я ограничил набор снипов пересечением трех множеств — снипы, используемые мной для сравнения с современными выборками и снипы, прочитанные у образцов Villabruna и GoyetQ116-1. Более логично было бы выбрать в качестве базового образца WHG прочитанный наиболее качественно из всех Loschbour, однако носитель R1b Villabruna в любом случае будет вызывать интерес общественности и подозрения в отличиях от других WHG, поэтому решение было принято в его пользу. Что касается GoyetQ116-1, то из всех древних образцов он наиболее связан с «промежуточным» между палеолитическими европейцами и WHG el-Miron, за что и был выбран в качестве второй опоры. Итоговый набор составил около 107 тысяч снипов. Для сравнения Villabruna и Goyet с el Miron было проведено отдельное уменьшение набора до присутсвующих у всех троих 65 тысячи снипов.
Среди остальных использованных палеообразцов хорошо прочитанные Loschbour, Ust-Ishim, Kostenki, NE1, Kotias отмасштабировались практически без потерь в количестве снипов, Mota1 и Motala12 — с незначительными потерями. Несколько хуже отмасштабировались Vestonice16, «карел» c Оленьего острова I0061, «мальтинец» и один из наиболее ранних геномов неолитчических земледельцев Анатолии I0707, но они также были включены в сравнение, поскольку представляют явный интерес. Судя по сравнению результатов I0707 и его близкого аналога из Европы NE1, подсчеты сохранили корректность.

Таблица результатов и ее применение
Результаты сравнения сведены в таблицу, с которой желающие могут ознакомиться по ссылке. Кроме современных выборок, приведены и выборки из имеющихся палеогеномов (конец таблицы), хотя их качество очень разное. Впрочем, интересующие нас в первую очередь западные охотники-собиратели WHG и ранние неолитические земледельцы Анатолии AEF представлены вполне неплохо, хотя по Анатолии пока, к сожалению, охвачена лишь крайняя западная часть. Наиболее древние европейцы — Kostenki14, GoyetQ116-1, Vestonice16 объединены в выборку pre-WHG. Число в каждой ячейке — доля совпадающих аллелей для текущего образца с этой выборкой — допустим, 65 означает 65% общих снипов (на данном наборе снипов — число сильно зависит от набора).
Несмотря на все ухищрения, призванные поставить геномы в равные условия, прямое сравнение результатов оказалось невозможным — у некоторых образцов чуть больше совпадающих снипов со всеми выборками, у некоторых — чуть меньше. Разница невелика, но в этом методе играют роль даже доли процента. Возможно, причина — в разном качестве прочтения, возможно — индивидуальные особенности образцов или что-то еще. Однако решение проблемы существует. Поскольку увеличение или уменьшение доли совпадающих снипов примерно пропорционально для всех выборок, можно взять соотношение этой доли с выборкой, равно удаленной от всех («outgroup»). В качестве подобного ориентира я решил взять объединение всех четырех используемых мной выборок из Африки южнее Сахары — представителей пигмеев мбути и бьяка, кенийских банту, нигерийского племени йоруба. На графике ниже приведена доля общих снипов для каждого из палеогеномов с соответствующей выборкой (Balt, Druze, WHG и т.д.) после приведения доли общих снипов с африканцами к одинаковому с другими образцами значению путем домножения на коэффициент. Для проверки корректности метода на график помещены другие outgroups, которые в исследуемый период явно не могли участвовать в обмене генами ни с африканцами, ни с исследуемыми палеообразцами — выборка папуасов. Как интерпретировать их результат, я опишу чуть ниже.
График1
Палеогеномы (kya означает тысяч лет назад):
Ust-Ishim — усть-ишимский человек, наиболее древний приемлемо прочитанный геном человека современного типа.
Kostenki-14, GoyetQ116-1, Vestonice16 — древние геномы из Европы
el-Miron — предшественники WHG
Villabruna, Loschbour — WHG
Motala12 — охотник-собиратель из Швеции, представитель группы SHG (охотники-собиратели Скандинавии)
Karelian — образец с Оленьего Острова, так называемый EHG (восточный охотник-собиратель). Malta — древний «сибиряк» со стоянки Мальта, образец аутосомного компонента ANE — предковые северные евразийцы
EHG находятся в промежутке между WHG и ANE и, вероятно, являются их смесью.
I0707 — ранний неолитический земледелец с запада Анатолии
NE1 — ранний неолитический земледелец с территории Венгрии
Kotias — мезолитический охотник-собиратель с Кавказа

Ради интереса я также поместил на график результаты современного восточноевропейца с предками из трех восточнославянских народов (Modern EE).

Левая часть графика иллюстрирует изменения в генофонде европейцев с течением времени (усть-ишимский человек добавлен для сравнения, хотя он и не из Европы), правая — другие представляющие интерес геномы.
При сравнениях палеогеномов с палеовыборками сравнение «сам с собой» пропускалось.

Интерпретация сравнения с выборкой папуасов
Как мы видим, соотношение «родство с папуасами»/»родство с африканцами» для палеоевропейцев представляет собой почти горизонтальную линию. Это значит, что с какой скоростью европейцы «отдрейфовывали» от папуасов, примерно с такой же они отдалялись и от суб-сахарцев. Выглядит логично. Усть-ишимец выше всех, и это тоже логично — ведь он находится наиболее близко во времени к моменту расхождения папусов, восточноазиатов и WHG/ANE — значит, он и должен иметь относительно больше общего с папуасами. С другой стороны, для образца Kotias, имеющего много «базального» компонента, логично иметь заметно более низкое значение этого соотношения — момент расхождения «базальников» и предков остальных не-африканцев (включая папуасов) был очень давно. Ранние земледельцы, как смесь «базальников» и WHG, закономерно находятся в промежутке между WHG и Kotias. Даже неравномерности в графике охотников-собирателей находят свое объяснение — как я покажу позже, у костенковца вероятно небольшое влияние «базальников», и он проваливается на графике. Также я предполагаю небольшое базальное влияние у WHG и el Miron — соответственно, они находятся чуть ниже Goyet, мальтинца и оленеостровца. Итак, контрольная проверка показала применимость метода.

Важная ремарка — когда я в дальнейшем буду писать о росте доли общих снипов (график с течением времени идет вверх), надо понимать, что этот рост относительный. Есть некий базовый «уровень разбегания» — это скорость, с которой мы с каждым поколением отдаляемся от африканцев и папуасов из-за дрейфа генов и других факторов. Если в относительных значениях общность с друзами растет, это не значит, что она точно растет в абсолютных значениях — возможно, она тоже падает, но из-за обмена генами с нами падает медленнее, чем могла бы. А может, с друзами общность медленно растет, но с отстающими от них йеменцами медленно падает. Все зависит от соотношения скорости дрейфа генов, который нас растаскивает, и скорости обмена генами, который объединяет. В данном случае нас интересует, что удается увидеть наличие факта этого обмена.

Интерпретация графика
В первую очередь бросается в глаза пунктирная красная линия вверху — доля общих снипов с выборкой WHG. Как легко заметить, рост был почти непрерывен в течение всего времени, лишь, немного споткнувшись на образце Vestonice (возможно, поэтому в статье отнесли этот кластер к «тупиковой ветви». Впрочем, на сравнении с балтской выборкой такого не происходит, а современные выборки все же качеством на порядок выше — значит, доверия им больше). Ниже сплошной красной линией приведено сравнение с наиболее близкой к WHG выборкой наших современников — жителями восточного побережья Балтики (выборка Balt состоит из 11 литовских образцов, 6 латышских, 2 из Латгалии и одного с российско-латышской границы). Здесь картина аналогична — каждый следующий во времени образец ближе к балтам, чем предыдущий, включая даже Vestonice16. Очевидно, что объяснить это монотонное приближение единоразовой миграцией невозможно, а вот процессы генетического дрейфа укладываются в модель замечательно. Зеленые линии — аналогичная пара для неолитических земледельцев (пунктир) и считающихся (по результатам аутосомного анализа) наряду с армянами их наиболее сохранившимися представителями на Ближнем Востоке друзами Палестины. Здесь мы тоже видим рост, но более медленный по сравнению с ростом сходства с WHG. Если учесть, что порядка четверти генофонда AEF считается полученным от WHG, то примерно половину роста необходимо отнести на этот фактор. Оставшаяся половина и будет искомым обменом генами между «базальниками» и WHG. Для моделирования «базальников» зачастую применяют выборку из Йемена, как наиболее отдаленную от европейцев среди ближневосточников. Неизвестно, насколько это моделирование корректно, однако я включил их в сравнение (голубая линия). Родство с ними также растет, хотя и медленнее, чем с AEF или друзами. Однако, начав заметно ниже папуасов, ближе к нашему времени йеменцы успешно обгоняют их и становятся более близкими к WHG. Ведь обмен генами с йеменцами гораздо менее затруднен географически, чем с папуасами.

Несколько слов о правой половине графика
Представитель сестринской к WHG клады — ANE, мальтинец (24 тлн), обладает относительным сродством с WHG примерно на уровне европейских образцов 30-37 тысяч лет назад. Можно предположить, что момент расхождения был не слишком задолго до этого времени. При этом сродство с «балтской» выборкой относительно выше — поскольку в Восточной Европе присутствует не только WHG, но и доля ANE. У «карела» EHG связь с WHG закономерно выше (поскольку он и сам частично WHG), соответственно выросла и связь с ближневосточниками. То же самое, но в еще большей степени можно сказать про образец из Швеции Motala12 (скандинавские охотники-собиратели — SHG считаются WHG с примесью ANE). На паре AEF/NE1 можно пронаблюдать, как при продвижении в Европу у неолитчиков вырос вклад WHG, зато упал «ближневосточный» компонент. У «палеокавказца» Kotias по сравнению с ними резко падает связь с восточноевропейцами, и менее резко, но тоже падает — с ближневосточниками.

Определенный интерес представляет и сравнение с некоторыми другими современными выборками. Я не стал помещать их на основной график, чтобы избежать его перегруженности, но размещаю более полный вариант ниже.
График2
Сардинцы добавлены, как наиболее яркие современные представители неолитических земледельцев, удмурты — как связанные с EHG, корнцы — с более западным вариантом WHG, калаши — за «калашский» кластер, кеты и южноамериканские индейцы каритиана — за связь с ANE.

Карты для палеогеномов

Теперь перейдем к рассмотрению каждого из палеогеномов отдельно. Для начала несколько слов об усть-ишимце. Хотя он и наиболее близок к общему корню, но все же, судя по всему, в его времена расхождение неафриканского человечества на основные ветви уже состоялось. Ближайшими к усть-ишимцу выборками оказались меланезийцы и папуасы, далее идут жители юго-восточной Азии, тамилы и восточноазиаты.

Каждая карта нормируется отдельно — ярко-красным выделяется наиболее хорошо связанная с этим геномом выборка из представленных, ярко-зеленым — наименее связанная. Не представленные на карте выборки (четыре африканские, две америндские, папуасы и меланезийцы) в нормировании не участвуют, по сравнению с африканцами все неафриканцы были бы просто разными оттенками красного. Карты в этой статье построены согласно доле общих снипов (IBS), по тем же таблицам, что и предыдущий график. Это не IBD-анализ. В более хорошем качестве карты можно загрузить отсюда
UstIshim.png
Хотя европейцы и среднеазиаты чуть ближе к усть-ишимцу, чем североафриканцы и ближневосточники, разница сравнительно невелика. Частично удаление европейцев от усть-ишимца следует отнести на влияние «базальников», но думаю, WHG и сами по себе успели хорошо удалиться от восточной ветви человечества. Поэтому на роль представителя общей для всех базы усть-ишимец не годится.

GoyetQ116-1
По причинам, описанным мной в разделе «Использованные для анализа методы и палеообразцы», из наиболее древних европейских геномов на роль «базового» был выбран GoyetQ116-1. И, как показывает карта, уже 35 тысячелетий назад европейские аутосомы начали приобретать свои основные черты. На первом месте по схожести — уже упоминавшаяся выборка «Balt», она будет попадаться нам вновь и вновь. Родство с остальными европейцами выражено вполне отчетливо. Однако интересно обратить внимание на другие регионы. Во-первых, родство с североафриканскими и ближневосточными популяциями находится на том же уровне, что и родство с восточноазиатами. Видимо, мы поймали тот момент, когда протоевропейцы были равноудалены от этих двух стволов. В дальнейшем родство с восточноазиатами будет ослабевать, а с ближневосточниками — усиливаться. Как говорится, «география-это судьба».

GoyetQ116-1.png
Еще раз повторюсь, что речь идет о современных ближневосточниках. Насколько они репрезентативны по сравнению с населением региона 10, 20, 50 тысяч лет назад — совершенно непонятно.
Очень интересно «вторичное пятно» в Индии. Вероятно, оно было бы соединено яркой полосой с европейским ареалом, если бы не размывшие ее миграции «базальников» с юго-запада и восточноазиатов с северо-востока. При этом в юго-восточной Индии и Бирме ареал связи с прото-WHG перекрывается с ареалом хорошей связанности с усть-ишимцев. Не отсюда ли когда-то разошлись две наших ветки? Я не являюсь специалистом по Y-гаплогруппам, но кажется, с максимумом разнообразия макрогаплогруппы K, включающей в себя в качестве ветвей такие известные гаплогруппы, как N, O, R, Q, это соотносится хорошо (в таком случае, «базальников» можно связать с IJ). Разумеется, сюда также относится оговорка о возможной несхожести современного и древнего населения.

Vestonice16
Картина для Vestonice16 довольно схожа с картой GoyetQ116-1.

Vestonice16.pngПри сравнении видно, что связь с восточной (и в первую очередь Юго-Восточной) Азией несколько ослабла, а связь с западными выборками (как европейскими, так и ближневосточными) слегка усилилась. Однако разница невелика и из-за этого сравнительная карта выглядит некрасиво. Чтобы избежать загромождения излишними иллюстрациями, ее не привожу.

Kostenki14
Как и Вестонице, костенковец весьма схож с GoyetQ116-1. В данном случае мне хочется привести именно карту разницы со вторым палеогеномом, чтобы продемонстрировать его «южный» компонент. Зеленое — больше общего с костенковцем, красное — с Goyet.
GoyetQ116-1VsKostenki14Merged.png
Из-за схожести двух геномов карта очень зашумлена, однако противоположности проявляются хорошо. Ярко-зеленое прекрасно совпадает с областью распространения компонента кавказских охотников-собирателей CHG (ниже будет приведена карта и для них). Видны его максимумы на Кавказе и у калашей, на Балканах, и даже (хотя это может быть погрешностью) замечавшееся при анализе «ямных» геномов пятно в северо-западной Европе. Красное же в юго-восточной Азии — район максимальной «небазальности». Оттенки бурого и близкие к ним разглядывать нет смысла, также, как и отдельные «выбросы».
Как будет показано далее, костенковец наиболее успешно моделируется, как смесь 86% GoyetQ116-1 и 14% Kotias. Строго говоря, мы не можем утверждать, что GoyetQ116-1 представляет чистых прото-WHG, а костенковец является смесью с южанами. Не исключено, что «южный» компонент присутствует и у GoyetQ116-1, просто его меньше. В конце концов, смешение могло произойти еще по пути в Европу.

el Miron
Закончив с наиболее древними геномами, мы можем перейти к рассмотрению динамики европейского генофонда во времени (впрочем, до момента прибытия неолитических земледельцев она довольно однообразна). Поэтому ближайшие карты будут только сравнительными. Итак, красное — выборки, сходство с которыми у образца el Miron (19 тлн) усилилось по сравнению с образцом GoyetQ116-1 (35 тлн). зеленое — выборки, сходство с которыми ослабло. Бурое — возможно, слегка усилилось, возможно, ослабло, но не так сильно, как с зеленым. Об этом я написал в разделе «важная ремарка» после графика.

elMironVsGoyetQ116-1.png

Villabruna

VillabrunaVsElMiron.pngКак видите, прибытие Villabruna никакого переворота не произвело. Как и раньше, с ходом времени сходство с циркумбалтийцами усиливалось, с восточноазиатами — ослабевало, с ближневосточниками — то ли слегка усиливалось, то ли медленно ослабевало, но медленнее, чем с восточноазиатами.

Loschbour
Этот образец настолько схож с предыдущим (см график), что разностная карта показывает один шум. Поэтому я приведу конечный итог — вот к чему пришли WHG спустя 29 тысячелетий:
LoschbourVsGoyetQ116-1.png
А также сравнение — где произошли наибольшие изменения
Сравнение Loschbour и GoyetQ116-1

LoschbourVsGoyetQ116-1.png
Дальше всего «убежали» от протоевропейцев жители юго-восточной Азии, далее идут Индия, Восточная Сибирь и Северная Африка. За пределами основного региона меньше всего «скорость убегания» на Северном Кавказе, у ираноязычных памирцев, греков-киприотов и кетов (везде можно предположить контакты с носителями WHG).

Теперь перейдем к Кавказу и Анатолии. Уже упоминавшийся в пояснениях к карте для костенковца кавказский охотник-собиратель Kotias:

Kotias.png

Интересно попытаться расщепить этот компонент на составляющие. В значительной части он несомненно связан общим корнем с прото-WHG (хорошо выделяются оба значимых для этого компонента региона — Европа и Индия). Попробуем вычленить не-WHG часть путем сравнения с GoyetQ116-1.

KotiasVsGoyetQ116-1.png

В первую очередь закономерно выделяются зоны наибольшего распространения CHG — Кавказ и Афганистан (калаши)/Пакистан/Иран. Однако кроме этого, проявляется и связь с Ближним Востоком, Анатолией, Балканами — регионами распространения ранненеолитических земледельцев. Таким образом, можно предположить, что у CHG имеется связь с ближневосточным аутосомным компонентом (знаменитые «базальники»), который впоследствии стал основой генофонда неолитических земледельцев и через них повлиял на современных европейцев. Потому-то Европа и выглядит на этой карте в целом нейтрально — на юго-востоке персиливает влияние «базальников», на северо-востоке — WHG. И наоборот, Восточная Азия, куда базальники не добрались, оказалась ярко-зеленой — это говорит о том, что время их расхождения с восточноазиатами древнее, чем время расхождения восточноазиатов и WHG.

Тот же самый эффект, но с противоположной стороны мы можем наблюдать, сравнив Kotias и геном ранненеолитического земледельца из Анатолии:KotiasVsAEF.png

Поскольку теперь Kotias менее «базальный», на этот раз Восточная Азия оказалась красной. Хотя наиболее выражен «не-базальный» компонент Kotias в Индии. Поэтому я считаю, что компонент CHG следует считать смешанным между «ближневосточным» (предковым к AEF) и «индийским» (предковым к WHG) компонентом.

Раз уж я неоднократно упомянул AEF, приведу карту и для представителя этой выборки I0707.

AEF.png

Среди наших современников наиболее схожими с ним являются жители острова Сардиния, находящемся в западной части Средиземного Моря. Можно сказать, что компонент ранних земледельцев сохранился там, словно в заповеднике. В целом он лучше представлен в южной Европе, чем на Ближнем Востоке. Хотя не стоит забывать — для анализа у нас есть лишь палеогеномы с крайнего запада Анатолии, на границе с Европой. Вполне возможно, что ближневосточные геномы оказались бы ближе к современным выборкам с Ближнего Востока. Пока же мы можем сказать, что в регионе наиболее схожими с имеющимися образцами неолитчиков оказались армяне, друзы и греки-киприоты.

Наконец, последними я хочу привести две карты для образца возрастом в 24 тысячелетия со стоянки Мальта в Прибайкалье. На основе его анализа в свое время было выдвинуто предположении о существовании «популяции-призрака» — ANE, предковых северных евразийцев, которые повлияли на многих соседей, в том числе на американских индейцев, но сами к нашему времени исчезли. ANE считаются родственной к WHG веткой и не несут восточноазиатского или ближневосточного влияния. В схожести картин можно легко убедиться:

MaltaIBDext.png

Если WHG это западный вариант, то у ANE основная тяжесть приходится на выборки из Западной Сибири (кеты), Урала (манси) и недавных мигрантов из этого же региона (саами). Очевидно, в прошлом ареал ANE простирался заметно восточнее, но к нашим дням они оказались вытеснены мигрантами с юга, из Восточной Азии. Интересно сравнить, каковы же основные отличия ANE от прото-WHG:

MaltaVsGoyetQ116-1.png

Пятно в западной Сибири вполне ожидаемо. Меня более заинтересовало пятно вокруг выборки калашей в средней Азии. Если вспомнить о связи этого же региона с кавказскими охотниками-собирателями, то уместно предположить, что здесь мы нащупали корень не-ближневосточной части CHG. При анализе Admixture мальтинец показывал наличие около 30% CHG, поэтому я долго ломал голову, как связать этот факт с явной не-ближневосточностью мальтинца. Теперь все становится на свои места — взаимосвязь идет через «калашский» компонент.
Что касается отличий прото-WHG от ANE, то они чуть ближе к восточноазиатам (может, их точка отделения чуть юго-восточнее, чем у ANE?), и ближе к «базальникам», что вновь заставляет меня думать о «базальном» влиянии уже у GoyetQ116-1. В конце концов, если у двух других образцов оно есть, может быть и у этого. Но пока более «чистых» образцов у нас нет, сравнить не с кем. С другой стороны, мальтинский образец на одиннадцать тысячелетий моложе — возможно, за это время он сильнее отдрейфовал от остальных веток.

Численная оценка доли вклада каждого компонента в некоторые из адмиксов.
В процессе работы над сравнительными картами у меня возникла мысль, не попробовать ли сделать численную оценку на основе все тех же таблиц общности IBS с современными выборками. Действительно, если я предполагаю, что не-WHG компонент костенковца очень похож на результаты кавказского охотника-собирателя Kotias, то я могу проверить, насколько близка к костенковцу будет комбинация 1% Kotias + 99% GoyetQ116-1, 2% Kotias + 98% GoyetQ116-1 и так далее, проверив сумму среднеквадратичных отклонений по всем столбцам. Для того, чтобы исключить влияние уже упоминавшегося в начале статьи эффекта, для каждой тройки сравниваемых геномов производилось нормирование. Таким образом, суммы IBS с современными выборками по каждому геному совпадали.

Для проверки модели я решил использовать геном, смешанное происхождение которого достоверно известно. Как мы знаем, по мере продвижения в Европу и с ходом тысячелетий исходный генофонд неолитических земледельцев постепенно размывался благодаря влиянию местных охотников-собирателей. Следовательно, геном семитысячелетней давности земледельца из Венгрии NE1 должен хорошо моделироваться, как смесь земледельца из Анатолии AEF (возраст генома на тысячу лет больше) и WHG. Так и получается — если в роли представителя WHG выступает более ранний геном Villabruna, модель предсказывает соотношение 11% WHG на 89% AEF, для более позднего Loschbour соотношение почти такое же — 10% WHG на 90% AEF. Среднеквадратичное отклонение при этом меньше единицы — в дальнейшем будем считать такое значение признаком того, что смешение моделируется хорошо.
Ряд результатов для заинтересовавших меня вариантов моделирования приведен на изображениях ниже:
Оракул01.png
Кратко прокомментирую. При попытке смоделировать NE1, как смесь WHG и CHG отклонение резко возрастает, что говорит о неудачности такой модели по сравнению с предыдущим вариантом. Родственные WHG охотники-собиратели ANE могут частично служить заменой Villabruna, однако результат хуже. Таким образом, результаты моделирования полностью соответствуют здравому смыслу. Я решил попробовать сделать еще один шаг и ввести в модель искусственный образец «базальника», полученный вычитанием из геномов неолитических земледельцев 15-20 процентов вклада WHG. Конечно, точная доля компонента WHG в геномах неолитчиков нам неизвестна, однако это лучше, чем применять в качестве «базального» образца геном AEF.
Результат костенковца действительно лучше всего моделируется, как смесь 86% прото-WHG и 14% CHG (Kotias), что мы и наблюдали на сравнительной карте. Чуть хуже вариант 94% прото-WHG на 6% базальников. Для другого древнего образца из Европы, Vestonice16, картина противоположная — базальники лучше подходят в качестве второй стороны, чем кавказцы. Интересно, что наиболее старые образцы Y-гаплогруппы I пока что найдены именно у представителей кластера Вестонице — возможно, это не случайное совпадение и вливание «базального» компонента связано с приходом носителей этой гаплогруппы.
«Опорный» прото-WHG GoyetQ116-1 не моделируется, как смесь кого-либо из двух других представителей группы и южан. Однако он может быть относительно неплохо смоделирован, как 88% костенковца и 12% мальтинца. Вероятно, это связано с отсутствием «базального» компонента у образца со стоянки Мальта.

Оракул02.png
Носитель R1b Villabruna может быть смоделирован, как смесь одного из своих предшественников и базальников, однако отклонение при этом слишком велико, чтобы считать моделирование успешным.
CHG Kotias плохо моделируется, как смесь каких-либо двух других образцов. Наиболее удачный вариант — 48% Мальта и 52% базальники (что еще раз говорит о его промежуточном положении между двумя кладами).
«Оленеостровец» EHG наиболее хорошо моделируется, как  смесь 51% SHG (Motala12) и 49% ANE (мальтинец), отклонение великовато.

Оракул03.png
«Скандинав» Motala12 хорошо моделируется, как смесь 72% WHG и 28% EHG
Промежуточный между прото- и классическими WHG образец el Miron оптимально моделируется именно как смесь первых (GoyetQ116-1) и вторых (Villabruna). Однако при этом он оказывается ближе к более древним родственникам, хотя расстояние по времени до них гораздо больше. Возможно, это объясняется ускорением дрейфа в эпоху 19-14 тлн, но мне кажется более правдоподобным другое объяснение — WHG это потомки сестринской к el Miron ветви, поэтому часть дрейфа у них прошла отдельно.

Дерево вероятных взаимосвязей
Попытавшись максимально подробно и непротиворечиво свести вместе как данные, полученные в результате вышеописанных исследований, так и информацию из других работ, я изобразил дерево возможных взаимодействий палеообразцов и аутосомных компонентов. Схема достаточно условна, поэтому размещать на ней датировки далее 40 тысяч лет назад не имеет смысла. Гипотетический общий компонент «мальтинца» и охотников собирателей-кавказа я обозначил «Kalash», но надо понимать, что под этим вовсе не подразумеваются современные калаши — просто неким образом связанная с ними древняя предковая популяция. Серыми стрелками между «базальниками» и CHG, «базальниками» и WHG обозначено, что взаимодействия, по-видимому, были, но обозначить их одиночной линией на схеме тяжело. «Уральский» компонент — это часть генофонда народов Урала и западной Сибири, которую можно отнести к европейской ветви, для получения картины современного состояния необходимо объединить ее с восточноазиатским влиянием.

Дерево08.png

Думаю, что на самом деле все гораздо сложнее и запутаннее, чем изображено здесь )) Будем ждать новых расшифровок древних геномов для дальнейшего развития схемы.

Вторая фаза нового проекта

Две недели назад я сообщил об окончании первой фазы своего нового проекта (на первом этапе работы удалось собрать надежную выборку из более чем 5000 образцов более чем 250 различных этно-популяционных групп людей по всему миру.

Как я уже рапортовал ранее, самой сложной из запланированных на втором этапе задач являлась импутирование (импутация) отсутствующих генотипов.  Читатели моего блога помнят, что две предыдущие экспериментальные попытки импутирования больших выборок     — в 2013  и в 2015  — закончились неудачно (или, если говорить точнее, качество импутированных генотипов не оправдало моих завышенных ожиданий). В предыдущих опытах я задействовал мощную комбинацию программ ShapeIT и IMPUTE и  метод импутирования снипов за счет использования большой референсной панели аутосомных гаплотипов (из 1000 genomes),  гарантирующей более аккуратное определение генотипов.

На этот раз, я решил не повторять ошибок, и обратился к использованию других программ — в частности , к  Minimac3, хорошо зарекомендовавшую себя в работе с геномами 1000G.  К моему счастью, я набрел на недавно появившиеся публичные сервера, работающие с «облачным» сервисом импутирования Cloudgene. геномов.
Серверы импутирования геномов позволяют использовать полную референсную панель гаплотипов для точного определения недостающих генотипов в анализируемых данных. Пользователи подобных серверов могут загружать (предварительно фазированные или несфазированные) данные генотипов на сервер. Процедура импутирования  будет осуществляться на удаленном сервере, и по окончанию этого процесса рассчитанные данные доступны пользователю для скачивания. Наряду с импутированием, подобные сервисы позволяют провести процедуру контроля качества (QC) и фазировки данных в качестве предварительного этапа процесса импутирования генотипов.

Прототипы серверов импутирования уже доступны в институте Сангера и Мичиганского университета. В дополнение к вышеназванным серверам, можно упомянуть прототип сервера поэтапной полномасштабной  фазировки генотипов анализируемых образцов (прототип создан биоинформатиками Оксфордского университета). На мой взгляд, самое простое и доступное решение задачи импутирования на удаленном сервере было разработано сотрудниками   Мичиганского университета. Дополнительное преимущество этому решению дает грамотная документация по использованию сервиса.

Основная рабочая лошадка сервиса — это комбинация двух или трех программ — две програмы для фазирования диплоидных генотипов в гаплоидную фазу  ShapeIT и Hapi-UR , а в качестве основного ПО для самого процесса импутирования (определения) недостающих генотипов — вышеупомянутую программу Minimac3.

Описание эксперимента с импутированием генотипов на удаленном сервере

В самом начале,  я разбил свою выборку на пять когорт (т.к. референсные панели на сервере также разбиты на «этнографические группы»):

  1. европейцы (европейцы + кавказцы) — 1715 образцов -87169 снипа
  2. азиаты (+американские аборигены и аборигены островов Тихого Океана) — 2356 образцов — 87044 снипа
  3. африканцы — 1054 образца — 86754 снипов
  4. палеогеномы древних жителей Евразии, Африки и Америки -340 — 594500 снипов
  5. смешанные группы — преимущественно мозабиты, пуэрто-риканцы и др.
QC-Report
На рисунке показана корреляция между частотами аллелей в изучаемоей выборке (здесь: европейская когорта) и частотами аллелей в референсной панели

К моему вящему неудовльствию,  некоторые образцы в сводной выборке не прошли контроль качества — в первую очередь это касается образцов европейцев из базы данных POPRES, а также выборок статьи  Xing et al. (2010). Скорее всего, их нужно будет импутировать отдельно.

Несмотря на значительную скорость обработки генотипов на удаленном сервере, к настоящему времени эксперимент еще не доведен до конца.  Пока я планирую ограничиться импутированием генотипов в 3 первых когортах (т.к. импутирование палеогеномов с помощью современных референсных панелей гаплотипов вероятнее всего приведет к искажению истинного разнообразия палеогеномов за счет проекции на современные группы населения, хотя авторы статьи Gamba et al. 2014 в сопроводительном материале к своей статье утверждают обратное).

После окончания фазирования и последующей обработки генотипов европейской когорты в программе Plink (были отсеяны все варианты с вероятностью ниже 0.9) ,  я получил выборку из 1715 европейцев с 25 215 169 снипами против изначальных 87169, т.е число снипов в выборке увеличилось в 290 раз!
В азиатской когорте соотношение импутированных генотипов к исходным составило чуть меньшую величину 19 048 308 / 87044 = 219.

Проверка результатов

Разумеется, все полученные результаты нуждались в дополнительной проверке качества генотипирования.
Cначала я объединил импутированную европейскую когорту с когортой палеогеномов (которая не была импутирована) и рассчитал в программе PLINK 1.9 матрицу IBS (т.е. сходства образцов в выборке между собой, эта метрика отдаленно напоминает Global Similarity в клиентских отчетах 23andme), а затем усреднил данные по популяциям и произвел по усредненным значениям иерархическую кластеризацию по признакам сходства (IBS, identity by state). Результат превзошел все мои пессимистические ожидания

 

 

Как становится очевидно из приведенной выше кластерограммы,  в целом взаимное расположение популяций в кластерах соответствует (в общих чертах) взаимному географическому положению. Присутствуют, правда, и некоторые огрехи. Так, например, венгры очутились в одном кластере с русскими из Курска,  норвежцы — с русскими из Смоленска, а усредненные «русские» — с американцами европейского происхождения из штата Юта и французами. Трудно сказать, в чем здесь причина, тем более что матрица была составлена по значениям IBS (идентичности по состоянию), а не IBD (идентичности по происхождению).  Более подробные данные о попарных значениях IBS между популяциями выборки можно посмотреть в этой таблице

Импутированная азиатская когорта (несмотря на расширение географии за счет включения образцов коренного населения Америки и аборигенов бассейна Тихого океана)  тоже  оказалась на удивление надежной. Я пока не буду останавливаться на подробностях изучения этой когорты, вместо этого я размещаю здесь результаты MDS- мультдименсионального шкалирования образцов выборки, образованной в ходе слияния 2 импутированных когорт (европейской и азиатской) с 1 неимпутированной (палеогеномы). Цветовое обозначение точек соответствует определенным кластерам, выявленных в выборке с помощью алгоритма MCLUST (cледуя рекомендациям Диенека Понтикоса). Всего этих кластеров 15 и они обозначены последовательностью чисел от 1 до 15, и каждый из этих кластеров имеет свою четкую географическую привязку:

  • 1 — кластер популяций ближнего Востока и  Анатолии
  • 2 — кластер популяций северного Кавказа
  • 3 — «индоевропейский» кластер древних популяций Синташта, шнуровой культуры, Ямной культуры и т.д.
  •  4 — кластер аборигенных жителей Америки (эскимосов и индейцев)
  • 5 — суперкластер популяций средиземноморского и восточноевропейского региона
  • 6 — сибирский кластер алтайских и самодийских популяций
  • 7 — кластер популяций западной и северной Европы
  • 8 — кластер палеосибирских популяций (таких как чукчи, ительмены и коряки)
  • 9 — кластер аборигенных (австронезийских и тай-кадайских) популяций юго-восточной Азии (даи, атаяла и ами)
  • 10 — кластер неолитических популяций
  • 11 — еще один ближневосточно-средиземноморский кластер (ашкеназим, сардинцы и так далее)
  • 12 — кластер североиндийских популяций
  • 13 — кластер центральноазиатских популяций
  • 14 — поволжские популяции
  • 15 — разные групп индусов

 

Обновление проекта: окончание первой фазы

После нескольких лет практически полного пассивного бездействия в области изучения генетической вариативности популяций населения Восточной Европы, я решил продолжить свои скромные изыскания в этом вопросе. Примерно год ушел на пересборку и соединение различных выборок популяций (выборки разных исследований содержат разное количество частично перекрывающихся снипов, и это обстоятельство существенно влияет на качество и значимость получаемыых в анализе таких выборок результатов). К сожалению, разница в частотах минорных снипов в выборках одних и тех же этнических групп, но генотипированных на разных платформах Illumina и Affy,  приводит к существенному снижению качества импутирования недостающих маркеров. Это очень плохо, так как во многих из разработанных методик анализа генетического разнообразия,  надежность результатов напрямую зависит от полноты генотипирования, т.е. в идеале во всех популяциях должны быть равномерно представлены все снипы, т.е маркеры из полного объединенного набора.  Вопреки моим ожиданиям, у этой проблемы не существует тривиального решения, поэтому я решил отложить задачу импутации отсутствующих генотипов в образцах выборки на дальнейшее (чуть позже я поделюсь своими соображениями о том, как сделать результат импутирования более точным).

Ровно год назад я сообщил о том, что в основу (базу) новой выборки будут положены полный публичный кураторский набор контрольных популяционных групп лаборатории Райха, что и было выполнено частично, хотя запланированную процедуру импутирования так и не удалось завершить в силу огромной компьютерной ресурсозатратности задачи.

Все же, с учетом тяжелых уроков всех предыдущих ошибок (в том числе и при работе с палеогеномами человека), мне все же удалось собрать набор из примерно 6500 сэмплов из более чем 250 этно-популяционных групп со всего земного шара. На этом можно считать первую фазу законченной.

В качестве предварительной иллюстрации надежности результатов можно привести график PCA (анализа главных компонентов генетической вариативности в западноевразийских популяциях из описанной выше сводной выборки, после применения соответствующих фильтров контроля качества снипов).

West-Eurasia (modern and ancient samples)

Как мне кажется, получился неплохой график PC (анализа главных компонент) древних и современных групп народонаселения, причем  хорошо видно на какие современные группы накладываются палеогеномы.
Но теперь другая проблема — я не могу сохранить этот график в формате PDF (видимо, разработчики Plotly отключили эту опцию в бесплатной версии). Можно выгрузить графику в файл png, но в отличие от векторного формата pdf, png — формат растровый, и улучшить качество графики уже не получится.

Поэтому я сделал альтернативные варианты (без использования пакета Plotly) графика с изображением положения популяций в пространстве двух главных компонентов генетического разнообразия Евразии.

После несколько лет практически полного отсутствия активности в области изучения генетической вариативности популяций населения Восточной Европы, я решил продолжить свои скромные изыскания в этом вопросе. Примерно год ушел на пересборку и соединение различных выборок популяций (выборки разных исследований содержат разное количество частично перекрывающихся снипов, и это обстоятельство существенно влияет на статистическое качество). К сожалению, разница в частотах минорных снипов в выборках одних и тех же этнических групп, но генотипированных на разных платформах Illumina и Affy,  приводит к существенному снижению импутирования недостающих маркеров. Это очень плохо, так как во многих из предложенных методик анализа генетического разнообразия,  надежность результатов напрямую зависит от полноты генотипирования, т.е. в идеале во всех популяциях должны быть равномерно представлены все снипы, т.е маркеры из полного объединенного набора.  Вопреки моим ожиданиям, у этой проблемы не существует тривиального решения, поэтому я решил отложить задачу импутации отсутствующих генотипов в образцах выборки на дальнейшее (чуть позже я поделюсь своими соображениями о том, как сделать результат импутирования более точным).

Ровно год назад я сообщил о том, что в основу (базу) новой выборки будут положены полный публичный кураторский набор контрольных популяционных групп лаборатории Райха, что и было выполнено частично, хотя запланированную процедуру импутирования так и не удалось завершить в силу огромной компьютерной ресурсозатратности задачи.

Все же, с учетом тяжелых уроков всех предыдущих ошибок (в том числе и при работе с палеогеномами человека), мне все же удалось собрать набор из примерно 6500 сэмплов из более чем 250 этно-популяционных групп со всего земного шара. На этом можно считать первую фазу законченной.

В качестве предварительной иллюстрации надежности результатов можно привести график PCA (анализа главных компонентов генетической вариативности в западноевразийских популяциях из описанной выше сводной выборки, после применения соответствующих фильтров контроля качества снипов).

West-Eurasia (modern and ancient samples)

Как мне кажется, получился неплохой график PC (анализа главных компонент) древних и современных групп народонаселения, причем  хорошо видно на какие современные группы накладываются палеогеномы.
Но теперь другая проблема — я не могу сохранить этот график в формате PDF (видимо, разработчики Plotly отключили эту опцию в бесплатной версии). Можно выгрузить графику в файл png, но в отличие от векторного формата pdf, png — формат растровый, и улучшить качество графики уже не получится.

Поэтому я сделал альтернативные варианты (без использования пакета Plotly) графика с изображением положения популяций в пространстве двух главных компонентов генетического разнообразия Евразии.

Палеоевропейцы из работы Haak et al, 2015 в свете анализа на IBD-сегменты

Сергей Козлов

Палеоевропейцы из работы Haak et al, 2015 в свете анализа на IBD-сегменты.

Обновлено 21.03.2015

В феврале произошло событие, которое многие геномные блоггеры с нетерпением ожидали на протяжении большей части предыдущего года — на  сервере Bioarxiv был размещен препринт статьи Haak et al с исследованием множества (преимущественно европейских) палеогеномов. Настолько качественного и подробного среза генетической истории европейцев мы еще не видели. Вадим Веренич уже разместил свой отзыв на работу, присовокупив к нему результаты собственных экспериментов и размышлений. Из его заметки можно составить прекрасное впечатление о статье.

Как это обычно и бывает, сообщество геномных блоггеров осталось не вполне удовлетворено полнотой предоставленной информации, и (повторюсь) с нетерпением ожидало возможности наложить свои руки на новые палеогеномы из статьи. Для этого пришлось дождаться официального выхода работы, и вот, наконец, момент настал. В первую очередь мне было интересно провести сравнение аутосомных IBD (или псевдо-IBD) сегментов с современными выборками и удостовериться — кто же все-таки в наибольшей степени является потомками людей, принадлежавших к исследованным археологическим культурам? Конечно, другие виды анализа тоже необходимо провести, но это сделают и без меня. К тому же об их результатах можно было догадаться из информации, опубликованной в статье (и эти догадки действительно подтвердились).

К сожалению, первая попытка оказалась неудачной — опубликованные на страничке лаборатории Райха геномы были полностью гаплоидными. Для того, чтобы сблизить условия анализа прочитанных с разным качеством палеогеномов, авторы статьи случайным образом выбирали один аллель для каждого снипа и далее использовали только его.  Разумеется, все IBD-сегменты при этом оказались разрушены. Однако проблему удалось обойти при помощи утилиты Феликса Чандракумара, преобразующую BAM-файлы в аналоги аутосомных файлов формата FTDNA. Лишь меньшая часть из обработанных геномов пригодна для IBD-анализа, но и прочитанных с удовлетворительным качеством достаточно много. Для этой заметки использованы следующие палеогеномы:

1) «Восточных охотников-собирателей», или EHG, представляет «оленеостровец» I0061 Karelia_HG    Yuzhnyy Oleni Ostrov, Karelia    5500-5000 BCE . «Самарский» образец EHG слишком плохо прочитан.

2) «Самарских ямников» представляют I0443    Yamnaya    Lopatino II, Sok River, Samara    3500-2700 BCE и I0231 Yamnaya    Ekaterinovka, Southern Steppe, Samara    2910-2875 calBCE

3) Культура шнуровой керамики также представлена двумя образцами, это I0103    Corded_Ware_LN    Esperstedt    2566-2477 calBCE и I0104 Corded_Ware_LN    Esperstedt    2473-2348 calBCE (восточная Германия, земля Саксония-Анхальт)

4) От культуры колоколовидных кубков лишь один образец, это I0112 Bell_Beaker_LN    Quedlinburg XII    2340-2190 calBCE (как и в случае КШК, земля Саксония-Анхальт)

5) Лучше всего обстоит дело с охватом неолитических земледельцев из культуры линейно-ленточной керамики, их целых четыре — I0054 LBK_EN    Unterwiederstedt    5209-5070 calBCE , I0100 LBK_EN    Halberstadt-Sonntagsfeld    5032-4946 calBCE, а также два ранее уже известных палеогенома — Stuttgart и NE1

Результаты по выборкам, представленным двумя или более образцами, усреднялись. Кроме этого, производилось нормирование результатов для каждой из пяти палеовыборок в пределах +- 10% с целью наилучшим образом попадать в диапазон карт и убрать влияние разницы в качестве прочтения. Конечно, это искусственное искажение данных, но все же, как мне кажется, оно скорее пошло на пользу, чем нанесло вред. В целом же карты получились качественными и наглядными. Думаю, что метод анализа на IBD-сегменты даже лучше подходит для палеогеномов, чем для наших современников.

«Оленеостровец» I0061 принадлежит к выборке, названной авторами EHG (Eastern Hunter-Gatherers). Это палеоевропейские охотники-собиратели северной части Восточной Европы, предположительно не затронутые позднейшим притоком генов с юга (от неолитических земледельцев и из других источников). И действительно, среди наших современников наибольшее количество пересечений с ним нашлось у северных восточноевропейцев — как говорящих на индоевропейских языках, так и уральцев. В первую очередь выделяются вепсы и северные русские из каргопольской выборки HGDP. Прибалтийская выборка, обычно проявляющаяся у восточноевропейцев наиболее ярко, на этот раз видна чуть слабее. Единственные, кто несколько выбивается из закономерности — поляки. Сложно сказать, случайность это, или же нет. Однако из-за этого отклонения польская выборка временами смотрится странно и на дальнейших «разностных» картах.

Оленеостровец (картинки можно увеличивать):

Обращает на себя внимание пятно в Средней Азии и северной Индии. Особенно интересна значительная разница между высшими и низшими кастами штата Уттар-Прадеш (на карте представлены обе выборки). Напрашивается версия, что это связано с приходом индоевропейцев с севера. Или же, как минимум, с приходом носителей R1a. Кстати, оленеостровец тоже принадлежал к этой Y-гаплогруппе (предковая ветвь R1a1).

Впрочем, как мне справедливо заметили, в северо-западную Индию было немало миграций и в более поздние времена. Например, «кшатрии» на севере считаются многими исследователями потомками переселенцев первого тысячелетия нашей эры.

Следующие на очереди — «ямники». В работе использованы образцы ямников из-под Самары, представляющие их крайний восточный вариант. Авторы статьи смоделировали их как 50% EHG / 50% современные армяне. Как будет показано далее, для этого есть некоторые основания. Однако с точки зрения предковых компонентов Admixture такая модель — далеко не лучший вариант, «южный» ямный компонент скорее связывается с чем-то в промежутке между Восточным Кавказом и Средней Азией. Как и предполагалось, он коррелирует с бимодальным компонентом, условно называемым Gedrosia. Исходя из современных максимумов, его исторический центр находится где-то в южном Прикаспии, возможно, восточнее. Судя по всему, он представляет собой результат смешения «ближневосточного» компонента ENF и ANE, поэтому теоретически исторического центра может и вообще не быть.

Самарские ямники:

В отличие от оленеостровца, «ямное» пятно более широко распределено по всей Европе, а Кавказ и Средняя Азия выделяются сильнее. Впрочем, лучше это смотреть на карте, отображающей разницу между ямниками и оленеостровцем. Не следует думать, что выборки, выделенные на разностной карте одним цветом, обязаны быть схожи между собой — просто разница их «расстояний» до I0443/I0231 и I0061 близка. И не забываем, что разностные карты в большей степени, чем одиночные, подвержены влиянию «шума» и случайных отклонений.

Разница между «оленеостровцем» и «ямниками». Красным цветом обозначено, у кого больше общих сегментов с первым, зеленым — со вторыми.

Как видно, наибольшая разница в пользу оленеостровца у представителей народов из уральской языковой семьи, причем тех, у кого силен «сибирский» вклад. Кроме жителей Западной Сибири, это марийцы (и родственные им тюрки-чуваши) в Поволжье, а также саами. Думаю, это неплохой довод в пользу ямников (или тесно связанной с ними группы), как распространителей индоевропейских языков. Наибольшая же разница «связь с ямниками» минус «связь с оленеостровцем» оказалась у уже упоминавшихся армян (и в целом зеленое пятно Кавказ-Малая Азия выражено сильнее всего). Таким образом, у армян хорошо выражены компоненты, имеющиеся у ямников, но отсутствующие у EHG. Но значит ли это, что модель «ямники=EHG+армяне» оптимальна? Я так не считаю. И при PCA-анализе, и при раскладке на компоненты Admixture мы видим, что «вторая половинка» должна быть где-то восточнее. На карте это проявляется в том, что взаимосвязь ямников с районом Пакистан-северная Индия (а особенно, что представляет отдельный интерес, с уйгурами. Уж не след ли это древних миграций индоевропейцев, например, тохаров, на восток?) выражена сильнее, чем у оленеостровца. Но модель считает, что это взято в основном от него, отсюда и заблуждение. Впрочем, и сами авторы пишут, что более адекватным видится вариант «третья группа, повлиявшая как на ямников, так и на современных армян».

Кроме уже перечисленных, явственно более сильную связь с ямниками проявляет выборка из Йемена (возникла мысль, что мы видим влияние небезызвестных Basal Eurasians — предположительно, именно йеменцы наиболее близки к ним из современных народов) и северо-западные европейцы. Это хорошо укладывается в предложенную авторами статьи модель, согласно которой северные европейцы в очень заметной мере являются потомками связанной с «ямниками» группы, которая мигрировала с востока и по большей части заместила предшествующее население. Кстати, у немцев (и германских народов в целом) необычно сильно проявляется все тот же компонент Gedrosia, которого не было у мезолитических охотников и неолитических земледельцев Западной Европы. И действительно, у восточногерманских образцов, принадлежащих к культуре шнуровой керамики, этот компонент появляется.

Карта для представителей КШК:

Очень похоже на «ямную» карту, не так ли? Но должны существовать и различия, попробуем их увидеть на разностной карте «самарцы» (красное) минус «шнуровики» (зеленое):

SamaraYamnayaMinusCWCIBDext

Картинка отнюдь не настолько контрастна, как было в случае сравнения ямников с оленеостровцем. Видимо, это связано с тем, что разница между сравниваемыми выборками в данном случае слабее. И все же некоторые взаимосвязи проявляются. Во-первых, заметно сильнее связь со шнуровиками у жителей острова Сардиния — как считается, они наиболее хорошо сохранили генофонд неолитических земледельцев Европы. Кроме этого, лучше связаны со шнуровиками, чем с ямниками, люди из района Белоруссия-Польша-Западная Украина. И наоборот, «ямные» пятна выделяются вокруг Удмуртии (уж не там ли живут потомки «самарцев»?), в районе «Средняя Азия-Индия» (включая уже упоминавшихся выше уйгуров), и в Закавказье/Малой Азии. Можно предположить, что шнуровики получились в результате смешения неолитических земледельцев и группы, родственной «самарцам», но более западной, сильнее связанной с «белорусским» пятном (и слабее — с тремя «ямными»).

Намного более наглядна разностная карта представителей культуры линейно-ленточной керамики (неолитических земледельцев) и шнуровиков:

LBKMinusCWCIBDext

Два мира — красным выделены народы, в большей степени связанные с неолитическими земледельцами (в отличие от предыдущей карты, сардинцы здесь сильнее связаны с противоположной шнуровикам стороной), зеленым — связанные с заместившими и поглотившими их пришельцами, носителями компонентов WHG и ANE. Обратите внимание, что армяне здесь ярко-красные — это еще раз доказывает ошибочность модели «ямников» как смеси EHG и армян в пропорции 50/50. Ведь тогда «армянский» вклад у «шнуровиков» был бы заметно сильнее.

А вот разница с «оленеостровцем»:

Здесь мало что можно добавить к тому, что уже писалось про разницу «оленеостровец»-«самарцы». Разве что Западное Средиземноморье стало более зеленым, а Средняя Азия-менее.

Наконец, для полного комплекта добавлю карту сравнения с представителем более западного варианта охотников-собирателей, Loschbour:

LoschbourMinusCWCIBDext

Родство с WHG преобладает лишь в дальнем северо-восточном углу Европы. Таков печальный итог нескольких волн миграций с замещением предыдущего населения.

Результаты для представительницы культуры колоколовидных кубков очень близки предшествующей «шнуровой» выборке. Поэтому разностная карта между ними еще более невразумительная, чем при сравнении шнуровиков и самарцев. Дело усугубляется еще и тем, что образец ККК лишь один, а значит, случайные отклонения и прочий «шум» выше.

ККК минус КШК:

BellBeakerMinusCWCIBDext

Судя по всему, у шнуровиков неколько выше доля вклада «охотников-собирателей» и «ямного» компонента в целом. В то же время «средиземноморский» компонент выглядит чуть сильнее у ККК. Но все это тонет в шуме.

Не вижу смысла приводить сравнения представительницы ККК с окружающими, аналогичные КШК, поскольку они выглядят практически так же. А следовательно, мой обзор закончен. Что ж, можно с глубоким удовлетворением отметить, что палеогеномы из работы Haak et al действительно проливают свет на процессы, происходившие в Европе на рубеже каменного и бронзового веков — естественно, уточняя и дополняя уже известное специалистам.