Формальный анализ модели смешивания предковых популяций: белорусы

Перед подготовкой релиза новых калькуляторов K16 и K11 на Gedmatch, я решил провести пилотный (пробный) анализ референсной популяции белорусов (в которую входят публичные образцы из  базы данных HumanOrigin, EGDP новой панели референсных геномов Эстонского биоцентра, а также данные белорусов — участников моего проекта MDLP). Основным инструментом формального анализа надежности модели будет известный и популярный пакет Admixtools.
Перед тем, как дать краткое описание первых шагов, хочу отметить трудности работы с Admixtools — в первую очередь, крайнее низкую степень документированности (описания) практических аспектов работы большинства входящих в пакет инструментов. Данное обстоятельство существенным образом снижает темп изучения этого все более популярного пакета (с другой стороны, похоже что лаконичность изложения задумывалась изначально, для отсеивания слабо мотивированных дилетантов-любителей). Второе обстоятельство, затрудняющее использование Admixtools, заключается в необходимости компилировать отдельные компоненты пакета.

Пакет содержит шесть программ

 

convertf: программа конвертирования форматов
qp3Pop: формальный анализ сигнала "смешивания" в трех популяциях
qpBound: программа, вычисляющая верхнюю и нижнюю границу смешивания в трех популяциях (2 референсные популяции и 1 одна популяция, предположительно образованная за счет смешивания двух референсных популяций) 
qpDstat: формальный анализ "адмикса" в 4 популяциях
qpF4Ratio: программа для определения пропорций адмикса за счет проведения 2 f4-тестов
rolloff:  программа датировки адмикса.

В приницпе, четкого порядка работы с этими программами нет, однако авторы рекомендуют следовать приведенному списку (т.е. начинать с qp3Pop и заканчивать rolloff)

Outgroup-статистика f3 является крайне полезным аналитическим инструментом для понимания взаимных отношений разных популяций: основная задача теста состоит в определении характера этих отношений. Образована ли целевая популяция (target) за счет смешивания двух рефересных популяций, или же  популяции представляют собой две простые ветви популяционного дерева человечества (т.е. в образовании таргетной популяций не участвовали референсные популяции)

Статистика f3, так же, как два других вида статистик — f4 и f2 — представляют собой меру корреляции частот аллелей между рассматриваемыми популяциями. Все эти виды статистик были введены в научный оборот попгенетики биоинформатиком Ником Паттерсоном в статье 2012 года.

Статистика f3 используется в двух целях:

  1. в качестве теста  сигнала «адмикса» двух популяций-источников (A и B) в «целевой популяции» (С)
  2. для измерения общего разделяемого дрейфа двух тестовых популяций  (А и В) по отношению к  внешней группе (С).


В этой публикации я приведу пример первого случая использования. Статистика f3 в обоих случаях определяется как произведение разниц частот аллелей  между популяции C, А и В, соответственно:

  1. F3=<(c-a)(c-b)>

Итак, первый случай употребления (для определения сигнала смешивания), белорусы выступают в качестве тестовой популяции, две референсные популяции образованы пермутацией имеющихся у меня популяций

Итак, промежуточные результаты (я выбрал только комбинации с негативным значением Z, свидетельствующие о сигнале смешивания) :

Следующий тип статистики — f4, — реализован в программе qpDstat в виде D-статистки. Это формальный тест адмикса четырех групп (таксонов или популяций), позволяющий определить направления потока вливания генов. Немного теории:

Для любых 4-х популяций (W, X, Y, Z), qpDstat вычисляет D-статистику следующего вида

num = (w — х) (у — z)
den = (w + х — 2wx) (у + z — 2yz)

D = num / den

Результат qpDstat показывает направления вливания генов. Таким образом, для 4 групп (W, X, Y, Z) верно следующее положение:

Если значение Z положительное ( + ), то обмен генами происходил либо между W и Y, либо между X и Z
Если значение Z отрицательное (-), то обмен генами происходил либо между W и Z,  либо между X и Y.

 Кроме определения направления генного дрейфа, очень важным практическим применением D-статистики служит определения «левых» и «правых» популяций для теста qpAdm (о нем чуть позднее). Так, например,  комбинация из двух первых популяций left {L,L}  и двух правых популяций {R, R} должна быть выбрана таким образом, чтобы значение Z в D-статистике
a) было неотрицательным, и b) имело высокое абсолютное значения.  Я решил последовать совету и сгенерировал 225822 комбинаций из четырех популяций {W,Y,X,Z}, где W — фиксированная первая таргетная популяция «левого» списка, в нашем случае белорусы, Y — одна из имеющихся групп палеогеномов, X и Z — пермутация из 16 «чистых» современных популяций описанных в работе Lazaridis et al. 2016.

Итак, вот результаты (и снова я не привожу полный список, а только те комбинации, которые могут быть использованы для выбора состава «левых» и «правых» популяций.  и последующего моделирования в qpAdm):

Размышления над эффективностью алгоритма SPA

Перед тем,  как закрыть тему SPA, я решил поразмышлять о причинах неточности определения географического ареала происхождения с помощью генома. Те, кто воспользовался моей моделью для программы SPA (последняя версия — сентябрь 2016 года), могли убедится в том, что даже при наличии большого количества маркеров, модель не во всех случаях точно определяет ареал происхождения (даже с поправкой на погрешность радиусом в 500 км).
В основу алгоритма SPA положены примерно те же самые предпосылки, что и в случае с классическим анализом главных компонент (PCA)

  • Первая предпосылка  подхода SPA состоит в том, что частота аллели каждого SNP в популяции может быть смоделирована в виде непрерывной двумерной функции на карте. Другими словами, при выборе хромосомы индивидуума из локации с позицией (х, у) на карте, вероятность наблюдения минорного аллеля в SNP j на хромосоме может быть сформулирована в виде функции F (х, у), где Fj является непрерывной функцией, описывающей поведение частоты аллеля в зависимости от географического положения
  • Затем на основании сказанного делается упрощающее предположение, что эта функция является экземпляром логистической функции

 

где х представляет собой вектор переменных, указывающих географическое местоположение и а и Ь коэффициенты функции. Авторы понимают каждую из этих функций, как функцию FJ функции наклона градиента частота в SNP J. Эта функция кодирует крутизну склона по норме а, при этом предпологается что смещение параметра b фиксировано. Кроме того, направленность наклона  кодируется в значении вектора а.  Более подробно, θj = арктангенс (aj(1) / aj(2)) могут быть приняты в знчения угла для SNP j, где aj(1)  и aj(2)  являются первым и вторым элементами вектора а.

Поскольку SPA имеет явные географические координаты, подход может быть расширен для систем за пределами обычной картезианской двумерной плоскости координат. В качестве демонстрации этого, авторы программы SPA использовали алгоритм для анализа пространственной структуры населения земного шара, в которой двухмерное отображение на двухмерной плоскости не может точно фиксировать структуру популяции. Таким образом, каждый индивид проецируется на точку земного шара в трехмерном пространстве. Соответственно, авторы использовали трехмерный вектор х (с ограничением || х || равным определенной константе), чтобы представить индивидуальную позицию.

Используя данные (генотипы индивидов из различных популяций из  HGDP), авторы обнаружили что пространственная топология расположения индивидов в пространстве SPA мы наблюдали, что сильно напоминала топологию географической карту мира. В частности, люди из того же континента были сгруппированы вместе, а континенты были разделены примерно так, как это следовало бы ожидать из пространственного расположения.

ng-2285-f3

 

Главная проблема метода состояла в другом. Несмотря на точность топологии взаимного расположения индивидов,  на карте SPA сильно искажены расстояния между континентами.

Например, продольный размер континента Евразии составил 92 градусов в  SPA-пространстве земного шара, в то время как в пространстве реального земного шара — 150 градусов. Продольное расстояние между Европой и Северной Америкой составило 167 градусов на SPA карте земного шара, в то время как на самом деле оно составляет 90 градусов.  Любопытно отметить, что мой опыт работы с этой программы показал, что наибольшую проблему составляют географические координаты долготы, в то время как широты предсказываются довольно точно. То есть по какой-то причине (несимметричность генетических градиентов в направлении север-юг и направлении восток-запад?) пространство SPA очень сильно искажается в продольном измерении (т.е в долготу).
По этой причине, вычисленные географические точки происхождения для европейцев часто оказываются в Атлантическом океана и так далее.

Я решил использовать данные импутированных генотипов для европейских популяций (я занимался их импутацией на протяжении последнего полгода). На этот раз я ограничился только европейскими популяциями. Я  сделал два разных набора с разным числом снипов — один с 1 062 376 снипами, которые содержатся в платформах генотиприрования клиентов 23andme и FTDNA, другой — примерно 590 395 снипов.  Обе модели можно скачать с Google Drive  (здесь и здесь).

Несмотря на тщательный подбор снипов, обе модели продолжают страдать характерным сдвигом географических долгот, а это означает, что данная проблема обусловлена не выборкой генотипов, а самим алгоритмом программы (т.е. улучшение качества выборки или увеличение количества снипов не приводит к повышению точности даже в том случае, если мы используем для тренировки программы на обучающей выборке  индивидов с известной географической локацией).

Это хорошо видно на полученных в ходе анализа моих собственных данных географических координатах 2 точек происхождения (одна из них в Гренландии,  другая в Средиземном море)

untitled

Разумеется, вряд ли можно говорить о точности подобных вычислений. В ходе размышлений над способом решения проблемы я вспомнил о существовании ортогонального прокрустового анализа.

Я взял две матрицы — одну с географическими координатами (фактически центроиды — географические центры стран) и  вторую с предсказанными  (в модели 1M cнипов) величинами географических координат тех же самых образцов (с усредненными значениями по этносам), а затем совершил прокрустово преобразование в программе R, получив новую матрицу с преобразованными значениями координат. Ниже виден результат операции (преобразованные усредненные координаты образцов спроецированы вместе с центроидами на карту Европы). И хотя координаты по-прежнему немного сдвинуты относительно истинных, в целом результат уже гораздо лучше (правдоподобнее).rplot14При проведении прокрустова анализа, кроме Xnew (трансформированной матрицы),  мы получили значения матрицы вращения R, s- коэффициент масштабирования и tt — вектор трансляции координат, минимизирующие дистанцию между матрицей предсказанных координат и матрицей географических координат.

Эти значения можно использовать для коррекции значений географических координат, рассчитанных в SPA. Я снова использую свои данные (2 предсказанные точки географического происхождения Xp):


Xt=sRXp + 1tt


При подстановке Xp получаем следующие значения

точка A:  60.245448+-11.059673 северной широты;  21.394898 +- -5.979712  восточной долготы (северо-западная Балтика и Скандинавия)

точка B: 43.000748+-8.801889 северной широты;  20.725216+-52.159598 восточной долготы (юго-восточная Европа, Балканы и Греция).

 

 

 

 

 

Геномика датской популяции

В середине августа в журнале Genetics опубликовали статью о генофонде современной датской популяции Athanasiadis et al., Nationwide Genomic Study in Denmark Reveals Remarkable Population Homogeneity, Genetics Early online August 17, 2016; DOI: 10.1534/genetics.116.189241

Методологически исследование напоминает известную статью о генофонде Великобритании.

Аннотация: Дания играет существенную роль в истории Северной Европы. В рамках общенациональной научной просветительской инициативы, мы собрали генетические и антропометрические данные примерно 800 датчан — учащихся средней школы и использовали их, чтобы выяснить генетический состав населения Дании, а также для оценки методики полигенного предсказания фенотипических признаков у подростков. Мы обнаружили замечательную однородность датского генофонда в разных географических регионах, хотя  исследование и  обнаружило слабые сигналы генетической структуры, отражающие историю страны. Датский генофонд характеризуется геномной близостью с соседними странами, особенно общим сходством по генетическим маркерам снижения веса из Великобритании, Швеции, Норвегии, Германии и Франции. Геномный сигнал обмена генами с польской популяцией был обнаружен в регионах Зеландия и Фюна , причем наша датировка даты «смешения» совпала с историческими свидетельствами о переселении славян-вендов на юге Дании. Мы также обнаружили  значительное различие в демографической истории скандинавских стран. Дания имеет наименьший текущий эффективный размер популяции по сравнению с Норвегией и Швецией. И, наконец, мы обнаружили, что полигенное предсказание самооценки роста у подростков  в датской популяции был удивительно точным (коэффициент корреляции R2 = 0,639 ± 0,015). Высокая однородность генофонда населения Дании позволят пренебречь изучением этнической структуры генофонда  в ходе предстоящих крупномасштабных исследований по картированию генов (GWAS) в  стране.

DK_clusters_&_admix

Анализ древней ДНК – проблемы, их преодоление и результаты

На портале Генофонд.ру размещен реферат важной статьи, подводящей промежуточные итоги изучения древней ДНК. Я позволю себе удовольствие процитировать себе некоторые места этого замечательного обзора, написанного ув. Надеждой Марковой

Термин «древняя ДНК» возник в научной литературе в 1980-х годах в связи с появлением новой области исследований, которая получила название «молекулярная палеонтология». С развитием сначала методов ДНК-амплификации (полимеразной цепной реакции), а потом методов секвенирования нового поколения эта область получила мощный толчок к развитию и сегодня стала основным средством реконструкции эволюции живых организмов, и в том числе реконструкции истории человека.

Революция в эволюционной генетике

Исследование древней ДНК совершило революцию в эволюционной генетике, так как появилась возможность напрямую исследовать прошлое, законсервированное в «капсуле времени» ДНК, пишут авторы статьи. Работы последних десятилетий показали, что древняя ДНК может сохраняться в костях, зубах, мумифицированных и замороженных тканях, и может быть извлечена из этих древних образцов. Впервые древняя ДНК была извлечена в 1984 г. (Higuchi et al.) из высохшей мышцы вымершего родственника зебры. Но ее анализ целиком зависел от развития технологий, поэтому стал возможен с появлением ДНК-амплификации (метод полимеразно-цепной реакции – ПЦР), и вышел на новый уровень с появлением методов секвенирования нового поколения. На рисунке авторы представили основные вехи в истории изучения древней ДНК.

О методологии исследования палео-ДНК

Методы палеогенетики оказались незаменимы, чтобы разобраться в  ключевых этапах человеческой цивилизации. Например, понять, как именно происходила смена обществ охотников-собирателей на первых земледельцев, как распространялось по Европе сельское хозяйство – имела ли место передача технологий от одних популяций другим или же происходила смена самих популяций («циркуляция идей или людей»). Анализ древней ДНК показал, что между периодами 8 и 5 тысяч лет назад Европа не была генетически однородной: первые земледельцы с Ближнего Востока мигрировали в Западную Европу и  смешивались там с местными охотниками-собирателями. В Восточную Европу около  6-5 тыс. лет назад туда пришли группы людей из Анатолии, которые смешавшись с охотниками-собирателями, дали начало популяциям скотоводов, наиболее успешная из которых известна по ямной культуре.  Полагают, что именно миграции ямников из понто-каспийских степей на запад и на восток около 4,5 тыс. лет назад можно связать с распространением технологий и, возможно, языков индоевропейской семьи.

Древняя ДНК может помочь и в изучении развития признаков, характерных только для Homosapiens, таких как речь, подчеркивают авторы статьи. Изучение генетических вариаций, связанных с языком, дает информацию о том, когда мог возникнуть сложный  язык, присущий человеку. Так, было показано, что определенный вариант гена FOXP2 (именно его в первую очередь связывают с развитием речи)  имелся уже у неандертальцев. Вероятно, считают специалисты, этот вариант возник у общих предков неандертальцев и современного человека.

Древняя ДНК помогает в изучении адаптации человека к разным условиям среды. При анализе древних геномов в них были выявлены сигналы отбора, связанных с изменением диеты, чувствительностью к ультрафиолету  и пр. Так, становится ясно, как распространялись по Европе такие черты, как светлая кожа и толерантность  к лактозе (способность переваривать молоко во взрослом возрасте).

Трудности в изучении палео-ДНК и их преодоление

Одна из основных проблем, с которыми сталкиваются исследователи древней ДНК, это ее деградация, которая неизбежно происходит со временем.  Обычно ДНК из древних образцов сильно фрагментирована, загрязнена микробной ДНК и химически модифицирована. Причем степень деградации  в больше степени зависит от условий, в которых находился древних образец (температура, влажность), чем от его возраста. Последние исследования показали, что теоретический предел возраста образца, из которого можно извлечь ДНК, составляет 1-1,5 млн лет. Авторы описывают методы, которыми можно преодолеть трудности, связанные с особенностями древней ДНК.

Фрагментация ДНК может быть частично преодолена с помощью современных протоколов, позволяющих извлекать и анализировать очень короткие фрагменты, длиной 50-70 нуклеотидов. К тому же, методы секвенирования нового поколения ориентированы на анализ коротких фрагментов, длина которых составляет 50-100 нуклеотидов.

Большую проблему составляет контаминация древней ДНК современной ДНК. Преодолеть ее нужно путем строгого соблюдения протоколов, учитывающих правила сбора образов, обработки рабочих помещений, применение методов ДНК-аутентификации, независимой перепроверки результатов и пр. Развиваются также методы механической и химической деконтаминации – авторы их описывают.

Еще одна важная проблема – посмертное изменение ДНК из-за гидролиза и окисления, вызывающее деаминацию нуклеотидов, которая ведет к ложным результатам ПЦР. Авторы описывают несколько молекулярно-генетических и биоинформатичесих подходов для преодоления этой проблемы, с ними можно ознакомиться в тексте статьи.

Инструменты анализа

С увеличением числа образцов древней ДНК ученые получают возможность исследовать древнюю генетическую изменчивость на популяционном уровне и сравнивать ее с современной. Различные методы (PCA, STRUCTURE, ADMIXTURE, SPAMIX, SPA, ADMIXTOOLS, GPS, LAMP, HAPMIX,  reAdmix, MUTLIMIX, mSpectrum, SABER и др.), которые были разработаны для анализа современных популяций, применяются и к древним популяциям. В комбинации с антропологическими данными и историческими  сведениями они позволяют реконструировать пути миграций, определять состав предков той или иной популяции, выяснять географическое  происхождение гаплотипов.

Эпигенетика и палео-ДНК

Фенотипическое проявление генотипической изменчивости зависит не только от изменчивости тех или иных аллелей в геноме, но и от степени экспрессии генов, а она во многом определяется химическими модификациями, не затрагивающими последовательность нуклеотидов в ДНК, то есть эпигенетическими. Это метилирование ДНК, модификация белков-гистонов, спектр некодирующей РНК. Последние исследования показали, что некоторые эпигенетические модификации сохраняются и postmortem. Так, удалось картировать метилирование генома неандертальцев и денисовцев. Выяснилось, что некоторые гены были более метилированы у древних людей, чем у современных. Анализ метилирования позволяет также определить возраст индивида (как современного – что важно для криминалистики, так и древнего).

ALDER анализ происхождения белорусов и поляков

В качестве одного из метода проверки надежности импутированных снипов для анализа популяционной истории различных этнических групп, я использовал метод ALDER (он представляет собой более продвинутую версию алгоритма ROLOFF, описанного в известной работе Patterson et al. 2012).

Метод ALDER  выявляет нюансы популяционной истории через оценку двух важных параметров: а) рекомбинации — процесса обмена участками между разными молекулами ДНК, который напоминает перемешивание игральных карт в колоде (у человека он обязательно происходит при образовании половых клеток) и б) неравновесия по сцеплению — явления, при котором несколько участков ДНК передаются вместе блоками, которые формируются несколько по-разному в разных популяциях из-за того, что в разных популяциях наследуются разные комбинации сегментов ДНК. Таким образом, метод основан на выявлении специфических для каждой популяции сцепленных участков ДНК и на оценке доли общих сегментов в выборках сравниваемых популяций. При этом метод ALDER на основе оценки неравновесия по сцеплению определяет правдоподобность того, что две выбранные группы являются предковыми по отношению к анализируемым популяциям. Кроме того, метод позволяет также установить время смешения через оценку доли рекомбинаций на поколение.
Как было сказано выше, метод ALDER представляет собой расширенный вариант алгоритма ROLLOFF.Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатура LD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории,  чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения  LD в адмиксе напрямую связана с числом поколений, прошедших с момента адмикса,  так как c возрастанием числа поколений увлечивается число рекомбинаций произошедших между  двумя отдельными SNP-ами. Проще говоря: Rolloff соответствует экспоненциальной кривой угасания уровня LD от расстояния, и эта скорость экспоненциального снижения как раз и используется  для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.В качестве двух тестовых популяций я использовал две группы — выборку белорусов (данные публичной коллекции эстонского биоцентра, вошедшие позднее в стандартный набор популяций лаборатории Райха, а также данные белорусов, собранные мной в проекте MDLP) и выборку поляков (из публичной коллекции эстонского биоцентра, а также данные поляков из выборки моего проекта MDLP).   В 2012 году я уже проводил анализ ROLLOFF белорусов, поэтому было интересно посмотреть, как изменится картина после добавления новых палеогеномов и импутированных (негенотипированных) снипов. Для полноты эксперимента, я также включил данные поляков, чтобы посмотреть, работает ли метод на данных, полученных с помощью других платформ генотипирования (NB:когда я проводил анализ, у меня еще не было данных поляков из кураторской базы данных лаборатории Reich).

В качественных референсных популяций (кандидатов в предковые популяции) я использовал набор из 400 популяций в моей расширенной выборки.  Программа работает в три этапа:

  • На первом этапе определяется статистическая значимость сравнения амплитуд угасания 2-референсной LD(в случае наличия такой значимость программа пишет success)

Cледующие комбинации дали положительный результат

Belarusian Andronovo.SG Chukchis
Belarusian Andronovo.SG Koryaks
Belarusian Armenian_Martuni Karelia_HG
Belarusian Bashkir Turkish_Jewish
Belarusian Nordic_LN.SG Villabruna
Belarusian Turkish_Jewish Uzbek
Belarusian Anatolia_Neolithic Brahui
Belarusian Anatolia_Neolithic Burusho
Belarusian Anatolia_Neolithic Itelmen
Belarusian Anatolia_Neolithic Koryak
Belarusian Anatolia_Neolithic Mixtec
Belarusian Anatolia_Neolithic Pathan
Belarusian Anatolia_Neolithic Mala
Belarusian Anatolia_Neolithic Turkmen
Belarusian Anatolia_Neolithic Uygur
Belarusian Druze Selkup
Belarusian Mala Syrian
Belarusian Mixtec Spain_EN
Belarusian Anatolia_Neolithic Brahui
Belarusian Anatolia_Neolithic Burusho
Belarusian Anatolia_Neolithic Chukchi
Belarusian Anatolia_Neolithic Selkup
Belarusian Anatolia_Neolithic Sindhi
Belarusian Anatolia_Neolithic Uygur
Belarusian British-Roman Koryak
Belarusian British-Roman Mixtec
Belarusian Chukchi Mala
Belarusian Itelmen Uzbek_WGA
Belarusian LBK_EN Selkup
Belarusian Selkup Turkish_Trabzon
Belarusian Abhkasian Lahu
Belarusian Ami_Coriell Uzbek_WGA
Belarusian Anatolia_Neolithic Chukchi
Belarusian Anatolia_Neolithic Daur
Anatolia_Neolithic Han
Anatolia_Neolithic Han_NChina
Anatolia_Neolithic Miao
Anatolia_Neolithic Turkmen
Belarusian Atayal_Coriell Uzbek_WGA
Belarusian British-Roman Mixtec
Belarusian Chukchi Mala
Belarusian Dai Greek_Islands
Belarusian Dai Uzbek_WGA
Belarusian Daur North_Ossetian
Belarusian Daur Uzbek_WGA
Belarusian Eskimo_Chaplin LBK_EN
Belarusian Georgian Lahu
Belarusian Georgian Yi
Belarusian Greek_Islands Han
Belarusian Greek_Islands Miao
Belarusian Greek_Islands Mixtec
Belarusian Greek_Islands Nganasan
Belarusian Greek_Islands Ulchi
Belarusian Greek_Islands Xibo
Belarusian Han Uzbek_WGA
Belarusian Han Yemenite_Jew
Belarusian Han_NChina Uzbek_WGA
Belarusian Han_NChina Yemenite_Jew
Belarusian Japanese Uzbek_WGA
Belarusian Korean Uzbek_WGA
Belarusian Lahu Turkish_Jew
Belarusian Lahu Uzbek_WGA
Belarusian Lahu Yemenite_Jew
Belarusian LBK_EN Selkup
Belarusian Miao Uzbek_WGA
Belarusian Miao Yemenite_Jew
Belarusian Naxi Uzbek_WGA
Belarusian Oroqen Uzbek_WGA
Belarusian She Uzbek_WGA
Belarusian Tu Uzbek_WGA
Belarusian Tujia Uzbek_WGA
Belarusian Tujia Yemenite_Jew
Belarusian Ulchi Uzbek_WGA
Belarusian Uzbek_WGA Xibo
Belarusian Uzbek_WGA Yi
Belarusian Uzbek_WGA Yukagir_Tundra
Belarusian Yemenite_Jew Yi
  • На втором — cоответствие скоростей угасания LD в попарном сравнении с референсными популяциями (программа выдает предупреждение, если амплитуды угасания LD несовместимы).  Как видно, большинство триплетов (таргетная популяция + 2 референса) имеет несовместимые амплитуды угасания LD.

DATA: success (warning: decay rates inconsistent) 0.028 Belarusian Andronovo.SG Chukchis 4.64 2.80 2.11 85% 244.96 +/- 44.45 0.00055485 +/- 0.00011964 262.22 +/- 50.30 0.00029724 +/- 0.00010632 105.99 +/- 50.22 0.00013405 +/- 0.00003707
DATA: success (warning: decay rates inconsistent) 3.8e-05 Belarusian Andronovo.SG Koryaks 5.86 2.80 2.36 85% 241.36 +/- 36.30 0.00059837 +/- 0.00010219 262.22 +/- 50.30 0.00029724 +/- 0.00010632 105.75 +/- 44.80 0.00011083 +/- 0.00002791
DATA: success (warning: decay rates inconsistent) 0.037 Belarusian Armenian_Martuni Karelia_HG 4.58 2.20 3.48 53% 206.14 +/- 39.11 0.00072944 +/- 0.00015918 324.91 +/- 90.64 0.00018302 +/- 0.00008311 189.01 +/- 42.42 0.00043186 +/- 0.00012423
DATA: success (warning: decay rates inconsistent) 0.044 Belarusian Bashkir Turkish_Jewish 4.55 2.70 2.53 83% 121.78 +/- 24.93 0.00009384 +/- 0.00002064 153.64 +/- 48.19 0.00006384 +/- 0.00002366 296.25 +/- 73.05 0.00014988 +/- 0.00005929
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Nordic_LN.SG Villabruna 4.54 2.19 5.01 30% 160.01 +/- 35.24 0.00086280 +/- 0.00018037 139.86 +/- 63.88 0.00033916 +/- 0.00014340 117.88 +/- 23.51 0.00043952 +/- 0.00008295
DATA: success (warning: decay rates inconsistent) 0.0032 Belarusian Turkish_Jewish Uzbek 5.07 2.53 2.35 112% 116.58 +/- 23.00 0.00008493 +/- 0.00001382 296.25 +/- 73.05 0.00014988 +/- 0.00005929 83.46 +/- 35.51 0.00004275 +/- 0.00001721
DATA: success (warning: decay rates inconsistent) 0.0066 Belarusian Anatolia_Neolithic Brahui 4.18 4.42 2.87 37% 63.78 +/- 15.17 0.00000803 +/- 0.00000192 92.46 +/- 19.49 0.00001427 +/- 0.00000323 88.94 +/- 27.82 0.00000775 +/- 0.00000270
DATA: success (warning: decay rates inconsistent) 0.019 Belarusian Anatolia_Neolithic Burusho 3.93 4.42 2.19 47% 93.43 +/- 9.05 0.00001536 +/- 0.00000390 92.46 +/- 19.49 0.00001427 +/- 0.00000323 149.25 +/- 37.02 0.00001357 +/- 0.00000621
DATA: success (warning: decay rates inconsistent) 0.035 Belarusian Anatolia_Neolithic Itelmen 3.79 4.42 2.15 64% 69.11 +/- 15.92 0.00002889 +/- 0.00000762 92.46 +/- 19.49 0.00001427 +/- 0.00000323 134.23 +/- 58.31 0.00003278 +/- 0.00001523
DATA: success (warning: decay rates inconsistent) 0.023 Belarusian Anatolia_Neolithic Koryak 3.90 4.42 2.30 30% 82.94 +/- 21.28 0.00003363 +/- 0.00000828 92.46 +/- 19.49 0.00001427 +/- 0.00000323 111.83 +/- 48.56 0.00002562 +/- 0.00000985
DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.90 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Mixtec 3.87 4.42 2.73 71% 71.36 +/- 14.69 0.00003027 +/- 0.00000782 92.46 +/- 19.49 0.00001427 +/- 0.00000323 149.36 +/- 43.83 0.00002944 +/- 0.00001080
DATA: success (warning: decay rates inconsistent) 0.019 Belarusian Anatolia_Neolithic Pathan 3.93 4.42 2.02 42% 104.78 +/- 14.08 0.00001497 +/- 0.00000380 92.46 +/- 19.49 0.00001427 +/- 0.00000323 141.03 +/- 36.42 0.00001165 +/- 0.00000577
DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success (warning: decay rates inconsistent) 0.026 Belarusian Anatolia_Neolithic Uygur 3.87 4.42 2.54 56% 71.95 +/- 14.95 0.00001528 +/- 0.00000395 92.46 +/- 19.49 0.00001427 +/- 0.00000323 127.39 +/- 37.67 0.00001541 +/- 0.00000606
DATA: success (warning: decay rates inconsistent) 0.02 Belarusian Druze Selkup 3.93 2.02 3.14 73% 51.53 +/- 13.06 0.00001224 +/- 0.00000311 110.46 +/- 43.38 0.00001040 +/- 0.00000516 59.53 +/- 18.98 0.00000945 +/- 0.00000299
DATA: success (warning: decay rates inconsistent) 0.044 Belarusian Mala Syrian 3.73 3.87 2.84 28% 72.39 +/- 19.33 0.00000805 +/- 0.00000216 87.55 +/- 18.75 0.00001071 +/- 0.00000277 96.31 +/- 27.52 0.00000993 +/- 0.00000350
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Mixtec Spain_EN 3.85 2.73 2.67 26% 114.65 +/- 21.37 0.00005462 +/- 0.00001417 149.36 +/- 43.83 0.00002944 +/- 0.00001080 117.07 +/- 30.31 0.00002193 +/- 0.00000820
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Anatolia_Neolithic Brahui 3.70 3.45 2.55 32% 63.07 +/- 15.18 0.00000871 +/- 0.00000235 81.39 +/- 21.48 0.00001207 +/- 0.00000349 87.19 +/- 27.66 0.00000771 +/- 0.00000303
DATA: success (warning: decay rates inconsistent) 0.039 Belarusian Anatolia_Neolithic Burusho 3.74 3.45 2.00 61% 89.47 +/- 10.12 0.00001582 +/- 0.00000423 81.39 +/- 21.48 0.00001207 +/- 0.00000349 152.62 +/- 45.80 0.00001482 +/- 0.00000742
DATA: success (warning: decay rates inconsistent) 0.0013 Belarusian Anatolia_Neolithic Chukchi 4.52 3.45 2.79 35% 77.64 +/- 16.37 0.00003602 +/- 0.00000797 81.39 +/- 21.48 0.00001207 +/- 0.00000349 110.36 +/- 39.54 0.00002861 +/- 0.00000981
DATA: success (warning: decay rates inconsistent) 0.038 Belarusian Anatolia_Neolithic Selkup 3.74 3.45 2.41 38% 55.27 +/- 13.63 0.00002155 +/- 0.00000576 81.39 +/- 21.48 0.00001207 +/- 0.00000349 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Anatolia_Neolithic Sindhi 3.83 3.45 2.68 61% 65.40 +/- 9.12 0.00001072 +/- 0.00000280 81.39 +/- 21.48 0.00001207 +/- 0.00000349 122.70 +/- 32.60 0.00001132 +/- 0.00000423
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.00000250 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Uygur 3.85 3.45 2.16 37% 70.37 +/- 13.51 0.00001582 +/- 0.00000411 81.39 +/- 21.48 0.00001207 +/- 0.00000349 102.34 +/- 33.39 0.00001107 +/- 0.00000512
DATA: success (warning: decay rates inconsistent) 0.021 Belarusian British-Roman Koryak 3.89 2.37 2.28 74% 62.36 +/- 16.01 0.00003903 +/- 0.00000934 52.03 +/- 19.63 0.00002305 +/- 0.00000974 113.23 +/- 49.75 0.00002665 +/- 0.00001027
DATA: success (warning: decay rates inconsistent) 0.0084 Belarusian British-Roman Mixtec 4.11 2.37 2.50 80% 64.78 +/- 15.52 0.00004703 +/- 0.00001145 52.03 +/- 19.63 0.00002305 +/- 0.00000974 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success (warning: decay rates inconsistent) 0.01 Belarusian Chukchi Mala 4.06 2.79 4.06 60% 172.83 +/- 30.55 0.00002691 +/- 0.00000663 110.36 +/- 39.54 0.00002861 +/- 0.00000981 93.18 +/- 21.71 0.00001222 +/- 0.00000301
DATA: success (warning: decay rates inconsistent) 0.047 Belarusian Itelmen Uzbek_WGA 3.69 2.36 2.20 54% 142.22 +/- 27.73 0.00006725 +/- 0.00001821 129.35 +/- 53.29 0.00003152 +/- 0.00001338 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.009 Belarusian LBK_EN Selkup 4.09 2.18 2.41 67% 67.83 +/- 16.58 0.00002655 +/- 0.00000641 115.11 +/- 38.65 0.00001960 +/- 0.00000899 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 0.05 Belarusian Selkup Turkish_Trabzon 3.68 2.41 2.11 32% 56.53 +/- 15.37 0.00001451 +/- 0.00000330 57.06 +/- 20.02 0.00000933 +/- 0.00000386 77.83 +/- 33.34 0.00000751 +/- 0.00000355
DATA: success (warning: decay rates inconsistent) 0.017 Belarusian Abhkasian Lahu 4.21 2.47 2.97 174% 32.04 +/- 6.68 0.00001002 +/- 0.00000238 3.95 +/- 1.60 0.00000098 +/- 0.00000024 57.34 +/- 19.33 0.00001384 +/- 0.00000369
DATA: success (warning: decay rates inconsistent) 0.00018 Belarusian Ami_Coriell Uzbek_WGA 5.15 2.09 2.20 63% 162.32 +/- 22.43 0.00007649 +/- 0.00001486 118.09 +/- 56.57 0.00002688 +/- 0.00001279 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0041 Belarusian Anatolia_Neolithic Chukchi 4.52 3.45 2.79 35% 77.64 +/- 16.37 0.00003602 +/- 0.00000797 81.39 +/- 21.48 0.00001207 +/- 0.00000349 110.36 +/- 39.54 0.00002861 +/- 0.00000981
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Daur 4.12 3.45 2.63 47% 73.39 +/- 17.81 0.00002378 +/- 0.00000569 81.39 +/- 21.48 0.00001207 +/- 0.00000349 118.84 +/- 40.98 0.00002486 +/- 0.00000947
DATA: success 0.05 Belarusian Anatolia_Neolithic Han 3.96 3.45 3.00 17% 79.39 +/- 18.74 0.00002687 +/- 0.00000678 81.39 +/- 21.48 0.00001207 +/- 0.00000349 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.00002310 +/- 0.00000644
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.20 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.00000250 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success (warning: decay rates inconsistent) 0.00046 Belarusian Atayal_Coriell Uzbek_WGA 4.97 2.02 2.20 53% 179.16 +/- 31.95 0.00008213 +/- 0.00001654 130.82 +/- 54.40 0.00002576 +/- 0.00001275 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian British-Roman Mixtec 4.11 2.37 2.50 80% 64.78 +/- 15.52 0.00004703 +/- 0.00001145 52.03 +/- 19.63 0.00002305 +/- 0.00000974 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success (warning: decay rates inconsistent) 0.033 Belarusian Chukchi Mala 4.06 2.79 4.06 60% 172.83 +/- 30.55 0.00002691 +/- 0.00000663 110.36 +/- 39.54 0.00002861 +/- 0.00000981 93.18 +/- 21.71 0.00001222 +/- 0.00000301
DATA: success (warning: decay rates inconsistent) 0.009 Belarusian Dai Greek_Islands 4.35 3.05 2.28 32% 122.32 +/- 24.18 0.00004797 +/- 0.00001103 88.71 +/- 29.04 0.00001846 +/- 0.00000511 102.11 +/- 26.83 0.00001569 +/- 0.00000687
DATA: success (warning: decay rates inconsistent) 0.049 Belarusian Dai Uzbek_WGA 3.97 3.05 2.20 87% 160.47 +/- 30.16 0.00006276 +/- 0.00001582 88.71 +/- 29.04 0.00001846 +/- 0.00000511 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0015 Belarusian Daur North_Ossetian 4.73 2.63 2.09 122% 42.94 +/- 8.92 0.00000724 +/- 0.00000153 118.84 +/- 40.98 0.00002486 +/- 0.00000947 178.58 +/- 51.90 0.00001887 +/- 0.00000901
DATA: success (warning: decay rates inconsistent) 0.047 Belarusian Daur Uzbek_WGA 3.97 2.63 2.20 62% 164.70 +/- 29.83 0.00008292 +/- 0.00002087 118.84 +/- 40.98 0.00002486 +/- 0.00000947 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.00086 Belarusian Eskimo_Chaplin LBK_EN 4.84 2.29 2.18 73% 53.65 +/- 11.08 0.00002657 +/- 0.00000479 63.81 +/- 27.89 0.00001618 +/- 0.00000586 115.11 +/- 38.65 0.00001960 +/- 0.00000899
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Georgian Lahu 4.10 2.89 2.97 166% 43.55 +/- 10.61 0.00001537 +/- 0.00000311 5.27 +/- 1.82 0.00000079 +/- 0.00000023 57.34 +/- 19.33 0.00001384 +/- 0.00000369
DATA: success (warning: decay rates inconsistent) 0.05 Belarusian Georgian Yi 3.96 2.89 3.26 179% 35.28 +/- 8.91 0.00000897 +/- 0.00000226 5.27 +/- 1.82 0.00000079 +/- 0.00000023 93.65 +/- 25.60 0.00002033 +/- 0.00000624
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3.00 15% 108.92 +/- 26.70 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.50 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.20 2.28 3.37 15% 118.40 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.90 0.00002845 +/- 0.00000805
DATA: success (warning: decay rates inconsistent) 0.042 Belarusian Greek_Islands Xibo 4.00 2.28 2.59 37% 101.05 +/- 22.65 0.00003689 +/- 0.00000922 102.11 +/- 26.83 0.00001569 +/- 0.00000687 70.25 +/- 27.10 0.00001649 +/- 0.00000507
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success (warning: decay rates inconsistent) 1.8e-05 Belarusian Han Uzbek_WGA 5.56 3.00 2.20 83% 145.83 +/- 21.23 0.00006518 +/- 0.00001171 93.68 +/- 31.25 0.00002137 +/- 0.00000623 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.023 Belarusian Han Yemenite_Jew 4.14 3.00 2.19 41% 101.08 +/- 19.78 0.00002665 +/- 0.00000644 93.68 +/- 31.25 0.00002137 +/- 0.00000623 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.00017 Belarusian Han_NChina Uzbek_WGA 5.15 3.58 2.20 76% 147.58 +/- 21.48 0.00006493 +/- 0.00001261 101.71 +/- 28.43 0.00002310 +/- 0.00000644 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.021 Belarusian Han_NChina Yemenite_Jew 4.16 3.58 2.19 47% 88.25 +/- 14.91 0.00002464 +/- 0.00000593 101.71 +/- 28.43 0.00002310 +/- 0.00000644 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Japanese Uzbek_WGA 3.99 2.51 2.20 76% 158.76 +/- 32.98 0.00007182 +/- 0.00001802 101.02 +/- 40.27 0.00002259 +/- 0.00000766 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.034 Belarusian Korean Uzbek_WGA 4.05 3.28 2.20 72% 147.50 +/- 22.94 0.00006552 +/- 0.00001618 106.54 +/- 29.46 0.00002451 +/- 0.00000748 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0022 Belarusian Lahu Turkish_Jew 4.65 2.97 3.22 53% 53.69 +/- 9.97 0.00001763 +/- 0.00000379 57.34 +/- 19.33 0.00001384 +/- 0.00000369 92.56 +/- 21.52 0.00000780 +/- 0.00000242
DATA: success (warning: decay rates inconsistent) 7.8e-06 Belarusian Lahu Uzbek_WGA 5.70 2.97 2.20 119% 125.65 +/- 17.75 0.00006183 +/- 0.00001084 57.34 +/- 19.33 0.00001384 +/- 0.00000369 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.028 Belarusian Lahu Yemenite_Jew 4.10 2.97 2.19 85% 73.51 +/- 17.32 0.00002186 +/- 0.00000534 57.34 +/- 19.33 0.00001384 +/- 0.00000369 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.029 Belarusian LBK_EN Selkup 4.09 2.18 2.41 67% 67.83 +/- 16.58 0.00002655 +/- 0.00000641 115.11 +/- 38.65 0.00001960 +/- 0.00000899 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 3e-05 Belarusian Miao Uzbek_WGA 5.47 3.63 2.20 89% 141.79 +/- 17.01 0.00005964 +/- 0.00001090 86.31 +/- 23.79 0.00001726 +/- 0.00000411 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.012 Belarusian Miao Yemenite_Jew 4.29 3.63 2.19 49% 96.51 +/- 17.73 0.00002466 +/- 0.00000575 86.31 +/- 23.79 0.00001726 +/- 0.00000411 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.036 Belarusian Naxi Uzbek_WGA 4.04 2.35 2.20 87% 150.57 +/- 27.26 0.00006598 +/- 0.00001633 88.34 +/- 37.62 0.00001891 +/- 0.00000714 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0037 Belarusian Oroqen Uzbek_WGA 4.54 2.50 2.20 75% 159.87 +/- 26.32 0.00007776 +/- 0.00001713 102.18 +/- 40.85 0.00002369 +/- 0.00000834 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.043 Belarusian She Uzbek_WGA 3.99 3.16 2.20 70% 177.32 +/- 34.01 0.00008208 +/- 0.00002055 108.68 +/- 31.62 0.00002238 +/- 0.00000708 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.029 Belarusian Tu Uzbek_WGA 4.09 2.28 2.20 85% 150.44 +/- 31.12 0.00006074 +/- 0.00001485 91.29 +/- 40.04 0.00001929 +/- 0.00000802 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.001 Belarusian Tujia Uzbek_WGA 4.80 2.09 2.20 61% 164.13 +/- 25.59 0.00008133 +/- 0.00001693 120.48 +/- 57.69 0.00002290 +/- 0.00001057 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.00002290 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.0053 Belarusian Ulchi Uzbek_WGA 4.47 3.37 2.20 65% 153.49 +/- 25.35 0.00007000 +/- 0.00001567 114.38 +/- 33.90 0.00002845 +/- 0.00000805 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.00055 Belarusian Uzbek_WGA Xibo 4.93 2.20 2.59 105% 129.90 +/- 24.58 0.00005579 +/- 0.00001132 225.56 +/- 61.89 0.00007507 +/- 0.00003406 70.25 +/- 27.10 0.00001649 +/- 0.00000507
DATA: success (warning: decay rates inconsistent) 0.00062 Belarusian Uzbek_WGA Yi 4.91 2.20 3.26 83% 156.22 +/- 22.94 0.00007252 +/- 0.00001478 225.56 +/- 61.89 0.00007507 +/- 0.00003406 93.65 +/- 25.60 0.00002033 +/- 0.00000624
DATA: success (warning: decay rates inconsistent) 0.011 Belarusian Uzbek_WGA Yukagir_Tundra 4.31 2.20 2.55 61% 182.09 +/- 32.35 0.00008497 +/- 0.00001970 225.56 +/- 61.89 0.00007507 +/- 0.00003406 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success (warning: decay rates inconsistent) 0.048 Belarusian Yemenite_Jew Yi 3.97 2.19 3.26 41% 130.87 +/- 22.50 0.00003478 +/- 0.00000876 142.22 +/- 61.15 0.00001902 +/- 0.00000870 93.65 +/- 25.60 0.00002033 +/- 0.00000624

После отсеивания не очень пригодных для дальнейшего анализа триплетов  у нас осталась следующие комбинации:

DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.9 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.05 Belarusian Anatolia_Neolithic Han 3.96 3.45 3 17% 79.39 +/- 18.74 0.00002687 +/- 0.00000678 81.39 +/- 21.48 0.00001207 +/- 0.00000349 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.0000231 +/- 0.00000644
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.2 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3 15% 108.92 +/- 26.7 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.5 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.2 2.28 3.37 15% 118.4 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.9 0.00002845 +/- 0.00000805
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.0000229 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.0000087

На третьем этапе программа определяет статистическая значимость комбинации (p-статистику):

P-значение (англ. P-value) — величина, используемая при тестировании статистических гипотез. Фактически это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода). Проверка гипотез с помощью P-значения является альтернативой классической процедуре проверки через критическое значение распределения.

Обычно P-значение равно вероятности того, что случайная величина с данным распределением (распределением тестовой статистики при нулевой гипотезе) примет значение, не меньшее, чем фактическое значение тестовой статистики.

Отберем значения P меньше 0.05

DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.0000231 +/- 0.00000644
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.5 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.9 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.2 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.2 2.28 3.37 15% 118.4 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.9 0.00002845 +/- 0.00000805
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.0000229 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.0000087
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3 15% 108.92 +/- 26.7 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623

Получаем следующие пары (с датировкой адмикса в поколениях и годах)

Таргет Референс 1 Референс 2 Поколения Погрешность Года Погрешность
Belarusian Anatolia_Neolithic Turkmen 85.64 +/- 28.96 2483.56 +/- 839.84
Belarusian Anatolia_Neolithic Turkmen 72.89 +/- 23.73 2113.81 +/- 688.17
Belarusian Anatolia_Neolithic Han_NChina 101.71 +/- 28.43 2949.59 +/- 824.47
Belarusian Anatolia_Neolithic Turkmen 72.89 +/- 23.73 2113.81 +/- 688.17
Belarusian Greek_Islands Mixtec 121.19 +/- 40.18 3514.51 +/- 1165.22
Belarusian Greek_Islands Yukagir_Tundra 119.62 +/- 45.23 3468.98 +/- 1311.67
Belarusian Anatolia_Neolithic Mala 87.55 +/- 18.75 2538.95 +/- 543.75
Belarusian Anatolia_Neolithic Miao 86.31 +/- 23.79 2502.99 +/- 689.91
Belarusian Greek_Islands Ulchi 114.38 +/- 33.9 3317.02 +/- 983.1
Belarusian Tujia Yemenite_Jew 142.22 +/- 61.15 4124.38 +/- 1773.35
Belarusian Greek_Islands Miao 86.31 +/- 23.79 2502.99 +/- 689.91
Belarusian Greek_Islands Nganasan 97.92 +/- 45.95 2839.68 +/- 1332.55
Belarusian Greek_Islands Han 93.68 +/- 31.25 2716.72 +/- 906.25
Belarusian Anatolia_Neolithic Han 93.68 +/- 31.25 2716.72 +/- 906.25

О чем свидетельствует результаты? Результаты указывают на наличие сигнала смешивания предковых популяций белорусов с неолитическими земледельцами (ближневосточные популяции и популяции ближнего Востока здесь выступают в качестве суррогата неолитических популяций), и с рядом восточноазиатских, сибирских и америндских популяций (здесь они выступают в качестве суррогата сибирского вклада в генофонд восточной Европы) cо средним интервалом смешения примерно 2850 +- 950 лет назад, т.е в период бронзового века.

Ниже приведены графики угасания LD в комбинации Anatolian-Neolithic + Mala

Затем я уменьшил масштаб подгонки (fitting) кривых угасания LD до 0.5 сантиморганид и взял в качестве референса  палеогеномы с хорошим покрытием

Эксперимент с Loschbour + Stuttgart оказался неудачным.

Более правдоподобна комбинация андроновцев (Andronovo) и чукчей (дата адмикса — 125+-60 поколений тому назад)

Вторая попытка подгонки референсных популяций Loschbour и Stuttgart в качестве предковых групп оказался более удачным (дата адмикса — приблизительно 445 +- 56 поколений тому назад, времена энеолита)

Адмикс с сибирскими палеопопуляциями (MA1) примерно в два раза «моложе» (258 +- 42 поколения, бронзовый век)

Еще один вариант адмикса между палеолитическими жителями Европы и MA1 (датировка — 393 +- 75 поколений)

Теперь о поляках. К сожалению, результаты оказались гораздо более зашумленными, так как использовались данные генотипирования на платформе Illumina, имеющей меньшее пересечение снипов со снипами платформы Affymetrix HumanOrigins. Несмотря на это, программа ALDER нашла три комбинации, пусть и с несовместимой амплитудой угасания LD.

DATA: success (warning: decay rates inconsistent) 0.011 Pole Eskimo_Sireniki Irish-BA 3.87 2.01 2.53 40% 146.66 +/- 27.30 0.00035747 +/- 0.00009228 161.51 +/- 69.51 0.00013202 +/- 0.00006577 107.56 +/- 33.31 0.00015435 +/- 0.00006109
DATA: success (warning: decay rates inconsistent) 0.0068 Pole Eskimo_Sireniki Remedello_BA.SG 3.99 2.01 2.57 49% 110.88 +/- 21.02 0.00024049 +/- 0.00006022 161.51 +/- 69.51 0.00013202 +/- 0.00006577 182.60 +/- 39.99 0.00014922 +/- 0.00005796
DATA: success (warning: decay rates inconsistent) 0.035 Pole Eskimo_Chaplin Remedello_BA.SG 3.59 2.51 2.57 56% 102.38 +/- 21.46 0.00022199 +/- 0.00006181 126.26 +/- 42.96 0.00009643 +/- 0.00003846 182.60 +/- 39.99 0.00014922 +/- 0.00005796

Здесь тоже виден слабый сигнал адмикса популяций бронзового века из Западной Европы (Remedello и ирландского бронзового века) c америндскими популяциями.

Впрочем, дополнительный анализ в программе ROLLOFF (с уменьшенным масштабом подгонки — fitting) выдал правдоподобные (c низким значением P) варианты. Например, вариант Bichon + Georgian_Kakheti: 151.41 +/-38.18, p= 4.7e-06

Очень хорошим вариантом оказался вариант адмикса Esperstedt_MN-Halberstadt_LBA: (дата адмикса — 163.80 +/- 34.11), p=4.8e-07

О «ближневосточном компоненте» палеолитических охотников-собирателей Европы

Сергей Козлов

О «ближневосточном компоненте» палеолитических охотников-собирателей Европы

Описание
Рассмотрена статья Qiaomei Fu et al. «The genetic history of Ice Age Europe». Проведен анализ европейских палеогеномов возрастом от 37 до 8 тысяч лет из данной статьи и более ранних работ. Аутосомный компонент западных охотников-собирателей (WHG) — преимущественно результат генетического дрейфа, гипотеза авторов о его формировании в результате однократной миграции в Европу около 14 тысяч лет назад носителей ближневосточных аутосомных компонентов несостоятельна. Вместе с тем, обмен генофондом с ближневосточными популяциями несомненно происходил, однако для прояснения его истории необходимы палеогеномы с Ближнего Востока. Подтверждаются выводы из более старых работ о наличии ближневосточного («базального») компонента у образца Костенки-14 (человек с Маркиной Горы), отрицаемые в рассматриваемой статье. Вероятно, он связан с компонентом охотников-собирателей Кавказа (CHG). Опровергается вывод авторов о восточноазиатском влиянии на поздних WHG. Проведено моделирование ряда возможных событий смешения и построено дерево вероятных взаимосвязей аутосомных компонентов с размещением на нем имеющихся палеогеномов.

Обсуждение работы Qiaomei Fu et al на форуме «Молекулярная генеалогия».

Новые палеогеномы из статьи
В рассматриваемой статье впервые произведен временной срез геномов жителей Европы верхнего палеолита. Конечно, единичные геномы у нас были и раньше (Костенки-14, Oase1), однако не хватало системности для построения целостной картины изменений в генофонде европейцев на протяжении этого периода. Статья частично решает эту проблему — прочтено несколько десятков новых геномов. К сожалению, остался неохваченным период 19-28 тысяч лет назад (а с учетом лишь геномов приемлемого качества — 19-30 тлн), но и имеющиеся образцы позволяют сделать ряд интересных выводов.

Коротко о содержании рассматриваемой работы, критика
Авторы подтверждают выводы из более ранних работ об угасании вклада неандертальцев в генофонд современных европейцев с ходом времени (предположительно, на неандертальские участки ДНК действовал отрицательный отбор). Далее они касаются нескольких интересных мелочей (присутствие Y-гаплогруппы R1b в палеолитической Европе — образец Villabruna возрастом 14 тысяч лет, появление «мутации светлоглазости» почти одновременно в Европе и на Кавказе (разумеется, это не отменяет вероятности нахождения более древних образцов с этой мутацией впоследствии) и необычные для региона в наши дни митогаплогруппы). После этого авторы переходят к объединению образцов в кластеры и попытке реконструкции их взаимоотношений. По сути, здесь все просто — европейские палеогеномы из одной эпохи объединяются в один кластер. Классические европейские WHG выступают под псевдонимом «кластер Villabruna», их непосредственные предшественники — el Miron, и ряд геномов возрастом 30 тысяч лет (из них лишь один заслуживающего рассмотрения качества) — кластер Vestonice. Чуть более старые GoyetQ116-1 и костенковец не вошли ни в один кластер. Далее делается очень странный вывод, что с появлением кластера Villabruna (в дальнейшем я буду называть их «WHG» согласно общепринятой терминологии), произошло резкое изменение генофонда в результате вливания компонента, связанного с современными ближневосточными популяциями. Формально приводится и альтернативное объяснение — результат нормальной изменчивости среди охотников-собирателей, и группы с меньшей общностью с Ближним Востоком были замещены группами, изначально имевшими большую общность. Однако в abstract статьи попал лишь первый вариант.

Мое объяснение
Даже из диаграммы, которая должна иллюстрировать точку зрения авторов, следует прямо противоположный ей вывод — изменения, относимые к появлению классических WHG, начались задолго до этого и происходили постепенно. «Ближневосточное влияние» (зеленые ромбики) появляется в заметных масштабах уже в предшествующем кластере el Miron, на пять тысячелетий ранее. Но перед этим кластером находится разрыв в девять тысячелетий, где, вполне возможно, мы тоже могли бы увидеть это влияние. Однако на картинке разрыв закрыт и создается впечатление резкого перехода.
Исходное изображение:

ИсходнаяСхема
Отмасштабированная пропорционально реальной временной шкале картинка:
Безымянный-3
Как я покажу в дальнейшем, общность палеообразцов с классическими WHG и современными северными европейцами (которые являются преимущественно потомками WHG) с ходом времени росла постоянно — от костенковца и GoyetQ116-1 к el Miron, Villabruna и Loschbour. По моим предположениям, основной механизм здесь — дрейф генов. Не надо думать, что это был некий целенаправленный процесс — наоборот, дрейф генов во многом случаен (хотя и отбор наверняка сыграл свою роль), но именно то, что получилось в его результате, и стало европейскими охотниками-собирателями мезолита. Поэтому естественно, что чем ближе к нашему времени, тем выше сходство с итоговым результатом процесса.
Вместе с тем, с ходом времени мы наблюдаем и относительное повышение общности с ближневосточными популяциями, хотя и в заметно меньшем масштабе. Однако трудно сказать, кто, когда, сколько раз и на кого влиял. Допустим в качестве модели, что несущие компонент WHG группы повлияли на ближневосточников в относительно недавнем прошлом. Тогда повышение сходства палеогеномов с WHG автоматически будет немного повышать сходство и с ближневосточниками пропорционально доле WHG в их генофонде, даже если в ту эпоху на Ближнем Востоке о WHG и не слыхали. С другой стороны, небольшие равномерные вливания с Ближнего Востока в Европу могли дать такой же эффект. Или же третья группа, вроде CHG, могла повлиять как на WHG, так и на ближневосточников (необязательно одновременно). Словом, точку здесь поставит лишь хорошая выборка палеогеномов с Ближнего Востока -сравнение с современными популяциями всегда оставит место гаданиям.
Что касается восточноазиатского влияния на часть WHG (внимательные читатели критикуемой работы могли заметить, что оно «проявляется» и у одного из древнейших образцов — GoyetQ116-1), то оно объясняется ошибочностью принятия основой для сравнения образца Kostenki-14. Далее я еще коснусь этого.

Использованные для анализа методы и палеообразцы, причины их выбора
В этой заметке я не стал применять свой излюбленный метод — подсчет сумм общих (IBD) сегментов. Хотя качество некоторых образцов вполне позволяет его применить, трудно понять, как при этом надежно сравнить между собой образцы из эпох, разделенных десятками тысячелетий? Ведь сегменты со временем уменьшаются в размерах, при этом скорость процесса сильно зависит от популяционной истории — в одной выборке быстрее, в другой медленнее… Добавим к этому резко различающееся качество прочтения палеогеномов, и за корректность сравнения поручиться становится совершенно невозможно.
Поэтому я решил пойти путем подсчета доли общих снипов (IBS), как простого и объективного показателя. Чем больше значений снипов совпадает, тем выше генетическая близость. Я не согласен с мнением, что учитывать надо лишь производные (derived) аллели — ведь если оба варианта закрепились в популяции, то для дрейфа генов уже безразлично, какой из них предковый. Для того, чтобы поставить геномы разного качества в одинаковые условия, я случайным образом выбрал для каждого аллеля одно из прочтений и оставил лишь его, то есть создал искусственную гаплоидность, как часто делается с палеогеномами от лаборатории Райха. Обычно я ругаю этот подход, как разрушающий IBD-сегменты, но в данном случае он приносит пользу. Далее я ограничил набор снипов пересечением трех множеств — снипы, используемые мной для сравнения с современными выборками и снипы, прочитанные у образцов Villabruna и GoyetQ116-1. Более логично было бы выбрать в качестве базового образца WHG прочитанный наиболее качественно из всех Loschbour, однако носитель R1b Villabruna в любом случае будет вызывать интерес общественности и подозрения в отличиях от других WHG, поэтому решение было принято в его пользу. Что касается GoyetQ116-1, то из всех древних образцов он наиболее связан с «промежуточным» между палеолитическими европейцами и WHG el-Miron, за что и был выбран в качестве второй опоры. Итоговый набор составил около 107 тысяч снипов. Для сравнения Villabruna и Goyet с el Miron было проведено отдельное уменьшение набора до присутсвующих у всех троих 65 тысячи снипов.
Среди остальных использованных палеообразцов хорошо прочитанные Loschbour, Ust-Ishim, Kostenki, NE1, Kotias отмасштабировались практически без потерь в количестве снипов, Mota1 и Motala12 — с незначительными потерями. Несколько хуже отмасштабировались Vestonice16, «карел» c Оленьего острова I0061, «мальтинец» и один из наиболее ранних геномов неолитчических земледельцев Анатолии I0707, но они также были включены в сравнение, поскольку представляют явный интерес. Судя по сравнению результатов I0707 и его близкого аналога из Европы NE1, подсчеты сохранили корректность.

Таблица результатов и ее применение
Результаты сравнения сведены в таблицу, с которой желающие могут ознакомиться по ссылке. Кроме современных выборок, приведены и выборки из имеющихся палеогеномов (конец таблицы), хотя их качество очень разное. Впрочем, интересующие нас в первую очередь западные охотники-собиратели WHG и ранние неолитические земледельцы Анатолии AEF представлены вполне неплохо, хотя по Анатолии пока, к сожалению, охвачена лишь крайняя западная часть. Наиболее древние европейцы — Kostenki14, GoyetQ116-1, Vestonice16 объединены в выборку pre-WHG. Число в каждой ячейке — доля совпадающих аллелей для текущего образца с этой выборкой — допустим, 65 означает 65% общих снипов (на данном наборе снипов — число сильно зависит от набора).
Несмотря на все ухищрения, призванные поставить геномы в равные условия, прямое сравнение результатов оказалось невозможным — у некоторых образцов чуть больше совпадающих снипов со всеми выборками, у некоторых — чуть меньше. Разница невелика, но в этом методе играют роль даже доли процента. Возможно, причина — в разном качестве прочтения, возможно — индивидуальные особенности образцов или что-то еще. Однако решение проблемы существует. Поскольку увеличение или уменьшение доли совпадающих снипов примерно пропорционально для всех выборок, можно взять соотношение этой доли с выборкой, равно удаленной от всех («outgroup»). В качестве подобного ориентира я решил взять объединение всех четырех используемых мной выборок из Африки южнее Сахары — представителей пигмеев мбути и бьяка, кенийских банту, нигерийского племени йоруба. На графике ниже приведена доля общих снипов для каждого из палеогеномов с соответствующей выборкой (Balt, Druze, WHG и т.д.) после приведения доли общих снипов с африканцами к одинаковому с другими образцами значению путем домножения на коэффициент. Для проверки корректности метода на график помещены другие outgroups, которые в исследуемый период явно не могли участвовать в обмене генами ни с африканцами, ни с исследуемыми палеообразцами — выборка папуасов. Как интерпретировать их результат, я опишу чуть ниже.
График1
Палеогеномы (kya означает тысяч лет назад):
Ust-Ishim — усть-ишимский человек, наиболее древний приемлемо прочитанный геном человека современного типа.
Kostenki-14, GoyetQ116-1, Vestonice16 — древние геномы из Европы
el-Miron — предшественники WHG
Villabruna, Loschbour — WHG
Motala12 — охотник-собиратель из Швеции, представитель группы SHG (охотники-собиратели Скандинавии)
Karelian — образец с Оленьего Острова, так называемый EHG (восточный охотник-собиратель). Malta — древний «сибиряк» со стоянки Мальта, образец аутосомного компонента ANE — предковые северные евразийцы
EHG находятся в промежутке между WHG и ANE и, вероятно, являются их смесью.
I0707 — ранний неолитический земледелец с запада Анатолии
NE1 — ранний неолитический земледелец с территории Венгрии
Kotias — мезолитический охотник-собиратель с Кавказа

Ради интереса я также поместил на график результаты современного восточноевропейца с предками из трех восточнославянских народов (Modern EE).

Левая часть графика иллюстрирует изменения в генофонде европейцев с течением времени (усть-ишимский человек добавлен для сравнения, хотя он и не из Европы), правая — другие представляющие интерес геномы.
При сравнениях палеогеномов с палеовыборками сравнение «сам с собой» пропускалось.

Интерпретация сравнения с выборкой папуасов
Как мы видим, соотношение «родство с папуасами»/»родство с африканцами» для палеоевропейцев представляет собой почти горизонтальную линию. Это значит, что с какой скоростью европейцы «отдрейфовывали» от папуасов, примерно с такой же они отдалялись и от суб-сахарцев. Выглядит логично. Усть-ишимец выше всех, и это тоже логично — ведь он находится наиболее близко во времени к моменту расхождения папусов, восточноазиатов и WHG/ANE — значит, он и должен иметь относительно больше общего с папуасами. С другой стороны, для образца Kotias, имеющего много «базального» компонента, логично иметь заметно более низкое значение этого соотношения — момент расхождения «базальников» и предков остальных не-африканцев (включая папуасов) был очень давно. Ранние земледельцы, как смесь «базальников» и WHG, закономерно находятся в промежутке между WHG и Kotias. Даже неравномерности в графике охотников-собирателей находят свое объяснение — как я покажу позже, у костенковца вероятно небольшое влияние «базальников», и он проваливается на графике. Также я предполагаю небольшое базальное влияние у WHG и el Miron — соответственно, они находятся чуть ниже Goyet, мальтинца и оленеостровца. Итак, контрольная проверка показала применимость метода.

Важная ремарка — когда я в дальнейшем буду писать о росте доли общих снипов (график с течением времени идет вверх), надо понимать, что этот рост относительный. Есть некий базовый «уровень разбегания» — это скорость, с которой мы с каждым поколением отдаляемся от африканцев и папуасов из-за дрейфа генов и других факторов. Если в относительных значениях общность с друзами растет, это не значит, что она точно растет в абсолютных значениях — возможно, она тоже падает, но из-за обмена генами с нами падает медленнее, чем могла бы. А может, с друзами общность медленно растет, но с отстающими от них йеменцами медленно падает. Все зависит от соотношения скорости дрейфа генов, который нас растаскивает, и скорости обмена генами, который объединяет. В данном случае нас интересует, что удается увидеть наличие факта этого обмена.

Интерпретация графика
В первую очередь бросается в глаза пунктирная красная линия вверху — доля общих снипов с выборкой WHG. Как легко заметить, рост был почти непрерывен в течение всего времени, лишь, немного споткнувшись на образце Vestonice (возможно, поэтому в статье отнесли этот кластер к «тупиковой ветви». Впрочем, на сравнении с балтской выборкой такого не происходит, а современные выборки все же качеством на порядок выше — значит, доверия им больше). Ниже сплошной красной линией приведено сравнение с наиболее близкой к WHG выборкой наших современников — жителями восточного побережья Балтики (выборка Balt состоит из 11 литовских образцов, 6 латышских, 2 из Латгалии и одного с российско-латышской границы). Здесь картина аналогична — каждый следующий во времени образец ближе к балтам, чем предыдущий, включая даже Vestonice16. Очевидно, что объяснить это монотонное приближение единоразовой миграцией невозможно, а вот процессы генетического дрейфа укладываются в модель замечательно. Зеленые линии — аналогичная пара для неолитических земледельцев (пунктир) и считающихся (по результатам аутосомного анализа) наряду с армянами их наиболее сохранившимися представителями на Ближнем Востоке друзами Палестины. Здесь мы тоже видим рост, но более медленный по сравнению с ростом сходства с WHG. Если учесть, что порядка четверти генофонда AEF считается полученным от WHG, то примерно половину роста необходимо отнести на этот фактор. Оставшаяся половина и будет искомым обменом генами между «базальниками» и WHG. Для моделирования «базальников» зачастую применяют выборку из Йемена, как наиболее отдаленную от европейцев среди ближневосточников. Неизвестно, насколько это моделирование корректно, однако я включил их в сравнение (голубая линия). Родство с ними также растет, хотя и медленнее, чем с AEF или друзами. Однако, начав заметно ниже папуасов, ближе к нашему времени йеменцы успешно обгоняют их и становятся более близкими к WHG. Ведь обмен генами с йеменцами гораздо менее затруднен географически, чем с папуасами.

Несколько слов о правой половине графика
Представитель сестринской к WHG клады — ANE, мальтинец (24 тлн), обладает относительным сродством с WHG примерно на уровне европейских образцов 30-37 тысяч лет назад. Можно предположить, что момент расхождения был не слишком задолго до этого времени. При этом сродство с «балтской» выборкой относительно выше — поскольку в Восточной Европе присутствует не только WHG, но и доля ANE. У «карела» EHG связь с WHG закономерно выше (поскольку он и сам частично WHG), соответственно выросла и связь с ближневосточниками. То же самое, но в еще большей степени можно сказать про образец из Швеции Motala12 (скандинавские охотники-собиратели — SHG считаются WHG с примесью ANE). На паре AEF/NE1 можно пронаблюдать, как при продвижении в Европу у неолитчиков вырос вклад WHG, зато упал «ближневосточный» компонент. У «палеокавказца» Kotias по сравнению с ними резко падает связь с восточноевропейцами, и менее резко, но тоже падает — с ближневосточниками.

Определенный интерес представляет и сравнение с некоторыми другими современными выборками. Я не стал помещать их на основной график, чтобы избежать его перегруженности, но размещаю более полный вариант ниже.
График2
Сардинцы добавлены, как наиболее яркие современные представители неолитических земледельцев, удмурты — как связанные с EHG, корнцы — с более западным вариантом WHG, калаши — за «калашский» кластер, кеты и южноамериканские индейцы каритиана — за связь с ANE.

Карты для палеогеномов

Теперь перейдем к рассмотрению каждого из палеогеномов отдельно. Для начала несколько слов об усть-ишимце. Хотя он и наиболее близок к общему корню, но все же, судя по всему, в его времена расхождение неафриканского человечества на основные ветви уже состоялось. Ближайшими к усть-ишимцу выборками оказались меланезийцы и папуасы, далее идут жители юго-восточной Азии, тамилы и восточноазиаты.

Каждая карта нормируется отдельно — ярко-красным выделяется наиболее хорошо связанная с этим геномом выборка из представленных, ярко-зеленым — наименее связанная. Не представленные на карте выборки (четыре африканские, две америндские, папуасы и меланезийцы) в нормировании не участвуют, по сравнению с африканцами все неафриканцы были бы просто разными оттенками красного. Карты в этой статье построены согласно доле общих снипов (IBS), по тем же таблицам, что и предыдущий график. Это не IBD-анализ. В более хорошем качестве карты можно загрузить отсюда
UstIshim.png
Хотя европейцы и среднеазиаты чуть ближе к усть-ишимцу, чем североафриканцы и ближневосточники, разница сравнительно невелика. Частично удаление европейцев от усть-ишимца следует отнести на влияние «базальников», но думаю, WHG и сами по себе успели хорошо удалиться от восточной ветви человечества. Поэтому на роль представителя общей для всех базы усть-ишимец не годится.

GoyetQ116-1
По причинам, описанным мной в разделе «Использованные для анализа методы и палеообразцы», из наиболее древних европейских геномов на роль «базового» был выбран GoyetQ116-1. И, как показывает карта, уже 35 тысячелетий назад европейские аутосомы начали приобретать свои основные черты. На первом месте по схожести — уже упоминавшаяся выборка «Balt», она будет попадаться нам вновь и вновь. Родство с остальными европейцами выражено вполне отчетливо. Однако интересно обратить внимание на другие регионы. Во-первых, родство с североафриканскими и ближневосточными популяциями находится на том же уровне, что и родство с восточноазиатами. Видимо, мы поймали тот момент, когда протоевропейцы были равноудалены от этих двух стволов. В дальнейшем родство с восточноазиатами будет ослабевать, а с ближневосточниками — усиливаться. Как говорится, «география-это судьба».

GoyetQ116-1.png
Еще раз повторюсь, что речь идет о современных ближневосточниках. Насколько они репрезентативны по сравнению с населением региона 10, 20, 50 тысяч лет назад — совершенно непонятно.
Очень интересно «вторичное пятно» в Индии. Вероятно, оно было бы соединено яркой полосой с европейским ареалом, если бы не размывшие ее миграции «базальников» с юго-запада и восточноазиатов с северо-востока. При этом в юго-восточной Индии и Бирме ареал связи с прото-WHG перекрывается с ареалом хорошей связанности с усть-ишимцев. Не отсюда ли когда-то разошлись две наших ветки? Я не являюсь специалистом по Y-гаплогруппам, но кажется, с максимумом разнообразия макрогаплогруппы K, включающей в себя в качестве ветвей такие известные гаплогруппы, как N, O, R, Q, это соотносится хорошо (в таком случае, «базальников» можно связать с IJ). Разумеется, сюда также относится оговорка о возможной несхожести современного и древнего населения.

Vestonice16
Картина для Vestonice16 довольно схожа с картой GoyetQ116-1.

Vestonice16.pngПри сравнении видно, что связь с восточной (и в первую очередь Юго-Восточной) Азией несколько ослабла, а связь с западными выборками (как европейскими, так и ближневосточными) слегка усилилась. Однако разница невелика и из-за этого сравнительная карта выглядит некрасиво. Чтобы избежать загромождения излишними иллюстрациями, ее не привожу.

Kostenki14
Как и Вестонице, костенковец весьма схож с GoyetQ116-1. В данном случае мне хочется привести именно карту разницы со вторым палеогеномом, чтобы продемонстрировать его «южный» компонент. Зеленое — больше общего с костенковцем, красное — с Goyet.
GoyetQ116-1VsKostenki14Merged.png
Из-за схожести двух геномов карта очень зашумлена, однако противоположности проявляются хорошо. Ярко-зеленое прекрасно совпадает с областью распространения компонента кавказских охотников-собирателей CHG (ниже будет приведена карта и для них). Видны его максимумы на Кавказе и у калашей, на Балканах, и даже (хотя это может быть погрешностью) замечавшееся при анализе «ямных» геномов пятно в северо-западной Европе. Красное же в юго-восточной Азии — район максимальной «небазальности». Оттенки бурого и близкие к ним разглядывать нет смысла, также, как и отдельные «выбросы».
Как будет показано далее, костенковец наиболее успешно моделируется, как смесь 86% GoyetQ116-1 и 14% Kotias. Строго говоря, мы не можем утверждать, что GoyetQ116-1 представляет чистых прото-WHG, а костенковец является смесью с южанами. Не исключено, что «южный» компонент присутствует и у GoyetQ116-1, просто его меньше. В конце концов, смешение могло произойти еще по пути в Европу.

el Miron
Закончив с наиболее древними геномами, мы можем перейти к рассмотрению динамики европейского генофонда во времени (впрочем, до момента прибытия неолитических земледельцев она довольно однообразна). Поэтому ближайшие карты будут только сравнительными. Итак, красное — выборки, сходство с которыми у образца el Miron (19 тлн) усилилось по сравнению с образцом GoyetQ116-1 (35 тлн). зеленое — выборки, сходство с которыми ослабло. Бурое — возможно, слегка усилилось, возможно, ослабло, но не так сильно, как с зеленым. Об этом я написал в разделе «важная ремарка» после графика.

elMironVsGoyetQ116-1.png

Villabruna

VillabrunaVsElMiron.pngКак видите, прибытие Villabruna никакого переворота не произвело. Как и раньше, с ходом времени сходство с циркумбалтийцами усиливалось, с восточноазиатами — ослабевало, с ближневосточниками — то ли слегка усиливалось, то ли медленно ослабевало, но медленнее, чем с восточноазиатами.

Loschbour
Этот образец настолько схож с предыдущим (см график), что разностная карта показывает один шум. Поэтому я приведу конечный итог — вот к чему пришли WHG спустя 29 тысячелетий:
LoschbourVsGoyetQ116-1.png
А также сравнение — где произошли наибольшие изменения
Сравнение Loschbour и GoyetQ116-1

LoschbourVsGoyetQ116-1.png
Дальше всего «убежали» от протоевропейцев жители юго-восточной Азии, далее идут Индия, Восточная Сибирь и Северная Африка. За пределами основного региона меньше всего «скорость убегания» на Северном Кавказе, у ираноязычных памирцев, греков-киприотов и кетов (везде можно предположить контакты с носителями WHG).

Теперь перейдем к Кавказу и Анатолии. Уже упоминавшийся в пояснениях к карте для костенковца кавказский охотник-собиратель Kotias:

Kotias.png

Интересно попытаться расщепить этот компонент на составляющие. В значительной части он несомненно связан общим корнем с прото-WHG (хорошо выделяются оба значимых для этого компонента региона — Европа и Индия). Попробуем вычленить не-WHG часть путем сравнения с GoyetQ116-1.

KotiasVsGoyetQ116-1.png

В первую очередь закономерно выделяются зоны наибольшего распространения CHG — Кавказ и Афганистан (калаши)/Пакистан/Иран. Однако кроме этого, проявляется и связь с Ближним Востоком, Анатолией, Балканами — регионами распространения ранненеолитических земледельцев. Таким образом, можно предположить, что у CHG имеется связь с ближневосточным аутосомным компонентом (знаменитые «базальники»), который впоследствии стал основой генофонда неолитических земледельцев и через них повлиял на современных европейцев. Потому-то Европа и выглядит на этой карте в целом нейтрально — на юго-востоке персиливает влияние «базальников», на северо-востоке — WHG. И наоборот, Восточная Азия, куда базальники не добрались, оказалась ярко-зеленой — это говорит о том, что время их расхождения с восточноазиатами древнее, чем время расхождения восточноазиатов и WHG.

Тот же самый эффект, но с противоположной стороны мы можем наблюдать, сравнив Kotias и геном ранненеолитического земледельца из Анатолии:KotiasVsAEF.png

Поскольку теперь Kotias менее «базальный», на этот раз Восточная Азия оказалась красной. Хотя наиболее выражен «не-базальный» компонент Kotias в Индии. Поэтому я считаю, что компонент CHG следует считать смешанным между «ближневосточным» (предковым к AEF) и «индийским» (предковым к WHG) компонентом.

Раз уж я неоднократно упомянул AEF, приведу карту и для представителя этой выборки I0707.

AEF.png

Среди наших современников наиболее схожими с ним являются жители острова Сардиния, находящемся в западной части Средиземного Моря. Можно сказать, что компонент ранних земледельцев сохранился там, словно в заповеднике. В целом он лучше представлен в южной Европе, чем на Ближнем Востоке. Хотя не стоит забывать — для анализа у нас есть лишь палеогеномы с крайнего запада Анатолии, на границе с Европой. Вполне возможно, что ближневосточные геномы оказались бы ближе к современным выборкам с Ближнего Востока. Пока же мы можем сказать, что в регионе наиболее схожими с имеющимися образцами неолитчиков оказались армяне, друзы и греки-киприоты.

Наконец, последними я хочу привести две карты для образца возрастом в 24 тысячелетия со стоянки Мальта в Прибайкалье. На основе его анализа в свое время было выдвинуто предположении о существовании «популяции-призрака» — ANE, предковых северных евразийцев, которые повлияли на многих соседей, в том числе на американских индейцев, но сами к нашему времени исчезли. ANE считаются родственной к WHG веткой и не несут восточноазиатского или ближневосточного влияния. В схожести картин можно легко убедиться:

MaltaIBDext.png

Если WHG это западный вариант, то у ANE основная тяжесть приходится на выборки из Западной Сибири (кеты), Урала (манси) и недавных мигрантов из этого же региона (саами). Очевидно, в прошлом ареал ANE простирался заметно восточнее, но к нашим дням они оказались вытеснены мигрантами с юга, из Восточной Азии. Интересно сравнить, каковы же основные отличия ANE от прото-WHG:

MaltaVsGoyetQ116-1.png

Пятно в западной Сибири вполне ожидаемо. Меня более заинтересовало пятно вокруг выборки калашей в средней Азии. Если вспомнить о связи этого же региона с кавказскими охотниками-собирателями, то уместно предположить, что здесь мы нащупали корень не-ближневосточной части CHG. При анализе Admixture мальтинец показывал наличие около 30% CHG, поэтому я долго ломал голову, как связать этот факт с явной не-ближневосточностью мальтинца. Теперь все становится на свои места — взаимосвязь идет через «калашский» компонент.
Что касается отличий прото-WHG от ANE, то они чуть ближе к восточноазиатам (может, их точка отделения чуть юго-восточнее, чем у ANE?), и ближе к «базальникам», что вновь заставляет меня думать о «базальном» влиянии уже у GoyetQ116-1. В конце концов, если у двух других образцов оно есть, может быть и у этого. Но пока более «чистых» образцов у нас нет, сравнить не с кем. С другой стороны, мальтинский образец на одиннадцать тысячелетий моложе — возможно, за это время он сильнее отдрейфовал от остальных веток.

Численная оценка доли вклада каждого компонента в некоторые из адмиксов.
В процессе работы над сравнительными картами у меня возникла мысль, не попробовать ли сделать численную оценку на основе все тех же таблиц общности IBS с современными выборками. Действительно, если я предполагаю, что не-WHG компонент костенковца очень похож на результаты кавказского охотника-собирателя Kotias, то я могу проверить, насколько близка к костенковцу будет комбинация 1% Kotias + 99% GoyetQ116-1, 2% Kotias + 98% GoyetQ116-1 и так далее, проверив сумму среднеквадратичных отклонений по всем столбцам. Для того, чтобы исключить влияние уже упоминавшегося в начале статьи эффекта, для каждой тройки сравниваемых геномов производилось нормирование. Таким образом, суммы IBS с современными выборками по каждому геному совпадали.

Для проверки модели я решил использовать геном, смешанное происхождение которого достоверно известно. Как мы знаем, по мере продвижения в Европу и с ходом тысячелетий исходный генофонд неолитических земледельцев постепенно размывался благодаря влиянию местных охотников-собирателей. Следовательно, геном семитысячелетней давности земледельца из Венгрии NE1 должен хорошо моделироваться, как смесь земледельца из Анатолии AEF (возраст генома на тысячу лет больше) и WHG. Так и получается — если в роли представителя WHG выступает более ранний геном Villabruna, модель предсказывает соотношение 11% WHG на 89% AEF, для более позднего Loschbour соотношение почти такое же — 10% WHG на 90% AEF. Среднеквадратичное отклонение при этом меньше единицы — в дальнейшем будем считать такое значение признаком того, что смешение моделируется хорошо.
Ряд результатов для заинтересовавших меня вариантов моделирования приведен на изображениях ниже:
Оракул01.png
Кратко прокомментирую. При попытке смоделировать NE1, как смесь WHG и CHG отклонение резко возрастает, что говорит о неудачности такой модели по сравнению с предыдущим вариантом. Родственные WHG охотники-собиратели ANE могут частично служить заменой Villabruna, однако результат хуже. Таким образом, результаты моделирования полностью соответствуют здравому смыслу. Я решил попробовать сделать еще один шаг и ввести в модель искусственный образец «базальника», полученный вычитанием из геномов неолитических земледельцев 15-20 процентов вклада WHG. Конечно, точная доля компонента WHG в геномах неолитчиков нам неизвестна, однако это лучше, чем применять в качестве «базального» образца геном AEF.
Результат костенковца действительно лучше всего моделируется, как смесь 86% прото-WHG и 14% CHG (Kotias), что мы и наблюдали на сравнительной карте. Чуть хуже вариант 94% прото-WHG на 6% базальников. Для другого древнего образца из Европы, Vestonice16, картина противоположная — базальники лучше подходят в качестве второй стороны, чем кавказцы. Интересно, что наиболее старые образцы Y-гаплогруппы I пока что найдены именно у представителей кластера Вестонице — возможно, это не случайное совпадение и вливание «базального» компонента связано с приходом носителей этой гаплогруппы.
«Опорный» прото-WHG GoyetQ116-1 не моделируется, как смесь кого-либо из двух других представителей группы и южан. Однако он может быть относительно неплохо смоделирован, как 88% костенковца и 12% мальтинца. Вероятно, это связано с отсутствием «базального» компонента у образца со стоянки Мальта.

Оракул02.png
Носитель R1b Villabruna может быть смоделирован, как смесь одного из своих предшественников и базальников, однако отклонение при этом слишком велико, чтобы считать моделирование успешным.
CHG Kotias плохо моделируется, как смесь каких-либо двух других образцов. Наиболее удачный вариант — 48% Мальта и 52% базальники (что еще раз говорит о его промежуточном положении между двумя кладами).
«Оленеостровец» EHG наиболее хорошо моделируется, как  смесь 51% SHG (Motala12) и 49% ANE (мальтинец), отклонение великовато.

Оракул03.png
«Скандинав» Motala12 хорошо моделируется, как смесь 72% WHG и 28% EHG
Промежуточный между прото- и классическими WHG образец el Miron оптимально моделируется именно как смесь первых (GoyetQ116-1) и вторых (Villabruna). Однако при этом он оказывается ближе к более древним родственникам, хотя расстояние по времени до них гораздо больше. Возможно, это объясняется ускорением дрейфа в эпоху 19-14 тлн, но мне кажется более правдоподобным другое объяснение — WHG это потомки сестринской к el Miron ветви, поэтому часть дрейфа у них прошла отдельно.

Дерево вероятных взаимосвязей
Попытавшись максимально подробно и непротиворечиво свести вместе как данные, полученные в результате вышеописанных исследований, так и информацию из других работ, я изобразил дерево возможных взаимодействий палеообразцов и аутосомных компонентов. Схема достаточно условна, поэтому размещать на ней датировки далее 40 тысяч лет назад не имеет смысла. Гипотетический общий компонент «мальтинца» и охотников собирателей-кавказа я обозначил «Kalash», но надо понимать, что под этим вовсе не подразумеваются современные калаши — просто неким образом связанная с ними древняя предковая популяция. Серыми стрелками между «базальниками» и CHG, «базальниками» и WHG обозначено, что взаимодействия, по-видимому, были, но обозначить их одиночной линией на схеме тяжело. «Уральский» компонент — это часть генофонда народов Урала и западной Сибири, которую можно отнести к европейской ветви, для получения картины современного состояния необходимо объединить ее с восточноазиатским влиянием.

Дерево08.png

Думаю, что на самом деле все гораздо сложнее и запутаннее, чем изображено здесь )) Будем ждать новых расшифровок древних геномов для дальнейшего развития схемы.

Вторая фаза нового проекта

Две недели назад я сообщил об окончании первой фазы своего нового проекта (на первом этапе работы удалось собрать надежную выборку из более чем 5000 образцов более чем 250 различных этно-популяционных групп людей по всему миру.

Как я уже рапортовал ранее, самой сложной из запланированных на втором этапе задач являлась импутирование (импутация) отсутствующих генотипов.  Читатели моего блога помнят, что две предыдущие экспериментальные попытки импутирования больших выборок     — в 2013  и в 2015  — закончились неудачно (или, если говорить точнее, качество импутированных генотипов не оправдало моих завышенных ожиданий). В предыдущих опытах я задействовал мощную комбинацию программ ShapeIT и IMPUTE и  метод импутирования снипов за счет использования большой референсной панели аутосомных гаплотипов (из 1000 genomes),  гарантирующей более аккуратное определение генотипов.

На этот раз, я решил не повторять ошибок, и обратился к использованию других программ — в частности , к  Minimac3, хорошо зарекомендовавшую себя в работе с геномами 1000G.  К моему счастью, я набрел на недавно появившиеся публичные сервера, работающие с «облачным» сервисом импутирования Cloudgene. геномов.
Серверы импутирования геномов позволяют использовать полную референсную панель гаплотипов для точного определения недостающих генотипов в анализируемых данных. Пользователи подобных серверов могут загружать (предварительно фазированные или несфазированные) данные генотипов на сервер. Процедура импутирования  будет осуществляться на удаленном сервере, и по окончанию этого процесса рассчитанные данные доступны пользователю для скачивания. Наряду с импутированием, подобные сервисы позволяют провести процедуру контроля качества (QC) и фазировки данных в качестве предварительного этапа процесса импутирования генотипов.

Прототипы серверов импутирования уже доступны в институте Сангера и Мичиганского университета. В дополнение к вышеназванным серверам, можно упомянуть прототип сервера поэтапной полномасштабной  фазировки генотипов анализируемых образцов (прототип создан биоинформатиками Оксфордского университета). На мой взгляд, самое простое и доступное решение задачи импутирования на удаленном сервере было разработано сотрудниками   Мичиганского университета. Дополнительное преимущество этому решению дает грамотная документация по использованию сервиса.

Основная рабочая лошадка сервиса — это комбинация двух или трех программ — две програмы для фазирования диплоидных генотипов в гаплоидную фазу  ShapeIT и Hapi-UR , а в качестве основного ПО для самого процесса импутирования (определения) недостающих генотипов — вышеупомянутую программу Minimac3.

Описание эксперимента с импутированием генотипов на удаленном сервере

В самом начале,  я разбил свою выборку на пять когорт (т.к. референсные панели на сервере также разбиты на «этнографические группы»):

  1. европейцы (европейцы + кавказцы) — 1715 образцов -87169 снипа
  2. азиаты (+американские аборигены и аборигены островов Тихого Океана) — 2356 образцов — 87044 снипа
  3. африканцы — 1054 образца — 86754 снипов
  4. палеогеномы древних жителей Евразии, Африки и Америки -340 — 594500 снипов
  5. смешанные группы — преимущественно мозабиты, пуэрто-риканцы и др.
QC-Report
На рисунке показана корреляция между частотами аллелей в изучаемоей выборке (здесь: европейская когорта) и частотами аллелей в референсной панели

К моему вящему неудовльствию,  некоторые образцы в сводной выборке не прошли контроль качества — в первую очередь это касается образцов европейцев из базы данных POPRES, а также выборок статьи  Xing et al. (2010). Скорее всего, их нужно будет импутировать отдельно.

Несмотря на значительную скорость обработки генотипов на удаленном сервере, к настоящему времени эксперимент еще не доведен до конца.  Пока я планирую ограничиться импутированием генотипов в 3 первых когортах (т.к. импутирование палеогеномов с помощью современных референсных панелей гаплотипов вероятнее всего приведет к искажению истинного разнообразия палеогеномов за счет проекции на современные группы населения, хотя авторы статьи Gamba et al. 2014 в сопроводительном материале к своей статье утверждают обратное).

После окончания фазирования и последующей обработки генотипов европейской когорты в программе Plink (были отсеяны все варианты с вероятностью ниже 0.9) ,  я получил выборку из 1715 европейцев с 25 215 169 снипами против изначальных 87169, т.е число снипов в выборке увеличилось в 290 раз!
В азиатской когорте соотношение импутированных генотипов к исходным составило чуть меньшую величину 19 048 308 / 87044 = 219.

Проверка результатов

Разумеется, все полученные результаты нуждались в дополнительной проверке качества генотипирования.
Cначала я объединил импутированную европейскую когорту с когортой палеогеномов (которая не была импутирована) и рассчитал в программе PLINK 1.9 матрицу IBS (т.е. сходства образцов в выборке между собой, эта метрика отдаленно напоминает Global Similarity в клиентских отчетах 23andme), а затем усреднил данные по популяциям и произвел по усредненным значениям иерархическую кластеризацию по признакам сходства (IBS, identity by state). Результат превзошел все мои пессимистические ожидания

 

 

Как становится очевидно из приведенной выше кластерограммы,  в целом взаимное расположение популяций в кластерах соответствует (в общих чертах) взаимному географическому положению. Присутствуют, правда, и некоторые огрехи. Так, например, венгры очутились в одном кластере с русскими из Курска,  норвежцы — с русскими из Смоленска, а усредненные «русские» — с американцами европейского происхождения из штата Юта и французами. Трудно сказать, в чем здесь причина, тем более что матрица была составлена по значениям IBS (идентичности по состоянию), а не IBD (идентичности по происхождению).  Более подробные данные о попарных значениях IBS между популяциями выборки можно посмотреть в этой таблице

Импутированная азиатская когорта (несмотря на расширение географии за счет включения образцов коренного населения Америки и аборигенов бассейна Тихого океана)  тоже  оказалась на удивление надежной. Я пока не буду останавливаться на подробностях изучения этой когорты, вместо этого я размещаю здесь результаты MDS- мультдименсионального шкалирования образцов выборки, образованной в ходе слияния 2 импутированных когорт (европейской и азиатской) с 1 неимпутированной (палеогеномы). Цветовое обозначение точек соответствует определенным кластерам, выявленных в выборке с помощью алгоритма MCLUST (cледуя рекомендациям Диенека Понтикоса). Всего этих кластеров 15 и они обозначены последовательностью чисел от 1 до 15, и каждый из этих кластеров имеет свою четкую географическую привязку:

  • 1 — кластер популяций ближнего Востока и  Анатолии
  • 2 — кластер популяций северного Кавказа
  • 3 — «индоевропейский» кластер древних популяций Синташта, шнуровой культуры, Ямной культуры и т.д.
  •  4 — кластер аборигенных жителей Америки (эскимосов и индейцев)
  • 5 — суперкластер популяций средиземноморского и восточноевропейского региона
  • 6 — сибирский кластер алтайских и самодийских популяций
  • 7 — кластер популяций западной и северной Европы
  • 8 — кластер палеосибирских популяций (таких как чукчи, ительмены и коряки)
  • 9 — кластер аборигенных (австронезийских и тай-кадайских) популяций юго-восточной Азии (даи, атаяла и ами)
  • 10 — кластер неолитических популяций
  • 11 — еще один ближневосточно-средиземноморский кластер (ашкеназим, сардинцы и так далее)
  • 12 — кластер североиндийских популяций
  • 13 — кластер центральноазиатских популяций
  • 14 — поволжские популяции
  • 15 — разные групп индусов