Вторая фаза нового проекта

Две недели назад я сообщил об окончании первой фазы своего нового проекта (на первом этапе работы удалось собрать надежную выборку из более чем 5000 образцов более чем 250 различных этно-популяционных групп людей по всему миру.

Как я уже рапортовал ранее, самой сложной из запланированных на втором этапе задач являлась импутирование (импутация) отсутствующих генотипов.  Читатели моего блога помнят, что две предыдущие экспериментальные попытки импутирования больших выборок     — в 2013  и в 2015  — закончились неудачно (или, если говорить точнее, качество импутированных генотипов не оправдало моих завышенных ожиданий). В предыдущих опытах я задействовал мощную комбинацию программ ShapeIT и IMPUTE и  метод импутирования снипов за счет использования большой референсной панели аутосомных гаплотипов (из 1000 genomes),  гарантирующей более аккуратное определение генотипов.

На этот раз, я решил не повторять ошибок, и обратился к использованию других программ — в частности , к  Minimac3, хорошо зарекомендовавшую себя в работе с геномами 1000G.  К моему счастью, я набрел на недавно появившиеся публичные сервера, работающие с «облачным» сервисом импутирования Cloudgene. геномов.
Серверы импутирования геномов позволяют использовать полную референсную панель гаплотипов для точного определения недостающих генотипов в анализируемых данных. Пользователи подобных серверов могут загружать (предварительно фазированные или несфазированные) данные генотипов на сервер. Процедура импутирования  будет осуществляться на удаленном сервере, и по окончанию этого процесса рассчитанные данные доступны пользователю для скачивания. Наряду с импутированием, подобные сервисы позволяют провести процедуру контроля качества (QC) и фазировки данных в качестве предварительного этапа процесса импутирования генотипов.

Прототипы серверов импутирования уже доступны в институте Сангера и Мичиганского университета. В дополнение к вышеназванным серверам, можно упомянуть прототип сервера поэтапной полномасштабной  фазировки генотипов анализируемых образцов (прототип создан биоинформатиками Оксфордского университета). На мой взгляд, самое простое и доступное решение задачи импутирования на удаленном сервере было разработано сотрудниками   Мичиганского университета. Дополнительное преимущество этому решению дает грамотная документация по использованию сервиса.

Основная рабочая лошадка сервиса — это комбинация двух или трех программ — две програмы для фазирования диплоидных генотипов в гаплоидную фазу  ShapeIT и Hapi-UR , а в качестве основного ПО для самого процесса импутирования (определения) недостающих генотипов — вышеупомянутую программу Minimac3.

Описание эксперимента с импутированием генотипов на удаленном сервере

В самом начале,  я разбил свою выборку на пять когорт (т.к. референсные панели на сервере также разбиты на «этнографические группы»):

  1. европейцы (европейцы + кавказцы) — 1715 образцов -87169 снипа
  2. азиаты (+американские аборигены и аборигены островов Тихого Океана) — 2356 образцов — 87044 снипа
  3. африканцы — 1054 образца — 86754 снипов
  4. палеогеномы древних жителей Евразии, Африки и Америки -340 — 594500 снипов
  5. смешанные группы — преимущественно мозабиты, пуэрто-риканцы и др.
QC-Report
На рисунке показана корреляция между частотами аллелей в изучаемоей выборке (здесь: европейская когорта) и частотами аллелей в референсной панели

К моему вящему неудовльствию,  некоторые образцы в сводной выборке не прошли контроль качества — в первую очередь это касается образцов европейцев из базы данных POPRES, а также выборок статьи  Xing et al. (2010). Скорее всего, их нужно будет импутировать отдельно.

Несмотря на значительную скорость обработки генотипов на удаленном сервере, к настоящему времени эксперимент еще не доведен до конца.  Пока я планирую ограничиться импутированием генотипов в 3 первых когортах (т.к. импутирование палеогеномов с помощью современных референсных панелей гаплотипов вероятнее всего приведет к искажению истинного разнообразия палеогеномов за счет проекции на современные группы населения, хотя авторы статьи Gamba et al. 2014 в сопроводительном материале к своей статье утверждают обратное).

После окончания фазирования и последующей обработки генотипов европейской когорты в программе Plink (были отсеяны все варианты с вероятностью ниже 0.9) ,  я получил выборку из 1715 европейцев с 25 215 169 снипами против изначальных 87169, т.е число снипов в выборке увеличилось в 290 раз!
В азиатской когорте соотношение импутированных генотипов к исходным составило чуть меньшую величину 19 048 308 / 87044 = 219.

Проверка результатов

Разумеется, все полученные результаты нуждались в дополнительной проверке качества генотипирования.
Cначала я объединил импутированную европейскую когорту с когортой палеогеномов (которая не была импутирована) и рассчитал в программе PLINK 1.9 матрицу IBS (т.е. сходства образцов в выборке между собой, эта метрика отдаленно напоминает Global Similarity в клиентских отчетах 23andme), а затем усреднил данные по популяциям и произвел по усредненным значениям иерархическую кластеризацию по признакам сходства (IBS, identity by state). Результат превзошел все мои пессимистические ожидания

 

 

Как становится очевидно из приведенной выше кластерограммы,  в целом взаимное расположение популяций в кластерах соответствует (в общих чертах) взаимному географическому положению. Присутствуют, правда, и некоторые огрехи. Так, например, венгры очутились в одном кластере с русскими из Курска,  норвежцы — с русскими из Смоленска, а усредненные «русские» — с американцами европейского происхождения из штата Юта и французами. Трудно сказать, в чем здесь причина, тем более что матрица была составлена по значениям IBS (идентичности по состоянию), а не IBD (идентичности по происхождению).  Более подробные данные о попарных значениях IBS между популяциями выборки можно посмотреть в этой таблице

Импутированная азиатская когорта (несмотря на расширение географии за счет включения образцов коренного населения Америки и аборигенов бассейна Тихого океана)  тоже  оказалась на удивление надежной. Я пока не буду останавливаться на подробностях изучения этой когорты, вместо этого я размещаю здесь результаты MDS- мультдименсионального шкалирования образцов выборки, образованной в ходе слияния 2 импутированных когорт (европейской и азиатской) с 1 неимпутированной (палеогеномы). Цветовое обозначение точек соответствует определенным кластерам, выявленных в выборке с помощью алгоритма MCLUST (cледуя рекомендациям Диенека Понтикоса). Всего этих кластеров 15 и они обозначены последовательностью чисел от 1 до 15, и каждый из этих кластеров имеет свою четкую географическую привязку:

  • 1 — кластер популяций ближнего Востока и  Анатолии
  • 2 — кластер популяций северного Кавказа
  • 3 — «индоевропейский» кластер древних популяций Синташта, шнуровой культуры, Ямной культуры и т.д.
  •  4 — кластер аборигенных жителей Америки (эскимосов и индейцев)
  • 5 — суперкластер популяций средиземноморского и восточноевропейского региона
  • 6 — сибирский кластер алтайских и самодийских популяций
  • 7 — кластер популяций западной и северной Европы
  • 8 — кластер палеосибирских популяций (таких как чукчи, ительмены и коряки)
  • 9 — кластер аборигенных (австронезийских и тай-кадайских) популяций юго-восточной Азии (даи, атаяла и ами)
  • 10 — кластер неолитических популяций
  • 11 — еще один ближневосточно-средиземноморский кластер (ашкеназим, сардинцы и так далее)
  • 12 — кластер североиндийских популяций
  • 13 — кластер центральноазиатских популяций
  • 14 — поволжские популяции
  • 15 — разные групп индусов

 

Реклама

Древние геномы человека в перспективе генетического разнообразия современных популяций

Примерно месяц тому назад, один из замечательных представителей «гражданской науки» в области генетики, известный геномный блоггер Polako (Давид Веселовски) разместил в своем блоге заметку, в которой были приведены результаты самостоятельного изучения вариативности снип-мутаций в пяти наиболее известных  из отсеквенированных геномов древних людей.  Хотя, как мне представляется, основное внимание Давид уделил все же прояснению ответа на вопрос о расположении  древнего генома сибирского мальчика со стоянки Malta (13 тысяч снипов-вариантов в аутосомах) в пространстве главных компонентов генетического разнообразия (PCA) cовременных человеческих популяций. К слову, этот же образец (Malta-1) был на днях включен в новую таблицу откалиброванных процентных соотношений 13 конвенциональных генетических компонентов в популярном среди пользователей Gedmatch этно-популяционногенетическом калькуляторе Eurogenes K=13 .  Наряду с вышеназванным образцом, в отреферированном анализе использовались геномные снип-варианты древнего ДНК австралийского аборигена (46 тыс.снипов), Anzick-1 генома древнего индейца культуры Кловис (106 тыс.снипов), генома древнего экскимоса Saqqaq (68 тыс.снипов), геном обитателя мезолитической Испании La-Brana 1 (23 тыс.снипов).

Можно предположить, что при проведении статистических анализов PCA, Давид использовал в качества сравнительного эталона-референса известный график из статьи Lazaridis et al. 2013.

PCA из статьи-препринта Lazaridis et. al .2013.

К сожалению ,  Давид из Eurogenes по определенным причинам не включил в свой анализ варианты снипов остальных известных евразийских древних геномов задействованных в PCA-анализе статьи-препринта Lazaridis et al. 2013, в частности древние геномы неолитического периода — женщин  культур воронковидных кубков (Swedish_farmer) и культуры линейно-ленточной керамики Южной Германии (Stuttgart), а также неолитического жителя Тирольских Альп — Этци (Iceman). Нет в  анализе Давида и образцов мезолитического и эпинеолитического генофонда Европы — мезолитических охотников-собирателей Motala  и Losсhbour и неолитических охотников с острова Готланд (Skoglund_merge). C другой стороны, в широко обсуждаемой предварительной версии статьи Лазаридиса к анализу привлечены только актуальные в евразийской перспективе образцы, и поэтому на графике PCA отсутствуют геномы древнего аборигена Австралии и двух древних геномов из Северной Америки.

Я решил исправить эти недочеты за счет сведения всех древних геномов в единый график, увязав все эти геномы с древними популяциями предков современных этно-популяционных групп.  Принципы анализа были относительно просты, окончательная выборка популяций  была получена путем полуавтономного процесса слияния разных источников данных.  Отсеве снипов у представителей популяций в окончательной выборке был минимальный — использовались только модификаторы фильтра MAF (частота минорных аллелей) и HWE (пороговый критерий качества снипов с точки зрения закона равновесия Харди-Вайнберга).  Пороговое значение фильтр качества снипов по генотипированию я специально  оставил слегка заниженным, так как снипы отбирались по низкому значению коэффицента попарного сцепления в неравновесном наследовании.

Ниже в таблице приведены сводные данные о древних геномах и размерности числа снипов  этих образцов, которые использовались в моем анализе

Аncient (Afontova Gora) 10965
Australian Aborigen 236880 
Otzi_Tyrolean 171195 
Swedish_merged_farmer 1600
Swedish_merged_HG 4053
La Brana  57050
Malta-1 44459
LBK_Stuttgart 54220
Motala12 54677
Loschbour 54591
Motala_merged 35010
R Graphics Output
Визуализация двух первых главных компонентов разнообразия в популяциях выборки

В качестве программного обеспечения для проведения эксперимента с PCA, я использовал имплементацию PCA в новой версии программы plink. Эта имплементация уступает в точности вычислений классической программе Eigenstrat, однако заметно опережает в скорости, особенно на больших массивах данных.

Ниже я разместил серию визуализаций графика PCA. Первая иллюстрация — визуализация двух первых главных компонентов разнообразия, ставшая уже классической форма V-образного клина.

Из-за высокой плотности точек на графике, первая иллюстрация сложна для чтения. Поэтому  вместо того, чтобы наносить названия точек на график, я рассчитал центроиды точек популяций и разместил их на графике вместе с названием популяции.

Центроиды популяций
Центроиды популяций

 Как видно из второго графика, мировый популяции равномерно распределились по углам триангуляции. Африканские популяции длинным шлейфом-вектором  от пигмеев до фулани, cахарцев и эфиопских этносов распредились в левой части V-клина. Между ними и европейцами находится большая группа смешанных рассовых групп — пуэрто-риканцы, доминиканцы, афроамериканцы Карибского региона и Северной Америки, морокканцы, мозабиты и жители Туниса. В вершине угла V клина находятся все классические европейские этнические группы и народности. Они образуют внутренний европейский градиент генетической вариативности, уменьшающийся по мере удаления на север.  Северные популяции европейцев (особенно в Скандинавии и Прибалтике) смыкаются с находящимися на самой веришине угла древними геномами европейцев времен мезолита (Motala, Loschbour, La Brana,и перехода к неолита. Эта картина соответствует тому, что мы наблюдаем на графике Lazaridis et al. 2013.  Наблюдаемая на моем графике более значительная дистанция шведских охотников-собирателей шведской культуры ямочной керамики от современных популяций северной Европы объясняется только тем, что в работе Lazaridis et al. 2013 использовалась большее количество тех снипов древних геномов, которые встречаются и в современных популяциях (т.е находятся в пределах современной вариативности генов жителей современной северной Европы). Поэтому дистанция в узказанной работе между древними и современными популяцими ниже (тот же феномен наблюдается и в неолитическом векторе). Неолитический «вектор» представлен шведским неолитическим фермером, Этци Тирольцем, женщиной из неолитического поселения возле современного Штуттгарта. Из современных популяций к этому вектору находятся близко сардинцы и баски.
 

Однако наиболее интересная картина наблюдается в правой части графика, где мы наблюдаем наложение сразу нескольких клинов-градиентов разнообразия. Наиболее сложная структура наблюдается в том месте правого «крыла» графика, куда проецируются геномы двух палеолитических жителей Сибири (Malta-1 и AG). В этом месте график начинает ветвиться на три тесно переплетенные вектора-градиенты. Один уходит через Средную Азию-Непал-Северную Индию на юг, где встречается в двигающимся ему навстречу вектору-градиенту представленному австралийскими аборигенами, онге, папуасами, меланизийцами, андаманцами и дравидами.  Второй вектор ведет через Алтай-Монголию и Китай в Индокитай и юго-восточную Азию.

Третий вектор разделяется сразу на две части — одна ведет к палеосибирским народами и далее к алеутам и экскимосам. Этот вектор заканчивается древним геномом Saqqaq, который видимо является самым чистым «образчиком» генома древних людей, связанных с этими группами. Второй уходит через группу североамериканских индейских народов на юг, в Мезоамерику и далее к индейцам южной Америки. Вектор заканчивается на Anzick-1, и — по аналогии c Saqqaq, — можно сделать вывод о том, что этот геном является квинтэссенцией «чистого америндского компонента» без позднейших вкраплений в ходе контактов с европейцами.

Примечательно, что эти вектора переплетены между собой настолько, что в 2-мерном пространстве первых двух компонент, чукчи и коряки, североамериканские индейцы и экскимосы, кхмеры и индусы оказываются рядом. Очевидно, что эта иллюзия. С целью доказать это  утверждения, я построил трехмерную визуализацию положения центроидов популяций в пространстве первых трех главных компонентов генетического разнообразия.

persp3d
Трехмерная перспектива PCA

Новая работа по геному неандертальцев и денисовцев.

В июле этого года в журнале Gene появилась замечательная работа Neanderthal and Denisova genetic affinities with contemporary humans:
Introgression versus common ancestral polymorphisms/Robert K. Lowery, Gabriel Uribe , Eric B. Jimenez , Mark A. Weiss, Kristian J. Herrera, 
Maria Regueiro, Rene J. Herrera. Gene . Особого внимания в этой работе заслуживает постановка вопроса в исследовании вопроса о схожести геномов денисовцев и неандертальцев с современными человеческими популяциями.  В этой связи я позволю себе удовольствие процитировать краткий реферат этой статьи в изложении профессионального русскоязычного генетика Людмилы Р.:

Авторы решали вопрос — являются ли те 1-4% генетического сходства между
архаичными гоминидами и современными людьми результатом имевшего место смешивания или общего наследственного полиморфизма, который сохранился в человеческой популяции?
Авторы сравнили 5 млн.SNPs (финальный набор 37,758 SNPs) ныне живущих людей (n=827 из 11 популяций) и архаичных гоминид. Они разделили снипы на 4 группы, которые, логично предположить, происходили в разные отрезки времени –
NdDa –у неандертальцев –derived (мутировавшие) и ancestral (предковые) – у денисовцев,
NaDd — у неандертальцев – ancestral и derived у денисовцев,
NdDd — derived у неандертальцев и денисовцев,
NaDa – ancestral у неандертальцев и денисовцев.
Ancestral и derived снипы определялись по сравнению с шимпанзе.
Ранее предполагалось, что не-Африканские популяции содержат 1-4% генома, доставшегося им от неандертальцев, в отличие от популяций Sub-Saharan-Africans, за счет того, что было смешивание с неандертальцами после выхода человека из Африки. По этому сценарию, все потомки древней человеческой популяции должны содержать равное количество неандертальской ДНК. При этом отличия Sub-Saharan-Africans и non- Sub-Saharan-Africans приписываются gene flow от неандертальцев. Но то, что какой-то SNP у человека, найден у неандертальцев, но не найден у шимпанзе, не означает, что он появился у неандертальца. Такая мутация могла произойти от времени разделения линий шимпанзе и гоминид ( 4-7 млн.лет назад) до времени разделения ветвей человека и неандертальца (400-800 тыс.лет назад). Т.е. выявленные общие SNPs у человека и неандертальцев могут означать их общий предковый полиморфизм.
Авторы не отказываются от “выхода человека из Африки”, но предполагают, что региональные различия в Африке внутри общей предковой популяции были уже на ранних стадиях, и люди, которые мигрировали из Африки, могли представлять собой субпопуляции с более высоким сродством с неандертальцами или денисовцами.
11 популяций, которые участвовали в сравнении:
Abbreviation n Region Populations included
a 123 Sub-Saharan Africa Yoruba, Mandenka, San, Bantu,
Biaka Pygmy, Mbuti Pygmy
b 41 Northern Africa Ethiopians, Egypt, Morocco
c 68 Caucasus Georgia, Armenians, Lezgins, Adygei
e 124 Europe Lithuanian, Belorussian, Romanian,
Cypriot, Hungarian, Basque, Russian,
Spanish, Chuvash
m 33 Melanesian Papuan, Bouganville
n 31 Amerindian Pima, Piapoco, Curripaco, Mayan
s 67 South Central Asia Paniya, Kannadi, Sakilli, Kalash, Uygur,
Barusho, Balochi
r 35 SouthWest Asia Iranian, Uzbekistan
d 30 South East Asia Yizu, Cambodian, Lahu, Malayan
t 34 North East Asia Yakut, Mongolian, Daur
z 241 Near-East Jordan, Samaritan, Syrian, Druze,
Bedouin, Mozabite, Palestinian,
Turkey, Lebanon, Saudi, Yemen
В работе использовали методы популяционной генетики — Principal component (PC) и Structure analyses, D-statistics. Авторы делают выводы, что присутствие 3,6 % неандертальских генов в европейских геномах более похоже на полиморфизм нашего общего предка, чем на результат спаривания видов. % общих генов уменьшается с продвижением на восток в Евразию. Предполагаемая примесь у меланезийцев денисовских генов может также свидетельствовать об их общем предке.

Примечательно, что задолго до публикации этой интересной статьи, к аналогичным выводам пришли любители — антрополог Джон Хоукз (анализ интрогрессии геномов в выборке 1000genomes) и уже ставший живой легендой геномный блогер Диенек Понтикос ( пост о вопросе наличия неандертальский/денисовский адмикса) . Эти выводы противоречат широко растиражированному в масс-медиа выводу о том что «неандертальцы занимались сексом с предками современных людей, за исключением африканцев из региона Суб-Сахары». Этот фривольный медиа-мем возник на основании вольной интерпретации серьезного исследования коллектива под руководством Сванте Паабо. Позже появилось еще одно исследование «The Shaping of Modern Human Immune Systems by Multiregional Admixture with Archaic Human», в котором было показано, что  вклад денисовца в евразийские гены оказался более скромным, однако его доля, как выяснилось, достигает 6% у современных меланезийцев и населения Новой Гвинеи. Соответственно, в средства массовой информация прошла очередная ‘сексуальная’ новость — оказывается, «cпособность успешно противостоять евразийским микробам мы обрели благодаря бракам с неандертальцами и денисовцами». Причем никто из журналистов, похоже не вникал в технические особенности этих работ, в которых ascertainment (установление) снипов производилось по субсахарской популяции бушменов.

Обсуждаемая здесь новая статья позволяет взглянуть на эту проблему под другим углом, c использованием новых методов попгенетики  анализ адмикса, главных компонентов разнообразия и D-статистики.  При интерпретации авторы обосновано отмечают ряд недостатков растиражированной в масс-медиа версии о сексе с архаичными гомининами:

Существуют два возможных сценария генезис снипов, которые обнаружены у неандертальцев, денисовских людей и современных людей: 1) они возникли у общих предков всех трех групп или 2) снипы могут являться следствием  обмена генами между эти тремя группами.

Результаты D-статистических анализов демонстрируют более высокое присутствие NdDd (derived у неандертальцев и денисовцев) аллелей в Африке к югу от Сахары относительно всех евразийцев и населения Северной Африки. Конечно, сочетание этих двух сценариев может объяснить происхождение подмножества снипов в наборе NdDd подмножество. В модели европейской примеси (адмикса),  у африканцев Субсахары должно быть меньше NdDd аллелей, чем у евразийцев и населения Северной Африки. Исходя из этого, высокий процент NdDd аллелей в субсахарских популяциях является решающим  аргументом в пользу происхождения этих аллелей от древних гоминид, а не в пользу версии смешивания с архаичными людими. Кроме того, к югу от Сахары доля 3 из 5 NdDd компонентов адмикса , включает в себя примерно 30% от общего числа снипов в NdDd  (1 компонент, 6 и 10 на рис. 10), что предполагает общее происхождение предков, а не трехстороннее смешивание для снипов, включенных в панель NdDd . Дополнительным аргументов в пользу сценария общего предкового полиморфизма является расположение снипов NdDd неандертальцев и Денисова NdDd в пространстве первого главного компонента разнообразия PC1 (рис. 5) рядом с субафриканскими популяциями. Этот результат является неожиданным, учитывая, что генотипы NdDd состоят только из деривативных (derived) аллелей. Интересно, что снипы NdDd демонстрируют сопоставимые характеристики D-статистики  в популяциях меланезийцев и африканцев Субсахары. Обе группы — меланезийцы и субсахарские африканцы —  генерируют более высокие показатели D-статистики на основании снипов NdDd основана D-статистики, — примерно на 0,7% выше, чем у выходцев из Северной Африки и на 1,5% выше, чем у жителей Северо-Восточной Азии (табл. 2;. Рис 11). Кроме того, если мы предположим, что смешивание между тремя группами (предками современных людей, неандертальцами и денисовцами) является важным источником снипов NdDd , то можно  было бы ожидать более высокую степень генетического обмена между европейцами и меланезийцами, однако, во всех наших анализах Structure, ни один такой обмен не наблюдается.

science science2

Эксперимент

С целью проверки выводов этого исследования я провел дополнительное исследование этого вопроса с использованием большого количества современных популяций (более трехста популяций), большего числа снипов (примерно 300 000 снипов) и альтернативных методов — программы Admixture и MDS (мультидименсионального скалирования).

Результаты нашего анализа замечательно согласуются с результатами в обсуждаемой статье. Например, на графике PCA (в пространстве двух первых главных компонентов генетического разнообразия), неандертальцы и денисовцы оказываются в окружении трех субсахарских популяций — гумуз, ари из Восточной Африки и лемба из южной Африки. 

R Graphics Output

R Graphics Output

Результаты Admixture также мало чем отличаются от результатов аналогичного анализа Structure в работе профессиональных попгенетиков. Снипы неандертальцев и денисовского человека (взятые из кураторского набора данных лаборатории Райха (SNP ascertainment panel)) образуют особый компонент вместе со снипами субсахарских популяций бушменов, коса и сандаве.

Denisova Denisova 99,98%
Neander Vindija 99,98%
San HGDP00991 99,98%
San HGDP01032 99,98%
San HGDP01036 99,98%
San SA36 99,98%
San SA34 99,98%
San SA52 99,98%
San SA19 99,98%
San HGDP00988 99,54%
San HGDP01029 99,19%
San HGDP00992 98,47%
San SA53 97,53%
San SA47 93,98%
San SA41 93,28%
San SA22 92,13%
San SA32 91,10%
Neander Clint 90,75%
San SA48 89,58%
San SA30 89,40%
San SA55 88,93%
San SA35 88,18%
San SA61 85,45%
San SA50 83,92%
San SA29 81,14%
San SA04 78,20%
San SA37 74,40%
San SA56 74,34%
San SA38 74,17%
San SA21 70,00%
San SA06 69,85%
San SA28 61,13%
San SA03 57,39%
San SA40 56,62%
San SA49 54,89%
San SA45 47,39%
San SA58 43,01%
San SA39 41,33%
San SA59 34,80%
Bantu HGDP01030 33,37%
Xhosa XH4 26,85%
Xhosa XH20 25,99%
Xhosa XH14 24,78%
Bantu HGDP00993 23,99%
Bantu HGDP00994 23,02%
Bantu HGDP01034 21,48%
San SA25 21,28%
Bantu HGDP01033 15,40%
Sandawe HG43 14,20%
Sandawe HG60 14,04%
Sandawe HG40 13,77%
Sandawe HG35 13,56%
Sandawe HG44 13,51%
Sandawe HG56 13,37%
Sandawe HG46 13,26%
Sandawe HG41 13,25%
Sandawe HG66 13,18%
Sandawe HG47 13,09%
Sandawe HG49 12,93%
Sandawe HG67 12,75%
Sandawe HG55 12,63%
Sandawe HG45 12,43%
Sandawe HG63 12,14%
Aricultivator Aricultivator11 12,13%
Ariblacksmith Ariblacksmith2 12,13%
Sandawe HG42 12,10%
Ariblacksmith Ariblacksmith3 11,92%
Sandawe HG38 11,85%
Ariblacksmith Ariblacksmith7 11,83%
Sandawe HG53 11,76%
Ariblacksmith Ariblacksmith6 11,70%
Aricultivator Aricultivator2 11,67%
AricultivatorIbd Aricultivator23Ibd 11,54%
Ariblacksmith Ariblacksmith10 11,49%
Ariblacksmith Ariblacksmith8 11,48%
Aricultivator Aricultivator17 11,46%
Aricultivator Aricultivator4 11,42%
AricultivatorIbd Aricultivator24Ibd 11,28%
Sandawe HG48 11,22%
Aricultivator Aricultivator15 11,18%

Более любопытные результаты получены при применении рекомендованного Диенеком Понтикосом метода Mclust, метода который позволяет за счет редуцирования числа измерений набора статистических данных избавиться от шума и проблем, связанных с различием в составе использованных выборок. Как видно, из приведенной ниже таблицы набор снипов неандертальцев и денисовцев кластеризуется не только с африканскими популяциями, но и с меланезийцами, и даже инбридинговыми популяциями индейцев из южной Америки, популяциями с хорошо заметным эффектом генного дрейфа

Neander Clint 100,00%
Denisova Denisova 100,00%
Neander Vindija 100,00%
Papuan HGDP00542 100,0000%
Papuan HGDP00554 100,0000%
NAN_Melanesian HGDP00662 100,0000%
NAN_Melanesian HGDP01027 100,0000%
Papuan HGDP00543 100,0000%
Papuan HGDP00555 100,0000%
NAN_Melanesian HGDP00663 100,0000%
Papuan HGDP00544 100,0000%
Papuan HGDP00556 100,0000%
NAN_Melanesian HGDP00664 100,0000%
Papuan HGDP00545 100,0000%
NAN_Melanesian HGDP00490 100,0000%
NAN_Melanesian HGDP00787 100,0000%
Papuan HGDP00546 100,0000%
NAN_Melanesian HGDP00491 100,0000%
NAN_Melanesian HGDP00788 100,0000%
Papuan HGDP00547 100,0000%
NAN_Melanesian HGDP00655 100,0000%
NAN_Melanesian HGDP00789 100,0000%
Papuan HGDP00548 100,0000%
NAN_Melanesian HGDP00656 100,0000%
NAN_Melanesian HGDP00823 100,0000%
Pima HGDP01048 100,0000%
Papuan HGDP00541 100,0000%
Papuan HGDP00553 100,0000%
NAN_Melanesian HGDP00661 100,0000%
NAN_Melanesian HGDP00979 100,0000%
Karitiana HGDP00998 100,0000%
Karitiana HGDP01011 100,0000%
Surui HGDP00833 100,0000%
Surui HGDP00846 100,0000%
Karitiana HGDP01010 100,0000%
Surui HGDP00832 100,0000%
Surui HGDP00845 100,0000%
Papuan HGDP00550 100,0000%
NAN_Melanesian HGDP00658 100,0000%
NAN_Melanesian HGDP00825 100,0000%
Karitiana HGDP00999 100,0000%
Karitiana HGDP01012 100,0000%
Surui HGDP00834 100,0000%
Surui HGDP00847 100,0000%
Papuan HGDP00540 100,0000%
Papuan HGDP00552 100,0000%
NAN_Melanesian HGDP00978 100,0000%
Karitiana HGDP01000 100,0000%
Karitiana HGDP01013 100,0000%
Surui HGDP00835 100,0000%
Surui HGDP00848 100,0000%
Karitiana HGDP01001 100,0000%
Karitiana HGDP01014 100,0000%
Surui HGDP00837 100,0000%
Surui HGDP00849 100,0000%
Karitiana HGDP01003 100,0000%
Karitiana HGDP01015 100,0000%
Surui HGDP00838 100,0000%
Surui HGDP00850 100,0000%
Karitiana HGDP01004 100,0000%
Karitiana HGDP01016 100,0000%
Surui HGDP00839 100,0000%
Surui HGDP00851 100,0000%
Surui HGDP00843 100,0000%
Pima HGDP01050 100,0000%
Karitiana HGDP01005 100,0000%
Karitiana HGDP01017 100,0000%
Surui HGDP00840 100,0000%
Surui HGDP00852 100,0000%
Karitiana HGDP01006 100,0000%
Karitiana HGDP01018 100,0000%
Surui HGDP00841 100,0000%
Karitiana HGDP00996 100,0000%
Karitiana HGDP01008 100,0000%
Papuan HGDP00551 100,0000%
Karitiana HGDP00995 100,0000%
Karitiana HGDP01007 100,0000%
Karitiana HGDP01019 100,0000%
Surui HGDP00842 100,0000%
Karitiana HGDP00997 100,0000%
Surui HGDP00830 100,0000%
Surui HGDP00844 100,0000%
NAN_Melanesian HGDP00657 100,0000%
NAN_Melanesian HGDP00824 100,0000%
Papuan HGDP00549 100,0000%
Hadza BAR01 100,0000%
Hadza BAR04 100,0000%
Hadza BAR07 100,0000%
Hadza BAR08 100,0000%
Hadza BAR10 100,0000%
Hadza BAR11 100,0000%
Hadza BAR13 100,0000%
Hadza END08 100,0000%
Hadza END09 100,0000%