Вторая фаза нового проекта

Две недели назад я сообщил об окончании первой фазы своего нового проекта (на первом этапе работы удалось собрать надежную выборку из более чем 5000 образцов более чем 250 различных этно-популяционных групп людей по всему миру.

Как я уже рапортовал ранее, самой сложной из запланированных на втором этапе задач являлась импутирование (импутация) отсутствующих генотипов.  Читатели моего блога помнят, что две предыдущие экспериментальные попытки импутирования больших выборок     — в 2013  и в 2015  — закончились неудачно (или, если говорить точнее, качество импутированных генотипов не оправдало моих завышенных ожиданий). В предыдущих опытах я задействовал мощную комбинацию программ ShapeIT и IMPUTE и  метод импутирования снипов за счет использования большой референсной панели аутосомных гаплотипов (из 1000 genomes),  гарантирующей более аккуратное определение генотипов.

На этот раз, я решил не повторять ошибок, и обратился к использованию других программ — в частности , к  Minimac3, хорошо зарекомендовавшую себя в работе с геномами 1000G.  К моему счастью, я набрел на недавно появившиеся публичные сервера, работающие с «облачным» сервисом импутирования Cloudgene. геномов.
Серверы импутирования геномов позволяют использовать полную референсную панель гаплотипов для точного определения недостающих генотипов в анализируемых данных. Пользователи подобных серверов могут загружать (предварительно фазированные или несфазированные) данные генотипов на сервер. Процедура импутирования  будет осуществляться на удаленном сервере, и по окончанию этого процесса рассчитанные данные доступны пользователю для скачивания. Наряду с импутированием, подобные сервисы позволяют провести процедуру контроля качества (QC) и фазировки данных в качестве предварительного этапа процесса импутирования генотипов.

Прототипы серверов импутирования уже доступны в институте Сангера и Мичиганского университета. В дополнение к вышеназванным серверам, можно упомянуть прототип сервера поэтапной полномасштабной  фазировки генотипов анализируемых образцов (прототип создан биоинформатиками Оксфордского университета). На мой взгляд, самое простое и доступное решение задачи импутирования на удаленном сервере было разработано сотрудниками   Мичиганского университета. Дополнительное преимущество этому решению дает грамотная документация по использованию сервиса.

Основная рабочая лошадка сервиса — это комбинация двух или трех программ — две програмы для фазирования диплоидных генотипов в гаплоидную фазу  ShapeIT и Hapi-UR , а в качестве основного ПО для самого процесса импутирования (определения) недостающих генотипов — вышеупомянутую программу Minimac3.

Описание эксперимента с импутированием генотипов на удаленном сервере

В самом начале,  я разбил свою выборку на пять когорт (т.к. референсные панели на сервере также разбиты на «этнографические группы»):

  1. европейцы (европейцы + кавказцы) — 1715 образцов -87169 снипа
  2. азиаты (+американские аборигены и аборигены островов Тихого Океана) — 2356 образцов — 87044 снипа
  3. африканцы — 1054 образца — 86754 снипов
  4. палеогеномы древних жителей Евразии, Африки и Америки -340 — 594500 снипов
  5. смешанные группы — преимущественно мозабиты, пуэрто-риканцы и др.
QC-Report
На рисунке показана корреляция между частотами аллелей в изучаемоей выборке (здесь: европейская когорта) и частотами аллелей в референсной панели

К моему вящему неудовльствию,  некоторые образцы в сводной выборке не прошли контроль качества — в первую очередь это касается образцов европейцев из базы данных POPRES, а также выборок статьи  Xing et al. (2010). Скорее всего, их нужно будет импутировать отдельно.

Несмотря на значительную скорость обработки генотипов на удаленном сервере, к настоящему времени эксперимент еще не доведен до конца.  Пока я планирую ограничиться импутированием генотипов в 3 первых когортах (т.к. импутирование палеогеномов с помощью современных референсных панелей гаплотипов вероятнее всего приведет к искажению истинного разнообразия палеогеномов за счет проекции на современные группы населения, хотя авторы статьи Gamba et al. 2014 в сопроводительном материале к своей статье утверждают обратное).

После окончания фазирования и последующей обработки генотипов европейской когорты в программе Plink (были отсеяны все варианты с вероятностью ниже 0.9) ,  я получил выборку из 1715 европейцев с 25 215 169 снипами против изначальных 87169, т.е число снипов в выборке увеличилось в 290 раз!
В азиатской когорте соотношение импутированных генотипов к исходным составило чуть меньшую величину 19 048 308 / 87044 = 219.

Проверка результатов

Разумеется, все полученные результаты нуждались в дополнительной проверке качества генотипирования.
Cначала я объединил импутированную европейскую когорту с когортой палеогеномов (которая не была импутирована) и рассчитал в программе PLINK 1.9 матрицу IBS (т.е. сходства образцов в выборке между собой, эта метрика отдаленно напоминает Global Similarity в клиентских отчетах 23andme), а затем усреднил данные по популяциям и произвел по усредненным значениям иерархическую кластеризацию по признакам сходства (IBS, identity by state). Результат превзошел все мои пессимистические ожидания

 

 

Как становится очевидно из приведенной выше кластерограммы,  в целом взаимное расположение популяций в кластерах соответствует (в общих чертах) взаимному географическому положению. Присутствуют, правда, и некоторые огрехи. Так, например, венгры очутились в одном кластере с русскими из Курска,  норвежцы — с русскими из Смоленска, а усредненные «русские» — с американцами европейского происхождения из штата Юта и французами. Трудно сказать, в чем здесь причина, тем более что матрица была составлена по значениям IBS (идентичности по состоянию), а не IBD (идентичности по происхождению).  Более подробные данные о попарных значениях IBS между популяциями выборки можно посмотреть в этой таблице

Импутированная азиатская когорта (несмотря на расширение географии за счет включения образцов коренного населения Америки и аборигенов бассейна Тихого океана)  тоже  оказалась на удивление надежной. Я пока не буду останавливаться на подробностях изучения этой когорты, вместо этого я размещаю здесь результаты MDS- мультдименсионального шкалирования образцов выборки, образованной в ходе слияния 2 импутированных когорт (европейской и азиатской) с 1 неимпутированной (палеогеномы). Цветовое обозначение точек соответствует определенным кластерам, выявленных в выборке с помощью алгоритма MCLUST (cледуя рекомендациям Диенека Понтикоса). Всего этих кластеров 15 и они обозначены последовательностью чисел от 1 до 15, и каждый из этих кластеров имеет свою четкую географическую привязку:

  • 1 — кластер популяций ближнего Востока и  Анатолии
  • 2 — кластер популяций северного Кавказа
  • 3 — «индоевропейский» кластер древних популяций Синташта, шнуровой культуры, Ямной культуры и т.д.
  •  4 — кластер аборигенных жителей Америки (эскимосов и индейцев)
  • 5 — суперкластер популяций средиземноморского и восточноевропейского региона
  • 6 — сибирский кластер алтайских и самодийских популяций
  • 7 — кластер популяций западной и северной Европы
  • 8 — кластер палеосибирских популяций (таких как чукчи, ительмены и коряки)
  • 9 — кластер аборигенных (австронезийских и тай-кадайских) популяций юго-восточной Азии (даи, атаяла и ами)
  • 10 — кластер неолитических популяций
  • 11 — еще один ближневосточно-средиземноморский кластер (ашкеназим, сардинцы и так далее)
  • 12 — кластер североиндийских популяций
  • 13 — кластер центральноазиатских популяций
  • 14 — поволжские популяции
  • 15 — разные групп индусов

 

Официальное извещение о начале нового проекта

18 февраля решил заново начать свой проект по изучению аутосом народонаселения восточной Европы.
Формально это означает окончание моего предыдущего проекта MDLP.
Я решил начать с нуля — на этот раз в основу будет положен контрольный сет из 400 000 снипов лаборатории Райха (Affymetrix HumanOriginsv3), точнее подмножество снипов этого сета, прошедшее контрольные QC-тесты.
Первая задача — самая трудная. Нужно импутировать на основании имеющихся 300-400 Kb те 990 000 снипов референсной панели 1000G (эти общие снипы референсной панели фазированных гаплотипов 1000G и чипсета 23andme v3.
Основная трудность в компьютерной ресурсозатратности задачи (на ее выполнение в кластерной системе из 8 узлов с 16 виртуальными процессорами и 136 гигабайтами оперативной памяти RAM требуется несколько недель распределенных вычислений).
Я попытаюсь выполнить эту задачу с помощью наименее эргоемкой комбианции — предварительного фазирования гаплотипов в SHAPEIT и импутации в IMPUTE2.
Если удастся — можно будет создать успешный пайплайн (на основании уже существующих образцов, которые я установил  на EC2-виртуальной машине амазоновского облака)  для прямого и максимально точного непосредственного сравнения сотен древних геномов с даннами клиентов компаний FTDNA и 23andme.

Будет тяжело, но без этого sine qua non этапа будущность моих исследований под большим вопросом

LAMP: инструмент для анализа «локального происхождения» геномных сегментов

В этом посте мы продолжим обсуждение существующих методик и инструментов анализа т.н «локального происхождения» отдельных сегментов хромосом в человеческом геноме (под локальным происхождением здесь подразумевается предпологаемое географическое происхождение дискретного сегмента одной их двух парных аутосомных хромосом в геноме человека).

Ранее эта тема поднималась в описании программы SupportMix, а также в сжатом изложении методологии оценки происхождения хромосомных сегментов (инструмент PCAdmix).  Данная заметка будет посвящена третьему инструменту — LAMP (Local Ancestry in adMixed Populations) (Sankararaman et al.2008).

Очевидно, что алгоритмы определения локального происхождения отдельных сегментов человеческих хромосом могут дать неплохие результаты при комбинированном использовании программ PLINK /ADMIXTUIRE/LAMP: например, комбинация этих программ позволяет довольно точно определить не только стратификацию отдельных этно-популяционных групп,  но также и уровень «адмикса» у отдельных людей. Поскольку одна из задач нашего проекта MDLP состояла в определении практических и теоретических преимуществ и/или ограничений конкретных методологий биоинформатического анализа полных генома, я провел эксперимент, позволяющий прояснить ряд ограничений, которые значительно уменьшают уровень достоверности результатов  субструктуры аутосомного генофонда населения Европы.

В качестве инструмента контроля качества комбинированного набора данных (аутосомных SNP-ов 22 хромосом) я использовал Plink, с помощью которого я выбрал для последующего анализа только качественные снипы (99% генотиприрования),  частоты минорных аллелей которых превышают 1%.

Поскольку этно-популяционный фон неравновесного линикиджа марекеров (LD) может существенным образом влиять на основные компоненты субструктуры популяции, я исключил из выборки маркеры, характеризующиеся статистически значимым уровнем LD (с коэффициентом попарной корреляции r2 Пирсона > 0,4) в «скользящем окне» из 100 снипов  с пошаговым сдвигом на 10 снипов. Кроме этого, я также использовал  другие методы Plink для получения однородной выборки  — например, кластеризации на основе IBS для обнаружения пары индивидов (outliers) с  уровнем «родства», значительно более высоким, чем у пары выбранных случайным образом индивидов в однородной популяции.  Под более высоким родством здесь понимается  резко отклоняющиеся значения (более 3 стандартных отклонений) парных значнений IBS по отношению к остальной части выбаки, а также случаи с высоким значения PIHAT (более 0,05) и  высокой степень инбридинга (гомозиготности*). Индивиды с подобными аномальными значениями («выбросы») были удалены из  «обучающего» подмножества нашей выборки .


* В программе Plink степень инбридинга определяется через вероятностную функцию гомозиготности.

 

homozyg
Стратификация образцев в соответствии с уровнями гомозиготности. Вдоль оси Х отображена общая сумма гомозиготных сегментов в килобазах; вдоль Y-оси — средний размер гомозиготных сегментов в килобазах

 

 

homozyg2
Уровни индивидуальной гомозиготности в выбороке: вдоль ости X отложено количество сегментов NSEG. Общая длина гомозиготных сегментов отображается осью Y

 

По окончанию описанных выше процедур фильтрации снипов и удаления «выбросов», окончательный набор данных представлял собой набор данных из 90 455 снипов и 317 человек (289 мужчин, 82 женщин). Эти данные были использованы в последующем анализе.

Прежде всего, мы использовали программу ADMIXTURE (Alexandre, Novembre, Lange 2009), в которой реализована модель оценки максимального правдоподобия (ML), т.е алгоритм кластеризации и оценки структуры популяции в наборе генетических данных (снипов).

В целях сохранения совместимости с MDLP калькулятором, я остановился  на модели, в которой выборка представлена в виде комбинации 7 предковых компонентов (K=7).  Индивидуальные значения процентной составляющей каждого компонента в индивидуальном геноме (матрица Q), была визуализированы в R (ниже приведен график с результатами участников проекта MDLP, полный список  доступен в этой таблице).

Результаты K=7

Полученные предковые компоненты (K=7) я обозначил следующими названиями (с сопутствующей цветовой легендой)**:

  • Транс-кавказский — красный
  • Балканском / средиземноморском -желтый
  • Северо-кавказский -зеленый
  • Западно-европейский
  • Алтайский — светло-голубой
  • Балто-славянский — темно-синий
  • Прибалтийско-финский / Северо-европейский -фиолетовый

**Как обычно, названия компонентов условны и  предназначены для мнемонических целей:  исследователи должны быть осторожными при интерполяции предполагаемых компонентов в анализе этнической истории популяций.

 

 

 

 

MDLP v4 components

 

 

 

На следующем этапе, я разбил все 371 индивидуальных «геномов» выборки на 22 фрагмента (каждый из которой соответствует аутосомной хромосоме) и затем использовал  программное обеспечение Admixture для оценки структуры популяционного вклада в каждую из 22 хромосом. После этого я использовал пайплайн для перевода формата Plink  в формат BEAGLE и последующего поэтапного преобразования фазированных данных BEAGLE обратно Plink формат.

Я предположил, что все образцы в моей выборке (представленной образцами VID)  проекта MDLP возникли в в результате смешивание 7 отдельных предковых групп населения. Данное предположение означает, что «чистые» референсные группы населения тесно связаны с истинными предковыми популяциями. Исходя из этого предположения мы снова задействовали программное обеспечение Admixture,  на этот раз с целью определения предковых компонентов в фазированном наборе данных из отдельных неполовых (аутосомных) хромосом.

Только после этой процедуры я смог использовать программу LAMP для определения уровня адмикса у отдельных индивидов. На практике, определение индивидуального уровня адмикса  означает применение любой из указанных выше процедур, в которй используется либо модель «локус-специфического происхождения» (в случае, если предковые группы популяции априори  неизвестны), либо модель «локус-специфического происхождения» гибридного населения.  Затем полученные значения  локус-специфического происхождения» отдельных сегментов в индивидуальном геноме усреднеяются и   получаются значения долей адмикса в индивидуальном геноме.

Я  расчитал в программном обеспечении Plink частоты аллелей (в стратифицированных по этническим признакам кластерах), и добавил в файл фиксированные частоты рекомбинации (определяются отдельно для каждой из 22 хромосом). Для моделирования динамического процесса смешивания предковых компонентов, я использовал различное количество поколений G ( 5, 10,25 поколений),  предполагая 3 хронологически разных варианта, в которых при  K = 7  предковые популяции A1, …, Ak,  перемешивались в течение G = 5,10,25 поколений.

Результаты экспериментов для каждой из хромосом размещены в отдельные таблицы Excel, каждый из файлов Excel включает в себя следующие разделы:

1) результаты Admixture для фазированных генотипов хромосомы (Chr * -phased)
2) результаты Admixture для нефазированных генотипов хромосомы (Chr * -unphased)
3) результаты LAMP для G = 5 (Chr * -lamp-GEN5)
4) результаты LAMP для G = 10 (Chr * -lamp-GEN5)
5) результаты LAMP для G = 25 (Chr * -lamp-GEN5)

Образец этих выходных данных можно посмотреть в файле Excel с результатами анализа хромосомы 1 (Chr1).

О клесовщине как индикаторе системного кризиса в российской науке

В середине ноября в РАН состоялась конференция по вопросам этногенеза и истории карачаево-балкарцев. Само по себе это  событие (ориентированное, кроме самих карачаево-балкарцев, на небольшой круг специалистов)  вряд ли бы привлекло внимание широкой общественности,  если бы не скандальный доклад Клесова, и последовавшее за этим фронтальное столкновение адептов Клесова и представителей академической науки. Именно благодаря этому инциденту имя Клесова стало фигурировать в главных ресурсах русскоязычной интернет-медиа.

В душе я надеялся что доклад Клесова окажется «академическим» Ватерлоо, так как на конференции выступали с докладами самые именитые российские генетики — Балановские, Боринская и Животовский. Уж, казалось бы, они должны были поставить шарлатана на место.
Но все пошло не так, и вместо Ватерлоо «окадемиг» отпраздновал очередной триумф Аустерлица.

Как бы то не было, Клесов представляет собой феномен. И как любой феномен он смог появиться только благодаря стечению ряда обстоятельств, или как любят говорить немецкие философы, благодаря велению «духа времени».

Еще в далеком 2009 году я призывал профильных специалистов-популяционных генетиков выступить с подробной разборкой злостных спекуляций Клесова в области генетики, в стиле знаменитого круглого стола «Анти-Фоменко» в конце прошлого века. Тогда, конечно же можно было купировать клесовщину в самом ее зародыше, так как имя Клесова было еще малоизвестно широкой общественности. В настоящее время нужно признать, что момент был упущен. За последние 2 года, судя по количеству интервью в прессе и видео выложенных в Ютуб, популярность «окадемига» пошла в гору. Особенно после того, как его показали в одном из эпизодов фильма Задорнова о Рюрике, и ряде других фильмов, показанных по российским каналам в прайм-тайм. Академическое осуждение Клесова ex cathedra на уровне комиссии по борьбе с лженаукой РФ придало бы сейчас ему статус мученика, что еще хуже. В итоге, академический истеблишмент РФ потерпел первое поражение. Признаюсь, что и я был неправ, когда говорил, что Клесов фигура уровня Фоменко и прочих «фриков от науки». На самом деле, теперь можно сказать, что Клесов уже принес больше академической науке, чем все остальные фрики вместе взятые. И это еще только цветочки. Очевидно, что Клесов фигура более симптоматичная и знаковая. Недаром в приведенной ниже цитате один из старожителей российской науки сравнивает его с Лысенко (с которым Клесов, кстати, был лично знаком). К сожалению, в современной российской генетике нет фигур уровня Вавилова, которые бы в борьбе с новым «Лысенко» были готовы претерпеть начальственный гнев и пойти на костер. Удобства академических тенюр дают о себе знать. Людям преклонного возраста недолго осталось до пенсии, а молодежь не хочет рисковать карьерным ростом.

Итак, о чем свидетельствует феномен Клесова? В первую очередь, о системной слабости российской науки в целом и генетики, в частности. Эта слабость объясняется целым рядом факторов совершенно разного характера (политические, экономические, идеологические и т.п.). Думаю, они хорошо известны. Я лишь вкратце пройдусь по самым важным. Долгое время академическая среда (как в гуманитарных, так и в естественных науках; в прикладных науках в меньшей степени) представляла собой некое подобие социального института, полностью изолированного от общества. Продукты этого института — научные работы, исследования, открытия, все то что называется «новым знанием» — предназначались для относительно узкого круга пользователей, представители которого посредством разных инструментов (peer-review, рецензирование, экспертные оценки, этические комитеты и т.д.) решали вопрос о том, что есть научное знание, а что — нет.
Естественно, как и везде, даже в этом узком кругу существовали свои карьерные интриги и трения «школ», в результате чего опеределение научности часто носило политический или идеологический характер.
Разумеется, общественность в этот процесс вовлечена не была — если в 90-ые года простым россиянам было просто не до науки, то в 00-ые этого интереса не было по причине отсутствия популяризаторов. К сожалению, так и не появилось талантливых популяризаторов науки, подобных советским популяризаторам науки (вроде Я.Перельмана с его «Занимательной физикой»).
Академическая среда, подпитываемая грантовой системой, продолжала существовать по инерции, а академическая деятельность часто носила формальный характер соблюдения некоторых этических стандартов, выполнения плана публикаций, и совместного поедания вкусных тортов на международных конференциях.

В силу этого инерционного существования, академическая генетика проглядела появление параллельного явления т.н. «коммерческой генетики», пробудившей значительный интерес в среде обычных людей, которые поняли что с помощью предлогаемых коммерческими компаниями тестов они могут изучать не просто некую абстрактную генетику абстрактной группы людей, а свой собственный геном на предмет собственного происхождения, генетических рисков и генетической совместимости. Хотя этот рынок услуг и не достиг еще глобальных масштабов, его рост стабилен даже в наше время, когда люди не склоны тратить деньги на праздные развлечения.

Короче говоря, академическая генетика не только не произвела талантливых популяризаторов, (в результате чего большинством обычных людей писания генетиков воспринимаются как «птичий», непонятный язык), но и упустила важный момент для выхода в массы. В итоге, по мере накопления массива данных полученных клиентами генетических компаний за собственные деньги, возник вопрос — а кто будет разжевывать эти данные в удобоваримый продукт для масс? Возник вакуум и первая предпосылка для появления феномена Клесова.

При моей взаимной неприязни к Клесову, ему нельзя отказать в ораторском мастерстве и умению производить впечетление умного сведующего человека.
Кроме того, в отличии от окостеневших академических генетиков, он умеет себя подать и что еще важнее — продать. Свое полное непонимание предмета генетики (его уровень познаний в генетике не выше уровня выпусника средней школы) он умело маскирует использованием умных слов и пышными титулами вроде «профессор Гарварда» (хотя того профессора в списках Гарварда никогда не было и нет). Популяризаторский талант Клесова (в отличии от «заумняков» академических попгенетиков) состоит в том, что говорит простым языком, бойко, громко и весело. Иногда может вставить красное матерное словцо. Вообщем, упрощает все до невозможности, украшает парочкой умных слов («логарифмический», «линейный», «кинетическая формула») и втюхивает пиплу свой продукт. Благодарный пипл хавает. В этом смысле Клесов напоминает не столько Клесова, сколько «логофета» Задорнова. Just for lulz.

Можно провести разбор полетов его методологических трюков, но я не вижу в этом особого смысла. Я внимательно изучал его «методологию ДНК-генеалогию» на протяжени нескольких лет и могу сказать, что она чуть больше чем полностью состоит из подтасовок, натяжек и присвоенных Клесовым формул. Например, та самая формула для вычисления «ближайшего общего предка гаплогруппы», которую Клесов выдает за собственное изобретение, попросту присвоенна им у Д.Адамова. Академическому ученному такое бы не простили, но Клесову нечего терять и поэтому на этические вопросы он попросту кладет. По этой причине, академические деятели, чьи руки связаны всевозможными этическими стандартами («informed consent», этика научного исследования и цитирования, этика академического общения и т.д.) оказались беспомощными в лобовом столкновении с Клесовым. Точно также, как оказывается беспомощным интеллигент в подворотне, где гопник отжимает у него мобилу и прочие рудименты хорошей жизни.

Но самое важное даже не это. Клесов быстро сообразил, что люди готовы платить деньги за получение продукта. Естественно, этот продукт — то есть некий нарратив на тему ДНК-генеалогии заказчика или целого народа — должен соответствовать ожиданиям заказчика. Например, требуется доказать что все коэны происходят от Аарона. ДНК-генеалогия Клесова дает ответ! Требуется показать, что все человечество (включая негров) зародилась 65 000 лет тому назад на русской равнине недалеко от города Зарайска. ДНК-генеалогия Клесова дает ответ! Требуется доказать, что такой-то народ является современников динозавров. ДНК-генеалогия Клесова дает ответ! Благодарный пипл хавает и платит в американских рублях. Кроме того, в последнее время Клесов держит нос по политическому ветру, о чем свидетельствуют его выступления по телевизору на тему того, что ДНК-генеалогия говорит о том что украинцы и русские — это оказывается один (!) народ. Видимо, кто-то на верху не только оплачивает, но и еще курирует его деятельность.

Когда-то в 2010 году ув. Дмитрий Беляев (крупнейший исследователь истории Мезоамерики с мировым именем), некоторое время ходивший на клесовский форум Родство.ру ради лулзов, охарактеризовал «научную» деятельность Клесова емким словом «гринго-сайенс». Так латиноамериканские историки называют писанину своих академических «коллег» из Штатов. Эта писанина представляет собой нарративные сочинения в стиле фэнтэзи с грубым перевиранием фактов (а то и с полным отсутствием фактологической базы), и полным отстутствием понимания вопроса, о котором они пишут (т.к. никто из них не был на местах археологических раскопок городов майя, ацтеков и пр.).
Зато эта литература неплохо покупается американскими домохозяйками.

А теперь сам текст Валерия:

«Увы, Шерлок Холмс оказался популярнее и любимее народом, чем сыщики Скотланд Ярда ((

Наши доклады примерно на 3/4 состояли из укусов в адрес Гаплофюрера, но мы не учли, что присутствующей северокавказской интеллигенции до лампочки наши внутринаучные склоки. Из всех докладывавших наилучшая аура была у Клесова, и именно он показал народу магические цифирки, в духе «Сатурн в третьем доме.. вам отрежут голову!» — ну или так «Линейный и логарифмический методы дали разный результат, поэтому карачаево-балкарцы не происходят от алана кости которого откопали на Дону».

И поделюсь наблюдениями X, которую обожаю.

— Честно говоря, я не понимаю секрет магизма этого человека. Он оперировал цифрами, из которых якобы должно что-то следовать, и люди сидящие в зале, внимали и верили ему! Я биолог, но совершенно не понимаю его доказательств, и уверена, что аудитория их тоже не понимала. «Гаплотипу 4000 лет, значит аланы не происходили от..» — а если найдут гаплотип 2000 лет, тогда что, будут происходить? И я не верю, что слушающие это понимают. Секрет в чем-то ином.

Знаете, я застала Лысенко. Я слушала его лекции на 5-ом курсе, в 1957. Он читал нам мичуринский дарвинизм. Время было уже другое, мы стучали ногами, хихикали. Заметьте, нормальную генетику еще не читали тогда, но монополии у Лысенко уже не было, поэтому можно было хихикать.

Так вот. Я хорошо помню все. Анатолий Клесов — это вылитый Трофим Денисович. Манера говорить с аудиторией, стиль упрощения фактов. Все от и до!

****

Ну, еще добавлю, что Клесову благоволил организатор конференции, при полном неучастии Тишкова, директора ИЭА. В итоге вместо прений круглый стол заончился пресс-конференцией Анатолия.»

Новая российская компания на рынке персональной геномики

 

В сентябре в Москве открылся один из «сколковских стартапов» -медицинский центр «Атлас», который специализируется на «персонализированной» и «превентивной» медицине. Своим пациентам центр предлагает сначала cделать скрининговый тест http://www.atlas.ru, а потом уже разрабатывать план профилактики и лечения на основе его результатов — выявленных предрасположенностей и рисков возникновения заболеваний, а также генетически обусловленных реакций на лекарства.

Массовой расшифровкой генома в России занялись ещё в 2007 году, поэтому на рынке уже существует несколько похожих компаний. Однако «Атлас» назвал своей целью сделать генотипирование популярным и доступным — примерно так, как это удалось 23andMe, американской компании бывшей жены Сергея Брина Анны Войжитски, в которую Google инвестировала почти 4 миллиона долларов. Популярность 23andMe явно не даёт покоя владельцам «Атласа», поэтому даже домен 23&me.ru они зарегистрировали на себя. Биомедицинский холдинг Atlas основан в 2013 году. Команда Atlas включает в себя специалистов, уже сейчас внедряющих в клиническую практику концепцию персонализированной медицины и работающих на стыке фундаментальной науки и практической медицины.

Нужно сказать, что бизнес-модель «Атласа» действительно построена на основе модели 23andme. Спектр предлагаемых клиентам сервисов персональной геномики также похож на тот, что имеется в 23andme. Вместе с этим, имеется одно принципиальное отличие — в отличии от 23andme, предлагавшей в своем продукте в числе прочего и описание медицинских генетических рисков, продукт «Моя генетика» компании Atlas не просто представляет перечень рисков, но и предполагает консультацию профессионального специалиста по медицинской генетике в медицинском центре Atlas (входящего в состав холдинга).  На мой взгляд, это очень удачный ход. Как известно, в прошлом году у компании 23andme возникли серьезные проблемы с  FDA. Управление по санитарному надзору за качеством пищевых продуктов и медикаментов[3] (англ. Food and Drug Administration, FDA, USFDA) — агентство Министерства здравоохранения и социальных служб США, один из федеральных исполнительных департаментов. Управление занимается контролем качества пищевых продуктов, лекарственных препаратов, косметических средств, табачных изделий и некоторых других категорий товаров, а также осуществляет контроль за соблюдением законодательства и стандартов в этой области. В прошлом году это агентство по жалобе нескольких клиентов инициировало проверки соответствия рынка персональной медицинской генетика законодательству, в результате которой 23andme было предписано временно прекратить включение данных о генетических рисках в свои отчеты. И хотя российским законодательством данная область практически не регулируется, тем не менее включение в продукт услуг профессионального врача-генетика, безусловно, правильный ход, так как позволяет клиенту получить профессиональную консультацию специалиста в довольно специфической и сложной области медцинской генетики.

Лицам, интересующимся генетической генеалогией и своим происхожден, будет интересен раздел, в котором можно посмотреть данные о своих гаплогруппах; проценте генов, доставшихся от неандертальцев; а также разбиение генетических вариантов своего «генома» по компонентам происхождения.  Поскольку я помогал компании Atlas разрабатывать этот раздел (в плане составления описания гаплогрупп и разработки алгоритмов определения компонентов происхождения), то могу поручиться своей репутацией за научную состоятельность выдаваемых результатов.

Процитирую отзыв одного из первых клиентов

«Самая серьёзная и достоверная рубрика — здоровье: в ней связь определённых типов генов с возможным заболеванием подтверждена научными исследованиями, в которых принимало участия более тысячи человек. Здесь риски развития заболеваний сгруппированы в процентах и сравниваются со средним риском по популяции, отображены наследственные заболевания, а также так называемая фармокогенетика, индивидуальная чувствительность к лекарствам (аллергические реакции, побочные эффекты).

Самыми высокими рисками для меня, согласно тесту, являются меланома (0,18 % при среднем риске 0,06 %), системная склеродермия (0,05 % при среднем 0,03 %), сахарный диабет первого типа (0,45 % при среднем 0,13 %), аневризма сосудов головного мозга (2,63 % при среднем 1,8 %), системная красная волчанка (риск 0,08 % при среднем риске 0,05 %), эндометриоз (1,06 % при среднем риске 0,81 %), артериальная гипертензия (42,82 % при среднем риске 40,8 %). Ну и так далее. Кроме того, тест выявил, что я являюсь здоровым носителем варианта гена, связанного с периодической болезнью. Моя же чувствительность к лекарствам оказалась совершенно среднестатистической, ничем не примечательной, поэтому никаких особых побочных эффектов или аллергических реакций тест не выявил.

В рубрике «Питание» мне рекомендовали то, что рекомендуют своим читателям все журналы о здоровом образе жизни, — сбалансированную диету и почему-то не больше 998 килокалорий в день (при норме для взрослого человека, который не занимается спортом, в 1 200). Не рекомендовали есть сладкое и жирное, пить крепкий алкоголь, закусывать его картошкой или заедать рисом, запретили сладкое и жареное. В общем, всё, что можно было бы посоветовать любому россиянину старше 18 лет. У меня заподозрили непереносимость лактозы и запретили молочные продукты, хотя никаких проблем с молоком у меня никогда не было. Несмотря на это, в разделе «Рекомендации» мне посоветовали есть «больше молочных продуктов каждый день» (потом разработчики сказали, что это — баг), потому что молоко «снижает риск развития сахарного диабета», который у меня повышен. Если пить его вместо сладкой газировки, то, наверное, снижает. Но сейчас прогрессивное человечество уже задумывается о том, насколько молоко вообще необходимо взрослому человеку, — связи потребления молока с крепкими костями и восполнением витамина D, о которой говорили раньше, так и не было найдено.

В разделе «Спорт» меня назвали «спринтером» и посоветовали силовые тренировки, поэтому рекомендовали гандбол, регби и плавание и запретили бег, баскетбол, конный спорт и зимние виды спорта. На мой удивлённый вопрос: «Почему запретили бег, который почти всем можно?» — врач-генетик Ирина Жигулина, с которой мы потом общались, ответила, что речь идёт о профессиональном спорте. Профессионального бегуна из меня, по их мнению, не выйдет.

В разделе «Происхождение» меня ждала интерактивная инфографика о том, как мои предки по материнской линии вышли из Восточной Африки 150–180 тысяч лет назад и двинулись в Северную Европу. У меня нет Y-хромосомы, поэтому, что там происходило с отцовской линией, совершенно непонятно. Мои надежды найти успешных родственников так и не оправдались — бегунок остановился на отметке «500 лет назад» и выдал результат, что 50,9 % моего ДНК — от жителей Северной Европы. Жаль, что это совсем не то, что получают, например, покупатели теста 23andMe, которым предоставляют доступ к социальной сети, где можно найти своих родственников. А так хотелось прожить такую историю, как Стэйси и Грета, которые узнали, что они сёстры, благодаря 23andMe!

Больше всего меня удивила информация под заголовком «Личные качества». Тут я узнала, что у меня снижен риск развития никотиновой зависимости, есть предрасположенность к абсолютному слуху, нет риска ранней менопаузы и есть склонность к избеганию вреда. Этот раздел создатели относят к «развлекательной генетике», потому что данные в ней строятся на основе экспериментов с небольшой выборкой испытуемых (меньше 500). Но они меня вовсе не развлекли, а расстроили. Во-первых, выяснилось, что у меня нет предрасположенности к кудрявым волосам: «у вас не выявлен генетический вариант, часто встречающийся у кудрявых людей», хотя я кудрявей, чем многие каракулевые шубы. А во-вторых, у меня «не выявлен вариант гена, встречающийся у большинства творческих людей». В-третьих, я и вовсе интроверт.

Результаты теста заканчиваются рекомендациями пройти консультацию с терапевтом (по поводу риска системной красной волчанки), с эндокринологом (по поводу сахарного диабета) и с дерматологом (склеродермия, меланома), а также ежегодно сдавать анализ крови, делать маммографию, с 40 лет — регулярно ЭКГ. Ещё рекомендовали пить кофе и молоко, витамины, регулярно заниматься спортом и редко загорать»

Этногеномика беларусов — часть IV

Анализ структуры аутосомного генофонда популяции беларусов: результаты анализа этнического адмикса.

 

После проведения анализа этно-популяционного адмикса мы получили следущие результаты, обсуждению которых будет посвящена следущая часть нашего исследования. Результаты представляют собой разбивку аллельных частот на 22 кластера, каждый из которых представляет собой гипотетическую предковую популяцию. Поскольку в цели данного небольшого исследования не входит подробный анализ всех популяций, мы ограничимся сравнительном анализом структуры (компонентов) беларусов c географически близкими популяциями, а также с теми популяциями, которые могли входить в исторические контакты с предками современных беларусов:

admix

 

Рисунок 3. Результатыанализа ADMIXTUREK=22

У рассматриваемых здесь европейских популяций наиболее часто представлены следующие компоненты:

North-East-European,Atlantic_Mediterranean_Neolithic,North-European-Mesolithic, West-Asian, Samoedic, Near_East.

Разберем вкратце каждый из них. В ракурсе нашего исследования самым важным компонентом представляется – северо-восточно-европейский компонент North-East-European, он присутствует почти у всех европейцов, и в самой значительной степени — у балтов и славян: литовцы (81,9), латыши (79,5), беларусы (76,4), эстонцы (75,2), поляки (70,2), русские (67- 70,4), украинцы (62,1- 67,1), сорбы (65,9), карелы (60,2), вепсы (62,5), чехи (57,4), северные немцы (54,6), южные- 42,6, у британцев от 46 до 49, норвежцы- 48,1, шведы- (53,7).

Второй по значимости компонент — Atlantic_Mediterranean_Neolithic (юго-западно-европейский или просто западно-европейский неолитический компонент).[1]У восточноевропейцев он выражен в умеренной степени- чехи (27,8), поляки (18,4), украинцы ( от 17 до 21%), беларусы (13%), русские (от 11 у северных до 17,3 у южных), у коми (8,9 %), манси (8,8 %).

Третьй компонент – северо-европейский мезолитический компонент -North-European-Mesolithic[2]: cаамы (76,4 %), финны (от 30,1 до 37,3 %), вепсы (24,1), карелы (23,2), ижорцы (22, 7). Заметен этот компонент и у северных русских (10,5 %), норвежцев (9,8 %), шведов (7,8 %), эстонцев (7,1 %). У беларусов он практически отсутствует (1.1%).

Четвертый компонент – западно-азиатский (кавказский) West Asian[3]. На интересуемой нас территории этот компонент чаще встречается у казанских татар (9,9 %), южных немцев (8,4), украинцев (от 6,6 до 7,7 %), южных русских (6,2%). На западе высок процент у итальянцев (21,5 % у центральных итальянцев), французов (6,7 %), у беларусов (2.2%).

Пятый компонент — уральский Samoedic. Значительно присутствует у селькупов (68,1%), хантов (64,6), ненцы (37,1), манси (30,9 %-), удмурты (29,6), марийцы (27, 8), шорцы (22,0 %), башкиры (21,7%), чуваши и хакассы по 17,6 %, коми- 16,4 %, казанских татар (11,9 %). У западноевропейцев этот компонент практически не встречается, у русских (от 1,0% у центральных до 4,7 % у северных), у карел (1,6%), словаков (1,4%), западных украинцев (1,7 %), беларусы (0.5%).

Шестой компонент – ближневосточный Near_East[4]У южных немцев (3,5), украинцы (от 2,3 у восточных до 3,8 % у западных), чехи (3,0), беларусы (3,4), словаки (3,2), у русских от 1,0 до 1,5%, у литовцев- 1,4%, у поляков- 1,3 %.

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[1]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[1]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[1]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

Анализ разделяемых аутосомных сегментов между популяциями Северо-Восточной Европы.

С целью верификации результатов анализа главных компонентов генетического разнообразия я подготовил новую выборку популяций, которая включает в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.В ходе нового экспериментального теста в ходе статистической обработки общих по генетическому происхождению сегментов хромосом в составе выборки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, т.е размера той популяции которая участвовала в репродукции или обмене генами в некоем отдаленном временном промежутке. Собственно говоря, эффективная популяция – это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955). Новая программа Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение составило 22 000. Это близко к значениям Neрекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных ниже результатов, даже 22 000 для совокупности эффективного размера элементарных популяций – это более, чем достаточно.

 

finest

Рисунок 4. Расположение популяций в пространстве 1 и 3 главных генетических компонентов

 

Изложим ниже некоторые закономерности размещения популяци

 

  1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
  2. Все литовцы (участники проекта + референсы из вышеупомянутой статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев

  3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.

  4. Ниже находится балканский кластер (румыны, болгары и часть венгров).

  5. К этому кластеру примыкают турки и часть армян

  6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов).

  7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.

  8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

  9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

  10. Левее этой группы популяций находится кластер ашкеназов.

  11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

  12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

  13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

  14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

  15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).[5]

 

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[2]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[3]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[4]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

[5]Такое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции.То есть все эти баски являются многократными родственниками между собой т.е., положение басков на графике есть следствие классического генного дрейфа, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества sharedDNAchunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.

Исходя из этого можно сделать вывод о том что баски эта экстремально-эндогенная популяция изолянтов, при этом генетическое разнообразие басков низко, т.к. размер эффективной популяции басков низок.

Древние геномы человека в перспективе генетического разнообразия современных популяций

Примерно месяц тому назад, один из замечательных представителей «гражданской науки» в области генетики, известный геномный блоггер Polako (Давид Веселовски) разместил в своем блоге заметку, в которой были приведены результаты самостоятельного изучения вариативности снип-мутаций в пяти наиболее известных  из отсеквенированных геномов древних людей.  Хотя, как мне представляется, основное внимание Давид уделил все же прояснению ответа на вопрос о расположении  древнего генома сибирского мальчика со стоянки Malta (13 тысяч снипов-вариантов в аутосомах) в пространстве главных компонентов генетического разнообразия (PCA) cовременных человеческих популяций. К слову, этот же образец (Malta-1) был на днях включен в новую таблицу откалиброванных процентных соотношений 13 конвенциональных генетических компонентов в популярном среди пользователей Gedmatch этно-популяционногенетическом калькуляторе Eurogenes K=13 .  Наряду с вышеназванным образцом, в отреферированном анализе использовались геномные снип-варианты древнего ДНК австралийского аборигена (46 тыс.снипов), Anzick-1 генома древнего индейца культуры Кловис (106 тыс.снипов), генома древнего экскимоса Saqqaq (68 тыс.снипов), геном обитателя мезолитической Испании La-Brana 1 (23 тыс.снипов).

Можно предположить, что при проведении статистических анализов PCA, Давид использовал в качества сравнительного эталона-референса известный график из статьи Lazaridis et al. 2013.

PCA из статьи-препринта Lazaridis et. al .2013.

К сожалению ,  Давид из Eurogenes по определенным причинам не включил в свой анализ варианты снипов остальных известных евразийских древних геномов задействованных в PCA-анализе статьи-препринта Lazaridis et al. 2013, в частности древние геномы неолитического периода — женщин  культур воронковидных кубков (Swedish_farmer) и культуры линейно-ленточной керамики Южной Германии (Stuttgart), а также неолитического жителя Тирольских Альп — Этци (Iceman). Нет в  анализе Давида и образцов мезолитического и эпинеолитического генофонда Европы — мезолитических охотников-собирателей Motala  и Losсhbour и неолитических охотников с острова Готланд (Skoglund_merge). C другой стороны, в широко обсуждаемой предварительной версии статьи Лазаридиса к анализу привлечены только актуальные в евразийской перспективе образцы, и поэтому на графике PCA отсутствуют геномы древнего аборигена Австралии и двух древних геномов из Северной Америки.

Я решил исправить эти недочеты за счет сведения всех древних геномов в единый график, увязав все эти геномы с древними популяциями предков современных этно-популяционных групп.  Принципы анализа были относительно просты, окончательная выборка популяций  была получена путем полуавтономного процесса слияния разных источников данных.  Отсеве снипов у представителей популяций в окончательной выборке был минимальный — использовались только модификаторы фильтра MAF (частота минорных аллелей) и HWE (пороговый критерий качества снипов с точки зрения закона равновесия Харди-Вайнберга).  Пороговое значение фильтр качества снипов по генотипированию я специально  оставил слегка заниженным, так как снипы отбирались по низкому значению коэффицента попарного сцепления в неравновесном наследовании.

Ниже в таблице приведены сводные данные о древних геномах и размерности числа снипов  этих образцов, которые использовались в моем анализе

Аncient (Afontova Gora) 10965
Australian Aborigen 236880 
Otzi_Tyrolean 171195 
Swedish_merged_farmer 1600
Swedish_merged_HG 4053
La Brana  57050
Malta-1 44459
LBK_Stuttgart 54220
Motala12 54677
Loschbour 54591
Motala_merged 35010
R Graphics Output
Визуализация двух первых главных компонентов разнообразия в популяциях выборки

В качестве программного обеспечения для проведения эксперимента с PCA, я использовал имплементацию PCA в новой версии программы plink. Эта имплементация уступает в точности вычислений классической программе Eigenstrat, однако заметно опережает в скорости, особенно на больших массивах данных.

Ниже я разместил серию визуализаций графика PCA. Первая иллюстрация — визуализация двух первых главных компонентов разнообразия, ставшая уже классической форма V-образного клина.

Из-за высокой плотности точек на графике, первая иллюстрация сложна для чтения. Поэтому  вместо того, чтобы наносить названия точек на график, я рассчитал центроиды точек популяций и разместил их на графике вместе с названием популяции.

Центроиды популяций
Центроиды популяций

 Как видно из второго графика, мировый популяции равномерно распределились по углам триангуляции. Африканские популяции длинным шлейфом-вектором  от пигмеев до фулани, cахарцев и эфиопских этносов распредились в левой части V-клина. Между ними и европейцами находится большая группа смешанных рассовых групп — пуэрто-риканцы, доминиканцы, афроамериканцы Карибского региона и Северной Америки, морокканцы, мозабиты и жители Туниса. В вершине угла V клина находятся все классические европейские этнические группы и народности. Они образуют внутренний европейский градиент генетической вариативности, уменьшающийся по мере удаления на север.  Северные популяции европейцев (особенно в Скандинавии и Прибалтике) смыкаются с находящимися на самой веришине угла древними геномами европейцев времен мезолита (Motala, Loschbour, La Brana,и перехода к неолита. Эта картина соответствует тому, что мы наблюдаем на графике Lazaridis et al. 2013.  Наблюдаемая на моем графике более значительная дистанция шведских охотников-собирателей шведской культуры ямочной керамики от современных популяций северной Европы объясняется только тем, что в работе Lazaridis et al. 2013 использовалась большее количество тех снипов древних геномов, которые встречаются и в современных популяциях (т.е находятся в пределах современной вариативности генов жителей современной северной Европы). Поэтому дистанция в узказанной работе между древними и современными популяцими ниже (тот же феномен наблюдается и в неолитическом векторе). Неолитический «вектор» представлен шведским неолитическим фермером, Этци Тирольцем, женщиной из неолитического поселения возле современного Штуттгарта. Из современных популяций к этому вектору находятся близко сардинцы и баски.
 

Однако наиболее интересная картина наблюдается в правой части графика, где мы наблюдаем наложение сразу нескольких клинов-градиентов разнообразия. Наиболее сложная структура наблюдается в том месте правого «крыла» графика, куда проецируются геномы двух палеолитических жителей Сибири (Malta-1 и AG). В этом месте график начинает ветвиться на три тесно переплетенные вектора-градиенты. Один уходит через Средную Азию-Непал-Северную Индию на юг, где встречается в двигающимся ему навстречу вектору-градиенту представленному австралийскими аборигенами, онге, папуасами, меланизийцами, андаманцами и дравидами.  Второй вектор ведет через Алтай-Монголию и Китай в Индокитай и юго-восточную Азию.

Третий вектор разделяется сразу на две части — одна ведет к палеосибирским народами и далее к алеутам и экскимосам. Этот вектор заканчивается древним геномом Saqqaq, который видимо является самым чистым «образчиком» генома древних людей, связанных с этими группами. Второй уходит через группу североамериканских индейских народов на юг, в Мезоамерику и далее к индейцам южной Америки. Вектор заканчивается на Anzick-1, и — по аналогии c Saqqaq, — можно сделать вывод о том, что этот геном является квинтэссенцией «чистого америндского компонента» без позднейших вкраплений в ходе контактов с европейцами.

Примечательно, что эти вектора переплетены между собой настолько, что в 2-мерном пространстве первых двух компонент, чукчи и коряки, североамериканские индейцы и экскимосы, кхмеры и индусы оказываются рядом. Очевидно, что эта иллюзия. С целью доказать это  утверждения, я построил трехмерную визуализацию положения центроидов популяций в пространстве первых трех главных компонентов генетического разнообразия.

persp3d
Трехмерная перспектива PCA