Древние геномы человека в перспективе генетического разнообразия современных популяций

Примерно месяц тому назад, один из замечательных представителей «гражданской науки» в области генетики, известный геномный блоггер Polako (Давид Веселовски) разместил в своем блоге заметку, в которой были приведены результаты самостоятельного изучения вариативности снип-мутаций в пяти наиболее известных  из отсеквенированных геномов древних людей.  Хотя, как мне представляется, основное внимание Давид уделил все же прояснению ответа на вопрос о расположении  древнего генома сибирского мальчика со стоянки Malta (13 тысяч снипов-вариантов в аутосомах) в пространстве главных компонентов генетического разнообразия (PCA) cовременных человеческих популяций. К слову, этот же образец (Malta-1) был на днях включен в новую таблицу откалиброванных процентных соотношений 13 конвенциональных генетических компонентов в популярном среди пользователей Gedmatch этно-популяционногенетическом калькуляторе Eurogenes K=13 .  Наряду с вышеназванным образцом, в отреферированном анализе использовались геномные снип-варианты древнего ДНК австралийского аборигена (46 тыс.снипов), Anzick-1 генома древнего индейца культуры Кловис (106 тыс.снипов), генома древнего экскимоса Saqqaq (68 тыс.снипов), геном обитателя мезолитической Испании La-Brana 1 (23 тыс.снипов).

Можно предположить, что при проведении статистических анализов PCA, Давид использовал в качества сравнительного эталона-референса известный график из статьи Lazaridis et al. 2013.

PCA из статьи-препринта Lazaridis et. al .2013.

К сожалению ,  Давид из Eurogenes по определенным причинам не включил в свой анализ варианты снипов остальных известных евразийских древних геномов задействованных в PCA-анализе статьи-препринта Lazaridis et al. 2013, в частности древние геномы неолитического периода — женщин  культур воронковидных кубков (Swedish_farmer) и культуры линейно-ленточной керамики Южной Германии (Stuttgart), а также неолитического жителя Тирольских Альп — Этци (Iceman). Нет в  анализе Давида и образцов мезолитического и эпинеолитического генофонда Европы — мезолитических охотников-собирателей Motala  и Losсhbour и неолитических охотников с острова Готланд (Skoglund_merge). C другой стороны, в широко обсуждаемой предварительной версии статьи Лазаридиса к анализу привлечены только актуальные в евразийской перспективе образцы, и поэтому на графике PCA отсутствуют геномы древнего аборигена Австралии и двух древних геномов из Северной Америки.

Я решил исправить эти недочеты за счет сведения всех древних геномов в единый график, увязав все эти геномы с древними популяциями предков современных этно-популяционных групп.  Принципы анализа были относительно просты, окончательная выборка популяций  была получена путем полуавтономного процесса слияния разных источников данных.  Отсеве снипов у представителей популяций в окончательной выборке был минимальный — использовались только модификаторы фильтра MAF (частота минорных аллелей) и HWE (пороговый критерий качества снипов с точки зрения закона равновесия Харди-Вайнберга).  Пороговое значение фильтр качества снипов по генотипированию я специально  оставил слегка заниженным, так как снипы отбирались по низкому значению коэффицента попарного сцепления в неравновесном наследовании.

Ниже в таблице приведены сводные данные о древних геномах и размерности числа снипов  этих образцов, которые использовались в моем анализе

Аncient (Afontova Gora) 10965
Australian Aborigen 236880 
Otzi_Tyrolean 171195 
Swedish_merged_farmer 1600
Swedish_merged_HG 4053
La Brana  57050
Malta-1 44459
LBK_Stuttgart 54220
Motala12 54677
Loschbour 54591
Motala_merged 35010
R Graphics Output
Визуализация двух первых главных компонентов разнообразия в популяциях выборки

В качестве программного обеспечения для проведения эксперимента с PCA, я использовал имплементацию PCA в новой версии программы plink. Эта имплементация уступает в точности вычислений классической программе Eigenstrat, однако заметно опережает в скорости, особенно на больших массивах данных.

Ниже я разместил серию визуализаций графика PCA. Первая иллюстрация — визуализация двух первых главных компонентов разнообразия, ставшая уже классической форма V-образного клина.

Из-за высокой плотности точек на графике, первая иллюстрация сложна для чтения. Поэтому  вместо того, чтобы наносить названия точек на график, я рассчитал центроиды точек популяций и разместил их на графике вместе с названием популяции.

Центроиды популяций
Центроиды популяций

 Как видно из второго графика, мировый популяции равномерно распределились по углам триангуляции. Африканские популяции длинным шлейфом-вектором  от пигмеев до фулани, cахарцев и эфиопских этносов распредились в левой части V-клина. Между ними и европейцами находится большая группа смешанных рассовых групп — пуэрто-риканцы, доминиканцы, афроамериканцы Карибского региона и Северной Америки, морокканцы, мозабиты и жители Туниса. В вершине угла V клина находятся все классические европейские этнические группы и народности. Они образуют внутренний европейский градиент генетической вариативности, уменьшающийся по мере удаления на север.  Северные популяции европейцев (особенно в Скандинавии и Прибалтике) смыкаются с находящимися на самой веришине угла древними геномами европейцев времен мезолита (Motala, Loschbour, La Brana,и перехода к неолита. Эта картина соответствует тому, что мы наблюдаем на графике Lazaridis et al. 2013.  Наблюдаемая на моем графике более значительная дистанция шведских охотников-собирателей шведской культуры ямочной керамики от современных популяций северной Европы объясняется только тем, что в работе Lazaridis et al. 2013 использовалась большее количество тех снипов древних геномов, которые встречаются и в современных популяциях (т.е находятся в пределах современной вариативности генов жителей современной северной Европы). Поэтому дистанция в узказанной работе между древними и современными популяцими ниже (тот же феномен наблюдается и в неолитическом векторе). Неолитический «вектор» представлен шведским неолитическим фермером, Этци Тирольцем, женщиной из неолитического поселения возле современного Штуттгарта. Из современных популяций к этому вектору находятся близко сардинцы и баски.
 

Однако наиболее интересная картина наблюдается в правой части графика, где мы наблюдаем наложение сразу нескольких клинов-градиентов разнообразия. Наиболее сложная структура наблюдается в том месте правого «крыла» графика, куда проецируются геномы двух палеолитических жителей Сибири (Malta-1 и AG). В этом месте график начинает ветвиться на три тесно переплетенные вектора-градиенты. Один уходит через Средную Азию-Непал-Северную Индию на юг, где встречается в двигающимся ему навстречу вектору-градиенту представленному австралийскими аборигенами, онге, папуасами, меланизийцами, андаманцами и дравидами.  Второй вектор ведет через Алтай-Монголию и Китай в Индокитай и юго-восточную Азию.

Третий вектор разделяется сразу на две части — одна ведет к палеосибирским народами и далее к алеутам и экскимосам. Этот вектор заканчивается древним геномом Saqqaq, который видимо является самым чистым «образчиком» генома древних людей, связанных с этими группами. Второй уходит через группу североамериканских индейских народов на юг, в Мезоамерику и далее к индейцам южной Америки. Вектор заканчивается на Anzick-1, и — по аналогии c Saqqaq, — можно сделать вывод о том, что этот геном является квинтэссенцией «чистого америндского компонента» без позднейших вкраплений в ходе контактов с европейцами.

Примечательно, что эти вектора переплетены между собой настолько, что в 2-мерном пространстве первых двух компонент, чукчи и коряки, североамериканские индейцы и экскимосы, кхмеры и индусы оказываются рядом. Очевидно, что эта иллюзия. С целью доказать это  утверждения, я построил трехмерную визуализацию положения центроидов популяций в пространстве первых трех главных компонентов генетического разнообразия.

persp3d
Трехмерная перспектива PCA

Отвлеченные заметки на около- и метагенетические темы

Это сообщение знаменует собой начало новой серии постов, посвященных созданию концептуального аппарата и языка описания в новой парадигме исследований, которую мы можем обозначить как НМА (ницшеанскую молекулярную антропологию).

Заметка 1.A представляет репост одной  старой известной статьи на одном из российских порталов.

Зато как приятно, когда, казалось бы, абсолютно социальные феномены наподобие заработка и интеллектуального развития обретают четкие генетические причины: Рой Фрай из университета Питтсбурга, опираясь на обширные экспериментальные данные, собранные им в Калифорнии и его коллегами по всему миру, не просто связал между собой IQ, статус, здоровье, продолжительность жизни, расу и активность парасимпатической нервной системы. Он утверждает, что истоки всех различий – в мутациях всего лишь одного гена. «Врагом народов» оказалась регуляторная часть гена, кодирующего мускариновый рецептор М2, чувствительный к медиатору нервной системы ацетилхолину. Эти рецепторы широко представлены как в центральной нервной системе, так и в парасимпатической, контролирующей функции внутренних органов. Так что даже небольшие изменения количества рецепторов (о качестве речь не идет, ведь мутации – в регулирующей части гена, а не в кодирующей) сказываются и на умственных способностях, и на активности главного «проводника» парасимпатической нервной системы – блуждающего нерва (vagus). Эти мутации, а точнее, точечные замены нуклеотидов и стали тем недостающим звеном, что сходу объяснило сразу все вышеупомянутые различия. Конечно, хорошее здоровье и продолжительность жизни отчасти объясняется и высоким статусом в обществе, доставшимся от родителей, и хорошим образованием. Но как тогда объяснить тот факт, что продолжительность жизни детей, усыновленных в Дании в 1924–1947 годах, коррелировала с социальным классом их биологических родителей, но не юридических? В этом случае классическая генетика просто «требует» наличия какого-то наследственного фактора, связанного одновременно и с IQ, и со здоровьем. Что же касается связи здоровья и активности вагуса, то здесь задействованы сразу две экспериментально подтвержденные гипотезы, названные по фамилии авторов: теория Трэйси, объясняющая низкую интенсивность воспалительных реакций при высоком тонусе вагуса, и теория Тэйера, связывающая через тот же блуждающий нерв эмоциональное и физическое состояние. Причем активность этого нерва, измеренная классической триадой (вариабельность и время восстановления сердцебиений, дыхательная синусовая аритмия), коррелирует не только со средней продолжительностью жизни и с частотой некоторых заболеваний, но и с расой. Вся эта система из полудюжины переменных разом упрощается при принятии «вагусной гипотезы CHMR2». Она не противоречит ни одной из упомянутых связей, но переставляет положения причины и следствия. Согласно «вагусной гипотезе», средний уровень IQ, средняя продолжительность жизни, тонус вагуса и социальный статус зависят от одного нуклеотида в положении rs8191992. Если это аденин (А-вариант гена), то количество рецепторов в клетках организма снижается, тонус блуждающего нерва падает и частота атеросклероза, диабета 2 типа, сердечно-сосудистых заболеваний возрастает – одновременно со снижением интеллектуальных способностей (внимания, способности к концентрации, памяти). Если же это тимин (Т-вариант), то – наоборот. Чтобы связать генетику с расой, Фрай воспользовался прошлогодними данными Элисон Келли-Хеджпет, изучавшей эти аллели в аспекте хронического воспаления. «Иерархия» осталась неизменной: у черных частота «неудачного» А-варианта – 0,86, у белых – 0,57, а самыми счастливыми оказались долгоживущие и мудрые восточноазиаты с 0,12. Новая теория объясняет и так называемый парадокс испанского здоровья: испаноговорящие жители США, равно как и индейцы, несмотря на относительно низкий по сравнению с белыми средний IQ и социальный статус, живут достоверно дольше. Но у них же частота «плохого» А-варианта оказалась равной 0,33. Это, в свою очередь, подтверждает преимущество логической цепочки «рецептор-вагус-здоровье» над доминировавшей до сегодняшнего дня «интеллект-образование-статус-достаток-здоровье». С изысканиями Фрая, равно как и с более чем достаточными табличными и графическими данными можно даже без специального образования познакомиться в Nature Precedings. И хотя разница не настолько велика, чтобы говорить о господстве одной расы над другой, в её достоверности усомниться не получается. В ближайшем будущем вряд ли появится новый фактор, способный так же сконцентрировать вокруг себя все переменные, как это удалось гену CHMR2.