Вторая фаза нового проекта

Две недели назад я сообщил об окончании первой фазы своего нового проекта (на первом этапе работы удалось собрать надежную выборку из более чем 5000 образцов более чем 250 различных этно-популяционных групп людей по всему миру.

Как я уже рапортовал ранее, самой сложной из запланированных на втором этапе задач являлась импутирование (импутация) отсутствующих генотипов.  Читатели моего блога помнят, что две предыдущие экспериментальные попытки импутирования больших выборок     — в 2013  и в 2015  — закончились неудачно (или, если говорить точнее, качество импутированных генотипов не оправдало моих завышенных ожиданий). В предыдущих опытах я задействовал мощную комбинацию программ ShapeIT и IMPUTE и  метод импутирования снипов за счет использования большой референсной панели аутосомных гаплотипов (из 1000 genomes),  гарантирующей более аккуратное определение генотипов.

На этот раз, я решил не повторять ошибок, и обратился к использованию других программ — в частности , к  Minimac3, хорошо зарекомендовавшую себя в работе с геномами 1000G.  К моему счастью, я набрел на недавно появившиеся публичные сервера, работающие с «облачным» сервисом импутирования Cloudgene. геномов.
Серверы импутирования геномов позволяют использовать полную референсную панель гаплотипов для точного определения недостающих генотипов в анализируемых данных. Пользователи подобных серверов могут загружать (предварительно фазированные или несфазированные) данные генотипов на сервер. Процедура импутирования  будет осуществляться на удаленном сервере, и по окончанию этого процесса рассчитанные данные доступны пользователю для скачивания. Наряду с импутированием, подобные сервисы позволяют провести процедуру контроля качества (QC) и фазировки данных в качестве предварительного этапа процесса импутирования генотипов.

Прототипы серверов импутирования уже доступны в институте Сангера и Мичиганского университета. В дополнение к вышеназванным серверам, можно упомянуть прототип сервера поэтапной полномасштабной  фазировки генотипов анализируемых образцов (прототип создан биоинформатиками Оксфордского университета). На мой взгляд, самое простое и доступное решение задачи импутирования на удаленном сервере было разработано сотрудниками   Мичиганского университета. Дополнительное преимущество этому решению дает грамотная документация по использованию сервиса.

Основная рабочая лошадка сервиса — это комбинация двух или трех программ — две програмы для фазирования диплоидных генотипов в гаплоидную фазу  ShapeIT и Hapi-UR , а в качестве основного ПО для самого процесса импутирования (определения) недостающих генотипов — вышеупомянутую программу Minimac3.

Описание эксперимента с импутированием генотипов на удаленном сервере

В самом начале,  я разбил свою выборку на пять когорт (т.к. референсные панели на сервере также разбиты на «этнографические группы»):

  1. европейцы (европейцы + кавказцы) — 1715 образцов -87169 снипа
  2. азиаты (+американские аборигены и аборигены островов Тихого Океана) — 2356 образцов — 87044 снипа
  3. африканцы — 1054 образца — 86754 снипов
  4. палеогеномы древних жителей Евразии, Африки и Америки -340 — 594500 снипов
  5. смешанные группы — преимущественно мозабиты, пуэрто-риканцы и др.
QC-Report
На рисунке показана корреляция между частотами аллелей в изучаемоей выборке (здесь: европейская когорта) и частотами аллелей в референсной панели

К моему вящему неудовльствию,  некоторые образцы в сводной выборке не прошли контроль качества — в первую очередь это касается образцов европейцев из базы данных POPRES, а также выборок статьи  Xing et al. (2010). Скорее всего, их нужно будет импутировать отдельно.

Несмотря на значительную скорость обработки генотипов на удаленном сервере, к настоящему времени эксперимент еще не доведен до конца.  Пока я планирую ограничиться импутированием генотипов в 3 первых когортах (т.к. импутирование палеогеномов с помощью современных референсных панелей гаплотипов вероятнее всего приведет к искажению истинного разнообразия палеогеномов за счет проекции на современные группы населения, хотя авторы статьи Gamba et al. 2014 в сопроводительном материале к своей статье утверждают обратное).

После окончания фазирования и последующей обработки генотипов европейской когорты в программе Plink (были отсеяны все варианты с вероятностью ниже 0.9) ,  я получил выборку из 1715 европейцев с 25 215 169 снипами против изначальных 87169, т.е число снипов в выборке увеличилось в 290 раз!
В азиатской когорте соотношение импутированных генотипов к исходным составило чуть меньшую величину 19 048 308 / 87044 = 219.

Проверка результатов

Разумеется, все полученные результаты нуждались в дополнительной проверке качества генотипирования.
Cначала я объединил импутированную европейскую когорту с когортой палеогеномов (которая не была импутирована) и рассчитал в программе PLINK 1.9 матрицу IBS (т.е. сходства образцов в выборке между собой, эта метрика отдаленно напоминает Global Similarity в клиентских отчетах 23andme), а затем усреднил данные по популяциям и произвел по усредненным значениям иерархическую кластеризацию по признакам сходства (IBS, identity by state). Результат превзошел все мои пессимистические ожидания

 

 

Как становится очевидно из приведенной выше кластерограммы,  в целом взаимное расположение популяций в кластерах соответствует (в общих чертах) взаимному географическому положению. Присутствуют, правда, и некоторые огрехи. Так, например, венгры очутились в одном кластере с русскими из Курска,  норвежцы — с русскими из Смоленска, а усредненные «русские» — с американцами европейского происхождения из штата Юта и французами. Трудно сказать, в чем здесь причина, тем более что матрица была составлена по значениям IBS (идентичности по состоянию), а не IBD (идентичности по происхождению).  Более подробные данные о попарных значениях IBS между популяциями выборки можно посмотреть в этой таблице

Импутированная азиатская когорта (несмотря на расширение географии за счет включения образцов коренного населения Америки и аборигенов бассейна Тихого океана)  тоже  оказалась на удивление надежной. Я пока не буду останавливаться на подробностях изучения этой когорты, вместо этого я размещаю здесь результаты MDS- мультдименсионального шкалирования образцов выборки, образованной в ходе слияния 2 импутированных когорт (европейской и азиатской) с 1 неимпутированной (палеогеномы). Цветовое обозначение точек соответствует определенным кластерам, выявленных в выборке с помощью алгоритма MCLUST (cледуя рекомендациям Диенека Понтикоса). Всего этих кластеров 15 и они обозначены последовательностью чисел от 1 до 15, и каждый из этих кластеров имеет свою четкую географическую привязку:

  • 1 — кластер популяций ближнего Востока и  Анатолии
  • 2 — кластер популяций северного Кавказа
  • 3 — «индоевропейский» кластер древних популяций Синташта, шнуровой культуры, Ямной культуры и т.д.
  •  4 — кластер аборигенных жителей Америки (эскимосов и индейцев)
  • 5 — суперкластер популяций средиземноморского и восточноевропейского региона
  • 6 — сибирский кластер алтайских и самодийских популяций
  • 7 — кластер популяций западной и северной Европы
  • 8 — кластер палеосибирских популяций (таких как чукчи, ительмены и коряки)
  • 9 — кластер аборигенных (австронезийских и тай-кадайских) популяций юго-восточной Азии (даи, атаяла и ами)
  • 10 — кластер неолитических популяций
  • 11 — еще один ближневосточно-средиземноморский кластер (ашкеназим, сардинцы и так далее)
  • 12 — кластер североиндийских популяций
  • 13 — кластер центральноазиатских популяций
  • 14 — поволжские популяции
  • 15 — разные групп индусов

 

ALDer: анализ генеографии дагестанских народов в эволюционной перспективе

В свете наших споров с уважаемой Казимой Булаевой  (один из ведущих российских генетиков), я решил продемонстрировать робастность метода ALDer, предложенного в статье Loh et al.2012 в анализе демографически сложных популяций Дагестана.

В моей коллекции есть SNP-данные лакцев, ногайцев, кумыков, лезгинов, табасаранцев и аваров, однако две последние группы пришлось исключить из теста в силу строгих требований алгоритма ALDer к минимальному количеству сэмплов в каждой из представленных популяций.

Программа ALDer использовалась в двух режимах.

Первый режим — 1-reference weighted LD curve, второй режим — 3+ reference weighted LD curve. Термины нуждаются в грамотном переводе в русскоязычную терминологию, так что пока я оставил их в том виде, в каком они есть.

В режиме 3+ references для вычисления значения корреляции использовались следущие популяции:

ItalianCenter;Sicilian;Sardinian;German;Lithuanian_V;Lithuanian;Latvian;Belarusian;Swedish;Polish_V;Russian_V;Russian_Center;Latvian_V;Inkeri;Russian_South;Ukrainian_V;Slovakian;Czech;Sorb;Estonian;Ukrainian;Belarusian_V;UkrainianEast;UkrainianWest;Mordovian;CEU;CEU_V;British;French;Orcadian;GermanSouth;GermanNorth;German_V;Bulgarian;FinnishNorth;Cirkassian;Russian_cossack;Saami;Udmurd;Komi;Karelian;Vepsa;Mari;Bashkir;Nenets;Hant;Chuvash;Mansi;FinnishSouth;Polish;Gagauz;Moldavian;Romania;Bosnian;Adygei;Croatian;Serbian;Slovenian;Montenegrin;Macedonian;Kosovar;Austrian;Greek_Azov;Greek_Center;Greek_North;Greek_South;Tatar_Crim;Azeri;Tadjik;Kyrgyz;Kazakh;Georgian;Georgian_Imereti;Georgian_Laz;NorthOssetian;Armenian;Kumyk;Chechen;Turk;Turkmen;Uzbek;Mongol;Karakalpak;Lak;Balkarian;Lezgin;Abhkasian;Kalmyk;Syrian;Kurd;Tabassaran;Hakas;Altaic;Tatar_Kryashen;Tartar_Mishar;Parsi;Avar;Nogai;Italian-North;Hungarian

I.

Итак, начну с результатов ногайцев в тесте «3+ reference populations».
Результаты свидетельствуют о наличии синхронного адмикса у предков современных дагестанских ногайцев, имевшего место быть в интервалме между 17.20 +/- 3.32 и 12.49 +/- 2.55 поколениями до настоящего времени.

DATA: success 0.00052 Nogai Sorb Uzbek 5.17 2.15 2.63 15% 17.20 +/- 3.32 0.00006274 +/- 0.00000886 19.29 +/- 8.98 0.00002377 +/- 0.00000606 20.01 +/- 7.60 0.00001471 +/- 0.00000378
DATA: success 0.0022 Nogai Ukrainian-West Karakalpak 4.89 3.08 4.01 17% 12.49 +/- 2.55 0.00006670 +/- 0.00000793 14.31 +/- 3.68 0.00000975 +/- 0.00000316 14.85 +/- 3.70 0.00003094 +/- 0.00000499

Адмикс был двухкомпонентный — преобладающий центральноазиатский, и восточноевропейский. Внизу приведены данные по нижнему значению величины адмикса

Сорбы Mixture fraction % lower bound (assuming admixture): 44.9 +/- 7.2
Каракалпаки Mixture fraction % lower bound (assuming admixture): 55.8 +/- 4.4

Узбеки Mixture fraction % lower bound (assuming admixture): 72.1 +/- 16.1
Западные украинцы Mixture fraction % lower bound (assuming admixture): 52.0 +/- 11.7

II.

Cледущий пример — кумыки.Из всех возможных 2-референсных комбинаций кривых взвешенной LD статистически значимой оказалась только одна комбинация:
DATA: success 3.3e-06 Kumyk Italian-Center Hakas 6.07 2.71 5.82
23% 18.15 +/- 2.99 0.00004734 +/- 0.00000710 15.15 +/- 4.49 0.000004
61 +/- 0.00000170 19.14 +/- 3.29 0.00003496 +/- 0.00000519

Это весьма примечательный результат. Как видно из результатов, кривые угасания LD (cцепления по неравновесию) обеих популяций имеют положительную корреляцию между собой. Время двухстороннего адмикса — 18.15 +/- 2.99, то есть интервал между серединой 14 века и cерединой 16 века.

Примечательно, что величина нижнего порога «cредиземноморского» (Italian-Сenter) компонента адмикса выше чем аналогичная величина «тюркского» (Hakas) компонент адмикса у кумыков (см.ниже):

«итальянцы» -Mixture fraction % lower bound (assuming admixture): 47.9 +/- 8.3

хакасы — mixture fraction % lower bound (assuming admixture): 12.9 +/- 1.4

Можно поспекулировать по поводу исторических интерпретаций данных результатов. Если мы вслед за некоторыми генетиками будем рассматривать хакасов как наиболее близкую к древним тюркам популяцию, то можно предположить общее происхождение тюркского «компонента» кумыков с кыпчаками, либо (что менее вероятно) хазарами. Здесь много свободного места для спекуляций.

«Итальянская» часть адмиксf вызывает больше вопросов, чем ответов. Освежив свои неглубокие познания в истории дагестанского региона, смог вспомнить лишь смутные упоминания о присутствии итальянцев в Дагестане в 14-15 веках. «Согласно Фануччи*, генуэзцы выстроили и заселили поселение Кубачи в Дагестане …»; (Исторические записки. Том 3.,1938 г., Зевакин Е. С. и Пенчко Н. А. «Очерки по истории генуэзских колоний на Западном Кавказе в XIII—XV вв.» (72-129)).
Сами кубачинцы именуют свой аул грозным именем Угбуг, что означает «убийцы, губители». Но, впрочем, имеется в виду не свирепость кубачинцев, а непобедимое кубачинское оружие. В Кубачи живут мастера, которым нет равных. Они исполняют любые тонкие работы с металлом, но их призванием, прежде всего, всегда было оружие и доспехи; но это не просто ремесло, а сакральное искусство, философия, если угодно — магия. Слава кубачинского оружия — распространилась на весь мир.

С VI века в арабских источниках упоминается название Зирихгеран. Это название на фарси означает «страна тех, кто делает доспехи», по-русски получается нечто вроде «бронники» или «кольчужники». Около 1467 года впервые упоминается имя Кубачи (или Гюбечи), слово это тюркское, означает «бронники, изготовители доспехов».

Все три имени аула и живущего в нем народа означают одно — ремесло. И в этом странность: получается, что кубачинцы — народ без древнего, исконного наименования.

Но есть еще одно имя, четвертое. Соседи (лакцы, кайтаги и лезгины) кубачинцев называют странно — пранг-капур, то есть франки. Более того, сами угбуги-кубачи считают, что их род из Франции.

Первым о потомках европейцев на Кавказе сообщил полковник Иоганн Густав Гербер (умер в 1734 году), — он побывал в тех краях в 1727 году. Спустя полвека академик Иоганн Антон Гильденштедт (1745–1781) в описании своего путешествия по Кавказу сообщил, что в Кобачи живут потомки генуэзцев. Они бежали в горы от войск Чингисхана в 1220–1230-х годах, долго оставались христианами, потерпели гонения, скрывались и только после долгих преследований приняли ислам.

Не попал ли «итальянский» адмикс к кумыкам от кубачинцев?

III.

Наконец, лезгины. Точно также как и в случае с лакцами, поражает отсутствие статистически значимой двух-референсной корреляции кривой экспонентного угасания LD (неравновесного сцепления).

Согласно результатам предварительного теста, только две популяции — башкиры и казахи — имеют однорефренсную взвешенную LD-кривую с лезгинами

Pre-test: Does Lezgin have a 1-ref weighted LD curve with…… Bashkir: YES (z = 1.99) Kazakh: YES (z = 2.12)

Датировка казахского и башкирского адмиксов в популяции лезгинов также представляется мне логичной 8+-4 поколений [башкиры] и 9+-3 поколений тому назад [казахи]:

DATA: failure (warning: decay rates inconsistent) 2.6e+03 Lezgin Bashkir Kazakh 0.00 1.99 2.12 194% 500.00 +/- inf -341600.24428451 +/- inf 7.89 +/- 3.96 0.00000246 +/- 0.00000113 9.02 +/- 3.24 0.00000325 +/- 0.00000154

Поскольку decay rates (скорости угасания) казахского и башкирского адмикса не коррелируют между собой, то их источник был разный.Поскольку оба адмикса недавние — в пределах 100-300 лет назад — то как и ожидалось, %-доля этих адмиксов в генофонде лезгинов невелика.

[башкиры] Mixture fraction % lower bound (assuming admixture): 2.7 +/- 1.1
[казахи] Mixture fraction % lower bound (assuming admixture): 3.6 +/- 1.5

Вывод — смешение башкиров/казахов с лезгинами носило случайный и несистематический характер.