Окончание процесса фазирования и импутирования геномов

К середине мая этого года я закончил трудоемкий процесс импутации сборной солянки из 9000 публично доступных образцовых представителей  700 различных человеческих популяций, генотипированных в разное время на разных снип-платформах (главным образом — Illumina и Affymetrix)
Строго говоря, я планировал завершить этот этап работы намного раньше, но в ходе выполнения работ возник ряд обстоятельств, помешавших завершить этот этап в срок. Главным из них является смена сервера где я выполнял импутирование геномов. Я начал работать на сервере Мичиганского университета, однако в ходе процесса перешел на аналогичный сервис Института Сэнгера (имени того самого нобелевского лауреата, предложившего первый метод полного сиквенирования генома).
Это решение было продиктовано необходимостью использовать новейшую референсную панель аутосомных гаплотипов — Haplotype Reference Consortium (в нее входит примерно 30 тысяч, а после предстоящего этим летом обновления — свыше 50 тысяч — аутосомных геномов, т.е свыше 60 тыс. гаплотипов). Надо сказать, этнический состав выборки референсных геномов впечатляет, хотя и там по-прежнему наблюдается перекос в сторону европейских популяций. К сожалению, и эта новейшая выборка представлена преимущественно европейцами (поэтому вероятность  импутированных генотипов для европейских популяций оказались лучше аналогичных результатов в африканской и азиатской когортах), однако даже с учетом этого обстоятельства ее надежность в определении негенотипированных аллелей снипов выше 1000 Genomes (не говоря уже о HapMap):

1 UK10K 3715 3781 6.5x
2 Sardinia 3445 3514 4x
3 IBD 4478 4478 4x + 2x
4 GoT2D 2710 2974 4x/Exome
5 BRIDGES 2487 4000 6-8x (12x)
6 1000 Genomes 2495 2535 4x/Exome
7 GoNL 748 748 12x
8 AMD 3305 3305 4x
9 HUNT 1023 1254 4x
10 SiSu + Kuusamo 1918 1918 4x
11 INGI-FVG 250 250 4-10x
12 INGI-Val Borbera 225 225 6x
13 MCTFR 1325 1339 10x
14 HELIC 247 2000 4x (1x)
15 ORCADES 398 399 4x
16 inCHIANTI 676 680 7x
17 GECCO 1131 3000 4-6x
18 GPC 697 768 30x
19 Project MinE — NL 935 1250 45x
20 NEPTUNE 403 403 4x
Totals 32611 38821
22 French-Canadian 2000 5-6X End 2014
23 Converge 12000 1x Now
24 UG2G Uganda 2000 4x 2015
25 Arab Genomes 100 30x
26 Ashkenazi 128 CG Now
27 INGI-Carlantino 94 4x Now
28 CPROBE 80 80 4x

 

Cледуя рекомендациям, я получил набор из 9000 образцов, каждый из которых включает в себя набор из 20-30 миллионов снипов. К сожалению, из-за субоптимальности результатов в некоторых выборках (Xing et al, Henn et al. и ряде других), их придется исключить из тех видов анализа, которые требует максимальной точности исходных данных. Импутированные генотипы (выраженные через оцененные вероятности) были трансформированы с помощью программы Plink 1.9 в генотипы, причем выбирались варианты полиморфизмов с вероятностью 0.8 (—hardcallthreshold 0.8)

Для оценки полезности импутированных генотипов для популяционного анализа я использовал метрику nearest в программе Plink (матрица с дистанцией между ближайшими геномами) и кластерограммы IBS (идентичности по генотипам).

Таблица метрики nearest (Z-статистика)

А это кластерограмма с хорошо видно географической локализацией кластеров. Я использовал для кластеризации матрицы IBS несколько разных алгоритмов — наиболее убедительный вариант был получен с помощью алгоритма Ward

Другие варианты топологии кластерограмм в формате NEWICK и TRE можно посмотреть здесь (их можно открыть в любой программе для визуализации филогенетических деревьев).

Таким образом, для некоторых типов анализа в популяционной генетике использование импутированных снипов может сослужить хорошую службу, смягчая (или, наоборот, увеличивая) градиент частот аллелей).

Дополнительные анализы — fastIBD, IBS, анализ главных компонентов — образцов в выборке, только подтверждает это наблюдение:


Но самое лучшее подтверждение надежности импутированных снипов для анализа компонентов происхождения  было получено с помощью p-теста Z-статистики во время оценки правильности определенной топологии дерева компонентов (с допущением фактора смешивания предковых компонентов). Для этой цели я использовал стандартный инструмент — программу TreeMix. Я использовал только те снипы, которые встречаются в моей контрольной выборке (референсов каждого из компонента) с частотой выше 99 процентов. Как видно из нижеприведенного графика, компоненты выбраны правильно, а топология определяется практически безошибочно, несмотря даже на малое количество снипов (6 тысяч). Правильно определились и направления потоков генов, дрейфов генов (указаны стрелками). Тут в принципе мало нового — большинство этих эпизодов уже были описаны в отдельных работах генетиков. Так, виден поток генов от «денисовского» человека к усть-ишимцу, от которого в свою очередь идет поток генов к австралоидным популяциями. То есть денисовская примесь у папуасов могла достаться от сибирских популяциях близких к «усть-ишимцу». Виден также вклад ANE/EHG в геном североамериканцев -в интервале 10-15 процентов.

Принципально новым является лишь определенный программой дрейф генов в направлении от африканцев Khoisan к североафриканцами (в качестве референса которых взяты египтяне, бедуины и алжирцы). Скорее всего, это и есть тот самый пресловутый сигнал «египтского выхода» человечества из Африки, о котором недавно писалось в новейшей статье, а сам компонент -идентичен пресловутому Basal-Eurasian component


В начале июля  в связи с публикацией препринта о генофонде древних ближневосточных земледельцев решился все таки подписать заявление на имя Давида Рейха и Иосифа Лазаридис с ходатайством о доступе к полной версии их выборки (она включает много новых интересных для меня популяций — например, около сотни новых образцов шотландцев, шетландцев, ирландцев из разных областей Ирландии, немцев, сорбов и поляков из восточной и западной Польши).

Г-н Лазаридис был весьма любезен и буквально на следующий день после получения подписанного заявления предоставил мне доступ к этим данным. Я займусь их плотным изучением чуть позже. А пока любопытно посмотреть результаты пилотного Admixture анализа 5900 публичных доступных образцов. В качестве проверки надежности своего нового метода изучения древних и современных популяций людей, я провел 4 параллельных анализа Admixture c разным дефолтным значением предковых популяций (K).

Разумеется, в нашем случае число компонентов K заведомо больше 3, авторы статьи эмпирически показали что меньший разброс значений был получен при K=11. Поэтому я исходил из этой цифры, назначив три разных значения K — 10,11,13.
В первом варианте я использовал т.н unsupervised режим Admixture, т.е. программа должна была сама угадать и реконструировать частоты аллелей снипов в 10 реконструируемых предковых «компонентах» популяций.

Как и ожидалась, таковыми оказались африканский (пик у пигмеев и бушменов), америндский (пик у эксимосов и американских индейцев), сибирский (пиковые значение у нганасанов), южно-индийский компонент (пик в народностях Paniya и Mala), австрало-меланизийский, южно-восточноазиатский, три западно-евразийских компонента — 2 компонента западноевроп ейских и кавказских охотников-собирателей и неолитический; и наконец ближневосточный.

Разумеется, за исключением трех компонентов с пиками в древних геномах, данное распределение отражает cовременное распределение предковых компонентов.

Пришлось вручную выделять из ближневосточного компонента популяцию базальных европейцев (в качестве основы я взял геномы натуфийцев, т.е ближневосточный компонент — Levant_N — может быть разложен на два отдельных предковых компонента — неолитический и мезолитический «натуфийский»), а затем сгенерировать гипотетическую популяцию из 20 образцов состоящих на 100 процентов из натуфийского компонента. Именно этот компонент был включен в модель K11 под названием Levant_Mesolithic ( или Natufian). Этот компонент не стоит путать с компонентом Basal-Eurasian в калькуляторе Eurogenes K7 Basal-rich, так в в моей модели K11 основная часть базального компонента ушла в неолитические компоненты (т.е Natufian=Basal-Rich — Neolithic)

Гораздо сложнее ситуация обстояла с разделением компонента кавказских охотников-собирателей, которые наряду с американскими аборигенами несут в своем геноме значительные доли компонента древних северо-евразийцев. По этому причине очень сложно, например, разделить восточных охотников-собирателей (из мезолитических культур Карелии и Самары) и синхронным им кавказских охотников-собирателей.
Из-за присутствия компонента древних северо-евразийцев в их геноме, в Admixture компонент древних кавказцев увеличивается только за счет компонент восточных охотников-собирателей — и наоборот. Правда, можно попытаться выделить отдельный мезолитический компонент населения горного Загроса (Иран).

В случае успеха древние геномы жителей мезолитической Грузии можно будет представить как 20% компонента степных охотников-собирателей + 80% местного мезолитического субстрата.

Реклама

Вторая фаза нового проекта

Две недели назад я сообщил об окончании первой фазы своего нового проекта (на первом этапе работы удалось собрать надежную выборку из более чем 5000 образцов более чем 250 различных этно-популяционных групп людей по всему миру.

Как я уже рапортовал ранее, самой сложной из запланированных на втором этапе задач являлась импутирование (импутация) отсутствующих генотипов.  Читатели моего блога помнят, что две предыдущие экспериментальные попытки импутирования больших выборок     — в 2013  и в 2015  — закончились неудачно (или, если говорить точнее, качество импутированных генотипов не оправдало моих завышенных ожиданий). В предыдущих опытах я задействовал мощную комбинацию программ ShapeIT и IMPUTE и  метод импутирования снипов за счет использования большой референсной панели аутосомных гаплотипов (из 1000 genomes),  гарантирующей более аккуратное определение генотипов.

На этот раз, я решил не повторять ошибок, и обратился к использованию других программ — в частности , к  Minimac3, хорошо зарекомендовавшую себя в работе с геномами 1000G.  К моему счастью, я набрел на недавно появившиеся публичные сервера, работающие с «облачным» сервисом импутирования Cloudgene. геномов.
Серверы импутирования геномов позволяют использовать полную референсную панель гаплотипов для точного определения недостающих генотипов в анализируемых данных. Пользователи подобных серверов могут загружать (предварительно фазированные или несфазированные) данные генотипов на сервер. Процедура импутирования  будет осуществляться на удаленном сервере, и по окончанию этого процесса рассчитанные данные доступны пользователю для скачивания. Наряду с импутированием, подобные сервисы позволяют провести процедуру контроля качества (QC) и фазировки данных в качестве предварительного этапа процесса импутирования генотипов.

Прототипы серверов импутирования уже доступны в институте Сангера и Мичиганского университета. В дополнение к вышеназванным серверам, можно упомянуть прототип сервера поэтапной полномасштабной  фазировки генотипов анализируемых образцов (прототип создан биоинформатиками Оксфордского университета). На мой взгляд, самое простое и доступное решение задачи импутирования на удаленном сервере было разработано сотрудниками   Мичиганского университета. Дополнительное преимущество этому решению дает грамотная документация по использованию сервиса.

Основная рабочая лошадка сервиса — это комбинация двух или трех программ — две програмы для фазирования диплоидных генотипов в гаплоидную фазу  ShapeIT и Hapi-UR , а в качестве основного ПО для самого процесса импутирования (определения) недостающих генотипов — вышеупомянутую программу Minimac3.

Описание эксперимента с импутированием генотипов на удаленном сервере

В самом начале,  я разбил свою выборку на пять когорт (т.к. референсные панели на сервере также разбиты на «этнографические группы»):

  1. европейцы (европейцы + кавказцы) — 1715 образцов -87169 снипа
  2. азиаты (+американские аборигены и аборигены островов Тихого Океана) — 2356 образцов — 87044 снипа
  3. африканцы — 1054 образца — 86754 снипов
  4. палеогеномы древних жителей Евразии, Африки и Америки -340 — 594500 снипов
  5. смешанные группы — преимущественно мозабиты, пуэрто-риканцы и др.
QC-Report
На рисунке показана корреляция между частотами аллелей в изучаемоей выборке (здесь: европейская когорта) и частотами аллелей в референсной панели

К моему вящему неудовльствию,  некоторые образцы в сводной выборке не прошли контроль качества — в первую очередь это касается образцов европейцев из базы данных POPRES, а также выборок статьи  Xing et al. (2010). Скорее всего, их нужно будет импутировать отдельно.

Несмотря на значительную скорость обработки генотипов на удаленном сервере, к настоящему времени эксперимент еще не доведен до конца.  Пока я планирую ограничиться импутированием генотипов в 3 первых когортах (т.к. импутирование палеогеномов с помощью современных референсных панелей гаплотипов вероятнее всего приведет к искажению истинного разнообразия палеогеномов за счет проекции на современные группы населения, хотя авторы статьи Gamba et al. 2014 в сопроводительном материале к своей статье утверждают обратное).

После окончания фазирования и последующей обработки генотипов европейской когорты в программе Plink (были отсеяны все варианты с вероятностью ниже 0.9) ,  я получил выборку из 1715 европейцев с 25 215 169 снипами против изначальных 87169, т.е число снипов в выборке увеличилось в 290 раз!
В азиатской когорте соотношение импутированных генотипов к исходным составило чуть меньшую величину 19 048 308 / 87044 = 219.

Проверка результатов

Разумеется, все полученные результаты нуждались в дополнительной проверке качества генотипирования.
Cначала я объединил импутированную европейскую когорту с когортой палеогеномов (которая не была импутирована) и рассчитал в программе PLINK 1.9 матрицу IBS (т.е. сходства образцов в выборке между собой, эта метрика отдаленно напоминает Global Similarity в клиентских отчетах 23andme), а затем усреднил данные по популяциям и произвел по усредненным значениям иерархическую кластеризацию по признакам сходства (IBS, identity by state). Результат превзошел все мои пессимистические ожидания

 

 

Как становится очевидно из приведенной выше кластерограммы,  в целом взаимное расположение популяций в кластерах соответствует (в общих чертах) взаимному географическому положению. Присутствуют, правда, и некоторые огрехи. Так, например, венгры очутились в одном кластере с русскими из Курска,  норвежцы — с русскими из Смоленска, а усредненные «русские» — с американцами европейского происхождения из штата Юта и французами. Трудно сказать, в чем здесь причина, тем более что матрица была составлена по значениям IBS (идентичности по состоянию), а не IBD (идентичности по происхождению).  Более подробные данные о попарных значениях IBS между популяциями выборки можно посмотреть в этой таблице

Импутированная азиатская когорта (несмотря на расширение географии за счет включения образцов коренного населения Америки и аборигенов бассейна Тихого океана)  тоже  оказалась на удивление надежной. Я пока не буду останавливаться на подробностях изучения этой когорты, вместо этого я размещаю здесь результаты MDS- мультдименсионального шкалирования образцов выборки, образованной в ходе слияния 2 импутированных когорт (европейской и азиатской) с 1 неимпутированной (палеогеномы). Цветовое обозначение точек соответствует определенным кластерам, выявленных в выборке с помощью алгоритма MCLUST (cледуя рекомендациям Диенека Понтикоса). Всего этих кластеров 15 и они обозначены последовательностью чисел от 1 до 15, и каждый из этих кластеров имеет свою четкую географическую привязку:

  • 1 — кластер популяций ближнего Востока и  Анатолии
  • 2 — кластер популяций северного Кавказа
  • 3 — «индоевропейский» кластер древних популяций Синташта, шнуровой культуры, Ямной культуры и т.д.
  •  4 — кластер аборигенных жителей Америки (эскимосов и индейцев)
  • 5 — суперкластер популяций средиземноморского и восточноевропейского региона
  • 6 — сибирский кластер алтайских и самодийских популяций
  • 7 — кластер популяций западной и северной Европы
  • 8 — кластер палеосибирских популяций (таких как чукчи, ительмены и коряки)
  • 9 — кластер аборигенных (австронезийских и тай-кадайских) популяций юго-восточной Азии (даи, атаяла и ами)
  • 10 — кластер неолитических популяций
  • 11 — еще один ближневосточно-средиземноморский кластер (ашкеназим, сардинцы и так далее)
  • 12 — кластер североиндийских популяций
  • 13 — кластер центральноазиатских популяций
  • 14 — поволжские популяции
  • 15 — разные групп индусов

 

Охотники-собиратели Кавказа и южный генетический полюс ямников

Сергей Козлов

Охотники-собиратели Кавказа и южный генетический полюс ямников.

За прошедший год в научный оборот было введено множество палеогеномов из Европы и евразийской степи. Было доказано, что в западной части Европы произошло как минимум два резких смещения аутосомного ландшафта — сначала на палеоевропейские охотники-собиратели были замещены пришедшими из Анатолии неолитическими земледельцами (впрочем, часть их генофонда все же сохранилась), а впоследствии уже земледельцы оказались сильно потеснены новыми пришельцами, генетически схожими с представителями ямной КИО. Их след хорошо выделяется в современной Европе — во-первых, это относительно недавно обнаруженный, но ставший широко известным среди интересующихся геногеографией компонент ANE, во-вторых же, «загадочный» южный компонент ямников.

Авторы первой из опубликованных работ по аутосомам ямников смоделировали их, как смесь ~50 на 50 мезолитических восточноевропейских охотников-собирателей (EHG) и современных армян (впрочем, еще лучше на эту роль подошли иракские евреи, но их решили пропустить). Эта модель сразу вызвала во мне отрицательное отношение, поскольку у армян хорошо представлен аутосомный компонент неолитических земледельцев, а у ямников он не обнаружен в сколь-нибудь значимых количествах. Таким образом, модель изначально была неверна, но, к сожалению, была растиражирована еще до выхода статьи в свет (благодаря «утечкам» от авторов) и завладела многими умами. Постепенно вокруг слова «армянский» даже перестали ставить кавычки ))

К счастью, над палеогеномами работает целый ряд команд ученых и одна из них решила обратить внимание не только на северные палеообразцы, но и на остававшиеся долгое время в пренебрежении южные. Первой ласточкой стали два охотника-собирателя, жившие (согласно радиоуглеродной оценке) 9 и 13 тысяч лет назад на территории нынешней Грузии. В запаснике у этой команды еще немало могущих представлять интерес образцов древней ДНК, поэтому ждем дальнейших работ.

В качестве основного был использован более поздний из двух образцов, найденный в пещере Kotias. Он прочитан с весьма хорошим для палеогенома качеством (что позволило мне использовать его для подсчета IBD-сегментов). Моделирование показало, что в качестве «южного полюса» генофонда ямников кавказские охотники-собиратели (для них авторы статьи ввели новое сокращенное название — CHG) подходят намного лучше, чем любая из современных выборок:

CHGF3Stat

Это и неудивительно — ведь доминирующим аутосомным компонентом в предпочитаемом мной калькуляторе MDLP K27 у Kotias является Gedrosia-Caucasian, о котором я уже писал:

Однако с точки зрения предковых компонентов Admixture такая модель — далеко не лучший вариант, «южный» ямный компонент скорее связывается с чем-то в промежутке между Восточным Кавказом и Средней Азией. Как и предполагалось, он коррелирует с бимодальным компонентом, условно называемым Gedrosia. Исходя из современных максимумов, его исторический центр находится где-то в южном Прикаспии, возможно, восточнее. Судя по всему, он представляет собой результат смешения «ближневосточного» компонента ENF и ANE, поэтому теоретически исторического центра может и вообще не быть.

Как выяснилось, девять тысячелетий назад этот компонент преобладал и в более западных районах. Что ж, это делает его только еще более подходящим.

Результаты Kotias в K27:

0.42%   Nilotic-Omotic
  2.22% Ancestral-South-Ind.
  3.66% North-European-Balt.
  0.00% Uralic
  0.01% Australo-Melanesian
  1.79% East-Siberian
  0.00% Ancestral-Yayoi
30.28%   Caucasian-Near-East.
  0.00% Tibeto-Burman
  0.00% Austronesian
  0.00% Central-African-Pygm
  1.05% Central-African-HG
  3.66% Nilo-Saharian
  0.00% North-African
52.04%   Gedrosia-Caucasian
  0.00% Cushitic
  0.00% Congo-Pygmean
  1.73% Bushmen
  0.00% South-Meso-Amerind.
  0.00% South-West-European
  0.00% North-Amerindian
  0.00% Arabic
  0.01% North-Circumpolar
  3.13% Kalash
  0.00% Papuan-Australian
  0.00% Baltic-Finnic
  0.00% Bantu

Карта сумм IBD-сегментов Kotias с образцами из современных выборок:

KotiasSnpc-100IBDext

Лидерами по сумме сегментов оказались грузины (приведен список первых 25 результатов):

Georgian 71,79
Abkhazian 70,75
Lezgin 68,27
Greek_Azov 67,15
Balkarian 65,02
Kurd 64,38
Ossetian 62,66
Armenian 61,98
Nogay 60,38
Bosnian 60,23
Slovenian 60,02
Chechen 59,07
Adygei 58,39
Cypriot 58,28
Turkish 55,86
Kosovar 54,64
Ukrainian-West-and-Center 54,17
Bulgarian 53,21
Slovak 53,01
Cornish 52,46
Croatian 52,21
Kumyk 51,96
Makrani 51,91
Syrian 51,78
Greek 51,68

Что ж, можно их поздравить с генетической преемственностью на протяжении десятка тысячелетий. Однако по пропорциям компонентов Admixture грузины и абхазы довольно заметно отличаются от Kotias:

Abkhasian_S3 Georgian_Kaheti_R2 Georgian_West_R4 Svan_R3
Nilotic-Omotic 0,24 0,00 0,52 0,06
Ancestral-South-Indian 0,75 0,92 0,44 0,31
North-European-Baltic 8,58 5,60 6,87 6,93
Uralic 2,17 1,69 0,72 2,34
Australo-Melanesian 0,27 0,07 0,59 0,42
East-Siberean 1,20 0,00 0,20 0,42
Ancestral-Yayoi 0,72 0,00 0,00 0,44
Caucasian-Near-Eastern 40,79 41,08 45,61 42,85
Tibeto-Burman 0,00 1,09 0,12 0,38
Austronesian 0,72 0,20 0,00 0,23
Central-African-Pygmean 0,05 0,06 0,20 0,00
Central-African-Hunter-Gatherers 0,22 0,15 0,29 0,18
Nilo-Saharian 0,55 0,01 0,02 0,15
North-African 0,50 1,17 0,90 0,31
Gedrosia-Caucasian 32,01 31,65 33,18 35,31
Cushitic 1,17 1,56 0,31 0,42
Congo-Pygmean 0,00 0,25 0,18 0,35
Bushmen 0,04 0,00 0,00 0,00
South-Meso-Amerindian 0,27 0,04 0,14 0,12
South-West-European 2,68 5,06 2,73 1,91
North-Amerindian 0,13 0,04 0,13 0,23
Arabic 2,42 6,83 3,56 3,72
North-Circumpolar 0,47 0,09 0,99 0,41
Kalash 2,38 2,33 1,66 1,77
Papuan-Australian 0,42 0,11 0,33 0,32
Baltic-Finnic 1,25 0,00 0,20 0,14
Bantu 0,00 0,00 0,11 0,28

Как видно, компонент Gedrosia-Caucasian у них стал заметно ниже, а более западные и южные Caucasian-Near-Eastern, Arabic, South-West-European — выросли. Вырос и «северный» North-European Baltic. Думаю, что это связано с миграциями в регион новых групп, что несколько размыло изначальный генофонд. Поэтому современные грузины подошли на роль «южного компонента» в меньшей степени по сравнению с Kotias, и древние CHG выглядят на генетической карте более «восточными» (почему я и помещал этот компонент где-то в Прикаспии).

Кроме Кавказа, вызывает интерес явная связь CHG с рядом балканских популяций (и примыкающей к ним правобережной украинской выборке) — вероятно, это неспроста. Причем направление миграций здесь, очевидно, именно от CHG либо их родственников к балканцам.

Думаю, что сами CHG могут быть смоделированы, как смесь ближневосточников и носителей ANE откуда-то с родины компонента Gedrosia. Например, в калькуляторе ANE K7 Kotias получается таким (как обычно, «Африка» отображает архаику палеогеномов):

31.10%   ANE
  5.36% ASE
  0.01% WHG-UHG
  0.00% East_Eurasian
  2.47% West_African
  1.50% East_African
59.56%   ENF

Однако же никаких связей с Сибирью на карте IBD-сегментов он не проявляет. Таким образом, вновь встает вопрос о «южном» и «северном» вариантах ANE. Методами Admixture разделить его пока не удалось (если говорить о «чистом» ANE а не более новых компонентах, куда он входит составной частью). Возможно, он сам по себе является композитом — результатом смеси охотников северной Евразии и пришельцев с юга? Тогда у Kotias проявляется лишь его южная часть. Во всяком случае, мы можем выделить этот «восточный» компонент Kotias  в том числе и методом IBD-анализа, рассмотрев его разность с европейскими неолитическими земледельцами (EEF), выступающими здесь «прокси» ближневосточного компонента:

CHGMinusEEFIBDext

Результат прекрасно совпадает с распределением компонента Gedrosia-Caucasian — один из пиков оказался в Дагестане (лезгины), второй — рядом с исторической Гедрозией. Можно поздравить Вадима Веренича с удачным калькулятором. Любопытно, что соседи лезгинов по Восточному Кавказу — чеченцы и кумыки не оказались ярко выделенными, несмотря на немногим уступающую лезгинам долю ANE. Зато они выделяются у ямников и оленеостровца EHG. Возникает предположение, что либо эти народы в наибольшей степени испытали «ямное» влияние, либо «южный компонент» ямников наиболее связан с ними, либо их ANE относится к чуть другой веточке по сравнению с Kotias, более близкой к ямной. Во всяком случае. здесь есть, над чем подумать.

Теперь сравним Kotias с самими ямными геномами:

CHGMinusYamnayaIBDext

Как видите, связь с ямниками у выборок из Северной Европы и Поволжья-Урала очень сильна по сравнению со связью с CHG. Думаю, что основное объяснение этому — отсутствие у Kotias компонентов WHG и «северного» ANE. Они занимают основную часть как генофонда европейцев, так и ямников. Более интересна ситуация в Азии — в Средней Азии сильнее связь с ямниками, далее при движении на юг, к Индийскому океану, постепенно идет выравнивание в пользу CHG (возможно, это говорит о том, что ямное влияние сокращается и мы видим более «фоновое» родство) и на самом дальнем юге возвращается равновесие (эти популяции уже мало связаны как с ямниками, так и с CHG). «Ямный язык», вдающийся в Китай через алтайцев, уйгуров и Ту — не след ли это тоже индоевропейской миграции? Хотя это может быть и совпадением.

Что касается родного для Kotias Кавказа, то если на западе связь с ним очень сильна, к северо-востоку, как уже писалось, «ямное» влияние нарастает.

Некоторый интерес представляет и сравнение охотников-собирателей Кавказа с уже не раз упоминавшимися в этой заметке западноевразийскими охотниками-собирателями (WHG):

CHGMinusWHGIBDext

Поскольку WHG входит составной частью в генофонд неолитических земледельцев Европы (EEF), то «ближневосточное» влияние в Южной Европе, связанное с их миграциями, частично отфильтруется. Например, считающиеся наиболее схожими с EEF среди наших современников жители острова Сардиния здесь ярко-зеленые. Можно сделать вывод, что на Балканах и в южной Италии влияние CHG довольно серьезно (что мы и видели на первой карте). Хотя из-за влияния «чистого» WHG повсюду в Европе делать точные оценки сложно.

В заключение можно подытожить, что расшифровка геномов охотников-собирателей Кавказа является очередным, и достаточно заметным, шагом в деле восстановления доисторических миграций и формирования современной генетической картины в Евразии.

 

Палеоевропейцы из работы Haak et al, 2015 в свете анализа на IBD-сегменты

Сергей Козлов

Палеоевропейцы из работы Haak et al, 2015 в свете анализа на IBD-сегменты.

Обновлено 21.03.2015

В феврале произошло событие, которое многие геномные блоггеры с нетерпением ожидали на протяжении большей части предыдущего года — на  сервере Bioarxiv был размещен препринт статьи Haak et al с исследованием множества (преимущественно европейских) палеогеномов. Настолько качественного и подробного среза генетической истории европейцев мы еще не видели. Вадим Веренич уже разместил свой отзыв на работу, присовокупив к нему результаты собственных экспериментов и размышлений. Из его заметки можно составить прекрасное впечатление о статье.

Как это обычно и бывает, сообщество геномных блоггеров осталось не вполне удовлетворено полнотой предоставленной информации, и (повторюсь) с нетерпением ожидало возможности наложить свои руки на новые палеогеномы из статьи. Для этого пришлось дождаться официального выхода работы, и вот, наконец, момент настал. В первую очередь мне было интересно провести сравнение аутосомных IBD (или псевдо-IBD) сегментов с современными выборками и удостовериться — кто же все-таки в наибольшей степени является потомками людей, принадлежавших к исследованным археологическим культурам? Конечно, другие виды анализа тоже необходимо провести, но это сделают и без меня. К тому же об их результатах можно было догадаться из информации, опубликованной в статье (и эти догадки действительно подтвердились).

К сожалению, первая попытка оказалась неудачной — опубликованные на страничке лаборатории Райха геномы были полностью гаплоидными. Для того, чтобы сблизить условия анализа прочитанных с разным качеством палеогеномов, авторы статьи случайным образом выбирали один аллель для каждого снипа и далее использовали только его.  Разумеется, все IBD-сегменты при этом оказались разрушены. Однако проблему удалось обойти при помощи утилиты Феликса Чандракумара, преобразующую BAM-файлы в аналоги аутосомных файлов формата FTDNA. Лишь меньшая часть из обработанных геномов пригодна для IBD-анализа, но и прочитанных с удовлетворительным качеством достаточно много. Для этой заметки использованы следующие палеогеномы:

1) «Восточных охотников-собирателей», или EHG, представляет «оленеостровец» I0061 Karelia_HG    Yuzhnyy Oleni Ostrov, Karelia    5500-5000 BCE . «Самарский» образец EHG слишком плохо прочитан.

2) «Самарских ямников» представляют I0443    Yamnaya    Lopatino II, Sok River, Samara    3500-2700 BCE и I0231 Yamnaya    Ekaterinovka, Southern Steppe, Samara    2910-2875 calBCE

3) Культура шнуровой керамики также представлена двумя образцами, это I0103    Corded_Ware_LN    Esperstedt    2566-2477 calBCE и I0104 Corded_Ware_LN    Esperstedt    2473-2348 calBCE (восточная Германия, земля Саксония-Анхальт)

4) От культуры колоколовидных кубков лишь один образец, это I0112 Bell_Beaker_LN    Quedlinburg XII    2340-2190 calBCE (как и в случае КШК, земля Саксония-Анхальт)

5) Лучше всего обстоит дело с охватом неолитических земледельцев из культуры линейно-ленточной керамики, их целых четыре — I0054 LBK_EN    Unterwiederstedt    5209-5070 calBCE , I0100 LBK_EN    Halberstadt-Sonntagsfeld    5032-4946 calBCE, а также два ранее уже известных палеогенома — Stuttgart и NE1

Результаты по выборкам, представленным двумя или более образцами, усреднялись. Кроме этого, производилось нормирование результатов для каждой из пяти палеовыборок в пределах +- 10% с целью наилучшим образом попадать в диапазон карт и убрать влияние разницы в качестве прочтения. Конечно, это искусственное искажение данных, но все же, как мне кажется, оно скорее пошло на пользу, чем нанесло вред. В целом же карты получились качественными и наглядными. Думаю, что метод анализа на IBD-сегменты даже лучше подходит для палеогеномов, чем для наших современников.

«Оленеостровец» I0061 принадлежит к выборке, названной авторами EHG (Eastern Hunter-Gatherers). Это палеоевропейские охотники-собиратели северной части Восточной Европы, предположительно не затронутые позднейшим притоком генов с юга (от неолитических земледельцев и из других источников). И действительно, среди наших современников наибольшее количество пересечений с ним нашлось у северных восточноевропейцев — как говорящих на индоевропейских языках, так и уральцев. В первую очередь выделяются вепсы и северные русские из каргопольской выборки HGDP. Прибалтийская выборка, обычно проявляющаяся у восточноевропейцев наиболее ярко, на этот раз видна чуть слабее. Единственные, кто несколько выбивается из закономерности — поляки. Сложно сказать, случайность это, или же нет. Однако из-за этого отклонения польская выборка временами смотрится странно и на дальнейших «разностных» картах.

Оленеостровец (картинки можно увеличивать):

Обращает на себя внимание пятно в Средней Азии и северной Индии. Особенно интересна значительная разница между высшими и низшими кастами штата Уттар-Прадеш (на карте представлены обе выборки). Напрашивается версия, что это связано с приходом индоевропейцев с севера. Или же, как минимум, с приходом носителей R1a. Кстати, оленеостровец тоже принадлежал к этой Y-гаплогруппе (предковая ветвь R1a1).

Впрочем, как мне справедливо заметили, в северо-западную Индию было немало миграций и в более поздние времена. Например, «кшатрии» на севере считаются многими исследователями потомками переселенцев первого тысячелетия нашей эры.

Следующие на очереди — «ямники». В работе использованы образцы ямников из-под Самары, представляющие их крайний восточный вариант. Авторы статьи смоделировали их как 50% EHG / 50% современные армяне. Как будет показано далее, для этого есть некоторые основания. Однако с точки зрения предковых компонентов Admixture такая модель — далеко не лучший вариант, «южный» ямный компонент скорее связывается с чем-то в промежутке между Восточным Кавказом и Средней Азией. Как и предполагалось, он коррелирует с бимодальным компонентом, условно называемым Gedrosia. Исходя из современных максимумов, его исторический центр находится где-то в южном Прикаспии, возможно, восточнее. Судя по всему, он представляет собой результат смешения «ближневосточного» компонента ENF и ANE, поэтому теоретически исторического центра может и вообще не быть.

Самарские ямники:

В отличие от оленеостровца, «ямное» пятно более широко распределено по всей Европе, а Кавказ и Средняя Азия выделяются сильнее. Впрочем, лучше это смотреть на карте, отображающей разницу между ямниками и оленеостровцем. Не следует думать, что выборки, выделенные на разностной карте одним цветом, обязаны быть схожи между собой — просто разница их «расстояний» до I0443/I0231 и I0061 близка. И не забываем, что разностные карты в большей степени, чем одиночные, подвержены влиянию «шума» и случайных отклонений.

Разница между «оленеостровцем» и «ямниками». Красным цветом обозначено, у кого больше общих сегментов с первым, зеленым — со вторыми.

Как видно, наибольшая разница в пользу оленеостровца у представителей народов из уральской языковой семьи, причем тех, у кого силен «сибирский» вклад. Кроме жителей Западной Сибири, это марийцы (и родственные им тюрки-чуваши) в Поволжье, а также саами. Думаю, это неплохой довод в пользу ямников (или тесно связанной с ними группы), как распространителей индоевропейских языков. Наибольшая же разница «связь с ямниками» минус «связь с оленеостровцем» оказалась у уже упоминавшихся армян (и в целом зеленое пятно Кавказ-Малая Азия выражено сильнее всего). Таким образом, у армян хорошо выражены компоненты, имеющиеся у ямников, но отсутствующие у EHG. Но значит ли это, что модель «ямники=EHG+армяне» оптимальна? Я так не считаю. И при PCA-анализе, и при раскладке на компоненты Admixture мы видим, что «вторая половинка» должна быть где-то восточнее. На карте это проявляется в том, что взаимосвязь ямников с районом Пакистан-северная Индия (а особенно, что представляет отдельный интерес, с уйгурами. Уж не след ли это древних миграций индоевропейцев, например, тохаров, на восток?) выражена сильнее, чем у оленеостровца. Но модель считает, что это взято в основном от него, отсюда и заблуждение. Впрочем, и сами авторы пишут, что более адекватным видится вариант «третья группа, повлиявшая как на ямников, так и на современных армян».

Кроме уже перечисленных, явственно более сильную связь с ямниками проявляет выборка из Йемена (возникла мысль, что мы видим влияние небезызвестных Basal Eurasians — предположительно, именно йеменцы наиболее близки к ним из современных народов) и северо-западные европейцы. Это хорошо укладывается в предложенную авторами статьи модель, согласно которой северные европейцы в очень заметной мере являются потомками связанной с «ямниками» группы, которая мигрировала с востока и по большей части заместила предшествующее население. Кстати, у немцев (и германских народов в целом) необычно сильно проявляется все тот же компонент Gedrosia, которого не было у мезолитических охотников и неолитических земледельцев Западной Европы. И действительно, у восточногерманских образцов, принадлежащих к культуре шнуровой керамики, этот компонент появляется.

Карта для представителей КШК:

Очень похоже на «ямную» карту, не так ли? Но должны существовать и различия, попробуем их увидеть на разностной карте «самарцы» (красное) минус «шнуровики» (зеленое):

SamaraYamnayaMinusCWCIBDext

Картинка отнюдь не настолько контрастна, как было в случае сравнения ямников с оленеостровцем. Видимо, это связано с тем, что разница между сравниваемыми выборками в данном случае слабее. И все же некоторые взаимосвязи проявляются. Во-первых, заметно сильнее связь со шнуровиками у жителей острова Сардиния — как считается, они наиболее хорошо сохранили генофонд неолитических земледельцев Европы. Кроме этого, лучше связаны со шнуровиками, чем с ямниками, люди из района Белоруссия-Польша-Западная Украина. И наоборот, «ямные» пятна выделяются вокруг Удмуртии (уж не там ли живут потомки «самарцев»?), в районе «Средняя Азия-Индия» (включая уже упоминавшихся выше уйгуров), и в Закавказье/Малой Азии. Можно предположить, что шнуровики получились в результате смешения неолитических земледельцев и группы, родственной «самарцам», но более западной, сильнее связанной с «белорусским» пятном (и слабее — с тремя «ямными»).

Намного более наглядна разностная карта представителей культуры линейно-ленточной керамики (неолитических земледельцев) и шнуровиков:

LBKMinusCWCIBDext

Два мира — красным выделены народы, в большей степени связанные с неолитическими земледельцами (в отличие от предыдущей карты, сардинцы здесь сильнее связаны с противоположной шнуровикам стороной), зеленым — связанные с заместившими и поглотившими их пришельцами, носителями компонентов WHG и ANE. Обратите внимание, что армяне здесь ярко-красные — это еще раз доказывает ошибочность модели «ямников» как смеси EHG и армян в пропорции 50/50. Ведь тогда «армянский» вклад у «шнуровиков» был бы заметно сильнее.

А вот разница с «оленеостровцем»:

Здесь мало что можно добавить к тому, что уже писалось про разницу «оленеостровец»-«самарцы». Разве что Западное Средиземноморье стало более зеленым, а Средняя Азия-менее.

Наконец, для полного комплекта добавлю карту сравнения с представителем более западного варианта охотников-собирателей, Loschbour:

LoschbourMinusCWCIBDext

Родство с WHG преобладает лишь в дальнем северо-восточном углу Европы. Таков печальный итог нескольких волн миграций с замещением предыдущего населения.

Результаты для представительницы культуры колоколовидных кубков очень близки предшествующей «шнуровой» выборке. Поэтому разностная карта между ними еще более невразумительная, чем при сравнении шнуровиков и самарцев. Дело усугубляется еще и тем, что образец ККК лишь один, а значит, случайные отклонения и прочий «шум» выше.

ККК минус КШК:

BellBeakerMinusCWCIBDext

Судя по всему, у шнуровиков неколько выше доля вклада «охотников-собирателей» и «ямного» компонента в целом. В то же время «средиземноморский» компонент выглядит чуть сильнее у ККК. Но все это тонет в шуме.

Не вижу смысла приводить сравнения представительницы ККК с окружающими, аналогичные КШК, поскольку они выглядят практически так же. А следовательно, мой обзор закончен. Что ж, можно с глубоким удовлетворением отметить, что палеогеномы из работы Haak et al действительно проливают свет на процессы, происходившие в Европе на рубеже каменного и бронзового веков — естественно, уточняя и дополняя уже известное специалистам.

PCAdmix: инструмент и методология для оценки происхождения хромосомных сегментов

В марте прошлого года  Сергей Козлов — один из соавторов данного блога, — опубликовал важную с точки зрения методологии генетико-генеалогического анализа заметку о принципах оценки вероятности определения времени жизни последнего общего предка при попарном сравнении аутосомных данных двух или более сравниваемых индивидов.  Действительно, в последние годы среди людей, интересующихся генеалогией, приобрели заметную популярность сервисы, производящие поиск генетических родственников по всем линиям, а не только по прямой мужской и прямой женской. В качестве примера можно привести Family Finder от FTDNA и DNA relatives от 23andMe. Участник получает достаточно длинный список так называемых «совпаденцев» — людей, имеющих с ним один или более участок половинного совпадения (УПС) на аутосомах (неполовых хромосомах). Если участок достаточно длинный (а его длина измеряется в сантиморганидах, обозначающих вероятность разрыва участка при каждой передаче в следующее поколение), то это говорит о наличии общего предка (от которого участок и получен).
Для значительной части клиентов сервисов персональной коммерческой геномики, интересующихся исключительно вопросами своего происхождения, вопрос о достоверном определении времени жизни общих предков имеет первостепенное значение. И вместе с тем, именно проблема с получением четкого ответа на этот краеугольный вопрос служит одной из главных причин недовольства и раздражения клиентов компаний вроде FTDNA или 23andme.

Действительно, изучив длинные сегменты генома, передававшихся от поколения к поколению и встречающиеся у многих людей, можно примерно определить степень и интенсивность предковых связей, берущих начало много тысяч лет назад.  Здравый смысл подсказыает — дальние родственники имеют такие длинные сегменты генома потому, что они унаследовали их от общих предков. У более далеких родственников длина сегментов общих геномов соответственно становится короче, поскольку происходит рекомбинация гомологичных хромосом, в результате чего с каждым следующим поколением происходит перемешивание всей совокупности генов или генотипа. Очевидно, что число и размер совпадающих общих по происхождению сегментов геномов у двоих произвольно взятых лиц из однородной метапопуляции коррелирует с географический дистанцией —  количество общих генетических предков резко уменьшается по мере увеличения географического расстояния.

Однако наряду с  географически близкими (в пределях 50-100 км)  «совпаденцами», нередко в списках «совпаденцев», предоставляемых в 23andme или FTDNA появляются совершенно экзотические «совпаденцы». Например, у финна может появится совпаденец из Италии, а у корейца — из  Великобритании. Совершенно очевидно, что подобные случаи очень сложно объяснить не только простым сопоставлением сведений о географическом происхождении предков, но даже и безотказной в простых случаях  моделью наложения «этнопопуляционного аутосомного фона в виде коротких реликтовых  IBD сегментов».

В этой связи возникает практический вопрос — как интерпретировать подобные случаи, при условии что подобные сегменты представляют собой не «ложно-позитивные», а вполне достоверные совпадения, указываюшие на существование в неопределенный момент прошлого некоего общего предка. И подобные случаи характерны не только для коммерческих «выборок», но и для вполне серьезных научных баз данных, например 1000 Genomes. В частности,  в этой базе данных при сравнении редких снипов у 89 британцев и 97 китайцев были обнаружены три англо-китайские пары с отдаленным генеалогическим родством ( в геноме этих пар были обнаружены идентичные по происхождению фрагменты (IBD сегменты) ДНК,  которые составляют 0,001%, 0,004% и 0,01%  их геномов).

Самое простое решение этой проблемы некоторые из любителей генетической генеалогии пытались найти в обращении к сервисам главного инструмента аутосомной генетической генеалогии  Gedmatch. В частности, как известно, данный сервер содержит онлайн-версии практически всех популярных среди любителей модификаций DIYDodecad калькуляторов. Например, выбрав разработанный мною калькулятор MDLP K23b в режиме Chromosome painting: Paint differences between 2 kits, 1 chromosome   и сравнив характер распределения предковых компонентов на гомологичных хромосомах у двух сравниваемых людей, можно получить примерное представление о географическом ареале, в котором мог жить общий предок этих людей (вероятно, на этот ареал будет указывать доминирующий на совпадающем сегменте компонент). Логика простая. Предположим, например, что мы сравниваем  сегменты хромосомы X в данных индивида A этнического происхождения D c данными индивида В этнического происхождения С. Здесь возможны три варианта

  • С-происхождение предка или предков индивида A
  • D-происхождение предка или предков индивида B
  • Y-происхождение подмножества предков обоих индивидов

Используя эту логику,  можно предположить что если в попарном сравнении  сегмента обозначится хорошо выраженное преобладание (по отношению к средним значениям) компонента, характерного для этнопопуляции С, то следует выбрать первый сценарий; аналогично, если обнаружится избыток компонентов характерных для этнопопуляции D, то следует выбрать второй сценарий; если будет замечено преобладание редких  для этнопопуляций С и D компонентов, то следует остановится на третьем варианте.

 


Пример I.

В этом примере мы будем использовать свои данные и данные женщины, с которой у нас был обнаружен подтвержденный генеалогией общий предок, живший в середине 19 века.  При сравнении наших данных, алгоритм поиска достоверных генеалого-генетических совпадений обнаружил три сегмента с генетической дистанцией > 7 cантиморганов, cостоящих в блочной записи из более чем 700 последовательно совпадающих снипов

Start Location End Location Centimorgans (cM) SNPs
4 32232224 42421625 13.2 1115
7 8295405 13845989 9.8 885
11 36784445 45084878 8.0 881

Самый большой сегмент = 13.2 cM
Общий размер сегментов с сантиморганах > 7 cM = 30.9 cM
Приблизительное число поколений до общего предка  = 4.4

Задетектированные  сегменты хромосом идеографически отображаются при попарном сравнении в цветовой гамме — черный цвет означает несовпадающие сегменты, другие цвета — компонентную привязку к одному из компонентов моего калькулятора MDLP K23b.  Ниже приведены фрагменты идеографического отображения 2 из 3 вышеуказанных совпадающих сегментов на кариограмму 4 и 7 хромосомы.:

M051225_F298455_4_D64088
Сегмент на 4 хромосоме
M051225_F298455_7_BC1A38
Сегмент на 7 хромосоме

Самый значительный сегмент (13.2 сM) на 4 хромосоме имеют хорошо заметную привязку к северо-восточно-европейскому компоненту [зеленый цвет], в исторической перспективе связанному с наследием мезолитического населения этого региона. А вот сегмент на 7 хромосоме имеет более сложную структуру, в которой характерно преобладание кавказского компонента [голубой цвет]. Таким образом можно уверено утверждать, что общий предок (или предки) могли жить в регионе восточной Европы.

К сожалению, данный инструмент сегментного сравнения на  Gedmatch хотя и прост в обращении (в силу интуитивной понятности), однако  далек от совершенства. В первую очередь, на аккуратность определения «генографического»происхождения сегмента влияет отсутствие на сервере  гаплоидных фаз похромосомных данных. В результате, сравнение ведется не по конкретной фазе (т.е по конкретной хромосоме доставшейся ребенку от каждого из родителей), а по диплоидному составному блоку, т.е вместо настоящих IBD мы можем оперировать half-IBD (HBD), которые на слэнге русскоязычных любителей именуются УПС-ами. Во вторых, аккуратность генографического определения  зависит от аккуратности определения предковых компонентов в используемом варианте калькулятора, но это отдельная тема для разговора.


К счастью, парадокс «экзотических» совпаденцев имеет более точное решение с помощью одной из программ, позволяющих определять геногеографическую структуру или «локальное происхождение» совпадающих сегментов.  Можно использовать разные программы, HAPMIX, LAMP , HAPAA, ANCESTRYMAP — так как несмотря на ряд принципиальных отличий, все они используют алгоритмы моделнй скрытых марковских цепей (HMM) и поэтому выдают в целом схожие результаты. К этому же классу программ относится и более новая програма PCAdmix, которую я буду использовать в своем втором примере, в котором я задействую фазированные в BEAGLE генотипы.  В целях разжевывания принципов работы программы, следует вкратце описать рабочий процесс PCAdmix.
PCAdmix являет cобой метод, который оценивает локальное происхождение хромосомных сегментов с помощью анализа главных компонентов (PCA)  фазированных гаплотипов. В самом начале выполняется анализ главных компонентов в 2-3 референсных панелех, необходимых доя построения пространства главных компонентов, например, для хромосомы 22 . Поскольку метод использует фазированные данные, каждая копия хромосомы 22 в референсных панелях рассматривается как отдельная точка в пространстве главных компонентов. Первые две главные компоненты, как правило, представляют собой оси «предкового» расхождения популяций референсных панелей, что хорошо заметно на графиках. Если подобного рассхождения не наблюдается,  то скорее всего в популяциях референсных панелей «маскируется» присутствие неявной популяционной субструктуры. В построенное таким способом пространство главных компонентов в дальнейшем проецируется группа лиц «смешанного» происхождения, и затем определяется значение нагрузки главных компонентов для каждого снипа.  После этого метод переходит к анализу коротких «окон» снипов — для каждого из этих окон вычисляются  вероятности того, что данное окно в гаплотипе человека «смешанного» происхождения происходит от одной из референсных популяций. Вычисленные таким образоом вероятности различных вариантов происхождения каждого окна снипов, используются на заключительном этапе метода в  скрытой моделе Маркова (HММ) для сглаживания шума в определении происхождения «окон» снипов. Таким образом, данная скрытая модель Маркова НММ зависит от значений главных компонентов, доли каждого «компонента происхождения» на заданной хромосоме, а также матрицы перехода, которая, в свою очередь, зависит от числа поколений прошедших с момента смешивания популяций и генетического расстояния (сM) между двумя окнами снипов. В текущей версии метода, рекомбинаторные расстояния и число поколений определяются параметрами.
Конечным результатом рабочего процесса PCAdmix является матрица состяний скрытой модели Маркова, содержащая апостериорную вероятность каждого из возможных вариантов происхождения для данного «окна снипов», и эта вероятность обусловлена остальной частью данных для хромосомы. Важно отметить, что происхождение каждого окна снипов определяется только в том случае если апостериорная вероятность для одного из возможных происхождений > = 0,8. Любое окно, для которого максимальная апостериорная вероятность любого варианта происхождения <0,8, считается «неопределенным».


Пример 2

Данный пример основан на реальном случае, когда ко мне обратился человек, чьи предки происходят из центральных регионов Азии. Смущенный наличием в списке своих совпаденцев в сервисе Relative Finder 23andme  человека с корейскими и японскими корнями, а также  семейными легендами о «восточноазиатской»прабабушке, он попросил меня определить вероятность присутствия японцев в числе своих ближайших (в пределах 5 поколений) предков, опираясь исключительно на аутосомные данные.

В этом эксперименте, я решил скурпулезно следовать инструкциям разработчиков PCAdmix, и для начала произвел фазирование (биоинформатическую реконструкцию гаплотипных фаз аутосомных хромосом) в программе BEAGLE. Данные тестанта (ок 400 тыс. снипов) были фазированы в присутствии 3 контрольных референсных групп популяций — британцев GBR, китайцев CHB и японцев JPT — поскольку эти группы были позднее задействованы мной в качестве 3 референсных панелей. В целях уменьшения количества ошибок, которые неизбежно появляются в результате импутации пропущенных «генотипов» снипов, я использовал только те общие снипы, которые были определены как в аутосомных данных клиента 23andme, так и в трех референсных группах.

Затем фазированные данные тестанта были похромосомно обработаны в рабочих циклах программы PCAdmix. Программа отфильтровала cнипы с низким значением MAF и высоким значением LD, в результате чего число снипов уменьшилось почти вдвое. Оставшиеся снипы были разбиты на «окна снипов», каждое из которых состяло из 20 снипов.  При расчете по всем 22 хромосомах, общее количество полученных таким разбиением «окон» составило 11 997. В конце рабочего цикла (метод главных компонентов + HMM) программа выдала для каждой парной аутосомной хромосомы A и B  файл в формате bed, удобном для отображения дополнительной информации в аннотации генома (номер хромосомы, начало и конец сегмента, наиболее вероятный регион происхождения сегмента, cM, максимальная вероятность и апостериорная вероятность одного из трех вариантов происхождения — JPT, GBR, CHB, непоказана в таблице). В конечном отчете GBR используется как индикатор сегментов не-восточноазиатского происхождения (nEA), JPT — японского происхождения (JPA), CHB — неспецифичных сегментов восточноазиатского происхождения (EA) :

10 111955 468599 GBR 0.004885 0.134147 GBR* 0.636943
10 521723 811876 GBR 0.142147 0.582463 GBR* 0.646868
10 815149 1151723 GBR 0.585829 0.898724 GBR* 0.676252
10 1156487 1335849 GBR 0.901503 1.23673 GBR 0.925059
10 1337709 1449849 GBR 1.24246 1.60705 GBR 0.99999
10 1454864 1510208 GBR 1.61249 1.76798 GBR 0.999506
10 1512546 1623734 GBR 1.77039 2.12653 GBR 0.999647
10 1624900 1669347 GBR 2.13038 2.25357 GBR 0.999778


Выбор формата BED в качестве формата выходных в моем случае также был далеко неслучайным. C помощью одной из библиотеки платформы Bioconductor формат BED легко отображается в кариограмме 22 пар аутосомных хромосом человека (я использовал координаты геномного билда b37). Чтобы было понятно, что именно изображают эти «кариоплоты» (идеографические изображения хромосом), необходимо пояснить, что  «японское происхождение» (JPA) приписывалась 20-сниповому сегменту только в том случае, если апостериорная вероятность японского происхождения данного «окна из 20 снипов» составляла > = 0,8. Любое окно, для которого максимальная апостериорная вероятность любого варианта составляля <0,8, засчитывалось как окно  с «неопределенным» происхождением (UND).Chromosomes A

Chromosomes A

 

Chromosomes B
Chromosomes B

Эксперимент показал, что среди 11997 «окн» число  «окон» не-восточноазиатского (nEA) происхождения (7650) почти в два раза больше чем число «восточноазиатских» сегментов. Происхождение 2750 геномных «окон» снипов невозможно определеить, и только 965 «окна» могут быть определены как «японские по происхождению». Вместе с 617 окнами «китайского» (EA),  восточно-азиатские сегменты составляют меньше, чем 10% генома.
Не менее важно и то обстоятельства, что значительная доля этих сегментов-окон пришлась на низких «консервативные, низкорекомбинантные» области хромосом,  — такие, как  например, теломеры, центромеры и регионы с низкой плотностью снипов: сегменты в таких регионах могут переходить от одного поколения к другому фактически в неизменном виде. Наконец, те же закономерности распределения родословной были отмечены в обеих фазированных наборах аутосомных хромосом, что опровергает версию о недавной «восточноазиатской» примеси со стороны одного из родитедей и скорее  свидетельствует о древнем эпизоде смешивание определенных центрально- и юго-западноазиатских групп с группами восточноазиатского происхождения (например, в ходе монгольских или тюркских нашествий).

Разумеется, как и во многих других моделях анализа, основанных на вероятностях, наше заключение нельзя считать окончательным вердикторм. Вместо этого, лучше сказать, что шансы в пользу существования «недавнего японского предка» против шансов отсутствия такого, составляют 10 к 90. Другими словами, вариант с недавней японской «примесью» нельзя полностью исключить, поскольку вероятность такого сценария  составляет 11%.

 

Расширенные карты для палеогеномов

Обновлено 30.11.2014

Этот пост также продолжает один из предыдущих, а именно визуализацию суммы IBD-сегментов (а возможно, это и не IBD — вопрос остается открытым) двух палеоевропейцев и мальчика со стоянки Мальта с современными  выборками. С тех пор в открытом доступе появилось еще несколько обработанных палеогеномов — «усть-ишимец«, «Костенки-14» («человек с Маркиной горы») и два палеогенома хорошего качества из Венгрии.

Результаты собраны мной в онлайн-таблицу, а также отрисованы на расширенных картах. Поскольку усть-ишимец явно тяготел к восточноазиатам, пришлось добавить к сравнению выборки из Южной и Восточной Азии. Ну а после этого логика подсказывала, что неолитических земледельцев Европы неплохо бы сравнить с жителями Ближнего Востока. Таким образом, все карты перерисованы.

Напомню также, что результаты для «мальтинца» и «костенковца» получены при ослабленных настройках фильтра из-за низкого качества прочтения этих двух геномов. Напрямую сравнивать их с пятью другими нельзя. Для отрисовки Loschbour значения умножены на 1,5 в целях повышения контрастности.

«Неолитическая фермерша» )) Stuttgart/LBK

«Неолитический земледелец» NE1:

Усреднение по двум земледельцам дает более ровную картинку:

«Охотник-собиратель» Loschbour:

Разница между «охотником-собирателем» и усреднением по двум земледельцам. Красное — больше сегментов с Loschbour, зеленое — c Stuttgart и NE1

Европеец позднего бронзового века BR2 из Венгрии:

«Усть-ишимец»:

Костенки-14 (ослабленные настройки):

Мальтинец (аналогично):

И наконец, в качестве примера результата нашего современника, моя собственная карта:

 

 

Визуализация уровня гомозиготности и генетического разнообразия у народов Евразии

Обновлено 30.11.2014

После составления при написании предыдущего поста таблицы уровня гомозиготности в выборках Евразии, мне, конечно же, захотелось визуализировать его на карте (дополнив рядом новых выборок) .  Можно считать, что эта карта показывает уровень генетического разнообразия у каждого народа (ведь чем ниже количество гомозиготных снипов, тем разнообразие выше), но с одной оговоркой. Дело в том, что это число сильно зависит от используемого набора снипов. Таким образом, если в наборе много снипов, более часто встречающихся у европейцев, то разнообразие у них автоматически окажется завышенным, а у жителей других частей света — заниженным. А поскольку чипы для генотипирования предназначены в первую очередь для европейцев, такое вполне возможно.

Но все же мне кажется, что этот эффект либо не повлиял на результаты, либо повлиял незначительно. Наиболее разнообразными выборками получились отнюдь не европейские, а жители районов, прилегающих к Красному Морю. Это выглядит вполне объяснимо, поскольку где-то там и находится прародина всех не-африканцев. Другие результаты смотрятся тоже очень логично — по мере удаления от прародины разнообразие постепенно терялось.

Update от 21.01.2015. Для оценки эффекта можно сравнить с подсчетами из работы Fu et al:

FuHomosyg

Как можно увидеть, результаты по неафриканским популяциям хорошо коррелируют с моими. Однако по африканским выборкам результат прямо противоположный. Очевидно, евразийские снипы у них менее распространены, зато имеются свои собственные. Таким образом, метод (с данным набором снипов) можно использовать для выборок за пределами Черной Африки.

На карте зеленым цветом выделены выборки с наибольшим разнообразием, красным — с наименьшим:

HomosygIBDext

Как я уже писал, наивысшим разнообразие получилось у жителей Египта, Эфиопии, Йемена. Наинизшее из присутствующих на карте — у народов Северо-Восточной Сибири и Южного Китая. Однако у не попавших на карту есть и гораздо более экстремальные значения гомозиготности. Наибольшей она оказалась у южноамериканских индейцев и выборки папуасов. Чуть отстали африканские пигмеи, а вот обычные африканцы (йоруба и кенийские банту) вышли примерно на уровне восточноазиатов. Возможно, их реальное разнообразие еще выше (с учетом эффекта, описанного в первом абзаце).

Видно снижение разнообразия у народов-изолятов — калашей и бедуинов. И наоборот, у народов смешанного происхождения разнообразие выше. Например, на границе Европы и Азии выделяются ногайцы, башкиры, татары, коми-зыряне. В целом в Европе разнообразие плавно снижается с юга на север, за исключением выборок-изолятов — басков и сардинцев. А, допустим, в Индии все наоборот — понижение идет с северо-запада, откуда шли вторжения пришельцев, на юг и восток, к дравидам и австроазиатам.

При подсчете суммы IBD-сегментов уровень гомозиготности в выборке играет заметную роль. Например, «экстремалы» эвенки и эвены всегда разделяют меньше сегментов с европейцами, чем их соседи, но зато больше — с восточноазиатами.

В заключение приведу обновленную таблицу среднего процента гомозиготных снипов по используемым выборкам (и по используемому набору снипов):

Yemenite 65,20%
Egyptian 65,31%
Ethiopian 65,33%
Nogay 65,49%
Moroccan 65,52%
BR2 65,61%
Tatar-Kazan 65,65%
Azerbaijani 65,66%
Tatar-Crimean 65,67%
Kumyk 65,71%
Uttar-Pradesh-HC 65,72%
Bashkir 65,73%
Balkarian 65,78%
Komi 65,88%
Gujarati 65,92%
Tadjik 65,92%
UAE 65,92%
Turkmen 65,95%
Uzbek 66,00%
Uygur 66,00%
Greek_Azov 66,01%
Ashkenazi 66,03%
Ossetian 66,04%
Spanish 66,05%
Burusho 66,05%
Chuvash 66,05%
Croatian 66,05%
Abkhazian 66,09%
Iranian 66,09%
Russian-North-East 66,10%
Lezgin 66,10%
German 66,10%
Armenian 66,13%
Bulgarian 66,13%
Russian-South 66,14%
Italian-South 66,15%
Romanian 66,16%
Ukrainian-West-and-Center 66,16%
Sicilian 66,16%
Russian-North-Kargopol 66,17%
Greek 66,17%
Cypriot 66,18%
Swedish 66,19%
Palestinian 66,19%
Chechen 66,20%
Belarusian 66,20%
Hungarian 66,23%
Hazara 66,23%
Moksha 66,23%
Erzya 66,24%
Udmurt 66,25%
Georgian 66,26%
Ukrainian-East-and-Center 66,26%
Sephard 66,27%
Italian 66,29%
Ust-Ishim 66,29%
Kazah 66,29%
Tatar_Lithuanian 66,30%
Kurd 66,32%
Jordanian 66,33%
Turkish 66,33%
Mari 66,33%
Polish 66,34%
Adygei 66,35%
Norwegian 66,35%
Russian-West 66,36%
French 66,36%
Estonian 66,42%
Balt 66,45%
Karelian 66,45%
Kol 66,47%
NE1 66,49%
Veps 66,50%
British 66,51%
Finnish 66,51%
Tunisian 66,52%
Uttar-Pradesh 66,53%
Mansi 66,60%
Sindhi 66,61%
Brahui 66,68%
Kanjar 66,71%
Pathan 66,75%
Syrian 66,78%
Kirgiz 66,79%
Saud 66,91%
Makrani 67,02%
Basque 67,02%
Druze 67,08%
LBK 67,08%
Sardinian 67,08%
Andhra-Pradesh 67,09%
Bedouin 67,27%
Karnataka 67,33%
Hakas 67,33%
Altaian 67,33%
Balochi 67,36%
Saami 67,55%
Mongol 67,56%
Kalash 67,59%
Shor 67,63%
Munda 67,75%
Kerala 67,88%
Burmese 67,97%
BantuKenia 68,08%
Tuvinian 68,08%
Dolgan 68,24%
Tamil-Nadu 68,27%
Buryat 68,48%
Selkup 68,49%
Ket 68,54%
Xibo 68,54%
Cambodian 68,61%
Mongola 68,63%
Tu 68,65%
Yoruba 68,68%
Yakut 69,01%
Daur 69,11%
Han-North 69,14%
Nivh 69,25%
Naxi 69,31%
Evenk 69,32%
Hezhen 69,34%
Oroqen 69,39%
Yi 69,40%
Han 69,48%
Dai 69,62%
Japanese 69,67%
Miao 69,73%
Tujia 69,80%
She 69,88%
Naga 70,06%
Lahu 70,14%
Nganassan 70,37%
Even 70,64%
BiakaPygmy 70,69%
Maya 71,08%
MbutiPygmy 72,80%
Melanesian 73,03%
Loschbour 73,79%
Papuan 75,67%
Karitiana 76,17%
Kostenki-14 85,96%
Motala12 90,19%
Malta 94,41%