Окончание процесса фазирования и импутирования геномов

К середине мая этого года я закончил трудоемкий процесс импутации сборной солянки из 9000 публично доступных образцовых представителей  700 различных человеческих популяций, генотипированных в разное время на разных снип-платформах (главным образом — Illumina и Affymetrix)
Строго говоря, я планировал завершить этот этап работы намного раньше, но в ходе выполнения работ возник ряд обстоятельств, помешавших завершить этот этап в срок. Главным из них является смена сервера где я выполнял импутирование геномов. Я начал работать на сервере Мичиганского университета, однако в ходе процесса перешел на аналогичный сервис Института Сэнгера (имени того самого нобелевского лауреата, предложившего первый метод полного сиквенирования генома).
Это решение было продиктовано необходимостью использовать новейшую референсную панель аутосомных гаплотипов — Haplotype Reference Consortium (в нее входит примерно 30 тысяч, а после предстоящего этим летом обновления — свыше 50 тысяч — аутосомных геномов, т.е свыше 60 тыс. гаплотипов). Надо сказать, этнический состав выборки референсных геномов впечатляет, хотя и там по-прежнему наблюдается перекос в сторону европейских популяций. К сожалению, и эта новейшая выборка представлена преимущественно европейцами (поэтому вероятность  импутированных генотипов для европейских популяций оказались лучше аналогичных результатов в африканской и азиатской когортах), однако даже с учетом этого обстоятельства ее надежность в определении негенотипированных аллелей снипов выше 1000 Genomes (не говоря уже о HapMap):

1 UK10K 3715 3781 6.5x
2 Sardinia 3445 3514 4x
3 IBD 4478 4478 4x + 2x
4 GoT2D 2710 2974 4x/Exome
5 BRIDGES 2487 4000 6-8x (12x)
6 1000 Genomes 2495 2535 4x/Exome
7 GoNL 748 748 12x
8 AMD 3305 3305 4x
9 HUNT 1023 1254 4x
10 SiSu + Kuusamo 1918 1918 4x
11 INGI-FVG 250 250 4-10x
12 INGI-Val Borbera 225 225 6x
13 MCTFR 1325 1339 10x
14 HELIC 247 2000 4x (1x)
15 ORCADES 398 399 4x
16 inCHIANTI 676 680 7x
17 GECCO 1131 3000 4-6x
18 GPC 697 768 30x
19 Project MinE — NL 935 1250 45x
20 NEPTUNE 403 403 4x
Totals 32611 38821
22 French-Canadian 2000 5-6X End 2014
23 Converge 12000 1x Now
24 UG2G Uganda 2000 4x 2015
25 Arab Genomes 100 30x
26 Ashkenazi 128 CG Now
27 INGI-Carlantino 94 4x Now
28 CPROBE 80 80 4x

 

Cледуя рекомендациям, я получил набор из 9000 образцов, каждый из которых включает в себя набор из 20-30 миллионов снипов. К сожалению, из-за субоптимальности результатов в некоторых выборках (Xing et al, Henn et al. и ряде других), их придется исключить из тех видов анализа, которые требует максимальной точности исходных данных. Импутированные генотипы (выраженные через оцененные вероятности) были трансформированы с помощью программы Plink 1.9 в генотипы, причем выбирались варианты полиморфизмов с вероятностью 0.8 (—hardcallthreshold 0.8)

Для оценки полезности импутированных генотипов для популяционного анализа я использовал метрику nearest в программе Plink (матрица с дистанцией между ближайшими геномами) и кластерограммы IBS (идентичности по генотипам).

Таблица метрики nearest (Z-статистика)

А это кластерограмма с хорошо видно географической локализацией кластеров. Я использовал для кластеризации матрицы IBS несколько разных алгоритмов — наиболее убедительный вариант был получен с помощью алгоритма Ward

Другие варианты топологии кластерограмм в формате NEWICK и TRE можно посмотреть здесь (их можно открыть в любой программе для визуализации филогенетических деревьев).

Таким образом, для некоторых типов анализа в популяционной генетике использование импутированных снипов может сослужить хорошую службу, смягчая (или, наоборот, увеличивая) градиент частот аллелей).

Дополнительные анализы — fastIBD, IBS, анализ главных компонентов — образцов в выборке, только подтверждает это наблюдение:


Но самое лучшее подтверждение надежности импутированных снипов для анализа компонентов происхождения  было получено с помощью p-теста Z-статистики во время оценки правильности определенной топологии дерева компонентов (с допущением фактора смешивания предковых компонентов). Для этой цели я использовал стандартный инструмент — программу TreeMix. Я использовал только те снипы, которые встречаются в моей контрольной выборке (референсов каждого из компонента) с частотой выше 99 процентов. Как видно из нижеприведенного графика, компоненты выбраны правильно, а топология определяется практически безошибочно, несмотря даже на малое количество снипов (6 тысяч). Правильно определились и направления потоков генов, дрейфов генов (указаны стрелками). Тут в принципе мало нового — большинство этих эпизодов уже были описаны в отдельных работах генетиков. Так, виден поток генов от «денисовского» человека к усть-ишимцу, от которого в свою очередь идет поток генов к австралоидным популяциями. То есть денисовская примесь у папуасов могла достаться от сибирских популяциях близких к «усть-ишимцу». Виден также вклад ANE/EHG в геном североамериканцев -в интервале 10-15 процентов.

Принципально новым является лишь определенный программой дрейф генов в направлении от африканцев Khoisan к североафриканцами (в качестве референса которых взяты египтяне, бедуины и алжирцы). Скорее всего, это и есть тот самый пресловутый сигнал «египтского выхода» человечества из Африки, о котором недавно писалось в новейшей статье, а сам компонент -идентичен пресловутому Basal-Eurasian component


В начале июля  в связи с публикацией препринта о генофонде древних ближневосточных земледельцев решился все таки подписать заявление на имя Давида Рейха и Иосифа Лазаридис с ходатайством о доступе к полной версии их выборки (она включает много новых интересных для меня популяций — например, около сотни новых образцов шотландцев, шетландцев, ирландцев из разных областей Ирландии, немцев, сорбов и поляков из восточной и западной Польши).

Г-н Лазаридис был весьма любезен и буквально на следующий день после получения подписанного заявления предоставил мне доступ к этим данным. Я займусь их плотным изучением чуть позже. А пока любопытно посмотреть результаты пилотного Admixture анализа 5900 публичных доступных образцов. В качестве проверки надежности своего нового метода изучения древних и современных популяций людей, я провел 4 параллельных анализа Admixture c разным дефолтным значением предковых популяций (K).

Разумеется, в нашем случае число компонентов K заведомо больше 3, авторы статьи эмпирически показали что меньший разброс значений был получен при K=11. Поэтому я исходил из этой цифры, назначив три разных значения K — 10,11,13.
В первом варианте я использовал т.н unsupervised режим Admixture, т.е. программа должна была сама угадать и реконструировать частоты аллелей снипов в 10 реконструируемых предковых «компонентах» популяций.

Как и ожидалась, таковыми оказались африканский (пик у пигмеев и бушменов), америндский (пик у эксимосов и американских индейцев), сибирский (пиковые значение у нганасанов), южно-индийский компонент (пик в народностях Paniya и Mala), австрало-меланизийский, южно-восточноазиатский, три западно-евразийских компонента — 2 компонента западноевроп ейских и кавказских охотников-собирателей и неолитический; и наконец ближневосточный.

Разумеется, за исключением трех компонентов с пиками в древних геномах, данное распределение отражает cовременное распределение предковых компонентов.

Пришлось вручную выделять из ближневосточного компонента популяцию базальных европейцев (в качестве основы я взял геномы натуфийцев, т.е ближневосточный компонент — Levant_N — может быть разложен на два отдельных предковых компонента — неолитический и мезолитический «натуфийский»), а затем сгенерировать гипотетическую популяцию из 20 образцов состоящих на 100 процентов из натуфийского компонента. Именно этот компонент был включен в модель K11 под названием Levant_Mesolithic ( или Natufian). Этот компонент не стоит путать с компонентом Basal-Eurasian в калькуляторе Eurogenes K7 Basal-rich, так в в моей модели K11 основная часть базального компонента ушла в неолитические компоненты (т.е Natufian=Basal-Rich — Neolithic)

Гораздо сложнее ситуация обстояла с разделением компонента кавказских охотников-собирателей, которые наряду с американскими аборигенами несут в своем геноме значительные доли компонента древних северо-евразийцев. По этому причине очень сложно, например, разделить восточных охотников-собирателей (из мезолитических культур Карелии и Самары) и синхронным им кавказских охотников-собирателей.
Из-за присутствия компонента древних северо-евразийцев в их геноме, в Admixture компонент древних кавказцев увеличивается только за счет компонент восточных охотников-собирателей — и наоборот. Правда, можно попытаться выделить отдельный мезолитический компонент населения горного Загроса (Иран).

В случае успеха древние геномы жителей мезолитической Грузии можно будет представить как 20% компонента степных охотников-собирателей + 80% местного мезолитического субстрата.

Реклама

Вторая фаза нового проекта: африканская когорта

В одной из предыдущих записей я упомянул о том, что из 3 начальных когорт образцов «геномов» я провел импутацию азиатской и европейской когорты,  осталась получить результаты по последней — третьей когорты — африканской.

По состоянию на текущий момент,  закончена работа на 18 из 22 хросомом в выборке африканских популяции. Согласно моему прогнозу,  процесс импутации недостающих генотипов по 4 оставшимся хромосомам будет завершен в  самое ближайшее время.

А пока — т.н. «этноплот» или промежуточные результаты анализа главных компонент в пространстве генетического разнообразия африканских этнических групп.

Вторая фаза нового проекта

Две недели назад я сообщил об окончании первой фазы своего нового проекта (на первом этапе работы удалось собрать надежную выборку из более чем 5000 образцов более чем 250 различных этно-популяционных групп людей по всему миру.

Как я уже рапортовал ранее, самой сложной из запланированных на втором этапе задач являлась импутирование (импутация) отсутствующих генотипов.  Читатели моего блога помнят, что две предыдущие экспериментальные попытки импутирования больших выборок     — в 2013  и в 2015  — закончились неудачно (или, если говорить точнее, качество импутированных генотипов не оправдало моих завышенных ожиданий). В предыдущих опытах я задействовал мощную комбинацию программ ShapeIT и IMPUTE и  метод импутирования снипов за счет использования большой референсной панели аутосомных гаплотипов (из 1000 genomes),  гарантирующей более аккуратное определение генотипов.

На этот раз, я решил не повторять ошибок, и обратился к использованию других программ — в частности , к  Minimac3, хорошо зарекомендовавшую себя в работе с геномами 1000G.  К моему счастью, я набрел на недавно появившиеся публичные сервера, работающие с «облачным» сервисом импутирования Cloudgene. геномов.
Серверы импутирования геномов позволяют использовать полную референсную панель гаплотипов для точного определения недостающих генотипов в анализируемых данных. Пользователи подобных серверов могут загружать (предварительно фазированные или несфазированные) данные генотипов на сервер. Процедура импутирования  будет осуществляться на удаленном сервере, и по окончанию этого процесса рассчитанные данные доступны пользователю для скачивания. Наряду с импутированием, подобные сервисы позволяют провести процедуру контроля качества (QC) и фазировки данных в качестве предварительного этапа процесса импутирования генотипов.

Прототипы серверов импутирования уже доступны в институте Сангера и Мичиганского университета. В дополнение к вышеназванным серверам, можно упомянуть прототип сервера поэтапной полномасштабной  фазировки генотипов анализируемых образцов (прототип создан биоинформатиками Оксфордского университета). На мой взгляд, самое простое и доступное решение задачи импутирования на удаленном сервере было разработано сотрудниками   Мичиганского университета. Дополнительное преимущество этому решению дает грамотная документация по использованию сервиса.

Основная рабочая лошадка сервиса — это комбинация двух или трех программ — две програмы для фазирования диплоидных генотипов в гаплоидную фазу  ShapeIT и Hapi-UR , а в качестве основного ПО для самого процесса импутирования (определения) недостающих генотипов — вышеупомянутую программу Minimac3.

Описание эксперимента с импутированием генотипов на удаленном сервере

В самом начале,  я разбил свою выборку на пять когорт (т.к. референсные панели на сервере также разбиты на «этнографические группы»):

  1. европейцы (европейцы + кавказцы) — 1715 образцов -87169 снипа
  2. азиаты (+американские аборигены и аборигены островов Тихого Океана) — 2356 образцов — 87044 снипа
  3. африканцы — 1054 образца — 86754 снипов
  4. палеогеномы древних жителей Евразии, Африки и Америки -340 — 594500 снипов
  5. смешанные группы — преимущественно мозабиты, пуэрто-риканцы и др.
QC-Report
На рисунке показана корреляция между частотами аллелей в изучаемоей выборке (здесь: европейская когорта) и частотами аллелей в референсной панели

К моему вящему неудовльствию,  некоторые образцы в сводной выборке не прошли контроль качества — в первую очередь это касается образцов европейцев из базы данных POPRES, а также выборок статьи  Xing et al. (2010). Скорее всего, их нужно будет импутировать отдельно.

Несмотря на значительную скорость обработки генотипов на удаленном сервере, к настоящему времени эксперимент еще не доведен до конца.  Пока я планирую ограничиться импутированием генотипов в 3 первых когортах (т.к. импутирование палеогеномов с помощью современных референсных панелей гаплотипов вероятнее всего приведет к искажению истинного разнообразия палеогеномов за счет проекции на современные группы населения, хотя авторы статьи Gamba et al. 2014 в сопроводительном материале к своей статье утверждают обратное).

После окончания фазирования и последующей обработки генотипов европейской когорты в программе Plink (были отсеяны все варианты с вероятностью ниже 0.9) ,  я получил выборку из 1715 европейцев с 25 215 169 снипами против изначальных 87169, т.е число снипов в выборке увеличилось в 290 раз!
В азиатской когорте соотношение импутированных генотипов к исходным составило чуть меньшую величину 19 048 308 / 87044 = 219.

Проверка результатов

Разумеется, все полученные результаты нуждались в дополнительной проверке качества генотипирования.
Cначала я объединил импутированную европейскую когорту с когортой палеогеномов (которая не была импутирована) и рассчитал в программе PLINK 1.9 матрицу IBS (т.е. сходства образцов в выборке между собой, эта метрика отдаленно напоминает Global Similarity в клиентских отчетах 23andme), а затем усреднил данные по популяциям и произвел по усредненным значениям иерархическую кластеризацию по признакам сходства (IBS, identity by state). Результат превзошел все мои пессимистические ожидания

 

 

Как становится очевидно из приведенной выше кластерограммы,  в целом взаимное расположение популяций в кластерах соответствует (в общих чертах) взаимному географическому положению. Присутствуют, правда, и некоторые огрехи. Так, например, венгры очутились в одном кластере с русскими из Курска,  норвежцы — с русскими из Смоленска, а усредненные «русские» — с американцами европейского происхождения из штата Юта и французами. Трудно сказать, в чем здесь причина, тем более что матрица была составлена по значениям IBS (идентичности по состоянию), а не IBD (идентичности по происхождению).  Более подробные данные о попарных значениях IBS между популяциями выборки можно посмотреть в этой таблице

Импутированная азиатская когорта (несмотря на расширение географии за счет включения образцов коренного населения Америки и аборигенов бассейна Тихого океана)  тоже  оказалась на удивление надежной. Я пока не буду останавливаться на подробностях изучения этой когорты, вместо этого я размещаю здесь результаты MDS- мультдименсионального шкалирования образцов выборки, образованной в ходе слияния 2 импутированных когорт (европейской и азиатской) с 1 неимпутированной (палеогеномы). Цветовое обозначение точек соответствует определенным кластерам, выявленных в выборке с помощью алгоритма MCLUST (cледуя рекомендациям Диенека Понтикоса). Всего этих кластеров 15 и они обозначены последовательностью чисел от 1 до 15, и каждый из этих кластеров имеет свою четкую географическую привязку:

  • 1 — кластер популяций ближнего Востока и  Анатолии
  • 2 — кластер популяций северного Кавказа
  • 3 — «индоевропейский» кластер древних популяций Синташта, шнуровой культуры, Ямной культуры и т.д.
  •  4 — кластер аборигенных жителей Америки (эскимосов и индейцев)
  • 5 — суперкластер популяций средиземноморского и восточноевропейского региона
  • 6 — сибирский кластер алтайских и самодийских популяций
  • 7 — кластер популяций западной и северной Европы
  • 8 — кластер палеосибирских популяций (таких как чукчи, ительмены и коряки)
  • 9 — кластер аборигенных (австронезийских и тай-кадайских) популяций юго-восточной Азии (даи, атаяла и ами)
  • 10 — кластер неолитических популяций
  • 11 — еще один ближневосточно-средиземноморский кластер (ашкеназим, сардинцы и так далее)
  • 12 — кластер североиндийских популяций
  • 13 — кластер центральноазиатских популяций
  • 14 — поволжские популяции
  • 15 — разные групп индусов

 

О генетике древних жителей Сибири и многом другом

Несмотря на данное самому себе обещание регулярно обновлять этот блог, по независящим от меня причинам мне пришлось на время отойти в сторону и заняться другими более приоритетными делами на работе и в университете (где, как я надеюсь, мне предстоит защищать докторскую). К несчастью, время вынужденного бездействия пришлось на тот период, когда были опубликованы ряд интересных научных работ как в области популяционной генетики (ряд исследований по Y-хросомомным и митохондриальным группам, а также аутосомам значительного числа народностей), биоинформатики (метод фильтрации ложнопозитивных IBD (идентичных по происхождению) сегментов генома) и других областях. C другой стороны, наблюдается расширение технологических методов и способов генотипирования, предлагаемых коммерческими фирмами конечным пользователям, которых интересуют генетические аспекты своего происхождения и медицинские риски. Все это заслуживает самого пристального внимания, удилить которого у меня сейчас никак не получается.
В силу ограниченности времени и ресурсов, я решил сфокусировать свое внимание на новости касающейся лично меня, вернее, результатов моих исследований. Речь идет о публикации одного из новых геномных блоггеров (кодовое имя — genetiker) под названием K = 26 admixture analysis of Amerindians and Mestizos. В своей  пространной статье и спорных выводах автор приводит целую серию аргументов (от генетики до антропологии) в пользу одной из альтернативных версий, предпологающих европейское происхождение части америндов. Впрочем, важным мне представляется не аргументирование одной из возможных теорий происхождения индейцев и Y-гаплогруппы Q, а упоминание в этом контексте результатов моих исследований в проекте MDLP. Но перед тем как привести здесь цитату из статьи, следует вспомнить и о другом курьезном случае, связанном с обсуждением результатов исследования ДНК останков мальчика из доисторической стоянки палеолита в Мальте (Иркутская область) в блоге Германа Дзибеля. Г-н Дзибель в явной попытке показать свою вхожесть в круги наиболее посвященных популяционных генетиков, сообщил по секрету, что 1) Y-хромосома мальчика принадлежит к гаплогруппе R, а его митохондриальная группа — U; 2) аллельные компоненты генома мальчика условна разделяются на три составные части — западноевразийский, америндский и юго-центрально-азиатский. Как я отмечал ранее, в своем анонсе бета-версии своего этно-популяционного калькулятора MDLP World K27, расклад компонентов в генома древнего населения стоянки Мальта можно представить в виде следующих комбинаций современного населения:

[2,] “33.7% Brahui + 66.3% Udmurd” “21.9804″
[3,] “34.5% Makrani + 65.5% Udmurd” “22.357″
[4,] “34.3% Balochi + 65.7% Udmurd” “22.413″
[5,] “33.3% Sindhi + 66.7% Udmurd” “24.1198″
[6,] “36.5% Burusho + 63.5% Udmurd” “24.211″
[7,] “39.7% Pashtun + 60.3% Udmurd” “24.3389″
[8,] “34.3% Pathan + 65.7% Udmurd” “24.716″
[9,] “32.2% Pakistani + 67.8% Udmurd” “24.753″
[10,] “41.4% Tadjik + 58.6% Udmurd” “24.852

«The MDLP World-22 analysis produced a Cro-Magnon Nordic component (“North-European-Mesolithic”) and an Aryan Nordic component (“North-East-European”). The only people today in which the Cro-Magnon component is modal are Lapps. They have 76.4% of the Cro-Magnon component and 15.5% of the Aryan component.

One of the distinctive characteristics of Cro-Magnon cranial morphology is the short face, as can be seen in the drawing of a Cro-Magnon skull below.The same distinctive short face can be seen in these photographs of Lapps .»

Перевод » В  произведенном в проекте MDLP анализе World-22 был выявлен характерный для кроманьонцев северный компонент (« компонент северо-европейского мезолита ») и арийскйй северный компонент (« северо-восточно-европейский компонент »). Единственная группа людей, которые сегодня наиболее близки к чистым кроманьонцам это саами-лопари. Они имеют 76,4% кроманьонского компонента и 15,5% арийского компонента.

Одной из отличительных характеристик  черепной морфологии  является короткое лицо, как это можно видеть в традиционных изображениях кроманьонских черепов. Tот же самый отличительный признак — короткие лицо — можно часто увидеть и на фотографиях лопарей ».

fineStructure анализ популяций северо-восточной Европы: часть 1

Некоторое время тому назад в своем англоязычном блоге я разместил новый график, сделанный на основании анализа главных компонентов  генетического разнообразия в выборке, которая включала в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.

В ходе экспериментального теста в ходе статистической обработки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, которая  участвовала в репродукции или обмене генами в отдаленном прошлом. Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение  составило  22 000.Это близко к значениям Ne рекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных выше данных даже 22 000 для совокупности эффективного размера элементарных популяций — это более, чем достаточно. Например, численность эффективной популяции адыгов-шапсугов составляет по оценке попгенетиков всего 187 индивидов:

Почешхова, Э. А.  Структура миграций и дрейф генов в популяциях адыгов-шапсугов / Э. А. Почешхова // Медицинская генетика : ежемесячный научно-практический журнал. — Том 7,N 1. — Реферирована.  Важной  особенностью генофонда адыгов являются традиционная структура браков и  высокая эндогамия: 96,5% браков заключается в пределах своего этноса.  Одно из племен адыгов — шапсуги подразделено на две географически  изолированные группы. Шапсуги побережья Черного моря (от Туапсе до  Сочи), проживающие в районе наиболее интенсивного заселения пришлыми  народами, заключают 89% браков в пределах своей географической группы,  5% браков — с другими адыгами и лишь 6% браков — с представителями всех  остальных народов России и Закавказья. Шапсуги, переселенные в  Прикубанье (Западная Адыгея) и проживающие среди прочих племен адыгов,  заключают 77% браков в пределах своей географической группы, 21% браков —  с другими адыгами и 1,3% браков — с представителями иных этносов. Для  шапсугских аулов средний индекс эндогамии составил 0,40, гаметный индекс  — 0,7. Для элементарных популяций средний индекс эндогамии составляет  0,65. Малый генетически эффективный размер элементарных популяций  (Ne=187)


Или вот:

При оценке генного дрейфа на основе методов генетической демографии ключевыми параметрами являются эффективная численность Ne (размер, объем) популяции, составляющая примерно 30 % от общей численности, и миграция. Показано (Евсюков и др., 1996), что для коренных народов Сибири средний эффективный размер популяции равен 218, а для Северной Евразии в целом – 200, хотя изменчивость эффективного размера (Ne) популяций различалась на три порядка величин, как и их численность. Небольшая средняя величина Ne позволяет ожидать значительного эффекта генного дрейфа, если ему не противостоит миграция. Генный дрейф реализуется на уровне как популяции в целом, так и субпопуляций. В оригинальных исследованиях сибирских популяций получены следующие значения эффективного размера на уровне поселений(субпопуляций): алеуты Командорских островов – 75 чел. (Рычков, Шереметьева, 1972а, б), азиатские эскимосы и береговые чукчи – 70 и 61 чел. соответственно (Рычков, Шереметьева, 1972в), эвенки Нижней и Подкаменной Тунгуски – 27 чел. (Рычков и др., 1974б), коряки Камчатки – 71 чел. (Шереметьева, Горшков, 1982), северные ханты – 152 чел. (размах значений 98–348) (Пузырев и др., 1987). Эффективный размер сельских популяций Северной Евразии имеет клинальный тип изменчивости, убывая в направлении юго-запад – северо-восток, за исключением локального минимума в Средней Сибири у тунгусоязычных западных эвенков (Евсюков и др., 1996).


Из чего следует, что Ne размером в 22 000 человека или 1000 индивидов на кластер (а всего их выявленно 22 ) — это вполне достаточно для масштабирования частот рекомбинации гаплотипов. Можно прояснить смысл понятия эффективная популяция и другими словами. Во избежании ненужной путаницы необходимо сразу оговорить что понятие эффективной популяции носит сугубо теоретический характер, и в силу этого напрямую не имеет отношения к тому, каков был размер отдельной локальной популяции в определенный отдельно взятый промежуток времени.

Не имеет значения , так как речь идет о тех, кто внес свой вклад в генофонд существующих популяций.Причем эти все «отцы и матери-основатели» могут быть разнесены по времени на тысячелетия.


Собственно говоря, эффективная популяция — это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса  числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955).

Что касается размере эфективно-репродуктивной популяции для исходной популяции современных популяций Евразии, его достаточно легко вычислить исходя из аутосомного разнообразия. Например, соответствующие алгоритмы для вычисления Ne имплементированы в прогамме FineStructure.  По моим расчетам (близким к общепринятым) усредненный для всех хромосом размер эффективной популяции для всех задействованных мной евразийский популяций составил 14 000.

Исходя из общепринятого мнения, согласно которому размер Ne (эффективной популяции) в каждый синхронный период времени составляет примено 33% от общего размера популяции теоретически можно оценить величину популяции в момент времени, когда ее эффективный размер составлял 14 000 (это примерно 40 000).

Если бы мы знали, что все это родоначальники многобразия жили в одно время, тогда можно было бы интерполировать эти сведения для оценки это времени по обычной хронологической шкале. Но нет никаких оснований полагать, что они жили в одно и то же время.

«Effective size» of the population (commonly denoted as Ne in the population genetics literature) from which your dataset was sampled. This parameter scales the recombination rates that IMPUTE2  uses to guide its model of linkage disequilibrium patterns. When most  imputation runs were conducted with reference panels from HapMap  Phase 2, we suggested values of    11418    for imputation from HapMap CEU,    17469    for YRI, and     14269    for CHB+JPT.

Modern imputation analyses typically involve reference panels with  greater ancestral diversity, which can make it hard to determine the  «ideal» -Ne value for a particular study. Fortunately, we have found that imputation accuracy is highly robust to different -Ne values; within each of several human populations, we have obtained nearly identical accuracy levels for values between 10000 and25000. We suggest setting -Ne to 20000 in the majority of modern imputation analyses.

В качестве инструмента я использовал комбинацию нескольких программ из нового пакета биоинформатического программного обеспечения fineStructure/ChromoPainter. Как показали экспериментальные тесты  с использованием этого пакета, оптимизированный алгоритм обнаружения общих по происхождению сегментов в сравниваемых популяциях дает оптимальные результаты по разбивки индивидов на кластеры по признаку геномной близости (в качестве меры этого признака в данном случае я использовал число идентичных по происхождению геномных сегментов:  по полученным векторам признаков для каждого кластера производилось попарное сравнение и сортировка по мере близости в евклидовой метрике).

MDLset1-3 MDLsetMDLset

1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
2. Все литовцы (участники проекта + референсы из статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев 
3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.
4. Ниже находится балканский кластер (румыны, болгары и часть венгров).
5. К этому кластеру примыкают турки и часть армян 
6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов). 
7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.
8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

10. Левее этой группы популяций находится кластер ашкеназов.

11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).*

*—— Примечание


Т
акое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции. То есть все эти баски являются многократными родственниками между собой. Классический генный дрейф, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества shared DNA chunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.Исходя из этого можно сделать вывод о том
1) что баски эта экстремально-эндогенная популяция изолянтов
2) генетическое разнообразие низко, т.к. размер эффективной популяции низок.

 

 

Вы не поняли. 

Каких десятков тысяч предков славян?
По оценке профи, занимающихся анализом полных геномов, эффективный размер популяции генетических предков для современных популяций всей Евразии с трудом достигает 2 десятков тысяч,  причем общий консенсус сдвигается в сторону 15 000.

 

Экспериментальный тест: определение HLA-гаплотипов из нуклеотидов ДНК-последовательностей с помощью программы HLA*IMP

Введение

Большинство из моих записей и экспериментов являются уникальными — именно по этой причине я очень часто дублирую эти записи на английском и русском языках.  Без ложной скромности хочу представить читателю мое самое значимое достижение в области любительской персональной геномики — эксперимент по определению HLA серотипа на основе известных снипов из клиентских raw_data (файла с перечнем генотипированных снипов) компаний 23andme и FTDNA.

Однако перед тем как перейти к описанию самого эксперимента, необходимо вкратце напомнить о важности HLA-гаплотипов. Молекулярные различия между аллелями HLA могут варьироваться до 57 нуклеотидов в пептидо-связывающей кодирующего региона главный комплекса генов гистосовместимости (MHC) человека,  однако еще до конца не установлено, являются ли эти молекулярные полиморфизмы результатом случайного стохастического процесса или же в процессе естественного отбора возникли селективные ограничения, связанные с функциональными различиями между молекулами HLA . Хотя HLA аллели, как правило, рассматривается в популяционно-генетических исследованиях  в качестве эквидистантных молекулярных единиц, однако последовательность ДНК, и популяционное разнообразие также имеет решающее значение для интерпретации наблюдаемого полиморфизма HLA ( (Buhler S, Sanchez-Mazas A, 2011 HLA DNA Sequence Variation among Human Populations: Molecular Signatures of Demographic and Selective Events. PLoS ONE 6(2): e14643. doi:10.1371/journal.pone.0014643).

Стоит отметить еще один важный момент: HLA локусы характеризуются наиболее максимальным уровнем генетического разнообразия из всех человеческих генетических систем. Предварительные знания о степени разнообразия играет важную роль в эволюции и отборе молекулярных методов типирования. Определение частот аллелей также важны и в трансплантологии —  например при аллогенетической трансплантации гематопоэтических стволовых клеток аллели используются для определения вероятности нахождения соответствующих «гистосовместимых» доноров для каждого пациента. Генетическое разнообразие локусов HLA отвечает также за эффективность работы иммунной системы  при  устранении клеток, несущих чужеродные антигены. Существует необходимость разработать методы оценки этого генетического разнообразия с целью изучения того, как различные группы людей  реагируют на воздействие чужеродныъ антигенов, а также для оценки вклада каждого локуса HLA.

Система HLA была тщательно изучена также и с эволюционной точки зрения. Эта система содержит ряд тесно связанных генов, продукты экспрессии которых определяют множеством функций, связанных с регулированием иммунного ответа. Кроме того, последние исследования в области медицинской генетики установили в этом геномном регионе целый ряд вариантов, обуславливающих генетическую предрасположенность к более чем 40 заболеваниям. Ряд наблюдений показывает, что  система человеческого HLA подвержена существенному влиянию естественного отбора, что приводит к появлению большого числа полиморфизмов с очень четко выраженным градиентом частот аллелей.  Возникновение высокого уровня изменчивости в локусах имеет решающее значение для распознавания антигена, определения возраста аллелей и закономерностей в нарушении равновесного сцепления между локусами. Форма воздействия отбора неизвестна. Большинство исследователей склоняется к тому, что сложный характер наследования HLA вряд  ли можно объяснить одним лишь воздействием естественного отбора. Мутации, рекомбинации и генетическая конверсия — все это также способствует увеличению изменчивости HLA. В то же время, очевидная древность многих аллелей HLA выявленных в ходе филогенетического анализа доказывают, что абсолютные темпы производства новых вариантов не являются высокоми. Детальное изучение популяционной и эволюционной особенности региона HLA, необходимо для обоснованного обсуждения эволюции генетических вариантов, предрасполагающих к определенным типам болезней (Thomson G.HLA population genetics.1991 Jun;5(2):247-60.).

Большинство из обычных людей сталкивались с термином антиген HLA только  в процессе сдачи/получения донорских органов. В некоторых случаях имеются показания к выявлению типов антигенов HLA у родителей при осложнениях во время беременности:

 При совпадении родителей по антигенам HLA увеличивается количество повторных аномальных беременностей с неустановленными причинами аномалий (Gerencer et al., 1978). Установлено отсутствие антигенов HLA в трофобласте, обнаруживается только b2-микроглобулин (Bodmer, 1981). Показано, что несовместимость по антигенам HLA матери и плода благоприятствует нормальному протеканию беременности и развитию плода.

Тот же самый авторитетный источник дает вполне сносное и вполне доступное для понимания начинающих любителей генетики:

Главная система тканевой совместимости (major histocompatibility Complex — МНС) может быть рассмотрена в качестве еще одного примера комплекса тесно сцепленных локусов. МНС человека обозначается латинскими буквами HLA (human leukocyte antigene) и называется системой или комплексом HLA.

Годом открытия главной системы тканевой совместимости человека считают 1958 г., в котором Ж. Доссе открыл первый антиген, обозначенный Mac (современное обозначение — HLA-A2) (Снелл и др., 1979). С момента открытия первого антигена тканевой совместимости велась неуклонная работа по уточнению типирования тех или иных антигенных специфичностей, открытию новых антигенов, изучению их строения, разработке универсального метода типирования антигенов, локализации на хромосоме генов системы HLA, выяснению характера наследования, а также по совершенствованию антисывороток, выявляющих тканевые антигены и по выявлению особенностей распространения антигенов в различных популяциях мира.

Интенсивному развитию исследований способствовали в значительной мере Международные рабочие совещания по совместимости тканей. Первое такое совещание было организовано Д.Б. Эймосом в 1964 г. Затем были проведены рабочие совещания в 1965, 1967, 1970, 1972, 1975, 1977, 1980 и 1984 гг. Материалы Международных рабочих совещаний по совместимости тканей публикуются в качестве периодического издания “Histocompatibility Testing” и отражают основные этапы в развитии иммуногенетики человека и тканевого типирования. В 1967 г. после окончания очередного рабочего совещания был организован Международный номенклатурный комитет под руководством ВОЗ, который осуществляет разработку номенклатуры комплекса HLA, соответствующей уровню развития отрасли. Номенклатуры системы HLA выходили в Бюллетенях ВОЗ в 1968, 1972, 1975 и 1978 гг., а также в материалах Международных рабочих совещаний по совместимости тканей в 1970 и 1980 гг. Новая номенклатура была принята после окончания работы 9-го Международного рабочего совещания в 1984 г. (Bodmer et al., 1985). В таблице 1 номенклатура представлена для локусов HLA-A, -B, -C и -DR. Латинские буквы перед цифрами обозначают принадлежность к тому или иному локусу, а цифры — номер антигена. У некоторых специфичностей есть еще добавочное “w”, обозначающее, что данные специфичности либо не признаны к этому моменту всеми лабораториями, либо есть сложности в их типировании.

Каждое название специфического типа HLA или как еще говорят HLA аллелей имеет свой уникальный номер, соответствующий до четырех наборов цифр, разделенных двоеточиями. Длина обозначения аллели зависит от последовательности аллеля.  Как правило, все аллели имеют по крайней мере  четырех-символьное обозначения, которое соответствует  двум наборам цифр, длинная номенклатура назначается только по необходимости. Цифры до первого двоеточия описывают тип, который практически всегда соответствует серологическому антигену, который несет  данный аллотип. Следующий набор цифр, который используется в списке подтипов является обозначением порядка, в котором были определены последовательности ДНК. Аллели, номера которых отличаются  двумя наборами цифр, отличаются друг от друга одной или несколькими нуклеотидными заменами которые ведут к изменению аминокислотной последовательности кодируемого белка. Аллели, которые отличаются только синонимичными/некодирующими нуклеотидными заменами в кодирующей последовательности, отличаются друг от друга использованием третьего дополнительного  набора цифр. Аллели, которые отличаются только последовательностью полиморфизмов в интронах или в 5 ‘и 3’ нетранслируемых регионах, которые примыкают к  экзонам и интронам, отличает использование четвертого набора цифр (см.дополнительную информацию).

Пример

HLA-A определяет HLA локуса
HLA-A1 серологическое обозначение антигена
HLA-A * звездочкой обозначается HLA аллелей определяется методами молекулярного типирования.
HLA-A * 01 2-разрядное разрешение обозначает группы аллелей, которые соответствует обычным серологическим группам — с низким разрешением
HLA-A * 0101 4-разрядное разрешение — последовательность различий между аллелями, которые приводят к аминокислотным заменами
HLA-A10101 60-значное разрешение — определяет некодирующие варианты, т.е последовательность изменений,  не ведущих к аминокислотным заменам

В целях понимания уникальности проведенного мною эксперимента необходимо еще пояснить особенности определения типов антигенов. До прихода эра молекулярной геномики, антигены HLA подразделяются выявлялись серологически и с помощью лимфоцитов. К последним относятся антигены Dw, DQ, DP и некоторые DRw, относящиеся к области D. Большинство исследований фоксируется лишь на серологически определяемых антигенах, относящихся к локусам HLA-A, -B, -C и -DR. Первые три группы антигенов представляют собой гликопротеиды, обнаруживающиеся на клеточной мембране любой ядросодержащей клетки (Amos, Kostyu, 1980).

Как следует из вышесказанного, традиционно на протяжении десятилетий для HLA-типирования использовались серологические метода много десятилетий, и при этом серологическое типирование II класса молекул главного комплекса гистосовместимости человека зависело от адекватной экспресии этих молекул на поверхности В-лимфоцитов, наличия жизнеспособных клеток и полным набором иммунных сывороток. Тем не менее, применение молекулярно-генетических методов первого поколения (RFLP, PCR, SSO и т.д.) для типирования HLA привело к ситуации, в которой почти каждая лаборатория может независимо выполнять  ДНК-типирование для определения аллеля HLA.

HLA типы и сцепленные SNP-ы на 6 хромосоме

Как показал мой эксперимент, что даже того относительно небольшого количества снипов, которое типируется  коммерческими компаниями в регионе MHC-HLA достаточно для определения типа антигена с высокой точностью.

К сожалению, имеется целый ряд нюансов значительно усложняющих анализ. Во-первых, определение классических аллелей HLA (например, HLA-, HLA-B и др.), с помощью  новой чип-технологии, используемой в популярных коммерческих услугах геномных компаний (23andMe, FTDNA Family Finder и deCODEme), является очень сложным процессом, требующим проведения большого количества мультиплекс-ПЦР-реакций для получения полного генотипа пациента. Именно поэтому классические методы типирования HLA зачастую оказываются непрактичными в крупномасштабных исследованиях.Во-вторых, техническая сторона выявления типа HLA на основании генотипов является относительно сложной, и я не уверен что рядовой пользователь сможет ее осилить.  При  я могу помочь определить тип антигенов в качестве коммерческой услуги (которая примерно на 50 процентов дешевле стоимости стандартной медицинско-генетической услуги серотипирования).

К счастью для нас, в Центре генетики человека в Wellcome Trust Центра был разработан метод определения классических аллелей на основании анализа сцепленных SNP-ов. Метод был реализован в виде специального фреймворка  (HLA * IMP) (Dilthey, A. T., Leslie, S., Moutsianas, L., Shen, J., Cox, C., Nelson, M. R., McVean, G. (2012): «Multi-population classical HLA type imputation» (submitted to Plos Comp Bio)).

HLA * IMP определяет HLA тип  на основе данных о генотипе SNP, используя для этих итеративный метод отбора наиболее информативных полиморфизмов для отдельных поддерживаемых чипов генотипирования (Affymetrix 500K, 900K Affymetrix, Illumina 300K, 550K Illumina, Illumina 650K, Illumina 1M). Таким образом, HLA * IMP позволяет исследователям  определить тип  HLA в ходе импутирования геномных данные, собранных из нескольких доступных наборов SNP путем сопоставления импутируемых данных с референсными данными более 2500 индивидов европейского происхождения. Референсные данные содержат как  SNP-варианты, так и классические аллели HLA типов.

Референсная панель которую я использую в целях импутации пропущенных значений, включает в себя:

1) так называемый The British Birth Cohort 1958 года включающем в себя SNP-ы Illumina 1,2 м и Affymetrix 6.0 (TheWellcome TheWellcome Trust Case Control Consortium, 2007) — 2420 индивидуальных образцов х 7733 SNP в расширенном регионе HLA.
2) выборку образцов CEU из HapMap  (Международный консорциум HapMap, 2007) и CEPH CEU + дополнительные образцы (дde Bakker et al., 2006) — 92 образца х 7733 SNP-а перекрывающиеся со снипами The British Birth Cohort 1958)

Программа использует аутосомные гаплотипов состоящих из SNP -ов BC-195и CEU , и именно эти гаплотипы были  задействованы в качестве эталонного набора данных.  Была определена взаимосвязь типов HLA и гаплотипов SNP (эти гаплотипы были фазированы с помощью программы PHASE (Stevens and Scheet, 2005) с применением стандартных параметров фазирования многоаллельных локусов. Вместе с  эталонным набором данных было получено около 5024 гаплотипов высокого разрешения, имеющими прямую корреляцию с 7733 SNP-ами в  геномном регионе HLA.  Эти гаплотипы  определяют разное  количества типов антигенов -2474 типа (HLA-A), 3090 (HLA-B), 2022 (HLA-C), 175 (HLA-DQA1), 2629 (HLA-DQB1), 2665 (HLA-DRB1). Это конкретные SNP-гаплотипы которые в дальнейшим программа использует для инференции типа антигена.

Эксперимент с  выборкой проекта MDLP.

Поясню вкратце суть эксперимента

Как я уже упоминал в блоге MDLP (Re: Хромосома 6), геномные инструменты 23andme — RelativeFinder  и AncestryFinder выделили   целый кластер полуидентичных сегментных совпадений в который попало примерно 315 геномных совпадений с другими клиентами из базы данных 23andme. Примечательно, что все эти  участки совпадения полностью или частчино перекрываются и расположены в одном и том же субрегионе области HLA-MHC на 6 хромосоме (21Mb-38MB). Эта замечательное скопление совпадающих участков  составляет почти половину от общего количества моих AF / RF совпадений (315/720 или 43,75%).

Ранее я предположил, что столь явный перекос числа общих по происхождению полуидентичных сегментов  в области HLA свидетельствует о том, что один из гаплотипов совпаденцев  является идентичным типом антигенов HLA. До недавнего времени, мое предложение опиралась исключительно на мои интуитивные догадки. Затем я смог найти ключ решения проблемы с помощью HLA * IMP  и до сих пор,  после чего мне удалось провести  эксперимент в HLA * IMP , в ходе которого я применил методологию к анализу данных 23andMe  (Illumina Omnio Express) .

Условия эксперимента

Для успешного проведения моих тестов, я должен был убедиться, что мои собственные данные соответствуют следующим требованиям:

* SNP-ы  должны входить в область  xMHC  ( на  6 хромосоме )
* Отобранные в первоначальной выборки кандидаты должны быть европейского происхождения
* Высокое качество  и плотность типированных SNP в регионе HLA, что является критическим условием повышения точности импутации
* Поскольку HLA IMP не обеспечивает прямой поддержки кастомных модифицированных чипсетов 23andMe,  и я был ограничен в своем использовании комбинированным набором генотипов с  двух чиспетов 23andMe (v2 и v3), то мне пришлось «понизить» число SNP-ов в версии платформы Illumina  (Illumina 300K). Но и этого оказалось достаточно.

Тест гипотезы

Для того, чтобы проверить свое первоначальное предположение о  том что вышеупомянутые совпаденцы разделяют одинаковый гаплотип HLA, я выбрал 7 участников из cвоих проектов (себя, свою мать; человека, о котором заведомо было известно, что  у него есть наполовину идентичный совпадющий сегмент со мною и моей матерью в xMHC область; oстальные участники использовались в качестве контрольной группы).

C этой целью я преобразовал исходные данные 23andMe  участников проекта в формат Plink, затем объединил файлы в один набор данных, и  выделил подмножество  SNPs на 6-ой хромосоме , используя команду Plink — сhr 6. После этого я преобразовал файл с данными генотипов из формата Plink во входной формат данных HLA * IMP. В качестве следующего шага, я провел контроль качества данных путем удаления SNP-ов и частных лиц со слишком большим количеством отсутствующих данных, а также  привел в соответствие (за счет выравнивания) дополнительные SNP-ы из  референсной панели HapMap. Наконец, я поэтапно профазировал генотипы для получения гаплотипов Примечание:  я также заменил  ID задействованных участников  проекта на префикс N.

Гаплотипные данные были затем загружены на серевер HLA * IMP, где и была произведена процедура импутации  HLA типов.

Выявленные в ходе этой операции типы HLA выглядили следующим образом (каждый из индивидов представлен 2 гаплотипами, один из которых был унаследован от матери, другой от отца): HLA-A: HLA-B: HLA-C: HLA-DQA: HLA-DQB: HLA-DRB.

IndividualID Chromosome HLAA HLAB HLAC HLADQA HLADQB HLADRB
N1 1 101 801 701 501 201 301
N1 2 2601 2705 102 101 501 101
N6 1 3101 801 701 501 201 301
N6 2 201 1501 304 501 201 301
N3 1 6801 1501 102 101 501 101
N3 2 2301 5201 501 101 501 101
N2 1 101 801 701 501 201 301
N2 2 2601 3801 1203 102 602 1501
N5 1 301 1501 304 501 302 401
N5 2 205 5001 602 501 202 701
N7 1 101 801 701 501 301 1101
N7 2 101 1501 303 103 604 1301
N4 1 301 702 702 401 402 801
N4 2 2402 4002 202 501 301 1101

Гаплотипы в приведенной выше записи следует читать следующим образом (например, в случае N1):  HLA * 0101: Cw * 0701: B * 0801: DRB1 * 0301: DQA1 * 0501: DQB1 * 0201.

В вышеприведенной таблице можно  отметить совпадение одного из гаплотипов у участников эксперимента под номерами  N1, N2 и N7, т.е  они имеют идентичный гаплотип.

Это подтверждает одну из моих рабочих гипотез. У индивидов N1 (моей матери), N2 (меня) и N7  с помощью инструмента Relative Finder от 23andme  в геномном регионе HLA на 6 хромосоме был задетектирован полуидентичный сегмент ДНК, ( этот сигмент отвечает формальным требованиям идентичного по происхождению сегмента, то есть генетическая дистанция превышает порогое значение в 7 сантиморганид (сокращенно сМ — это единица измерения вероятности кроссинговера между двумя генами) и число снипов в непрервыном полуидентичном сегменте равно 700 ).

Таким образом, можно с уверенностью утверждать,  что мое первоначальное предположение,  подкрепляется результатами установления типа  HLA.

Практические результаты испытаний

Практически каждый из известных и описанных в литературе типов человеческих HLA имеет убедительную связь с так называемыми медицинскими рисками. Мы не будем сейчас останавливаться на них, и отложим рассмотрение этой тематики на будущей. Однако помимо медицинской полезности, существуют также и некоторые преимущества знания своего типа HLA и с точки зрения генетической генеалогии:

1) Прежде всего, это возможность определить характер распространения сегментов в области xMHC на хромосоме 6. Приведу конкретный пример на своих собственных данных — вышеупомянутый «расширенный» гаплотип HLA * 0101: Cw * 0701: B * 0801: DRB1 * 0301: DQA1 * 0501: DQB1 * 0201 (в англоязычной литературе встречаются и другие обозначения —AH8.1, COX,[1] Super B8, ancestral MHC 8.1[2] or 8.1 ancestral haplotype; далее мы будем писать его в сокращенном виде: A1 :: DQ2). По мнению некоторых исследователей этот гаплотип A1 :: DQ2 представляет собой  загадку с точки зрения изучения эволюционного процесса рекомбинаци. Дело в том, что скорость рекомбинации этого гаплотипв A1 :: DQ2 не соответствует теоретическими ожиданиям в плане скорости рекомбинации.  Нам известно, что в регионах Европы, где этот гаплотип  впервые сформировался и начал распространятся, существуют другие гаплотипы, некоторые из которых являются «предковыми», обладая при этом  весьма значимой длиной. Однако рассматриваемый гаплотип является своего рода рекордсменом  — он включает в себя последовательный контиг ДНК длинной примерно в 4,7 миллионов  (!) пар нуклеотидов,  и около 300 генных локусов. Кроме того, все исследования отмечают высокую «резистентность» этого гаплотипа по отношению  к рекомбинации. В качестве объяснения этого уникального феномена выдвигаются разные гипотезы — некоторые полагают что обструкция рекомбинации в этом гаплотипе была неким неизвестным была жестким образом кодирована в самой ДНК (по аналогии с хардкодингом -жестким «вшиванием» в программный код различных данных, касающихся окружения программы) Другие объясняют эту аномалию последствиями многократного селективного  отбора гаплотипа. Здесь следует прояснить суть проблемы: согласно классической теории рекомбинации, физическая длина любого аутосомного гаплотипа (то есть число нуклеотидов входящих в него) из-за быстрых темпов эволюционной рекомбинации должна неизменно  уменьшатся  с каждым поколением. Однако гаплотип A1 :: DQ2 является живым опровержением универсальности этого представления.

2) Во-вторых, можно попытатся произвести оценку времени и места возникновения этого гаплотипа.  В ходе систематического обследования мировых популяций, регулярно проводимого сетью центров и институтов трансплантологии, было  установлено, что гаплотип A1 :: DQ2 является наиболее часто встречается у белых жителей США , ~ 15% которых имеет этот гаплотип. Анализ SNP-ов сцепленных с этим типом, дает основания полагать, что гаплотип мог возникнуть примерно 20.000 лет в Европе, хотя  эта интерпретация в настоящее время признается некоторыми исследователями неубедительной. Согласно этой интепретации, гаплотип мог возникнуть  в результате  климатических изменений  во врема последнего ледникового максимума  примерно 11500 лет назад (поэтому этот гаплотип называют иногда предковым европейским гаплотипом, или гаплотипом A1-B8 (AH8.1). Этот один из тех 4 гаплотипов HLA, которые являются общими для западных европейцев и азиатов. Если предположить, что частота  распространения этого гаплотипа  в начальной популяции составляла 50%  во время последнего ледникового максимума и плавно снижалась  на 50% каждые 500 лет то частота гаплотипа в современных популяциях не должна превышать 0,1% в любой европейской популяции. Однако реальная частота  составляет, как было показано выше,  примерно 10%,  что превышает ожидаемую в теории частоту распространения почти в 100 раз. Применительно к генетической генеалогии,  это подробное разъяснение может означать только то, что массовое скопление совпадающих сегментов в xMHC регионе на 6 хромосоме может быть четким указанием  на наличие очень далеких общих предков (вплоть до жителей эпохи неолита). При любом раскладе, предлагаемый RelativeFinder/23andme интервал в 5-10 поколений до  последних общего предка для региона xMHC является нереалистично заниженным.

2) Кроме того,  используя стандартные средства геногеографии можно сделать вывод о географическом ареале распространения конкретного гаплотипа HLA. Опять-таки, изучая геногеографию все того же гаплотипа A1 :: DQ2, можно   увидеть, что  его локальные пики  приходятся на весьма удаленные  друг от друга регионы — это Исландия, регион исторического проживания поморов на Севере России, северная Сербия, земля басков, а также те регионы Мексики, которые массовао заселялись басками.  Общей чертой этих регионов является не географическая близость, а крайняя степень изоляции.
Относительно высокая частота распространения гаплотипа в  наиболее изолированных географических регионах Западной Европы, Ирландии, Скандинавии и Швейцарии наряду с  крайне низкой частотой во Франции и латинизированной  части Иберии является результатом описанной в популяционной генетике и антропологии модели замещения, народонаселения Европы, которое обычно связывается с началом эры неолита. В этом случае возраст рассматриваемого гаплотипа в Европе, превышает 8000 лет.

Напоследок хочу порекомендовать —The Allele Frequency Net Database  -хорошую базу данных по частотам аллелей полиморфичных регионов HLA,KIR,Cytokine,MIC Института транплантной иммунологии при Ливерпульском университете.  Она является очень удобным инструментом для анализа частот HLA гаплотипов в мировом масштабе.

В  частности, можно производить поиски по гаплотипам, и получать на выходе данные о частотах в различных популяциях, а также визуализировать полученные данные на карте.

Пример (гаплотип A1 :: DQ2)

1 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 Ireland South
11.50
250
                               
2 A*01:01B*08:01C*07:01DRB1*03:01:01-DQB1*02:01 England North West
9.50
298
                               
3 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01-DPB1*04:01 Ireland South
8.30
250
                               
4 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 Poland
4.00
200
                               
5 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 USA Hispanic pop 2
1.78
1,999
                               
6 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01-DPB1*01:01 Ireland South
1.40
250
                               
7 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 USA African American pop 4
1.39
2,411
                               
8 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 USA Asian pop 2
0.09
1,772
               

Еще раз о фазировании

В этом посте мы продолжим обсуждение проблематики отфазированных генотипов.
Многих пользователей моего блога интересует вопрос, каким образом можно фазировать биаллельные генотипы в гаплотипы?

С технической точки зрения, процесс фазирования генотипов подразумевает выявление — с высокой апостериорной вероятностью гаплотипной фазы. Как показывает сравнительный анализ алгоритмов фазирования в программах Beagle, PHASE, IMPUTE и т.д., — наиболее точные результаты получается в ходе совместного фазирования генотипов ближайших родственников.Поэтому в генетических штудиях — как популяционных (реже),так и медгенетических (намного чаще) — фазирование проводится с использованием генотипов трио (генотипы матери-отца-ребенка). Однако именно коммерческое генотипирование открывает более широкое поле деятельности для фазирования — получения более-менее однозначного гаплотипа с более-менее однозначной генеалогией. Вопреки распространенному среди любителей ДНК-генеалогии мнению любой составной УПС/HIR может быть легко преобразован в совокупность отельных гаплоблоков, многие из которых достаточно уникальными в предковой популяции анализируемого индивида. Здесь нужно развеять и второе заблуждение любителей — диплоидные генотипы 23andme ни в коем случае нельзя автоматически разбивать на два смежных столбика, единственный легитимным способом получения фазы генотипов является фазирование данных в специальных программах.

В принципе, можно с увереностью утверждать, что после того как из биаллельного генотипа получена гаплотипная фаза генотипа, потребность в HIR-ах отпадет. Сейчас же, при отсутствии полноценных данных по этим регионам и даже фазированных генотипах  УПС-HIR-IBD совпаденцам, приходится пользоваться намного более удаленными -в географическом и генеалогичском смыслах — референсами, типа фазированных гаплотипов в проектах 1000 геномов, HGDP или HapMap. Именно эти фазированные панели используются в новейших и наиболее эфективных программах фазирования генотипов в тех случаях, когда в выборку включены только лица, не родственные между собой.
До тех пор, пока не будет произведено массовое фазирование биаллелей, любой предикт родства сделанный на основании анализа нефазированных генотипов, следует воспринимать с максимальной осторожностью. Например, указание (в РФ алгоритме анализирующем нефазированные данные) на 5-6-юродную степень родства пуштуна и скажем, литовца может с абсолютно одинаковой степенью вероятности (50% на 50%) означать как наличие «афганского» следа в родословной литовца (или литовского следа — у пуштуна), так и очень далекое родство, близкое к случайному совпадению.
В избежании недоразумений, еще раз уточню, что речь идет не о привычных для любителей ДНК-генеалогии Y-STR гаплотипах, — в данном случае это аутосомные гаплотипы, которые выглядят следующим образом: AGGTTCCGAACCTTGGAAG ( и далее примерно несколько тысяч букв A/G/C/T). Фазированный гаплотип -это с определенной степенью вероятности гаплотип основателя. Более того, переход от биаллельных идентичных сегментов к набору идентичных гаплоидных сегментов открывает интересные перспективы в плане молекулярной датировки возраста идентичных гаплоблоков. Принимая во внимание тот факт, что гены и даже аллели этих генов, определяющие на ген.уровне [например, фенотип светлой пигментации волос)] достаточно хорошо известны и описаны в науч.литературе, то проблему датировки можно решить, отфазировав этии генотипы в гаплотипы, мы можем с помощью дерева коалесценции гаплотипов определить узел коалесценции, а следовательно датировать его с помощью молекулярных часов. Этим,кстати, занимается Монтгомери Слаткин (правда в качестве иллюстрации своей теории коалесцента он использует пример других «релевантных в плане мед.рисков генетических локусов»). В отдаленном теоретическом плане, множество малорекомбинантных гаплотипов можно использовать для конструирования специального генетического микрочипа (на основе того же OmniExpress) c включением в этот снип-чип генеалогически актуальных (малорекомбинантных) снипов, фазирование которых выявит наличие устойчивых гаплотипов недавнего происхождения (и соответственно, их генеалогию).

Технические нюансы.

Упрощенный дизайн технического процесса фазирования в общих чертах может выглядеть следующим образом. Сначала подготавливаем файл к приемлемому для фазирования формату (этих форматов много, я выбрал тот, в котором нужно минимально модифицировать исходные комбинированные данные 23ия+HapMap). В качестве proof of concept, я использовал относительно простое программное обеспечение для фазирования диплоидного генотипа (UNIX версия программы SNPHAP). В этой программе фазирование проводится с помощью алгоритмов байесовской инференции. Полученные на выходе отфазированные гаплотипоы пропускаются через своего рода элайнер, и на выходе получается FASTA aligned файл, который легко скармливается TNT путем ввода директивы procedure. А дальше можно либо реконструировать филогению в TNT, либо сохранять в формате Nexus.
В этом варианте процесс фазирования вычислительно-емкий и менее робастный , и эта одна из причин использования серверных возможностей (компьютерных кластеров, где программа может работать месяцами). Например, на байесовскую инференцию- фазировку используемых в данном примере генотипов из небольшого фрагмента 14 хромосомы в выборке из 92 индвидов ушло примерно 8 часов. После окончания цикла фазирования результаты (фазированные гаплотипы) сохраняются в отдельном файле. В описанном выше примере у 92 индивидов с помощью байесовской инференции было выявлено 937  гаплотипа со средней длиной в 5288 нуклеоитида, причем 315 из этих гаплотипов имеют кумулятивную апостериорную вероятность 1.00.

Практический пример (применения в генеалогии).

Этот практический пример основан на анализе моих собственных генетических данных, загруженных на сервер GedMatch. На сервере содержатся два варианта этих данных — нефазированный исходный вариант и второй фазированный вариант (две пары фазированных гаплотипов).

При поиске совпадений по первому варианту, общее количество » обнаруженных кузенов» составляет 179 человек.
Вместе с тем поиск по реконструированной в ходе фазирования той части генотипов, которая досталась мне от отца, общее число кузенов равнялось все 3. Из этих 3 один — родом из Рязани -, но параметры cовподающего сегмента, строго говоря, ниже пороговых значений [cM (7 cM) и число консекутивных снипов (700bp)] бритвы Оккама для генеалогически верифицируемых совпадений. Поэтому его следует отбросить. Остается два человека. Один наполовину беларус-полешук из Глусского и Слуцкого Полесья, наполовину эрзя. Другой — типичный американских пель-мель из смешания разных народов, но его бабушка носила имя Теодосия Осовская, возможно родом из Осового, что находится рядом со Стаховым, откуда родом предки моего отца.
Следовательно,что фазирование может представлять собой самый надежный фильтр для отсеивания false-positive совпадений.