Окончание процесса фазирования и импутирования геномов

К середине мая этого года я закончил трудоемкий процесс импутации сборной солянки из 9000 публично доступных образцовых представителей  700 различных человеческих популяций, генотипированных в разное время на разных снип-платформах (главным образом — Illumina и Affymetrix)
Строго говоря, я планировал завершить этот этап работы намного раньше, но в ходе выполнения работ возник ряд обстоятельств, помешавших завершить этот этап в срок. Главным из них является смена сервера где я выполнял импутирование геномов. Я начал работать на сервере Мичиганского университета, однако в ходе процесса перешел на аналогичный сервис Института Сэнгера (имени того самого нобелевского лауреата, предложившего первый метод полного сиквенирования генома).
Это решение было продиктовано необходимостью использовать новейшую референсную панель аутосомных гаплотипов — Haplotype Reference Consortium (в нее входит примерно 30 тысяч, а после предстоящего этим летом обновления — свыше 50 тысяч — аутосомных геномов, т.е свыше 60 тыс. гаплотипов). Надо сказать, этнический состав выборки референсных геномов впечатляет, хотя и там по-прежнему наблюдается перекос в сторону европейских популяций. К сожалению, и эта новейшая выборка представлена преимущественно европейцами (поэтому вероятность  импутированных генотипов для европейских популяций оказались лучше аналогичных результатов в африканской и азиатской когортах), однако даже с учетом этого обстоятельства ее надежность в определении негенотипированных аллелей снипов выше 1000 Genomes (не говоря уже о HapMap):

1 UK10K 3715 3781 6.5x
2 Sardinia 3445 3514 4x
3 IBD 4478 4478 4x + 2x
4 GoT2D 2710 2974 4x/Exome
5 BRIDGES 2487 4000 6-8x (12x)
6 1000 Genomes 2495 2535 4x/Exome
7 GoNL 748 748 12x
8 AMD 3305 3305 4x
9 HUNT 1023 1254 4x
10 SiSu + Kuusamo 1918 1918 4x
11 INGI-FVG 250 250 4-10x
12 INGI-Val Borbera 225 225 6x
13 MCTFR 1325 1339 10x
14 HELIC 247 2000 4x (1x)
15 ORCADES 398 399 4x
16 inCHIANTI 676 680 7x
17 GECCO 1131 3000 4-6x
18 GPC 697 768 30x
19 Project MinE — NL 935 1250 45x
20 NEPTUNE 403 403 4x
Totals 32611 38821
22 French-Canadian 2000 5-6X End 2014
23 Converge 12000 1x Now
24 UG2G Uganda 2000 4x 2015
25 Arab Genomes 100 30x
26 Ashkenazi 128 CG Now
27 INGI-Carlantino 94 4x Now
28 CPROBE 80 80 4x

 

Cледуя рекомендациям, я получил набор из 9000 образцов, каждый из которых включает в себя набор из 20-30 миллионов снипов. К сожалению, из-за субоптимальности результатов в некоторых выборках (Xing et al, Henn et al. и ряде других), их придется исключить из тех видов анализа, которые требует максимальной точности исходных данных. Импутированные генотипы (выраженные через оцененные вероятности) были трансформированы с помощью программы Plink 1.9 в генотипы, причем выбирались варианты полиморфизмов с вероятностью 0.8 (—hardcallthreshold 0.8)

Для оценки полезности импутированных генотипов для популяционного анализа я использовал метрику nearest в программе Plink (матрица с дистанцией между ближайшими геномами) и кластерограммы IBS (идентичности по генотипам).

Таблица метрики nearest (Z-статистика)

А это кластерограмма с хорошо видно географической локализацией кластеров. Я использовал для кластеризации матрицы IBS несколько разных алгоритмов — наиболее убедительный вариант был получен с помощью алгоритма Ward

Другие варианты топологии кластерограмм в формате NEWICK и TRE можно посмотреть здесь (их можно открыть в любой программе для визуализации филогенетических деревьев).

Таким образом, для некоторых типов анализа в популяционной генетике использование импутированных снипов может сослужить хорошую службу, смягчая (или, наоборот, увеличивая) градиент частот аллелей).

Дополнительные анализы — fastIBD, IBS, анализ главных компонентов — образцов в выборке, только подтверждает это наблюдение:


Но самое лучшее подтверждение надежности импутированных снипов для анализа компонентов происхождения  было получено с помощью p-теста Z-статистики во время оценки правильности определенной топологии дерева компонентов (с допущением фактора смешивания предковых компонентов). Для этой цели я использовал стандартный инструмент — программу TreeMix. Я использовал только те снипы, которые встречаются в моей контрольной выборке (референсов каждого из компонента) с частотой выше 99 процентов. Как видно из нижеприведенного графика, компоненты выбраны правильно, а топология определяется практически безошибочно, несмотря даже на малое количество снипов (6 тысяч). Правильно определились и направления потоков генов, дрейфов генов (указаны стрелками). Тут в принципе мало нового — большинство этих эпизодов уже были описаны в отдельных работах генетиков. Так, виден поток генов от «денисовского» человека к усть-ишимцу, от которого в свою очередь идет поток генов к австралоидным популяциями. То есть денисовская примесь у папуасов могла достаться от сибирских популяциях близких к «усть-ишимцу». Виден также вклад ANE/EHG в геном североамериканцев -в интервале 10-15 процентов.

Принципально новым является лишь определенный программой дрейф генов в направлении от африканцев Khoisan к североафриканцами (в качестве референса которых взяты египтяне, бедуины и алжирцы). Скорее всего, это и есть тот самый пресловутый сигнал «египтского выхода» человечества из Африки, о котором недавно писалось в новейшей статье, а сам компонент -идентичен пресловутому Basal-Eurasian component


В начале июля  в связи с публикацией препринта о генофонде древних ближневосточных земледельцев решился все таки подписать заявление на имя Давида Рейха и Иосифа Лазаридис с ходатайством о доступе к полной версии их выборки (она включает много новых интересных для меня популяций — например, около сотни новых образцов шотландцев, шетландцев, ирландцев из разных областей Ирландии, немцев, сорбов и поляков из восточной и западной Польши).

Г-н Лазаридис был весьма любезен и буквально на следующий день после получения подписанного заявления предоставил мне доступ к этим данным. Я займусь их плотным изучением чуть позже. А пока любопытно посмотреть результаты пилотного Admixture анализа 5900 публичных доступных образцов. В качестве проверки надежности своего нового метода изучения древних и современных популяций людей, я провел 4 параллельных анализа Admixture c разным дефолтным значением предковых популяций (K).

Разумеется, в нашем случае число компонентов K заведомо больше 3, авторы статьи эмпирически показали что меньший разброс значений был получен при K=11. Поэтому я исходил из этой цифры, назначив три разных значения K — 10,11,13.
В первом варианте я использовал т.н unsupervised режим Admixture, т.е. программа должна была сама угадать и реконструировать частоты аллелей снипов в 10 реконструируемых предковых «компонентах» популяций.

Как и ожидалась, таковыми оказались африканский (пик у пигмеев и бушменов), америндский (пик у эксимосов и американских индейцев), сибирский (пиковые значение у нганасанов), южно-индийский компонент (пик в народностях Paniya и Mala), австрало-меланизийский, южно-восточноазиатский, три западно-евразийских компонента — 2 компонента западноевроп ейских и кавказских охотников-собирателей и неолитический; и наконец ближневосточный.

Разумеется, за исключением трех компонентов с пиками в древних геномах, данное распределение отражает cовременное распределение предковых компонентов.

Пришлось вручную выделять из ближневосточного компонента популяцию базальных европейцев (в качестве основы я взял геномы натуфийцев, т.е ближневосточный компонент — Levant_N — может быть разложен на два отдельных предковых компонента — неолитический и мезолитический «натуфийский»), а затем сгенерировать гипотетическую популяцию из 20 образцов состоящих на 100 процентов из натуфийского компонента. Именно этот компонент был включен в модель K11 под названием Levant_Mesolithic ( или Natufian). Этот компонент не стоит путать с компонентом Basal-Eurasian в калькуляторе Eurogenes K7 Basal-rich, так в в моей модели K11 основная часть базального компонента ушла в неолитические компоненты (т.е Natufian=Basal-Rich — Neolithic)

Гораздо сложнее ситуация обстояла с разделением компонента кавказских охотников-собирателей, которые наряду с американскими аборигенами несут в своем геноме значительные доли компонента древних северо-евразийцев. По этому причине очень сложно, например, разделить восточных охотников-собирателей (из мезолитических культур Карелии и Самары) и синхронным им кавказских охотников-собирателей.
Из-за присутствия компонента древних северо-евразийцев в их геноме, в Admixture компонент древних кавказцев увеличивается только за счет компонент восточных охотников-собирателей — и наоборот. Правда, можно попытаться выделить отдельный мезолитический компонент населения горного Загроса (Иран).

В случае успеха древние геномы жителей мезолитической Грузии можно будет представить как 20% компонента степных охотников-собирателей + 80% местного мезолитического субстрата.

Вторая фаза нового проекта: африканская когорта

В одной из предыдущих записей я упомянул о том, что из 3 начальных когорт образцов «геномов» я провел импутацию азиатской и европейской когорты,  осталась получить результаты по последней — третьей когорты — африканской.

По состоянию на текущий момент,  закончена работа на 18 из 22 хросомом в выборке африканских популяции. Согласно моему прогнозу,  процесс импутации недостающих генотипов по 4 оставшимся хромосомам будет завершен в  самое ближайшее время.

А пока — т.н. «этноплот» или промежуточные результаты анализа главных компонент в пространстве генетического разнообразия африканских этнических групп.

Вторая фаза нового проекта

Две недели назад я сообщил об окончании первой фазы своего нового проекта (на первом этапе работы удалось собрать надежную выборку из более чем 5000 образцов более чем 250 различных этно-популяционных групп людей по всему миру.

Как я уже рапортовал ранее, самой сложной из запланированных на втором этапе задач являлась импутирование (импутация) отсутствующих генотипов.  Читатели моего блога помнят, что две предыдущие экспериментальные попытки импутирования больших выборок     — в 2013  и в 2015  — закончились неудачно (или, если говорить точнее, качество импутированных генотипов не оправдало моих завышенных ожиданий). В предыдущих опытах я задействовал мощную комбинацию программ ShapeIT и IMPUTE и  метод импутирования снипов за счет использования большой референсной панели аутосомных гаплотипов (из 1000 genomes),  гарантирующей более аккуратное определение генотипов.

На этот раз, я решил не повторять ошибок, и обратился к использованию других программ — в частности , к  Minimac3, хорошо зарекомендовавшую себя в работе с геномами 1000G.  К моему счастью, я набрел на недавно появившиеся публичные сервера, работающие с «облачным» сервисом импутирования Cloudgene. геномов.
Серверы импутирования геномов позволяют использовать полную референсную панель гаплотипов для точного определения недостающих генотипов в анализируемых данных. Пользователи подобных серверов могут загружать (предварительно фазированные или несфазированные) данные генотипов на сервер. Процедура импутирования  будет осуществляться на удаленном сервере, и по окончанию этого процесса рассчитанные данные доступны пользователю для скачивания. Наряду с импутированием, подобные сервисы позволяют провести процедуру контроля качества (QC) и фазировки данных в качестве предварительного этапа процесса импутирования генотипов.

Прототипы серверов импутирования уже доступны в институте Сангера и Мичиганского университета. В дополнение к вышеназванным серверам, можно упомянуть прототип сервера поэтапной полномасштабной  фазировки генотипов анализируемых образцов (прототип создан биоинформатиками Оксфордского университета). На мой взгляд, самое простое и доступное решение задачи импутирования на удаленном сервере было разработано сотрудниками   Мичиганского университета. Дополнительное преимущество этому решению дает грамотная документация по использованию сервиса.

Основная рабочая лошадка сервиса — это комбинация двух или трех программ — две програмы для фазирования диплоидных генотипов в гаплоидную фазу  ShapeIT и Hapi-UR , а в качестве основного ПО для самого процесса импутирования (определения) недостающих генотипов — вышеупомянутую программу Minimac3.

Описание эксперимента с импутированием генотипов на удаленном сервере

В самом начале,  я разбил свою выборку на пять когорт (т.к. референсные панели на сервере также разбиты на «этнографические группы»):

  1. европейцы (европейцы + кавказцы) — 1715 образцов -87169 снипа
  2. азиаты (+американские аборигены и аборигены островов Тихого Океана) — 2356 образцов — 87044 снипа
  3. африканцы — 1054 образца — 86754 снипов
  4. палеогеномы древних жителей Евразии, Африки и Америки -340 — 594500 снипов
  5. смешанные группы — преимущественно мозабиты, пуэрто-риканцы и др.
QC-Report
На рисунке показана корреляция между частотами аллелей в изучаемоей выборке (здесь: европейская когорта) и частотами аллелей в референсной панели

К моему вящему неудовльствию,  некоторые образцы в сводной выборке не прошли контроль качества — в первую очередь это касается образцов европейцев из базы данных POPRES, а также выборок статьи  Xing et al. (2010). Скорее всего, их нужно будет импутировать отдельно.

Несмотря на значительную скорость обработки генотипов на удаленном сервере, к настоящему времени эксперимент еще не доведен до конца.  Пока я планирую ограничиться импутированием генотипов в 3 первых когортах (т.к. импутирование палеогеномов с помощью современных референсных панелей гаплотипов вероятнее всего приведет к искажению истинного разнообразия палеогеномов за счет проекции на современные группы населения, хотя авторы статьи Gamba et al. 2014 в сопроводительном материале к своей статье утверждают обратное).

После окончания фазирования и последующей обработки генотипов европейской когорты в программе Plink (были отсеяны все варианты с вероятностью ниже 0.9) ,  я получил выборку из 1715 европейцев с 25 215 169 снипами против изначальных 87169, т.е число снипов в выборке увеличилось в 290 раз!
В азиатской когорте соотношение импутированных генотипов к исходным составило чуть меньшую величину 19 048 308 / 87044 = 219.

Проверка результатов

Разумеется, все полученные результаты нуждались в дополнительной проверке качества генотипирования.
Cначала я объединил импутированную европейскую когорту с когортой палеогеномов (которая не была импутирована) и рассчитал в программе PLINK 1.9 матрицу IBS (т.е. сходства образцов в выборке между собой, эта метрика отдаленно напоминает Global Similarity в клиентских отчетах 23andme), а затем усреднил данные по популяциям и произвел по усредненным значениям иерархическую кластеризацию по признакам сходства (IBS, identity by state). Результат превзошел все мои пессимистические ожидания

 

 

Как становится очевидно из приведенной выше кластерограммы,  в целом взаимное расположение популяций в кластерах соответствует (в общих чертах) взаимному географическому положению. Присутствуют, правда, и некоторые огрехи. Так, например, венгры очутились в одном кластере с русскими из Курска,  норвежцы — с русскими из Смоленска, а усредненные «русские» — с американцами европейского происхождения из штата Юта и французами. Трудно сказать, в чем здесь причина, тем более что матрица была составлена по значениям IBS (идентичности по состоянию), а не IBD (идентичности по происхождению).  Более подробные данные о попарных значениях IBS между популяциями выборки можно посмотреть в этой таблице

Импутированная азиатская когорта (несмотря на расширение географии за счет включения образцов коренного населения Америки и аборигенов бассейна Тихого океана)  тоже  оказалась на удивление надежной. Я пока не буду останавливаться на подробностях изучения этой когорты, вместо этого я размещаю здесь результаты MDS- мультдименсионального шкалирования образцов выборки, образованной в ходе слияния 2 импутированных когорт (европейской и азиатской) с 1 неимпутированной (палеогеномы). Цветовое обозначение точек соответствует определенным кластерам, выявленных в выборке с помощью алгоритма MCLUST (cледуя рекомендациям Диенека Понтикоса). Всего этих кластеров 15 и они обозначены последовательностью чисел от 1 до 15, и каждый из этих кластеров имеет свою четкую географическую привязку:

  • 1 — кластер популяций ближнего Востока и  Анатолии
  • 2 — кластер популяций северного Кавказа
  • 3 — «индоевропейский» кластер древних популяций Синташта, шнуровой культуры, Ямной культуры и т.д.
  •  4 — кластер аборигенных жителей Америки (эскимосов и индейцев)
  • 5 — суперкластер популяций средиземноморского и восточноевропейского региона
  • 6 — сибирский кластер алтайских и самодийских популяций
  • 7 — кластер популяций западной и северной Европы
  • 8 — кластер палеосибирских популяций (таких как чукчи, ительмены и коряки)
  • 9 — кластер аборигенных (австронезийских и тай-кадайских) популяций юго-восточной Азии (даи, атаяла и ами)
  • 10 — кластер неолитических популяций
  • 11 — еще один ближневосточно-средиземноморский кластер (ашкеназим, сардинцы и так далее)
  • 12 — кластер североиндийских популяций
  • 13 — кластер центральноазиатских популяций
  • 14 — поволжские популяции
  • 15 — разные групп индусов

 

О генетике древних жителей Сибири и многом другом

Несмотря на данное самому себе обещание регулярно обновлять этот блог, по независящим от меня причинам мне пришлось на время отойти в сторону и заняться другими более приоритетными делами на работе и в университете (где, как я надеюсь, мне предстоит защищать докторскую). К несчастью, время вынужденного бездействия пришлось на тот период, когда были опубликованы ряд интересных научных работ как в области популяционной генетики (ряд исследований по Y-хросомомным и митохондриальным группам, а также аутосомам значительного числа народностей), биоинформатики (метод фильтрации ложнопозитивных IBD (идентичных по происхождению) сегментов генома) и других областях. C другой стороны, наблюдается расширение технологических методов и способов генотипирования, предлагаемых коммерческими фирмами конечным пользователям, которых интересуют генетические аспекты своего происхождения и медицинские риски. Все это заслуживает самого пристального внимания, удилить которого у меня сейчас никак не получается.
В силу ограниченности времени и ресурсов, я решил сфокусировать свое внимание на новости касающейся лично меня, вернее, результатов моих исследований. Речь идет о публикации одного из новых геномных блоггеров (кодовое имя — genetiker) под названием K = 26 admixture analysis of Amerindians and Mestizos. В своей  пространной статье и спорных выводах автор приводит целую серию аргументов (от генетики до антропологии) в пользу одной из альтернативных версий, предпологающих европейское происхождение части америндов. Впрочем, важным мне представляется не аргументирование одной из возможных теорий происхождения индейцев и Y-гаплогруппы Q, а упоминание в этом контексте результатов моих исследований в проекте MDLP. Но перед тем как привести здесь цитату из статьи, следует вспомнить и о другом курьезном случае, связанном с обсуждением результатов исследования ДНК останков мальчика из доисторической стоянки палеолита в Мальте (Иркутская область) в блоге Германа Дзибеля. Г-н Дзибель в явной попытке показать свою вхожесть в круги наиболее посвященных популяционных генетиков, сообщил по секрету, что 1) Y-хромосома мальчика принадлежит к гаплогруппе R, а его митохондриальная группа — U; 2) аллельные компоненты генома мальчика условна разделяются на три составные части — западноевразийский, америндский и юго-центрально-азиатский. Как я отмечал ранее, в своем анонсе бета-версии своего этно-популяционного калькулятора MDLP World K27, расклад компонентов в генома древнего населения стоянки Мальта можно представить в виде следующих комбинаций современного населения:

[2,] “33.7% Brahui + 66.3% Udmurd” “21.9804″
[3,] “34.5% Makrani + 65.5% Udmurd” “22.357″
[4,] “34.3% Balochi + 65.7% Udmurd” “22.413″
[5,] “33.3% Sindhi + 66.7% Udmurd” “24.1198″
[6,] “36.5% Burusho + 63.5% Udmurd” “24.211″
[7,] “39.7% Pashtun + 60.3% Udmurd” “24.3389″
[8,] “34.3% Pathan + 65.7% Udmurd” “24.716″
[9,] “32.2% Pakistani + 67.8% Udmurd” “24.753″
[10,] “41.4% Tadjik + 58.6% Udmurd” “24.852

«The MDLP World-22 analysis produced a Cro-Magnon Nordic component (“North-European-Mesolithic”) and an Aryan Nordic component (“North-East-European”). The only people today in which the Cro-Magnon component is modal are Lapps. They have 76.4% of the Cro-Magnon component and 15.5% of the Aryan component.

One of the distinctive characteristics of Cro-Magnon cranial morphology is the short face, as can be seen in the drawing of a Cro-Magnon skull below.The same distinctive short face can be seen in these photographs of Lapps .»

Перевод » В  произведенном в проекте MDLP анализе World-22 был выявлен характерный для кроманьонцев северный компонент (« компонент северо-европейского мезолита ») и арийскйй северный компонент (« северо-восточно-европейский компонент »). Единственная группа людей, которые сегодня наиболее близки к чистым кроманьонцам это саами-лопари. Они имеют 76,4% кроманьонского компонента и 15,5% арийского компонента.

Одной из отличительных характеристик  черепной морфологии  является короткое лицо, как это можно видеть в традиционных изображениях кроманьонских черепов. Tот же самый отличительный признак — короткие лицо — можно часто увидеть и на фотографиях лопарей ».

fineStructure анализ популяций северо-восточной Европы: часть 1

Некоторое время тому назад в своем англоязычном блоге я разместил новый график, сделанный на основании анализа главных компонентов  генетического разнообразия в выборке, которая включала в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.

В ходе экспериментального теста в ходе статистической обработки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, которая  участвовала в репродукции или обмене генами в отдаленном прошлом. Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение  составило  22 000.Это близко к значениям Ne рекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных выше данных даже 22 000 для совокупности эффективного размера элементарных популяций — это более, чем достаточно. Например, численность эффективной популяции адыгов-шапсугов составляет по оценке попгенетиков всего 187 индивидов:

Почешхова, Э. А.  Структура миграций и дрейф генов в популяциях адыгов-шапсугов / Э. А. Почешхова // Медицинская генетика : ежемесячный научно-практический журнал. — Том 7,N 1. — Реферирована.  Важной  особенностью генофонда адыгов являются традиционная структура браков и  высокая эндогамия: 96,5% браков заключается в пределах своего этноса.  Одно из племен адыгов — шапсуги подразделено на две географически  изолированные группы. Шапсуги побережья Черного моря (от Туапсе до  Сочи), проживающие в районе наиболее интенсивного заселения пришлыми  народами, заключают 89% браков в пределах своей географической группы,  5% браков — с другими адыгами и лишь 6% браков — с представителями всех  остальных народов России и Закавказья. Шапсуги, переселенные в  Прикубанье (Западная Адыгея) и проживающие среди прочих племен адыгов,  заключают 77% браков в пределах своей географической группы, 21% браков —  с другими адыгами и 1,3% браков — с представителями иных этносов. Для  шапсугских аулов средний индекс эндогамии составил 0,40, гаметный индекс  — 0,7. Для элементарных популяций средний индекс эндогамии составляет  0,65. Малый генетически эффективный размер элементарных популяций  (Ne=187)


Или вот:

При оценке генного дрейфа на основе методов генетической демографии ключевыми параметрами являются эффективная численность Ne (размер, объем) популяции, составляющая примерно 30 % от общей численности, и миграция. Показано (Евсюков и др., 1996), что для коренных народов Сибири средний эффективный размер популяции равен 218, а для Северной Евразии в целом – 200, хотя изменчивость эффективного размера (Ne) популяций различалась на три порядка величин, как и их численность. Небольшая средняя величина Ne позволяет ожидать значительного эффекта генного дрейфа, если ему не противостоит миграция. Генный дрейф реализуется на уровне как популяции в целом, так и субпопуляций. В оригинальных исследованиях сибирских популяций получены следующие значения эффективного размера на уровне поселений(субпопуляций): алеуты Командорских островов – 75 чел. (Рычков, Шереметьева, 1972а, б), азиатские эскимосы и береговые чукчи – 70 и 61 чел. соответственно (Рычков, Шереметьева, 1972в), эвенки Нижней и Подкаменной Тунгуски – 27 чел. (Рычков и др., 1974б), коряки Камчатки – 71 чел. (Шереметьева, Горшков, 1982), северные ханты – 152 чел. (размах значений 98–348) (Пузырев и др., 1987). Эффективный размер сельских популяций Северной Евразии имеет клинальный тип изменчивости, убывая в направлении юго-запад – северо-восток, за исключением локального минимума в Средней Сибири у тунгусоязычных западных эвенков (Евсюков и др., 1996).


Из чего следует, что Ne размером в 22 000 человека или 1000 индивидов на кластер (а всего их выявленно 22 ) — это вполне достаточно для масштабирования частот рекомбинации гаплотипов. Можно прояснить смысл понятия эффективная популяция и другими словами. Во избежании ненужной путаницы необходимо сразу оговорить что понятие эффективной популяции носит сугубо теоретический характер, и в силу этого напрямую не имеет отношения к тому, каков был размер отдельной локальной популяции в определенный отдельно взятый промежуток времени.

Не имеет значения , так как речь идет о тех, кто внес свой вклад в генофонд существующих популяций.Причем эти все «отцы и матери-основатели» могут быть разнесены по времени на тысячелетия.


Собственно говоря, эффективная популяция — это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса  числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955).

Что касается размере эфективно-репродуктивной популяции для исходной популяции современных популяций Евразии, его достаточно легко вычислить исходя из аутосомного разнообразия. Например, соответствующие алгоритмы для вычисления Ne имплементированы в прогамме FineStructure.  По моим расчетам (близким к общепринятым) усредненный для всех хромосом размер эффективной популяции для всех задействованных мной евразийский популяций составил 14 000.

Исходя из общепринятого мнения, согласно которому размер Ne (эффективной популяции) в каждый синхронный период времени составляет примено 33% от общего размера популяции теоретически можно оценить величину популяции в момент времени, когда ее эффективный размер составлял 14 000 (это примерно 40 000).

Если бы мы знали, что все это родоначальники многобразия жили в одно время, тогда можно было бы интерполировать эти сведения для оценки это времени по обычной хронологической шкале. Но нет никаких оснований полагать, что они жили в одно и то же время.

«Effective size» of the population (commonly denoted as Ne in the population genetics literature) from which your dataset was sampled. This parameter scales the recombination rates that IMPUTE2  uses to guide its model of linkage disequilibrium patterns. When most  imputation runs were conducted with reference panels from HapMap  Phase 2, we suggested values of    11418    for imputation from HapMap CEU,    17469    for YRI, and     14269    for CHB+JPT.

Modern imputation analyses typically involve reference panels with  greater ancestral diversity, which can make it hard to determine the  «ideal» -Ne value for a particular study. Fortunately, we have found that imputation accuracy is highly robust to different -Ne values; within each of several human populations, we have obtained nearly identical accuracy levels for values between 10000 and25000. We suggest setting -Ne to 20000 in the majority of modern imputation analyses.

В качестве инструмента я использовал комбинацию нескольких программ из нового пакета биоинформатического программного обеспечения fineStructure/ChromoPainter. Как показали экспериментальные тесты  с использованием этого пакета, оптимизированный алгоритм обнаружения общих по происхождению сегментов в сравниваемых популяциях дает оптимальные результаты по разбивки индивидов на кластеры по признаку геномной близости (в качестве меры этого признака в данном случае я использовал число идентичных по происхождению геномных сегментов:  по полученным векторам признаков для каждого кластера производилось попарное сравнение и сортировка по мере близости в евклидовой метрике).

MDLset1-3 MDLsetMDLset

1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
2. Все литовцы (участники проекта + референсы из статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев 
3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.
4. Ниже находится балканский кластер (румыны, болгары и часть венгров).
5. К этому кластеру примыкают турки и часть армян 
6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов). 
7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.
8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

10. Левее этой группы популяций находится кластер ашкеназов.

11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).*

*—— Примечание


Т
акое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции. То есть все эти баски являются многократными родственниками между собой. Классический генный дрейф, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества shared DNA chunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.Исходя из этого можно сделать вывод о том
1) что баски эта экстремально-эндогенная популяция изолянтов
2) генетическое разнообразие низко, т.к. размер эффективной популяции низок.

 

 

Вы не поняли. 

Каких десятков тысяч предков славян?
По оценке профи, занимающихся анализом полных геномов, эффективный размер популяции генетических предков для современных популяций всей Евразии с трудом достигает 2 десятков тысяч,  причем общий консенсус сдвигается в сторону 15 000.

 

Экспериментальный тест: определение HLA-гаплотипов из нуклеотидов ДНК-последовательностей с помощью программы HLA*IMP

Введение

Большинство из моих записей и экспериментов являются уникальными — именно по этой причине я очень часто дублирую эти записи на английском и русском языках.  Без ложной скромности хочу представить читателю мое самое значимое достижение в области любительской персональной геномики — эксперимент по определению HLA серотипа на основе известных снипов из клиентских raw_data (файла с перечнем генотипированных снипов) компаний 23andme и FTDNA.

Однако перед тем как перейти к описанию самого эксперимента, необходимо вкратце напомнить о важности HLA-гаплотипов. Молекулярные различия между аллелями HLA могут варьироваться до 57 нуклеотидов в пептидо-связывающей кодирующего региона главный комплекса генов гистосовместимости (MHC) человека,  однако еще до конца не установлено, являются ли эти молекулярные полиморфизмы результатом случайного стохастического процесса или же в процессе естественного отбора возникли селективные ограничения, связанные с функциональными различиями между молекулами HLA . Хотя HLA аллели, как правило, рассматривается в популяционно-генетических исследованиях  в качестве эквидистантных молекулярных единиц, однако последовательность ДНК, и популяционное разнообразие также имеет решающее значение для интерпретации наблюдаемого полиморфизма HLA ( (Buhler S, Sanchez-Mazas A, 2011 HLA DNA Sequence Variation among Human Populations: Molecular Signatures of Demographic and Selective Events. PLoS ONE 6(2): e14643. doi:10.1371/journal.pone.0014643).

Стоит отметить еще один важный момент: HLA локусы характеризуются наиболее максимальным уровнем генетического разнообразия из всех человеческих генетических систем. Предварительные знания о степени разнообразия играет важную роль в эволюции и отборе молекулярных методов типирования. Определение частот аллелей также важны и в трансплантологии —  например при аллогенетической трансплантации гематопоэтических стволовых клеток аллели используются для определения вероятности нахождения соответствующих «гистосовместимых» доноров для каждого пациента. Генетическое разнообразие локусов HLA отвечает также за эффективность работы иммунной системы  при  устранении клеток, несущих чужеродные антигены. Существует необходимость разработать методы оценки этого генетического разнообразия с целью изучения того, как различные группы людей  реагируют на воздействие чужеродныъ антигенов, а также для оценки вклада каждого локуса HLA.

Система HLA была тщательно изучена также и с эволюционной точки зрения. Эта система содержит ряд тесно связанных генов, продукты экспрессии которых определяют множеством функций, связанных с регулированием иммунного ответа. Кроме того, последние исследования в области медицинской генетики установили в этом геномном регионе целый ряд вариантов, обуславливающих генетическую предрасположенность к более чем 40 заболеваниям. Ряд наблюдений показывает, что  система человеческого HLA подвержена существенному влиянию естественного отбора, что приводит к появлению большого числа полиморфизмов с очень четко выраженным градиентом частот аллелей.  Возникновение высокого уровня изменчивости в локусах имеет решающее значение для распознавания антигена, определения возраста аллелей и закономерностей в нарушении равновесного сцепления между локусами. Форма воздействия отбора неизвестна. Большинство исследователей склоняется к тому, что сложный характер наследования HLA вряд  ли можно объяснить одним лишь воздействием естественного отбора. Мутации, рекомбинации и генетическая конверсия — все это также способствует увеличению изменчивости HLA. В то же время, очевидная древность многих аллелей HLA выявленных в ходе филогенетического анализа доказывают, что абсолютные темпы производства новых вариантов не являются высокоми. Детальное изучение популяционной и эволюционной особенности региона HLA, необходимо для обоснованного обсуждения эволюции генетических вариантов, предрасполагающих к определенным типам болезней (Thomson G.HLA population genetics.1991 Jun;5(2):247-60.).

Большинство из обычных людей сталкивались с термином антиген HLA только  в процессе сдачи/получения донорских органов. В некоторых случаях имеются показания к выявлению типов антигенов HLA у родителей при осложнениях во время беременности:

 При совпадении родителей по антигенам HLA увеличивается количество повторных аномальных беременностей с неустановленными причинами аномалий (Gerencer et al., 1978). Установлено отсутствие антигенов HLA в трофобласте, обнаруживается только b2-микроглобулин (Bodmer, 1981). Показано, что несовместимость по антигенам HLA матери и плода благоприятствует нормальному протеканию беременности и развитию плода.

Тот же самый авторитетный источник дает вполне сносное и вполне доступное для понимания начинающих любителей генетики:

Главная система тканевой совместимости (major histocompatibility Complex — МНС) может быть рассмотрена в качестве еще одного примера комплекса тесно сцепленных локусов. МНС человека обозначается латинскими буквами HLA (human leukocyte antigene) и называется системой или комплексом HLA.

Годом открытия главной системы тканевой совместимости человека считают 1958 г., в котором Ж. Доссе открыл первый антиген, обозначенный Mac (современное обозначение — HLA-A2) (Снелл и др., 1979). С момента открытия первого антигена тканевой совместимости велась неуклонная работа по уточнению типирования тех или иных антигенных специфичностей, открытию новых антигенов, изучению их строения, разработке универсального метода типирования антигенов, локализации на хромосоме генов системы HLA, выяснению характера наследования, а также по совершенствованию антисывороток, выявляющих тканевые антигены и по выявлению особенностей распространения антигенов в различных популяциях мира.

Интенсивному развитию исследований способствовали в значительной мере Международные рабочие совещания по совместимости тканей. Первое такое совещание было организовано Д.Б. Эймосом в 1964 г. Затем были проведены рабочие совещания в 1965, 1967, 1970, 1972, 1975, 1977, 1980 и 1984 гг. Материалы Международных рабочих совещаний по совместимости тканей публикуются в качестве периодического издания “Histocompatibility Testing” и отражают основные этапы в развитии иммуногенетики человека и тканевого типирования. В 1967 г. после окончания очередного рабочего совещания был организован Международный номенклатурный комитет под руководством ВОЗ, который осуществляет разработку номенклатуры комплекса HLA, соответствующей уровню развития отрасли. Номенклатуры системы HLA выходили в Бюллетенях ВОЗ в 1968, 1972, 1975 и 1978 гг., а также в материалах Международных рабочих совещаний по совместимости тканей в 1970 и 1980 гг. Новая номенклатура была принята после окончания работы 9-го Международного рабочего совещания в 1984 г. (Bodmer et al., 1985). В таблице 1 номенклатура представлена для локусов HLA-A, -B, -C и -DR. Латинские буквы перед цифрами обозначают принадлежность к тому или иному локусу, а цифры — номер антигена. У некоторых специфичностей есть еще добавочное “w”, обозначающее, что данные специфичности либо не признаны к этому моменту всеми лабораториями, либо есть сложности в их типировании.

Каждое название специфического типа HLA или как еще говорят HLA аллелей имеет свой уникальный номер, соответствующий до четырех наборов цифр, разделенных двоеточиями. Длина обозначения аллели зависит от последовательности аллеля.  Как правило, все аллели имеют по крайней мере  четырех-символьное обозначения, которое соответствует  двум наборам цифр, длинная номенклатура назначается только по необходимости. Цифры до первого двоеточия описывают тип, который практически всегда соответствует серологическому антигену, который несет  данный аллотип. Следующий набор цифр, который используется в списке подтипов является обозначением порядка, в котором были определены последовательности ДНК. Аллели, номера которых отличаются  двумя наборами цифр, отличаются друг от друга одной или несколькими нуклеотидными заменами которые ведут к изменению аминокислотной последовательности кодируемого белка. Аллели, которые отличаются только синонимичными/некодирующими нуклеотидными заменами в кодирующей последовательности, отличаются друг от друга использованием третьего дополнительного  набора цифр. Аллели, которые отличаются только последовательностью полиморфизмов в интронах или в 5 ‘и 3’ нетранслируемых регионах, которые примыкают к  экзонам и интронам, отличает использование четвертого набора цифр (см.дополнительную информацию).

Пример

HLA-A определяет HLA локуса
HLA-A1 серологическое обозначение антигена
HLA-A * звездочкой обозначается HLA аллелей определяется методами молекулярного типирования.
HLA-A * 01 2-разрядное разрешение обозначает группы аллелей, которые соответствует обычным серологическим группам — с низким разрешением
HLA-A * 0101 4-разрядное разрешение — последовательность различий между аллелями, которые приводят к аминокислотным заменами
HLA-A10101 60-значное разрешение — определяет некодирующие варианты, т.е последовательность изменений,  не ведущих к аминокислотным заменам

В целях понимания уникальности проведенного мною эксперимента необходимо еще пояснить особенности определения типов антигенов. До прихода эра молекулярной геномики, антигены HLA подразделяются выявлялись серологически и с помощью лимфоцитов. К последним относятся антигены Dw, DQ, DP и некоторые DRw, относящиеся к области D. Большинство исследований фоксируется лишь на серологически определяемых антигенах, относящихся к локусам HLA-A, -B, -C и -DR. Первые три группы антигенов представляют собой гликопротеиды, обнаруживающиеся на клеточной мембране любой ядросодержащей клетки (Amos, Kostyu, 1980).

Как следует из вышесказанного, традиционно на протяжении десятилетий для HLA-типирования использовались серологические метода много десятилетий, и при этом серологическое типирование II класса молекул главного комплекса гистосовместимости человека зависело от адекватной экспресии этих молекул на поверхности В-лимфоцитов, наличия жизнеспособных клеток и полным набором иммунных сывороток. Тем не менее, применение молекулярно-генетических методов первого поколения (RFLP, PCR, SSO и т.д.) для типирования HLA привело к ситуации, в которой почти каждая лаборатория может независимо выполнять  ДНК-типирование для определения аллеля HLA.

HLA типы и сцепленные SNP-ы на 6 хромосоме

Как показал мой эксперимент, что даже того относительно небольшого количества снипов, которое типируется  коммерческими компаниями в регионе MHC-HLA достаточно для определения типа антигена с высокой точностью.

К сожалению, имеется целый ряд нюансов значительно усложняющих анализ. Во-первых, определение классических аллелей HLA (например, HLA-, HLA-B и др.), с помощью  новой чип-технологии, используемой в популярных коммерческих услугах геномных компаний (23andMe, FTDNA Family Finder и deCODEme), является очень сложным процессом, требующим проведения большого количества мультиплекс-ПЦР-реакций для получения полного генотипа пациента. Именно поэтому классические методы типирования HLA зачастую оказываются непрактичными в крупномасштабных исследованиях.Во-вторых, техническая сторона выявления типа HLA на основании генотипов является относительно сложной, и я не уверен что рядовой пользователь сможет ее осилить.  При  я могу помочь определить тип антигенов в качестве коммерческой услуги (которая примерно на 50 процентов дешевле стоимости стандартной медицинско-генетической услуги серотипирования).

К счастью для нас, в Центре генетики человека в Wellcome Trust Центра был разработан метод определения классических аллелей на основании анализа сцепленных SNP-ов. Метод был реализован в виде специального фреймворка  (HLA * IMP) (Dilthey, A. T., Leslie, S., Moutsianas, L., Shen, J., Cox, C., Nelson, M. R., McVean, G. (2012): «Multi-population classical HLA type imputation» (submitted to Plos Comp Bio)).

HLA * IMP определяет HLA тип  на основе данных о генотипе SNP, используя для этих итеративный метод отбора наиболее информативных полиморфизмов для отдельных поддерживаемых чипов генотипирования (Affymetrix 500K, 900K Affymetrix, Illumina 300K, 550K Illumina, Illumina 650K, Illumina 1M). Таким образом, HLA * IMP позволяет исследователям  определить тип  HLA в ходе импутирования геномных данные, собранных из нескольких доступных наборов SNP путем сопоставления импутируемых данных с референсными данными более 2500 индивидов европейского происхождения. Референсные данные содержат как  SNP-варианты, так и классические аллели HLA типов.

Референсная панель которую я использую в целях импутации пропущенных значений, включает в себя:

1) так называемый The British Birth Cohort 1958 года включающем в себя SNP-ы Illumina 1,2 м и Affymetrix 6.0 (TheWellcome TheWellcome Trust Case Control Consortium, 2007) — 2420 индивидуальных образцов х 7733 SNP в расширенном регионе HLA.
2) выборку образцов CEU из HapMap  (Международный консорциум HapMap, 2007) и CEPH CEU + дополнительные образцы (дde Bakker et al., 2006) — 92 образца х 7733 SNP-а перекрывающиеся со снипами The British Birth Cohort 1958)

Программа использует аутосомные гаплотипов состоящих из SNP -ов BC-195и CEU , и именно эти гаплотипы были  задействованы в качестве эталонного набора данных.  Была определена взаимосвязь типов HLA и гаплотипов SNP (эти гаплотипы были фазированы с помощью программы PHASE (Stevens and Scheet, 2005) с применением стандартных параметров фазирования многоаллельных локусов. Вместе с  эталонным набором данных было получено около 5024 гаплотипов высокого разрешения, имеющими прямую корреляцию с 7733 SNP-ами в  геномном регионе HLA.  Эти гаплотипы  определяют разное  количества типов антигенов -2474 типа (HLA-A), 3090 (HLA-B), 2022 (HLA-C), 175 (HLA-DQA1), 2629 (HLA-DQB1), 2665 (HLA-DRB1). Это конкретные SNP-гаплотипы которые в дальнейшим программа использует для инференции типа антигена.

Эксперимент с  выборкой проекта MDLP.

Поясню вкратце суть эксперимента

Как я уже упоминал в блоге MDLP (Re: Хромосома 6), геномные инструменты 23andme — RelativeFinder  и AncestryFinder выделили   целый кластер полуидентичных сегментных совпадений в который попало примерно 315 геномных совпадений с другими клиентами из базы данных 23andme. Примечательно, что все эти  участки совпадения полностью или частчино перекрываются и расположены в одном и том же субрегионе области HLA-MHC на 6 хромосоме (21Mb-38MB). Эта замечательное скопление совпадающих участков  составляет почти половину от общего количества моих AF / RF совпадений (315/720 или 43,75%).

Ранее я предположил, что столь явный перекос числа общих по происхождению полуидентичных сегментов  в области HLA свидетельствует о том, что один из гаплотипов совпаденцев  является идентичным типом антигенов HLA. До недавнего времени, мое предложение опиралась исключительно на мои интуитивные догадки. Затем я смог найти ключ решения проблемы с помощью HLA * IMP  и до сих пор,  после чего мне удалось провести  эксперимент в HLA * IMP , в ходе которого я применил методологию к анализу данных 23andMe  (Illumina Omnio Express) .

Условия эксперимента

Для успешного проведения моих тестов, я должен был убедиться, что мои собственные данные соответствуют следующим требованиям:

* SNP-ы  должны входить в область  xMHC  ( на  6 хромосоме )
* Отобранные в первоначальной выборки кандидаты должны быть европейского происхождения
* Высокое качество  и плотность типированных SNP в регионе HLA, что является критическим условием повышения точности импутации
* Поскольку HLA IMP не обеспечивает прямой поддержки кастомных модифицированных чипсетов 23andMe,  и я был ограничен в своем использовании комбинированным набором генотипов с  двух чиспетов 23andMe (v2 и v3), то мне пришлось «понизить» число SNP-ов в версии платформы Illumina  (Illumina 300K). Но и этого оказалось достаточно.

Тест гипотезы

Для того, чтобы проверить свое первоначальное предположение о  том что вышеупомянутые совпаденцы разделяют одинаковый гаплотип HLA, я выбрал 7 участников из cвоих проектов (себя, свою мать; человека, о котором заведомо было известно, что  у него есть наполовину идентичный совпадющий сегмент со мною и моей матерью в xMHC область; oстальные участники использовались в качестве контрольной группы).

C этой целью я преобразовал исходные данные 23andMe  участников проекта в формат Plink, затем объединил файлы в один набор данных, и  выделил подмножество  SNPs на 6-ой хромосоме , используя команду Plink — сhr 6. После этого я преобразовал файл с данными генотипов из формата Plink во входной формат данных HLA * IMP. В качестве следующего шага, я провел контроль качества данных путем удаления SNP-ов и частных лиц со слишком большим количеством отсутствующих данных, а также  привел в соответствие (за счет выравнивания) дополнительные SNP-ы из  референсной панели HapMap. Наконец, я поэтапно профазировал генотипы для получения гаплотипов Примечание:  я также заменил  ID задействованных участников  проекта на префикс N.

Гаплотипные данные были затем загружены на серевер HLA * IMP, где и была произведена процедура импутации  HLA типов.

Выявленные в ходе этой операции типы HLA выглядили следующим образом (каждый из индивидов представлен 2 гаплотипами, один из которых был унаследован от матери, другой от отца): HLA-A: HLA-B: HLA-C: HLA-DQA: HLA-DQB: HLA-DRB.

IndividualID Chromosome HLAA HLAB HLAC HLADQA HLADQB HLADRB
N1 1 101 801 701 501 201 301
N1 2 2601 2705 102 101 501 101
N6 1 3101 801 701 501 201 301
N6 2 201 1501 304 501 201 301
N3 1 6801 1501 102 101 501 101
N3 2 2301 5201 501 101 501 101
N2 1 101 801 701 501 201 301
N2 2 2601 3801 1203 102 602 1501
N5 1 301 1501 304 501 302 401
N5 2 205 5001 602 501 202 701
N7 1 101 801 701 501 301 1101
N7 2 101 1501 303 103 604 1301
N4 1 301 702 702 401 402 801
N4 2 2402 4002 202 501 301 1101

Гаплотипы в приведенной выше записи следует читать следующим образом (например, в случае N1):  HLA * 0101: Cw * 0701: B * 0801: DRB1 * 0301: DQA1 * 0501: DQB1 * 0201.

В вышеприведенной таблице можно  отметить совпадение одного из гаплотипов у участников эксперимента под номерами  N1, N2 и N7, т.е  они имеют идентичный гаплотип.

Это подтверждает одну из моих рабочих гипотез. У индивидов N1 (моей матери), N2 (меня) и N7  с помощью инструмента Relative Finder от 23andme  в геномном регионе HLA на 6 хромосоме был задетектирован полуидентичный сегмент ДНК, ( этот сигмент отвечает формальным требованиям идентичного по происхождению сегмента, то есть генетическая дистанция превышает порогое значение в 7 сантиморганид (сокращенно сМ — это единица измерения вероятности кроссинговера между двумя генами) и число снипов в непрервыном полуидентичном сегменте равно 700 ).

Таким образом, можно с уверенностью утверждать,  что мое первоначальное предположение,  подкрепляется результатами установления типа  HLA.

Практические результаты испытаний

Практически каждый из известных и описанных в литературе типов человеческих HLA имеет убедительную связь с так называемыми медицинскими рисками. Мы не будем сейчас останавливаться на них, и отложим рассмотрение этой тематики на будущей. Однако помимо медицинской полезности, существуют также и некоторые преимущества знания своего типа HLA и с точки зрения генетической генеалогии:

1) Прежде всего, это возможность определить характер распространения сегментов в области xMHC на хромосоме 6. Приведу конкретный пример на своих собственных данных — вышеупомянутый «расширенный» гаплотип HLA * 0101: Cw * 0701: B * 0801: DRB1 * 0301: DQA1 * 0501: DQB1 * 0201 (в англоязычной литературе встречаются и другие обозначения —AH8.1, COX,[1] Super B8, ancestral MHC 8.1[2] or 8.1 ancestral haplotype; далее мы будем писать его в сокращенном виде: A1 :: DQ2). По мнению некоторых исследователей этот гаплотип A1 :: DQ2 представляет собой  загадку с точки зрения изучения эволюционного процесса рекомбинаци. Дело в том, что скорость рекомбинации этого гаплотипв A1 :: DQ2 не соответствует теоретическими ожиданиям в плане скорости рекомбинации.  Нам известно, что в регионах Европы, где этот гаплотип  впервые сформировался и начал распространятся, существуют другие гаплотипы, некоторые из которых являются «предковыми», обладая при этом  весьма значимой длиной. Однако рассматриваемый гаплотип является своего рода рекордсменом  — он включает в себя последовательный контиг ДНК длинной примерно в 4,7 миллионов  (!) пар нуклеотидов,  и около 300 генных локусов. Кроме того, все исследования отмечают высокую «резистентность» этого гаплотипа по отношению  к рекомбинации. В качестве объяснения этого уникального феномена выдвигаются разные гипотезы — некоторые полагают что обструкция рекомбинации в этом гаплотипе была неким неизвестным была жестким образом кодирована в самой ДНК (по аналогии с хардкодингом -жестким «вшиванием» в программный код различных данных, касающихся окружения программы) Другие объясняют эту аномалию последствиями многократного селективного  отбора гаплотипа. Здесь следует прояснить суть проблемы: согласно классической теории рекомбинации, физическая длина любого аутосомного гаплотипа (то есть число нуклеотидов входящих в него) из-за быстрых темпов эволюционной рекомбинации должна неизменно  уменьшатся  с каждым поколением. Однако гаплотип A1 :: DQ2 является живым опровержением универсальности этого представления.

2) Во-вторых, можно попытатся произвести оценку времени и места возникновения этого гаплотипа.  В ходе систематического обследования мировых популяций, регулярно проводимого сетью центров и институтов трансплантологии, было  установлено, что гаплотип A1 :: DQ2 является наиболее часто встречается у белых жителей США , ~ 15% которых имеет этот гаплотип. Анализ SNP-ов сцепленных с этим типом, дает основания полагать, что гаплотип мог возникнуть примерно 20.000 лет в Европе, хотя  эта интерпретация в настоящее время признается некоторыми исследователями неубедительной. Согласно этой интепретации, гаплотип мог возникнуть  в результате  климатических изменений  во врема последнего ледникового максимума  примерно 11500 лет назад (поэтому этот гаплотип называют иногда предковым европейским гаплотипом, или гаплотипом A1-B8 (AH8.1). Этот один из тех 4 гаплотипов HLA, которые являются общими для западных европейцев и азиатов. Если предположить, что частота  распространения этого гаплотипа  в начальной популяции составляла 50%  во время последнего ледникового максимума и плавно снижалась  на 50% каждые 500 лет то частота гаплотипа в современных популяциях не должна превышать 0,1% в любой европейской популяции. Однако реальная частота  составляет, как было показано выше,  примерно 10%,  что превышает ожидаемую в теории частоту распространения почти в 100 раз. Применительно к генетической генеалогии,  это подробное разъяснение может означать только то, что массовое скопление совпадающих сегментов в xMHC регионе на 6 хромосоме может быть четким указанием  на наличие очень далеких общих предков (вплоть до жителей эпохи неолита). При любом раскладе, предлагаемый RelativeFinder/23andme интервал в 5-10 поколений до  последних общего предка для региона xMHC является нереалистично заниженным.

2) Кроме того,  используя стандартные средства геногеографии можно сделать вывод о географическом ареале распространения конкретного гаплотипа HLA. Опять-таки, изучая геногеографию все того же гаплотипа A1 :: DQ2, можно   увидеть, что  его локальные пики  приходятся на весьма удаленные  друг от друга регионы — это Исландия, регион исторического проживания поморов на Севере России, северная Сербия, земля басков, а также те регионы Мексики, которые массовао заселялись басками.  Общей чертой этих регионов является не географическая близость, а крайняя степень изоляции.
Относительно высокая частота распространения гаплотипа в  наиболее изолированных географических регионах Западной Европы, Ирландии, Скандинавии и Швейцарии наряду с  крайне низкой частотой во Франции и латинизированной  части Иберии является результатом описанной в популяционной генетике и антропологии модели замещения, народонаселения Европы, которое обычно связывается с началом эры неолита. В этом случае возраст рассматриваемого гаплотипа в Европе, превышает 8000 лет.

Напоследок хочу порекомендовать —The Allele Frequency Net Database  -хорошую базу данных по частотам аллелей полиморфичных регионов HLA,KIR,Cytokine,MIC Института транплантной иммунологии при Ливерпульском университете.  Она является очень удобным инструментом для анализа частот HLA гаплотипов в мировом масштабе.

В  частности, можно производить поиски по гаплотипам, и получать на выходе данные о частотах в различных популяциях, а также визуализировать полученные данные на карте.

Пример (гаплотип A1 :: DQ2)

1 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 Ireland South
11.50
250
                               
2 A*01:01B*08:01C*07:01DRB1*03:01:01-DQB1*02:01 England North West
9.50
298
                               
3 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01-DPB1*04:01 Ireland South
8.30
250
                               
4 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 Poland
4.00
200
                               
5 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 USA Hispanic pop 2
1.78
1,999
                               
6 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01-DPB1*01:01 Ireland South
1.40
250
                               
7 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 USA African American pop 4
1.39
2,411
                               
8 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 USA Asian pop 2
0.09
1,772
               

Еще раз о фазировании

В этом посте мы продолжим обсуждение проблематики отфазированных генотипов.
Многих пользователей моего блога интересует вопрос, каким образом можно фазировать биаллельные генотипы в гаплотипы?

С технической точки зрения, процесс фазирования генотипов подразумевает выявление — с высокой апостериорной вероятностью гаплотипной фазы. Как показывает сравнительный анализ алгоритмов фазирования в программах Beagle, PHASE, IMPUTE и т.д., — наиболее точные результаты получается в ходе совместного фазирования генотипов ближайших родственников.Поэтому в генетических штудиях — как популяционных (реже),так и медгенетических (намного чаще) — фазирование проводится с использованием генотипов трио (генотипы матери-отца-ребенка). Однако именно коммерческое генотипирование открывает более широкое поле деятельности для фазирования — получения более-менее однозначного гаплотипа с более-менее однозначной генеалогией. Вопреки распространенному среди любителей ДНК-генеалогии мнению любой составной УПС/HIR может быть легко преобразован в совокупность отельных гаплоблоков, многие из которых достаточно уникальными в предковой популяции анализируемого индивида. Здесь нужно развеять и второе заблуждение любителей — диплоидные генотипы 23andme ни в коем случае нельзя автоматически разбивать на два смежных столбика, единственный легитимным способом получения фазы генотипов является фазирование данных в специальных программах.

В принципе, можно с увереностью утверждать, что после того как из биаллельного генотипа получена гаплотипная фаза генотипа, потребность в HIR-ах отпадет. Сейчас же, при отсутствии полноценных данных по этим регионам и даже фазированных генотипах  УПС-HIR-IBD совпаденцам, приходится пользоваться намного более удаленными -в географическом и генеалогичском смыслах — референсами, типа фазированных гаплотипов в проектах 1000 геномов, HGDP или HapMap. Именно эти фазированные панели используются в новейших и наиболее эфективных программах фазирования генотипов в тех случаях, когда в выборку включены только лица, не родственные между собой.
До тех пор, пока не будет произведено массовое фазирование биаллелей, любой предикт родства сделанный на основании анализа нефазированных генотипов, следует воспринимать с максимальной осторожностью. Например, указание (в РФ алгоритме анализирующем нефазированные данные) на 5-6-юродную степень родства пуштуна и скажем, литовца может с абсолютно одинаковой степенью вероятности (50% на 50%) означать как наличие «афганского» следа в родословной литовца (или литовского следа — у пуштуна), так и очень далекое родство, близкое к случайному совпадению.
В избежании недоразумений, еще раз уточню, что речь идет не о привычных для любителей ДНК-генеалогии Y-STR гаплотипах, — в данном случае это аутосомные гаплотипы, которые выглядят следующим образом: AGGTTCCGAACCTTGGAAG ( и далее примерно несколько тысяч букв A/G/C/T). Фазированный гаплотип -это с определенной степенью вероятности гаплотип основателя. Более того, переход от биаллельных идентичных сегментов к набору идентичных гаплоидных сегментов открывает интересные перспективы в плане молекулярной датировки возраста идентичных гаплоблоков. Принимая во внимание тот факт, что гены и даже аллели этих генов, определяющие на ген.уровне [например, фенотип светлой пигментации волос)] достаточно хорошо известны и описаны в науч.литературе, то проблему датировки можно решить, отфазировав этии генотипы в гаплотипы, мы можем с помощью дерева коалесценции гаплотипов определить узел коалесценции, а следовательно датировать его с помощью молекулярных часов. Этим,кстати, занимается Монтгомери Слаткин (правда в качестве иллюстрации своей теории коалесцента он использует пример других «релевантных в плане мед.рисков генетических локусов»). В отдаленном теоретическом плане, множество малорекомбинантных гаплотипов можно использовать для конструирования специального генетического микрочипа (на основе того же OmniExpress) c включением в этот снип-чип генеалогически актуальных (малорекомбинантных) снипов, фазирование которых выявит наличие устойчивых гаплотипов недавнего происхождения (и соответственно, их генеалогию).

Технические нюансы.

Упрощенный дизайн технического процесса фазирования в общих чертах может выглядеть следующим образом. Сначала подготавливаем файл к приемлемому для фазирования формату (этих форматов много, я выбрал тот, в котором нужно минимально модифицировать исходные комбинированные данные 23ия+HapMap). В качестве proof of concept, я использовал относительно простое программное обеспечение для фазирования диплоидного генотипа (UNIX версия программы SNPHAP). В этой программе фазирование проводится с помощью алгоритмов байесовской инференции. Полученные на выходе отфазированные гаплотипоы пропускаются через своего рода элайнер, и на выходе получается FASTA aligned файл, который легко скармливается TNT путем ввода директивы procedure. А дальше можно либо реконструировать филогению в TNT, либо сохранять в формате Nexus.
В этом варианте процесс фазирования вычислительно-емкий и менее робастный , и эта одна из причин использования серверных возможностей (компьютерных кластеров, где программа может работать месяцами). Например, на байесовскую инференцию- фазировку используемых в данном примере генотипов из небольшого фрагмента 14 хромосомы в выборке из 92 индвидов ушло примерно 8 часов. После окончания цикла фазирования результаты (фазированные гаплотипы) сохраняются в отдельном файле. В описанном выше примере у 92 индивидов с помощью байесовской инференции было выявлено 937  гаплотипа со средней длиной в 5288 нуклеоитида, причем 315 из этих гаплотипов имеют кумулятивную апостериорную вероятность 1.00.

Практический пример (применения в генеалогии).

Этот практический пример основан на анализе моих собственных генетических данных, загруженных на сервер GedMatch. На сервере содержатся два варианта этих данных — нефазированный исходный вариант и второй фазированный вариант (две пары фазированных гаплотипов).

При поиске совпадений по первому варианту, общее количество » обнаруженных кузенов» составляет 179 человек.
Вместе с тем поиск по реконструированной в ходе фазирования той части генотипов, которая досталась мне от отца, общее число кузенов равнялось все 3. Из этих 3 один — родом из Рязани -, но параметры cовподающего сегмента, строго говоря, ниже пороговых значений [cM (7 cM) и число консекутивных снипов (700bp)] бритвы Оккама для генеалогически верифицируемых совпадений. Поэтому его следует отбросить. Остается два человека. Один наполовину беларус-полешук из Глусского и Слуцкого Полесья, наполовину эрзя. Другой — типичный американских пель-мель из смешания разных народов, но его бабушка носила имя Теодосия Осовская, возможно родом из Осового, что находится рядом со Стаховым, откуда родом предки моего отца.
Следовательно,что фазирование может представлять собой самый надежный фильтр для отсеивания false-positive совпадений.

О понятии гаплоблок в генетике

Многие люди, которые прочли мои сообщения на Молгене на тему гаплоблоков, как правило задают мне по прочтению два вопроса.

Первый вопрос — доказано ли наличие нерекомбинатных участков в аутосомной ДНК и Х-ДНК?

Второй вопрос — можно ли считать эти участки гаплоблоками?

Чтобы ответить на оба эти вопроса, необходимо для начала уточнить определение гаплоблока.

Во-первых, понятие гаплоблок не стоит путать с понятием «гаплотип«, так как один гаплоблок может включать в себя несколько гаплотипов. Во-вторых, понятие гаплоблок (или в более распространенном варианте – гаплотипный блок) синонимично понятию блок неравновесия по сцеплению (LD-блок)/блок гаплотипов.

Неравновесное сцепление участков хромосомы означает, что во время мейоза вероятность рекомбинации данных участков чрезвычайно мала и данные участки хромосомы наследуются единым блоком. Благодаря усилиям генетиков в начале этого века была составлены разные варианты генетических карт человеческого генома (карты Rutgers, Decodeme, HapMap) и эти карты позволяют определить блоки неравновесия по сцеплению за счет вычисленной частоты рекомбинации между определенными генетическим маркерами (прежде всего SNP-ами).

Почему скорость рекмбинации неодинакова в разных сегментах аутосомных и X-хромосом?

  Если сравнивать величину генетическую дистанции в сантиморганах между 2 локусами и физическую дистанцию между теми же 2 генетическими локусами, то в ходе исследованиий было показано в среднем по человеческому геному 1сM примерно равен 1 000 000 базовых пар (по другим оценкам, 750 000 базовых пар). Это, образно говоря, есть ни что иное, как средняя температура по больнице. На самом деле, в человеческом геноме есть регионы с быстрой рекомбинацией, средней рекомбинацией и регионы так называемого «позитивного отбора», где рекомбинация практически не происходит (классический пример — геномный регион HLA-MHC на 6 хромосоме). В качестве отступления отмечу, что именно по причине неравномерности скоростей рекомбинации, я считаю, что между величиной дистанции в сентиморганах и генеалогической дистанцией нет прямой корреляции. Хотя, если не учитывать эту неравномерность скоростей, то тогда действительно, чем больше величина сM (т.е чем больше величина рекомбинации) участков половинного или полного совпадения, тем ближе друг к другу сравниваемые индивиды. Потому, чем больше рекомбинация, тем меньше шансов того, что эти участки совпадения (которые, при фазировании, должны образовывать гаплоблоки) будут передоваться в неизмененном состоянии от отцов к детям. К сожалению, cудя по всему, алгоритмы предсказания степени родства по аутосомам в 23andme и FTDNA не учитывают этого этих факторов, что радикально влияет на точность предикта:

 Я думаю, что это классический результат генного дрейфа, обусловленного во-первых изоляцией предковых популяций. Поскольку некоторые популяции в буквальном смысле этого слова, варились в собственном «генетическом пуле»; на протяжении многих столетий (что привело к образованию устойчивых гаплоблоков), алгоритм вычисления степени генетического родства в 23andme (которому, разумеется, ничего неизвестно о генетических особенностях предковых популяций сравниваемых индивидов) воспринимает нашее далекое родство как относительно недавное.

Ответ на вопрос

В силу выше сказанного,  на первый взгляд так называемые нерекомбинатные (или вернее, малорекомбинантные) участки Х-ДНК/аутосомной ДНК можно считать гаплоблоками. Однако подобная точка зренія при более тщательном рассмотрении вызывает ряд проблем. Приведу практический пример.

Несколько лет тому назад небольшая группа активистов с ныне канувшего в  Google-кэш форума dna-forums.org занималась экспериментальными любительскими исследованиями гаплоблоков X-хромосомы. Этот полулюбительский проект поиска X-хромосомных обнаружил несколько десятков гаплоблоков, которые я пытался представить в виде квази-филогенетического дерева.Как я уже говорил, эти участки с ограниченной рекомбинацией также определены в том же проекте ХапМап. И, разумеется, генетики (медицинские и популяционные) уже определили и описали множество устойчивых гаплоблоков. В теме по X-хромосомным филогениям на форуем Молген я уже приводил примеры таких блоков на. Исходя из специфики наследования этой хромосомы, большинство из найденных путем простого визуального сравнения гаплоблоки оказались очень небольшими по размеру. Поэтому вряд ли можно вести речь о какой-то конкретной этнической привязке конкретных гаплоблоков — разве что в плане разделения гаплоблоков по глубокому происхождению на африканские, европейские и азиатские. Истинный возраст совпадающего гаплоблока (или даже интервал) предсказать затруднительно. Кроме того, наличие хотспотов рекомбинации и неравномерная плотность выявленных снипов существенно затрудняет поиск устойчивых гаплоблоков (которые и опредляется в результате фазирования). А неравномерная плотность и что еще хуже отсутствие многих HapMap снипов в чипсетах, используемых FTDNA и 23andme (кстати, чипсет Decodeme — в отличие от чипсетов FTDNA и 23andme- наиболее близок к 1,5-млн чипсету HapMap) приводит к появлению  ложных сегментов. Если не ошибаюсь, Leon Kull, который занимался слияниям наборов снипов FTDNA и 23ия, приводил примеры, когда после слияния данных HIR (выявленные в отдельности по результатам снип-тестирования  FTDNA и в 23ия)  просто «ломались», поскольку внутри участка который воспринимался, к примеру в 23ия, как  непрерывная последовательность региона половинного совпадения (HIR-сегмент) вклинивался снип, нарушавший последовательность.

Другая проблема, связанная с практическим изучением гаплоблоков, носит сугубо методлогический характер. Дело в том, что термин гаплоблок в популяционной генетике заимствован сравнительно недавно и взят из терминологии смежного направления — медицинской генетики. Кстати, по иронии судьбы в медицинской генетике традиционная генеалогия играет зачастую гораздо большую роль, чем в популяционной генетике. Ведь в выборки попгенетиков попадают обычно unrelated individuals, в то время как я видел немало работ по медицинской генетике, где приводятся генеалогические таблицы тестируемых индивидов, страдающих тем или иным недугом. Оно и понятно -одна из целей медгенов как раз и является выявление наследуемых гаплоблоков (или даже просто отдельных аллелей) ассоциируемых с тем или иным заболеванием. Не смотря на это и попгенетики все активнее используют понятие LD-гаплоблок в последних работах. В связи с этим у многих любителей возникает закономерное предположение — если найдены аутосомные “гаплоблоки”,то значит должна быть и аутосомные гаплогруппы (по аналоги с Y-ДНК и мито-ДНК). К сожалению, это не совсем так, — в отличие от древа Y и древа митогаплогрупп, древо гаплоблоков практически никогда не будут иметь филогенетически однозначного решения в плане кладистики. Впрочем, это отдельный вопрос,которого я пока не буду касаться.

Важность гаплоблоков в популяционном анализе.

Когда я начал свой любительский проект по анализу аутосомного ДНК различных популяций и отдельных лиц, то следуя примеру других геномных блоггеров я начал с элментарной обработки данных в незаменимой программе Plink — я занимался нахождением IBS матрицы, расчетами статистических параметров гомозиготности (группировкой по совпадающим сегментам, кластеризацией и так далее), структуризацией и выявлением IBD-сегментов и их кластеризацией. Однако со временем я, так же как и большинство BGA блоггеров, осознал необходимость работы с фазированными данными, — с генотипами приведенными в гаплоидную фазу, то есть с гаплоблоками. Кроме того, в новой парадигме стал использоватся новый рекомбинаторный параметр  (который ранее не учитывался в классическом Admixture-анализе) и структура сцепления снип-маркеров. Основным преимуществом фазированных генотипов является более высокая степень вероятности общего происхождения гаплоблоков, которые в случае с идентичными по происхождению сегментами предполагают единую генеалогию. Техническое определение понятия фазирования генотипа в контексте биоинформатики — это выявление или выведение (инференция) гаплотипной фазы массива генотипных данных. Говоря простым языком, это трансформация мультиаллельных блоков в гаплоблоки (гаплотипы). Преимуществом фазированных генотипов является более высокая степень вероятности общего происхождения гаплоблоков , которые — в силу определения понятия гаплоблок -предполагают единое генеалогическое происхождения Разница очевидна. Например, полгода тому назад я изучал этнические гаплоблоки участка условно-половинного совпадения на 1 хромосоме в данных проекта Eurogenes.  К своему разочарованияю, никаких гаплоблоков среди нефазированных генотипов в этом регионе не обнаружилось. Спустя некоторое время автор проекта Eurogenes -Дэвид Веселовски разослал участникам проекта. По сути, Дэвид приступил тогда к новой фазе анализа, о необходимости которой я говорил ранее -а именно к фазированию диплоидных данных в гаплоблоки и дальнейшее выявление общих по происхождению гаплоблоков. Так вот, новый анализ фазированных генотипов (гаплоблоков) в том же проекте показывал, что у лиц с повышенным процентом “северо-западного европейского компонента” (в том числе и лица из кластер номер 5 в другом проекте Dodecad) — имеют значительное количество гаплоблоков, общих по происхождению с северными русскими, чувашами, алтайцами, тувинцами и монголами. То же самое по хромосоме 3, показаны самые большие совпадающие гаплоблоки. Особенно примечательно большое количество совпадаюших гаплоблков с чувашами,венграми.

PS.

С оттенком плохоскрываемого злорадства, должен отметить, что столь любимая Клесовым и Рожанским лографмическая формула (модифицированная формула превращения) веществ гораздо лучше подходит (хотя и в очень обобщенном виде) для моделирования процесса рекомбинаторного “распада” гаплоблоков в аутосомах. Там действительно, гаплоблоки распадаются с учетом частоты рекомбинации. Поэтому-то тот же гуру биоинформатики Монтгомери Слаткин и вводит логарифмы в формулу для оценки возраста IBD-гаплоблока.

Основы геномики для чайников или как читать результаты аутосомного тестирования

Начну несколько издалека — с современного дизайна биочипов панелей снипов. Нужно вспомнить, что в своей основе биочипы-платформы, используемые в целях коммерческого тестирования в 23ия и ФТДНА представляют собой модифицированные варианты стандартных платформ Иллюмина (23ия) и Аффиметрикс (если я не ошибаюсь, биочип ФТДНА разработан на основе этой платформы). Дизайн обеих платформ разрабатывался из целей, далеких от задач ДНК-генеалогии, или скажем, ДНК-криминалистики (хотя авторы концепции SNP-генотипирования и предполагали смежные задачи, — например, установление личности индивида). Перед разработчиками дизайна биочипов и новых методов снип-генотипирования ставилась четкая задача — разработать платморфму снип-тестирования, совместимую с  двумя основными методами медицинской генетики
Это метод выявления QTL (выявление участков ДНК, сцепленных с генами, обуславливающими тот или иной фенотипический признак), а также метода генетической ассоциации генетического сцепления или неравновесного сцепления генов ,  когда генетические (фенотипические) признаки двух групп  сравниваются напрямую с ДНК-сиквенсами представителей этой группы.

Поскольку снипы обычно представляют собой (за исключением редких аллелей  с частотой двух аллей) вариацию двух аллелей, т.е различаются всего на один олигонуклеотид, то существенной особеностью сиквенсирования на биочипах является проблема оптимизировании недостаточной гибридзации проб, а также потенциальная возможность того, что таргетная ДНК может гибридизировать несовпадающие снипы. Эта особенность приводит к тому, что результаты генотипирования на биочипах  довольно часто дают болшой процент менделевских ошибок, т.е тех случаев когда у ребенка присутстовал аллель, который он не мог унаследовать от родителей (за исключением редкого явления дисомии). Те, кто пользовались утилитой Дэвида Пайка или посылали свои данные Леону (napobo3), могли сами убедиться в этом на примере сравнения своих данных с данными родителей.

Это был первый тип инструментальных погрешностей, вносящих неопределенность в оценку близости или дальности родства. Он связан собственно с процессом гибридизации ДНК. Второй тип инструментальных погрешностей связан собственно с процессом генотипирования индивидуального ДНК. Для генотипирования на платформе Иллюмины испольузется программа GenCall, который по байесовской вероятности определяет кластер, к которому относиться тот или иной локус анализируемого ДНК. Многие из тех форумчан, кто работал со своими данными от 23ия, наверняка видел т.н «no-call» генотипы (-) в raw data. «No-call» означает, что программа не смогла определить генотип (или вернее, кластер к которому относиться анализируемый локус ДНК).

Наличие этих «пустых» генотипов также вносит свою лепту в увеличение т.н инструментальных погрешностей.

Забудем на время о существенных инструментальных погрешностях и перейдем к тому, как 23ия представляет генотипы rs-локусов. Если Вы скачаете файл с генотипами, то там достаточно стандартное обозначение — сначало идет название локуса; затем хромосома, на которой находится локус, физическая дистанция, и наконец — две последние колонки (в NRY и митохондрионе — одна) с генотипом. Генотип содержит следущие обозначения -олигонуклеотиды A,G,C,T, делеции (D), инсерции (I) и no-calls (-).

В качестве примера

Цитировать

rs759691   3   10502762   CC
rs7619994   3   10502775   AA
rs808933   3   10503910   CC
rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs9873870   3   10514482   CT
rs6442176   3   10520676   CT
rs4234497   3   10528419   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   —

Генотип здесь определяется по локусам, по-этому невозможно сказать, какой именно аллель достался от матери, а какой -от отца.

Неверно полагать, что нижеприведенный вариант (жирным обозначены аллели унаследованные, например, от матери) единственно возможный

Цитировать

rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   —

Варианты возможное менделевское наследование аллелей включает в себя все возможные с точки зрения комбинаторики варианты.

Например, вот такой вариант

Цитировать

rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   —

Или  такой

Цитировать

rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   —

Казалось бы достаточно протестировать одного из родителей, и Вы сможите реконструировать «цепочку снипов» (по сути гаплотип), доставшийся Вам от этого родителя. Однако существует такое явление, как дисомия. Однородительская дисомия, то есть наследование обеих копий целой хромосомы или ее части от одного родителя (при отсутствии соответствующего генетического материала от другого родителя), является исключением из менделевских принципов наследования.
Однородительская дисомия была описана при муковисцидозе , когда оба мутантных аллеля наследовались от одного родителя. В таких случаях дисомия имитирует аутосомно-рецессивное наследование.

Это —третий тип погрешностей, на этот раз биологического характера

Таким образом, все вышеназванные погрешности биологического, биохимически-инструментального и чисто инструментального характера, приводят исследователей к необходимости фазирования биаллельных сегментов пар хромосом.

Дальше -про фазирование.

Наверное, перед тем как не мудрствуя лукаво приступить к пояснению фазирования данных 23ия, нужно еще раз вкратце напомнить, по какому алгоритму идет предсказание степени родства в 23ия.

На этот раз, буду краток (с).

Алгоритм 23ия выведен исключительно путем компьютерног моделирования. Бралось некоторое количество генотипных данных реально протестированных в 23ия людей. Эти данные искуственно скрещивались с учетом некоего усредненной величины параметра рекомбинации на один мейоз (или, как у нас принято выражаться, генеалогического поколения), тем самым появились искуственные «геномы» (назовем их так для простоты).
Затем по методу MCMC моделировалась искусственная генеалогия потомков «гибридных геномов» (что-то вроде семьи Менделя), т.е случайным образом (по методу Монте-Карло) генерировалась некая марковская цепь генеалогических поколений (последовательность поколений, в которой последующее состояние зависит только от настоящего состояния и не зависит «от генеалогического прошлого») разной длины — 4,5,8, 11 и т.д поколений.  «»Геномы» всех гибридных геномов сравнивались на предмет а) % общего ДНК b) генетической дистанции сегментов IBD (HIR, или как у нас принято УПСов) выраженной в сM (сентиморганах) и с) количества снипов в этих сегментов.

По этим параметрам (а,b,c) УПСЫ разбивались на кластеры в зависимости от дистанции генома-потомка от генома-предка. Затем произвели своего рода метафорическую процедуры «сверку попаданий сегментов»  в интервалы смоделированного родства. Именно таким образом, с помощью моделирования, создатели алгоритма RF получили пороговые количества снипов и генетической дистанции (в сМ) как для всего диапозона RF, так и для каждого интервала родства (например, 3d-10th cousins).

Эти три параметра и используются в RF для оценки удаленности генетического родства или генеалогической дистанции.

Я не буду останавливаться здесь на подробной критике алгоритма. Скажу только, что несмотря на всю привлекательность дизайна MCMC-алгоритма RF , его главный недостаток -это

1)допущение случайного характера «скрещивания» (пардон за вульгаризм) среди некой метапопуляции,
2)независимость характера скрещивания от предыдущего типа скрещивания,
3) пренебрежение гомозиготностью и т.д.

Не говоря уже об использовании некой усредненной величины рекомбинации и игнорирование естестественного отбора, приводящего к тому, что многие участки хромосом  из-за сильного генетического сцепления остаются в нерекомбинантном состоянии на протяжении веков.

Каждый генеалог знает, что матримониальная стратегия (говоря простым биологическим языком, структура скрещивания) генеалогических групп  не носит случайный характер. Выбор партнеров был обусловлен происхождением, классовой принадлежностью, патрилокальностью, а также религиозными, политическими и идеологическим запретами.

Каждый генеалог и социальный антрополог знает, что структура брачных связей в кланновых и патриархальных обществах в-основном обусловлена структурой предыдущих брачных связей (вспомните хотя бы т.н. брачные обыски, в ходе которых проверялось,не состояли ли брачующиеся в родстве). Конечно же были и исключения, но они статистически пренебрежимы.

Каждый генетик знает, что в оседлых популяциях постепенно возрастает гомозиготность, что ведет к увеличении однородности и генетической близости индивидов внутри популяции.

Каждый генетик знает, что величина рекомбинации очень сильно варируется -в 10 и 100 раз — в зависимости от участка хромосом

Каждый генетик знает, что в оседлых популяциях постепенность возрастает гомозиготность (что есть логичное последствие инбридинга), что ведет к увеличении однородности и генетической близости индивидов внутри популяции.

Каждый генетик знает, что существуют геномные регионы — например MHC, со столь сильным сцеплением, обусловленным отбором, что эти участки могут оставаться идентичными у двух индивидов, даже если их общий предок жил тысячелетие назад

Итак, что имеем в сухом остатке:

1) наличие трех типов «инструментальных» погрешностей в данных генотипов от 23ия
2) сухую абстрактность метода оценки степени родства в алгоритме РФ от 23ия

К этому можно добавить очевидное наличие сегментов УПС с совпаденцами, увеличивающихся в размере при поколенном переходе от родителей к детям, хотя по логике, они должны постепенно затухать, уменьшаясь в размерах. Самое наличие таких сегментов — великолепная иллюстрация кумулятивного действия эфектов возрастания гомозиготности и увеличания фонового уровня «скрытого родства» (на профессиональном слэнге генетиков -«hidden relatedness» ).

Это наводит на очевидную мысль, что указание (в РФ алгоритме анализирующем нефазированные данные) на 5-6-юродную степень родства пуштуна и скажем, литовца может с абсолютно одинаковой степенью вероятности (50% на 50%) означать как наличие «афганского» следа в родословной литовца (или литовского следа — у пуштуна), так и очень далекое родство, близкое к случайному совпадению.

Можно ли строить гипотезы на столь шаткой почве? Вряд ли.

На самом деле сам процесс фазирования генотипов подразумевает выявление (с высокой апостериорной вероятностью) гаплотипной фазы с учетом именно семейных данных. Обычно в генетических штудиях — как популяционных (реже),так и медгенетических (намного чаще) — работают с трио (генотипы матери-отца-ребенка). Но именно коммерческое генотипирование открывает более широкое поле деятельности для фазирования — получения более-менее однозначного гаплотипа с более-менее однозначной генеалогией.

По моим скромным наблюдениям, некоторые клиенты 23ия протестировали уже целые кланы своих родственников по 10-20 человек (отцов, матерей, братьев, сестер, племянников, дедов, бабок, детей, двоюродных, троюродных и т.д человек). Фазирование генотипных данных больших семейст позволило бы создать, выражаясь программистским языком, уникальную семейную библиотеку гаплотипов с четкой ДНК-генеалогической структурой наследования. По мере увеличения таких семейных библиотек и все большему охвату масс, можно было бы сравнивать эти гаплотипы уже на уровне семейств/кланов и выстраивать наиболее вероятные с точки зрения ДНК-генеалогии филогенетические кластеры.

Пока же все остается на интуитивно-гадательном уровне.