К вопросу о соотношении понятий обычной генеалогии и ДНК-генеалогии (на примере Рюриковичей)

Осень 2012 и начало зимы 2013 года ознаменовались выпуском рядом примечательных популяризаторских передач, посвященных проблеме происхождению Рюрика и тому откуда есть пошла земля русская.  В числе прочих стоит выделить две передачи, получившие наибольший резонанс в российской блогосфере — это  задорновский фильм «Рюрик: потерянная быль» построенный на новой интерпретации классический идей антинорманизма, и своего рода полемическое интервью г-на Волкова в передаче Лобова, в котором Волков рассматривает идеи норманизма сквозь призму ДНК-генеалогии.

Я не буду анализировать все аргументы сторон в извечном споре норманистов  и антинорманистов. На мой взгляд гораздо более значимым результатом этих программ послужило пробуждение посредством средств массовой информации публичного интереса к тематике привлечения данных ДНК-анализов с целью нового переосмысления старых исторических концепций. Поэтому обе передачи, несмотря на обилие откровенных глупостей и профанации, сыграли важную роль.

Тем не менее, наряду с положительными моментами, хотелось бы отметить одну тенденцию, зачатки которой я начал наблюдать в среде любителей ДНК-генеалогии еще пару лет назад.  Эта тенденция заключается в том, что понятия классической генеалогии начинают подменяться выводами ДНК-анализа, и наоборот.

Причина этого досадного феномена очевидна. Большинство исследователей ДНК родов с хорошо разработанной генеалогией пришли в ДНК-генеалогию выросли — да простят мне читатели излишнюю образность — из коротких штанишек  обычной генеалогии, не преодолев при этом детскую боязнь сложного понятийного аппарата современной генетики.
Поэтому им трудно перестроить свое мышление с привычного представления родства в виде древа и ветвей, и оперировать сложными понятиями родственных кластеров и групп. Второе распространенное заблуждение состоит в том, что большинство новичков полагает прямую связь между числом поколения до общего предка и числом мутаций. На самом деле, если представить себе  генетическое родство двумя генеалогически родственными по мужской линии группами лиц, в виде мутационного графа, то  число мутаций на разных ребрах этого графа будет несимметричным в силу стохастического процесса мутаций (поскольку Y-STR мутации в основной своей массе представляют собой нейтральные мутации, на которые не воздействует процесс естественного отбора). Эта заблуждение обусловлено ленью или же непониманием базовых принципов  кладистики и филогенетических методов. Вслед за уважаемым Валерием Запорожченко напомню, что главной целью филогенетических программ, в том числе парсимонистских, является не разбивка на приближенные кластера а построение истинного/близкого к истинному дерева. Истинное дерево мутации в данном случае это и есть истинное генеалогическое древо. Однако как показала практика анализа даже высоко дивергентных генетических систем,  даже на высоком таксономическом уровне филогенетические деревья не обязательно (и вероятно никогда) не дают полного и абсолютно правильного описания истории (или генеалогии, что в нашем случае одно и то же) по причине недостаточности признаков (Y-STR) и наличия шума.

Чем объясняется этот досадный феномен? Для ответа на этот вопрос нужно снова вернуться к определению понятия филогенетического древа.
Филогенетическое дерево (эволюционное дерево, дерево жизни) – дерево, отражающее эволюционные взаимосвязи между различными видами или другими сущностями, имеющими общего предка. Вершины филогенетического дерева делятся на три класса:  листья, узлы и корень (максимум один). Листья — это конечные вершины, т.е. те, в которые входят ровно по одному ребру; каждый  лист отображает некоторый организм. Каждый узел представляет эволюционное событие: разделение предкового типа на два или более, которые в дальнейшем эволюционировали независимо. Корень представляет общего предка всех рассматриваемых объектов. Рёбра филогенетического дерева принято называть “ветвями”. Взаимное расположение ветвей называется топологией. Как видно из определения,  кардинальное  различие между классическим  генеалогическим деревом и филогенетическим деревом проявляется в определении функции узла.  В генеалогическом древе узел отображает отдельную сущность — предка или потомка, в то время как в филогенетическом дереве отображается событие.

Второе отличие — любое филогенетическое древо  заведомо предполагает априорную эволюцию. Направление эволюции меняется аналитиком путем выбора различных корневых узлов (корней), в большинстве случаев реальных таксонов.  В случае с Y-STR гаплотипами, такой корень обычно неизвестен и зачастую носит спекулятивный характер (т.н. модальный гаплотип). Кроме того, истинный уровень гомоплазии в реальных выборках Y-STR гаплотипов, как правило,неизвестен. Поэтому в большинстве профессиональных исследованиях, эволюционные связи между Y-STR гаплотипами представлены не в виде филогенетического дерева, а в виде филогенетической сети. Определение: филогенетическая сеть чаще всего представляет собой неукорененное дерево, содержащее дополнительные ветви, отражающие гомоплазию. Филогенетические сети не всегда планарны.

Чтобы не утомлять читателя сухой теорией, перейдем к конкретному примеру. В декабре прошлого года уважаемый В.С. представил небольшой группе энтузиастов древо гаплотипов, относящихся к генетическому кластеру Рюриковичей- N1c-L550*.

untitled

  Филогенетическая реконструкция В.С., выполненная в программе TNT весьма примечательно. С одной стороны, возраст той части дерева, где скопилось большинство князей Рюриковичей, составляет по молекулярной датировке примерно 890 лет до настоящего времени, что примерно соответствует времени жизни Мономаха.  С другой стороны, приведенный выше фрагмент отлично иллюстрирует описанные выше различия между генеалогическим и мутационным древом. Так например, по генеалогии князья Кропоткины и Ржевские имеет более позднее общего предка. Ветвь же кн.Шаховских, хотя и происходит из того же Смоленского дома,  по генеалогическому счету отстоит дальше. На филогенетическом древе же мы видим, что генетически к Ржевскому ближе Шаховской. Это эффект так называемой гомоплазии.

Кроме того, из-за неопределенности положения корневого гаплотипа этой группы, произошло наложение группы собственно Рюриковичей (отмечены красным цветом) на близкую к ней, но происходящую от другого предка группу лиц (отмечены черным цветом).

Соотношение общих по происхождению геномных сегментов в разных популяциях и влияние на точность предсказания степени родства

Одним из наиболее важных параметров используемых в алгоритмах геномных онлайн-приложенияВх фирм 23andme и FTDNA является значение генетической дистанции совпадающего сегмента.  В современных исследованиях, это значение обычно измеряется в   сантиморганидах (cM) и выражает вероятность рекомбинации данного сегмента при мейозе.

В Relative Finder и Ancestry Finder — соответствующих сервисах компании 23andme за основу предсказания степени скрытого родства (cryptic relatedness) по геному отдельных взятых индивидов берутся максимальные значения отдельных наполовину-идентичных по происхождению сегментов, по крайней мере один из которых соответствует пороговым значениям величин генетической дистанции и числа снипов в  HIR (half-identical region). Мы не будем подробно останавливаться на этих моментах в этой заметке, и поэтому сразу перейдем к общему поверхностному обзору методики определения степени родства по геному двух сравниваемых индивидов в основном конкуренте 23andme — компании FTDNA.

В отличие от 23andme, при сравнении с реальными или спекулятивными совпаденцами, отчет включает в себя информацию о генетической дистанции самого длинного совпадающего сегмента (longest block), а также общую сумму совпадающих сегментов (shared cM).

  122137754

Кроме этого можно посмотреть более детальную информацию по каждому отдельному из совпадающих сегментов, но в данный момент мы не будем останавливаться на этом. Как видно из приведенного на картинке примера, прогнозируемое родство между двумя индивидами лежит в широком интервале между пятиюродной  и неопределенно далекой степенью родства. Встает закономерный вопрос — почему интервал прогнозируемых степеней родства столь велик?  Для пояснения этого феномена нужно напомнить на неопределенный характер рекомбинации, что существенно затрудняет прогноз родства.  Традиционно, количество совпадающей ДНК между отдельно взятыми лицами измеряется в усредненных процентах, например ребенок и родитель имеют  50% общего ДНК, дедушка/бабушка и внук/внучка — 25%, двоюродные кузены — 12%, троюродные — только 3,12%;  и так далее.

Однако в ходе нашего эксперимента с данными нам придется отказаться от столь привычного обозначения совпадающего ДНК в процентах и перейти к записи совпадающего ДНК в сантиморганидах (сM). Экспериментальные измерения показали, что совокупная генетическая дистанция вдоль всего генома составляет примерно 3600 cM. В связи с этим любопытно взглянуть на статистические данные о величинах генетической дистанции по сегментам, совпавших у априорно известных родственников, а также у тех далеких родственников, чье родство было подтверждено путем стандартных генеалогических поисков уже после обнаружения совпадения ДНК. Данные обработаны анонимным любителем генетики

confirm

Как видно, уже при сравнении ДНК прадеда и правнука корреляция со степенью родства перестает быть линейной, и с добавлением каждой новой степени родства становится еще более неопределенной.  С другой стороны, на более далеких степенях родства истинное генетическое родство сильно искажается за счет фонового популяционного криптородства. Чтобы проиллюстрировать этот феномен, я провел эсперимент с IBD-анализом ряда популяций Западной и Восточной Европы.  В качестве программного обеспечения были выбраны Beagle и fastIBD. 

В целях лучшего понимания результатов, я использовал только следующие популяции: Belarusian British Lithuanian Latvian Russian Polish Bulgarian Hungarian Mordovian Slovenian Estonian Swedish Serbian Ukrainian Slovakian Czech Macedonian Orcadian Adygei Nogai Tatar Bosnian Montenegrin Armenian Uzbek German Turk Kazakh NorthOssetian Sorb Moldavian. C помощью алгоритма fastIBD была просчитана генетическая дистанция по совпадающим сегментам как внутри каждой из этих популяций, так и между индивидами разных популяций. Затем была произведена агрегация  совокупных и усредненных данных по генетическим дистанциям между всеми индивидами из всех используемых популяционных групп. После проведения этих незамысловатых мы получили агрегированные данные по количеству ДНК разделяемых между разными популяциями. Привожу эти данные в следующих таблицах (значения представлены в сM):

Общее ДНК** между популяциями (** величина выражена в сантиморганидах)

total

Cреднее количество  общего ДНК** между популяциями (** величина выражена в сантиморганидах)

mean

Приведенные в таблице данные наглядно опровергают идею униформного распределения идентичных по происхождению сегментов в генофонде европейцев. Отдельные группы популяций в центральной Европе (венгры, болгары и сорбы), а также популяции из восточной Европы (эстонцы, латыши, прибалты) обладают эксцессом количества общего разделяемого с другими популяциями ДНК. Это свидетельствует о сложных демографических процессах, протекавших в прошлом. Игнорирование влияния этих эффектов на характер и динамику распределения IBD-сегментов должен кардинальным образом сказаться на качестве прогнозирования родства в алгоритме FamilyFinder.

Выставка достижений эстонской популяционной генетики в телевизионной башне Teletorn города Таллинн

Дорогие читатели, интересующиеся генетикой.

Если вам доведется когда-либо посетить Таллинн, то советую посетить постоянную выставку достижений эстонской генетики в телевизионной башне. Этим достижениям посвящен отдельный стенд с различными хипстерскими инсталляциями. На высоте 179 метров над уровнем моря можно послушать доклад доктора наук Андрeса Метспалу (Eesti Geenivaramu) о проекте Эстонского Генного Фонда и генетической картой народонаселения Европы.

 

IMG467

IMG468

 

IMG469

Экспериментальный тест: определение HLA-гаплотипов из нуклеотидов ДНК-последовательностей с помощью программы HLA*IMP

Введение

Большинство из моих записей и экспериментов являются уникальными — именно по этой причине я очень часто дублирую эти записи на английском и русском языках.  Без ложной скромности хочу представить читателю мое самое значимое достижение в области любительской персональной геномики — эксперимент по определению HLA серотипа на основе известных снипов из клиентских raw_data (файла с перечнем генотипированных снипов) компаний 23andme и FTDNA.

Однако перед тем как перейти к описанию самого эксперимента, необходимо вкратце напомнить о важности HLA-гаплотипов. Молекулярные различия между аллелями HLA могут варьироваться до 57 нуклеотидов в пептидо-связывающей кодирующего региона главный комплекса генов гистосовместимости (MHC) человека,  однако еще до конца не установлено, являются ли эти молекулярные полиморфизмы результатом случайного стохастического процесса или же в процессе естественного отбора возникли селективные ограничения, связанные с функциональными различиями между молекулами HLA . Хотя HLA аллели, как правило, рассматривается в популяционно-генетических исследованиях  в качестве эквидистантных молекулярных единиц, однако последовательность ДНК, и популяционное разнообразие также имеет решающее значение для интерпретации наблюдаемого полиморфизма HLA ( (Buhler S, Sanchez-Mazas A, 2011 HLA DNA Sequence Variation among Human Populations: Molecular Signatures of Demographic and Selective Events. PLoS ONE 6(2): e14643. doi:10.1371/journal.pone.0014643).

Стоит отметить еще один важный момент: HLA локусы характеризуются наиболее максимальным уровнем генетического разнообразия из всех человеческих генетических систем. Предварительные знания о степени разнообразия играет важную роль в эволюции и отборе молекулярных методов типирования. Определение частот аллелей также важны и в трансплантологии —  например при аллогенетической трансплантации гематопоэтических стволовых клеток аллели используются для определения вероятности нахождения соответствующих «гистосовместимых» доноров для каждого пациента. Генетическое разнообразие локусов HLA отвечает также за эффективность работы иммунной системы  при  устранении клеток, несущих чужеродные антигены. Существует необходимость разработать методы оценки этого генетического разнообразия с целью изучения того, как различные группы людей  реагируют на воздействие чужеродныъ антигенов, а также для оценки вклада каждого локуса HLA.

Система HLA была тщательно изучена также и с эволюционной точки зрения. Эта система содержит ряд тесно связанных генов, продукты экспрессии которых определяют множеством функций, связанных с регулированием иммунного ответа. Кроме того, последние исследования в области медицинской генетики установили в этом геномном регионе целый ряд вариантов, обуславливающих генетическую предрасположенность к более чем 40 заболеваниям. Ряд наблюдений показывает, что  система человеческого HLA подвержена существенному влиянию естественного отбора, что приводит к появлению большого числа полиморфизмов с очень четко выраженным градиентом частот аллелей.  Возникновение высокого уровня изменчивости в локусах имеет решающее значение для распознавания антигена, определения возраста аллелей и закономерностей в нарушении равновесного сцепления между локусами. Форма воздействия отбора неизвестна. Большинство исследователей склоняется к тому, что сложный характер наследования HLA вряд  ли можно объяснить одним лишь воздействием естественного отбора. Мутации, рекомбинации и генетическая конверсия — все это также способствует увеличению изменчивости HLA. В то же время, очевидная древность многих аллелей HLA выявленных в ходе филогенетического анализа доказывают, что абсолютные темпы производства новых вариантов не являются высокоми. Детальное изучение популяционной и эволюционной особенности региона HLA, необходимо для обоснованного обсуждения эволюции генетических вариантов, предрасполагающих к определенным типам болезней (Thomson G.HLA population genetics.1991 Jun;5(2):247-60.).

Большинство из обычных людей сталкивались с термином антиген HLA только  в процессе сдачи/получения донорских органов. В некоторых случаях имеются показания к выявлению типов антигенов HLA у родителей при осложнениях во время беременности:

 При совпадении родителей по антигенам HLA увеличивается количество повторных аномальных беременностей с неустановленными причинами аномалий (Gerencer et al., 1978). Установлено отсутствие антигенов HLA в трофобласте, обнаруживается только b2-микроглобулин (Bodmer, 1981). Показано, что несовместимость по антигенам HLA матери и плода благоприятствует нормальному протеканию беременности и развитию плода.

Тот же самый авторитетный источник дает вполне сносное и вполне доступное для понимания начинающих любителей генетики:

Главная система тканевой совместимости (major histocompatibility Complex — МНС) может быть рассмотрена в качестве еще одного примера комплекса тесно сцепленных локусов. МНС человека обозначается латинскими буквами HLA (human leukocyte antigene) и называется системой или комплексом HLA.

Годом открытия главной системы тканевой совместимости человека считают 1958 г., в котором Ж. Доссе открыл первый антиген, обозначенный Mac (современное обозначение — HLA-A2) (Снелл и др., 1979). С момента открытия первого антигена тканевой совместимости велась неуклонная работа по уточнению типирования тех или иных антигенных специфичностей, открытию новых антигенов, изучению их строения, разработке универсального метода типирования антигенов, локализации на хромосоме генов системы HLA, выяснению характера наследования, а также по совершенствованию антисывороток, выявляющих тканевые антигены и по выявлению особенностей распространения антигенов в различных популяциях мира.

Интенсивному развитию исследований способствовали в значительной мере Международные рабочие совещания по совместимости тканей. Первое такое совещание было организовано Д.Б. Эймосом в 1964 г. Затем были проведены рабочие совещания в 1965, 1967, 1970, 1972, 1975, 1977, 1980 и 1984 гг. Материалы Международных рабочих совещаний по совместимости тканей публикуются в качестве периодического издания “Histocompatibility Testing” и отражают основные этапы в развитии иммуногенетики человека и тканевого типирования. В 1967 г. после окончания очередного рабочего совещания был организован Международный номенклатурный комитет под руководством ВОЗ, который осуществляет разработку номенклатуры комплекса HLA, соответствующей уровню развития отрасли. Номенклатуры системы HLA выходили в Бюллетенях ВОЗ в 1968, 1972, 1975 и 1978 гг., а также в материалах Международных рабочих совещаний по совместимости тканей в 1970 и 1980 гг. Новая номенклатура была принята после окончания работы 9-го Международного рабочего совещания в 1984 г. (Bodmer et al., 1985). В таблице 1 номенклатура представлена для локусов HLA-A, -B, -C и -DR. Латинские буквы перед цифрами обозначают принадлежность к тому или иному локусу, а цифры — номер антигена. У некоторых специфичностей есть еще добавочное “w”, обозначающее, что данные специфичности либо не признаны к этому моменту всеми лабораториями, либо есть сложности в их типировании.

Каждое название специфического типа HLA или как еще говорят HLA аллелей имеет свой уникальный номер, соответствующий до четырех наборов цифр, разделенных двоеточиями. Длина обозначения аллели зависит от последовательности аллеля.  Как правило, все аллели имеют по крайней мере  четырех-символьное обозначения, которое соответствует  двум наборам цифр, длинная номенклатура назначается только по необходимости. Цифры до первого двоеточия описывают тип, который практически всегда соответствует серологическому антигену, который несет  данный аллотип. Следующий набор цифр, который используется в списке подтипов является обозначением порядка, в котором были определены последовательности ДНК. Аллели, номера которых отличаются  двумя наборами цифр, отличаются друг от друга одной или несколькими нуклеотидными заменами которые ведут к изменению аминокислотной последовательности кодируемого белка. Аллели, которые отличаются только синонимичными/некодирующими нуклеотидными заменами в кодирующей последовательности, отличаются друг от друга использованием третьего дополнительного  набора цифр. Аллели, которые отличаются только последовательностью полиморфизмов в интронах или в 5 ‘и 3’ нетранслируемых регионах, которые примыкают к  экзонам и интронам, отличает использование четвертого набора цифр (см.дополнительную информацию).

Пример

HLA-A определяет HLA локуса
HLA-A1 серологическое обозначение антигена
HLA-A * звездочкой обозначается HLA аллелей определяется методами молекулярного типирования.
HLA-A * 01 2-разрядное разрешение обозначает группы аллелей, которые соответствует обычным серологическим группам — с низким разрешением
HLA-A * 0101 4-разрядное разрешение — последовательность различий между аллелями, которые приводят к аминокислотным заменами
HLA-A10101 60-значное разрешение — определяет некодирующие варианты, т.е последовательность изменений,  не ведущих к аминокислотным заменам

В целях понимания уникальности проведенного мною эксперимента необходимо еще пояснить особенности определения типов антигенов. До прихода эра молекулярной геномики, антигены HLA подразделяются выявлялись серологически и с помощью лимфоцитов. К последним относятся антигены Dw, DQ, DP и некоторые DRw, относящиеся к области D. Большинство исследований фоксируется лишь на серологически определяемых антигенах, относящихся к локусам HLA-A, -B, -C и -DR. Первые три группы антигенов представляют собой гликопротеиды, обнаруживающиеся на клеточной мембране любой ядросодержащей клетки (Amos, Kostyu, 1980).

Как следует из вышесказанного, традиционно на протяжении десятилетий для HLA-типирования использовались серологические метода много десятилетий, и при этом серологическое типирование II класса молекул главного комплекса гистосовместимости человека зависело от адекватной экспресии этих молекул на поверхности В-лимфоцитов, наличия жизнеспособных клеток и полным набором иммунных сывороток. Тем не менее, применение молекулярно-генетических методов первого поколения (RFLP, PCR, SSO и т.д.) для типирования HLA привело к ситуации, в которой почти каждая лаборатория может независимо выполнять  ДНК-типирование для определения аллеля HLA.

HLA типы и сцепленные SNP-ы на 6 хромосоме

Как показал мой эксперимент, что даже того относительно небольшого количества снипов, которое типируется  коммерческими компаниями в регионе MHC-HLA достаточно для определения типа антигена с высокой точностью.

К сожалению, имеется целый ряд нюансов значительно усложняющих анализ. Во-первых, определение классических аллелей HLA (например, HLA-, HLA-B и др.), с помощью  новой чип-технологии, используемой в популярных коммерческих услугах геномных компаний (23andMe, FTDNA Family Finder и deCODEme), является очень сложным процессом, требующим проведения большого количества мультиплекс-ПЦР-реакций для получения полного генотипа пациента. Именно поэтому классические методы типирования HLA зачастую оказываются непрактичными в крупномасштабных исследованиях.Во-вторых, техническая сторона выявления типа HLA на основании генотипов является относительно сложной, и я не уверен что рядовой пользователь сможет ее осилить.  При  я могу помочь определить тип антигенов в качестве коммерческой услуги (которая примерно на 50 процентов дешевле стоимости стандартной медицинско-генетической услуги серотипирования).

К счастью для нас, в Центре генетики человека в Wellcome Trust Центра был разработан метод определения классических аллелей на основании анализа сцепленных SNP-ов. Метод был реализован в виде специального фреймворка  (HLA * IMP) (Dilthey, A. T., Leslie, S., Moutsianas, L., Shen, J., Cox, C., Nelson, M. R., McVean, G. (2012): «Multi-population classical HLA type imputation» (submitted to Plos Comp Bio)).

HLA * IMP определяет HLA тип  на основе данных о генотипе SNP, используя для этих итеративный метод отбора наиболее информативных полиморфизмов для отдельных поддерживаемых чипов генотипирования (Affymetrix 500K, 900K Affymetrix, Illumina 300K, 550K Illumina, Illumina 650K, Illumina 1M). Таким образом, HLA * IMP позволяет исследователям  определить тип  HLA в ходе импутирования геномных данные, собранных из нескольких доступных наборов SNP путем сопоставления импутируемых данных с референсными данными более 2500 индивидов европейского происхождения. Референсные данные содержат как  SNP-варианты, так и классические аллели HLA типов.

Референсная панель которую я использую в целях импутации пропущенных значений, включает в себя:

1) так называемый The British Birth Cohort 1958 года включающем в себя SNP-ы Illumina 1,2 м и Affymetrix 6.0 (TheWellcome TheWellcome Trust Case Control Consortium, 2007) — 2420 индивидуальных образцов х 7733 SNP в расширенном регионе HLA.
2) выборку образцов CEU из HapMap  (Международный консорциум HapMap, 2007) и CEPH CEU + дополнительные образцы (дde Bakker et al., 2006) — 92 образца х 7733 SNP-а перекрывающиеся со снипами The British Birth Cohort 1958)

Программа использует аутосомные гаплотипов состоящих из SNP -ов BC-195и CEU , и именно эти гаплотипы были  задействованы в качестве эталонного набора данных.  Была определена взаимосвязь типов HLA и гаплотипов SNP (эти гаплотипы были фазированы с помощью программы PHASE (Stevens and Scheet, 2005) с применением стандартных параметров фазирования многоаллельных локусов. Вместе с  эталонным набором данных было получено около 5024 гаплотипов высокого разрешения, имеющими прямую корреляцию с 7733 SNP-ами в  геномном регионе HLA.  Эти гаплотипы  определяют разное  количества типов антигенов -2474 типа (HLA-A), 3090 (HLA-B), 2022 (HLA-C), 175 (HLA-DQA1), 2629 (HLA-DQB1), 2665 (HLA-DRB1). Это конкретные SNP-гаплотипы которые в дальнейшим программа использует для инференции типа антигена.

Эксперимент с  выборкой проекта MDLP.

Поясню вкратце суть эксперимента

Как я уже упоминал в блоге MDLP (Re: Хромосома 6), геномные инструменты 23andme — RelativeFinder  и AncestryFinder выделили   целый кластер полуидентичных сегментных совпадений в который попало примерно 315 геномных совпадений с другими клиентами из базы данных 23andme. Примечательно, что все эти  участки совпадения полностью или частчино перекрываются и расположены в одном и том же субрегионе области HLA-MHC на 6 хромосоме (21Mb-38MB). Эта замечательное скопление совпадающих участков  составляет почти половину от общего количества моих AF / RF совпадений (315/720 или 43,75%).

Ранее я предположил, что столь явный перекос числа общих по происхождению полуидентичных сегментов  в области HLA свидетельствует о том, что один из гаплотипов совпаденцев  является идентичным типом антигенов HLA. До недавнего времени, мое предложение опиралась исключительно на мои интуитивные догадки. Затем я смог найти ключ решения проблемы с помощью HLA * IMP  и до сих пор,  после чего мне удалось провести  эксперимент в HLA * IMP , в ходе которого я применил методологию к анализу данных 23andMe  (Illumina Omnio Express) .

Условия эксперимента

Для успешного проведения моих тестов, я должен был убедиться, что мои собственные данные соответствуют следующим требованиям:

* SNP-ы  должны входить в область  xMHC  ( на  6 хромосоме )
* Отобранные в первоначальной выборки кандидаты должны быть европейского происхождения
* Высокое качество  и плотность типированных SNP в регионе HLA, что является критическим условием повышения точности импутации
* Поскольку HLA IMP не обеспечивает прямой поддержки кастомных модифицированных чипсетов 23andMe,  и я был ограничен в своем использовании комбинированным набором генотипов с  двух чиспетов 23andMe (v2 и v3), то мне пришлось «понизить» число SNP-ов в версии платформы Illumina  (Illumina 300K). Но и этого оказалось достаточно.

Тест гипотезы

Для того, чтобы проверить свое первоначальное предположение о  том что вышеупомянутые совпаденцы разделяют одинаковый гаплотип HLA, я выбрал 7 участников из cвоих проектов (себя, свою мать; человека, о котором заведомо было известно, что  у него есть наполовину идентичный совпадющий сегмент со мною и моей матерью в xMHC область; oстальные участники использовались в качестве контрольной группы).

C этой целью я преобразовал исходные данные 23andMe  участников проекта в формат Plink, затем объединил файлы в один набор данных, и  выделил подмножество  SNPs на 6-ой хромосоме , используя команду Plink — сhr 6. После этого я преобразовал файл с данными генотипов из формата Plink во входной формат данных HLA * IMP. В качестве следующего шага, я провел контроль качества данных путем удаления SNP-ов и частных лиц со слишком большим количеством отсутствующих данных, а также  привел в соответствие (за счет выравнивания) дополнительные SNP-ы из  референсной панели HapMap. Наконец, я поэтапно профазировал генотипы для получения гаплотипов Примечание:  я также заменил  ID задействованных участников  проекта на префикс N.

Гаплотипные данные были затем загружены на серевер HLA * IMP, где и была произведена процедура импутации  HLA типов.

Выявленные в ходе этой операции типы HLA выглядили следующим образом (каждый из индивидов представлен 2 гаплотипами, один из которых был унаследован от матери, другой от отца): HLA-A: HLA-B: HLA-C: HLA-DQA: HLA-DQB: HLA-DRB.

IndividualID Chromosome HLAA HLAB HLAC HLADQA HLADQB HLADRB
N1 1 101 801 701 501 201 301
N1 2 2601 2705 102 101 501 101
N6 1 3101 801 701 501 201 301
N6 2 201 1501 304 501 201 301
N3 1 6801 1501 102 101 501 101
N3 2 2301 5201 501 101 501 101
N2 1 101 801 701 501 201 301
N2 2 2601 3801 1203 102 602 1501
N5 1 301 1501 304 501 302 401
N5 2 205 5001 602 501 202 701
N7 1 101 801 701 501 301 1101
N7 2 101 1501 303 103 604 1301
N4 1 301 702 702 401 402 801
N4 2 2402 4002 202 501 301 1101

Гаплотипы в приведенной выше записи следует читать следующим образом (например, в случае N1):  HLA * 0101: Cw * 0701: B * 0801: DRB1 * 0301: DQA1 * 0501: DQB1 * 0201.

В вышеприведенной таблице можно  отметить совпадение одного из гаплотипов у участников эксперимента под номерами  N1, N2 и N7, т.е  они имеют идентичный гаплотип.

Это подтверждает одну из моих рабочих гипотез. У индивидов N1 (моей матери), N2 (меня) и N7  с помощью инструмента Relative Finder от 23andme  в геномном регионе HLA на 6 хромосоме был задетектирован полуидентичный сегмент ДНК, ( этот сигмент отвечает формальным требованиям идентичного по происхождению сегмента, то есть генетическая дистанция превышает порогое значение в 7 сантиморганид (сокращенно сМ — это единица измерения вероятности кроссинговера между двумя генами) и число снипов в непрервыном полуидентичном сегменте равно 700 ).

Таким образом, можно с уверенностью утверждать,  что мое первоначальное предположение,  подкрепляется результатами установления типа  HLA.

Практические результаты испытаний

Практически каждый из известных и описанных в литературе типов человеческих HLA имеет убедительную связь с так называемыми медицинскими рисками. Мы не будем сейчас останавливаться на них, и отложим рассмотрение этой тематики на будущей. Однако помимо медицинской полезности, существуют также и некоторые преимущества знания своего типа HLA и с точки зрения генетической генеалогии:

1) Прежде всего, это возможность определить характер распространения сегментов в области xMHC на хромосоме 6. Приведу конкретный пример на своих собственных данных — вышеупомянутый «расширенный» гаплотип HLA * 0101: Cw * 0701: B * 0801: DRB1 * 0301: DQA1 * 0501: DQB1 * 0201 (в англоязычной литературе встречаются и другие обозначения —AH8.1, COX,[1] Super B8, ancestral MHC 8.1[2] or 8.1 ancestral haplotype; далее мы будем писать его в сокращенном виде: A1 :: DQ2). По мнению некоторых исследователей этот гаплотип A1 :: DQ2 представляет собой  загадку с точки зрения изучения эволюционного процесса рекомбинаци. Дело в том, что скорость рекомбинации этого гаплотипв A1 :: DQ2 не соответствует теоретическими ожиданиям в плане скорости рекомбинации.  Нам известно, что в регионах Европы, где этот гаплотип  впервые сформировался и начал распространятся, существуют другие гаплотипы, некоторые из которых являются «предковыми», обладая при этом  весьма значимой длиной. Однако рассматриваемый гаплотип является своего рода рекордсменом  — он включает в себя последовательный контиг ДНК длинной примерно в 4,7 миллионов  (!) пар нуклеотидов,  и около 300 генных локусов. Кроме того, все исследования отмечают высокую «резистентность» этого гаплотипа по отношению  к рекомбинации. В качестве объяснения этого уникального феномена выдвигаются разные гипотезы — некоторые полагают что обструкция рекомбинации в этом гаплотипе была неким неизвестным была жестким образом кодирована в самой ДНК (по аналогии с хардкодингом -жестким «вшиванием» в программный код различных данных, касающихся окружения программы) Другие объясняют эту аномалию последствиями многократного селективного  отбора гаплотипа. Здесь следует прояснить суть проблемы: согласно классической теории рекомбинации, физическая длина любого аутосомного гаплотипа (то есть число нуклеотидов входящих в него) из-за быстрых темпов эволюционной рекомбинации должна неизменно  уменьшатся  с каждым поколением. Однако гаплотип A1 :: DQ2 является живым опровержением универсальности этого представления.

2) Во-вторых, можно попытатся произвести оценку времени и места возникновения этого гаплотипа.  В ходе систематического обследования мировых популяций, регулярно проводимого сетью центров и институтов трансплантологии, было  установлено, что гаплотип A1 :: DQ2 является наиболее часто встречается у белых жителей США , ~ 15% которых имеет этот гаплотип. Анализ SNP-ов сцепленных с этим типом, дает основания полагать, что гаплотип мог возникнуть примерно 20.000 лет в Европе, хотя  эта интерпретация в настоящее время признается некоторыми исследователями неубедительной. Согласно этой интепретации, гаплотип мог возникнуть  в результате  климатических изменений  во врема последнего ледникового максимума  примерно 11500 лет назад (поэтому этот гаплотип называют иногда предковым европейским гаплотипом, или гаплотипом A1-B8 (AH8.1). Этот один из тех 4 гаплотипов HLA, которые являются общими для западных европейцев и азиатов. Если предположить, что частота  распространения этого гаплотипа  в начальной популяции составляла 50%  во время последнего ледникового максимума и плавно снижалась  на 50% каждые 500 лет то частота гаплотипа в современных популяциях не должна превышать 0,1% в любой европейской популяции. Однако реальная частота  составляет, как было показано выше,  примерно 10%,  что превышает ожидаемую в теории частоту распространения почти в 100 раз. Применительно к генетической генеалогии,  это подробное разъяснение может означать только то, что массовое скопление совпадающих сегментов в xMHC регионе на 6 хромосоме может быть четким указанием  на наличие очень далеких общих предков (вплоть до жителей эпохи неолита). При любом раскладе, предлагаемый RelativeFinder/23andme интервал в 5-10 поколений до  последних общего предка для региона xMHC является нереалистично заниженным.

2) Кроме того,  используя стандартные средства геногеографии можно сделать вывод о географическом ареале распространения конкретного гаплотипа HLA. Опять-таки, изучая геногеографию все того же гаплотипа A1 :: DQ2, можно   увидеть, что  его локальные пики  приходятся на весьма удаленные  друг от друга регионы — это Исландия, регион исторического проживания поморов на Севере России, северная Сербия, земля басков, а также те регионы Мексики, которые массовао заселялись басками.  Общей чертой этих регионов является не географическая близость, а крайняя степень изоляции.
Относительно высокая частота распространения гаплотипа в  наиболее изолированных географических регионах Западной Европы, Ирландии, Скандинавии и Швейцарии наряду с  крайне низкой частотой во Франции и латинизированной  части Иберии является результатом описанной в популяционной генетике и антропологии модели замещения, народонаселения Европы, которое обычно связывается с началом эры неолита. В этом случае возраст рассматриваемого гаплотипа в Европе, превышает 8000 лет.

Напоследок хочу порекомендовать —The Allele Frequency Net Database  -хорошую базу данных по частотам аллелей полиморфичных регионов HLA,KIR,Cytokine,MIC Института транплантной иммунологии при Ливерпульском университете.  Она является очень удобным инструментом для анализа частот HLA гаплотипов в мировом масштабе.

В  частности, можно производить поиски по гаплотипам, и получать на выходе данные о частотах в различных популяциях, а также визуализировать полученные данные на карте.

Пример (гаплотип A1 :: DQ2)

1 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 Ireland South
11.50
250
                               
2 A*01:01B*08:01C*07:01DRB1*03:01:01-DQB1*02:01 England North West
9.50
298
                               
3 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01-DPB1*04:01 Ireland South
8.30
250
                               
4 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 Poland
4.00
200
                               
5 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 USA Hispanic pop 2
1.78
1,999
                               
6 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01-DPB1*01:01 Ireland South
1.40
250
                               
7 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 USA African American pop 4
1.39
2,411
                               
8 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 USA Asian pop 2
0.09
1,772
               

Популяции Нового Света: f_3 статистика и датировка событий креолизации/метисизации

Итак, теперь можно попытаться проанализировать результаты предыдущего опыта по изучению генетической структуры ряда американских популяций. MDS-анализ показал, что популяции выстраиваются вдоль одного из двух ребер умозрительного треугольника, вершиной которого является популяцию белых американцев из США (штат Юта). Одно из ребер является проекцией градации присутствия в генофонде чистого аборигенного америндского компонента – самыми близкими к белым американцам оказываются метисизированные группы алеутов и индейцев с северо-западного побережья США (индейцы Кольвилль и так далее),  и самой удаленной группой является популяция индейцев Surui из Бразилии. Второе ребро условного треугольника довольно только отражает градацию чистого африканского компонента.  Наиболее близкими к CEU здесь оказываются пуэрто-риканцы и жители островов Карибского моря, однако значительная часть этой группы оказывается смещенной в сторону от основного вектора за счет присутствия в генофонде следов нативного индейского населения Пуэрто-Рико.  Примечательно также расположение на плоте популяции The Lumbee Tribe. В первом цензе США 1790 года Lumbee записывались в разряд лично-свободных цветных людей. Однако уже в середине 19 века Lumbee упорно опровергали утверждения ряда ученых о происхождении Lumbee от беглых черных рабов: современные потомки этой небольшой группы продолжают считать себя потомками от смешанных браков индейцев Северной Каролины с  потомками «потерянных» белых колонистов Каролины начала 18 века.

Однако мой эксперимент разоблачает этот миф. Представители этой группы оказываются рядом с пуэрто-риканцами, благодаря чему можно сделать два убедительных предположения: a) Lumbee возникли в результате сложно процесса смешения всех трех рас  и b) соотношение генетических компонент трех рас в геноме Lumbee приблизительно равно аналогичному соотношению в геноме пуэрто-риканцев. Этот феномен объясняет почему многие из пуэрто-риканцев и афро-американцев, которые пользуются моим геномным калькуляторам для предсказания своего этнического происхождения,  нередко находят в своих результатах совпадение с геномом представителей племени Lumbee.

f3-статистика адмикса

Поскольку  в отличие от моих предыдущих экспериментов с европейскими популяциями данная выборка содержат априорно известные популяции метисов и мулатов, то в целях сопоставления результатов я решил применить новейшие методы анализа геномного адмикса – f3статистику и алгоритм ROLLOFF — для изучения демографической истории популяций Нового Света. В качестве примера я использовал геномные данные пуэрто-риканцев, в анализе использована метрика f3-статистики в версии программы Admixtools. Для иллюстрации достоверности сигнала я выбрал только те пары референсных популяций, чья интерполяция в геном таргетной популяции пуэрто-риканцев дают наибольшее отрицательное значение

parameter file: /storage/hpchome/vadim78/admixtools/examples/test.par

### THE INPUT PARAMETERS

##PARAMETER NAME: VALUE

genotypename: /storage/hpchome/vadim78/admixtools/bin/American.geno

snpname: /storage/hpchome/vadim78/admixtools/bin/American.snps

indivname: /storage/hpchome/vadim78/admixtools/bin/American.ind

popfilename: /storage/hpchome/vadim78/admixtools/examples/amer_qp3test

## qp3Pop version: 204

nplist: 528

number of blocks for block jackknife: 662

snps: 618523

Source1 Source2 Target f_3 std.err Z SNPs
Afro-American Kumiai PuertoRican -0.016575 0.000547 -30.303

601008

Afro-American Tsimsian PuertoRican -0.016280 0.000525 -31.011

601177

Afro-American Huichol PuertoRican -0.015848 0.000498 -31.799

601268

Afro-American Pima PuertoRican -0.014528 0.000455 -31.952

602781

Afro-American Navajo PuertoRican -0.013458 0.000409 -32.877

602871

Afro-American Mixtec PuertoRican -0.015951 0.000431 -36.975

602204

CEU Afro-American PuertoRican -0.017152 0.000232 -73.777

608991

Если сравнивать с результатами ADLER-тестов европейских популяций, то сразу обращает на себя внимание высокие значения Z-score, особенно в сравнении со старыми европейскими популяциями. Разница в амплитуде значений составляет примерно 10-15 раз.  Говоря простым языком, генетический сигнал смешения исходных популяций у пуэрто-риканцев намного сильнее, что свидетельствует о недавном адмиксе.

Интервал активной фазы смешения предковых популяций.

На следующем этапе нашего эксперимента, мы использовали программу ADLER и генетические дистанции снипов, полученные путем интерполяции известных значений генетических дистанций (сантиморганид) и физических дистанции снипов. Конечной целью этого этапа – дать оценку хронологического интервала событий адмикса. Для большего разнообразия я выбрал  латиноамериканских жителей Карибского бассейна.   Из нижеприведенных результатов следует, что у популяции латиноамериканских жителей присутствует сигнал адмикса как с североамериканскими, так и с центрально-американскими индейцами. Временной интервал адмикса в упрощенном виде составляет примерно 17-10 поколений тому назад  т.е примерно в интервале между 1490-1660 годами.

        |

|      ALDER,   v1.0

\..|./

\ \  /       Admixture

\ |/ /      Linkage

\| /       Disequilibrium for

|/        Evolutionary

|         Relationships

|

 

+—————————————————————————+

|  ALDER computes weighted LD decay curves, performs curve-fitting to      |

|  infer admixture dates, and uses the results to test for admixture.      |

|  For full details about options and parameters, please see the README    |

|  file included with this software.                                       |

+—————————————————————————+

 

warning: ignoring ‘jackknife’ parameter, which only applies to raw output

———- contents of parameter file: alder.par ———-

genotypename: /storage/hpchome/vadim78/admixtools/bin/American.geno

snpname: /storage/hpchome/vadim78/admixtools/bin/American.snps

indivname: /storage/hpchome/vadim78/admixtools/bin/American.ind

num_threads: 10

jackknife: YES

output: Caribbean

seed: 24

admixpop: Caribbean_Hispanic

refpops: Mexican;Colombian;Dominican;Ecuadorian;PuertoRican;Bolivian;Totonac;Aleut;Athabask;Navajo;Apache;Mixtec;Huichol;Cochimi;Cucupa;Kumiai;Luiseno;Costanoan;Lumbee;Tlingit;Haida;Eskimo;Miwok;Serrano;Colville;Inuit-West;Inuit-East;Tsimsian;Pima;Maya;Karitiana;Surui;Caribbean_Hispanic;Afro-American;CEU

———- parameter settings used (with defaults for unspecified) ———-

 

Input data files:

genotypename: /storage/hpchome/vadim78/admixtools/bin/American.geno

snpname: /storage/hpchome/vadim78/admixtools/bin/American.snps

indivname: /storage/hpchome/vadim78/admixtools/bin/American.ind

 

Admixed population:

admixpop: Caribbean_Hispanic

 

Reference populations/weights:

refpops: Mexican;Colombian;Dominican;Ecuadorian;PuertoRican;Bolivian;Totonac;Aleut;Athabask;Navajo;Apache;Mixtec;Huichol;Cochimi;Cucupa;Kumiai;Luiseno;Costanoan;Lumbee;Tlingit;Haida;Eskimo;Miwok;Serrano;Colville;Inuit-West;Inuit-East;Tsimsian;Pima;Maya;Karitiana;Surui;Caribbean_Hispanic;Afro-American;CEU

 

Raw weighted LD curve output:

raw_outname: (none)

 

Data filtering:

mincount: 4

 

Curve fitting:

binsize: 0.000500

mindis: -1.000000

maxdis: 0.500000

 

Поскольку нет смысла приводить весь лог эксперимента, я ограничусь лишь теми результатами, которые дали положительные результаты по обоим тестам

 

*** Admixture test summary ***

 

Weighted LD curves are fit starting at 1.2 cM

 

Does Caribbean_Hispanic have a 2-ref weighted LD curve with Mixtec and Tlingit?

2-ref decay z-score:    5.11

2-ref amp_exp z-score:  4.68

YES: curve is significant

 

Do 2-ref and 1-ref curves have consistent decay rates?

1-ref Mixtec — 2-ref z-score:                       0.02   (  0%)

1-ref Tlingit — 2-ref z-score:                      1.11   ( 21%)

1-ref Tlingit — 1-ref Mixtec z-score:               1.76   ( 21%)

YES: decay rates are consistent

 

Test SUCCEEDS (z=4.68, p=0.00054) for Caribbean_Hispanic with {Mixtec, Tlingit} weights

note: p-value is multiplied by 190 for multiple-hypothesis correction

 

DATA:  success 0.00054            Caribbean_Hispanic   Mixtec Tlingit  4.68      5.26      5.97      21%     12.14 +/- 2.37            0.00002098 +/- 0.00000448       12.18 +/- 2.32   0.00015501 +/- 0.00001668       15.03 +/- 1.95   0.00009072 +/- 0.00001520

*** Admixture test summary ***

 

Weighted LD curves are fit starting at 0.9 cM

 

Does Caribbean_Hispanic have a 2-ref weighted LD curve with Mixtec and Haida?

2-ref decay z-score:    7.24

2-ref amp_exp z-score:  4.87

YES: curve is significant

 

Do 2-ref and 1-ref curves have consistent decay rates?

1-ref Mixtec — 2-ref z-score:                      -0.19   ( -3%)

1-ref Haida — 2-ref z-score:                        0.78   ( 18%)

1-ref Haida — 1-ref Mixtec z-score:                 1.06   ( 21%)

YES: decay rates are consistent

 

Test SUCCEEDS (z=4.87, p=0.00021) for Caribbean_Hispanic with {Mixtec, Haida} weights

note: p-value is multiplied by 190 for multiple-hypothesis correction

 

DATA:  success 0.00021            Caribbean_Hispanic   Mixtec Haida  4.87      5.26      5.06      21%     12.61 +/- 1.74            0.00004084 +/- 0.00000838       12.18 +/- 2.32   0.00015501 +/- 0.00001668       15.07 +/- 2.88   0.00006966 +/- 0.00001376

 

*** Admixture test summary ***

 

Weighted LD curves are fit starting at 1.1 cM

 

Does Caribbean_Hispanic have a 2-ref weighted LD curve with Haida and Pima?

2-ref decay z-score:    4.23

2-ref amp_exp z-score:  4.18

YES: curve is significant

 

Do 2-ref and 1-ref curves have consistent decay rates?

1-ref Haida — 2-ref z-score:                        0.15   (  4%)

1-ref Pima — 2-ref z-score:                        -0.53   (-11%)

1-ref Pima — 1-ref Haida z-score:                  -0.72   (-15%)

YES: decay rates are consistent

 

Test SUCCEEDS (z=4.18, p=0.0055) for Caribbean_Hispanic with {Haida, Pima} weights

note: p-value is multiplied by 190 for multiple-hypothesis correction

 

DATA:  success 0.0055  Caribbean_Hispanic   Haida  Pima    4.18      5.06      5.02      15%     14.44 +/- 3.41   0.00004388 +/- 0.00001049       15.07 +/- 2.88   0.00006966 +/- 0.00001376       12.93 +/- 2.57   0.00014421 +/- 0.00001779

 

MDS-анализ генетической вариативности американских популяций

В декабре прошлого года я занимался анализом аутосомных SNP-ов около трех десятков групп аборигенного народонаселения, проживающих в Новом Свете. Вот эти популяции:

Mexican
Colombian
Dominican
Ecuadorian
PuertoRican
Bolivian
Totonac
Aleut
Athabask
Navajo
Apache
Mixtec
Huichol
Cochimi
Cucupa
Kumiai
Luiseno
Costanoan    
Lumbee
Tlingit
Haida
Eskimo
Miwok
Serrano
Colville 
Inuit-West

Inuit-East

Inuit-West
Tsimsian
Pima
Maya
Karitiana
Surui
Caribbean_Hispanic

В программе Plink были произведены расчеты вариативности этих популяции; позднее эти расчеты были представлены в виде MDS-графика, отображающего взаимное расположение основных популяций Нового Света (за исключением потомков европейцев)  в пространстве первых двух главных генетических векторов, определенных статистическими методами мульти-дименсионального шкалирования.

mdsplot

 

 

test

 

Так как поставленная задача была довольно проста, то и  решилась она тривиальным способом за счет:

  1. включения в выборку генотипов 47 американских афро-американцев США из афро-американской панели проекта HapMap (ASW)
  2. увеличения числа снипов до 190 000.

Новый MDS плот образовал классическую правильную V-образную форму. Такая форма MDS и  PСA-графиков свидетельствует о том, что набор снипов обладает высокими дискриминантными свойствами за счет значимых величин Fst. Иными словами, имеющийся набор снипов дает высокую степень резолюции в определении генетической структуры различных групп народонаселения, которые в свою очередь объединяются в различные кластеры.

 

Собственно говоря, в более правильном виде, вилка американских популяций должна образовать треугольник, в одном углу которого должны располагаться потомки европейских переселенцев; в другом углу – нативное население Америк (америнды); а в третьем – потомки африканских народов.
Таким образом, положение любого индивида, имеющего относительно давние корни в Новом Свете внутри означенного треугольника будет указывать на степень его моно-,би-, и трирасовости.

В основу нашей гипотезы было положено предложение Тони Фрудакиса («Molecular Photofitting. Predicting Ancestry and Phenotype Using DNA») насчет отображения структуры генофонда жителей США в виде треугольника.

Genetic triangle
С целью проверки своей гипотезы о формировании классического треугольника популяционной дивергенции, я добавил в выборку генотипы (1,5 миллиона снипов) 50 мормонов из панели CEU (Utah residents with Northern and Western European ancestry from the CEPH collection). Из нового графика MDS наглядно следует,  что наша  гипотеза нашла свое подтверждение.

mds2

Именно по этой  причине, созданный нами калькулятор MDLP является самым точным из имеющихся в свободном доступе инструментов для обнаружения присутствия компонентов Native American и Afro-American в геноме современных коренных жителей Нового Света.

В качестве дополнительной верификации гипотезы был проведен анализ генетической вариативности популяций Нового Света по методу главных компонент (использовалась та же самая выборка в формате Eigenstrat в программе Eigensoft 4.0). Метод главных компонент дал аналогичную картину:
PCA

 

Еще раз о фазировании

В этом посте мы продолжим обсуждение проблематики отфазированных генотипов.
Многих пользователей моего блога интересует вопрос, каким образом можно фазировать биаллельные генотипы в гаплотипы?

С технической точки зрения, процесс фазирования генотипов подразумевает выявление — с высокой апостериорной вероятностью гаплотипной фазы. Как показывает сравнительный анализ алгоритмов фазирования в программах Beagle, PHASE, IMPUTE и т.д., — наиболее точные результаты получается в ходе совместного фазирования генотипов ближайших родственников.Поэтому в генетических штудиях — как популяционных (реже),так и медгенетических (намного чаще) — фазирование проводится с использованием генотипов трио (генотипы матери-отца-ребенка). Однако именно коммерческое генотипирование открывает более широкое поле деятельности для фазирования — получения более-менее однозначного гаплотипа с более-менее однозначной генеалогией. Вопреки распространенному среди любителей ДНК-генеалогии мнению любой составной УПС/HIR может быть легко преобразован в совокупность отельных гаплоблоков, многие из которых достаточно уникальными в предковой популяции анализируемого индивида. Здесь нужно развеять и второе заблуждение любителей — диплоидные генотипы 23andme ни в коем случае нельзя автоматически разбивать на два смежных столбика, единственный легитимным способом получения фазы генотипов является фазирование данных в специальных программах.

В принципе, можно с увереностью утверждать, что после того как из биаллельного генотипа получена гаплотипная фаза генотипа, потребность в HIR-ах отпадет. Сейчас же, при отсутствии полноценных данных по этим регионам и даже фазированных генотипах  УПС-HIR-IBD совпаденцам, приходится пользоваться намного более удаленными -в географическом и генеалогичском смыслах — референсами, типа фазированных гаплотипов в проектах 1000 геномов, HGDP или HapMap. Именно эти фазированные панели используются в новейших и наиболее эфективных программах фазирования генотипов в тех случаях, когда в выборку включены только лица, не родственные между собой.
До тех пор, пока не будет произведено массовое фазирование биаллелей, любой предикт родства сделанный на основании анализа нефазированных генотипов, следует воспринимать с максимальной осторожностью. Например, указание (в РФ алгоритме анализирующем нефазированные данные) на 5-6-юродную степень родства пуштуна и скажем, литовца может с абсолютно одинаковой степенью вероятности (50% на 50%) означать как наличие «афганского» следа в родословной литовца (или литовского следа — у пуштуна), так и очень далекое родство, близкое к случайному совпадению.
В избежании недоразумений, еще раз уточню, что речь идет не о привычных для любителей ДНК-генеалогии Y-STR гаплотипах, — в данном случае это аутосомные гаплотипы, которые выглядят следующим образом: AGGTTCCGAACCTTGGAAG ( и далее примерно несколько тысяч букв A/G/C/T). Фазированный гаплотип -это с определенной степенью вероятности гаплотип основателя. Более того, переход от биаллельных идентичных сегментов к набору идентичных гаплоидных сегментов открывает интересные перспективы в плане молекулярной датировки возраста идентичных гаплоблоков. Принимая во внимание тот факт, что гены и даже аллели этих генов, определяющие на ген.уровне [например, фенотип светлой пигментации волос)] достаточно хорошо известны и описаны в науч.литературе, то проблему датировки можно решить, отфазировав этии генотипы в гаплотипы, мы можем с помощью дерева коалесценции гаплотипов определить узел коалесценции, а следовательно датировать его с помощью молекулярных часов. Этим,кстати, занимается Монтгомери Слаткин (правда в качестве иллюстрации своей теории коалесцента он использует пример других «релевантных в плане мед.рисков генетических локусов»). В отдаленном теоретическом плане, множество малорекомбинантных гаплотипов можно использовать для конструирования специального генетического микрочипа (на основе того же OmniExpress) c включением в этот снип-чип генеалогически актуальных (малорекомбинантных) снипов, фазирование которых выявит наличие устойчивых гаплотипов недавнего происхождения (и соответственно, их генеалогию).

Технические нюансы.

Упрощенный дизайн технического процесса фазирования в общих чертах может выглядеть следующим образом. Сначала подготавливаем файл к приемлемому для фазирования формату (этих форматов много, я выбрал тот, в котором нужно минимально модифицировать исходные комбинированные данные 23ия+HapMap). В качестве proof of concept, я использовал относительно простое программное обеспечение для фазирования диплоидного генотипа (UNIX версия программы SNPHAP). В этой программе фазирование проводится с помощью алгоритмов байесовской инференции. Полученные на выходе отфазированные гаплотипоы пропускаются через своего рода элайнер, и на выходе получается FASTA aligned файл, который легко скармливается TNT путем ввода директивы procedure. А дальше можно либо реконструировать филогению в TNT, либо сохранять в формате Nexus.
В этом варианте процесс фазирования вычислительно-емкий и менее робастный , и эта одна из причин использования серверных возможностей (компьютерных кластеров, где программа может работать месяцами). Например, на байесовскую инференцию- фазировку используемых в данном примере генотипов из небольшого фрагмента 14 хромосомы в выборке из 92 индвидов ушло примерно 8 часов. После окончания цикла фазирования результаты (фазированные гаплотипы) сохраняются в отдельном файле. В описанном выше примере у 92 индивидов с помощью байесовской инференции было выявлено 937  гаплотипа со средней длиной в 5288 нуклеоитида, причем 315 из этих гаплотипов имеют кумулятивную апостериорную вероятность 1.00.

Практический пример (применения в генеалогии).

Этот практический пример основан на анализе моих собственных генетических данных, загруженных на сервер GedMatch. На сервере содержатся два варианта этих данных — нефазированный исходный вариант и второй фазированный вариант (две пары фазированных гаплотипов).

При поиске совпадений по первому варианту, общее количество » обнаруженных кузенов» составляет 179 человек.
Вместе с тем поиск по реконструированной в ходе фазирования той части генотипов, которая досталась мне от отца, общее число кузенов равнялось все 3. Из этих 3 один — родом из Рязани -, но параметры cовподающего сегмента, строго говоря, ниже пороговых значений [cM (7 cM) и число консекутивных снипов (700bp)] бритвы Оккама для генеалогически верифицируемых совпадений. Поэтому его следует отбросить. Остается два человека. Один наполовину беларус-полешук из Глусского и Слуцкого Полесья, наполовину эрзя. Другой — типичный американских пель-мель из смешания разных народов, но его бабушка носила имя Теодосия Осовская, возможно родом из Осового, что находится рядом со Стаховым, откуда родом предки моего отца.
Следовательно,что фазирование может представлять собой самый надежный фильтр для отсеивания false-positive совпадений.

О понятии гаплоблок в генетике

Многие люди, которые прочли мои сообщения на Молгене на тему гаплоблоков, как правило задают мне по прочтению два вопроса.

Первый вопрос — доказано ли наличие нерекомбинатных участков в аутосомной ДНК и Х-ДНК?

Второй вопрос — можно ли считать эти участки гаплоблоками?

Чтобы ответить на оба эти вопроса, необходимо для начала уточнить определение гаплоблока.

Во-первых, понятие гаплоблок не стоит путать с понятием «гаплотип«, так как один гаплоблок может включать в себя несколько гаплотипов. Во-вторых, понятие гаплоблок (или в более распространенном варианте – гаплотипный блок) синонимично понятию блок неравновесия по сцеплению (LD-блок)/блок гаплотипов.

Неравновесное сцепление участков хромосомы означает, что во время мейоза вероятность рекомбинации данных участков чрезвычайно мала и данные участки хромосомы наследуются единым блоком. Благодаря усилиям генетиков в начале этого века была составлены разные варианты генетических карт человеческого генома (карты Rutgers, Decodeme, HapMap) и эти карты позволяют определить блоки неравновесия по сцеплению за счет вычисленной частоты рекомбинации между определенными генетическим маркерами (прежде всего SNP-ами).

Почему скорость рекмбинации неодинакова в разных сегментах аутосомных и X-хромосом?

  Если сравнивать величину генетическую дистанции в сантиморганах между 2 локусами и физическую дистанцию между теми же 2 генетическими локусами, то в ходе исследованиий было показано в среднем по человеческому геному 1сM примерно равен 1 000 000 базовых пар (по другим оценкам, 750 000 базовых пар). Это, образно говоря, есть ни что иное, как средняя температура по больнице. На самом деле, в человеческом геноме есть регионы с быстрой рекомбинацией, средней рекомбинацией и регионы так называемого «позитивного отбора», где рекомбинация практически не происходит (классический пример — геномный регион HLA-MHC на 6 хромосоме). В качестве отступления отмечу, что именно по причине неравномерности скоростей рекомбинации, я считаю, что между величиной дистанции в сентиморганах и генеалогической дистанцией нет прямой корреляции. Хотя, если не учитывать эту неравномерность скоростей, то тогда действительно, чем больше величина сM (т.е чем больше величина рекомбинации) участков половинного или полного совпадения, тем ближе друг к другу сравниваемые индивиды. Потому, чем больше рекомбинация, тем меньше шансов того, что эти участки совпадения (которые, при фазировании, должны образовывать гаплоблоки) будут передоваться в неизмененном состоянии от отцов к детям. К сожалению, cудя по всему, алгоритмы предсказания степени родства по аутосомам в 23andme и FTDNA не учитывают этого этих факторов, что радикально влияет на точность предикта:

 Я думаю, что это классический результат генного дрейфа, обусловленного во-первых изоляцией предковых популяций. Поскольку некоторые популяции в буквальном смысле этого слова, варились в собственном «генетическом пуле»; на протяжении многих столетий (что привело к образованию устойчивых гаплоблоков), алгоритм вычисления степени генетического родства в 23andme (которому, разумеется, ничего неизвестно о генетических особенностях предковых популяций сравниваемых индивидов) воспринимает нашее далекое родство как относительно недавное.

Ответ на вопрос

В силу выше сказанного,  на первый взгляд так называемые нерекомбинатные (или вернее, малорекомбинантные) участки Х-ДНК/аутосомной ДНК можно считать гаплоблоками. Однако подобная точка зренія при более тщательном рассмотрении вызывает ряд проблем. Приведу практический пример.

Несколько лет тому назад небольшая группа активистов с ныне канувшего в  Google-кэш форума dna-forums.org занималась экспериментальными любительскими исследованиями гаплоблоков X-хромосомы. Этот полулюбительский проект поиска X-хромосомных обнаружил несколько десятков гаплоблоков, которые я пытался представить в виде квази-филогенетического дерева.Как я уже говорил, эти участки с ограниченной рекомбинацией также определены в том же проекте ХапМап. И, разумеется, генетики (медицинские и популяционные) уже определили и описали множество устойчивых гаплоблоков. В теме по X-хромосомным филогениям на форуем Молген я уже приводил примеры таких блоков на. Исходя из специфики наследования этой хромосомы, большинство из найденных путем простого визуального сравнения гаплоблоки оказались очень небольшими по размеру. Поэтому вряд ли можно вести речь о какой-то конкретной этнической привязке конкретных гаплоблоков — разве что в плане разделения гаплоблоков по глубокому происхождению на африканские, европейские и азиатские. Истинный возраст совпадающего гаплоблока (или даже интервал) предсказать затруднительно. Кроме того, наличие хотспотов рекомбинации и неравномерная плотность выявленных снипов существенно затрудняет поиск устойчивых гаплоблоков (которые и опредляется в результате фазирования). А неравномерная плотность и что еще хуже отсутствие многих HapMap снипов в чипсетах, используемых FTDNA и 23andme (кстати, чипсет Decodeme — в отличие от чипсетов FTDNA и 23andme- наиболее близок к 1,5-млн чипсету HapMap) приводит к появлению  ложных сегментов. Если не ошибаюсь, Leon Kull, который занимался слияниям наборов снипов FTDNA и 23ия, приводил примеры, когда после слияния данных HIR (выявленные в отдельности по результатам снип-тестирования  FTDNA и в 23ия)  просто «ломались», поскольку внутри участка который воспринимался, к примеру в 23ия, как  непрерывная последовательность региона половинного совпадения (HIR-сегмент) вклинивался снип, нарушавший последовательность.

Другая проблема, связанная с практическим изучением гаплоблоков, носит сугубо методлогический характер. Дело в том, что термин гаплоблок в популяционной генетике заимствован сравнительно недавно и взят из терминологии смежного направления — медицинской генетики. Кстати, по иронии судьбы в медицинской генетике традиционная генеалогия играет зачастую гораздо большую роль, чем в популяционной генетике. Ведь в выборки попгенетиков попадают обычно unrelated individuals, в то время как я видел немало работ по медицинской генетике, где приводятся генеалогические таблицы тестируемых индивидов, страдающих тем или иным недугом. Оно и понятно -одна из целей медгенов как раз и является выявление наследуемых гаплоблоков (или даже просто отдельных аллелей) ассоциируемых с тем или иным заболеванием. Не смотря на это и попгенетики все активнее используют понятие LD-гаплоблок в последних работах. В связи с этим у многих любителей возникает закономерное предположение — если найдены аутосомные “гаплоблоки”,то значит должна быть и аутосомные гаплогруппы (по аналоги с Y-ДНК и мито-ДНК). К сожалению, это не совсем так, — в отличие от древа Y и древа митогаплогрупп, древо гаплоблоков практически никогда не будут иметь филогенетически однозначного решения в плане кладистики. Впрочем, это отдельный вопрос,которого я пока не буду касаться.

Важность гаплоблоков в популяционном анализе.

Когда я начал свой любительский проект по анализу аутосомного ДНК различных популяций и отдельных лиц, то следуя примеру других геномных блоггеров я начал с элментарной обработки данных в незаменимой программе Plink — я занимался нахождением IBS матрицы, расчетами статистических параметров гомозиготности (группировкой по совпадающим сегментам, кластеризацией и так далее), структуризацией и выявлением IBD-сегментов и их кластеризацией. Однако со временем я, так же как и большинство BGA блоггеров, осознал необходимость работы с фазированными данными, — с генотипами приведенными в гаплоидную фазу, то есть с гаплоблоками. Кроме того, в новой парадигме стал использоватся новый рекомбинаторный параметр  (который ранее не учитывался в классическом Admixture-анализе) и структура сцепления снип-маркеров. Основным преимуществом фазированных генотипов является более высокая степень вероятности общего происхождения гаплоблоков, которые в случае с идентичными по происхождению сегментами предполагают единую генеалогию. Техническое определение понятия фазирования генотипа в контексте биоинформатики — это выявление или выведение (инференция) гаплотипной фазы массива генотипных данных. Говоря простым языком, это трансформация мультиаллельных блоков в гаплоблоки (гаплотипы). Преимуществом фазированных генотипов является более высокая степень вероятности общего происхождения гаплоблоков , которые — в силу определения понятия гаплоблок -предполагают единое генеалогическое происхождения Разница очевидна. Например, полгода тому назад я изучал этнические гаплоблоки участка условно-половинного совпадения на 1 хромосоме в данных проекта Eurogenes.  К своему разочарованияю, никаких гаплоблоков среди нефазированных генотипов в этом регионе не обнаружилось. Спустя некоторое время автор проекта Eurogenes -Дэвид Веселовски разослал участникам проекта. По сути, Дэвид приступил тогда к новой фазе анализа, о необходимости которой я говорил ранее -а именно к фазированию диплоидных данных в гаплоблоки и дальнейшее выявление общих по происхождению гаплоблоков. Так вот, новый анализ фазированных генотипов (гаплоблоков) в том же проекте показывал, что у лиц с повышенным процентом “северо-западного европейского компонента” (в том числе и лица из кластер номер 5 в другом проекте Dodecad) — имеют значительное количество гаплоблоков, общих по происхождению с северными русскими, чувашами, алтайцами, тувинцами и монголами. То же самое по хромосоме 3, показаны самые большие совпадающие гаплоблоки. Особенно примечательно большое количество совпадаюших гаплоблков с чувашами,венграми.

PS.

С оттенком плохоскрываемого злорадства, должен отметить, что столь любимая Клесовым и Рожанским лографмическая формула (модифицированная формула превращения) веществ гораздо лучше подходит (хотя и в очень обобщенном виде) для моделирования процесса рекомбинаторного “распада” гаплоблоков в аутосомах. Там действительно, гаплоблоки распадаются с учетом частоты рекомбинации. Поэтому-то тот же гуру биоинформатики Монтгомери Слаткин и вводит логарифмы в формулу для оценки возраста IBD-гаплоблока.

Алгоритмическая задача про ДНК генеалогию

Решил перепостить сообщение уважаемого Павла Б. о алгоритмической задаче про ДНК генеалогию.

как известно, в алгоритмах я не особо силён. я сейчас попытаюсь описать некую задачу, а Вы помогите мне её сформулировать формально и предложить алгоритм решения, ладно?Причем не обязательно оптимальный алгоритм — мы тут не теоремки доказываем :)Сделал человек ДНК тест, получил большой файл с RAW results — со всеми мутациями.Сравниваем его с результатами другого человека — получаем некий набор одинаковых участков ДНК, каждый из которых характеризуется позицией (у каждой мутации есть некий адрес) и длиной.Общие участки ДНК между этими двумя людьми скорее всего принадлежали ДНК их общего предка. Этот общий предок был неизвестно сколько поколений назад, по какой линии и какая у него была фамилия, Y-DNA гаплогруппа и mt-DNA гаплогруппа (Y-DNA гаплогруппа — некое свойство, которое передается только по прямой мужской линии, у женщин его нет, mt-DNA гаплогруппа — свойство передающееся только по прямой женской линии).Если с кем то еще есть среди общих участвков ДНК участки, пересекающиеся с найденными выше пересечениями, можно предположить, что у всех трех есть некий общий предок, которому эти общие участки принадлежат (пока, для простоты мы считаем, что общий предок у двух людей один — т.е. родство только по одной линии, что для ашкеназов вообще то ВСЕГДА неправда).Теперь задача — если есть много таких данных, про многих людей — у кого с кем какие участки ДНК общие, у кого какие фамилия отца, матери, Y-DNA гаплогруппа и mt-DNA гаплогруппа — можно ли попытаться восстановить дерево общих предков?

От себя замечу, что это проблема решается тривиально с помощью любого из алгоритмов фазирования, и визуализация с помощью алгоритмов qpGraph.
Другой вариант (который мне представляется более разумным — это сравнение трех файлов на предмет наличия сегментов, которых мы будем считать общими по происхождению (так называемые IBD сегменты). Но здесь также как и в первом случае понадобится фазирование данных, т.к. в любом случае HIR-сегменты здесь менее информативны. Пример реализации алгоритмов можно подсмотреть в открытом коде типа открытого кода программы Beagle (так поступили например в  23andme) или даже в Plink. Затем можно представить найденные IBD-сегментов в виде попарных матчей. Далее трансформируем матрицу попарных матчей в сеть/network.  Затем находим в сети наиболее оптимальные штейнеровские деревья, и т.д.

О проекте 1000 геномов

Осенью этого года после публикации данных третьей фазы проекта 1000Genomes, средства массовой информации разместили в таблоидах весьма оптимистические отчеты касающиеся результатов этого примечательного проекта:

Международный консорциум исследователей опубликовал результаты первого этапа работы над проектом «1000 геномов» (1000 Genomes), которые описывают профили редких и распространенных генетических вариаций 1092 человек, относящихся к 14 популяциям в Европе, Африке, Восточной Азии, Северной и Южной Америках, сообщает Genetic Engineering News со ссылкой на Nature.

«Влияние ‘1000 геномов ‘ будет огромным», говорит один из участников проекта Фули Ю (Fuli Yu) из Центра секвенирования человеческих геномов Бейлорского медицинского колледжа в Хьюстоне. «Получена информация почти от 1100 человек, которую составляют, в том числе, сведения о редких и распространенных однонуклеотидных полиморфизмах (SNPs) вместе с инсерциями (вставками) и делециями генетического материала, а также крупными структурными перестановками в самой ДНК», говорит ученый. В настоящее время в рамках проекта картировано 38 миллионов единичных нуклеотидных замен, 1,4 миллиона инсерций/делеций (их называют инделами от английского indels, Insertions/Deletions) и свыше 14 тысяч крупных делеций.

Это вносит изменения в эталонный геном человека.

Проектом 1000 геномов установлено около 98 процентов последовательностей редких генных вариантов, присутствующих у одного процента популяции. Предполагается, что тайна генетического вклада в распространенные сложные заболевания, такие как рак, болезни сердца и диабет, кроется в этих редких вариантах.

Если не обращать внимания на чрезмерно оптимистичный характер отзывов в масс-медиа, то все-таки признать огромную важность это проекта и главным образом — открытость геномных данных для стороннего анализа. Именно благодаря этому немало важному обстоятельству профессиональными генетиками и попгенетиками были обнаружены множество вариантов — CNV, SNP, indel-ов в аутосомальных хромосомах и половых хромосомах Y/X. Пожалуй, именно обнаруженные любителями новые снипы Y практически сразу же получили практическое коммерческое применение после включения в набор тестируемых снип-сетов компании  FTDNA и Geno2.0 от National Geographic.

Исходные данные проекта  доступны на двух FTP-серверах проекта и включают  в себя данные совершенного разного типа. Находящиеся в директориях pilot_data и release файлы с обнаруженными геномными вариантами (variant calls), информацию о сэмплах и техническими данными процедуры сиквенирования. В отдельной рабочей директории сервера содержатся как основные данные — сырая информация полученная в ходе последовательного мультисиквенирования одних и тех же геномов на разных машинах и с разной степенью разрешения (sanger_low_coverage, qc_low_coverage, illumina_genotyping, cg_genotyping, exome_genotyping), выравненные по референсному геному анализируемые геномы, плюс  огромное количество статистических и аналитических данных.
Именно то обстоятельство, что одни и те же геномы всесторонне сиквенировались разными методами и на разных платформах и позволило выявить столь значительное число геномных вариаций.

В принципе структура проекта достаточно сложна, поэтому пред началом работы с данными желательно ознакомится с туториалами (в соответствующей директории сервера).
Что касается меня, то  я использовал отдельные генотипированные на платформе Illumina_Omni выборки проекта 1000genomes по регионам Великобритании в своем проекте MDLP.