Скрытые возможности клиентских данных 23andme в плане молекулярной диагностики.

Компания 23andme не нуждается в особом представлении читателям этого блога. Вплоть до конца прошлого года компанию занимало существенный сегмент рынка персональной геномики, ориентированного на предоставление  клиентам информации о генетических медицинских рисках (genetic risks) и генетической генеалогии (genetic origin). Информация о медико-генетических рисках содержалась в ряде сервисов портала компании, а также в доступном для скачивания отчета о генетических рисках и, разумеется, в первичных данных генетического отчета, в котором содержались значимые с точки зреемя медико-генетического диагностирования генетические полиморфизмы (SNP).

Всвязи с известными событиями и последующим за ними предписанием USA Food and Drug Administration (FDA) компании 23andme о запрете выпуска на рынок услуг персонального геномического диагностирования своего «медицинского девайза» (т.е интерпретации медико-генетических рисков развития заболеваний), компании пришлось сузить свою сферу деятельности до оказания генетико-генеалогических услуг.

Несмотря на это досадное обстоятельство, сказавшееся нелучшим образом на динамике увеличения клиентской базы компании,  нужно помнить, что все клиенты сохранили доступ к своим первичным данным тестирования (т.е списку снипов с генотипами). И при вдумчивом, творческом подходе любой человек может не только «вытащить» из этих «cырых данных» важную с точки зрения медицины информацию, но и заменить спомощью полученной информацией результаты более традиционных тестов.

Каковы могут быть варианты использования данных 23andmе не в привычных генеалогических целях, а скажем для получения сведений, который могут впоследствии пригодится для молекулярного диагностирования?

Я приведу пару примеров такого использования.

Определение HLA-фенотипа.

На мембране клеток организма присутствуют продукты генов всех локусов, размещенных на обеих нитях 6-й хромосомы.

 

bsl-hla1

 

Это означает, что HLA-гены наследуются по кодоминантному типу, т. е. одну хромосому ребенок наследует от матери, а другую – от отца. Как уже упоминалось, совокупность генов, расположенных на одной хромосоме, составляет гаплотип. Таким образом, у человека два гаплотипа и каждая клетка организма несет на себе диплоидный набор антигенов системы HLA, один из которых кодируется HLA-генами матери, а другой – отца. Исключение составляют половые клетки (яйцеклетка и сперматозоид), каждая из которых содержит в своем ядре только по одному гаплотипу.

Антигены гистосовместимости, выявляемые на клетках конкретного человека, составляют HLA-фенотип. Для его определения необходимо произвести фенотипирование клеток индивида. Как правило, “типируются” лимфоциты периферической крови. До настоящего времени в большинстве лабораторий HLA-A. В, С и DR-антигены определяют при помощи серологических методов, в частности, лимфоцитотоксического теста. тот тест основан на способности анти-НLА-антител в присутствии комплемента разрушать лимфоциты, несущие соответствующие антигенные детерминанты. Гибель клеток демонстрируется при помощи добавления трипанового синего. При этом мертвые поврежденные клетки окрашиваются, и под микроскопом учитывается их количество.

Эти тесты часто требуются в ходе стандартных медицинских процедур обследования во время начала беременности, или для изучения этологии аутоимунных заболеваний. Еще более важно определение гистосовеместимости в транплантологии, где типирование HLA-фенотипа  донора является обязательным условием.

Однако, с приходом новых микроматричных технологий опеределния нуклеотидов ДНК и биоинформатических методов рутинной обработки последовательности человеческих геномов , появился дешевая и относительно простая альтернатива классическим серологическим тестам (которые стоят в интервале от 100 до 500 долларов).

Я не буду останавливаться на принципиальном описании процедур, с помощью которых на основании данных 23andme можно с помощью метода «импутирования» определить HLA-фенотип, так как в прошлом году я уже разместил в этом блоге пошаговую инструкцию для выполнения этой задачи.

Впрочем, уже после того, как  я отписался на эту тему здесь,  в департаменте биостатистики Университета Вашингтона был разработан алгоритм HIBAG который принципиально мало чем отличается от алгоритма HLA*IMP (в обеих алгоритмах используется training model, позволяющая определять фенотип HLA по снипам 23andme).  Входные данные программного решения этого алгоритма (язык R) представляют собой формат Plink. А так как в последней версии Plink была включена нативная поддержка формата 23andme, то преобразовать данные 23andme в бинарный формат Plink не сооставит особого труда. Что касается обработки данных в HIBAG, то примерный порядок выполнения команд выглядит следующим образом:

# Load the published parameter estimates from European ancestry
model.list <- get(load(«European-HLA4.RData»))#########################################################################
# Import your PLINK BED file
#
yourgeno <- hlaBED2Geno(bed.fn=».bed», fam.fn=».fam», bim.fn=».bim»)
summary(yourgeno)

# HLA imputation at HLA-A
hla.id <- «A»
model <- hlaModelFromObj(model.list[[hla.id]])
summary(model)
# HLA allele frequencies
cbind(frequency = model$hla.freq)

# SNPs in the model
head(model$snp.id)
# «rs2523442» «rs9257863» «rs2107191» «rs4713226» «rs1362076» «rs7751705»
head(model$snp.position)
# 29525796 29533563 29542274 29542393 29549148 29549597

# best-guess genotypes and all posterior probabilities
pred.guess <- predict(model, yourgeno, type=»response+prob»)
summary(pred.guess)
pred.guess$value
pred.guess$postprob

 
 

Панель метилирования Яско

В последние 10 лет, крупные генетические исследования выявили сотни генных мутаций, которые возникают чаще у аутичных пациентов, чем в общей популяции. Тем не менее, каждый пациент имеет только одну или несколько из этих мутаций, что затрудняет разработку лекарств против болезни. В настоящее время, изучением генетических факторов аутизма занимается большое количество врачей-генетиков,  одним из них является доктор Эми Яско занимается исследованиями генных мутаций у аутистов. Как показали многочисленные молекулярно-генетические обследования и спектрометрия аминокислот, органических кислот и карнитинов, значительное количество аутистов страдает метаболическими нарушениями.  Есть виды аутизма, вызываемые именно этими генетическими нарушениями обмена вещест.

Доктор Эми Яско разработала тест на панель метиляции Яско — тест этот дорогой, стоит 500 долларов, в этой проверяют что-то около 30 генных полиморфизмов (снипов). Выбор снипов в этой панели мотивирован тем, что эти снипы связаны с  определенными генами на «молекулярно-биохимическом пути метиляции» (methyliation pathway),  т.е генами которые влияют на способность организма выполнять ряд ключевых биохимических функций. Наличие генетических дисбалансовт.е снипов в пути метиляции, будет ограничивать эффективность пути метиляции.

 

Yasko-Methylation-Pathway

 

К счастью клиентов 23andme, чипсет снипов этой компании включает в себя если не все, то большую часть снипов панели Яско.
Один из проектов, возникший всвязи с неудовлетворенной потребностью клиентов в более развернутой и детальной обработке данных 23andme
, Genetic Genie предлагает  условно-бесплатный сервис с помощью которого данные релевантных снипов можно привести к  традиционному виду таблицы с отчетом по панели Яско:

Gene & Variation rsID Alleles Result
COMT V158M rs4680 AA +/+
COMT H62H rs4633 TT +/+
COMT P199P rs769224 GG -/-
VDR Bsm rs1544410 CC -/-
VDR Taq rs731236 __ no call
MAO-A R297R rs6323 TT +/+
ACAT1-02 rs3741049 AG +/-
MTHFR C677T rs1801133 GG -/-
MTHFR 03 P39P rs2066470 AG +/-
MTHFR A1298C rs1801131 GG +/+
MTR A2756G rs1805087 AA -/-
MTRR A66G rs1801394 GG +/+
MTRR H595Y rs10380 CC -/-
MTRR K350A rs162036 AA -/-
MTRR R415T rs2287780 CC -/-
MTRR A664A rs1802059 AG +/-
BHMT-02 rs567754 CC -/-
BHMT-04 rs617219 AA -/-
BHMT-08 rs651852 __ no call
AHCY-01 rs819147 __ no call
AHCY-02 rs819134 __ no call
AHCY-19 rs819171 __ no call
CBS C699T rs234706 GG -/-
CBS A360A rs1801181 __ no call
CBS N212N rs2298758 __ no call
SHMT1 C1420T rs1979277 __ no call

Несмотря на то, что на выходе клиент получает  готовый частный отчет по тесту Яско, медико-биологическая интерпретация результатов не так уж и проста, и требует определенной интеллектуальной сноровки и общегенетической эрудиции в плане понимания того, какую функцию выполняет тот или иной ген. Строго говоря, при грамотной интерпретации этих результатов, можно самостоятельно составить себе диету из витаминов-пищевых добавок, которые позволяет компенсировать обусловленный генетическим дисбалансом дефицит тех или иных энзимов.Примерный образец интерпретации можно посмотреть здесь

 

 

Перспективы изучения линкаджа в плане определения генеалогической наследственности в изолированных популяциях (заметки доктора К.Булаевой)

По просьбе уважаемой К.Булаевой, я произвел анализ линкаджа в отдельном регионе 6 хромосомы в одной популяционной выборке (какая именно это была выборка, я точно не могу сказать).

Kazima Bulayeva:

Привет Вадим, LD? а admixture ? Мы же как договорились -результаты вместе смотрим ваши и мои -решаем их совместную публикацию. О моих линкадже я говорила. Что LD показало? По идее более узкий регион? Но этот метод-ассоциативный, а у меня нет выборки здоровых….не соображу что может дать этот метод нам. Расскажите плиз что получилось и далее детально обсудим, идет?

Vadim Viarenič-Stachowski: Просто Вы ничего не говорили про admixture

Vadim Viarenič-Stachowski: А сейчас я обработал Ваши данные в программе Haploview.

Kazima Bulayeva: Вадим, я же почти не знаю этот метод. То, что я знаю -это когда изучают в популяциях -можно определить степень геномной гетерогенности в популяции и даже у каждого члена.

Vadim Viarenič-Stachowski: Ее отличие — она позволяет показать блоки с высоким сцеплением наглядно.
http://www.broadinstitute.org/scientific-community/science/programs/medical-and-population-genetics/haploview/screenshots-0

Vadim Viarenič-Stachowski: То есть выявить блоки LD или гаплоблоки

Kazima Bulayeva: Я думаю как раз сейчас -что может дать LD по снипам в хр 6 в дополнении к линкадже? Прежде всего, линкадже я делала на основе STR сканированных по 10 сМ по всему геному каждого…но как понимаете -это too spread. LD может уловить тоньше локус такого сцепления…единственно —как нам сравнить с нормой? Может быть HapMap для контроля?

Vadim Viarenič-Stachowski: Ok, но для вычисления геномной гетерогенности нужны GWAS-данные. Одной хромосомы маловато будет.

Kazima Bulayeva: по популяциям? Да, согласна

Vadim Viarenič-Stachowski: Так Вам нужны результаты анализа в Haploview?

Kazima Bulayeva: Блок 1 -какие снипы включает?

Vadim Viarenič-Stachowski: Я напримре видел такие вот треугольные плоты в презентациях Степанова

Vadim Viarenič-Stachowski: В графике все подписано

Vadim Viarenič-Stachowski: с обозначением снипа в rs-формате.

Kazima Bulayeva: снипы какие-то другие названия…rs….по идее должны быть ?

Vadim Viarenič-Stachowski: Так ведь это не мой график )), а в качестве примера с сайта программы на Broad Instutute )

Vadim Viarenič-Stachowski: Я справшивал другое — Вам нужны графики такого формата?

Kazima Bulayeva: Нет. Давайте сформулируем задачу: у нас есть данные из 4-этнически разных изолятов с высоким сцеплением с SCZ в 6p21. В сцепленном регионе локализовано около 25 генов…много генов-большой отрезок генома -около 10 сМ т.к STRs/ Что позволят определить снипы? Не все эже 25 генов связаны -а какие-то 1-2 гена из общего числа. Поэтому снипы и LD могут помочь выявить из числа 25 те именно гены которые сцеплены с заболеванием. Согласен с задачей?

Kazima Bulayeva: мне кажется логично поставленный вопрос. и LD вполне адекватный инструмент даже без контроля, т.к. мы его используем как 2-й этап углубления в мезанизм установленного в родословных сцепления

Kazima Bulayeva: permutation p -недостоверен нигде?

Kazima Bulayeva: Вадим, далее: если ы ЛД мы установили внутри сцепленного с STRs региона блоки снипов у больных-мы можем проверить функциональную роль снипов-типа интрон или экзон и в каких генах…т.е. выявляем конкретные гены и геномнын механизмы

Vadim Viarenič-Stachowski: Разумно.

Vadim Viarenič-Stachowski: Хорошо, я перешлю Вам выходные данные из своего анализа, а потом подумаем каких применить и что ценного можно извлечь.

Kazima Bulayeva: статическая достоверность есть у блоков ? Всего 3 блока выявляются? и наверняка мы сможем определить их цитобанды и гены в блоках? Еще-я сделал CNV и LOH в этой же хромосоме. Мы сможем посмотреть эти блоки в LD на предмет указанный аберраций

Kazima Bulayeva: по-моему должно что-то быть выявлено интересное с добавлением LD по снипам—

Vadim Viarenič-Stachowski: Вот и ладненько. Сегодня или завтра перешлю.

Kazima Bulayeva: Вадим, а вы в Stanley Center работаете?

Kazima Bulayeva: там по писихиатрической генетике работы давно проводятся….Не смогли бы узнать-есть ли у них возможность для типирования снипов? у меня есть ДНК из родословных с психопатологией и с STRs

Элементы — новости науки: Наши предки заимствовали у неандертальцев и денисовцев важные гены для защиты от вирусов

Элементы — новости науки: Наши предки заимствовали у неандертальцев и денисовцев важные гены для защиты от вирусов.

Успехи палеогенетики позволили обнаружить в генофонде внеафриканского человечества заметную примесь неандертальских и денисовских генов. До сих пор, однако, не было известно, какие полезные признаки приобрели наши предки в результате гибридизации с архаичными человеческими популяциями. Новое исследование показало, что сапиенсы заимствовали у неандертальцев и денисовцев несколько широко распространенных за пределами Африки вариантов (аллелей) трех генов Главного комплекса гистосовместимости —HLA-AHLA-B и HLA-C, — от которых зависит устойчивость к вирусным инфекциям.

Гены и белки Главного комплекса гистосовместимости (ГКГ) класса I играют у позвоночных ключевую роль в борьбе с вирусными инфекциями, а также с переродившимися (например, раковыми) клетками собственного организма. У человека этих генов три, называются они HLA-AHLA-B иHLA-C и располагаются все вместе (единым кластером) на шестой хромосоме.

Белки ГКГ необходимы для того, чтобы специализированные клетки иммунной системы — T-лимфоциты и NK-лимфоциты — могли своевременно распознать присутствие в клетках организма чужеродных белков (например, вирусных). Все белки, имеющиеся в клетке, рано или поздно отправляются на переработку: специальные молекулярные «мясорубки» — протеасомы — режут их на короткие фрагменты (см.: Белки попадают в протеасому через «преддверие» уже развернутыми, «Элементы», 05.11.2010). Некоторые из этих фрагментов — пептиды длиной по 8–10 аминокислот — присоединяются к белкам ГКГ и вместе с ними транспортируются на поверхность клетки. Сидящие на поверхности клеток комплексы из белков ГКГ и прикрепленных к ним пептидов представляют собой что-то вроде «паспорта» клетки. Лимфоциты «ощупывают» их своими рецепторами, и если будет замечен чужеродный пептид, клетка может быть атакована и уничтожена.

Упрощенная схема участка шестой хромосомы, содержащего гены ГКГ класса I. Рисунок из обсуждаемой статьи в Science

Упрощенная схема участка шестой хромосомы, содержащего гены ГКГ класса I. Рисунок из обсуждаемой статьи в Science

Каждый белок ГКГ может прикрепить к себе не любой пептид, а только принадлежащий к определенному классу (с определенными аминокислотами, занимающими несколько «ключевых» позиций). Поэтому от набора генов ГКГ в геноме зависит, от каких вирусов организм будет хорошо защищен, а от каких — не очень. Поскольку вирусов много и они быстро эволюционируют, гены ГКГ находятся под действием так называемого балансирующего отбора, поддерживающего высокий уровень генетического полиморфизма. Действительно, гены ГКГ класса I чрезвычайно полиморфны: каждый из них присутствует в генофонде в виде сотен вариантов (аллелей). Хотя у одного человека в геноме может быть, конечно, только по два аллеля каждого из трех генов.

Полиморфизм генов ГКГ дополнительно поддерживается половым отбором, потому что многие позвоночные выбирают партнеров на основе индивидуального запаха, который во многом определяется набором пептидов ГКГ, причем предпочтение часто отдается запаху, несхожему со своим собственным (см.: Видообразование — личное дело каждого, «Элементы», 15.02.2006). Такой алгоритм выбора партнера дает преимущество редким аллелям ГКГ, и в том же направлении действует отбор, осуществляемый эпидемиями вирусных заболеваний.

Ранее было показано, что в генофонде современного внеафриканского человечества имеется примесь генов архаичных евразийских человеческих популяций — неандертальцев и денисовцев (см.: Геном неандертальцев прочтен: неандертальцы оставили след в генах современных людей, «Элементы», 10.05.2010; Прочтен ядерный геном человека из Денисовой пещеры, «Элементы», 23.12.2010). Логично предположить, что среди заимствованных генов были и какие-то аллели ГКГ. Вышедшие из Африки сапиенсы наверняка были хуже приспособлены к местным инфекциям, чем коренные обитатели Евразии, поэтому такое заимствование могло оказаться для них весьма полезным.

Большая международная группа генетиков решила проверить это предположение. О результатах проверки рассказано в статье, опубликованной в последнем выпуске журнала Science. Авторы сопоставили набор аллелей генов HLA-AHLA-B и HLA-С у трех неандертальцев из пещеры Виндия в Хорватии (у всех троих, кстати, набор аллелей ГКГ класса I оказался одинаковым, что свидетельствует об очень близком родстве) и у человека из Денисовой пещеры с разнообразием аллелей этих генов в современном человечестве. В ходе анализа использовалось несколько взаимодополняющих подходов и статистических методов. В частности, учитывались данные по так называемому «неравновесию по сцеплению» (linkage disequilibrium, LD) — этим неудобоваримым термином генетики обозначают повышенную, по сравнению с ожидаемой при случайном распределении, частоту совместной встречаемости двух генетических вариантов (например, определенного аллеля HLA-B с определенным аллелем HLA-C).

Экспериментальный тест: определение HLA-гаплотипов из нуклеотидов ДНК-последовательностей с помощью программы HLA*IMP

Введение

Большинство из моих записей и экспериментов являются уникальными — именно по этой причине я очень часто дублирую эти записи на английском и русском языках.  Без ложной скромности хочу представить читателю мое самое значимое достижение в области любительской персональной геномики — эксперимент по определению HLA серотипа на основе известных снипов из клиентских raw_data (файла с перечнем генотипированных снипов) компаний 23andme и FTDNA.

Однако перед тем как перейти к описанию самого эксперимента, необходимо вкратце напомнить о важности HLA-гаплотипов. Молекулярные различия между аллелями HLA могут варьироваться до 57 нуклеотидов в пептидо-связывающей кодирующего региона главный комплекса генов гистосовместимости (MHC) человека,  однако еще до конца не установлено, являются ли эти молекулярные полиморфизмы результатом случайного стохастического процесса или же в процессе естественного отбора возникли селективные ограничения, связанные с функциональными различиями между молекулами HLA . Хотя HLA аллели, как правило, рассматривается в популяционно-генетических исследованиях  в качестве эквидистантных молекулярных единиц, однако последовательность ДНК, и популяционное разнообразие также имеет решающее значение для интерпретации наблюдаемого полиморфизма HLA ( (Buhler S, Sanchez-Mazas A, 2011 HLA DNA Sequence Variation among Human Populations: Molecular Signatures of Demographic and Selective Events. PLoS ONE 6(2): e14643. doi:10.1371/journal.pone.0014643).

Стоит отметить еще один важный момент: HLA локусы характеризуются наиболее максимальным уровнем генетического разнообразия из всех человеческих генетических систем. Предварительные знания о степени разнообразия играет важную роль в эволюции и отборе молекулярных методов типирования. Определение частот аллелей также важны и в трансплантологии —  например при аллогенетической трансплантации гематопоэтических стволовых клеток аллели используются для определения вероятности нахождения соответствующих «гистосовместимых» доноров для каждого пациента. Генетическое разнообразие локусов HLA отвечает также за эффективность работы иммунной системы  при  устранении клеток, несущих чужеродные антигены. Существует необходимость разработать методы оценки этого генетического разнообразия с целью изучения того, как различные группы людей  реагируют на воздействие чужеродныъ антигенов, а также для оценки вклада каждого локуса HLA.

Система HLA была тщательно изучена также и с эволюционной точки зрения. Эта система содержит ряд тесно связанных генов, продукты экспрессии которых определяют множеством функций, связанных с регулированием иммунного ответа. Кроме того, последние исследования в области медицинской генетики установили в этом геномном регионе целый ряд вариантов, обуславливающих генетическую предрасположенность к более чем 40 заболеваниям. Ряд наблюдений показывает, что  система человеческого HLA подвержена существенному влиянию естественного отбора, что приводит к появлению большого числа полиморфизмов с очень четко выраженным градиентом частот аллелей.  Возникновение высокого уровня изменчивости в локусах имеет решающее значение для распознавания антигена, определения возраста аллелей и закономерностей в нарушении равновесного сцепления между локусами. Форма воздействия отбора неизвестна. Большинство исследователей склоняется к тому, что сложный характер наследования HLA вряд  ли можно объяснить одним лишь воздействием естественного отбора. Мутации, рекомбинации и генетическая конверсия — все это также способствует увеличению изменчивости HLA. В то же время, очевидная древность многих аллелей HLA выявленных в ходе филогенетического анализа доказывают, что абсолютные темпы производства новых вариантов не являются высокоми. Детальное изучение популяционной и эволюционной особенности региона HLA, необходимо для обоснованного обсуждения эволюции генетических вариантов, предрасполагающих к определенным типам болезней (Thomson G.HLA population genetics.1991 Jun;5(2):247-60.).

Большинство из обычных людей сталкивались с термином антиген HLA только  в процессе сдачи/получения донорских органов. В некоторых случаях имеются показания к выявлению типов антигенов HLA у родителей при осложнениях во время беременности:

 При совпадении родителей по антигенам HLA увеличивается количество повторных аномальных беременностей с неустановленными причинами аномалий (Gerencer et al., 1978). Установлено отсутствие антигенов HLA в трофобласте, обнаруживается только b2-микроглобулин (Bodmer, 1981). Показано, что несовместимость по антигенам HLA матери и плода благоприятствует нормальному протеканию беременности и развитию плода.

Тот же самый авторитетный источник дает вполне сносное и вполне доступное для понимания начинающих любителей генетики:

Главная система тканевой совместимости (major histocompatibility Complex — МНС) может быть рассмотрена в качестве еще одного примера комплекса тесно сцепленных локусов. МНС человека обозначается латинскими буквами HLA (human leukocyte antigene) и называется системой или комплексом HLA.

Годом открытия главной системы тканевой совместимости человека считают 1958 г., в котором Ж. Доссе открыл первый антиген, обозначенный Mac (современное обозначение — HLA-A2) (Снелл и др., 1979). С момента открытия первого антигена тканевой совместимости велась неуклонная работа по уточнению типирования тех или иных антигенных специфичностей, открытию новых антигенов, изучению их строения, разработке универсального метода типирования антигенов, локализации на хромосоме генов системы HLA, выяснению характера наследования, а также по совершенствованию антисывороток, выявляющих тканевые антигены и по выявлению особенностей распространения антигенов в различных популяциях мира.

Интенсивному развитию исследований способствовали в значительной мере Международные рабочие совещания по совместимости тканей. Первое такое совещание было организовано Д.Б. Эймосом в 1964 г. Затем были проведены рабочие совещания в 1965, 1967, 1970, 1972, 1975, 1977, 1980 и 1984 гг. Материалы Международных рабочих совещаний по совместимости тканей публикуются в качестве периодического издания “Histocompatibility Testing” и отражают основные этапы в развитии иммуногенетики человека и тканевого типирования. В 1967 г. после окончания очередного рабочего совещания был организован Международный номенклатурный комитет под руководством ВОЗ, который осуществляет разработку номенклатуры комплекса HLA, соответствующей уровню развития отрасли. Номенклатуры системы HLA выходили в Бюллетенях ВОЗ в 1968, 1972, 1975 и 1978 гг., а также в материалах Международных рабочих совещаний по совместимости тканей в 1970 и 1980 гг. Новая номенклатура была принята после окончания работы 9-го Международного рабочего совещания в 1984 г. (Bodmer et al., 1985). В таблице 1 номенклатура представлена для локусов HLA-A, -B, -C и -DR. Латинские буквы перед цифрами обозначают принадлежность к тому или иному локусу, а цифры — номер антигена. У некоторых специфичностей есть еще добавочное “w”, обозначающее, что данные специфичности либо не признаны к этому моменту всеми лабораториями, либо есть сложности в их типировании.

Каждое название специфического типа HLA или как еще говорят HLA аллелей имеет свой уникальный номер, соответствующий до четырех наборов цифр, разделенных двоеточиями. Длина обозначения аллели зависит от последовательности аллеля.  Как правило, все аллели имеют по крайней мере  четырех-символьное обозначения, которое соответствует  двум наборам цифр, длинная номенклатура назначается только по необходимости. Цифры до первого двоеточия описывают тип, который практически всегда соответствует серологическому антигену, который несет  данный аллотип. Следующий набор цифр, который используется в списке подтипов является обозначением порядка, в котором были определены последовательности ДНК. Аллели, номера которых отличаются  двумя наборами цифр, отличаются друг от друга одной или несколькими нуклеотидными заменами которые ведут к изменению аминокислотной последовательности кодируемого белка. Аллели, которые отличаются только синонимичными/некодирующими нуклеотидными заменами в кодирующей последовательности, отличаются друг от друга использованием третьего дополнительного  набора цифр. Аллели, которые отличаются только последовательностью полиморфизмов в интронах или в 5 ‘и 3’ нетранслируемых регионах, которые примыкают к  экзонам и интронам, отличает использование четвертого набора цифр (см.дополнительную информацию).

Пример

HLA-A определяет HLA локуса
HLA-A1 серологическое обозначение антигена
HLA-A * звездочкой обозначается HLA аллелей определяется методами молекулярного типирования.
HLA-A * 01 2-разрядное разрешение обозначает группы аллелей, которые соответствует обычным серологическим группам — с низким разрешением
HLA-A * 0101 4-разрядное разрешение — последовательность различий между аллелями, которые приводят к аминокислотным заменами
HLA-A10101 60-значное разрешение — определяет некодирующие варианты, т.е последовательность изменений,  не ведущих к аминокислотным заменам

В целях понимания уникальности проведенного мною эксперимента необходимо еще пояснить особенности определения типов антигенов. До прихода эра молекулярной геномики, антигены HLA подразделяются выявлялись серологически и с помощью лимфоцитов. К последним относятся антигены Dw, DQ, DP и некоторые DRw, относящиеся к области D. Большинство исследований фоксируется лишь на серологически определяемых антигенах, относящихся к локусам HLA-A, -B, -C и -DR. Первые три группы антигенов представляют собой гликопротеиды, обнаруживающиеся на клеточной мембране любой ядросодержащей клетки (Amos, Kostyu, 1980).

Как следует из вышесказанного, традиционно на протяжении десятилетий для HLA-типирования использовались серологические метода много десятилетий, и при этом серологическое типирование II класса молекул главного комплекса гистосовместимости человека зависело от адекватной экспресии этих молекул на поверхности В-лимфоцитов, наличия жизнеспособных клеток и полным набором иммунных сывороток. Тем не менее, применение молекулярно-генетических методов первого поколения (RFLP, PCR, SSO и т.д.) для типирования HLA привело к ситуации, в которой почти каждая лаборатория может независимо выполнять  ДНК-типирование для определения аллеля HLA.

HLA типы и сцепленные SNP-ы на 6 хромосоме

Как показал мой эксперимент, что даже того относительно небольшого количества снипов, которое типируется  коммерческими компаниями в регионе MHC-HLA достаточно для определения типа антигена с высокой точностью.

К сожалению, имеется целый ряд нюансов значительно усложняющих анализ. Во-первых, определение классических аллелей HLA (например, HLA-, HLA-B и др.), с помощью  новой чип-технологии, используемой в популярных коммерческих услугах геномных компаний (23andMe, FTDNA Family Finder и deCODEme), является очень сложным процессом, требующим проведения большого количества мультиплекс-ПЦР-реакций для получения полного генотипа пациента. Именно поэтому классические методы типирования HLA зачастую оказываются непрактичными в крупномасштабных исследованиях.Во-вторых, техническая сторона выявления типа HLA на основании генотипов является относительно сложной, и я не уверен что рядовой пользователь сможет ее осилить.  При  я могу помочь определить тип антигенов в качестве коммерческой услуги (которая примерно на 50 процентов дешевле стоимости стандартной медицинско-генетической услуги серотипирования).

К счастью для нас, в Центре генетики человека в Wellcome Trust Центра был разработан метод определения классических аллелей на основании анализа сцепленных SNP-ов. Метод был реализован в виде специального фреймворка  (HLA * IMP) (Dilthey, A. T., Leslie, S., Moutsianas, L., Shen, J., Cox, C., Nelson, M. R., McVean, G. (2012): «Multi-population classical HLA type imputation» (submitted to Plos Comp Bio)).

HLA * IMP определяет HLA тип  на основе данных о генотипе SNP, используя для этих итеративный метод отбора наиболее информативных полиморфизмов для отдельных поддерживаемых чипов генотипирования (Affymetrix 500K, 900K Affymetrix, Illumina 300K, 550K Illumina, Illumina 650K, Illumina 1M). Таким образом, HLA * IMP позволяет исследователям  определить тип  HLA в ходе импутирования геномных данные, собранных из нескольких доступных наборов SNP путем сопоставления импутируемых данных с референсными данными более 2500 индивидов европейского происхождения. Референсные данные содержат как  SNP-варианты, так и классические аллели HLA типов.

Референсная панель которую я использую в целях импутации пропущенных значений, включает в себя:

1) так называемый The British Birth Cohort 1958 года включающем в себя SNP-ы Illumina 1,2 м и Affymetrix 6.0 (TheWellcome TheWellcome Trust Case Control Consortium, 2007) — 2420 индивидуальных образцов х 7733 SNP в расширенном регионе HLA.
2) выборку образцов CEU из HapMap  (Международный консорциум HapMap, 2007) и CEPH CEU + дополнительные образцы (дde Bakker et al., 2006) — 92 образца х 7733 SNP-а перекрывающиеся со снипами The British Birth Cohort 1958)

Программа использует аутосомные гаплотипов состоящих из SNP -ов BC-195и CEU , и именно эти гаплотипы были  задействованы в качестве эталонного набора данных.  Была определена взаимосвязь типов HLA и гаплотипов SNP (эти гаплотипы были фазированы с помощью программы PHASE (Stevens and Scheet, 2005) с применением стандартных параметров фазирования многоаллельных локусов. Вместе с  эталонным набором данных было получено около 5024 гаплотипов высокого разрешения, имеющими прямую корреляцию с 7733 SNP-ами в  геномном регионе HLA.  Эти гаплотипы  определяют разное  количества типов антигенов -2474 типа (HLA-A), 3090 (HLA-B), 2022 (HLA-C), 175 (HLA-DQA1), 2629 (HLA-DQB1), 2665 (HLA-DRB1). Это конкретные SNP-гаплотипы которые в дальнейшим программа использует для инференции типа антигена.

Эксперимент с  выборкой проекта MDLP.

Поясню вкратце суть эксперимента

Как я уже упоминал в блоге MDLP (Re: Хромосома 6), геномные инструменты 23andme — RelativeFinder  и AncestryFinder выделили   целый кластер полуидентичных сегментных совпадений в который попало примерно 315 геномных совпадений с другими клиентами из базы данных 23andme. Примечательно, что все эти  участки совпадения полностью или частчино перекрываются и расположены в одном и том же субрегионе области HLA-MHC на 6 хромосоме (21Mb-38MB). Эта замечательное скопление совпадающих участков  составляет почти половину от общего количества моих AF / RF совпадений (315/720 или 43,75%).

Ранее я предположил, что столь явный перекос числа общих по происхождению полуидентичных сегментов  в области HLA свидетельствует о том, что один из гаплотипов совпаденцев  является идентичным типом антигенов HLA. До недавнего времени, мое предложение опиралась исключительно на мои интуитивные догадки. Затем я смог найти ключ решения проблемы с помощью HLA * IMP  и до сих пор,  после чего мне удалось провести  эксперимент в HLA * IMP , в ходе которого я применил методологию к анализу данных 23andMe  (Illumina Omnio Express) .

Условия эксперимента

Для успешного проведения моих тестов, я должен был убедиться, что мои собственные данные соответствуют следующим требованиям:

* SNP-ы  должны входить в область  xMHC  ( на  6 хромосоме )
* Отобранные в первоначальной выборки кандидаты должны быть европейского происхождения
* Высокое качество  и плотность типированных SNP в регионе HLA, что является критическим условием повышения точности импутации
* Поскольку HLA IMP не обеспечивает прямой поддержки кастомных модифицированных чипсетов 23andMe,  и я был ограничен в своем использовании комбинированным набором генотипов с  двух чиспетов 23andMe (v2 и v3), то мне пришлось «понизить» число SNP-ов в версии платформы Illumina  (Illumina 300K). Но и этого оказалось достаточно.

Тест гипотезы

Для того, чтобы проверить свое первоначальное предположение о  том что вышеупомянутые совпаденцы разделяют одинаковый гаплотип HLA, я выбрал 7 участников из cвоих проектов (себя, свою мать; человека, о котором заведомо было известно, что  у него есть наполовину идентичный совпадющий сегмент со мною и моей матерью в xMHC область; oстальные участники использовались в качестве контрольной группы).

C этой целью я преобразовал исходные данные 23andMe  участников проекта в формат Plink, затем объединил файлы в один набор данных, и  выделил подмножество  SNPs на 6-ой хромосоме , используя команду Plink — сhr 6. После этого я преобразовал файл с данными генотипов из формата Plink во входной формат данных HLA * IMP. В качестве следующего шага, я провел контроль качества данных путем удаления SNP-ов и частных лиц со слишком большим количеством отсутствующих данных, а также  привел в соответствие (за счет выравнивания) дополнительные SNP-ы из  референсной панели HapMap. Наконец, я поэтапно профазировал генотипы для получения гаплотипов Примечание:  я также заменил  ID задействованных участников  проекта на префикс N.

Гаплотипные данные были затем загружены на серевер HLA * IMP, где и была произведена процедура импутации  HLA типов.

Выявленные в ходе этой операции типы HLA выглядили следующим образом (каждый из индивидов представлен 2 гаплотипами, один из которых был унаследован от матери, другой от отца): HLA-A: HLA-B: HLA-C: HLA-DQA: HLA-DQB: HLA-DRB.

IndividualID Chromosome HLAA HLAB HLAC HLADQA HLADQB HLADRB
N1 1 101 801 701 501 201 301
N1 2 2601 2705 102 101 501 101
N6 1 3101 801 701 501 201 301
N6 2 201 1501 304 501 201 301
N3 1 6801 1501 102 101 501 101
N3 2 2301 5201 501 101 501 101
N2 1 101 801 701 501 201 301
N2 2 2601 3801 1203 102 602 1501
N5 1 301 1501 304 501 302 401
N5 2 205 5001 602 501 202 701
N7 1 101 801 701 501 301 1101
N7 2 101 1501 303 103 604 1301
N4 1 301 702 702 401 402 801
N4 2 2402 4002 202 501 301 1101

Гаплотипы в приведенной выше записи следует читать следующим образом (например, в случае N1):  HLA * 0101: Cw * 0701: B * 0801: DRB1 * 0301: DQA1 * 0501: DQB1 * 0201.

В вышеприведенной таблице можно  отметить совпадение одного из гаплотипов у участников эксперимента под номерами  N1, N2 и N7, т.е  они имеют идентичный гаплотип.

Это подтверждает одну из моих рабочих гипотез. У индивидов N1 (моей матери), N2 (меня) и N7  с помощью инструмента Relative Finder от 23andme  в геномном регионе HLA на 6 хромосоме был задетектирован полуидентичный сегмент ДНК, ( этот сигмент отвечает формальным требованиям идентичного по происхождению сегмента, то есть генетическая дистанция превышает порогое значение в 7 сантиморганид (сокращенно сМ — это единица измерения вероятности кроссинговера между двумя генами) и число снипов в непрервыном полуидентичном сегменте равно 700 ).

Таким образом, можно с уверенностью утверждать,  что мое первоначальное предположение,  подкрепляется результатами установления типа  HLA.

Практические результаты испытаний

Практически каждый из известных и описанных в литературе типов человеческих HLA имеет убедительную связь с так называемыми медицинскими рисками. Мы не будем сейчас останавливаться на них, и отложим рассмотрение этой тематики на будущей. Однако помимо медицинской полезности, существуют также и некоторые преимущества знания своего типа HLA и с точки зрения генетической генеалогии:

1) Прежде всего, это возможность определить характер распространения сегментов в области xMHC на хромосоме 6. Приведу конкретный пример на своих собственных данных — вышеупомянутый «расширенный» гаплотип HLA * 0101: Cw * 0701: B * 0801: DRB1 * 0301: DQA1 * 0501: DQB1 * 0201 (в англоязычной литературе встречаются и другие обозначения —AH8.1, COX,[1] Super B8, ancestral MHC 8.1[2] or 8.1 ancestral haplotype; далее мы будем писать его в сокращенном виде: A1 :: DQ2). По мнению некоторых исследователей этот гаплотип A1 :: DQ2 представляет собой  загадку с точки зрения изучения эволюционного процесса рекомбинаци. Дело в том, что скорость рекомбинации этого гаплотипв A1 :: DQ2 не соответствует теоретическими ожиданиям в плане скорости рекомбинации.  Нам известно, что в регионах Европы, где этот гаплотип  впервые сформировался и начал распространятся, существуют другие гаплотипы, некоторые из которых являются «предковыми», обладая при этом  весьма значимой длиной. Однако рассматриваемый гаплотип является своего рода рекордсменом  — он включает в себя последовательный контиг ДНК длинной примерно в 4,7 миллионов  (!) пар нуклеотидов,  и около 300 генных локусов. Кроме того, все исследования отмечают высокую «резистентность» этого гаплотипа по отношению  к рекомбинации. В качестве объяснения этого уникального феномена выдвигаются разные гипотезы — некоторые полагают что обструкция рекомбинации в этом гаплотипе была неким неизвестным была жестким образом кодирована в самой ДНК (по аналогии с хардкодингом -жестким «вшиванием» в программный код различных данных, касающихся окружения программы) Другие объясняют эту аномалию последствиями многократного селективного  отбора гаплотипа. Здесь следует прояснить суть проблемы: согласно классической теории рекомбинации, физическая длина любого аутосомного гаплотипа (то есть число нуклеотидов входящих в него) из-за быстрых темпов эволюционной рекомбинации должна неизменно  уменьшатся  с каждым поколением. Однако гаплотип A1 :: DQ2 является живым опровержением универсальности этого представления.

2) Во-вторых, можно попытатся произвести оценку времени и места возникновения этого гаплотипа.  В ходе систематического обследования мировых популяций, регулярно проводимого сетью центров и институтов трансплантологии, было  установлено, что гаплотип A1 :: DQ2 является наиболее часто встречается у белых жителей США , ~ 15% которых имеет этот гаплотип. Анализ SNP-ов сцепленных с этим типом, дает основания полагать, что гаплотип мог возникнуть примерно 20.000 лет в Европе, хотя  эта интерпретация в настоящее время признается некоторыми исследователями неубедительной. Согласно этой интепретации, гаплотип мог возникнуть  в результате  климатических изменений  во врема последнего ледникового максимума  примерно 11500 лет назад (поэтому этот гаплотип называют иногда предковым европейским гаплотипом, или гаплотипом A1-B8 (AH8.1). Этот один из тех 4 гаплотипов HLA, которые являются общими для западных европейцев и азиатов. Если предположить, что частота  распространения этого гаплотипа  в начальной популяции составляла 50%  во время последнего ледникового максимума и плавно снижалась  на 50% каждые 500 лет то частота гаплотипа в современных популяциях не должна превышать 0,1% в любой европейской популяции. Однако реальная частота  составляет, как было показано выше,  примерно 10%,  что превышает ожидаемую в теории частоту распространения почти в 100 раз. Применительно к генетической генеалогии,  это подробное разъяснение может означать только то, что массовое скопление совпадающих сегментов в xMHC регионе на 6 хромосоме может быть четким указанием  на наличие очень далеких общих предков (вплоть до жителей эпохи неолита). При любом раскладе, предлагаемый RelativeFinder/23andme интервал в 5-10 поколений до  последних общего предка для региона xMHC является нереалистично заниженным.

2) Кроме того,  используя стандартные средства геногеографии можно сделать вывод о географическом ареале распространения конкретного гаплотипа HLA. Опять-таки, изучая геногеографию все того же гаплотипа A1 :: DQ2, можно   увидеть, что  его локальные пики  приходятся на весьма удаленные  друг от друга регионы — это Исландия, регион исторического проживания поморов на Севере России, северная Сербия, земля басков, а также те регионы Мексики, которые массовао заселялись басками.  Общей чертой этих регионов является не географическая близость, а крайняя степень изоляции.
Относительно высокая частота распространения гаплотипа в  наиболее изолированных географических регионах Западной Европы, Ирландии, Скандинавии и Швейцарии наряду с  крайне низкой частотой во Франции и латинизированной  части Иберии является результатом описанной в популяционной генетике и антропологии модели замещения, народонаселения Европы, которое обычно связывается с началом эры неолита. В этом случае возраст рассматриваемого гаплотипа в Европе, превышает 8000 лет.

Напоследок хочу порекомендовать —The Allele Frequency Net Database  -хорошую базу данных по частотам аллелей полиморфичных регионов HLA,KIR,Cytokine,MIC Института транплантной иммунологии при Ливерпульском университете.  Она является очень удобным инструментом для анализа частот HLA гаплотипов в мировом масштабе.

В  частности, можно производить поиски по гаплотипам, и получать на выходе данные о частотах в различных популяциях, а также визуализировать полученные данные на карте.

Пример (гаплотип A1 :: DQ2)

1 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 Ireland South
11.50
250
                               
2 A*01:01B*08:01C*07:01DRB1*03:01:01-DQB1*02:01 England North West
9.50
298
                               
3 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01-DPB1*04:01 Ireland South
8.30
250
                               
4 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 Poland
4.00
200
                               
5 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 USA Hispanic pop 2
1.78
1,999
                               
6 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01-DPB1*01:01 Ireland South
1.40
250
                               
7 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 USA African American pop 4
1.39
2,411
                               
8 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 USA Asian pop 2
0.09
1,772