Скрытые возможности клиентских данных 23andme в плане молекулярной диагностики.

Компания 23andme не нуждается в особом представлении читателям этого блога. Вплоть до конца прошлого года компанию занимало существенный сегмент рынка персональной геномики, ориентированного на предоставление  клиентам информации о генетических медицинских рисках (genetic risks) и генетической генеалогии (genetic origin). Информация о медико-генетических рисках содержалась в ряде сервисов портала компании, а также в доступном для скачивания отчета о генетических рисках и, разумеется, в первичных данных генетического отчета, в котором содержались значимые с точки зреемя медико-генетического диагностирования генетические полиморфизмы (SNP).

Всвязи с известными событиями и последующим за ними предписанием USA Food and Drug Administration (FDA) компании 23andme о запрете выпуска на рынок услуг персонального геномического диагностирования своего «медицинского девайза» (т.е интерпретации медико-генетических рисков развития заболеваний), компании пришлось сузить свою сферу деятельности до оказания генетико-генеалогических услуг.

Несмотря на это досадное обстоятельство, сказавшееся нелучшим образом на динамике увеличения клиентской базы компании,  нужно помнить, что все клиенты сохранили доступ к своим первичным данным тестирования (т.е списку снипов с генотипами). И при вдумчивом, творческом подходе любой человек может не только «вытащить» из этих «cырых данных» важную с точки зрения медицины информацию, но и заменить спомощью полученной информацией результаты более традиционных тестов.

Каковы могут быть варианты использования данных 23andmе не в привычных генеалогических целях, а скажем для получения сведений, который могут впоследствии пригодится для молекулярного диагностирования?

Я приведу пару примеров такого использования.

Определение HLA-фенотипа.

На мембране клеток организма присутствуют продукты генов всех локусов, размещенных на обеих нитях 6-й хромосомы.

 

bsl-hla1

 

Это означает, что HLA-гены наследуются по кодоминантному типу, т. е. одну хромосому ребенок наследует от матери, а другую – от отца. Как уже упоминалось, совокупность генов, расположенных на одной хромосоме, составляет гаплотип. Таким образом, у человека два гаплотипа и каждая клетка организма несет на себе диплоидный набор антигенов системы HLA, один из которых кодируется HLA-генами матери, а другой – отца. Исключение составляют половые клетки (яйцеклетка и сперматозоид), каждая из которых содержит в своем ядре только по одному гаплотипу.

Антигены гистосовместимости, выявляемые на клетках конкретного человека, составляют HLA-фенотип. Для его определения необходимо произвести фенотипирование клеток индивида. Как правило, “типируются” лимфоциты периферической крови. До настоящего времени в большинстве лабораторий HLA-A. В, С и DR-антигены определяют при помощи серологических методов, в частности, лимфоцитотоксического теста. тот тест основан на способности анти-НLА-антител в присутствии комплемента разрушать лимфоциты, несущие соответствующие антигенные детерминанты. Гибель клеток демонстрируется при помощи добавления трипанового синего. При этом мертвые поврежденные клетки окрашиваются, и под микроскопом учитывается их количество.

Эти тесты часто требуются в ходе стандартных медицинских процедур обследования во время начала беременности, или для изучения этологии аутоимунных заболеваний. Еще более важно определение гистосовеместимости в транплантологии, где типирование HLA-фенотипа  донора является обязательным условием.

Однако, с приходом новых микроматричных технологий опеределния нуклеотидов ДНК и биоинформатических методов рутинной обработки последовательности человеческих геномов , появился дешевая и относительно простая альтернатива классическим серологическим тестам (которые стоят в интервале от 100 до 500 долларов).

Я не буду останавливаться на принципиальном описании процедур, с помощью которых на основании данных 23andme можно с помощью метода «импутирования» определить HLA-фенотип, так как в прошлом году я уже разместил в этом блоге пошаговую инструкцию для выполнения этой задачи.

Впрочем, уже после того, как  я отписался на эту тему здесь,  в департаменте биостатистики Университета Вашингтона был разработан алгоритм HIBAG который принципиально мало чем отличается от алгоритма HLA*IMP (в обеих алгоритмах используется training model, позволяющая определять фенотип HLA по снипам 23andme).  Входные данные программного решения этого алгоритма (язык R) представляют собой формат Plink. А так как в последней версии Plink была включена нативная поддержка формата 23andme, то преобразовать данные 23andme в бинарный формат Plink не сооставит особого труда. Что касается обработки данных в HIBAG, то примерный порядок выполнения команд выглядит следующим образом:

# Load the published parameter estimates from European ancestry
model.list <- get(load(«European-HLA4.RData»))#########################################################################
# Import your PLINK BED file
#
yourgeno <- hlaBED2Geno(bed.fn=».bed», fam.fn=».fam», bim.fn=».bim»)
summary(yourgeno)

# HLA imputation at HLA-A
hla.id <- «A»
model <- hlaModelFromObj(model.list[[hla.id]])
summary(model)
# HLA allele frequencies
cbind(frequency = model$hla.freq)

# SNPs in the model
head(model$snp.id)
# «rs2523442» «rs9257863» «rs2107191» «rs4713226» «rs1362076» «rs7751705»
head(model$snp.position)
# 29525796 29533563 29542274 29542393 29549148 29549597

# best-guess genotypes and all posterior probabilities
pred.guess <- predict(model, yourgeno, type=»response+prob»)
summary(pred.guess)
pred.guess$value
pred.guess$postprob

 
 

Панель метилирования Яско

В последние 10 лет, крупные генетические исследования выявили сотни генных мутаций, которые возникают чаще у аутичных пациентов, чем в общей популяции. Тем не менее, каждый пациент имеет только одну или несколько из этих мутаций, что затрудняет разработку лекарств против болезни. В настоящее время, изучением генетических факторов аутизма занимается большое количество врачей-генетиков,  одним из них является доктор Эми Яско занимается исследованиями генных мутаций у аутистов. Как показали многочисленные молекулярно-генетические обследования и спектрометрия аминокислот, органических кислот и карнитинов, значительное количество аутистов страдает метаболическими нарушениями.  Есть виды аутизма, вызываемые именно этими генетическими нарушениями обмена вещест.

Доктор Эми Яско разработала тест на панель метиляции Яско — тест этот дорогой, стоит 500 долларов, в этой проверяют что-то около 30 генных полиморфизмов (снипов). Выбор снипов в этой панели мотивирован тем, что эти снипы связаны с  определенными генами на «молекулярно-биохимическом пути метиляции» (methyliation pathway),  т.е генами которые влияют на способность организма выполнять ряд ключевых биохимических функций. Наличие генетических дисбалансовт.е снипов в пути метиляции, будет ограничивать эффективность пути метиляции.

 

Yasko-Methylation-Pathway

 

К счастью клиентов 23andme, чипсет снипов этой компании включает в себя если не все, то большую часть снипов панели Яско.
Один из проектов, возникший всвязи с неудовлетворенной потребностью клиентов в более развернутой и детальной обработке данных 23andme
, Genetic Genie предлагает  условно-бесплатный сервис с помощью которого данные релевантных снипов можно привести к  традиционному виду таблицы с отчетом по панели Яско:

Gene & Variation rsID Alleles Result
COMT V158M rs4680 AA +/+
COMT H62H rs4633 TT +/+
COMT P199P rs769224 GG -/-
VDR Bsm rs1544410 CC -/-
VDR Taq rs731236 __ no call
MAO-A R297R rs6323 TT +/+
ACAT1-02 rs3741049 AG +/-
MTHFR C677T rs1801133 GG -/-
MTHFR 03 P39P rs2066470 AG +/-
MTHFR A1298C rs1801131 GG +/+
MTR A2756G rs1805087 AA -/-
MTRR A66G rs1801394 GG +/+
MTRR H595Y rs10380 CC -/-
MTRR K350A rs162036 AA -/-
MTRR R415T rs2287780 CC -/-
MTRR A664A rs1802059 AG +/-
BHMT-02 rs567754 CC -/-
BHMT-04 rs617219 AA -/-
BHMT-08 rs651852 __ no call
AHCY-01 rs819147 __ no call
AHCY-02 rs819134 __ no call
AHCY-19 rs819171 __ no call
CBS C699T rs234706 GG -/-
CBS A360A rs1801181 __ no call
CBS N212N rs2298758 __ no call
SHMT1 C1420T rs1979277 __ no call

Несмотря на то, что на выходе клиент получает  готовый частный отчет по тесту Яско, медико-биологическая интерпретация результатов не так уж и проста, и требует определенной интеллектуальной сноровки и общегенетической эрудиции в плане понимания того, какую функцию выполняет тот или иной ген. Строго говоря, при грамотной интерпретации этих результатов, можно самостоятельно составить себе диету из витаминов-пищевых добавок, которые позволяет компенсировать обусловленный генетическим дисбалансом дефицит тех или иных энзимов.Примерный образец интерпретации можно посмотреть здесь

 

 

Дайджест новостей генетики и ДНК-генеалогии за январь-февраль 2014 года (часть 2)

**

Разработчики pyGenClean разместили полезный инструмент для предварительной подготовки выборки популяций для GWAS и этно-популяционного анализа. С помощью можно значительно автоматизировать относительно сложный процесс нахождения генетических outliers (т.е посторонних образцов выделающихся на фоне гомогенной однородной структуры популяции), а также провести многомерное шкалирования имеющихся популяций.

**

Я закончил проект по изучению структуры аутосомного генофонда грузинских этнографических групп. Ниже приведены выполненные в проекте публикую графики c результатами многомерного скалирования (MDS) и  анализа главных компонент (PCA) в изученной выборке. Еще я понял свою главную ошибку во время работы с предыдущими графиками — она состоит в том, что я раньше не сохранял в R framework данные и историю проделанных над ними операций. R очень гибкая среда для статистического анализа, но в силу большого разнообразия существующих пакетов для визуализации данных для выполнения одних и тех же команд часто возникает путаница с выбором подходящей техники визуализации. Поэтому лучше всего не начинать каждый раз с нуля, а сохранять workflow для последующих экспериментов. 1488015_10202873063857417_243934024_n 1526938_10202873450227076_1155088601_n

**

В русскоязычном секторе Интернета увеличивается число простых людей (и не совсем простых людей, вроде Татьяны Толстой), которые не боятся рассказывать открыто о своих генетических рисках, хотя в силу своего непонимания того что именно означает указанная в отчете risk odd (вероятность риска) , многие их выводы выглядят наивными.
Впрочем, ничего нет нового под Луной. Многие из моих сверхоптимистеских собеседников предполагали, что именно благодаря 23andme у рядового обывателя появилась возможность  наблюдения за своими генотипами (или геномами , под которым мы — summa summarum — понимаем здесь всю совокупность прочитанных генотипов), и даже за динамикой экспрессии свого экзома.
Тем не менее, даже я помню, как задолго до начала моего увлечения генетикой, примерно в 2002 году я видел передачу про исландскую компанию Decodeme по Discovery Channel. После длинного интервью с тогдашним ведущим сотрудником этой компании (К.Стефансон), в котором он рассказал о тотальном (почти 80%) генотипировании всей исландской нации, создатели фильма взяли краткие интервью у простых исландцев. Мне запомнился один исландец-докер, который — не отрываясь от процесса разгрузки траулера с рыбой, — с улыбкой на лице сказал: «Я могу выпивать по 10 чашек кофе в течении одного часа. Cогласно исследованиям ученных из DeCODE Genetics, в гене метаболизма кофеина у меня аллельный вариант, повышаюший скорость метаболизма кофеина».
Вывод — 23andme не были первыми, их заслуга в другом — в том что они вывели персональную геномику (в ее упрощенной форме) на новый, международно доступный уровень.

**
Компания Nanoporetech выпустила на рынок портативное устройство MinION, предназначенное для анализа молекул (в том числе и молекул ДНК), его можно применять для анализа структуры протеина и секвенрования ДНК. Устройство можно подключить к обычному компьютеру через USB-порт.
**

Уважаемый Pavel Bernshtam предложил реалистичную перспективу на стартапы. Кроме всего прочего, между строк замечаний Бернштама можно прочитать имплицитное неявное объяснение феномена значительной молодости самых известных стартаперов (им нечего терять и их руки-головы не связаны-загружены семейными обязанностями прокормки супруги и спиногрызов).
Я стою на перепутье выбора между развитием идеи этно-популяционного ДНК-калькулятора в форме стартапа, либо форме краудсорзинга, либо некоммерческая инструментализация разработки в криминалистике (в виде патента на методику нового вида криминалистической ДНК-экспертизы, которая со временем заменит надоевший всем фбр-овский CODIS):

«Хорошо, если просили про стартапы. Для стартапа нужно несколько вещей. Самое простое — идея. Идея сама по себе не стоит ничего. 0. Самая классная идея — НИЧЕГО. Идея начинает хоть что то стоить (тоже немного) если на ее основе написан бизнес план. Обоснованный бизнес план. Бизнес план, который может убедить. Сколько юзеров придет к вам на сайт в первые полгода? миллион? А почему? Докажите. А сколько зарегестрируется? Почему?
Следущее, что нужно — человек, который может принести инвестиции. Для этого нужно — представительность, бизнес план, знакомства и уйма всего иного. Нужно найти выход на инвесторов (без выхода тоже можно, но разговаривать с тобой будут иначе), нужно что бы тебя порекомендовали, нужно уметь рассказывать и убеждать. Далее — деньги. Скорее всего у Вас не получится сделать прототип, достаточный для получения инвестиции вечером на коленке, параллельно с основной работой. Вам надо будет уволиться и писать код.»

**
Как Вы помните, на Gedmatch.com были размещены разработанные мною этно-популяционные калькуляторы MDLP на платформе DIY Dodecad. Они позволяют довольно-точно определять этническое и популяционное происхождение исходя только из сравнительноого анализа частот полиморфизмов ДНК протестированного человека с частотами полиморфизмов ДНК в референсных популяциях. Несмотря на простоту использования (загрузил свое raw data, нажал на кнопку — получил результат), основные пользователи этого инструмента — американцы — имеют траблз с пониманием и интерпретацией результатов. Вот например, из свежего, присланного мне в январе. Ко мне уже обращаются как к доктору, который должен выдать свой авторитетный этнодиагноз:

» I had my test at 23and me and it has me as 100 European.
My mom says its a lie as my dad was an inuit from Alaska .My kit is ******
Could you please debunk inuit story»

Papa was a rolling stone (c)

«My results are for North-Amerind, (North American Indian) .. I suspect 4 generations back

Chr 1 1.7%
Chr 7 3.3%
Chr 18 2.5%

Is this a definite result for American Indian Heritage?»

На такие письма я вообще больше не отвечаю. Весьма странно что у столь многих американцев в последнее время появился фетиш происхождения от американских индейцев. Раньше это было не так заметно.

**

Повторное ресеквенирование «древнего» генома останков жителя мезолитической Иберии из La Brana 1 (того самого, которого исследовали в позапрошлом году на аутосомы и митохондриальный геном) показало, что этот человек имел очень необычную для Европы Y-хромосомную гаплогруппы — С6. Странности заметны на и уровне фенотипа: согласно анализу комплекса снипов, определяющих на уровне генотипа цвет кожи и глаз, он был темнокожим человеком с голубыми глазами (!).  У древнего европейца, жившего в пещере Ла-Бранья-Аринтеро (La Braña-Arintero, León) на севере Испании примерно 7 тысяч лет назад, были голубые глаза и очень смуглая кожа. Так художник представил себе то, как выглядел житель испанской пещеры 7 тысяч лет назад. (Ниже рисунок, опубликованный в Эль Паис.)

Палеогенетики успешно прочитали ДНК из костей древнего европейца, жившего в одной из пещер на севере Испании примерно 7 тысяч лет назад, и выяснили, что у него были голубые глаза и очень смуглая кожа, говорится в статье, опубликованной в журнале Nature. «Главным сюрпризом для нас стало то, что этот человек обладал типично «африканскими» версиями генов, которые управляют пигментацией кожи, что вероятно делало его очень смуглым или даже темнокожим, хотя мы и не можем точно определить ее тон. Еще более удивительным стало то, что этот «испанец» обладал теми вариациями генов, которые делают глаза европейцев голубыми, что делает этот геном уникальных, так как по всем остальным признакам он происходит из Северной Европы», — заявил Карлес Лалуэса-Фокс из Института эволюционной биологии в Барселоне (Испания). Что касается редкой гаплогруппы (C6, или по мнению некоторых исследователей просто C), то оказывается, что еще в 2013 году несколько любителей-непрофессионалов предсказывали вероятность присутствия С у части жителей палеолитической и мезолитиской Европы — по их мнению, мужское население палеолитической Европы могло принадлежать к линиям — C-V20 (в ISOGG С6), F и IJ.

«Ранние представители современного человека в Европе (EEMH), широко известные как кроманьонцы, мигрировали с Ближнего Востока в Европу несколькими волнами. Задумывашись над тем, какие гаплогруппы Y-ДНК могут быть связаны с ними, и в каком порядке они мигрировали в Европу, я придумал следующую хронологии для верхнего палеолита.

1) Гаплогруппа С6 (или С *, которая развилась в C6 в Европе)

2) Гаплогруппа F

3) Гаплогруппа IJ (которая развилась в Европе в гаплогруппу I) «

Заслуживает внимание и мастерское использование в данном исследовании методов секвенирования нового поколения — в частности, после того как генетики собрали геном древнего европейца из прочитанных мелких сегментов ДНК («ридов») по методу отображения ридов на референсный геном человека,  осталось приличное количество неиспользованных ридов. Генетики использовали «сухой остаток» для проведения метагеномического анализа. Как известно, метагеномика работает с набором всех ДНК находящихся в среде; следовательно генетики сделали удачное предположение о том, что «риды» без привязки к человеческому геному принадлежали геномам бактерии. BLAST-анализ ридов в Генбанке позволил установить те виды бактерий, секвенсы геномов которых были наиболее близки к изучаемым ридам.


В конце января были опубликованы две замечательные статьи на русском языке, посвященные бурно развивающейся области исследований — молекулярной патологии: «Молекулярная патология и роль врача-патологоанатома»  и «Наследственно обусловленный рак молочной железы и яичников«.


The Coop Lab продолжает размещать материалы о статистических рассхождениях в характере наследования генетического материала у ближайших родственников. Традиционно считается, что сибсы (сиблинги) одного пола похожи друг на друга в той или иной степени. Различие в фенотипических чертах объясняются разными факторами окружающей среды воздействующих в разной степени на их развитие. Тем не менее, как было показано в статье The Coop Lab,сибсы различаются также на уровне своего генома, за счет случайности сегрегации и рекомбинации.


Китайские генетики разработали  новый метод генной хирургии (точное геномое редактирование) и успешно применили его на макаках.


Ученные из университета Северной Аризоны «возродили» вирус древней чумы, пандемия которой пришлась на время правения византийского императора Юстиниана (Юстинианова чума). В лаборатории был прочтена последовательность ДНК бактерии-возбудителя чумы, которая содержалась в останках жертв этой пандемии. Очевидно, здесь также применялись методы метагеномики.


В сетевой версии журнала «Наука и жизнь» размещена статья о характере генетической интрогрессии (межвидовым обменом чужеродной генетической изменчивостью) произошедшей между неандертальцами и предками анатомически современного человека много десятков тысяч лет назад, и приведшей к частичной гибридизации двух видов, чьи эволюционные пути разошлись около полумиллиона лет тому назад:
«Оказалось, что практически все неандертальские гены локализованы в Х хромосоме, а значит, передались нам по женской линии. Ученые пришли к выводу, что мальчики, рождавшиеся в результате смешения кровей, были в большинстве своем бесплодны. «Когда неандертальцы и люди скрещивались, это было на краю биологической совместимости, ведь два генома не встречались друг с другом примерно полмиллиона лет», — комментирует результаты исследования один из его авторов Дэвид Рейч, генетик из Медицинской школы Гарварда (США).»

Я еще в 2010 году говорил, что если смешивание с неандертальцами происходило, то скорее всего гены были привнесены от связей между мужчинами homo sapiens sapiens и женщинами-неандертальцами. Не откажу себе в удовольствии процитировать свое сообщение на форуме Молгена.

«Re: Люди носят гены неандертальцев
Ответ #23 : 10 Май 2010, 19:40:25  Самое неубедительное в обеих работах это
1)отбор снипов для анализа (перекрестное сравнение снипов орангутанга, человека и шимпанзе — выбрали те, которые у человека являются, как считается, потомковыми).
2) по отобранным снипами произвели выравнивание (alignment) секвенсов шимпанзе, человека и неандертальца фазирование предкового генотипа общего предка человека, неандертальца и современного человека (т.е говоря проще, реконструировали (предсказали) гипотетический генотип по методу Байесовской апостериорной вероятности)
3) затем разбили фрагменты генома неандертала по снипами по признаку совпадения или несовпадения с предковыми значения гипотетического секвенса общего предка шимпанзе и гомо, на три группы -гомозиготные с предковым значением снипа, гомозиготные с потомковым значением и просто гетерозиготы. Про исключение более половины мутаций (пусть и синонимических), я вообще молчу. Но кто может гарантировать, что предковый генотип реконструирован верно, и, что самое главное — где доказательство того, что у неандертала должно быть именно предковое значение снипа, а не мутировавшее параллельно с человеком.
Наконец, на приведенном выше графике, разброс участков генома совпадающих у человека и неандертальца по X хромосоме, находится в меньшем диапозоне SD (стандартного отклонения), эти участки небольшие, но по структуре более дивергентные.
Из чего следует 2 вывода:
a) основное генное вливание шло через X хромосому и b) поскольку около 2/3 генетической информации X хромосомы аккумулируется в женских линиях, то направление вливания шло через самок неандертальцев и мужчин-сапиенсов, что несколько противроечит картине изображенной в первой статье.»

Любопытно, что при ресеквенировании геномов неандертальцев и секвенировании геномов новых неандертальцев (из пещеры Окладникова) применили новый метод секвенирования. В частности, они секвенировали митохондриальную ДНК из кости неандертальца и отделили ее от ДНК современного человека, что позволило доказать родство между жившими в Сибири и в Европе неандертальцами.Метод определения посторонних наслоений ДНК основан на анализе ее естественных мутаций. Так, у 30–40% образцов, возраст которых насчитывает несколько тысяч лет, цитозин превращается в тимин, а гуанин — в аденин. Ученые разработали систему, моделирующую процессы естественного изменения ДНК и сравнивающую полученный результат с данными образца.

Аналогичная методика была применена и в отношении менее древних образцов ДНК. Насчет мезолитических образцов из работы Лазаридиса, я не читал ту часть сапплемента где описывается техническая сторона опыта. Но в другой работе упомянутого в статье Скоглунда (Skoglund et al .2012) — в неолитическах образцах результаты поссмертной гидролитической деаминации (cytosine —> thymine or guanine —> adenine) были удалены. Но у неандера разумеется из было горадо больше и пришлось придумывать методику реконструкции первоначальных нуклеотидов.Кроме того, в статье Lazardis et.al.2013 (точнее в сапплементе) содержится указание на использование урацил-ДНК-гликосилазы и эндонуклеозы при подготовке библиотек для сиквенирования.Использование этого метода значительно (!) уменьшает включение деаминированных остатков C/G→T/A (здесь подробности).


Уважаемый «любитель» Владимир Таганкин на основе большого эмпирического материала (десятки тысяч гаплотипов) провел серьезное исследование дисперсии значений локусов Y-STR. Это исследование  по своему качеству превосходит многие статьи профессиональных популяционных генетиков.


В статье доктора Линча известный «феномен раздутости нефункциональной части человеческого генома» объясняется сочетанием ряда генетических факторов. Мутации, увеличивающие размер генома (дупликации), с гораздо меньшей вероятностью вредят организму, чем мутации, при которых часть генома теряется (делеции). Поэтому с увеличением частоты мутаций геном начинает непроизвольно расти. То есть причинно-следственная цепочка тут следующая:

малый размер популяции > увеличение генетического дрейфа > нарушение аккуратности репликации генома (увеличение частоты мутаций) > увеличение размера генома.

Как мне кажется, это объяснение можно применить к анализу всех мутаций, в том числе и STR (коротких тандемных потворов).


В январе и начале февраля было опубликовано несколько статей, в которых затрагивается тематика ДНК-криминалистика. Так в ходе проведенного Федеральным Бюро Расследований США аудита национальной базы данных ДНК, было обнаружено 166 ДНК-профиля, которые содержали ошибки. Часть этих ошибок появилась в результате ошибок клерков, другая часть связана с ошибками при интерпретации данных допущенных сотрудниками лабораторий. Проведенная тогда же проверка профилей ДНК в базе данных города Нью-Йорке дала аналогичные результаты. Неприятный факт обнаружения ошибок в STR-профилях ДНК поднимает старые вопрос о необходимости замены существующей системы CODIS. В более ранней работе, в которой рассматривалась роль и место устаревающей, но по-прежнему существующей системы CODIS в системе быстро развивающегося комплекса знаний о геноме человека, авторы сделали интересный вывод: несмотря на то, что маркеры CODIS часто лежат в пределах геномных и генных доменов, связанных с риском развития определенных заболеваний или отвечающих за определенные функции генома, не было найдено никаких  убедительных доказательств того, что «короткие тандемные повторы», используемые в качестве маркеров CODIS, могут помочь установить физические черты человека.  Наконец, в совсем новой работе по ДНК-криминалистике («Recent Advances in Forensic DNA analysis«), наряду с обсуждением сугубо технических моментов сбора и подготовки биологического материала к анализу, затрагивается и вопрос о возможных альтернативах STR (коротких тандемных повторов), т.е того типа маркеров которые лежат в основе системы CODIS. Одной из логичных альтернатив являются однонуклеотидные полиморфизмы (снипы). Одним из преимуществ снипов над STR является тот факт, что в сильнодеградированные фрагменты ДНК могут быть проанализированы только с помощью снипов. Будучи биаллельным маркером, снип может быть включен в ДНК-профиль, однако информативность одичного снипа гораздо ниже информативности STR-локусов, в силу чего  процесс установления личности при работе со смесью разнородных ДНК усложняется. Хотя единчный снип менее информативен ( в силу биаллельности), чем STR, но этот недостаток можно легко избежать за счет увеличения  количества SNP(снип)-маркеров, используемых при анализе. Разный уровень гетерозиготности  является одной из наиболее ценных особенностей снипов. Другой положительной чертой снипов является то, что при определении снипов нет нужды на разделение сегментов по их размеру, что делает мультиплексирование и автоматизации более доступны, чем  в анализе коротких тандемных повторов. Кроме того,  низкая скорость мутации снипов значительно улучшает их стабильность в качестве генетических маркеров.

 

The Y chromosome as a regulatory element shaping immune cell transcriptomes and susceptibility to autoimmune disease

The Y chromosome as a regulatory element shaping immune cell transcriptomes and susceptibility to autoimmune disease

О роли Y-хромосомы в развитии аутоимунных заболеваний
«Understanding the DNA elements that constitute and control the regulatory genome is critical for the appropriate therapeutic management of complex diseases. Here, using chromosome Y (ChrY) consomic mouse strains on the C57BL/6J (B6) background, we show that susceptibility to two diverse animal models of autoimmune disease, experimental allergic encephalomyelitis (EAE) and experimental myocarditis, correlates with the natural variation in copy number of Sly and Rbmy multicopy ChrY genes. On the B6 background, ChrY possesses gene regulatory properties that impact genome-wide gene expression in pathogenic CD4+ T cells. Using a ChrY consomic strain on the SJL background, we discovered a preference for ChrY-mediated gene regulation in macrophages, the immune cell subset underlying the EAE sexual dimorphism in SJL mice, rather than CD4+ T cells. Importantly, in both genetic backgrounds, an inverse correlation exists between the number of Sly and Rbmy ChrY gene copies and the number of significantly up-regulated genes in immune cells, thereby supporting a link between copy number variation of Sly and Rbmywith the ChrY genetic element exerting regulatory properties. Additionally, we show that ChrY polymorphism can determine the sexual dimorphism in EAE and myocarditis. In humans, an analysis of the CD4+ T cell transcriptome from male multiple sclerosis patients versus healthy controls provides further evidence for an evolutionarily conserved mechanism of gene regulation by ChrY. Thus, as in Drosophila, these data establish the mammalian ChrY as a member of the regulatory genome due to its ability to epigenetically regulate genome-wide gene expression in immune cells.»

Сванте Паабо: подсказки ДНК о нашем внутреннем неандертальце — лекция TED.com

Делясь результатами массивного, всемирного исследования, генетик Саванте Паабо предъявляет ДНК-доказательство о том, что ренние люди смешивались с Неандертальцами после выхода из Африки. (Да, у многих из нас есть Неандертальское ДНК). Он также показывает как мизерной кости пальца ребенка было достаточно для определения целого нового вида гуманоида.

Svante Pääbo explores human genetic evolution by analyzing DNA extracted from ancient sources, including mummies, an Ice Age hunter and the bone fragments of Neanderthals. Full bio »

Translated into Russian by Lola Bakhareva
Reviewed by Alexandra Belyakova-Bodina

Экспериментальный тест: определение HLA-гаплотипов из нуклеотидов ДНК-последовательностей с помощью программы HLA*IMP

Введение

Большинство из моих записей и экспериментов являются уникальными — именно по этой причине я очень часто дублирую эти записи на английском и русском языках.  Без ложной скромности хочу представить читателю мое самое значимое достижение в области любительской персональной геномики — эксперимент по определению HLA серотипа на основе известных снипов из клиентских raw_data (файла с перечнем генотипированных снипов) компаний 23andme и FTDNA.

Однако перед тем как перейти к описанию самого эксперимента, необходимо вкратце напомнить о важности HLA-гаплотипов. Молекулярные различия между аллелями HLA могут варьироваться до 57 нуклеотидов в пептидо-связывающей кодирующего региона главный комплекса генов гистосовместимости (MHC) человека,  однако еще до конца не установлено, являются ли эти молекулярные полиморфизмы результатом случайного стохастического процесса или же в процессе естественного отбора возникли селективные ограничения, связанные с функциональными различиями между молекулами HLA . Хотя HLA аллели, как правило, рассматривается в популяционно-генетических исследованиях  в качестве эквидистантных молекулярных единиц, однако последовательность ДНК, и популяционное разнообразие также имеет решающее значение для интерпретации наблюдаемого полиморфизма HLA ( (Buhler S, Sanchez-Mazas A, 2011 HLA DNA Sequence Variation among Human Populations: Molecular Signatures of Demographic and Selective Events. PLoS ONE 6(2): e14643. doi:10.1371/journal.pone.0014643).

Стоит отметить еще один важный момент: HLA локусы характеризуются наиболее максимальным уровнем генетического разнообразия из всех человеческих генетических систем. Предварительные знания о степени разнообразия играет важную роль в эволюции и отборе молекулярных методов типирования. Определение частот аллелей также важны и в трансплантологии —  например при аллогенетической трансплантации гематопоэтических стволовых клеток аллели используются для определения вероятности нахождения соответствующих «гистосовместимых» доноров для каждого пациента. Генетическое разнообразие локусов HLA отвечает также за эффективность работы иммунной системы  при  устранении клеток, несущих чужеродные антигены. Существует необходимость разработать методы оценки этого генетического разнообразия с целью изучения того, как различные группы людей  реагируют на воздействие чужеродныъ антигенов, а также для оценки вклада каждого локуса HLA.

Система HLA была тщательно изучена также и с эволюционной точки зрения. Эта система содержит ряд тесно связанных генов, продукты экспрессии которых определяют множеством функций, связанных с регулированием иммунного ответа. Кроме того, последние исследования в области медицинской генетики установили в этом геномном регионе целый ряд вариантов, обуславливающих генетическую предрасположенность к более чем 40 заболеваниям. Ряд наблюдений показывает, что  система человеческого HLA подвержена существенному влиянию естественного отбора, что приводит к появлению большого числа полиморфизмов с очень четко выраженным градиентом частот аллелей.  Возникновение высокого уровня изменчивости в локусах имеет решающее значение для распознавания антигена, определения возраста аллелей и закономерностей в нарушении равновесного сцепления между локусами. Форма воздействия отбора неизвестна. Большинство исследователей склоняется к тому, что сложный характер наследования HLA вряд  ли можно объяснить одним лишь воздействием естественного отбора. Мутации, рекомбинации и генетическая конверсия — все это также способствует увеличению изменчивости HLA. В то же время, очевидная древность многих аллелей HLA выявленных в ходе филогенетического анализа доказывают, что абсолютные темпы производства новых вариантов не являются высокоми. Детальное изучение популяционной и эволюционной особенности региона HLA, необходимо для обоснованного обсуждения эволюции генетических вариантов, предрасполагающих к определенным типам болезней (Thomson G.HLA population genetics.1991 Jun;5(2):247-60.).

Большинство из обычных людей сталкивались с термином антиген HLA только  в процессе сдачи/получения донорских органов. В некоторых случаях имеются показания к выявлению типов антигенов HLA у родителей при осложнениях во время беременности:

 При совпадении родителей по антигенам HLA увеличивается количество повторных аномальных беременностей с неустановленными причинами аномалий (Gerencer et al., 1978). Установлено отсутствие антигенов HLA в трофобласте, обнаруживается только b2-микроглобулин (Bodmer, 1981). Показано, что несовместимость по антигенам HLA матери и плода благоприятствует нормальному протеканию беременности и развитию плода.

Тот же самый авторитетный источник дает вполне сносное и вполне доступное для понимания начинающих любителей генетики:

Главная система тканевой совместимости (major histocompatibility Complex — МНС) может быть рассмотрена в качестве еще одного примера комплекса тесно сцепленных локусов. МНС человека обозначается латинскими буквами HLA (human leukocyte antigene) и называется системой или комплексом HLA.

Годом открытия главной системы тканевой совместимости человека считают 1958 г., в котором Ж. Доссе открыл первый антиген, обозначенный Mac (современное обозначение — HLA-A2) (Снелл и др., 1979). С момента открытия первого антигена тканевой совместимости велась неуклонная работа по уточнению типирования тех или иных антигенных специфичностей, открытию новых антигенов, изучению их строения, разработке универсального метода типирования антигенов, локализации на хромосоме генов системы HLA, выяснению характера наследования, а также по совершенствованию антисывороток, выявляющих тканевые антигены и по выявлению особенностей распространения антигенов в различных популяциях мира.

Интенсивному развитию исследований способствовали в значительной мере Международные рабочие совещания по совместимости тканей. Первое такое совещание было организовано Д.Б. Эймосом в 1964 г. Затем были проведены рабочие совещания в 1965, 1967, 1970, 1972, 1975, 1977, 1980 и 1984 гг. Материалы Международных рабочих совещаний по совместимости тканей публикуются в качестве периодического издания “Histocompatibility Testing” и отражают основные этапы в развитии иммуногенетики человека и тканевого типирования. В 1967 г. после окончания очередного рабочего совещания был организован Международный номенклатурный комитет под руководством ВОЗ, который осуществляет разработку номенклатуры комплекса HLA, соответствующей уровню развития отрасли. Номенклатуры системы HLA выходили в Бюллетенях ВОЗ в 1968, 1972, 1975 и 1978 гг., а также в материалах Международных рабочих совещаний по совместимости тканей в 1970 и 1980 гг. Новая номенклатура была принята после окончания работы 9-го Международного рабочего совещания в 1984 г. (Bodmer et al., 1985). В таблице 1 номенклатура представлена для локусов HLA-A, -B, -C и -DR. Латинские буквы перед цифрами обозначают принадлежность к тому или иному локусу, а цифры — номер антигена. У некоторых специфичностей есть еще добавочное “w”, обозначающее, что данные специфичности либо не признаны к этому моменту всеми лабораториями, либо есть сложности в их типировании.

Каждое название специфического типа HLA или как еще говорят HLA аллелей имеет свой уникальный номер, соответствующий до четырех наборов цифр, разделенных двоеточиями. Длина обозначения аллели зависит от последовательности аллеля.  Как правило, все аллели имеют по крайней мере  четырех-символьное обозначения, которое соответствует  двум наборам цифр, длинная номенклатура назначается только по необходимости. Цифры до первого двоеточия описывают тип, который практически всегда соответствует серологическому антигену, который несет  данный аллотип. Следующий набор цифр, который используется в списке подтипов является обозначением порядка, в котором были определены последовательности ДНК. Аллели, номера которых отличаются  двумя наборами цифр, отличаются друг от друга одной или несколькими нуклеотидными заменами которые ведут к изменению аминокислотной последовательности кодируемого белка. Аллели, которые отличаются только синонимичными/некодирующими нуклеотидными заменами в кодирующей последовательности, отличаются друг от друга использованием третьего дополнительного  набора цифр. Аллели, которые отличаются только последовательностью полиморфизмов в интронах или в 5 ‘и 3’ нетранслируемых регионах, которые примыкают к  экзонам и интронам, отличает использование четвертого набора цифр (см.дополнительную информацию).

Пример

HLA-A определяет HLA локуса
HLA-A1 серологическое обозначение антигена
HLA-A * звездочкой обозначается HLA аллелей определяется методами молекулярного типирования.
HLA-A * 01 2-разрядное разрешение обозначает группы аллелей, которые соответствует обычным серологическим группам — с низким разрешением
HLA-A * 0101 4-разрядное разрешение — последовательность различий между аллелями, которые приводят к аминокислотным заменами
HLA-A10101 60-значное разрешение — определяет некодирующие варианты, т.е последовательность изменений,  не ведущих к аминокислотным заменам

В целях понимания уникальности проведенного мною эксперимента необходимо еще пояснить особенности определения типов антигенов. До прихода эра молекулярной геномики, антигены HLA подразделяются выявлялись серологически и с помощью лимфоцитов. К последним относятся антигены Dw, DQ, DP и некоторые DRw, относящиеся к области D. Большинство исследований фоксируется лишь на серологически определяемых антигенах, относящихся к локусам HLA-A, -B, -C и -DR. Первые три группы антигенов представляют собой гликопротеиды, обнаруживающиеся на клеточной мембране любой ядросодержащей клетки (Amos, Kostyu, 1980).

Как следует из вышесказанного, традиционно на протяжении десятилетий для HLA-типирования использовались серологические метода много десятилетий, и при этом серологическое типирование II класса молекул главного комплекса гистосовместимости человека зависело от адекватной экспресии этих молекул на поверхности В-лимфоцитов, наличия жизнеспособных клеток и полным набором иммунных сывороток. Тем не менее, применение молекулярно-генетических методов первого поколения (RFLP, PCR, SSO и т.д.) для типирования HLA привело к ситуации, в которой почти каждая лаборатория может независимо выполнять  ДНК-типирование для определения аллеля HLA.

HLA типы и сцепленные SNP-ы на 6 хромосоме

Как показал мой эксперимент, что даже того относительно небольшого количества снипов, которое типируется  коммерческими компаниями в регионе MHC-HLA достаточно для определения типа антигена с высокой точностью.

К сожалению, имеется целый ряд нюансов значительно усложняющих анализ. Во-первых, определение классических аллелей HLA (например, HLA-, HLA-B и др.), с помощью  новой чип-технологии, используемой в популярных коммерческих услугах геномных компаний (23andMe, FTDNA Family Finder и deCODEme), является очень сложным процессом, требующим проведения большого количества мультиплекс-ПЦР-реакций для получения полного генотипа пациента. Именно поэтому классические методы типирования HLA зачастую оказываются непрактичными в крупномасштабных исследованиях.Во-вторых, техническая сторона выявления типа HLA на основании генотипов является относительно сложной, и я не уверен что рядовой пользователь сможет ее осилить.  При  я могу помочь определить тип антигенов в качестве коммерческой услуги (которая примерно на 50 процентов дешевле стоимости стандартной медицинско-генетической услуги серотипирования).

К счастью для нас, в Центре генетики человека в Wellcome Trust Центра был разработан метод определения классических аллелей на основании анализа сцепленных SNP-ов. Метод был реализован в виде специального фреймворка  (HLA * IMP) (Dilthey, A. T., Leslie, S., Moutsianas, L., Shen, J., Cox, C., Nelson, M. R., McVean, G. (2012): «Multi-population classical HLA type imputation» (submitted to Plos Comp Bio)).

HLA * IMP определяет HLA тип  на основе данных о генотипе SNP, используя для этих итеративный метод отбора наиболее информативных полиморфизмов для отдельных поддерживаемых чипов генотипирования (Affymetrix 500K, 900K Affymetrix, Illumina 300K, 550K Illumina, Illumina 650K, Illumina 1M). Таким образом, HLA * IMP позволяет исследователям  определить тип  HLA в ходе импутирования геномных данные, собранных из нескольких доступных наборов SNP путем сопоставления импутируемых данных с референсными данными более 2500 индивидов европейского происхождения. Референсные данные содержат как  SNP-варианты, так и классические аллели HLA типов.

Референсная панель которую я использую в целях импутации пропущенных значений, включает в себя:

1) так называемый The British Birth Cohort 1958 года включающем в себя SNP-ы Illumina 1,2 м и Affymetrix 6.0 (TheWellcome TheWellcome Trust Case Control Consortium, 2007) — 2420 индивидуальных образцов х 7733 SNP в расширенном регионе HLA.
2) выборку образцов CEU из HapMap  (Международный консорциум HapMap, 2007) и CEPH CEU + дополнительные образцы (дde Bakker et al., 2006) — 92 образца х 7733 SNP-а перекрывающиеся со снипами The British Birth Cohort 1958)

Программа использует аутосомные гаплотипов состоящих из SNP -ов BC-195и CEU , и именно эти гаплотипы были  задействованы в качестве эталонного набора данных.  Была определена взаимосвязь типов HLA и гаплотипов SNP (эти гаплотипы были фазированы с помощью программы PHASE (Stevens and Scheet, 2005) с применением стандартных параметров фазирования многоаллельных локусов. Вместе с  эталонным набором данных было получено около 5024 гаплотипов высокого разрешения, имеющими прямую корреляцию с 7733 SNP-ами в  геномном регионе HLA.  Эти гаплотипы  определяют разное  количества типов антигенов -2474 типа (HLA-A), 3090 (HLA-B), 2022 (HLA-C), 175 (HLA-DQA1), 2629 (HLA-DQB1), 2665 (HLA-DRB1). Это конкретные SNP-гаплотипы которые в дальнейшим программа использует для инференции типа антигена.

Эксперимент с  выборкой проекта MDLP.

Поясню вкратце суть эксперимента

Как я уже упоминал в блоге MDLP (Re: Хромосома 6), геномные инструменты 23andme — RelativeFinder  и AncestryFinder выделили   целый кластер полуидентичных сегментных совпадений в который попало примерно 315 геномных совпадений с другими клиентами из базы данных 23andme. Примечательно, что все эти  участки совпадения полностью или частчино перекрываются и расположены в одном и том же субрегионе области HLA-MHC на 6 хромосоме (21Mb-38MB). Эта замечательное скопление совпадающих участков  составляет почти половину от общего количества моих AF / RF совпадений (315/720 или 43,75%).

Ранее я предположил, что столь явный перекос числа общих по происхождению полуидентичных сегментов  в области HLA свидетельствует о том, что один из гаплотипов совпаденцев  является идентичным типом антигенов HLA. До недавнего времени, мое предложение опиралась исключительно на мои интуитивные догадки. Затем я смог найти ключ решения проблемы с помощью HLA * IMP  и до сих пор,  после чего мне удалось провести  эксперимент в HLA * IMP , в ходе которого я применил методологию к анализу данных 23andMe  (Illumina Omnio Express) .

Условия эксперимента

Для успешного проведения моих тестов, я должен был убедиться, что мои собственные данные соответствуют следующим требованиям:

* SNP-ы  должны входить в область  xMHC  ( на  6 хромосоме )
* Отобранные в первоначальной выборки кандидаты должны быть европейского происхождения
* Высокое качество  и плотность типированных SNP в регионе HLA, что является критическим условием повышения точности импутации
* Поскольку HLA IMP не обеспечивает прямой поддержки кастомных модифицированных чипсетов 23andMe,  и я был ограничен в своем использовании комбинированным набором генотипов с  двух чиспетов 23andMe (v2 и v3), то мне пришлось «понизить» число SNP-ов в версии платформы Illumina  (Illumina 300K). Но и этого оказалось достаточно.

Тест гипотезы

Для того, чтобы проверить свое первоначальное предположение о  том что вышеупомянутые совпаденцы разделяют одинаковый гаплотип HLA, я выбрал 7 участников из cвоих проектов (себя, свою мать; человека, о котором заведомо было известно, что  у него есть наполовину идентичный совпадющий сегмент со мною и моей матерью в xMHC область; oстальные участники использовались в качестве контрольной группы).

C этой целью я преобразовал исходные данные 23andMe  участников проекта в формат Plink, затем объединил файлы в один набор данных, и  выделил подмножество  SNPs на 6-ой хромосоме , используя команду Plink — сhr 6. После этого я преобразовал файл с данными генотипов из формата Plink во входной формат данных HLA * IMP. В качестве следующего шага, я провел контроль качества данных путем удаления SNP-ов и частных лиц со слишком большим количеством отсутствующих данных, а также  привел в соответствие (за счет выравнивания) дополнительные SNP-ы из  референсной панели HapMap. Наконец, я поэтапно профазировал генотипы для получения гаплотипов Примечание:  я также заменил  ID задействованных участников  проекта на префикс N.

Гаплотипные данные были затем загружены на серевер HLA * IMP, где и была произведена процедура импутации  HLA типов.

Выявленные в ходе этой операции типы HLA выглядили следующим образом (каждый из индивидов представлен 2 гаплотипами, один из которых был унаследован от матери, другой от отца): HLA-A: HLA-B: HLA-C: HLA-DQA: HLA-DQB: HLA-DRB.

IndividualID Chromosome HLAA HLAB HLAC HLADQA HLADQB HLADRB
N1 1 101 801 701 501 201 301
N1 2 2601 2705 102 101 501 101
N6 1 3101 801 701 501 201 301
N6 2 201 1501 304 501 201 301
N3 1 6801 1501 102 101 501 101
N3 2 2301 5201 501 101 501 101
N2 1 101 801 701 501 201 301
N2 2 2601 3801 1203 102 602 1501
N5 1 301 1501 304 501 302 401
N5 2 205 5001 602 501 202 701
N7 1 101 801 701 501 301 1101
N7 2 101 1501 303 103 604 1301
N4 1 301 702 702 401 402 801
N4 2 2402 4002 202 501 301 1101

Гаплотипы в приведенной выше записи следует читать следующим образом (например, в случае N1):  HLA * 0101: Cw * 0701: B * 0801: DRB1 * 0301: DQA1 * 0501: DQB1 * 0201.

В вышеприведенной таблице можно  отметить совпадение одного из гаплотипов у участников эксперимента под номерами  N1, N2 и N7, т.е  они имеют идентичный гаплотип.

Это подтверждает одну из моих рабочих гипотез. У индивидов N1 (моей матери), N2 (меня) и N7  с помощью инструмента Relative Finder от 23andme  в геномном регионе HLA на 6 хромосоме был задетектирован полуидентичный сегмент ДНК, ( этот сигмент отвечает формальным требованиям идентичного по происхождению сегмента, то есть генетическая дистанция превышает порогое значение в 7 сантиморганид (сокращенно сМ — это единица измерения вероятности кроссинговера между двумя генами) и число снипов в непрервыном полуидентичном сегменте равно 700 ).

Таким образом, можно с уверенностью утверждать,  что мое первоначальное предположение,  подкрепляется результатами установления типа  HLA.

Практические результаты испытаний

Практически каждый из известных и описанных в литературе типов человеческих HLA имеет убедительную связь с так называемыми медицинскими рисками. Мы не будем сейчас останавливаться на них, и отложим рассмотрение этой тематики на будущей. Однако помимо медицинской полезности, существуют также и некоторые преимущества знания своего типа HLA и с точки зрения генетической генеалогии:

1) Прежде всего, это возможность определить характер распространения сегментов в области xMHC на хромосоме 6. Приведу конкретный пример на своих собственных данных — вышеупомянутый «расширенный» гаплотип HLA * 0101: Cw * 0701: B * 0801: DRB1 * 0301: DQA1 * 0501: DQB1 * 0201 (в англоязычной литературе встречаются и другие обозначения —AH8.1, COX,[1] Super B8, ancestral MHC 8.1[2] or 8.1 ancestral haplotype; далее мы будем писать его в сокращенном виде: A1 :: DQ2). По мнению некоторых исследователей этот гаплотип A1 :: DQ2 представляет собой  загадку с точки зрения изучения эволюционного процесса рекомбинаци. Дело в том, что скорость рекомбинации этого гаплотипв A1 :: DQ2 не соответствует теоретическими ожиданиям в плане скорости рекомбинации.  Нам известно, что в регионах Европы, где этот гаплотип  впервые сформировался и начал распространятся, существуют другие гаплотипы, некоторые из которых являются «предковыми», обладая при этом  весьма значимой длиной. Однако рассматриваемый гаплотип является своего рода рекордсменом  — он включает в себя последовательный контиг ДНК длинной примерно в 4,7 миллионов  (!) пар нуклеотидов,  и около 300 генных локусов. Кроме того, все исследования отмечают высокую «резистентность» этого гаплотипа по отношению  к рекомбинации. В качестве объяснения этого уникального феномена выдвигаются разные гипотезы — некоторые полагают что обструкция рекомбинации в этом гаплотипе была неким неизвестным была жестким образом кодирована в самой ДНК (по аналогии с хардкодингом -жестким «вшиванием» в программный код различных данных, касающихся окружения программы) Другие объясняют эту аномалию последствиями многократного селективного  отбора гаплотипа. Здесь следует прояснить суть проблемы: согласно классической теории рекомбинации, физическая длина любого аутосомного гаплотипа (то есть число нуклеотидов входящих в него) из-за быстрых темпов эволюционной рекомбинации должна неизменно  уменьшатся  с каждым поколением. Однако гаплотип A1 :: DQ2 является живым опровержением универсальности этого представления.

2) Во-вторых, можно попытатся произвести оценку времени и места возникновения этого гаплотипа.  В ходе систематического обследования мировых популяций, регулярно проводимого сетью центров и институтов трансплантологии, было  установлено, что гаплотип A1 :: DQ2 является наиболее часто встречается у белых жителей США , ~ 15% которых имеет этот гаплотип. Анализ SNP-ов сцепленных с этим типом, дает основания полагать, что гаплотип мог возникнуть примерно 20.000 лет в Европе, хотя  эта интерпретация в настоящее время признается некоторыми исследователями неубедительной. Согласно этой интепретации, гаплотип мог возникнуть  в результате  климатических изменений  во врема последнего ледникового максимума  примерно 11500 лет назад (поэтому этот гаплотип называют иногда предковым европейским гаплотипом, или гаплотипом A1-B8 (AH8.1). Этот один из тех 4 гаплотипов HLA, которые являются общими для западных европейцев и азиатов. Если предположить, что частота  распространения этого гаплотипа  в начальной популяции составляла 50%  во время последнего ледникового максимума и плавно снижалась  на 50% каждые 500 лет то частота гаплотипа в современных популяциях не должна превышать 0,1% в любой европейской популяции. Однако реальная частота  составляет, как было показано выше,  примерно 10%,  что превышает ожидаемую в теории частоту распространения почти в 100 раз. Применительно к генетической генеалогии,  это подробное разъяснение может означать только то, что массовое скопление совпадающих сегментов в xMHC регионе на 6 хромосоме может быть четким указанием  на наличие очень далеких общих предков (вплоть до жителей эпохи неолита). При любом раскладе, предлагаемый RelativeFinder/23andme интервал в 5-10 поколений до  последних общего предка для региона xMHC является нереалистично заниженным.

2) Кроме того,  используя стандартные средства геногеографии можно сделать вывод о географическом ареале распространения конкретного гаплотипа HLA. Опять-таки, изучая геногеографию все того же гаплотипа A1 :: DQ2, можно   увидеть, что  его локальные пики  приходятся на весьма удаленные  друг от друга регионы — это Исландия, регион исторического проживания поморов на Севере России, северная Сербия, земля басков, а также те регионы Мексики, которые массовао заселялись басками.  Общей чертой этих регионов является не географическая близость, а крайняя степень изоляции.
Относительно высокая частота распространения гаплотипа в  наиболее изолированных географических регионах Западной Европы, Ирландии, Скандинавии и Швейцарии наряду с  крайне низкой частотой во Франции и латинизированной  части Иберии является результатом описанной в популяционной генетике и антропологии модели замещения, народонаселения Европы, которое обычно связывается с началом эры неолита. В этом случае возраст рассматриваемого гаплотипа в Европе, превышает 8000 лет.

Напоследок хочу порекомендовать —The Allele Frequency Net Database  -хорошую базу данных по частотам аллелей полиморфичных регионов HLA,KIR,Cytokine,MIC Института транплантной иммунологии при Ливерпульском университете.  Она является очень удобным инструментом для анализа частот HLA гаплотипов в мировом масштабе.

В  частности, можно производить поиски по гаплотипам, и получать на выходе данные о частотах в различных популяциях, а также визуализировать полученные данные на карте.

Пример (гаплотип A1 :: DQ2)

1 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 Ireland South
11.50
250
                               
2 A*01:01B*08:01C*07:01DRB1*03:01:01-DQB1*02:01 England North West
9.50
298
                               
3 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01-DPB1*04:01 Ireland South
8.30
250
                               
4 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 Poland
4.00
200
                               
5 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 USA Hispanic pop 2
1.78
1,999
                               
6 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01-DPB1*01:01 Ireland South
1.40
250
                               
7 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 USA African American pop 4
1.39
2,411
                               
8 A*01:01B*08:01C*07:01DRB1*03:01DQB1*02:01 USA Asian pop 2
0.09
1,772