Скрытые возможности клиентских данных 23andme в плане молекулярной диагностики.

Компания 23andme не нуждается в особом представлении читателям этого блога. Вплоть до конца прошлого года компанию занимало существенный сегмент рынка персональной геномики, ориентированного на предоставление  клиентам информации о генетических медицинских рисках (genetic risks) и генетической генеалогии (genetic origin). Информация о медико-генетических рисках содержалась в ряде сервисов портала компании, а также в доступном для скачивания отчета о генетических рисках и, разумеется, в первичных данных генетического отчета, в котором содержались значимые с точки зреемя медико-генетического диагностирования генетические полиморфизмы (SNP).

Всвязи с известными событиями и последующим за ними предписанием USA Food and Drug Administration (FDA) компании 23andme о запрете выпуска на рынок услуг персонального геномического диагностирования своего «медицинского девайза» (т.е интерпретации медико-генетических рисков развития заболеваний), компании пришлось сузить свою сферу деятельности до оказания генетико-генеалогических услуг.

Несмотря на это досадное обстоятельство, сказавшееся нелучшим образом на динамике увеличения клиентской базы компании,  нужно помнить, что все клиенты сохранили доступ к своим первичным данным тестирования (т.е списку снипов с генотипами). И при вдумчивом, творческом подходе любой человек может не только «вытащить» из этих «cырых данных» важную с точки зрения медицины информацию, но и заменить спомощью полученной информацией результаты более традиционных тестов.

Каковы могут быть варианты использования данных 23andmе не в привычных генеалогических целях, а скажем для получения сведений, который могут впоследствии пригодится для молекулярного диагностирования?

Я приведу пару примеров такого использования.

Определение HLA-фенотипа.

На мембране клеток организма присутствуют продукты генов всех локусов, размещенных на обеих нитях 6-й хромосомы.

 

bsl-hla1

 

Это означает, что HLA-гены наследуются по кодоминантному типу, т. е. одну хромосому ребенок наследует от матери, а другую – от отца. Как уже упоминалось, совокупность генов, расположенных на одной хромосоме, составляет гаплотип. Таким образом, у человека два гаплотипа и каждая клетка организма несет на себе диплоидный набор антигенов системы HLA, один из которых кодируется HLA-генами матери, а другой – отца. Исключение составляют половые клетки (яйцеклетка и сперматозоид), каждая из которых содержит в своем ядре только по одному гаплотипу.

Антигены гистосовместимости, выявляемые на клетках конкретного человека, составляют HLA-фенотип. Для его определения необходимо произвести фенотипирование клеток индивида. Как правило, “типируются” лимфоциты периферической крови. До настоящего времени в большинстве лабораторий HLA-A. В, С и DR-антигены определяют при помощи серологических методов, в частности, лимфоцитотоксического теста. тот тест основан на способности анти-НLА-антител в присутствии комплемента разрушать лимфоциты, несущие соответствующие антигенные детерминанты. Гибель клеток демонстрируется при помощи добавления трипанового синего. При этом мертвые поврежденные клетки окрашиваются, и под микроскопом учитывается их количество.

Эти тесты часто требуются в ходе стандартных медицинских процедур обследования во время начала беременности, или для изучения этологии аутоимунных заболеваний. Еще более важно определение гистосовеместимости в транплантологии, где типирование HLA-фенотипа  донора является обязательным условием.

Однако, с приходом новых микроматричных технологий опеределния нуклеотидов ДНК и биоинформатических методов рутинной обработки последовательности человеческих геномов , появился дешевая и относительно простая альтернатива классическим серологическим тестам (которые стоят в интервале от 100 до 500 долларов).

Я не буду останавливаться на принципиальном описании процедур, с помощью которых на основании данных 23andme можно с помощью метода «импутирования» определить HLA-фенотип, так как в прошлом году я уже разместил в этом блоге пошаговую инструкцию для выполнения этой задачи.

Впрочем, уже после того, как  я отписался на эту тему здесь,  в департаменте биостатистики Университета Вашингтона был разработан алгоритм HIBAG который принципиально мало чем отличается от алгоритма HLA*IMP (в обеих алгоритмах используется training model, позволяющая определять фенотип HLA по снипам 23andme).  Входные данные программного решения этого алгоритма (язык R) представляют собой формат Plink. А так как в последней версии Plink была включена нативная поддержка формата 23andme, то преобразовать данные 23andme в бинарный формат Plink не сооставит особого труда. Что касается обработки данных в HIBAG, то примерный порядок выполнения команд выглядит следующим образом:

# Load the published parameter estimates from European ancestry
model.list <- get(load(«European-HLA4.RData»))#########################################################################
# Import your PLINK BED file
#
yourgeno <- hlaBED2Geno(bed.fn=».bed», fam.fn=».fam», bim.fn=».bim»)
summary(yourgeno)

# HLA imputation at HLA-A
hla.id <- «A»
model <- hlaModelFromObj(model.list[[hla.id]])
summary(model)
# HLA allele frequencies
cbind(frequency = model$hla.freq)

# SNPs in the model
head(model$snp.id)
# «rs2523442» «rs9257863» «rs2107191» «rs4713226» «rs1362076» «rs7751705»
head(model$snp.position)
# 29525796 29533563 29542274 29542393 29549148 29549597

# best-guess genotypes and all posterior probabilities
pred.guess <- predict(model, yourgeno, type=»response+prob»)
summary(pred.guess)
pred.guess$value
pred.guess$postprob

 
 

Панель метилирования Яско

В последние 10 лет, крупные генетические исследования выявили сотни генных мутаций, которые возникают чаще у аутичных пациентов, чем в общей популяции. Тем не менее, каждый пациент имеет только одну или несколько из этих мутаций, что затрудняет разработку лекарств против болезни. В настоящее время, изучением генетических факторов аутизма занимается большое количество врачей-генетиков,  одним из них является доктор Эми Яско занимается исследованиями генных мутаций у аутистов. Как показали многочисленные молекулярно-генетические обследования и спектрометрия аминокислот, органических кислот и карнитинов, значительное количество аутистов страдает метаболическими нарушениями.  Есть виды аутизма, вызываемые именно этими генетическими нарушениями обмена вещест.

Доктор Эми Яско разработала тест на панель метиляции Яско — тест этот дорогой, стоит 500 долларов, в этой проверяют что-то около 30 генных полиморфизмов (снипов). Выбор снипов в этой панели мотивирован тем, что эти снипы связаны с  определенными генами на «молекулярно-биохимическом пути метиляции» (methyliation pathway),  т.е генами которые влияют на способность организма выполнять ряд ключевых биохимических функций. Наличие генетических дисбалансовт.е снипов в пути метиляции, будет ограничивать эффективность пути метиляции.

 

Yasko-Methylation-Pathway

 

К счастью клиентов 23andme, чипсет снипов этой компании включает в себя если не все, то большую часть снипов панели Яско.
Один из проектов, возникший всвязи с неудовлетворенной потребностью клиентов в более развернутой и детальной обработке данных 23andme
, Genetic Genie предлагает  условно-бесплатный сервис с помощью которого данные релевантных снипов можно привести к  традиционному виду таблицы с отчетом по панели Яско:

Gene & Variation rsID Alleles Result
COMT V158M rs4680 AA +/+
COMT H62H rs4633 TT +/+
COMT P199P rs769224 GG -/-
VDR Bsm rs1544410 CC -/-
VDR Taq rs731236 __ no call
MAO-A R297R rs6323 TT +/+
ACAT1-02 rs3741049 AG +/-
MTHFR C677T rs1801133 GG -/-
MTHFR 03 P39P rs2066470 AG +/-
MTHFR A1298C rs1801131 GG +/+
MTR A2756G rs1805087 AA -/-
MTRR A66G rs1801394 GG +/+
MTRR H595Y rs10380 CC -/-
MTRR K350A rs162036 AA -/-
MTRR R415T rs2287780 CC -/-
MTRR A664A rs1802059 AG +/-
BHMT-02 rs567754 CC -/-
BHMT-04 rs617219 AA -/-
BHMT-08 rs651852 __ no call
AHCY-01 rs819147 __ no call
AHCY-02 rs819134 __ no call
AHCY-19 rs819171 __ no call
CBS C699T rs234706 GG -/-
CBS A360A rs1801181 __ no call
CBS N212N rs2298758 __ no call
SHMT1 C1420T rs1979277 __ no call

Несмотря на то, что на выходе клиент получает  готовый частный отчет по тесту Яско, медико-биологическая интерпретация результатов не так уж и проста, и требует определенной интеллектуальной сноровки и общегенетической эрудиции в плане понимания того, какую функцию выполняет тот или иной ген. Строго говоря, при грамотной интерпретации этих результатов, можно самостоятельно составить себе диету из витаминов-пищевых добавок, которые позволяет компенсировать обусловленный генетическим дисбалансом дефицит тех или иных энзимов.Примерный образец интерпретации можно посмотреть здесь

 

 

Методологические заметки к созданию неандертальского калькулятора

Данная заметка представляет собой критический анализ методологических предпосылок создания неандертальского калькулятора, имплементированного в cоответствующем сервисе 23andme (Neanderthal lab). В основу заметки положен перевод технического документа 23andme (white paper), описывающего процесс создания неандертальского калькулятора.

Существует несколько методологических подходов  к созданию неандертальского калькулятора (т.е инструмента для оценки того, сколько процентов ДНК  в геноме анализируемого индивида имеет  неандертальское происхождение).   Есть несколько способов прямой экспериментальной оценки величины процента «неандертальской » ДНК с помощью ресеквенирования ДНК клиента в тех регионах, в которых ученые обнаружили возможные варианты, имеющие предполагаемое неандертальское происхождение. Но в силу технической сложности реализации этих способов и необходимости каждый раз заново производить секвенирование в полном объеме  регионов неандертальского происхождения, нет особой нужды рассматривать их в этой записи. Вместо этого я предлагаю рассмотреть две оставшиеся методики определения вклада неандертальского ДНК.  Хотя оба метода не без своих изъянов, они позволяют существенно снизить влияние неопределенности (ascertainment bias) в оценке вклада неандертальского ДНК, и в принципе,  других приемлемых альтернатив этим методам не существует, так как в противном случае получаемый другими методами (например, Dstatisticsили ABBABABA) разброс оценки величины неандертальского вклада будет в несколько раз отличаться от тех величин, которые получаются на выходе соответствующих программ, используемых в  NationalGeographicGeno и 23andme (обе программы основаны на одном из двух нижеописанных методов).Именно по этой причине, каждая из нижеприведенных методик заслуживает отдельного рассмотрения. 

  1. Метод PCA

На мой личный взгляд, наилучшим  (как в плане аккуратности, так и в плане легкости реализации) методом оценки величины неандертальца в ДНК клиентов является метод главных компонент PCA, так как он представляет собой очень мощный инструмент для представления корреляции данных высокой размерности (порядка миллионов снипов и даже больше) в виде гораздо меньшего, некоррелирующего набора переменных, которые носят название «главные компоненты». Итак, метод главных компонент — это один из способов понижения размерности, состоящий в переходе к новому ортогональному базису, оси которого ориентированы по направлениям максимальной дисперсии набора входных данных (в нашем случае это набор генотипов снипов). Вдоль первой оси нового базиса дисперсия максимальна, вторая ось максимизирует дисперсию при условии ортогональности первой оси, и т.д., последняя ось имеет минимальную дисперсию из всех возможных. Такое преобразование позволяет понижать информацию путем отбрасывания координат, соответствующих направлениям с минимальной дисперсией. Можно отметить, что в основе метода главных компонент лежат следующие допущения: (a) допущение о том, что размерность данных может быть эффективно понижена путем линейного преобразования, и  (b)  допущение о том, что больше всего информации несут те направления, в которых дисперсия входных данных максимальна.

 

На первом этапе анализа необходимо вычислить главные компоненты отображающие дисперсию данных неандертальца по отношению данным современного человека. Для этого необходимо  провести PCA анализ, в который будут включен набор снипов неандертальцев, набор снипов денисовского человека, и набор снипов шимпанзе (Clint). 

Сначала скачиваем полные геномы неандертальца, денисовского человека, и шимпанзе Clint. Затем с помощью программы samtools генерируем для каждого из трех геномов файлы с геномными вариантами (vcf), отфильтровываем из полученных файлы инделы, таким образом чтобы на выходе остались только снипы и проводим аннотацию  снипов с использованием базы данных dbSNP; при аннотации находятся те варианты, которые присутствуют в базе данных и им назначается соответствующий индекс, например rs4213456 (это условный пример). Затем необходимо выбрать из это файла только те cнипы, которые присутствуют в контрольной выборке с референсными популяциями современного человека. Описание примерного порядока выполнения этой задачи можно найти в двух записях в моем блоге (здесь и здесь).

В конечном итоге, по окончанию первого этапа,  мы получаем три файла VCF c аннотированным снипами, которые необходимо соединить в один файл либо в vcftools, либо в Plink. Затем провести анализ PCA с двумя заданными главными компонентами (K2) в самом Plink, либо конвертировать данные в формат Eigenstrat и провести в программе Eigensoft анализ PCA (также с двумя заданными главными компонентами). Последний вариант предпочтителен, так алгоритм Eigensoftдает более точные данные за счет kernel-преобразований данных. В конечном результате проведенного анализа двух основных компонентов должны получится нормированный лист cобственных векторов — эйгенвекторов так называемый лист факторной загрузки –factor loading) для каждого из индивидуальных образцов, входящих в анализируемый набор. Первый главный компонент, PC1 , чьи значения отображаются вдоль первой оси ортогонального  базиса, характеризуется максимальной дисперсией набора снипов входящих данных, эта ось отображает общее генетическое сходство архаичных людей (неандертальца и денисовского человека). Ось второго компонента , PC2 , оптимизирует дисперсию при условии ортогональности первой оси (т.е, PC1), и  отображает генетическое расхождение между неандертальцами и денисовским человеком. 

pca

 

На следующем этапе генотипы клиентыпроецируются на плоскость, образованную двум яосями PC1 и PC2.  Я полагаю, что на этом этапе в самом PCA анализе нет необходимости, вместо этого можно имплементировать метод с использованием высчитанного в первом анализе PCA листа загрузки компонентов (loadings). Подобный подход реализован, например, в программе shellfish. 

В случае успешного выполнения промежуточной задачи на этом этапе, те клиенты, у которых нет неандертальского или денисовского вклада в геном,  должныр авномерно  распределиться в центре графика, то есть внутри условного треугольника, образованного референсными геномами неандертальца,  денисовского человека и шимпанзе.В то время, как клиенты с  неандертальской примесью должны  будут проецироваться ближе к неандертальца .

Как видно из иллюстрации к работе (Reich et al.2011), европейцы и жители Восточной Азии существенно сдвинуты в сторону неандертальцев по сравнению с афро-американцами (как видно из приведенного ниже графика,  расстояние между неандертальским «углом» и положением афроамериканцеввесьма значительно, это следствие неопределенности определения предковых аллелей неандертальца по африканским популяциям, поэтому для коррекции этой дистанции в 23andme высчитали центроид генетического положения африканцев с использование данных проекта 1000G, и расчет дистанции вели от него).

reich

 

На третьем этапе необходимо преобразовать PCAоординаты популяций современных людей в процент неандертальского ДНК,  т.е привести к тому виду, который выдается клиенту на выходе.  Для этих целей каждый клиент проецируется на расчетную «неандертальскую» ось, представляющую собой линию, соединяющий центроид предковой популяции клиента с точкой, координаты которой соответствует положению неандертальца на графике.

  1. Методтеговых (маркерных) снипов— NAIM (Neanderthal Ancestry Informative Markers)

Существует более прямой и простой способ  вычисления неандертальского вклада в геном клиентов. Простота метода обусловлена отсутствием надобности в сравнительно сложных алгоритмах вычисления главных компонентов. Согласно известной публикации драфтовой версии генома неандертальца (Green et al., 2010), в геномах современных людей были обнаружены 13 геномных регионов, которые, как предполагают авторы, имели неандертальское происхождение.  Эти регионы генома  современных людей  были маркированы с помощью маркерных (теговых) снипов – то есть таких снипов, в которых неандертальский вариант часто встречается в современных неафриканских популяциях людей, но отсутствует в коренных африканских популяциях.

В процитированной выше работе был предложен набор  из 180 подобных снипов, которые маркируют эти 13 регионов, предположительного неандертальского происхождения.  Таким образом, простым арифметическим подсчетом у современных людей количества известных неандертальских вариантов этих 180 снипов,  можно было бы определить процент неандертальского вклада в геном современных людей.  Ниже приведена таблица, в которых показаны физические координаты регионов-сегментов (хромосома, начало и конец сегмента – приведены в физических положениях сегмента  в билде 36).
ытзы

Тем не менее, несмотря на простоту метода, он характеризуется целым рядом недостатков, о которых следует упоминуть подробнее:

  1. Во-первых, не существует никаких формальных гарантий того, что эти варианты действительно  имеют неандертальское происхождение.
  2. Во-вторых, даже в том идеальном случае, когда все эти 180 вариантов действительно имеют неандертальское происхождение, они охватывают только 13 геномных регионов, самый длинный из которых представляет собой сегмент длиной всего лишь в 160 000 базовых пар. Эта длина на два порядка величин ниже, чем среднестатистические 2,5% неандертальского вклада в среднестатистическом геноме современного человека неафриканского происхождения . Поэтому простой подсчет числа неандертальских вариантов в маркерных снипах, где встречается будет в 2-3  раза занижать реальный процент неандертальского вклада в клиентском геноме.
  3. В-третьих, существует еще несколько трудных моментов, связанных с практической реализацией этого метода.

3.1.     Списка вышеупомянутых 180 снипов нет в открытом доступе, и так как в оригинальной статье было упомянуто другое количество снипов (166), похоже на то, что это число снипов варьируется в зависимости от использованного чипсета (поэтому и число снипов разное).

3.2.     Технически  эту проблему можно решить следующим образом. Самый простой способ состоит в определении того, какие снипы из используемого компанией чипсета попадают в эти сегменты. Например, берется первый сегмент на хромосоме 1 (начало 168 110 000 – конец 168 220 000, длина в базовых парах – 110 000) и выбираются снипы попадающие в этот регион, и так далее по всем регионам. При этом сначала надо узнать какой билд используется в контрольной выборке популяций современных людей. Если используется build 37, тогда необходимо конвертировать координаты сегментов в более ранний build 36. После того, как будут определены все снипы попадающие в эти 13 сегментов, нужно найти неандертальские варианты этих файлов (это можно сделать в базе данных неандертальских снипов) и составить список, который затем использовать в качестве затравки при сравнении с значениями снипов у современных людей.

3.3.     Другой вариант более сложный, но очевидно более точный. Список снипов найденных в ходе сравнения геномов шимпанзе, 5 референсных популяций современных людей и неандертальца  выгружен на сайте геномного браузера UCSC. Это большой файл (в распакованном виде 363 Mb), общее количество снипов 5 615 438. Формат файла следующий:

971    chr1       50600811             50600812             AA_AAD:0D,1A  0             +             50600811             50600812             0

971    chr1       50603655             50603656             AAD_AA:0D,2A    0             +             50603655             50603656             0

971    chr1       50604033             50604034             AADAA_:0D,1A    0             +             50604033             50604034             0

971    chr1       50605949             50605950             AAA_DA:0D,1A    0             +             50605949             50605950             0
Первая колонка представляет собой номер сегмента чтения, вторая – название хромосомы, вторая и третья – физическое положение снипа, далее идет длинная колонка с указанием характера варианта в  шимпанзе, 4 популяций людей и неандертальца. «A» обозначает предковое значение аллеля, «D» — derived, т.е мутировавшее значение. После двоеточия идет специфическая неандертальская колонка (например, :0D,1A)с указанием того сколько предковых и сколько мутировавших значений снипа обнаружено в исследованных геномах неандертальцев. В данном случае, в первом снипе обнаружено 0D (0 мутировавших) и 1A (1 предковое значение). Трудность задачи состоит в определении только тех снипов, в которых  у неандертальцев нет предковых значений, а встречаются только мутировавшие значения. Эти снипы — кандидаты на неандертальский вклад в человеческий геном. Затем сравнить отфильтрованный список со списком снипов в  контрольной выборке (опять-таки, надо знать какой билд используется, координаты этого списока  приведен по билду 36) и выбрать только те, что имеются в чипсете компании. Далее алгоритм тот же, что и выше – определяется значение снипа у неандертальца и  сравнивается с соответствующим значением у современных людей. Совпадающие у неандертальца и современных людей варианты подсчитываются и определяется конечный процент неандертальского вклада.

 

Эксперимент.

 

Я решил проверить эфективность первого метода (метода PCA) на своей контрольной выборке (2778 образцов современных людей, шимпанзе, денисовского человека и неандертальского человека и 142429 снипа). В качестве рабочей программы я использовал новую версию Plink, которая позволяет использовать в анализе PCA заданные контрольные кластеры, в которые проецируются исследуемые индивиды. В качестве трех контрольных групп я выбрал, следуя рекомендациям авторов обсуждаемого исследования,  геномы шимпанзе, неандертальца из Vindja и денисовского человека. Однако число априорных главных компонентов я намерено изменил,  с 2 на 3 (K3), таким образом на выходе я получил эйгенвекторы трех главных компонентов.  По этой причине, полученный мной график PCA несколько отличается от вышеприведенного графика 23andme (вместо PC1 и PC2 я использовал PC2 и PC3, то есть второй и третьи главные компоненты, более точно описывающие в данном случае сходство/различие геномов архаичных и современных людей).

R Graphics Output
Как видно из наших результатов, все популяции современных людей разместились внутри условного треугольника образованного дисперсией геномов денисовского человека, неандертальца и шимпанзе.
Впрочем, на графике нельзя разглядеть, какие именно популяции сдвигаются в сторону неандертальца, а какие — в сторону денисовского человека (такой сдвиг свидетельствовал бы о наличии адмикса).  Чтобы устранить этот досадный артефакт графика, придется убрать с графика геномы денисовца, неандертальца и шимпанзе (из-за значительной генетической дистанции популяции современных людей сдвигаются в одну кучу).

 

R Graphics Output
R Graphics Output

 

Положение удаленных денисовца, неандертальца и шимпанзе размечено на новом графике буквенными обозначениями — D, N, Chimp. Из человеческих популяций я разметил группы африканских популяций (Africans), и коренных американцев (Native Americans). Европейские и азиатские популяций смещены в одну общую группу, с сильным креном в сторону неандертальца. Судя по всему, мои результаты, в общих чертах, практически не отличаются от результатов исследований Грина и Райха. Как отмечает  Дробышевский: » «денисовские гены», несмотря на свою экзотичность, обнаружились у современных людей. Первоначально они были найдены у папуасов Новой Гвинеи и меланезийцев острова Бугенвиль (Reich et al., 2010), затем – у австралийских аборигенов (Gibbons, 2011), а полнейшее исследование вопроса констатировало наличие их у огромного числа популяций (Reich et al., 2011). Они были выявлены в тридцати трёх популяциях Океании и Юго-Восточной Азии, в том числе у папуасов Новой Гвинеи, австралийских аборигенов (даже больше, чем у папуасов), полинезицев, фиджийцев, восточных индонезийцев с разных островов, филиппинцев и у филиппинских аэта-маманва.»

Что касается неандертальца, то уже с 2010 года известно, что в целом неандертальская ДНК составляет 1-4% генома нынешних людей, живущих за пределами Африки. Авторы двух исследований, опубликованных в среду журналах Science и Nature, выяснили, что чаще всего неандертальская наследственность присутствует в нескольких генах, связанных с выработкой кератина, присутствующего в коже, волосах и ногтях. В этой части генома неандертальские аллели обнаружены у 70% европейцев и 66% азиатов.

Гораздо интереснее те мои результаты, которые отличаются от общепринятых. Так например, довольно неожиданным результатом является наблюдаемое на графике значительное смещение южноамериканских индейцев в сторону денисовского человека, причем это смещение гораздо значительнее смещения папуасов и меланезийцев, у которых были найдены «денисовские гены» в наибольшем количестве. Что это означает, трудно сказать — наличие реального сигнала смешивания в данном случае равновероятен обнаружению статистического артефакта.  Впрочем, если верить работам Скоглунда этот результат может быть правдоподобным — моделирование миграций генов показало, что «денисовские» гены должны встречаться не только в Юго-Восточной Азии, но даже в некоторых группах Южной Америки (Skoglund et Jakobsson, 2011)

Оставим в стороне этот вопрос, который нуждается в более детальном изучении, и передем к расчетам процентной величины вклада неандертальских генов в популяции современных людей. Очевидно, что средняя величина этого вклада по каждой из популяций может дать только приблизительное представление о характере архаичной интрогресси неандертальских генов. Индивидуальный уровень вклада в каждой популяции может иметь большую частотную амплитуду в интервале между 1 и 6% процентами. Тем не менее, представляется возможным апроксимировать эти значения путем умножения собственного вектора (eigenvector) главных компонентов каждого индивида каждой популяции на собственное число линейного преобразования (eigenvalue), и последующим усреднением по популяции.

Ниже приведены эти усредненные значения в процентах (неандертальских генов), в порядке уменьшения. Вызывают сомнения ультра-высокие значения в первых десяти популяциях — скорее всего это результат комплексного воздействия статистических эфектов недостаточной представленности выборки, а также высокой степени гомозиготности, характерной для изолированных популяций (исландцев, албанцев и басков). Довольно высок уровень неандертальского вклада в образцах древних европейцев, хотя это и логично с точки зрения исторической модели адмикса. С другой стороны, средние значения (2-2.7%) неандертальского адмикса в популяциях Восточной Европы выглядят реалистичными. Так, например, по расчетам 23andme у меня уровень «неандертальских генов» составляет 2.67% :

Icelandic 10.50%
Norwegian 9.00%
1_Motala12 8.00%
Spain_BASC 8.00%
Albanian 7.00%
Korean 7.00%
Tiwari 5.11%
1_LBK380 5.00%
1_Loschbour 5.00%
French_South 4.00%
Kashmiri 4.00%
Tubalar 4.00%
Atayal_Coriell 3.60%
Ami_Coriell 3.10%
1_Motala_merge 3.00%
Bolivian 3.00%
Croatian 3.00%
Totonac 2.80%
Qatari 2.71%
Mixed_East_Slav 2.57%
Gujarati 2.43%
Ulchi 2.39%
North-Russian 2.36%
Center-Russian 2.36%
Aonaga 2.33%
British 2.33%
Chenchu 2.33%
East-Belarusian 2.33%
Ukrainian 2.33%
Finn 2.29%
Latvian 2.29%
Mixed_European 2.28%
South-Russian 2.27%
Pole 2.26%
Lithuanian 2.25%
West-Belarusian 2.25%
Belarusian 2.23%
Vepsa 2.23%
Bosnian 2.22%
Cree 2.20%
Georgian_Imereti 2.20%
Polish 2.20%
Orcadian 2.15%
Russian 2.15%
Karelian 2.13%
Welsh 2.12%
Swede 2.11%
Ukranians 2.11%
Greek 2.10%
Lithuanians 2.10%
Gagauz 2.09%
Croat 2.08%
Slovak 2.08%
Estonians 2.08%
Adygei 2.07%
Serb_Serbia 2.07%
Toscani 2.07%
French 2.06%
Komi 2.06%
1_LaBrana 2.00%
Algonquin 2.00%
Avar 2.00%
Azeri_Dagestan 2.00%
Azov_Greek 2.00%
Bashkir 2.00%
Belgian 2.00%
Bulgarians 2.00%
Central-Greek 2.00%
CEU 2.00%
Cirkassian 2.00%
Cochin_Jew 2.00%
Corsican 2.00%
Cretan 2.00%
Croat_BH 2.00%
Don_cossack 2.00%
Eskimo 2.00%
Haida 2.00%
Hungarian 2.00%
Hungarians 2.00%
Inkeri 2.00%
Inkeri-Finn 2.00%
Italian_Abruzzo 2.00%
Kets 2.00%
Kosovar 2.00%
Kryashen 2.00%
Kuban_cossack 2.00%
Lezgin 2.00%
Macedonian 2.00%
Meghawal 2.00%
Mishar 2.00%
Mixed_CEU 2.00%
Mixed_East_European 2.00%
Mixed_German 2.00%
Mixed_Slav 2.00%
Montenegrian 2.00%
Mordovian 2.00%
Mordovians 2.00%
North_Italian 2.00%
Occitan 2.00%
Roma_Bulgarian 2.00%
Roma_Macedonian 2.00%
Romanian_Jew_2 2.00%
Russian_South 2.00%
Saami 2.00%
Selkup 2.00%
Serb_BH 2.00%
Slovenian 2.00%
South_Greek 2.00%
Swedish 2.00%
Tabassaran 2.00%
Tatar_Lithuanian 2.00%
Velama 2.00%
West_Greenland 2.00%
French_Basque 1.95%
Chechens 1.94%
Iberian 1.94%
Chuvash 1.94%
Tatar 1.93%
Balkars 1.92%
German 1.92%
North-Ossetian 1.92%
Hant 1.89%
North_Greek 1.89%
Georgians 1.88%
Lak 1.88%
Abhkasians 1.85%
Sardinian 1.84%
Udmurd 1.84%
Maris 1.82%
Romanians 1.82%
Georgian_Laz 1.80%
Kumyks 1.80%
Lodi 1.80%
Mansi 1.77%
Chukchis 1.75%
Crimean_Tatar 1.75%
Italian_Piedmont 1.75%
Ket 1.75%
Moldavian 1.75%
Vaish 1.75%
Hallaki 1.67%
Lezgins 1.67%
Ossetian 1.67%
Tlingit 1.67%
Greek-Islands 1.63%
Turks 1.63%
Armenians 1.60%
Nogais 1.60%
Selkups 1.60%
Hakas 1.57%
Ashkenazy_Jews 1.56%
Apache 1.50%
Jew_Tat 1.50%
Kabardin 1.50%
Karitiana 1.50%
Kurds 1.50%
Nenets 1.50%
Samaritians 1.50%
Santhal 1.50%
Srivastava 1.50%
Syrian_Jew 1.50%
Tuva 1.50%
Uygur 1.50%
Mexican 1.45%
Italian_Jew 1.40%
Portugese 1.40%
Tajiks 1.40%
Kyrgyzians 1.38%
Roma_Slovenian 1.38%
Altaians 1.36%
Koryaks 1.33%
Pashtun 1.33%
Satnami 1.33%
Sicilian 1.33%
Yakut 1.31%
Cypriots 1.30%
Spaniards 1.30%
Turkmen 1.30%
French_Jew 1.29%
Iraqi_Jews 1.29%
Sephardic_Jews 1.29%
Turkmens 1.29%
Parsi 1.28%
Buryats 1.27%
Pathan 1.27%
Tadjik 1.27%
Athabask 1.25%
Iran_Jew 1.25%
Kurd_Jew 1.25%
Nganassans 1.25%
Nysha 1.25%
Azeri 1.22%
Mixtec 1.22%
Tharu 1.20%
Tunisian_Jew 1.20%
Uzbek 1.20%
Evenkis 1.18%
Kazakhs 1.18%
Roma 1.17%
Tuvinians 1.17%
Druze 1.16%
Karakalpak 1.14%
Mongolians 1.14%
Uzbeks 1.13%
Ojibwa 1.10%
Buryat 1.00%
Cochimi 1.00%
Cucupa 1.00%
Dolgan 1.00%
Dolgans 1.00%
Even 1.00%
Evenk 1.00%
Hazara 1.00%
Huichol 1.00%
Kalash 1.00%
Kalmyk 1.00%
Kamsali 1.00%
Koryak 1.00%
Kumiai 1.00%
Lambadi 1.00%
Luiseno 1.00%
Maya 1.00%
Mongol_Halha 1.00%
Nganassan 1.00%
Oroqen 1.00%
Pima 1.00%
Roma_BH 1.00%
Romanian_Jew_1 1.00%
Romanian_Jew_3 1.00%
Shor 1.00%
Surui 1.00%
Tharus 1.00%
Tsimsian 1.00%
Uyghur 1.00%
Uzbekistan_Jew 1.00%
Uzbekistani_Jews 1.00%
Vysya 1.00%
Yukaghirs 1.00%
Sindhi 0.91%
Hezhen 0.86%
Xibo 0.80%
Navajo 0.78%
Bhil 0.75%
Brahmins_UP 0.75%
Burusho 0.75%
Mongola 0.75%
Naga 0.75%
Iranians 0.71%
Daur 0.67%
Kshatriya 0.67%
Mala 0.67%
Moroccan_Jews 0.67%
Japanese 0.58%
Chinese_Dai 0.53%
Evens 0.50%
Kol 0.50%
Morocco_Jew 0.50%
Mumbai_Jews 0.50%
Scheduled_Caste_UP 0.50%
South_Han 0.50%
Tu 0.50%
North_Han 0.45%
Brahui 0.45%
She 0.44%
Tujia 0.44%
Iraki 0.43%
Naxi 0.43%
Dharkars 0.40%
Han 0.40%
Kanjars 0.40%
Miaozu 0.40%
Velamas 0.38%
Balochi 0.33%
Chenchus 0.33%
Dusadh 0.33%
Hakkipikki 0.33%
Lahu 0.33%
Piramalai_Kallars 0.33%
Yizu 0.33%
Colombian 0.25%
Chamar 0.22%
Syrians 0.22%
Dai 0.20%
Libyan_Jew 0.17%
Makrani 0.08%

Музыка и ДНК

Еще немного о интересных областях применения генетики. Когда на 23andme в свое время создали сервис DNA melody (а надо было вместо таких неопифагорейских забав задуматься над тем как умаслить FDA, и тогда бы сейчас у 23andme было бы наполовину меньше проблем), то в основу тональности (music key) музыкальной мелодии была выбрана принадлежность клиента к той или иной митохондриальной гаплогруппе. Из пояснений разработчиков: » The music lab then chooses a key using your assigned maternal haplogroup. So if your maternal haplogroup is H, for instance, it might select the key of C Major. Once the rhythm and key are determined the algorithm selects the pitches using some of the traits 23andMe reports on.» То есть если у человека митохондриальная группа H, то к примеру, «мелодия ДНК» будет звучать как До мажор — мажорная тональность с тоникой до (то же, что C-dur). Остальные элементы (ритм и так далее) подбирались из специфических генотипов, например генотипа определяющего тип ушной серы.

Интересно, что к проблеме ‘взаимодействия’ музыки и генома человека можно подойти и с другой стороны (вернее, с других сторон), например с точки зрения медицины и физиологии. В недавнем докладе спортивного врача-генетика Елены Линде, содержался интересный пассаж на тему, имеющую непосредственное отношение к теме этого сообщения:

Kimata (2003) отмечал, что классическая музыка (Моцарта) обладает выраженным антибактериальным и противовирусным эффектом (в зависимости от характера произведения) за счет изменения соотношения цитокинов групповой принадлежности Th1\Th2, участвующих в формировании адекватного иммунного ответа. McCraty et al (1996) и Kuhn (2002) описывали повышение гуморального иммунитета за счет увеличения продукции секреторных иммуноглобулинов (IgA) при прослушивании любимой музыки либо активном участии в её исполнении.

О совпадающих геномных сегментах и числе общих предков современных европейцев

Пожалуй, ни для кого не секрет, что я всегда критично относился к спекулятивным танцам с бубнами вокруг предсказания степени родства (дистанции до последнего общего предка) между отдельно взятыми индивидами по размерам и генетической дистанции совпадающих у этих индивидов генетических сегментов.  Основным объектом моей критики являлись сверх-оптимистичные оценки гипотетического родства, используемые в коммерческих компаниях 23andme и FTDNA. Тут дело не в фирме, а в статистических особенностях выборки (у 23ия она явно ассимметричная) и -что еще ВАЖНЕЕ — в неопределенности процесса рекомбинации, что приводит к практическим трудностям в плане предсказания степени родства. То есть такой рубеж (пороговое значение сМ+размер УПСа) за пределами которых точный (в мат.статистическом смысле этого слова) генеалогический предикт невозможен.  Как я показывал ранее, у 23andme и особенно у FTDNA -он явно завышен и оторван от эмпирической действительности.  Красноречивым доказательством фатальной ошибки методологии (игнорирование сложного комплекса демографических факторов) является то, что большинство из предсказанных «6-7-юродных кузенов» не смогли подтвердить предсказанную степень родства с помощью методов традиционной генеалогии.

Этот досадный пробел был предметом многочисленных дискуссий среди пользователей компаний, в ходе которых мне так и не удалось убедить людей в иллюзорности их генеалогических мечтаний, которые подобно башням из слоновой кости, были выстроены на пустом месте  — неправильном предикте родства от ведущих коммерческих компаний в области персональной геномики.  Мои ухищрения,  -целью которых была демонстрация очевидного факта, что дискретный совпадающий сегмент размеров в 700 базовых пар и генетической дистанцией 7 см, мог достаться с одинаковой вероятностью как  от общего предка жившего 1000-2000 лет назад,  так и от прапрапрапрапрадеда, — так остались и пустыми логико-риторическими упражнениями в сотрясании интернет-траффика.  Не помогали даже материальные аргументы в виде результатов посегментного анализа  IBD у двух отдельно взятых неродственных людей из разных этнических групп. Например, вот результаты моего анализа выборки европейцев в программе Germline  (в целях сравнения статистических данных с данными 23andme, пороговые параметры в определении блока совпадения были приближены  к аналогичным параметрам в 23andme):

Orcadian HGDP00805 GBR_Orkney HG00108 2 107235902 153679651 rs12478937 rs10804036 3840 48,02 cM
Orcadian HGDP00804 Orcadian HGDP00810 2 2419677 29883379 rs12472646 rs12105526 3200 47,35 cM
North_Italian HGDP01173 North_Italian HGDP01174 2 43848995 70558910 rs7601418 rs17005666 3072 27,72 cM
Orcadian HGDP00803 Orcadian HGDP00810 2 61897757 88544724 rs7589969 rs13416374 2560 27,25 cM
Belorussian V150 Belorussian V219 2 53712521 66119342 rs6752239 rs17481962 1152 19,24 cM
Orcadian HGDP00804 GBR_Orkney HG00123 2 176257713 202211470 rs7592980 rs2676325 1920 18,39 cM
Lithuanian V216 Lithuanian V184 2 230439641 239396393 rs9288651 rs12471757 1152 18,13 cM
Ceu NA12045 Ceu NA12046 2 31424193 53699177 rs4952085 rs12479326 2816 15,09 cM
Chuvash GSM536732 Chuvash GSM536741 2 196830738 213271317 rs6731238 rs7575556 1408 14,6 cM
North-ossetian NorthOssetia3 North-ossetian NorthOssetia17 2 114989183 128751553 rs1346763 rs17016070 1152 14,52 cM
Russian HGDP00903 Russian HGDP00886 2 180753203 200962201 rs2056790 rs842823 1280 13,13 cM
Toscanian NA20752 Toscanian NA20826 2 71262858 85022082 rs412014 rs1979403 1280 12,83 cM
Sardinian HGDP01078 Sardinian HGDP00670 2 211234009 219428593 rs2270476 rs751135 896 12,71 cM
Lithuanian GSM536635 Lithuanian V174 2 53712521 61891702 rs6752239 rs1534648 768 11,51 cM
Chuvash GSM536730 Chuvash GSM536734 2 192150674 206350465 rs6713885 rs3732088 1024 10,98 cM
Finn HG00362 Finn HG00364 2 195087979 207551957 rs17587496 rs1006389 1024 10,63 cM
Toscanian NA20538 Toscanian NA20801 2 195087979 207551957 rs17587496 rs1006389 1024 10,63 cM
Toscanian NA20510 Toscanian NA20582 2 57622181 64181096 rs1527624 rs329497 512 10,38 cM
Lithuanian GSM536639 Lithuanian V192 2 57622181 64181096 rs1527624 rs329497 512 10,38 cM
North-ossetian NorthOssetia8 North-ossetian NorthOssetia17 2 221949758 229434957 rs11689951 rs13002075 768 10,1 cM
Orcadian HGDP00810 GBR_Orkney HG00109 2 150927335 167571220 rs10930090 rs869000 1408 9,98 cM
Ukrainian-Bel UkrBel618 Lithuanian V181 2 143507484 150927022 rs2304700 rs7600018 512 9,9 cM
North-ossetian NorthOssetia5 North-ossetian NorthOssetia19 2 45493838 59093657 rs3755072 rs6545712 1664 9,56 cM
Finn HG00173 Ceu NA12891 2 59113811 64181096 rs9309307 rs329497 384 9,24 cM
Chuvash GSM536734 Chuvash GSM536738 2 59113811 64181096 rs9309307 rs329497 384 9,24 cM
Ashkenazy GSM536681 Ashkenazy GSM536690 2 61897757 67156370 rs7589969 rs13405122 512 9,22 cM
Orcadian HGDP00800 Orcadian HGDP00802 2 212143458 218035046 rs12622730 rs2618139 640 9,14 cM
French_Basque HGDP01368 French_Basque HGDP01375 2 176257713 190701607 rs7592980 rs6718711 1152 9,13 cM
Finn HG00185 Ukrainian V234 2 188656086 200962201 rs7582658 rs842823 768 9,1 cM
Ceu NA12340 GBR_Orkney HG00108 2 53712521 60353988 rs6752239 rs2110398 640 9,04 cM
Romanian GSM536601 Belorussian GSM536699 2 149282942 156626573 rs12467520 rs16839941 640 9 cM
Abhasian abh53 North-ossetian NorthOssetia2 2 149282942 156626573 rs12467520 rs16839941 640 9 cM
Ashkenazy GSM536679 Ashkenazy GSM536681 2 60356734 65245546 rs907574 rs6546132 384 8,62 cM
Finn HG00343 Finn HG00366 2 129857353 138348072 rs2123522 rs16839804 768 8,26 cM
French_Basque HGDP01361 French_Basque HGDP01360 2 231428606 235338278 rs2466150 rs7602550 512 8,03 cM
Toscanian NA20539 Toscanian NA20585 2 51717876 59093657 rs11563025 rs6545712 768 7,98 cM
Lithuanian GSM536636 Lithuanian V184 2 51717876 59093657 rs11563025 rs6545712 768 7,98 cM
Ceu NA12044 Lithuanian V205 2 133615548 141217162 rs1434228 rs16844617 768 7,96 cM
Ukrainian-Bel UkrBel622 Belorussian V189 2 149282942 154983271 rs12467520 rs799761 512 7,92 cM
Spaniards GSM536582 French_Basque HGDP01377 2 142156580 149275095 rs1437351 rs1374441 512 7,9 cM
Orcadian HGDP00807 Orcadian HGDP00805 2 142156580 149275095 rs1437351 rs1374441 512 7,9 cM
Orcadian HGDP00807 GBR_Orkney HG00108 2 142156580 149275095 rs1437351 rs1374441 512 7,9 cM
Finn HG00185 Finn HG00366 2 182395284 195087892 rs16867499 rs17513288 768 7,74 cM
French_Basque HGDP01375 French_Basque HGDP01357 2 182395284 195087892 rs16867499 rs17513288 768 7,74 cM
Chuvash GSM536735 Chuvash GSM536741 2 52752510 59093657 rs1563200 rs6545712 640 7,72 cM
Russian HGDP00879 Ukrainian Ukraine94 2 52752510 59093657 rs1563200 rs6545712 640 7,72 cM
Russian HGDP00891 Ukrainian V202 2 61897757 66119342 rs7589969 rs17481962 384 7,72 cM
Toscanian NA20803 GBR_Cornwall HG00237 2 113480046 119613318 rs895497 rs6728751 512 7,7 cM
Finn HG00173 CEU_V V257 2 177355234 190701607 rs1554824 rs6718711 1024 7,68 cM
Lithuanian GSM536644 Belorussian V221 2 196830738 206350465 rs6731238 rs3732088 768 7,52 cM
Belorussian GSM536701 Mordovian mordovia4 2 144851058 150927022 rs3928425 rs7600018 384 7,5 cM
Ashkenazy GSM536680 Ashkenazy GSM536691 2 230439641 234587863 rs9288651 rs3732214 512 7,46 cM
Ashkenazy GSM536691 Ashkenazy GSM536694 2 230439641 234587863 rs9288651 rs3732214 512 7,46 cM
Russian HGDP00886 Russian HGDP00883 2 29273095 34859496 rs1670284 rs17015608 768 7,43 cM
Abhasian abh74 Nogay nogay8 2 137299914 144795535 rs12617926 rs10496963 768 7,31 cM
Ashkenazy GSM536690 Ashkenazy GSM536692 2 47533482 57615259 rs10514805 rs13422952 1152 7,3 cM
Adygei HGDP01382 Adygei HGDP01402 2 47533482 57615259 rs10514805 rs13422952 1152 7,3 cM
Belorussian GSM536699 GBR_Kent HG00130 2 56109336 61891702 rs3850353 rs1534648 512 7,14 cM
Chuvash GSM536733 Chuvash GSM536734 2 116610556 123992914 rs7579948 rs10496614 640 7,03 cM
Finn HG00179 Lithuanian GSM536639 2 60356734 64181096 rs907574 rs329497 256 7 cM
Ceu NA12891 Lithuanian V183 2 60356734 64181096 rs907574 rs329497 256 7 cM
Toscanian NA20541 Hungarian GSM536631 2 60356734 64181096 rs907574 rs329497 256 7 cM
Toscanian NA20541 Ukrainian V234 2 60356734 64181096 rs907574 rs329497 256 7 cM
Hungarian GSM536631 Ukrainian V234 2 60356734 64181096 rs907574 rs329497 256 7 cM
Sardinian HGDP00667 Russian HGDP00895 2 60356734 64181096 rs907574 rs329497 256 7 cM
French HGDP00537 Lithuanian V183 2 60356734 64181096 rs907574 rs329497 256 7 cM
French_Basque HGDP01368 Orcadian HGDP00798 2 60356734 64181096 rs907574 rs329497 256 7 cM
Belorussian V189 Russian V186 2 60356734 64181096 rs907574 rs329497 256 7 cM
Belorussian V189 Norwegian V255 2 60356734 64181096 rs907574 rs329497 256 7 cM
Ceu NA12843 CEU_V V224 2 141221189 146650404 rs387927 rs7608936 512 6,98 cM
East_German V242 Swedish V245 2 149282942 153679651 rs12467520 rs10804036 384 6,98 cM
North-ossetian NorthOssetia3 North-ossetian NorthOssetia5 2 114989183 121038508 rs1346763 rs7568633 512 6,97 cM
North-ossetian NorthOssetia5 North-ossetian NorthOssetia17 2 114989183 121038508 rs1346763 rs7568633 512 6,97 cM
Toscanian NA20803 CEU_V V166 2 48791118 57615259 rs17326328 rs13422952 1024 6,94 cM
Ukrainian-Pol UkrainePol25 Belorussian V221 2 50693731 57615259 rs17040897 rs13422952 768 6,88 cM
Ukrainian-Lv UkrLv228 Ukrainian-Lv UkrLv223 2 51717876 57615259 rs11563025 rs13422952 640 6,86 cM
Ukrainian V196 V251 Lithuanian 2 51717876 57615259 rs11563025 rs13422952 640 6,86 cM
Ceu NA12003 Belorussian V157 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Toscanian NA20539 Toscanian NA20541 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Toscanian NA20541 Toscanian NA20585 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Hungarian GSM536616 Polish V176 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Hungarian GSM536634 GBR_Orkney HG00108 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Lithuanian GSM536642 French_Basque HGDP01361 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Lithuanian GSM536642 North-ossetian NorthOssetia1 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
French HGDP00522 Ukrainian-Lv UkrLv237 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Russian V164 Swedish V178 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Lithuanian GSM536636 Ukrainian-Bel UkrBel618 2 54935367 60353988 rs12713282 rs2110398 512 6,77 cM
Russian HGDP00880 CEU_V V214 2 54935367 60353988 rs12713282 rs2110398 512 6,77 cM
French_Basque HGDP01366 CEU_V V212 2 54935367 60353988 rs12713282 rs2110398 512 6,77 cM
Lithuanian V183 Belorussian V219 2 54935367 60353988 rs12713282 rs2110398 512 6,77 cM
Hungarian GSM536634 Mordovian mordovia15 2 24378462 29883379 rs7603997 rs12105526 512 6,75 cM
French_Basque HGDP01374 French_Basque HGDP01370 2 33876524 42795681 rs4313958 rs10194712 1024 6,75 cM
French_Basque HGDP01374 French_Basque HGDP01369 2 208741802 216158215 rs7589531 rs1898722 640 6,74 cM
French_Basque HGDP01366 French_Basque HGDP01360 2 150927335 158463570 rs10930090 rs6437119 640 6,71 cM
Adygei HGDP01385 Ashkenazy V217 2 133615548 139819161 rs1434228 rs1877937 640 6,66 cM
Lithuanian V192 East_German V199 2 133615548 139819161 rs1434228 rs1877937 640 6,66 cM
French_Basque HGDP01361 French_Basque HGDP01375 2 184066647 195087892 rs2368443 rs17513288 640 6,62 cM
Belorussian GSM536702 Ashkenazy V217 2 52752510 57615259 rs1563200 rs13422952 512 6,59 cM
Chuvash GSM536745 Lithuanian V184 2 52752510 57615259 rs1563200 rs13422952 512 6,59 cM
Ceu NA07346 Orcadian HGDP00808 2 134492388 141217162 rs7594310 rs16844617 640 6,59 cM
Lithuanian GSM536642 Ukrainian-Bel UkrBel614 2 132875392 138348072 rs7422689 rs16839804 640 6,55 cM
French_Basque HGDP01361 French_Basque HGDP01373 2 219454805 223052099 rs10177996 rs4674656 384 6,54 cM
French_Basque HGDP01373 French_Basque HGDP01363 2 219454805 223052099 rs10177996 rs4674656 384 6,54 cM
Toscanian NA20509 Toscanian NA20540 2 180753203 192143509 rs2056790 rs4640333 768 6,53 cM
Adygei HGDP01383 Abhasian abh85 2 180753203 192143509 rs2056790 rs4640333 768 6,53 cM
CEU_V V214 Lithuanian V218 2 180753203 192143509 rs2056790 rs4640333 768 6,53 cM
Russian V207 Belorussian V189 2 212143458 216960658 rs12622730 rs1111341 512 6,5 cM
Ceu NA12046 GBR_Kent HG00149 2 143507484 149275095 rs2304700 rs1374441 384 6,49 cM
Hungarian GSM536618 Belorussian V189 2 143507484 149275095 rs2304700 rs1374441 384 6,49 cM
Adygei HGDP01383 Adygei HGDP01402 2 143507484 149275095 rs2304700 rs1374441 384 6,49 cM
GBR_Cornwall HG00231 GBR_Cornwall HG00243 2 20207509 24368500 rs7601441 rs10495747 384 6,42 cM
Ceu NA12891 Orcadian HGDP00797 2 132875392 137296704 rs7422689 rs10496758 512 6,29 cM
Adygei HGDP01385 CEU_V V166 2 132875392 137296704 rs7422689 rs10496758 512 6,29 cM
Russian V165 Lithuanian V192 2 132875392 137296704 rs7422689 rs10496758 512 6,29 cM
French_Basque HGDP01360 French_Basque HGDP01364 2 23009367 28398613 rs7586848 rs2279475 384 6,24 cM
Russian V207 Russian V162 2 178836075 190701607 rs919682 rs6718711 896 6,16 cM
Ceu NA06985 Ukrainian V234 2 61897757 65245546 rs7589969 rs6546132 256 6,15 cM
Ashkenazy GSM536679 Ashkenazy GSM536690 2 61897757 65245546 rs7589969 rs6546132 256 6,15 cM
Sardinian HGDP00673 Sardinian HGDP01072 2 61897757 65245546 rs7589969 rs6546132 256 6,15 cM
French_Basque HGDP01372 French_Basque HGDP01375 2 85022931 105998825 rs6726213 rs1647681 1152 5,99 cM
Iberian HG01530 Lithuanian GSM536639 2 196830738 205189112 rs6731238 rs12621708 640 5,94 cM
Toscanian NA20539 Toscanian NA20810 2 142156580 146650404 rs1437351 rs7608936 384 5,9 cM
Romanian GSM536594 Belorussian V157 2 142156580 146650404 rs1437351 rs7608936 384 5,9 cM
Finn HG00355 CEU_V V206 2 129857353 135467264 rs2123522 rs2322253 512 5,89 cM
Hungarian GSM536627 Belorussian GSM536698 2 123995298 128751553 rs6707592 rs17016070 384 5,86 cM
Lithuanian GSM536640 Belorussian V219 2 123995298 128751553 rs6707592 rs17016070 384 5,86 cM
French_Basque HGDP01374 French_Basque HGDP01369 2 123995298 128751553 rs6707592 rs17016070 384 5,86 cM
Iberian HG01501 French HGDP00514 2 57622181 61891702 rs1527624 rs1534648 384 5,85 cM
French HGDP00514 Mordovian mordovia15 2 57622181 61891702 rs1527624 rs1534648 384 5,85 cM
French HGDP00538 French_Basque HGDP01357 2 57622181 61891702 rs1527624 rs1534648 384 5,85 cM
French_Basque HGDP01377 GBR_Orkney HG00123 2 57622181 61891702 rs1527624 rs1534648 384 5,85 cM
Mordovian mordovia15 CEU_V V213 2 57622181 61891702 rs1527624 rs1534648 384 5,85 cM
Romanian GSM536594 Russian HGDP00897 2 116610556 122642738 rs7579948 rs12612050 512 5,82 cM
Finn HG00367 East_German V242 2 166035134 169872014 rs10497261 rs2247506 384 5,79 cM
Mordovian mordovia6 Belorussian V150 2 166035134 169872014 rs10497261 rs2247506 384 5,79 cM
Russian V179 Polish V169 2 170969033 176253825 rs6736609 rs7578330 512 5,79 cM
Hungarian GSM536626 Polish V223 2 24378462 29269296 rs7603997 rs1728828 384 5,78 cM
Russian HGDP00899 Belorussian V235 2 24378462 29269296 rs7603997 rs1728828 384 5,78 cM
French_Basque HGDP01377 French_Basque HGDP01360 2 231428606 234587863 rs2466150 rs3732214 384 5,76 cM
French_Basque HGDP01361 French_Basque HGDP01377 2 233009060 235338278 rs12996863 rs7602550 384 5,76 cM
French_Basque HGDP01372 French_Basque HGDP01374 2 104096603 111624162 rs12613102 rs724710 640 5,75 cM
Lithuanian GSM536641 Belorussian GSM536698 2 121048500 127300092 rs1467326 rs4072704 512 5,72 cM
Finn HG00180 East_German V199 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Finn HG00343 GBR_Kent HG00143 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Finn HG00365 Ashkenazy V217 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Ceu NA07346 East_German V199 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Ceu NA12891 Ashkenazy V217 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Ceu NA12891 East_German V199 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Romanian GSM536590 Orcadian HGDP00798 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Lithuanian GSM536640 Belorussian V220 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Lithuanian GSM536642 Ukrainian Ukraine141 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Adygei HGDP01388 GBR_Cornwall HG00257 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Ukrainian-Pol UkrainePol19 East_German V240 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Ukrainian-Pol UkrainePol19 East_German V241 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
GBR_Orkney HG00101 Lithuanian V192 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Russian V165 East_German V199 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Lithuanian V183 Ashkenazy V217 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Lithuanian V184 Polish V180 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
CEU_V V212 Belorussian V220 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Belorussian V220 Ashkenazy V217 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
East_German V241 East_German V199 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Ashkenazy V217 East_German V199 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Finn HG00179 Belorussian V189 2 135475565 142152929 rs6706490 rs164979 640 5,68 cM
Iberian HG01630 Ceu NA12283 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Iberian HG01630 Mordovian mordovia14 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Ceu NA12006 Ceu NA12155 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Toscanian NA20538 Russian GSM536913 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Toscanian NA20755 GBR_Cornwall HG00233 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Toscanian NA20798 French_Basque HGDP01376 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Hungarian GSM536616 North_Italian HGDP01155 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Hungarian GSM536616 Orcadian HGDP00810 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Lithuanian GSM536636 Chuvash GSM536745 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Lithuanian GSM536642 Russian V165 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Lithuanian GSM536642 Lithuanian V192 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Lithuanian GSM536643 Norwegian V255 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Ashkenazy GSM536679 Ashkenazy V217 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Chuvash GSM536736 Russian HGDP00891 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Chuvash GSM536745 CEU_V V214 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
French_Basque HGDP01361 Lithuanian V192 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
French HGDP00522 GBR_Cornwall HG00258 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
North_Italian HGDP01174 French_Basque HGDP01379 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
North_Italian HGDP01174 French_Basque HGDP01365 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
French HGDP00515 Bulgarian Bulgaria7 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Sardinian HGDP00673 Ukrainian-Lv UkrLv237 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Abhasian abh9 Lithuanian V254 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Mordovian mordovia6 Lithuanian V184 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Mordovian mordovia12 Bulgarian Bulgaria6 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Bulgarian Bulgaria6 Polish V160 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Belorussian V221 Lithuanian V184 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Lithuanian V184 CEU_V V214 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Russian V232 V251 Lithuanian 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Belorussian V189 Ukrainian V202 2 48791118 56107009 rs17326328 rs13418952 896 5,65 cM
North_Italian HGDP01177 Mordovian mordovia2 2 2419677 3692890 rs12472646 rs13395090 256 5,61 cM
North-ossetian NorthOssetia3 Polish V169 2 2419677 3692890 rs12472646 rs13395090 256 5,61 cM
Ukrainian V236 Belorussian V220 2 49679328 56107009 rs1553129 rs13418952 768 5,61 cM
Chuvash GSM536730 Chuvash GSM536740 2 85022931 105326765 rs6726213 rs2576767 1024 5,6 cM
Toscanian NA20581 Russian V179 2 51717876 56107009 rs11563025 rs13418952 512 5,57 cM
Adygei HGDP01388 Lithuanian V222 2 51717876 56107009 rs11563025 rs13418952 512 5,57 cM
GBR_Cornwall HG00231 CEU_V V226 2 51717876 56107009 rs11563025 rs13418952 512 5,57 cM
Mordovian mordovia2 Mordovian mordovia15 2 12179872 15869508 rs10201732 rs11687741 384 5,53 cM
Toscanian NA20509 Toscanian NA20542 2 234051542 236028545 rs745155 rs4663587 384 5,53 cM
French HGDP00515 French_Basque HGDP01368 2 182395284 192143509 rs16867499 rs4640333 640 5,52 cM
Belorussian V189 Ashkenazy V229 2 182395284 192143509 rs16867499 rs4640333 640 5,52 cM
Finn HG00180 Ceu NA12891 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00180 Chuvash GSM536744 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00180 Orcadian HGDP00797 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00180 Ukrainian-Pol UkrainePol19 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00180 Russian V165 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00180 East_German V241 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00180 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00343 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00355 Adygei HGDP01385 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA07346 Ceu NA12892 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA11829 Orcadian HGDP00797 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA11829 CEU_V V204 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12006 GBR_Kent HG00143 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12044 Lithuanian GSM536642 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12044 Orcadian HGDP00797 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12044 CEU_V V204 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12044 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12044 Russian V161 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12283 Adygei HGDP01385 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12283 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12283 East_German V199 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12891 Ukrainian-Pol UkrainePol19 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12891 Russian V165 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12891 Lithuanian V192 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12891 Belorussian V220 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12892 GBR_Kent HG00143 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12892 East_German V199 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Lithuanian GSM536642 Adygei HGDP01385 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Lithuanian GSM536642 CEU_V V204 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Chuvash GSM536729 Chuvash GSM536738 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00807 East_German V199 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00796 GBR_Orkney HG00108 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Adygei HGDP01385 CEU_V V204 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
French HGDP00515 French HGDP00527 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Adygei HGDP01388 Lithuanian V192 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Adygei HGDP01388 Belorussian V220 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
North_Italian HGDP01154 Mordovian mordovia5 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
North_Italian HGDP01154 Lithuanian V250 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Russian HGDP00879 GBR_Kent HG00143 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00797 Lithuanian V192 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00797 CEU_V V166 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00797 East_German V240 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00797 East_German V241 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00797 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00797 East_German V199 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Bulgarian Bulgaria37 Polish V248 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ukrainian Ukraine141 CEU_V V204 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ukrainian-Pol UkrainePol19 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
GBR_Kent HG00143 Norwegian V256 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
GBR_Cornwall HG00257 Belorussian V220 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Polish V180 East_German V241 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Lithuanian V192 CEU_V V204 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Lithuanian V192 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
CEU_V V204 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
CEU_V V204 Russian V161 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
East_German V240 Norwegian V256 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ashkenazy V217 Lithuanian V250 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Lithuanian V250 East_German V199 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Abhasian abh27 Ukrainian-Lv UkrLv223 2 185957876 195087892 rs16823795 rs17513288 512 5,45 cM
Iberian HG01504 French_Basque HGDP01372 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Iberian HG01504 French_Basque HGDP01362 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Ceu NA12155 GBR_Kent HG00130 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Ceu NA12155 GBR_Cornwall HG00237 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Ceu NA12155 East_German V198 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Ceu NA12155 CEU_V V257 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Ceu NA12891 Norwegian V256 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Toscanian NA20800 Ukrainian V188 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Toscanian NA20803 GBR_Kent HG00130 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Toscanian NA20803 East_German V198 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Toscanian NA20803 CEU_V V257 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Romanian GSM536595 North_Italian HGDP01157 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Lithuanian GSM536643 French HGDP00525 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Belorussian GSM536703 GBR_Kent HG00130 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
French_Basque HGDP01372 French_Basque HGDP01362 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
French_Basque HGDP01360 French_Basque HGDP01380 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
GBR_Kent HG00130 GBR_Cornwall HG00237 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
GBR_Kent HG00130 East_German V198 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
GBR_Kent HG00130 CEU_V V257 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
GBR_Cornwall HG00237 East_German V198 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
GBR_Cornwall HG00237 CEU_V V257 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Russian V207 Norwegian V194 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
East_German V198 CEU_V V257 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Lithuanian GSM536635 V251 Lithuanian 2 66144018 71254525 rs10198404 rs397458 640 5,39 cM
Ceu NA12275 Polish V243 2 146687885 150927022 rs12997609 rs7600018 256 5,39 cM
Ceu NA12347 French_Basque HGDP01375 2 146687885 150927022 rs12997609 rs7600018 256 5,39 cM
French_Basque HGDP01375 East_German V242 2 146687885 150927022 rs12997609 rs7600018 256 5,39 cM
Russian HGDP00895 Lithuanian V211 2 146687885 150927022 rs12997609 rs7600018 256 5,39 cM
French_Basque HGDP01362 French_Basque HGDP01371 2 195087979 202211470 rs17587496 rs2676325 512 5,34 cM
North_Italian HGDP01152 CEU_V V175 2 195087979 202211470 rs17587496 rs2676325 512 5,34 cM
Chuvash GSM536730 Chuvash GSM536743 2 116610556 121038508 rs7579948 rs7568633 384 5,33 cM
French_Basque HGDP01374 French_Basque HGDP01368 2 116610556 121038508 rs7579948 rs7568633 384 5,33 cM
Finn HG00362 Finn HG00367 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Finn HG00365 French_Basque HGDP01359 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Ceu NA07056 North-ossetian NorthOssetia5 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Ceu NA12044 Ceu NA12546 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Toscanian NA20503 Toscanian NA20796 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Toscanian NA20510 Sardinian HGDP01071 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Toscanian NA20582 French_Basque HGDP01357 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Toscanian NA20797 Ukrainian V234 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Toscanian NA20798 Lithuanian GSM536636 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Toscanian NA20804 Sardinian HGDP01071 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Spaniards GSM536581 Russian V165 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Hungarian GSM536616 Ukrainian-Pol UkrainePol25 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Hungarian GSM536627 GBR_Cornwall HG00233 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Lithuanian GSM536636 Mordovian mordovia6 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Lithuanian GSM536636 CEU_V V214 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Lithuanian GSM536638 Ukrainian-Lv UkrLv223 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Lithuanian GSM536642 Russian HGDP00880 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
French HGDP00522 Sardinian HGDP00673 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Orcadian HGDP00799 East_German V233 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
French_Basque HGDP01379 French_Basque HGDP01365 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Adygei HGDP01383 CEU_V V209 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
North_Italian HGDP01155 Mordovian mordovia5 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Russian HGDP00897 Swedish V245 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Mordovian mordovia6 CEU_V V214 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Mordovian mordovia6 Norwegian V255 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Bulgarian Bulgaria37 Russian V232 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
GBR_Cornwall HG00231 Belgian V253 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Russian V179 Russian V162 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Lithuanian V184 CEU_V V206 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Iberian HG01504 Romanian GSM536601 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
Iberian HG01504 French_Basque HGDP01377 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
Romanian GSM536602 East_German V241 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
French_Basque HGDP01357 CEU_V V257 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
Ukrainian-Bel UkrBel614 Russian V164 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
GBR_Orkney HG00123 GBR_Kent HG00129 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
Lithuanian V184 Lithuanian V174 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
Ceu NA12891 Hungarian GSM536630 2 167571666 169872014 rs1877192 rs2247506 256 5,28 cM
Ashkenazy GSM536677 CEU_V V214 2 167571666 169872014 rs1877192 rs2247506 256 5,28 cM
Russian V164 Lithuanian V222 2 167571666 169872014 rs1877192 rs2247506 256 5,28 cM
Toscanian NA20803 French_Basque HGDP01362 2 125284013 129849835 rs314712 rs2030664 384 5,26 cM
Bulgarian Bulgaria7 Latvian V238 2 125284013 129849835 rs314712 rs2030664 384 5,26 cM
Ceu NA12045 Ashkenazy GSM536681 2 122648492 127300092 rs1545016 rs4072704 384 5,24 cM
Romanian GSM536600 Belorussian V220 2 122648492 127300092 rs1545016 rs4072704 384 5,24 cM
French_Basque HGDP01374 French_Basque HGDP01368 2 122648492 127300092 rs1545016 rs4072704 384 5,24 cM
Ceu NA12347 Orcadian HGDP00797 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
Ceu NA12347 East_German V203 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
Ceu NA12347 East_German V242 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
Orcadian HGDP00797 East_German V203 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
Orcadian HGDP00797 East_German V242 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
Bulgarian Bulgaria39 Norwegian V194 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
East_German V203 East_German V242 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
Ashkenazy V229 Russian V161 2 190708276 196826267 rs13012077 rs1869796 384 5,17 cM
Finn HG00355 Toscanian NA20807 2 174422779 178813234 rs17233751 rs6433715 384 5,14 cM
Hungarian GSM536627 Belorussian V221 2 196830738 204167451 rs6731238 rs4675350 512 5,07 cM
Chuvash GSM536730 Adygei HGDP01382 2 192150674 198914641 rs6713885 rs2727765 384 5,04 cM
Adygei HGDP01382 CEU_V V209 2 192150674 198914641 rs6713885 rs2727765 384 5,04 cM
Mordovian mordovia13 Nogay nogay7 2 192150674 198914641 rs6713885 rs2727765 384 5,04 cM

Как видно из приведенного анализа, некоторые из совпадающих сегментов с генетической дистанцией > 7 cM встречаются не только в сравнениях людей одной популяции, но и при сравнении лиц из удаленных друг от друга этнических популяций. Второй важный момент:  причины образования больших  IBD сегментов могут быть разными, поэтому сегменты сами по себе не всегда надежны при определении степени родства между отдельно взятыми людьми. В моем примере, внушительные размеры совпадающего сегмента у оркнейцев — 47.35 сM — объясняются вовсе не близкой степенью родства, а большим количеством общих предков, и следовательно инбридингом, одним из следствий которого является гомозиготность популяции.  В  случае с тосканцами (North Italians) блок размером в 25 сантиморганид есть ни что иное как свидетельство феномена криптородства. Что касается сегмента с генетической дистанцией 19 сM между V150 (это я) и V217, то он детектируется в 23andme. Поскольку часть предков V150 и V217 проживала в географически смежных регионах (Пинский и Слуцкий регион Беларуси), то нельзя исключать очевидной связи сегмента с региональной привязкой (например, встречается у большой части населения этого региона И таких примеров множество. Такие примеры лучше всего иллюстрировать построив в программах типа Gephi сети, где в качестве ребер соединяющих узлы, будут выступать величины генетической дистанции между индивидами. Например, так

screenshot_225259

До июля прошлого года,  мой одинокий голос разума здравого скептицизма было подобен гласу вопиющего в пустыне.
В июле 2012 года произошло знаменательное событие —  ученые Peter Ralph и Graham Coop их университета Южной Калифорнии опубликовали в arXiv первоначальную версию своей статьи (которая позже была размещена и на профильном портале PLos Biology).

Эту работу -The Geography of Recent Genetic Ancestry across Europe- можно считать новаторской по целому ряду признаков.
Во-первых, это первая работа написанная на предмет анализа соотношения мозаики генетического наследования (в виде рекомбинантных блоков) и генеалогической дистанции. Емнип, раньше такие вопросы рассматривались только в рамках узких форумных дискуссий.

Во-вторых, в работе используется весьма элегантный математический аппарат и затрагивается целый ряд важных вопрос.

И, наконец, в-третьих, авторы используют академическую выборку европейских популяций Popres, обследуя  ее на ряд важных статистических параметров.

Но дадим слово самим авторам:

Недавняя генеалогическая история человеческой популяции отражает сложную мозаику сформированную процессами отдельных миграций, крупномасштабными перемещения населения и другими демографическими событиями. Анализ геномных данных популяций может пролить свет на события недавней истории, а редкие недавние следы общей генетической родословной обнаруживаются в виде длинных идентичных сегментов  в сравниваемом материал. Мы использовали геномные данные 2257 европейцев (в базе данных Population Reference [POPRES]) для проведения одного из первых исследований недавней генеалогической родословной в течение последних 3000 лет в европейском континентальном масштабе. Мы обнаружили 1 900 000  длинных геномных сегментов-совпадений, и использовали длины этих сегментов для установления характера распределения общих предков во времени и географии. Мы считаем, что пара современных европейцев, живущих в соседних этнических популяций, имеет в среднем от 2 до 12  общих генетических предков в течении  последних 1500 лет, и свыше 100 генетических предков в течении предыдущих 1000 года. Эти цифры уменьшаются  экспоненциально с увеличением географического расстояния, но так как эти генетические предки составляет лишь мизерную долю от общего числа генеалогических предков, теоретически люди с разных концов Европы должны иметь миллионы общих генеалогических предков за последние 1000 лет. Существует также существенные региональные различия в числе общих генетических предков. Например, особенно значительное число общих предков наблюдается между несколькими восточно-европейскими популяциями,  возникновение которых относится примерно к периоду переселения народов (которое включает в  себя славянскую и гуннской экспансии в этом регионе). С другой стороны один из самых низких уровней общего происхождения  наблюдается на Апеннинском  и Пиренейском полуостровах, и это может свидетельствовать о различных эффектах в демографической истории населения в этих районах и / или более стабильно структурированном населении.

Как отмечалось выше, в работе затрагивается целый спектр интересных моментов касающихся предмета исследований.
Мы остановимся только на двух моментах:

1. Представители некоторых этнических популяций разделяют в среднем  большое количество общих предков с соседней популяцией, чем с представителями собственной этногруппы. Пример: немцы разделяют большее число предков с поляками, чем с другими немцами (1,24 против 1,05, р = 5,7 × 10-6).  Авторы объясняют этот феномен недавней асимметричной миграцией из меньшей популяции в большую.

2. Второй момент связан напрямую с проблемой определения времени жизни последнего общего предка от которого был унаследован сегмент. Понятно, что ответ на этот вопрос будет иметь важное значение для тех людей, кто покупал услуги 23andme исключительно в генеалогических целях. На первый взгляд, все просто. Допустим, если я и Вы разделяем  IBD блок генома размеров в 10 сантиморганов , то встает вопрос — когда же именно жил наш последний общий предок?
По теоретическим расчетам, средняя длина блока IBD унаследованного общего предка жившего пяти поколений назад, составляет 10 сантиморганид; поэтому мы могли бы ожидать, что средняя дистанция до общего предка составляет всего пять поколений.

Тем не менее, прямая экспликация результатов в обсуждаемой работе говорит о том, что средний возраст блока (10 cM) общего по происхождению у двух лиц с территории Соединенного Королевства составляет от 32 до 52 поколений (в зависимости от типа используемого распределения). Такое расхождение с теоретическими прогнозами видимо связано с тем, что априори гораздо более вероятно, что общий генетический предок  жил  в более отдаленном  прошлом, и эта априорная вероятность сильно искажает результаты нашего наивной ожидания. И хотя с учетом действия рекомбинации представляется маловероятным, что блок 10 сM унаследован от конкретного общего предка жившего примерно 40 поколений назад, существует большое количество таких древних общих предков. Это также означает, что расчетные возраста зависят также и от разделенной популяционной историей ‘: например, возраст аналогичного блока (10 cM) разделяемого кем-то из Соединенного Королевства с кем-то из Италии еще старше, как правило, примерно 60 поколений до  общего предка.  Впрочем, это правило не применяется в том случае если предки из совсем недавнего прошлого (не более чем восемь поколений) . Обычно в таком случае от общего предка наследуется сразу несколько длинных  сегментов (часто на разных хромосомах), и  в данном случае, мы можем надеяться сделать вывод о конкретном генеалогическом родстве с достаточной степенью достоверность, хотя даже в этом случае следует соблюдать осторожность, чтобы исключить возможность того, что эти несколько блоков не были унаследованы от общих удаленных предков.

В продолжении темы о найденным мною «гене Фейсбука»

Открыл на форуме 23andme тему, посвященную новооткрытому «гену Фейсбука» https://www.23andme.com/you/community/thread/14241/ Просьба к тем, кто имеет аккаунт в 23andme подержать своим участием

One of the biggest failures of the GWAS methodology is that is designed to detect the effects of causative genetic loci where the rarer allele still has a reasonable frequency in the population (greater than 5%). If there are genetic loci influencing the trait where the rare allele has a frequency under 5%, or even under 1%, the GWAS technique is unlikely to be able to detect these loci.

The latest addition to Gedmatch «Rare SNP search» was very helpful in circumventing the problem described above. Having found some rare alleles in Gedmatch databse, i have mentioned an interesting SNP in SLC6A3 gene: rs28363168 (chr5:1447389 A C). The A-genotype of this SNP is very rare (0.6121%), but seems to have an impact on the storage and release of dopamine. The gene SLC6A3 regulates the production of dopamine transporter, a membrane-spanning protein that pumps the neurotransmitter dopamine out of the synapse back into cytosol. From the previous studies we know that SLC6A3 gene is said to have «genetic associations» with the various cognitive and attention disorders (i.e., schizophrenia, depression, alcohol consumption. More interesting, however, is that polimorphisms in that gene increase the odds of having ADHD (Attention deficit hyperactivity disorder). The recent research has shown thta the use of social networking sites can cause personality and brain disorders in children, such as the inability to have real conversations, limited attention spans, a need for instant gratification, Attention-Deficit Hyperactivity Disorder (ADHD), and self-centered personalities.
That’s why i’ve dubbed the SLC6A3 gene «the Facebook gene».

rs28363168 is tested by 23andme. I’d like you post your rs28363168 genotype here. Any comments or questions are also highly appreciated

Удалось связаться с носителем сверхредкого гомозиготного варианта AA в снипе rs28363168 (который, как я и говорил ранее, может быть связан с повышенным риском развития ADHD).

В приватной беседе выяснилось, что несмотря на свой AA-вариант снипа, диагнога ADHD у этого индивида X (и его родственников) нет, хотя и присутствуют некоторые симптомы. Зато многие члены этого семейства страдают биполярным аффирмативным расстойством, а некоторые синдромом Аспергера. Это вполне объяснимо, так как вышеупомянутый снип находится в гене, «кодирующем» протеин-транспортер допамина. На эту тему есть хорошое исследование J Psychopharmacol. 2011 Jul;25(7):934-43. Epub 2011 Mar 18. Increased risk-taking behavior in dopamine transporter knockdown mice: further support for a mouse model of mania.

Reduced functioning of the dopamine transporter (DAT) has been linked to bipolar disorder (BD). Mice with reduced DAT functioning (knockdown, KD) exhibit a behavioral profile in the mouse Behavioral Pattern Monitor (BPM) consistent with patients with BD mania in the human BPM. Patients with BD also exhibit increased risk taking, which can be quantified using the Iowa Gambling Task (IGT). We hypothesized that DAT KD mice would exhibit increased risk-taking behavior in a novel mouse version of the IGT. DAT KD and wildtype (WT) littermates were trained in the mouse IGT. In session 1, KD mice initially made riskier choices, but later performed comparably to WT mice. Once trained to stable choice performance, DAT KD mice continued to exhibit a trend to choose the riskier options more than WT mice. Finally, we confirmed that these DAT KD mice also exhibited an exploratory profile in the BPM consistent with patients with BD mania, where risky choice behavior modestly correlated with specific exploration. These data demonstrate that DAT KD mice chose the riskier options more than WT mice, providing further support for the use of DAT KD mice as a model of BD mania.

Поскольку в ходе дискуссии был упомянут синдром Аспергера, то стоит подробнее остановиться на его описании. Люди с синдромом Аспергера часто выделяются весьма педантичной манерой разговора, использованием более формального и структурированного языка, чем того заслуживает ситуация. Пятилетний ребёнок с этим синдромом может регулярно говорить на языке, который бы подошёл университетскому учебнику, особенно в своей области интересов. Язык Аспергера, несмотря на старомодные слова и выражения, грамматически правилен.

Развитие речи у ребёнка бывает исключительно ранним, развиваясь медленно из-за типичной для аспергеров привязанности к структуре и неизменённости жизненных норм, или наоборот несколько поздним по сравнению с братьями и сёстрами, после чего развивается очень быстро, так что в возрасте 5-6 лет речь в любом случае выглядит как правильная, педантичная, не по годам развитая и чрезмерно похожая на взрослую. Часто ребёнок, запомнивший речевые штампы, может выглядеть понимающим разговор. Однако для него трудно или полностью невозможно быть настоящим собеседником. Специалисты по нарушениям речи обычно называют этот тип проблем термином семантическое прагматическое нарушение, означающим, что, несмотря на нормальные или хорошо выраженные навыки речи, существует неспособность использования языка для коммуникации в условиях реальной жизни. Тональность голоса может быть нарушенной (слишком сильный, сиплый, чрезмерно низкий), темп речи увеличенным или заниженным. Слова часто произносятся излишне ровно и монотонно.

Другим распространённым (хотя и не универсальным) симптомом является буквальное понимание. Эттвуд приводит пример девочки с синдромом Аспергера, которой однажды позвонили и спросили «Павел рядом?». Хотя требуемый Павел присутствовал в доме, его не было в комнате, и, оглянувшись, чтобы убедиться в этом, она ответила «нет» и повесила трубку. Звонящему человеку пришлось перезвонить и объяснить ей, что он хотел, чтобы она нашла Павла и попросила его взять трубку (Attwood, 78).

Люди с синдромом Аспергера не воспринимают те неписанные социальные законы, которые мы усваиваем по опыту. Это как раз те люди, которые, как в известном анекдоте, на вопрос «Как дела?» начинают действительно рассказывать, как у них дела. Либо, наоборот, зная, что ответ на вопрос для собеседника может показаться слишком длинным — молчат. А если им сказать «Звони в любое время», могут позвонить в три часа ночи с чистой совестью. Полное неумение понимать намеки и «читать между строк» осложняет отношения с окружающими, но необходимо помнить, что оборотная сторона этого — честность и прямолинейность. Многие люди с синдромом Аспергера вообще не умеют лгать, и опасаться интриг с их стороны тоже не приходится.

Многие люди с синдромом Аспергера также используют слова очень специфически, включая в речь свежепридуманные слова или скомбинированные из знаний разговорного языка с корнями древних, от которых он произошёл, а также необычные сочетания слов. Они могут развить редкий дар к юмору (особенно каламбуры; игра слов; строфы, в которых смысл приведён в жертву рифме; сатира) или написанию книг. (Другой потенциальный источник юмора появляется, когда они понимают, что их буквальные интерпретации забавляют окружающих.) Некоторые настолько хорошо владеют письменной речью, что удовлетворяют критериям гиперлексии (способность понимать письменную речь выше нормы, а способность понимать устную речь — ниже нормы).Возможные причины и происхождение синдрома Аспергера — это горячо обсуждаемая и спорная тема. Мнение большинства, на сегодня, состоит в том, что причины синдрома Аспергера — те же, что и у аутизма. Некоторые, однако, с этим не согласны, и аргументируют, что к синдрому Аспергера и аутизму приводят разные вещи. Всё это происходит на фоне продолжающихся более широких дебатов относительно того, является ли синдром Аспергера и другие состояния (такие как расстройство с дефицитом внимания и гиперактивностью — СДВГ (ADHD)) частью так называемого аутистического спектра.

Среди многих конкурирующих теорий относительно причины аутизма (и, следовательно, как многие уверены — синдрома Аспергера) — теория недосвязанности, разработанная исследователями познавания университета Carnegie Mellon и университета Питсбурга, теория предельного мужского мозга Симона Барон-Коэна (Simon Baron-Cohen), теория пред-работающего аутизма, теория социальной конструкции и генетика.

Возвращаясь к найденной мной ассоции полиморфизма (снипа) rs28363168 c cиндромом ADHD («ген Фейсбука»), необходимо упоминуть один красноречивый факт. К дискуссии на форумах 23andme (по приведенной выше ссылке) подключилась одна из форумных активисток little_bit, которая живо интересуется проблематикой аутизма (ASD/ADHD). Причина ее интереса к аутизму очевидна: ее сыну был поставлен диагноз ADHD/ASD и сейчас он проходит медикаментозный курс лечения лекарствами Strattera, Ritalin и Adderall. ) Так вот у ее сына в снипе rs28363168 тот же геноти АC, что и у меня. Этот гетерозиготный генотип встречается крайне редок, что  подтвердилось в ходе  статистического анализа  публичных данных, опубликованных известным порталом openSNP.
Причем при составлении генотипов ее муж (который также тестирован в 23andme) и сына cтановится очевидно, что сын унаследовал редкую аллель A от отца. Что еще интересней, муж, хотя и не был диагностирован синдромом Аспергера/ADHD в детстве, имеет все очевидные признаки этих расстройств )). Ну и генотип у него соответственно AC ).
Так что выводы моего исследования, как говорится, попали в яблочко:

When I put together my son’s rare snp analysis, rs28363168 in the SLC6A3 gene was probably my most exciting finds. I’m not going to say «smoking gun» quite yet, but close. My son got the rare A allele from his father who is diagnosed with ADHD, and successfully on meds for it. Most interestingly, he got it from his father, who is very classically ADHD/Asperger’s though not officially diagnosed due to his age. He is 81 and they just didn’t do those diagnosis’s back then. If you observe my father-in-laws life, as well as his father, the ADHD symptoms were very evident and unmistakable.My son is most similar to my father-in-law, such that he has the strong ADHD symptoms as well as Asperger’s, whereas my husband is not Asperger’s. I have diagnosed autistic relatives, and several suspected cases so it may just be a luck-of-the draw thing such that both my son and father-in-law got ADHD from their father’s side and ASD from their mother’s side?Anyway, here’s the snp at opensnp — one of the two AC’s has haunted the ASD/ADHD threads here with me for a long time, so yet one more piece of the puzzle. I know that he and my son both share the MAOA 3 repeat warrior version, which being on the X they get from their mother’s. MAO-A is an enzyme that degrades amine neurotransmitters, such as dopamine, norepinephrine, and serotonin and it’s prevalence is around 30% in Europeans. It makes me wonder if there could be a synergistic correlation between the variant and this snp, perhaps as a modifier to more severe ADHD or Aspergers? I know with my father-in-law, husband, and son…my husband has the least severe, and most easily treated case.

Интересно проанализировать распространение генотипов rs28363168 в метапопуляции европейцев.Данные взяты из базы данных dBSNP NCBI
Частоты генотипов CC, AC, AA вычисленны исходя из чисто «европейской» панели HapMap-CEU

Forward strand/ reverse strand %
GG/CC 93,8%
GT/AC 6,2%
TT/AA —

Alleles

G/C 96,9%
T/A 3,5%

Генотип GT/AC имеет частоту распространения 6,2%. Это примерно соответствует частоте распространенности ADHD в европейской популяции. Cм. нижеприведенные ссылки в статье «The size and burden of mental disorders and other disorders of the brain in Europe 2010», в которой частота встречаемости  ADHD  в европейских популяциях оценивается в 5%: «шn this study, 1 in 20 (5%) are thought to have ADHD but diagnosis rates vary depending:-Teachers reporting 18%-Parent reporting 8%-Self reporting 4%-Both parent and self 2%». Похожие выводы можно найти и в другом исследовании:

Males, of course, are much more likely to receive a diagnosis and age factors in as well. ADHD symptoms are estimated at 9.5-16.1% prevalence, but like ASD, it could be a spectrum, with many on the lesser end of the spectrum remaining undiagnosed due to coping skills.

Соотношение общих по происхождению геномных сегментов в разных популяциях и влияние на точность предсказания степени родства

Одним из наиболее важных параметров используемых в алгоритмах геномных онлайн-приложенияВх фирм 23andme и FTDNA является значение генетической дистанции совпадающего сегмента.  В современных исследованиях, это значение обычно измеряется в   сантиморганидах (cM) и выражает вероятность рекомбинации данного сегмента при мейозе.

В Relative Finder и Ancestry Finder — соответствующих сервисах компании 23andme за основу предсказания степени скрытого родства (cryptic relatedness) по геному отдельных взятых индивидов берутся максимальные значения отдельных наполовину-идентичных по происхождению сегментов, по крайней мере один из которых соответствует пороговым значениям величин генетической дистанции и числа снипов в  HIR (half-identical region). Мы не будем подробно останавливаться на этих моментах в этой заметке, и поэтому сразу перейдем к общему поверхностному обзору методики определения степени родства по геному двух сравниваемых индивидов в основном конкуренте 23andme — компании FTDNA.

В отличие от 23andme, при сравнении с реальными или спекулятивными совпаденцами, отчет включает в себя информацию о генетической дистанции самого длинного совпадающего сегмента (longest block), а также общую сумму совпадающих сегментов (shared cM).

  122137754

Кроме этого можно посмотреть более детальную информацию по каждому отдельному из совпадающих сегментов, но в данный момент мы не будем останавливаться на этом. Как видно из приведенного на картинке примера, прогнозируемое родство между двумя индивидами лежит в широком интервале между пятиюродной  и неопределенно далекой степенью родства. Встает закономерный вопрос — почему интервал прогнозируемых степеней родства столь велик?  Для пояснения этого феномена нужно напомнить на неопределенный характер рекомбинации, что существенно затрудняет прогноз родства.  Традиционно, количество совпадающей ДНК между отдельно взятыми лицами измеряется в усредненных процентах, например ребенок и родитель имеют  50% общего ДНК, дедушка/бабушка и внук/внучка — 25%, двоюродные кузены — 12%, троюродные — только 3,12%;  и так далее.

Однако в ходе нашего эксперимента с данными нам придется отказаться от столь привычного обозначения совпадающего ДНК в процентах и перейти к записи совпадающего ДНК в сантиморганидах (сM). Экспериментальные измерения показали, что совокупная генетическая дистанция вдоль всего генома составляет примерно 3600 cM. В связи с этим любопытно взглянуть на статистические данные о величинах генетической дистанции по сегментам, совпавших у априорно известных родственников, а также у тех далеких родственников, чье родство было подтверждено путем стандартных генеалогических поисков уже после обнаружения совпадения ДНК. Данные обработаны анонимным любителем генетики

confirm

Как видно, уже при сравнении ДНК прадеда и правнука корреляция со степенью родства перестает быть линейной, и с добавлением каждой новой степени родства становится еще более неопределенной.  С другой стороны, на более далеких степенях родства истинное генетическое родство сильно искажается за счет фонового популяционного криптородства. Чтобы проиллюстрировать этот феномен, я провел эсперимент с IBD-анализом ряда популяций Западной и Восточной Европы.  В качестве программного обеспечения были выбраны Beagle и fastIBD. 

В целях лучшего понимания результатов, я использовал только следующие популяции: Belarusian British Lithuanian Latvian Russian Polish Bulgarian Hungarian Mordovian Slovenian Estonian Swedish Serbian Ukrainian Slovakian Czech Macedonian Orcadian Adygei Nogai Tatar Bosnian Montenegrin Armenian Uzbek German Turk Kazakh NorthOssetian Sorb Moldavian. C помощью алгоритма fastIBD была просчитана генетическая дистанция по совпадающим сегментам как внутри каждой из этих популяций, так и между индивидами разных популяций. Затем была произведена агрегация  совокупных и усредненных данных по генетическим дистанциям между всеми индивидами из всех используемых популяционных групп. После проведения этих незамысловатых мы получили агрегированные данные по количеству ДНК разделяемых между разными популяциями. Привожу эти данные в следующих таблицах (значения представлены в сM):

Общее ДНК** между популяциями (** величина выражена в сантиморганидах)

total

Cреднее количество  общего ДНК** между популяциями (** величина выражена в сантиморганидах)

mean

Приведенные в таблице данные наглядно опровергают идею униформного распределения идентичных по происхождению сегментов в генофонде европейцев. Отдельные группы популяций в центральной Европе (венгры, болгары и сорбы), а также популяции из восточной Европы (эстонцы, латыши, прибалты) обладают эксцессом количества общего разделяемого с другими популяциями ДНК. Это свидетельствует о сложных демографических процессах, протекавших в прошлом. Игнорирование влияния этих эффектов на характер и динамику распределения IBD-сегментов должен кардинальным образом сказаться на качестве прогнозирования родства в алгоритме FamilyFinder.