«Генеалогические» и «случайные» совпадения сегментов хромосом

Периодически на разных форумах (в том числе и на этом) подымается на повестку дня вопрос о том, являются ли сегменты полуидентичного совпадения (НIR) сравниваемых хромосом общими сегментами в смысле общности генеалогического происхождения, — или же эти наличие HIRs (УПСы) является случайным.

Для удобства изложения заменю понятие HIR (УПС) на более общепринятые в науке понятие IBD (сегмент, идентичный по происхождению) и понятие IBS (сегмент, идентичный по сходству). Последний в слэнге молгеновцев именуется лжеупсом.

Существуют ли статистические методы для определения характера совпадающего сегмента? Можно ли определить, какой сегмент достался от общего предка, а какой -продукт случайного совпадения?

Оказывается,теоретически можно. В любопытной статье «Shared genomic segment analysis. Mapping disease predisposition genes in extended pedigrees using SNP genotype assays» было показано, что независимое от популяционного «шума» распределение сегментов IBD  соответствует Пуассоновскому распределению со средним значением:


Авторы статьи провели любопытный анализ эмпирического распределения IBD сегментов у 8 генеалогически родственных лиц и сравнили его с распределением IBS, сгенерированных случайным образом.

Соотношение проиллюстрировано графиком: сплошная линия соответствует распределению сегментов IBS, точечная линия распределению сегментов IBD. Пунктирная линия -смеси распределений сегментов ложнопозитивных совпадений IBS и истинно генеалогических IBD.

Благодаря новой фиче сайта Gedmatch (c) J.Olson (за что ему низкий поклон лично от меня), позволяющей сравнивать отдельные «геномы» (в данном со всей базой (660 геномов) в мастшабах сегментов «размером» более 1,5 и 10 сМ, я смог проверить выводы авторов на более объемном материале (совокупный размер совпадающих сегментов дан также в сентиморганах сМ).

Я построил гистограммы  (на график обозначена синим цветом) частоты распределения идентичных сегментов того или иного размера, а также график куммулятивного распределения частот (красная линия).

Чуть позже прокомментирую результаты.

Начну с аутосомных хромосом.

Начну с самого простого графика распределения максимальных совпадающих  сегментов.
Простого в том смысле, что здесь показано распределение не суммы сегментов, а единичных сегментов наибольшего размера.

Являются ли единичные сегменты общими по происхождению, или же это случайное совпадение?

Визуально гистограмма распределения крупнейших сегментов близка к виду пуассоновского распределения (теоретически это можно проверить тестом Холмогорова-Смирнова, но я его не проводил). Поэтому можно предположить правильность выводов авторов статьи, упомянутой в первом посте темы

Каковы эмпирические свойства данного распределения?
Пик «колокола» распределения приходится на сегменты размером 5.424 сM (красный столбик гистограммы), что, видимо, неслучайно. Напомню, что 5.5 сM -это нижнее пороговое значение, при которых  алгоритм 23andme квалифицирует сегмент как «генеалогический» (IBD), а его обладатель — как «генетический кузен» в базе данных Relative Finder. Обычное обладатели таких общих сегментов (5.5 сM) не высвечиваются в списке RF-кузенов вплоть до тех пор, пока Вы не зашарите свой геном с ними.
Любопытна линия кумулятивного распределения, отсекающая примерно 60% таких сегментов. Интуитивно можно предположить, что примерно  60% таких единичных сегментов размером 5-5.5 сM не являются генеалогическими сегментами в плане наличия недавнего общего предка.

Этот вывод неплохо согласуется с мнением Энн Тернер, которая считает, что примерно 2/3 являются случайными совпадениями (IBS -idemtical by state).
Любопытна кривая кумулятивного пуассоновского распределения крупнеших сегментов. В левой своей части она визуально похожа на крутую сплошную линию распределения IBS («ложных сегментов») из процитированной статьи. Начиная примерно с единичных сегментов размером 7-8 сM, линия визуально приобретает характер прерывистой линии распределения с кумулятивным процентом 90-100% (из той же статьи). По мнению авторов статьи, подобное распределение общих сегментов характерно для тех случаев, когда распределение «случайных» IBS совпадений на кладывается на распределение «генеалогических» IBD сегментов.

Наблюдаемая картина неплохо согласуется с дефолтным порогом «генеалогических совпадений» в 23andme (7 cM), при котором «генетические кузены» (с сегментами => 7сM)  показываются в списке кузенов по умолчанию. Хотя по эмпирическим данным этот слегка смещен в сторону 9 сM.

Следущий график должен быть интересен как тем, кто проходил мульти-снип тестирование в 23ия, так и клиентам FTDNA, тестировавшимся в FamilyFinder.

Здесь показано распределение суммы идентичных сегментов, каждый из которых больше 10 сM.
Левая часть графика представляет собой «нулевую» линию вплоть до 10 сM, что логично, ибо согласно условиям, минимальный размер идентичных сегментов должен быть равен 10 сM. Далее хвост кумулятивного распределения плавно возрастает в интервале между 20 сМ -30 сМ, после чего приближается к 100% (подобно пунктурной линии из обсуждаемой статьи).
На основании наблюдаемой картины можно сделать предположение, что при наличии общей суммы идентичных сегментов, выраженной в сМ и большей чем 20 сМ, и  минимальном размере каждого отдельного сегмента 10 сМ, каждый из них с высокой степенью вероятности является идентичным по происхождению (генеалогии) сегментом.

Редактировать сообщение

Третий график будет особенно интересен клиентам FamilyFinder-FTDNA, т.к. там считают общую сумму сМ, в том числе и для сегментов, каждый из которых больше 5 сM.

Визуально правая часть гистограммы распределения сегментов > 5 cM наиболее похоже на логнорма?льное распределе?ние, что в принципе понятно, т.к. если случайная величина имеет логнормальное распределение, то её логарифм имеет нормальное распределение.

Ненулевой пик гистограммы приходится на интервал сегментов между 7-8 сM, т.к эта часть гистограммы описывается пуассоновским распределением, и в этом случае сегменты представленны не суммой, а единичным идентичным сегментом размером в 7 — 8 сM.

Линия кумулятивного распределения носит характер линии IBS распределения примерно до интервала сегментов размером 30-35 сегментов, что означает, что кроме единичных сегментов, большинство совокупных сегментов состоят из множества IBS сегментов. Признаки смешенного распределения IBS+IBD сегментов начинаются с интервала 35 сМ. Это означает, что при общей сумме сегментов (> 5 cM ), равной 35 сМ минимум один совпадающий сегмент будет общим по происхождению.

 

В принципе эти выводы подтверждают выводы из приведенной статьи

Expected distributions of IBD chromosomal segments between pairs of
individuals. 
(A) The process underlying the pattern of IBD segments. Two homologous
autosomal chromosomes are shown for two parents, each colored differently. Meiosis and
recombination occurs and two sibling offspring inherit recombinant chromosomes (just
one crossover per homologous pair for each meiosis event is depicted, marked by an ‘X’).
For some segments of the chromosome in question, the siblings share a stretch that was
inherited from one of the four parental chromosomes. The three IBD segments are
identifiable as regions that share the same color (boxed and marked at right by black
bars). The siblings mate with unrelated individuals and the offspring each inherit an
unrelated chromosome (tan or gray) and one that is a recombinant patchwork of the
grandparental chromosomes. These first cousins share one segment IBD at this
chromosome (red, boxed). 


(B) The number of segments that a pair of individuals shares
IBD, across all chromosomes, is approximately Poisson distributed with a mean that
depends on the degree of relationship d between the individuals (d = 2, 4, 6, 8,
corresponding to siblings through third cousins). 

(C) The lengths of the IBD segments are
approximately exponentially distributed, with mean length depending on the relationship
between individuals (theoretical distributions shown for d = 2d, 4th, 6th, 8th cousins).

 

 

 

 

Advertisements

Добавить комментарий

Please log in using one of these methods to post your comment:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s