Возможна ли оценка вероятного возраста ближайшего общего предка по размеру одиночного аутосомного IBD-сегмента?

В последние годы среди людей, интересующихся генеалогией, приобрели заметную популярность сервисы, производящие поиск генетических родственников по всем линиям, а не только по прямой мужской и прямой женской. В качестве примера можно привести Family Finder от FTDNA и DNA relatives от 23andMe. Участник получает достаточно длинный список так называемых «совпаденцев» — людей, имеющих с ним один или более участок половинного совпадения (УПС) на аутосомах (неполовых хромосомах). Если участок достаточно длинный (а его длина измеряется в сантиморганидах, обозначающих вероятность разрыва участка при каждой передаче в следующее поколение), то это говорит о наличии общего предка (от которого участок и получен).

При этом большинство совпаденцев имеет с вами один, реже два или три одиночных сегмента диапазоном 8-15 или около того сМ. Предсказанная степень родства — от пяти-шести-юродности до неопределенно далекого. Интуитивно кажется, что более вероятно близкое родство, а далекие родственники пришли из так называемого «хвоста распределения» — по теории вероятности, часть сегментов должна сохраниться дольше, чем ожидается.

Так ли это? Поскольку я предполагаю, что придется еще не раз давать ссылку на этот пост людям, ищущим ответа на вопрос о возрасте ближайшего общего предка по одному сегменту, помещу этот ответ в самом начале:

В растущей популяции количество IBD-сегментов размером до 10-20 сМ (верхняя граница зависит от скорости роста) с каждым поколением только увеличивается.

Это значит, что более дальнее родство с совпаденцем из 23andMe или FTDNA вероятнее ближнего (по крайней мере, пока мы не добираемся до предков, живших в эпоху стагнации или уменьшения численности популяции). Грубо говоря, сегменты успевают размножиться быстрее, чем они разрываются.

Этот вывод был для меня неожиданным, однако он отлично согласуется с наблюдаемой практикой. Собственно, то, что большинство подобных сегментов являются весьма древними, было ясно мне и раньше, однако в качестве объяснений приходили на ум различные причины замедления распада (например, высокая гомозиготность в популяции). Инерция мышления не позволяла увидеть процесс в динамике.

Взявшись за решение задачи оценки вероятного возраста общего предка, я решил промоделировать процесс, постаравшись учесть ряд факторов. В модели просчитывается потомство от одного предка на протяжении 10-13 поколений (В зависимости от количества детей на семью. Пойти далее не позволила мощность компьютера). При этом для каждого потомка учитывается его пол (частота рекомбинации различается у мужчин и женщин), случайным образом определяется количество детей и просчитываются общие сегменты с одной, выделенной веткой древа, имитирующей нашу родовую линию. Использовалась генетическая карта от Rutgers University, согласно которой общая длина аутосом составляет примерно 3600 сМ. Для простоты Х-хромосома в моделировании не участвовала. Модель прогонялась 10000 раз, результат усреднялся. Далее для каждого следующего поколения результат умножался на степень двойки, чтобы учесть возрастание количества предков.

Для начала я запустил модель для стабильной популяции — среднее количество детей у каждого человека составляло 2, то есть рост отсутствовал. На графике показано суммарное количество общих с нашей веткой сегментов из каждой размерной категории (но не более 50 сМ) для каждого поколения. Видно, что для многих категорий количество сегментов поначалу увеличивалось, однако постепенно рост сменялся падением.
IBD_Diag01
Дольше всего держалась категория 1-5 сМ, стабилизировавшая свою численность к 12 поколению. Откуда же брался этот рост?
Более мелкие сегменты «подпитывались» распадом крупных. Например, при разрыве сегмента 14 сМ на 6 и 8, мог появиться 8 сМ сегмент (второй исчезал, так как по наследству передавался лишь один). Категория наиболее мелких сегментов при этом находилась на вершине пищевой цепочки, поэтому продержалась дольше всех. Однако к 12 поколению крупных сегментов для ее подпитки просто не осталось. Поэтому в каждом поколении количество сегментов, переданных от конкретного предка, уменьшалось вдвое, однако и количество предков увеличивалось в той же пропорции. Итого — практическая стабилизация численности. Медленный распад сегментов в пределах нескольких процентов на поколение практически незаметен. А вот у более крупных сегментов процесс распада идет быстрее, поэтому их количество заметно снижается. На следующем графике изображена доля, занимаемая по количеству данной категорией сегментов (исключая из общего числа сегменты крупнее 50 сМ). Доля мелких сегментов неизбежно растет с каждым поколением.

IBD_Diag02

Казалось бы, результаты моделирования полностью подтверждают интуитивные представления. Можно рассчитать и наиболее вероятное время жизни общего предка. Например, при наличии сегмента 11-15 сМ медиана находится между 7 и 8 поколением.

Однако следующая модель, предполагающая рост популяции на 25% за поколение (среднее количество детей — 2.5 на человека), дала заметно отличающийся график.

Как видно, с каждым поколением растет не только количество мелких сегментов, но и число сегментов вплоть до категории 20-25 сМ! В предыдущей модели их количество росло лишь до 4 поколения, а далее начало снижаться. Я попробовал проверить модель независимым расчетом. Допустим, у нас есть два человека, разделяющих общий сегмент 15 сМ. У одного из них два потомка в следующем поколении, у другого — 3 (примерно, как во второй модели). Если я правильно рассчитал вероятности, матожидание наличия неповрежденного сегмента между их потомками, составляет 111%. Если у нас была 1000 таких пар, в следующем поколении пар уже будет 1110. Чем больше сегмент, тем выше вероятность его разрыва и ниже матожидание передачи. Граница для выбранных условий проходит примерно по 20 сМ — для этого сегмента матожидание около 100% . Рост количества сегментов из категории 21-25 сМ, видимо, объясняется подпиткой от более крупных. Их число стабилизируется к 11-12 поколению и в дальнейшем должно начать падать. Количество же мелких сегментов при этом растет прямо-таки как на дрожжах, формируя экспоненциальный график.

Процентное соотношение разных категорий сегментов схоже с предыдущей моделью, однако доля категорий выше 10 сМ вполне ощутима.

При более быстром росте населения верхняя граница устойчивости сегментов должна сдвигаться в сторону увеличения. Чем больше детей у каждого родителя, тем больше крупных сегментов перейдет потомкам. Ради интереса, я запустил и вариант со средним количеством детей на семью, равным трем. Здесь эффект еще более выражен. А ведь при заселении новых пространств такое количество детей — далеко не предел.

IBD_Diag05

IBD_Diag06

Обнаруженный эффект естественным образом объясняет факты наличия большого количества общих сегментов внутри популяций ашкенази, финнов, американцев Юга США. Взрывной рост численности неизбежно ведет к данному итогу. То же самое относится и к славянам — большую часть их истории численность славян быстро росла. Думаю, это объясняет многие общие сегменты, к примеру, между русскими и поляками.

Теперь мне стали понятны некоторые моменты из прошлогодней заметки, часть которой была посвящена работе Ralph&Coop на схожую тему:

2. Второй момент связан напрямую с проблемой определения времени жизни последнего общего предка от которого был унаследован сегмент. Понятно, что ответ на этот вопрос будет иметь важное значение для тех людей, кто покупал услуги 23andme исключительно в генеалогических целях. На первый взгляд, все просто. Допустим, если я и Вы разделяем IBD блок генома размеров в 10 сантиморганов , то встает вопрос — когда же именно жил наш последний общий предок?
По теоретическим расчетам, средняя длина блока IBD унаследованного общего предка жившего пяти поколений назад, составляет 10 сантиморганид; поэтому мы могли бы ожидать, что средняя дистанция до общего предка составляет всего пять поколений.

Тем не менее, прямая экспликация результатов в обсуждаемой работе говорит о том, что средний возраст блока (10 cM) общего по происхождению у двух лиц с территории Соединенного Королевства составляет от 32 до 52 поколений (в зависимости от типа используемого распределения). Такое расхождение с теоретическими прогнозами видимо связано с тем, что априори гораздо более вероятно, что общий генетический предок жил в более отдаленном прошлом, и эта априорная вероятность сильно искажает результаты нашего наивной ожидания. И хотя с учетом действия рекомбинации представляется маловероятным, что блок 10 сM унаследован от конкретного общего предка жившего примерно 40 поколений назад, существует большое количество таких древних общих предков.

Именно так — маловероятна передача от каждого конкретного древнего предка, но в целом передача от древних предков как раз более вероятна, чем от близких.

Это также означает, что расчетные возраста зависят также и от разделенной популяционной историей ‘: например, возраст аналогичного блока (10 cM) разделяемого кем-то из Соединенного Королевства с кем-то из Италии еще старше, как правило, примерно 60 поколений до общего предка.

Впрочем, это правило не применяется в том случае если предки из совсем недавнего прошлого (не более чем восемь поколений) . Обычно в таком случае от общего предка наследуется сразу несколько длинных сегментов (часто на разных хромосомах), и в данном случае, мы можем надеяться сделать вывод о конкретном генеалогическом родстве с достаточной степенью достоверность, хотя даже в этом случае следует соблюдать осторожность, чтобы исключить возможность того, что эти несколько блоков не были унаследованы от общих удаленных предков.

Скорее даже меньше — пять-шесть поколений.

Но все же, в некоторых случаях оценка возраста общего предка по одиночному сегменту должна быть возможна. Я сделал прикидку для использованных трех моделей. Поколения 1-4 исключались — для этих случаев вариант получения лишь одного сегмента чересчур маловероятен. Не рассматривались совпаденцы старшего возраста — в модели участвовали лишь люди примерно нашего поколения. Впрочем, понятно, что оценка для отцов и дедов наших ровесников должна несколько отличаться в сторону уменьшения количества поколений до общего предка.

IBD_Diag07

Сегменты 46-50 сМ во всех моделях получились около пяти поколений. По сути, это нулевая отметка, поскольку поколения до четырех отрезаны. Получить такой одиночный сегмент очень маловероятно, но если уж вы его получили, общий предок не может быть давно. Противоположный конец — сегменты, возраст которых настолько велик, что не поддается оценке в рамках модели. В варианте нулевого роста это сегменты примерно до 10 сМ, для роста 25% на поколение — до 25 сМ (можно предположить для 21-25 сМ что-то в районе 12-20 поколений), для роста 50% на поколение — до 40 сМ

В реальности мы не наблюдаем большого количества совпаденцев с сегментами 15, 20, 25 сМ. Думаю, это объясняется тем, что в истории любой популяции периоды роста сменялись периодами уменьшения численности. В это время сравнительно крупные сегменты разрушались. Однако в целом за последние тысячелетия численность европейцев только росла.

Подытожу. Я доволен, что удалось снять противоречие между наблюдаемыми фактами и теоретическими ожиданиями. Получается, что если мы и наш совпаденец с одиночным сегментом происходим из непрерывно растущей популяции, то с наибольшей вероятностью наш ближайший общий предок жил в момент начала этого роста, либо в ближайшие поколения перед ним. С чуть меньшей вероятностью — в следующем поколении, и так далее с понижением вероятности к нашему времени. Количество поколений при этом не ограничено вообще — хоть 50. Многочисленные польские, финские, немецкие совпаденцы получают разумное объяснение. Ну а уж ашкенази ложатся сюда просто идеально.
Ясно, что это упрощение (непрерывный рост в течение 50 поколений навряд ли где-то был), но упрощение более близкое к реальности, чем предыдущие представления. Конечно, в модели не учтен ряд факторов. Однако и составные УПсы, и инбридинг, и отбор, и повышенная гомозиготность только удревняют сегменты. Если считать эти факторы весомыми, предикт возраста одиночного УПСа должен быть еще выше. Допустим, составной УПС выглядит, как полученный от сравнительно близкого предка, а на самом деле — от двух более далеких. А это как раз то, что я хочу доказать.

Возможна ли оценка вероятного возраста ближайшего общего предка по размеру одиночного аутосомного IBD-сегмента?: Один комментарий

Оставьте комментарий