Соотношение общих по происхождению геномных сегментов в разных популяциях и влияние на точность предсказания степени родства

Одним из наиболее важных параметров используемых в алгоритмах геномных онлайн-приложенияВх фирм 23andme и FTDNA является значение генетической дистанции совпадающего сегмента.  В современных исследованиях, это значение обычно измеряется в   сантиморганидах (cM) и выражает вероятность рекомбинации данного сегмента при мейозе.

В Relative Finder и Ancestry Finder — соответствующих сервисах компании 23andme за основу предсказания степени скрытого родства (cryptic relatedness) по геному отдельных взятых индивидов берутся максимальные значения отдельных наполовину-идентичных по происхождению сегментов, по крайней мере один из которых соответствует пороговым значениям величин генетической дистанции и числа снипов в  HIR (half-identical region). Мы не будем подробно останавливаться на этих моментах в этой заметке, и поэтому сразу перейдем к общему поверхностному обзору методики определения степени родства по геному двух сравниваемых индивидов в основном конкуренте 23andme — компании FTDNA.

В отличие от 23andme, при сравнении с реальными или спекулятивными совпаденцами, отчет включает в себя информацию о генетической дистанции самого длинного совпадающего сегмента (longest block), а также общую сумму совпадающих сегментов (shared cM).

  122137754

Кроме этого можно посмотреть более детальную информацию по каждому отдельному из совпадающих сегментов, но в данный момент мы не будем останавливаться на этом. Как видно из приведенного на картинке примера, прогнозируемое родство между двумя индивидами лежит в широком интервале между пятиюродной  и неопределенно далекой степенью родства. Встает закономерный вопрос — почему интервал прогнозируемых степеней родства столь велик?  Для пояснения этого феномена нужно напомнить на неопределенный характер рекомбинации, что существенно затрудняет прогноз родства.  Традиционно, количество совпадающей ДНК между отдельно взятыми лицами измеряется в усредненных процентах, например ребенок и родитель имеют  50% общего ДНК, дедушка/бабушка и внук/внучка — 25%, двоюродные кузены — 12%, троюродные — только 3,12%;  и так далее.

Однако в ходе нашего эксперимента с данными нам придется отказаться от столь привычного обозначения совпадающего ДНК в процентах и перейти к записи совпадающего ДНК в сантиморганидах (сM). Экспериментальные измерения показали, что совокупная генетическая дистанция вдоль всего генома составляет примерно 3600 cM. В связи с этим любопытно взглянуть на статистические данные о величинах генетической дистанции по сегментам, совпавших у априорно известных родственников, а также у тех далеких родственников, чье родство было подтверждено путем стандартных генеалогических поисков уже после обнаружения совпадения ДНК. Данные обработаны анонимным любителем генетики

confirm

Как видно, уже при сравнении ДНК прадеда и правнука корреляция со степенью родства перестает быть линейной, и с добавлением каждой новой степени родства становится еще более неопределенной.  С другой стороны, на более далеких степенях родства истинное генетическое родство сильно искажается за счет фонового популяционного криптородства. Чтобы проиллюстрировать этот феномен, я провел эсперимент с IBD-анализом ряда популяций Западной и Восточной Европы.  В качестве программного обеспечения были выбраны Beagle и fastIBD. 

В целях лучшего понимания результатов, я использовал только следующие популяции: Belarusian British Lithuanian Latvian Russian Polish Bulgarian Hungarian Mordovian Slovenian Estonian Swedish Serbian Ukrainian Slovakian Czech Macedonian Orcadian Adygei Nogai Tatar Bosnian Montenegrin Armenian Uzbek German Turk Kazakh NorthOssetian Sorb Moldavian. C помощью алгоритма fastIBD была просчитана генетическая дистанция по совпадающим сегментам как внутри каждой из этих популяций, так и между индивидами разных популяций. Затем была произведена агрегация  совокупных и усредненных данных по генетическим дистанциям между всеми индивидами из всех используемых популяционных групп. После проведения этих незамысловатых мы получили агрегированные данные по количеству ДНК разделяемых между разными популяциями. Привожу эти данные в следующих таблицах (значения представлены в сM):

Общее ДНК** между популяциями (** величина выражена в сантиморганидах)

total

Cреднее количество  общего ДНК** между популяциями (** величина выражена в сантиморганидах)

mean

Приведенные в таблице данные наглядно опровергают идею униформного распределения идентичных по происхождению сегментов в генофонде европейцев. Отдельные группы популяций в центральной Европе (венгры, болгары и сорбы), а также популяции из восточной Европы (эстонцы, латыши, прибалты) обладают эксцессом количества общего разделяемого с другими популяциями ДНК. Это свидетельствует о сложных демографических процессах, протекавших в прошлом. Игнорирование влияния этих эффектов на характер и динамику распределения IBD-сегментов должен кардинальным образом сказаться на качестве прогнозирования родства в алгоритме FamilyFinder.

Advertisements

Добавить комментарий

Please log in using one of these methods to post your comment:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s