Оценка влияния уровня аутосомной гомозиготности при генотипировании на длину и количество ложных IBD-сегментов

В последнее время я пробовал сравнивать файлы геномов, полученные при генотипировании останков древних людей, с современными выборками в поисках  длинных общих IBD (или все же на деле это IBS?)-сегментов. Как выяснилось, результат в первую очередь зависит от качества прочтения древнего генома, особенно от уровня гомозиготности. Большинство древних геномов прочитывают с небольшим уровнем покрытия (1х-2х), и естественно, при этом захватывается лишь один аллель. Например. если реальные значения снипа A и T, при единичном прочтении можно увидеть либо A, либо T — второе значение останется нерасшифрованным. Любой длинный сегмент при этом окажется разорван.

Есть и геномы, прочитанные с высоким качеством. Их уровень гомозиготности близок к получающемуся у наших современников при коммерческом тестировании в FTDNA и 23andMe. Например, к таким относится BR2 из недавней работы Gamba et al. «Genome flux and stasis in a five millennium transect of European prehistory». Сумма общих сегментов у «венгра» бронзового века с европейскими выборками вполне сопоставима с тем, что получается у наших современников. Как уже неоднократно писалось, возраст таких сегментов вполне может насчитывать несколько тысячелетий, поэтому результат не слишком удивляет. Однако общие сегменты с нашими современниками нашлись и у «усть-ишимца» — древнейшего расшифрованного генома человека современного типа возрастом около 44 тысяч лет (согласно радиоуглеродной датировке). Сложно поверить, чтобы IBD-сегменты могли сохраняться так долго. Что послужило этому причиной? Поддержка отбора, ошибки генетической карты (расстояния между многими снипами получены интерполированием, а это может быть неправильно)? А может быть, это вовсе и не IBD-сегменты, а просто случайно возникшие IBS?

(IBD (identical by descent) — участки совпадающих последовательностей снипов, полученные несколькими людьми от одного и того же предка в результате общности происхождения. IBS (identical by state) — тоже участки совпадающих последовательностей снипов, но причины этого совпадения могут быть другими. Формально IBD это частный случай IBS, но часто понятие IBS используют как синоним лже-IBD сегмента)

Если высокий уровень гомозиготности способен разрушать сегменты, не может ли высокий уровень гетерозиготности создавать лже-сегменты? Вообще, насколько протяженными могут быть лже-IBD сегменты, и каково их количество? Понятно, что идеально гетерозиготный генотип (то есть несущий оба аллеля для каждого снипа) будет совпадать на уровне «родитель-ребенок» с любым человеком (в реальной жизни его возникновение невозможно, разве что искусственным путем). Также понятно, что по теории вероятностей между любыми двумя людьми будут возникать микро»сегменты» из случайно совпавших снипов. Насколько протяженными они могут быть?

Для начала я решил попробовать оценить уровень гомозиготности в используемом мной для IBD-карт наборе выборок. Для сравнения туда же добавлено несколько древних геномов (они выделены жирным шрифтом). «Усть-ишимец» пока выложен лишь до 8 хромосомы, это составляет около половины протяженности аутосом по количеству снипов. Используется набор из примерно 255 тысяч снипов, на другом наборе результаты должны отличаться. Показан усредненный по выборке процент снипов от общего числа, где оба аллеля совпадают.

Уровень гомозиготности по выборке:

Nogay 65,49%
BR2 65,61%
Tatar-Kazan 65,65%
Azerbaijani 65,66%
Tatar-Crimean 65,67%
Kumyk 65,71%
Bashkir 65,74%
Balkarian 65,78%
Komi 65,88%
Tadjik 65,92%
Turkmen 65,95%
Uzbek 66,00%
Uygur 66,00%
Greek_Azov 66,01%
Ossetian 66,01%
Ashkenazi 66,03%
Croatian 66,05%
Chuvash 66,08%
Iranian 66,09%
Lezgin 66,10%
German-Austrian 66,13%
Armenian 66,13%
Bulgarian 66,13%
Belarusian 66,13%
Russian-South 66,14%
Abkhazian 66,15%
Turkish 66,15%
Romanian 66,16%
Russian-North 66,17%
Greek 66,17%
Swedish 66,19%
Erzya 66,19%
Chechen 66,20%
Moksha 66,21%
Ukrainian-East-and-Center 66,21%
Georgian 66,22%
Hungarian 66,23%
Udmurt 66,25%
Sephard 66,27%
Italian 66,29%
Kazah 66,29%
Tatar_Lithuanian 66,30%
Ukrainian-West-and-Center 66,31%
Finnish 66,33%
Mari 66,33%
Polish 66,34%
Adygei 66,35%
Norwegian 66,35%
French 66,36%
Russian-West 66,37%
Estonian 66,42%
UstIshim 66,44%
Karelian 66,45%
Balt 66,46%
Veps 66,50%
British 66,51%
Mansi 66,60%
Kirgiz 66,79%
Basque 67,02%
LBK 67,08%
Sardinian 67,08%
Hakas 67,33%
Altaian 67,33%
Saami 67,55%
Mongol 67,56%
Shor 67,63%
Tuvinian 68,08%
Dolgan 68,24%
Buryat 68,48%
Selkup 68,49%
Ket 68,54%
Xibo 68,54%
Mongola 68,63%
Yakut 68,98%
Daur 69,11%
Han-North 69,14%
Nivh 69,25%
Evenk 69,32%
Hezhen 69,34%
Oroqen 69,39%
Nganassan 70,37%
Even 70,62%
Loschbour 73,79%
Motala12 90,19%
Malta-1 94,41%

Выборкой с наибольшим аутосомным разнообразием (наименьшей гомозиготностью)  оказались кубанские ногайцы, что совершенно не удивляет в связи с их смешанным происхождением. Многие другие народы из начала списка также известны своей смешанностью. Любопытно, что близки к началу и ашкенази, хотя я ожидал от них, наоборот, большего однообразия. Видимо, здесь проявляется их происхождение от двух различающихся групп — ближневосточников и европейцев.

Большая часть списка расположилась в промежутке 66-67% , в том числе и усть-ишимец. Несмотря на более свежий вклад неандертальцев и близость к общему корню, по уровню разнообразия он оказался таким же, как и наши современники. Либо здесь сказываются сложности с расшифровкой столь древнего генома, либо аутосомное разнообразие с тех времен поддерживалось на примерно одном уровне — вымывание одних снипов сопровождалось появлением новых.

Самым низким уровень разнообразия оказался у народов Сибири (где мы явно видим результат генного дрейфа) и китайцев (след быстрого расширения?). В Европе хуже всего с разнообразием оказалось у народов-изолятов — басков и сардинцев. Геном охотника-собирателя Loschbour, скорее всего, прочитан со средним качеством — похоже, это и было причиной того, что в предыдущей заметке у него оказалось меньше общих сегментов с нашими современниками, чем у «фермера» LBK, а вовсе не вымирание его народа.

Таким образом, за базовый уровень гомозиготности можно смело принять 66,6%, то есть 2/3 снипов из используемого мной набора у среднего европейца гомозиготны. Попробуем сделать оценку длины и количества лже-сегментов. Очевидно, что на гетерозиготных участках сегмент разорваться не может. Таким образом, вероятность разрыва на отдельно взятом снипе уже падает до 2/32/3=44,36% . (это оценка вероятности, что у обоих сравниваемых геномов выбранный снип гомозиготен. К сожалению, для упрощения модели пришлось использовать предположение, что для каждого снипа вероятность гетерозиготности примерно одинакова, в то время как в реальности это должно быть не так). Далее, если на гомозиготном участке у обоих геномов сравниваемый аллель один и тот же, то разрыва сегмента также не произойдет. Возьмем для простоты вероятность минорного варианта снипа как 1/6 (вероятность гетерозиготности на снипе 1/3, минорным мог быть либо первый, либо второй аллель, значит, делим вероятность пополам. В реальности надо считать сложнее, но для оценки подойдет). К разрыву могут привести два варианта — в первом геноме мажорный вариант снипа, во втором минорный — вероятность 5/61/6=5/36, и наоборот — в первом минорный, во втором мажорный вероятность такая же. Для получения итоговой вероятности разрыва сегмента на один снип мы умножаем 44,36% на (5/36+5/36) и получаем 12,32% вероятность разрыва лже-сегмента на любом случайно выбранном снипе.

Да уж, есть где запутаться ))) Надеюсь, я все же нигде сильно не ошибся и оценка близка к истине ))

Исходя из вероятности разрыва 12,32% на снип, лже-сегмент будет иметь кумулятивную, то есть накопленную вероятность разрыва 50% при прохождении 5-6 снипов (это медиана). Значит, половина лже-сегментов будет короче этого числа, половина-длиннее. Кумулятивная вероятность разрыва растет в 10 раз каждые 17-18 снипов — 90% лже-сегментов будут короче 18 снипов, 99% — короче 37,  99,9%-54 и так далее. Так как медианное значение при нормальном распределении обычно составляет около 0,7 от среднего, средняя длина лже-сегмента оценивается в 7,5 снипов. На 245 тысяч снипов будет приходиться 32 тысячи сегментов, а на 1130 геномов из используемых выборок — в общей сложности около 36 с половиной миллионов.

Из них около трех с половиной тысяч будут иметь длину не менее 72 снипа, около 36 — 107 снипов, а чтобы гарантированно снизить число лже-сегментов до нуля, нужно установить фильтр в районе 130-140 снипов. Что интересно, примерно на те же цифры я вышел экспериментальным путем, пробуя различные настройки. Оптимальным мне показалось отбрасывать все сегменты с длиной менее, чем 150 снипов. Теория неплохо сошлась с практикой.

Итак, лже-УПСы (участки половинного совпадения), возникшие по статистическим причинам, не должны оказывать особого влияния на IBD-сегменты. Подавляющее большинство из них по длине не превышает несколько десятков снипов (лишь примерно каждый тысячный преодолевает рубеж 50-60 снипов). Разумеется, из-за их наличия реально существующие сегменты неизбежно удлиняются, однако принципиально исказить картину это не может. Конечно, такие причины, как поддержка отбором и искажения, вызванные неточностью генетических карт, остаются в силе. Возможны и другие причины — загадка наличия значимых сегментов с палеоДНК продолжает требовать объяснения.

При ослаблении фильтра до 50 снипов, как в случае с мальтинцем, лже-УПСы уже должны стать заметными. Неудивительно, что при нормальных настройках значимых сегментов почти не получалось — уровень гомозиготности оказался весьма велик.

В заключение приведу график зависимости вероятности разрыва лже-сегмента от уровня гомозиготности в популяции при использовании той же формулы. Как уже писалось, идеально гетерозиготный геном не будет иметь разрывов вообще. Но и в идеально гомозиготной выборке разрывов не будет, ведь аллели у всех совпадают! Что же происходит в промежутке между этими двумя крайностями? Как выяснилось, максимальна вероятность разрыва лже-сегмента при уровне гомозиготности около 70%, что близко к реально существующему уровню. При больших значениях длина лже-сегментов начинает быстро расти из-за того, что все слишком похожи между собой, при меньших — из-за того, что на гетерозиготных снипах сегмент порваться не способен. Уровни ниже 0,45 я убрал из-за их явной нереалистичности. Как можно догадаться, там график движется к нулю.

HZ

Реклама

Добавить комментарий

Please log in using one of these methods to post your comment:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s