Палеогеномы — техническая информация

Сергей Козлов

Палеогеномы — техническая информация

Чтобы не допускать излишнего загромождения заметок длинными таблицами и диаграммами, я решил вынести часть из них в отдельный пост и при необходимости давать на него ссылку в тексте.

Для начала разберем качество прочтения палеогеномов, на которое я регулярно жалуюсь. Главным показателем является не столько количество прочтенных снипов для каждого генома, сколько уровень диплоидности, то есть доля снипов, для которых результаты прочтения каждого аллеля различаются (разумеется, эти показатели обычно коррелируют, но не строго). Для современных жителей Евразии нормальным является показатель 65-70% гаплоидных снипов в используемом мной основном наборе (у восточноазиатов чуть больше — сейчас я отношу это на то, что набор снипов все же в первую очередь разработан под европейцев), в чем можно убедиться из этой заметки. Можно подумать, что для древних образцов этот уровень не обязан быть в тех же пределах, однако для наиболее качественно прочитанных палеогеномов он близок к тем же 65-70%. Чем же грозит завышенная гаплоидность? Она означает, что часть аллелей просто не прочитана, любой более-менее длинный IBD-сегмент окажется из-за этого «разорван» и не сможет быть обнаружен. Мало того, образцы с высоким уровнем гаплоидности показывают отличающиеся от своих нормальных аналогов (из той же выборки) результаты в этнокалькуляторах на базе Admixture. Таким образом, результат искажается, и мы не в состоянии провести корректное сравнение с современными выборками и другими палеогеномами. Вполне возможно, что искажение распространяется и на другие виды анализа, например, такие, как построение PCA-плотов.

Итак, таблица уровня гаплоидности для обработанных мной палеогеномов (некоторые заведомо низкокачественные образцы были исключены из рассмотрения и в таблицу не попали):

BR2 65,61%
Ust-Ishim 66,29%
NE1 66,49%
LBK 67,08%
RISE493 69,35%
Anzick-1 72,25%
RISE497 73,14%
Loschbour 73,79%
I0118 73,89%
I0100 74,06%
I0408 74,08%
I0099 74,13%
I0406 74,20%
RISE505 74,99%
RISE98 75,02%
I0443 75,38%
I0061 75,81%
I0112 76,06%
RISE495 76,72%
I0104 77,13%
I0231 77,14%
I0103 77,34%
I0412 77,51%
I0054 77,57%
RISE511 80,16%
I0172 80,87%
RISE174 80,97%
RISE150 81,27%
RISE496 83,74%
I0410 84,10%
RISE552 84,62%
RISE523 84,86%
Motala12new 85,26%
RISE395 85,59%
Kostenki-14 85,96%
I0047 88,29%
Motala12 90,19%
RISE500 90,27%
RISE504 91,72%
RISE499 92,74%
RISE502 92,97%
RISE479 94,12%
RISE602 94,38%
Malta 94,41%
RISE94 94,81%
RISE548 94,90%
RISE601 95,25%
RISE577 95,59%
IR1 96,29%
RISE509 96,31%
RISE423 96,46%
RISE569 96,61%
RISE00 96,63%
RISE386 96,64%
KO1 96,67%
RISE97 96,88%
RISE503 96,90%
RISE71 97,08%
RISE600 97,33%
RISE392 98,22%
RISE61 98,39%
BR1 98,49%
RISE407 98,80%
RISE516 98,82%
RISE489 98,93%
RISE512 99,49%
RISE397 99,49%
RISE563 99,62%
RISE525 99,68%
RISE515 99,76%
RISE413 99,76%
RISE431 99,84%
RISE484 99,85%
RISE412 99,90%
RISE416 99,95%

Для IBD-анализа хорошим уровнем можно считать показатель до 75%, приемлемым — до 80, удовлетворительным — до 85. Как можно видеть, среди геномов из работы Allentoft et al к первой категории можно отнести лишь два образца карасукцев (RISE493 и RISE497), образец RISE505 андроновской культуры, и RISE98, отнесенный авторами к культуре боевых топоров. Еще восемь геномов попадают в приемлемо-удовлетворительный диапазон. Что касается этнокалькуляторов, здесь сложнее определить правильные границы, но грубо можно ориентироваться на те же показатели.

Реклама

Палеогеномы — техническая информация: 2 комментария

Добавить комментарий

Please log in using one of these methods to post your comment:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s