Программное обеспечение для работы с деградировавшей ДНК

Как известно, в последних работах опубликованных в 2015 году и посвященных анализу палеогеномов (древних геномов ископаемых останков) человека, авторы представили новую программу mapDamage2, созданную исследовательской группой Орландо в лаборатории Датского Института Геогенетики (Копенгаген).

Что это за программа и чем оправдано использование этой программы в лучших практиках (best practices) анализа палеогеномов?

mapDamage 2 представляет собой вычислительный фреймворк написанный на языках Python и R. Этот фреймворк позволяет отслеживать и измерять степень посмертного повреждения ДНК в сиквенсах древних ДНК в ридах, полученных на платформах секвенирования нового поколения. Как общеизвестно, обычно после смерти организма ДНК расщепляется эндогенными нуклеазами. Этого не происходит, если нуклеазы оказываются быстро разрушены или инактивированы, например, вследствие обезвоживания останков, низких температур или большой концентрации соли. Даже в этом случае ДНК со временем повреждается в результате случайного гидролиза или окисления. К гидролитическим повреждениям относятся разрушение фосфатного остова цепи, депуринизация (соответствующая позиция остается без азотистого основания) и дезаминирование.
Чаще всего происходит дезаминирование цитозина в урацил, метилированный цитозин (5-метил-цитозин) дезаминируется в тимин; реже аденин превращается в гипоксантин, который комплементарен цитозину, а не тимину, что ведет к неправильному прочтению при секвенировании. То есть в наших ридах за счет подобных «ложно-позитивных» срабатываний, в нормальном распределении снип-мутаций изменится отношение транзиций C>T и G>A к трансверсиям. Транзиция — одно пуриновое основание замещается на другое (аденин на гуанин или наоборот), либо происходит аналогичная замена пиримидиновых оснований (тимин с цитозином).

Таким образом, предполагаемые дезаминированные позиции легко определить с помощью относительного простого алгоритма вычисления байесовских апостериорных вероятностей.

Сразу возникает вопрос: существуют ли методы уменьшения количества ложно-позитивных ридов, и таким образом повысить степень достоверности определения настоящих нуклеотидов в каждой из рассматриваемых базовых пар генома. В пакете mapDamage эта задача решается путем рекалибровки (снижения) значения так называемого PHRED score — меры «качества» прочитанной последовательности — в предполагаемых дезаминированных ридах.

Я решил проверить работоспособность программы на новых ирландских палеогеномах, — но к сожалению, возник ряд технических проблем (The Bayesian statistics program failed to finish), которые будет необходимо решить. В первом приближении кажется, что проблема вызвана несовместимостью пакетa ggplot2 и новой версии R, но я не уверен в этом.

Started with the command: mapDamage -i RSK2-A2.realign.bam -r ../hg19_new.fa —rescale
additional results_RSK2-A2.realign/Length_plot.pdf generated
Performing Bayesian estimates
Starting grid search, starting from random values
Adjusting the proposal variance iteration 1
Adjusting the proposal variance iteration 2
Adjusting the proposal variance iteration 3
Adjusting the proposal variance iteration 4
Adjusting the proposal variance iteration 5
Adjusting the proposal variance iteration 6
Adjusting the proposal variance iteration 7
Adjusting the proposal variance iteration 8
Adjusting the proposal variance iteration 9
Adjusting the proposal variance iteration 10
Done burning, starting the iterations
Done with the iterations, finishing up
Writing and plotting to files
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
Error in postPredCheck(dat, mcmcOut) : could not find function «ggtitle»
Calls: source -> withVisible -> eval -> eval -> postPredCheck
5: postPredCheck(dat, mcmcOut)
4: eval(expr, envir, enclos)
3: eval(ei, envir)
2: withVisible(eval(ei, envir))
1: source(paste(path_to_mapDamage_stats, «main.R», sep = «»))
The Bayesian statistics program failed to finish

Advertisements

Добавить комментарий

Please log in using one of these methods to post your comment:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s