Инструкции по использованию геномных калькуляторов

Я давно планировал написать русскоязычную инструкцию по использованию калькуляторов, основанных на парадигме DIY Dodecad, однако все никак не доходили руки. Пару дней назад уважаемый Srkz с форума Молген написал детальную инструкцию к этим калькуляторам. Поскольку инструкции написаны на простом и доступном языке, мне не остается ничего иного, как просто перепостить инструкции в этом блоге.

Так как искать информацию, разбросанную по разным темам довольно сложно, я решил собрать полезные ссылки в одном месте. По мере возможности буду добавлять, поскольку за раз все охватить тяжело.

Программа Диенека Do-It-Yourself DODECAD V2.1 http://dodecad.blogspot.ru/2011/09/do-it-yourself-dodecad-v-21.html (необходима для самостоятельного запуска калькуляторов без заливки данных на Gedmatch).
Инструкция по запуску.
Подготовка к работе:
1) Для работы необходима программа R, скачиваем и устанавливаем отсюда: http://www.r-project.org/
2) Распаковываем содержимое архива DODECAD к себе на компьютер (далее для примера буду считать, что архив распакован в папку C:\DYD, назовем ее «рабочая папка»)
3) Помещаем в рабочую папку файл со своей генетической информацией, скачанной с 23andme https://www.23andme.com/you/download/ или FTDNA (Недавно добавлено GENO 2.0, смотрите http://dodecad.blogspot.ru/2012/11/geno-20-patch-for-diydodecad.html). Назовем его johndoe (по русски будет Имярек  :)   )
4) Для перекодировки файла в формат DYD:
4.1) Запускаем R
4.2) В R выполняем команду setwd(‘c:\\DYD’)
4.3) Выполняем source(‘standardize.r’)
4.4) Выполняем standardize(‘johndoe.txt’, company=’23andMe’) для пользователей 23andme
Или standardize(‘johndoe.csv’, company=’ftdna’) для пользователей FTDNA
4.5) В рабочей папке должен появиться файл genotype.txt

Запуск калькулятора:
5) Распаковываем нужный калькулятор в рабочую папку. В исходный архив уже вложен калькулятор DODECAD v3, его и возьмем в качестве примера.
6) Запускаем R, выполняем setwd(‘c:\\DYD’)
7) Выполняем system(‘DIYDodecadWin dv3.par’). Для других калькуляторов название командного файла .par будет, соответственно, другим.
8 ) Итоговый результат выведется на экран, а также в файл genomewide.txt

Для вывода результата в похромосомном режиме отредактируйте файл .par, заменив строчку genomewide (последняя) на bychr

Работа с Оракулом:
9) Запускаем файл Оракула, например,DodecadOracleV1.RData для нашего примера
10) Выполняем команду DodecadOracle(c(a,b,c…),,k=50), где (a, b, c…) — наши значения по компонентам калькулятора (можно взять из файла genomewide.txt), разделенные запятыми. В самих значениях целая часть от дробной отделяется точкой. k=50 означает «Вывести 50 ближайших популяций». Чтобы вывести варианты смешанных популяций, используем формат команды DodecadOracle(c(a,b,c…),k=50, mixedmode=T). Большие/маленькие буквы имеют значение. Для калькуляторов Вадима Веренича используем команду  MOracle  вместо DodecadOracle

Разнообразные калькуляторы Диенека: http://dodecad.blogspot.ru/search/label/DIYDodecad

Калькуляторы JTest и EUTest Polako http://bga101.blogspot.com.au/2012/09/eurogenes-ashkenazim-ancestry-test-files.html (Файлы для DIYDodecad, данные по исходным популяциям, карты распространения компонентов).
Прямая ссылка на файлы для DYDodecad.
Калькулятор K36 Увы, Оракула для этого очень интересного калькулятора не предвидится.
Информация по более старым калькуляторам

Калькулятор Вадима Веренича World-22 https://docs.google.com/open?id=0B6n7iMc2P-yQMnN2OXVERlhjSXM
Оракул World-22 
Исходные популяции World-22
Карты распространения компонентов
Предыдущий калькулятор Вадима MDLP World для K= от 5 до 15 (в 13 перепутаны аллели)

«Оракул четырех предков»
«Оракул четырех предков» (программа ув. Alex AXe)
EthnoGraph ув. Alex AXe для построения PCA-плотов

Использование «Оракула четырех предков» (скопировано из профильной темы):
С 4 декабря Оракул четырех предков доступен в полном объеме на сайте gedmatch.com (для калькуляторов, у которых есть и обычный оракул — это все калькуляторы проектов MDLP, DODECAD, Harappa и калькуляторы JTest, EUTest проекта Eurogenes). Используйте кнопку Oracle-4 на странице вывода результатов нужного калькулятора. Расчет делается методом минимизации среднеквадратичного отклонения, результаты могут несколько отличаться от выложенных ранее в этой теме из-за различия в исходных данных популяций.

Уважаемый Alex AXe разработал программу, рассчитывающую возможных четырех предков по разным алгоритмам и с возможностью подстановки данных из разных калькуляторов.
Версия 0.97 (самая свежая на момент изменения этого сообщения): http://db.tt/634mFXL2
Комментарий автора:
Сделал нормальную реализацию метода постоянной дисперсии и нормальную нормировку расстояний в нем. Удалось немножко его оптимизировать.

Полностью пересмотрел модель шума и порогов.
Теперь не используется параметр «порог метода», вместо него в соответствующей строчке файла input.txt нужно поставить 1 для использования gaussian-метода и 0 для его отключения. Метод наименьших квадратов будет использован в обоих случаях.

Формат input.txt для версии 0.97:
1-я строка: имя (условное) человека, чьи данные анализируются.
2-я строка: имя файла с данными популяций
3-я строка: имя файла с результатами
4-я строка: число выдаваемых результатов приближений. Для режима 4-х предков будет выдано удвоенное число результатов.
5-я строка: минимальный порог компонентов. Значения меньше его будут отброшены. Для автоопределения порога нужно ввести минус единицу.
6-я строка: 1 для использования Gaussian или же 0 для использования только LSM
7-я и далее строки: значения компонентов

Кстати, долгожданный графический интерфейс готов. Сделал его отдельной программой. При запуске нужно выбрать используемый калькулятор (путем указания файла с данными популяций) и потом ввести значения для конкретного человека.
После нажатия на кнопку «Go!» будет сгенерирован input.txt и запустится внешняя программа расчетов.
Можно одновременно запускать несколько для разных данных одного калькулятора (так как input.txt читается только в момент начала расчетов). Естественно, выходные файлы указывать разными. Смотреть их все так же -блокнотом.

Версия 0,95: http://db.tt/q5pEFZCh

Комментарии автора (несколько отредактированы для удобства):

Просто редактируйте файл input.txt подставляя туда свои значения из результатов калькулятора (вместо прочерков для отсутствующих компонент вводите нули).

В начале файла input.txt указываются следующие параметры:
1. Имя (условное) тестируемого. Сделано для удобства идентификации данных, также это имя потом указывается в выходном файле.
2. Имя файла с данными популяций.
3. Имя файла с результатами. Сделано для удобства.
4. Число выдаваемых приближений.
5. Порог компонента. Значения компонентов, которые меньше его, принимаются равными нулю.
6. Порог метода. При вычислении расстояний между данными и приближением, расстояние между компонентами, меньшие этого порога, не учитываются.
7. Номер метода вычисления расстояний, который будет использован. Доступно 8 методов с номерами от 0 до 7, показавших наилучшие результаты. Ноль соответствует методу квадратов. Если указать в качестве номера метода отрицательное число, то будут последовательно использованы все методы.

Как и было обещано, теперь выдаются приближения не только для 4 предков, но и для меньшего их числа. В случае 3-х предков, считается, что первый — это один из родителей, а остальные двое — это бабушка и дедушка со стороны другого родителя.

Еще один калькулятор (устаревший) http://esquilax.stanford.edu/#painting

Advertisements

Добавить комментарий

Please log in using one of these methods to post your comment:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s