О проекте 1000 геномов

Осенью этого года после публикации данных третьей фазы проекта 1000Genomes, средства массовой информации разместили в таблоидах весьма оптимистические отчеты касающиеся результатов этого примечательного проекта:

Международный консорциум исследователей опубликовал результаты первого этапа работы над проектом «1000 геномов» (1000 Genomes), которые описывают профили редких и распространенных генетических вариаций 1092 человек, относящихся к 14 популяциям в Европе, Африке, Восточной Азии, Северной и Южной Америках, сообщает Genetic Engineering News со ссылкой на Nature.

«Влияние ‘1000 геномов ‘ будет огромным», говорит один из участников проекта Фули Ю (Fuli Yu) из Центра секвенирования человеческих геномов Бейлорского медицинского колледжа в Хьюстоне. «Получена информация почти от 1100 человек, которую составляют, в том числе, сведения о редких и распространенных однонуклеотидных полиморфизмах (SNPs) вместе с инсерциями (вставками) и делециями генетического материала, а также крупными структурными перестановками в самой ДНК», говорит ученый. В настоящее время в рамках проекта картировано 38 миллионов единичных нуклеотидных замен, 1,4 миллиона инсерций/делеций (их называют инделами от английского indels, Insertions/Deletions) и свыше 14 тысяч крупных делеций.

Это вносит изменения в эталонный геном человека.

Проектом 1000 геномов установлено около 98 процентов последовательностей редких генных вариантов, присутствующих у одного процента популяции. Предполагается, что тайна генетического вклада в распространенные сложные заболевания, такие как рак, болезни сердца и диабет, кроется в этих редких вариантах.

Если не обращать внимания на чрезмерно оптимистичный характер отзывов в масс-медиа, то все-таки признать огромную важность это проекта и главным образом — открытость геномных данных для стороннего анализа. Именно благодаря этому немало важному обстоятельству профессиональными генетиками и попгенетиками были обнаружены множество вариантов — CNV, SNP, indel-ов в аутосомальных хромосомах и половых хромосомах Y/X. Пожалуй, именно обнаруженные любителями новые снипы Y практически сразу же получили практическое коммерческое применение после включения в набор тестируемых снип-сетов компании  FTDNA и Geno2.0 от National Geographic.

Исходные данные проекта  доступны на двух FTP-серверах проекта и включают  в себя данные совершенного разного типа. Находящиеся в директориях pilot_data и release файлы с обнаруженными геномными вариантами (variant calls), информацию о сэмплах и техническими данными процедуры сиквенирования. В отдельной рабочей директории сервера содержатся как основные данные — сырая информация полученная в ходе последовательного мультисиквенирования одних и тех же геномов на разных машинах и с разной степенью разрешения (sanger_low_coverage, qc_low_coverage, illumina_genotyping, cg_genotyping, exome_genotyping), выравненные по референсному геному анализируемые геномы, плюс  огромное количество статистических и аналитических данных.
Именно то обстоятельство, что одни и те же геномы всесторонне сиквенировались разными методами и на разных платформах и позволило выявить столь значительное число геномных вариаций.

В принципе структура проекта достаточно сложна, поэтому пред началом работы с данными желательно ознакомится с туториалами (в соответствующей директории сервера).
Что касается меня, то  я использовал отдельные генотипированные на платформе Illumina_Omni выборки проекта 1000genomes по регионам Великобритании в своем проекте MDLP.

Advertisements

Добавить комментарий

Please log in using one of these methods to post your comment:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s