О новых перспективах геномной геногеографии: SPA анализ участников проекта MDL

В июле прошлого года мы закончили обработку/калибровку вычисленных в программе SPA географических координатов референсных геномных сэмплов и геномных сэмплов участников моего проекта MDLP. Это было полезное упражнение.
Поскольку в исходном виде «предсказанные» SPA географические координаты слабо коррелировали с реальным положением сэмплов в географическом пространстве, пришлось воспользоваться методологией, предложенной авторами статьи «Comparing Spatial Maps of Human Population-Genetic Variation Using Procrustes Analysis«. В основе этой методологии лежит Прокрустова трансформация предполагаемых географических координат, исходя из априорно известных географических центроидов отдельных евразийских регионов.

Без лишних слов, перейдем к описанию метода и дизайна эксперимента.

 Команда исследователей (Вэнь-Юнь Янь, Джон Новэмбр, Елеазар Эскин, Эран Гальперин) из Тель-Авивского университета (ТАУ) и Университета Калифорнии в Лос-Анджелесе (UCLA) создали метод более точного выявления географического  происхождения предков  изучаемого индивида за счет развития представлений о пространственном разнообразии генов. Анализ разнообразия генов внутри и между популяциями имеет широкое применение в изучении наследственных факторов  заболеваний человека и человеческих миграций. Вышеупомянутая команда исследователей предложила новый подход, — пространственно-географический анализ родословной в виде эксплицитного моделирования пространственного распределения каждого SNPа за счет определения частот аллелей как непрерывной функции в географическом пространстве.


Несмотря на то, что основной интерес авторов был направлен на обнаружение сигналов селективного отбора в геноме человека, предложенное авторами программное обеспечение реализует некоторые интересные особенности, которые могут быть непосредственно применены к анализу генетических данных, собранных в открытых геномных проектах генома типа нашего проекта MDLP.

Наиболее важной из них представляется перспектива расширения традиционных геногеографических методов, так как эксплицитное пространственное моделирования частот аллелей позволяет достаточно точно локализовать положение отдельно взятого человеческого индивида  на географической карте только на основании генетической информации.

Процитируем первоначальный документ, описывающий суть модели подхода для анализа пространственной структуры в генетических данных:
Если географическое происхождение лиц известно априори, то можно использовать эту информацию для определения функции частот аллелей в каждом SNP. Однако, если таковая информация отсутствует, то наша модель позволяет определить географическое происхождение физических лиц, используя только их генетические данные аналогично более известному методу  многомерного скалирования , основанному на определении пространственных координат статистических параметров.

 Эксперимент

Поскольку авторы сделали свое программное обеспечение общедоступной, я решил испытать  это программное обеспечение на данных собранных в своем проекте. Стоит отметить, что кривая обучения основам работы с SPA была очень гладкой, потому что три из пяти поддерживаемых форматов представляли собой  форматы поддерживаемых программой Plink (с которой я очень хорошо знаком). На самом деле, самая сложная часть эксперимента с анализом SPA заключалась в решении проблемы с неизвестным географическим происхождением некоторых участников проекта MDLP. После  нахождения подсказки в одной примечательной статье ( где приводилось количественное сравнение корреляции между частотами генами и географии в мировых мета-популяциях человека), я разделил эксперимент на пять этапов:

1) прежде всего, я получил географические координаты (широта / долгота) каждой популяции.
2) после чего произвел SPA анализ с 3 заданными измерениями  в выборке 1 440 447 SNP-ов
3) к полученным на выходе географическим координатам, я применил ‘прокрустово преобразование’ для сравнения на индивидуальном уровне координат первой из двух компонентов (1 и 2)  и географических координатах
4) с помощью прокрустова анализа, я определил оптимальное выравнивание генетических координат в географических координатах (проекции Гильберта) , за счет разворота географических долгот и широт на 16 градусов против часовой стрелки.
5) наконец после получения истинных координат (которые ранее были откалиброваны для оптимального прокрустова выравнивания ), я спроецировал их на географической карте Евразии.

Реклама

О новых перспективах геномной геногеографии: SPA анализ участников проекта MDL: 2 комментария

Добавить комментарий

Please log in using one of these methods to post your comment:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s