Новая модель SPA для анализа древнего происхождения

Три года назад я подробно разбирал программу SPA. В этой заметке я обсуждал перспективу расширения традиционных геногеографических методов, так как эксплицитное пространственное моделирования частот аллелей позволяет достаточно точно локализовать положение отдельно взятого человеческого индивида  на географической карте только на основании генетической информации. Если географическое происхождение лиц известно априори, то можно использовать эту информацию для определения функции частот аллелей в каждом SNP. Однако, если таковая информация отсутствует, то наша модель позволяет определить географическое происхождение физических лиц, используя только их генетические данные аналогично более известному методу  многомерного скалирования , основанному на определении пространственных координат статистических параметров.Это заключение подтверждается в независимом исследовании компании 23andme, согласно которому анализ главных компонентов генетического разнообразия в геноме человека позволяет точно определить его место происхождения в Европе.

Позднее разработчики SPA  выложили на своем 2 модели для анализа пространственного происхождения  в пределах Европы и всего мира, причем они были специально приспособлены под формат клиентских данных компании 23andme.  К сожалению, на практике выяснилось что модель World оказалась субоптимальной (малоэффективной) для анализа данных 23andme. Например, при тестировании модели на реальных данных 23andme, локации происхождения часто оказывались за пределами Европы. Например, вычисленные координаты  моего происхождения в модели World  указывали на точку посредине Атлантического океана.

Я решил исправить эту ошибку и подготовить файлы новой модели для анализа древнего происхождения.  Наилучшей (для анализа древних процессов формаирования генофондов ) выборкой cледует признать набор данных Reich Lab, и поэтому модель для анализа древнего ареала генографического  происхождения была получена путем «обучения» программы SPA на полной выборке HumanOrigins (версии 2016 года). Полученную на выходе модель SPA World можно скачать здесь.

В заключение привожу результаты использования модели SPA World для анализа геопространственного анализа происхождения на примере моих собственных данных (как и ожидалось от модели для анализа древнейшего происхождения, первая точка аппроксимирует происхождение от мезолитических охотников собирателей Европы, а вторая — от неолитических земледельцев.

  • первая точка — 64.4498874489 северной широты   25.3011398541 восточной долготы (Финляндия, Cилкайоки)
  • вторая точка — 24.5226652677 северной широты   28.4272662340 восточной долготы (Египет)
    Untitled

О новых перспективах геномной геногеографии: SPA анализ участников проекта MDL

В июле прошлого года мы закончили обработку/калибровку вычисленных в программе SPA географических координатов референсных геномных сэмплов и геномных сэмплов участников моего проекта MDLP. Это было полезное упражнение.
Поскольку в исходном виде «предсказанные» SPA географические координаты слабо коррелировали с реальным положением сэмплов в географическом пространстве, пришлось воспользоваться методологией, предложенной авторами статьи «Comparing Spatial Maps of Human Population-Genetic Variation Using Procrustes Analysis«. В основе этой методологии лежит Прокрустова трансформация предполагаемых географических координат, исходя из априорно известных географических центроидов отдельных евразийских регионов.

Без лишних слов, перейдем к описанию метода и дизайна эксперимента.

 Команда исследователей (Вэнь-Юнь Янь, Джон Новэмбр, Елеазар Эскин, Эран Гальперин) из Тель-Авивского университета (ТАУ) и Университета Калифорнии в Лос-Анджелесе (UCLA) создали метод более точного выявления географического  происхождения предков  изучаемого индивида за счет развития представлений о пространственном разнообразии генов. Анализ разнообразия генов внутри и между популяциями имеет широкое применение в изучении наследственных факторов  заболеваний человека и человеческих миграций. Вышеупомянутая команда исследователей предложила новый подход, — пространственно-географический анализ родословной в виде эксплицитного моделирования пространственного распределения каждого SNPа за счет определения частот аллелей как непрерывной функции в географическом пространстве.


Несмотря на то, что основной интерес авторов был направлен на обнаружение сигналов селективного отбора в геноме человека, предложенное авторами программное обеспечение реализует некоторые интересные особенности, которые могут быть непосредственно применены к анализу генетических данных, собранных в открытых геномных проектах генома типа нашего проекта MDLP.

Наиболее важной из них представляется перспектива расширения традиционных геногеографических методов, так как эксплицитное пространственное моделирования частот аллелей позволяет достаточно точно локализовать положение отдельно взятого человеческого индивида  на географической карте только на основании генетической информации.

Процитируем первоначальный документ, описывающий суть модели подхода для анализа пространственной структуры в генетических данных:
Если географическое происхождение лиц известно априори, то можно использовать эту информацию для определения функции частот аллелей в каждом SNP. Однако, если таковая информация отсутствует, то наша модель позволяет определить географическое происхождение физических лиц, используя только их генетические данные аналогично более известному методу  многомерного скалирования , основанному на определении пространственных координат статистических параметров.

 Эксперимент

Поскольку авторы сделали свое программное обеспечение общедоступной, я решил испытать  это программное обеспечение на данных собранных в своем проекте. Стоит отметить, что кривая обучения основам работы с SPA была очень гладкой, потому что три из пяти поддерживаемых форматов представляли собой  форматы поддерживаемых программой Plink (с которой я очень хорошо знаком). На самом деле, самая сложная часть эксперимента с анализом SPA заключалась в решении проблемы с неизвестным географическим происхождением некоторых участников проекта MDLP. После  нахождения подсказки в одной примечательной статье ( где приводилось количественное сравнение корреляции между частотами генами и географии в мировых мета-популяциях человека), я разделил эксперимент на пять этапов:

1) прежде всего, я получил географические координаты (широта / долгота) каждой популяции.
2) после чего произвел SPA анализ с 3 заданными измерениями  в выборке 1 440 447 SNP-ов
3) к полученным на выходе географическим координатам, я применил ‘прокрустово преобразование’ для сравнения на индивидуальном уровне координат первой из двух компонентов (1 и 2)  и географических координатах
4) с помощью прокрустова анализа, я определил оптимальное выравнивание генетических координат в географических координатах (проекции Гильберта) , за счет разворота географических долгот и широт на 16 градусов против часовой стрелки.
5) наконец после получения истинных координат (которые ранее были откалиброваны для оптимального прокрустова выравнивания ), я спроецировал их на географической карте Евразии.