Размышления над эффективностью алгоритма SPA

Перед тем,  как закрыть тему SPA, я решил поразмышлять о причинах неточности определения географического ареала происхождения с помощью генома. Те, кто воспользовался моей моделью для программы SPA (последняя версия — сентябрь 2016 года), могли убедится в том, что даже при наличии большого количества маркеров, модель не во всех случаях точно определяет ареал происхождения (даже с поправкой на погрешность радиусом в 500 км).
В основу алгоритма SPA положены примерно те же самые предпосылки, что и в случае с классическим анализом главных компонент (PCA)

  • Первая предпосылка  подхода SPA состоит в том, что частота аллели каждого SNP в популяции может быть смоделирована в виде непрерывной двумерной функции на карте. Другими словами, при выборе хромосомы индивидуума из локации с позицией (х, у) на карте, вероятность наблюдения минорного аллеля в SNP j на хромосоме может быть сформулирована в виде функции F (х, у), где Fj является непрерывной функцией, описывающей поведение частоты аллеля в зависимости от географического положения
  • Затем на основании сказанного делается упрощающее предположение, что эта функция является экземпляром логистической функции

 

где х представляет собой вектор переменных, указывающих географическое местоположение и а и Ь коэффициенты функции. Авторы понимают каждую из этих функций, как функцию FJ функции наклона градиента частота в SNP J. Эта функция кодирует крутизну склона по норме а, при этом предпологается что смещение параметра b фиксировано. Кроме того, направленность наклона  кодируется в значении вектора а.  Более подробно, θj = арктангенс (aj(1) / aj(2)) могут быть приняты в знчения угла для SNP j, где aj(1)  и aj(2)  являются первым и вторым элементами вектора а.

Поскольку SPA имеет явные географические координаты, подход может быть расширен для систем за пределами обычной картезианской двумерной плоскости координат. В качестве демонстрации этого, авторы программы SPA использовали алгоритм для анализа пространственной структуры населения земного шара, в которой двухмерное отображение на двухмерной плоскости не может точно фиксировать структуру популяции. Таким образом, каждый индивид проецируется на точку земного шара в трехмерном пространстве. Соответственно, авторы использовали трехмерный вектор х (с ограничением || х || равным определенной константе), чтобы представить индивидуальную позицию.

Используя данные (генотипы индивидов из различных популяций из  HGDP), авторы обнаружили что пространственная топология расположения индивидов в пространстве SPA мы наблюдали, что сильно напоминала топологию географической карту мира. В частности, люди из того же континента были сгруппированы вместе, а континенты были разделены примерно так, как это следовало бы ожидать из пространственного расположения.

ng-2285-f3

 

Главная проблема метода состояла в другом. Несмотря на точность топологии взаимного расположения индивидов,  на карте SPA сильно искажены расстояния между континентами.

Например, продольный размер континента Евразии составил 92 градусов в  SPA-пространстве земного шара, в то время как в пространстве реального земного шара — 150 градусов. Продольное расстояние между Европой и Северной Америкой составило 167 градусов на SPA карте земного шара, в то время как на самом деле оно составляет 90 градусов.  Любопытно отметить, что мой опыт работы с этой программы показал, что наибольшую проблему составляют географические координаты долготы, в то время как широты предсказываются довольно точно. То есть по какой-то причине (несимметричность генетических градиентов в направлении север-юг и направлении восток-запад?) пространство SPA очень сильно искажается в продольном измерении (т.е в долготу).
По этой причине, вычисленные географические точки происхождения для европейцев часто оказываются в Атлантическом океана и так далее.

Я решил использовать данные импутированных генотипов для европейских популяций (я занимался их импутацией на протяжении последнего полгода). На этот раз я ограничился только европейскими популяциями. Я  сделал два разных набора с разным числом снипов — один с 1 062 376 снипами, которые содержатся в платформах генотиприрования клиентов 23andme и FTDNA, другой — примерно 590 395 снипов.  Обе модели можно скачать с Google Drive  (здесь и здесь).

Несмотря на тщательный подбор снипов, обе модели продолжают страдать характерным сдвигом географических долгот, а это означает, что данная проблема обусловлена не выборкой генотипов, а самим алгоритмом программы (т.е. улучшение качества выборки или увеличение количества снипов не приводит к повышению точности даже в том случае, если мы используем для тренировки программы на обучающей выборке  индивидов с известной географической локацией).

Это хорошо видно на полученных в ходе анализа моих собственных данных географических координатах 2 точек происхождения (одна из них в Гренландии,  другая в Средиземном море)

untitled

Разумеется, вряд ли можно говорить о точности подобных вычислений. В ходе размышлений над способом решения проблемы я вспомнил о существовании ортогонального прокрустового анализа.

Я взял две матрицы — одну с географическими координатами (фактически центроиды — географические центры стран) и  вторую с предсказанными  (в модели 1M cнипов) величинами географических координат тех же самых образцов (с усредненными значениями по этносам), а затем совершил прокрустово преобразование в программе R, получив новую матрицу с преобразованными значениями координат. Ниже виден результат операции (преобразованные усредненные координаты образцов спроецированы вместе с центроидами на карту Европы). И хотя координаты по-прежнему немного сдвинуты относительно истинных, в целом результат уже гораздо лучше (правдоподобнее).rplot14При проведении прокрустова анализа, кроме Xnew (трансформированной матрицы),  мы получили значения матрицы вращения R, s- коэффициент масштабирования и tt — вектор трансляции координат, минимизирующие дистанцию между матрицей предсказанных координат и матрицей географических координат.

Эти значения можно использовать для коррекции значений географических координат, рассчитанных в SPA. Я снова использую свои данные (2 предсказанные точки географического происхождения Xp):


Xt=sRXp + 1tt


При подстановке Xp получаем следующие значения

точка A:  60.245448+-11.059673 северной широты;  21.394898 +- -5.979712  восточной долготы (северо-западная Балтика и Скандинавия)

точка B: 43.000748+-8.801889 северной широты;  20.725216+-52.159598 восточной долготы (юго-восточная Европа, Балканы и Греция).

 

 

 

 

 

Новая модель SPA для анализа древнего происхождения

Три года назад я подробно разбирал программу SPA. В этой заметке я обсуждал перспективу расширения традиционных геногеографических методов, так как эксплицитное пространственное моделирования частот аллелей позволяет достаточно точно локализовать положение отдельно взятого человеческого индивида  на географической карте только на основании генетической информации. Если географическое происхождение лиц известно априори, то можно использовать эту информацию для определения функции частот аллелей в каждом SNP. Однако, если таковая информация отсутствует, то наша модель позволяет определить географическое происхождение физических лиц, используя только их генетические данные аналогично более известному методу  многомерного скалирования , основанному на определении пространственных координат статистических параметров.Это заключение подтверждается в независимом исследовании компании 23andme, согласно которому анализ главных компонентов генетического разнообразия в геноме человека позволяет точно определить его место происхождения в Европе.

Позднее разработчики SPA  выложили на своем 2 модели для анализа пространственного происхождения  в пределах Европы и всего мира, причем они были специально приспособлены под формат клиентских данных компании 23andme.  К сожалению, на практике выяснилось что модель World оказалась субоптимальной (малоэффективной) для анализа данных 23andme. Например, при тестировании модели на реальных данных 23andme, локации происхождения часто оказывались за пределами Европы. Например, вычисленные координаты  моего происхождения в модели World  указывали на точку посредине Атлантического океана.

Я решил исправить эту ошибку и подготовить файлы новой модели для анализа древнего происхождения.  Наилучшей (для анализа древних процессов формаирования генофондов ) выборкой cледует признать набор данных Reich Lab, и поэтому модель для анализа древнего ареала генографического  происхождения была получена путем «обучения» программы SPA на полной выборке HumanOrigins (версии 2016 года). Полученную на выходе модель SPA World можно скачать здесь.

В заключение привожу результаты использования модели SPA World для анализа геопространственного анализа происхождения на примере моих собственных данных (как и ожидалось от модели для анализа древнейшего происхождения, первая точка аппроксимирует происхождение от мезолитических охотников собирателей Европы, а вторая — от неолитических земледельцев.

  • первая точка — 64.4498874489 северной широты   25.3011398541 восточной долготы (Финляндия, Cилкайоки)
  • вторая точка — 24.5226652677 северной широты   28.4272662340 восточной долготы (Египет)
    Untitled

О новых перспективах геномной геногеографии: SPA анализ участников проекта MDL

В июле прошлого года мы закончили обработку/калибровку вычисленных в программе SPA географических координатов референсных геномных сэмплов и геномных сэмплов участников моего проекта MDLP. Это было полезное упражнение.
Поскольку в исходном виде «предсказанные» SPA географические координаты слабо коррелировали с реальным положением сэмплов в географическом пространстве, пришлось воспользоваться методологией, предложенной авторами статьи «Comparing Spatial Maps of Human Population-Genetic Variation Using Procrustes Analysis«. В основе этой методологии лежит Прокрустова трансформация предполагаемых географических координат, исходя из априорно известных географических центроидов отдельных евразийских регионов.

Без лишних слов, перейдем к описанию метода и дизайна эксперимента.

 Команда исследователей (Вэнь-Юнь Янь, Джон Новэмбр, Елеазар Эскин, Эран Гальперин) из Тель-Авивского университета (ТАУ) и Университета Калифорнии в Лос-Анджелесе (UCLA) создали метод более точного выявления географического  происхождения предков  изучаемого индивида за счет развития представлений о пространственном разнообразии генов. Анализ разнообразия генов внутри и между популяциями имеет широкое применение в изучении наследственных факторов  заболеваний человека и человеческих миграций. Вышеупомянутая команда исследователей предложила новый подход, — пространственно-географический анализ родословной в виде эксплицитного моделирования пространственного распределения каждого SNPа за счет определения частот аллелей как непрерывной функции в географическом пространстве.


Несмотря на то, что основной интерес авторов был направлен на обнаружение сигналов селективного отбора в геноме человека, предложенное авторами программное обеспечение реализует некоторые интересные особенности, которые могут быть непосредственно применены к анализу генетических данных, собранных в открытых геномных проектах генома типа нашего проекта MDLP.

Наиболее важной из них представляется перспектива расширения традиционных геногеографических методов, так как эксплицитное пространственное моделирования частот аллелей позволяет достаточно точно локализовать положение отдельно взятого человеческого индивида  на географической карте только на основании генетической информации.

Процитируем первоначальный документ, описывающий суть модели подхода для анализа пространственной структуры в генетических данных:
Если географическое происхождение лиц известно априори, то можно использовать эту информацию для определения функции частот аллелей в каждом SNP. Однако, если таковая информация отсутствует, то наша модель позволяет определить географическое происхождение физических лиц, используя только их генетические данные аналогично более известному методу  многомерного скалирования , основанному на определении пространственных координат статистических параметров.

 Эксперимент

Поскольку авторы сделали свое программное обеспечение общедоступной, я решил испытать  это программное обеспечение на данных собранных в своем проекте. Стоит отметить, что кривая обучения основам работы с SPA была очень гладкой, потому что три из пяти поддерживаемых форматов представляли собой  форматы поддерживаемых программой Plink (с которой я очень хорошо знаком). На самом деле, самая сложная часть эксперимента с анализом SPA заключалась в решении проблемы с неизвестным географическим происхождением некоторых участников проекта MDLP. После  нахождения подсказки в одной примечательной статье ( где приводилось количественное сравнение корреляции между частотами генами и географии в мировых мета-популяциях человека), я разделил эксперимент на пять этапов:

1) прежде всего, я получил географические координаты (широта / долгота) каждой популяции.
2) после чего произвел SPA анализ с 3 заданными измерениями  в выборке 1 440 447 SNP-ов
3) к полученным на выходе географическим координатам, я применил ‘прокрустово преобразование’ для сравнения на индивидуальном уровне координат первой из двух компонентов (1 и 2)  и географических координатах
4) с помощью прокрустова анализа, я определил оптимальное выравнивание генетических координат в географических координатах (проекции Гильберта) , за счет разворота географических долгот и широт на 16 градусов против часовой стрелки.
5) наконец после получения истинных координат (которые ранее были откалиброваны для оптимального прокрустова выравнивания ), я спроецировал их на географической карте Евразии.