Географическое позиционирование людей на основании их генетических данных

Как известно, значительное количество людей интересуется вопросом своего положения в мире. Развитие биоинформатики и персональной геномики позволяют дать один из возможных вариантов ответа на вопрос о нахождении своего места в мире, причем в прямом смысле этого слова, т.е в смысле географического положения проекции генома индивида на карте мира.

На научном языке этот трюк называется генографическая визуализация или биогеографическое позиционирование. В своем блоге я показывал разные способы подобной визуализации, главными из которых являются:
1) Наиболее важным из них представляется  эксплицитное пространственное моделирования частот аллелей позволяет достаточно точно локализовать положение отдельно взятого человеческого индивида  на географической карте только на основании генетической информации — метод SPA.

2) Вторым по важности методом является метод, предложенный Сергеем Козловым — метод визуализации пространственного расположения индивида, исходя исключительно из аллельных чистот снипов в геноме (подробнее читай в моем блоге).

3) Наконец, третий подход опирается на рецепт Франсуа Оливье, который предложил  использовать графическую библиотеку статистического программного обеспечения R для отображения пространственной интерполяции  коэффициентов адмикса (Q матрица) в двух измерениях (где пространственные координаты записываются как географические долгота и широта) (подробности здесь).

Разумеется, методов и способ визуально-пространственного отображения генетических различий в глобальном мировом масштабе гораздо больше.

Подтверждением этого является разработанный сотрудниками  Genomics and Computational Biology Research Group, University of South Wales (Австралиями) метод GPS- позиционирования места происхождения индивида на основе анализа admixture в индивидуальных данных чипсета Geno 2.0 (совместный продукта Спенсера Уэллса и National Geographic). Метод был обкатан на данных сардинцев, и согласно заверениям авторов, этот метод доказал свою робастность на реальных данных:

Поиск биогеографического метода, который использует биологическую информацию для прогнозирования места происхождения, занимал ученых на протяжении тысячелетий. Современные алгоритмы биогеографического позиционирования достигают точности предсказания с погрешностью +- 700 км в Европе, однако их результаты оказываются крайне неточны в других местах, в частности в Юго-Восточной Азии и Океании. Здесь мы представляем новый метод анализа admixture на основе географической структуры населения (GPS), который точно определяет регион биогеографического происхождения лиц по всему миру вплоть до локального уровня. Точность GPS демонстрируется на трех наборах данных:  на популяциях всего мира, популяциях Юго-Восточной Азии, Океании и Сардинии (Италия) с использованием  40,000-130,000 снипов чипа GenoChip. GPS правильно расположены 80%  индивидов в пределах их страны происхождения, причем эта точность достигла 87% для азиатов и жителей Океании. Применительно к более чем 200 сардинцам обоих полов, GPS разместил примерно четверть в их родовые «деревни», а большинство остальных (то есть 80%) в пределах 50 км от их села, что позволяет нам определить демографические процессы, которые сформировали общество Сардинии. Наконец, мы еще раз продемонстрировали три дополнительных приложения GPS в отслеживании биогеографического происхождения друзов населения и выявления истоков европейской североамериканцев.Точность и эффективность GPS подчеркивают важность методов биогеографии основанных на данных Admixture и имеет важные последствия для генетического тестирования происхождения, судебно-медицинских и медицинских наук, и  общих вопросов генетической конфиденциальности.

Хотя изначально тест и разрабатывался под чип Geno 2.0, логика использования приложений GPS (которые работают на выходных данных анализа Admixture) легко позволяет создавать «самодельные» модификации c помощью имитирующих запусков Admixture на данных, чьи параметры соответствуют параметрам данных использованных для создания приложений GPS.

В качестве таких пилотных трюков можно упомянуть трюк геномного блоггера Веселовского. С результатами этого интересного эксперимента можно ознакомиться на Gedmatch, так как использованный в эксперимента Веселовского калькулятор K9b был имплементрован на Gedmatch.

Вот например, мои данные (которые, в принципе были предсказуемы) для большинства выходцев из Северо-восточной Европы. Как видно, погрешность точки локализации по-прежнему составляет +-700 км (если не больше) в радиусе от вычисленного положения на карте.

Calculated Place of Origin: Lithuanians

Longitude: 19.1421697241843,
Latitude: 51.767721502303

 

Еще раз о древней ДНК доисторических жителей Европы

В конце сентября на сервере университета Уппсалы была размещена крайне интересная диссертация шведского ученного Понтуса Скоглунда, имя которого уже несколько раз упоминалась в контексте исследования аутосомного генофонда древнейших жителей Европы, например в моих анализах «геномов» представителей культур ямочной керамики и воронковидных кубков. Хотя работа Скоглунда и  написана на высоком научном уровне, язык ее достаточно прост для понимания (по крайней мере тем, кто занимался практическим анализом аутосомных компонентов древних жителей Европы). С технической стороны, работа Скоглунда интересна прежде всего разработкой особого биоинформатического подхода, позволяющего удалить следы загрязнения древнего ДНК фрагментами ДНК современных людей. Но поскольку метод подробно описан в самой диссертации, мы не будем вдаваться в детали.

С нашей точки зрения гораздо интереснее факт включения в диссертацию результатов анализа древнего ДНК доисторических европейцев. Как справедливо отметили в своих комментариях геномные блоггеры Понтикос и Веселовский,  набор данных по древней ДНК в диссертации намного шире и больше, чем в пилотной статье Скоглунда в журнале Science. Во-первых, включены дополнительные данные по другим останкам шведских неолитических охотников-собирателей — представителей культуры ямочной керамики Готланда (общий код Ajv) и представителей шведской неолитической земледельческой культуры воронковидных кубков (общий код Gok). Во-вторых, в исследование включен еще один интересный образец древнего ДНК, принадлежащего представителю шведского мезолита, чьи останки были обнаружены в пещере Stora Förvar на острове Stora Karlsö в балтийском море. 

Результаты исследования генетической аффиности (схожести) вышеупомянутых образцов древнего ДНК и ДНК современных популяций с помощью разработанной доктором Райхом D-статистики, были сведены в одну показательную таблицу.

skoglund
 Очевидность результатов D-статистики вряд ли нуждается в отдельных комментариях.  Положение индивидов по степени их сходства (выраженного посредством параметра z D-статистики)  относительно условной оси на одном конце которых находятся южные европейцы, на другом — северные европейцы.
Шведские сэмплы древнего ДНК времен мезолита и пост-мезолитической (переходной к неолиту) культуры ямочной керамики Готланда сдвигаются в сторону северных европейцев (представлены референсной популяцией литовцев).  Примечательно, что в ту же стороны сдвигаются и представители иберийско-испанского мезолита (образцы La Brana 1 и La Brana 2).
Образцы древнего ДНК представителей культуры воронковидных кубков, Эци Тирольца закономерно смещаются к другому полюса спектра — южным европейцам (которые представлены сардинцами).

Выводы Скоглунда прекрасно согласуются с более ранними самостоятельными анализами части вышеназванных сэмплов выполненными независимыми геномных блоггеров — прежде всего Диенека, Андерса Полсена и моими собственными (см. ссылку в начале заметки). От себя могу лишь добавить, что в некоторых моих анализах, шведские неолитические образцы оказывались ближе к саамам и латышам, чем к литовцам. Но эти детали вряд ли существенно изменят общую картину.