Интерактивная этнокарта от Hellenthal et al

Благодаря любезности Вадима Веренича мне предоставилась возможность публиковать заметки в его блоге, чем я не преминул воспользоваться.

В журнале Science появилось любопытное исследование от Garrett Hellenthal и других. Не являясь постоянным читателем журнала, я обратил внимание на публикацию после ссылок на форуме Молгена и в других местах. Вот что пишет об исследовании Компьютерра (привожу по цитате пенелопы):

«Время и место миграций человека уточнили с помощью генов

    Анализ геномов человеческих популяций позволил установить, с кем и когда они контактировали в недавнем прошлом.
       
    Выйдя из Африки и расселившись, наш брат вовсе не остался сидеть на захваченных местах, а продолжал блуждать по земле. Эти блуждания происходили и после формирования цивилизаций, да и продолжаются до сих пор: каждый может вспомнить про миграции варварских племён в древнеримские времена, что же до сего дня, то тут достаточно просто выйти на улицу, чтобы убедиться, что народы по-прежнему в движении и перемешиваются. Такие блуждания иногда происходят мирно, иногда — совсем не мирно, но, так или иначе, это отражается в генетической истории популяции.

    Можно ли сейчас, проанализировав геном людей из разных уголков земного шара, восстановить историю миграций?
    Это сложно, но вполне возможно, как показали Гаррет Гелленталь (Garrett Hellenthal) из Университетского колледжа Лондона (Великобритания) и его коллеги из Оксфорда и Института эволюционной антропологии Общества Макса Планка (Германия). Учёные проанализировали ДНК почти полутора тысяч человек из 95 популяций по всему миру. Итогом работы стала интерактивная популяционно-генетическая карта человечества; кроме того, результаты исследований опубликованы в журнале Science.

    Полученные генетические данные во многих случаях подтверждают исторические: так, например, в ДНК хазарейцев нашли монгольский след, который появился в их геноме во времена Монгольской империи, что вполне согласуется с историческими источниками. Такие же монгольские следы удалось найти ещё в нескольких популяциях вплоть до Турции, в которых они появились примерно в то же время, что и у хазарейцев.

    С другой стороны, удалось обнаружить такие генетические примеси, которые до сих пор от внимания исследователей ускользали: например, у людей ту в современном Китае нашли следы европейской ДНК, похожей на ту, что есть у современных греков. Появилась эта европейская примесь около 1 200 года н. э., и связана она, очевидно, с купцами, ходившими в то время Великим шёлковым путём. Надо ли говорить, что нынешние (гео)политические границы слабо отражают миграционно-генетическую картину? Так, на территории Пакистана в некоторых группах обнаруживается влияние древней Европы, в других есть следы африканских арабов, живших южнее Сахары, к третьим в геном затесалась ДНК из Восточной Азии.

    http://compulenta.computerra.ru/chelovek/biologiya/10011487/
    http://www.sciencemag.org/content/343/6172/747.abstract

    Интерактивная популяционно-генетическая карта: http://admixturemap.paintmychromosomes.com/ «

Исследование заинтересовало меня в первую очередь тем, что в нем применен новый метод, отличный от привычных мне этнокалькуляторов на основе Admixture. Тем более, что в качестве иллюстрации был создан специальный сайт с интерактивной картой — весьма user-friendly подход ) Первое впечатление от карты было таким:

«Карта довольно любопытна. Само исследование я не читал (по причине платности доступа к нему), однако в FAQ, прилагаемом к карте, изложена основная суть метода. Он достаточно сложен — сначала каждый геном (всего использовано 1530 геномов) разбивается на мелкие участки, далее по каждому участку находятся наиболее типичные варианты для макрорегионов — Африка, Америка, Центральная и Южная Азия, Восточная Азия, Европа, Ближний Восток, Океания. Теперь мы имеем что-то наподобие результатов этнокалькулятора в режиме Chromosome painting — каждая хромосома каждого участника раскрашена в радужный цвет. В примере из FAQ у представителя нигерийского народа йоруба получилось ~80% Африки, остальное разделили между собой Ближний Восток, Европа, в меньшей степени Центральная-Южная и Восточная Азия.
Сравнивая между собой эти раскраски, можно моделировать смешение представителей разных популяций, и находить наиболее вероятные варианты — смешивание каких групп могло породить интересующую нас популяцию? Расстояния в сМ между полученными из одного источника участками известны, известны длины этих участков и их количество. Таким образом, можно оценить время их получения. На графиках в правом нижнем углу карты показаны эти соотношения, однако математическая модель не расписывается. Дана такая подробность — если график имеет форму убывающей гиперболы, значит, указанные в заголовке популяции связаны с одним и тем же источником адмикса. Если же наоборот, прибывает — эти две популяции представляют разные источники.
Сразу виден один из недостатков метода — в качестве источников примеси рассматриваются лишь современные популяции, хотя со времен смешения они могли сильно измениться. Непонятно, как вычисляется направление потока генов? Если у северных русских показана польская примесь, а у поляков примесь от северных русских, видимо, это говорит, что они получили общие сегменты из одного источника, которым были праславяне?
Ехидный Поляко уже нашел на карте у литовцев заметную примесь от восточноафриканского народа Hadza. Однако она показывается лишь в одном из вариантов расчета, есть и вполне адекватные — литовцы, как смесь поляков и белорусов. Не понимая сути расчетов, мне сложно интерпретировать этот результат  🙂
В любом случае я за применение новых методов, так как, по ощущениям, из традиционных этнокалькуляторов на основе Admixture чего-то нового уже не выжать. Плохо, что на карте практически не представлены народы России, хотя результаты северных русских, чувашей и народов Кавказа смотрятся любопытно.»

В процессе обсуждения Вадим Веренич провел профессиональный разбор использованных авторами исследования методов:

«Алгоритмы имплементированные в Globetrotter крайне интересны — они представляют собой некий гибрид между алгоритмами Chromopainter/fineStructure (что неудивительно, так как в числе авторов обсуждаемой карты и статьи фигурируют разработчики этих программ) и алгоритмами Admixtools/Alder. Не вдаваясь в нудное обсуждение деталей закулисной математики статистики, суть метода сводится к следущему (зеленым цветом я выделил этапы, основанные на алгоритмах fineStructure/Сhromopainter, синим — алгоритмы, альтернативные алгоритмам Admixtools/Alder)

1) Геном каждого отдельного генома в выборке разбивается похромосомно на мелкие chunks («куски»), и затем с помощью программы Chromopainter производится вычисление попарной матрицы общих «кусков» в режиме» между всеми геномами выборке. Данные матрицы на выходе преобразуются в популяционный вектор, в котором каждый индивид-реципиент представляется в виде мозаичной смеси фрагментов геномов других индивидов в выборке.
2) Затем генерируется 10 произвольных «хромопэйнтинига» для каждого индивида-реципинента
3) После чего происходит первичное моделирование адмикса с помощью регрессионного анализа, в которой популяционный вектор реципиентов выступает в качестве «критериальной» зависимой переменной, а популяционный вектор доноров — в качестве предикторов.
4) Полученные в ходе этого анализа коэффициенты регресии применяются для уточнения «хромопэйнтинга» таким образом, что на основании значений коэффициентов регрессии каждой популяций-донору назначаются вес. Каждый ненулевый вес применяется к тем популяциям, которые вносят значимый вклад в адмикс.
5) На следующем этапе генерируются эмпирические кривые «coancestry» («сопроисхождения», т.е доли сегментов общего происхождения), cначала  берутся «взвешенные» значения взятых попарно сегментов популяций-доноров, эти сегменты удалены друг от друга на генетической дистании G (выраженной в cM). Кривая строится на основании измерения отношения усредненного произведения весов (на определенной генетической дистанции) к усредненному произведению весов на всем геноме в рассматриваемой паре популяций. Это кривая отображает отношение угасания «предковых» значений LD (неравновесного сцепления) к генетической дистанции (cM). Интересно, что каждый индивид представлен здесь двумя «гаплоидами» (т.е фазированными формами своих генотипов). В целях избежания искажения из-за неизбежных ошибок фазирования, авторы предлогают суммировать значения весов в обеих «гаплоидах» индивида.
6) После чего происходит fitting, т.е пригонка кривых «сопроисхождения» в целях вычисления MLE (наиболее вероятной оценки) параметра «лямбда» — экспотенциального распередления значений скорректированных значений всех кривых «сопроисхождения». На основании этого параметра вычисляется время событий адмикса в поколениях.  95% доверительный интервал вычисляется с помощью метода бутстрэппинга.
7) На основе значений популяционного вектора и коэффициентов регрессии адмикса вычислются а и b компоненты истинного aдмикса.
8) Производится новая наиболее вероятная оценка коэффициента адмикса в популяции-реципиента в целом путем интерполяции и бустстрэппинга а установленных значений коэффициента адмикса в первой популяции-донора  и 1-а значений коэффициента адмикс в популяции второго донора.»

(далее опять от Srkzgenetics)

Не могу сказать, что глубоко изучил статью и сопутствующие ей материалы. Скорее, наоборот — статья довольно сложна, а возможности уделить ей необходимое внимание пока нет. Однако есть определенные основания для скептицизма в отношении приведенных авторами датировок событий. В разделе, касающемся Восточной Европы, авторы обнаружили у русских восточноазиатскую примесь времен татаро-монгольского нашествия, либо более ранних нашествий кочевников — гуннов, мадьяр, булгар.
Зная, откуда получены геномы русских, использованные в статье (это генотипированные в рамках проекта HGDP жители юго-западной части Архангельской области), остается лишь недоумевать подобной интерпретации. Мало того, у соседних финнов этот адмикс заметно сильнее — видимо, кочевники добрались и до озер Суоми.
Возникает подозрение, что в глазах исследователей все русские одинаковы и выводы подгонялись под известные исторические события )) Тем не менее, само присутствие «сибирских» аллелей у жителей Севера, как известно любителям этнокалькуляторов, вполне реально. В этом смысле выводы авторов не вызывают протеста.

Покопавшись в карте и сравнив приведенные на ней данные с известной мне информацией по этнокалькуляторам, я сделал для себя такие выводы:
1) Даты адмиксов весьма сомнительны
2) Распределение вклада различных популяций в исследуемую, напротив, отторжения не вызывает. Однако воспринимать его нужно так — процент вклада примерно соответсвует доле предков, разделяемых этими двумя популяциями. При такой постановке вопрос о направлении перетока генов теряет смысл.
3) Следует обращать внимание в первую очередь на first event (более свежее событие по расчетам авторов). Second event зачастую смотрится весьма странно — похоже, это некий артефакт используемого алгоритма.

Попробую проинтерпретировать в этой манере результаты нескольких исследованных популяций.

Russian — северные русские. Как принято считать, северные русские получились в результате смешивания пришельцев-славян с местным дославянским населением.
Polish (52.9%) Lithuanian (7.8%) Belorussian (5.8%)
Три тесно связанных между собой популяции представляют «балто-славянскую» часть наследственности северных русских
Finnish (14.7%) Chuvash (5.6%) Chuvash (2.6%)
«Дославянская» часть частично связана с финнами, частично с чувашами, при этом связь с финнами примерно в 2 раза сильнее. На мой взгляд, более чем адекватно с учетом того, что других северных восточноевропейских популяций для отображения этого компонента просто нет. Современные чуваши слабо подходят на роль предков северных русских — однако они несомненно имеют некоторых общих предков с северными русскими. Эту связь мы и видим.
Oroqen (2.4%)
К сожалению, народы Сибири практически не представлены в модели, за исключением прошедших «бутылочное горлышко» якутов. Поэтому в роли их прокси приходится отдуваться даурам и орочам. Как я подозреваю, появление этого компонента на севере связано с приходом в Европу N1c1, хотя совершенно не настаиваю на этой интерпретации.

Итак, имеем пропорцию смешения пришельцев и местного населения примерно 3 к 1.

Сравним полученный результат с Оракулом для популяции North Russian в этнокалькуляторе K27beta
[1,] «North-Russian»                            «0»
[2,] «69.9% Mordovian + 30.1% Vepsa»            «2.1942»
[3,] «79.2% Center-Russian + 20.8% Saami»       «2.5603»
[4,] «23% Karelian + 77% Mordovian»             «2.6758»
[5,] «77.2% Russian + 22.8% Saami»              «2.9311»
[6,] «15.2% Finland + 84.8% Mordovian»          «3.1693»

Не совсем то же самое, поскольку большая часть популяций K27 отсутствует в модели Hellenthal et al, однако варианты (3) и (5) выглядят все-таки схоже.

Finnish
Oroqen (10.5%) Уже упоминавшийся «сибирский» компонент. У финнов проявляется заметно сильнее, чем у северных русских, что закономерно. Возможно, использованы образцы северо-восточных финнов?
Russian (32.8%) Chuvash (1.4%) Родство с «дославянским» компонентом северных русских. С чувашами уже совсем мало общего.
Norwegian (44.4%) Симметрично соседям с востока, финны имеют общих предков и со своими западными соседями. Пропорция очень близка к 50/50.
Lithuanian (5.6%) не вызывает удивления и наличие общих предков с литовцами.
Basque (3.0%) Средиземноморцы-неолитчики добрались до далекого севера в совсем уж небольшом числе.

Lithuanian
Polish (51.7%) Belorussian (38.4%) Russian (8.9%)
Литовцы, наряду с латышами известные как носители модального балто-славянского компонента, проявляют наибольшее родство со своими славянскими соседями.
Daur (0.4%) Oroqen (0.3%) Colombian (0.2%)
Однако обращает на себя внимание и вторая сторона «адмикса» — все тот же «сибирский» компонент.

Не буду разбирать здесь оставшиеся популяции, поскольку процесс занимает достаточно много времени. Кажущиеся на первый взгляд странными адмиксы зачастую либо поддаются разумной интерпретации, либо имеют свои параллели в предковых компонентах этнокалькуляторов на основе Admixture.

Реклама

Добавить комментарий

Please log in using one of these methods to post your comment:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s