Сравнение двух древних европейцев и одного сибиряка с выборками из современных народов методом поиска общих аутосомных сегментов

За последние годы был опубликован ряд работ, посвященных попыткам генотипирования останков древних людей — от живших несколько тысячелетий назад до «усть-ишимца» с предположительным возрастом около 45 тысяч лет, неандертальцев и «денисовки». Количество таких расшифровок растет все быстрее, что не может не вызывать оптимизма.  Трудами известного геномного блоггера Феликса Чандракумара большинство из них было переведено в простой и доступный формат, аналогичный файлам raw data от FTDNA и 23andMe.

Ради интереса я попробовал проверить геномы (предположительно, это два «бритта» железного века и три «англа», «сакса» или «юта» времен переселения этих племен в Британию) из одной из таких недавних работ на наличие IBD-сегментов с современными выборками. Ничего особенного от этой попытки я не ожидал, но результат все равно разочаровал. Никаких связей с современными германцами или кельтами, лишь короткие обрывки сегментов с северо-восточными европейцами.

Как выяснилось, большинство из имеющихся сейчас древних геномов совершенно не годится для такого рода анализа. Основная причина — крайне низкое качество генотипирования. Количество снипов и прочтений на один снип невелико, и подавляющее большинство из них гомозиготно (то есть второй аллель не прочитан). А это значит, что практически все IBD-сегменты разрушены и мы можем увидеть лишь самый базовый и древний уровень родства. В терминах этнокалькуляторов на основе Admixture это оказался (в данном случае) «северо-восточноевропейский» предковый компонент, который наиболее ярко проявляется у народов восточной Балтики — с ними и нашлось наибольшее количество обрывков.

Тем не менее, не все так плохо. Можно выделить известную работу Иосифа Лазаридиса с коллегами о трех предковых популяциях современных европейцев. Геномы европейского раннего земледельца культуры линейно-ленточной керамики (образец Stuttgart, или LBK. Около 7500 лет назад) и почти синхронного ему охотника-собирателя, останки которого найдены на территории нынешнего Люксембурга (Loschbour, около 8000 лет назад) прочитаны очень качественно и почти не уступают файлам от 23andMe и FTDNA.

Карта сумм общих сегментов древнего земледельца с современными выборками:

LBKIBD

С заметным отрывом от остальных лидируют жители острова Сардиния, считающиеся сохранившимися в наиболее чистом виде потомками когда-то переселившихся в Европу земледельцев Восточного Средиземноморья. За ними следуют другие южноевропейские популяции (включая ашкенази и сефардов), скандинавы и восточноевропейцы.

Sardinian 61,06 —//Confidence: very high
Italian 50,14 —//Confidence: very high
French 49,56 —//Confidence: very high
Bulgarian 48,9 —//Confidence: high
Hungarian 48,29 —//Confidence: very high
Basque 45,92 —//Confidence: very high
Greek 45,7 —//Confidence: very high
Norwegian 44,95 —//Confidence: high
Ashkenazi 44,04 —//Confidence: high
Sephard 43,52 —//Confidence: high
Croatian 42,23 —//Confidence: very high
Belarusian 42,12 —//Confidence: high
Swedish 41,86 —//Confidence: high
German-Austrian 41,33 —//Confidence: very low
British 41,2 —//Confidence: very high
Russian-South 40,7 —//Confidence: very high
Balt 40,38 —//Confidence: high
Greek_Azov 39,61 —//Confidence: low
Ukrainian-East-and-Center 39,49 —//Confidence: medium
Estonian 39,27 —//Confidence: high

Наличие общих сегментов с этими народами можно объяснять и миграциями потомков земледельцев на север, и ассимиляцией «земледельцами» «охотников» при продвижении вглубь Европы. Думается, для южных европейцев более актуальна первая причина, для восточных вторая, скандинавы где-то посередине.

Все это не новость, хотя мне понравилось подтверждение работоспособности метода. Более интересным мне показался «язык», протянувшийся на восток — через Кавказ и Среднюю Азию до самой Монголии. Забегая вперед, скажу, что у «охотника» Loschbour такого не наблюдается. Чем может объясняться эта связь? Приток генов с Востока к предкам «штутгартца»? Или же наоборот, его родственники, переселившиеся на восток, оставили свой след в геноме монголов? Для проверки я решил использовать один из этнокалькуляторов, разработанных до появления образца LBK в открытом доступе. При разработке более поздних он был использован как европеец и мог исказить картину.

LBK

Как видите, никаких следов Восточной Азии — чистый средиземноморец. Так что совсем не исключено, что на востоке мы здесь видим следы, к примеру, афанасьевцев.

«Охотник» Loschbour не показал такого яркого сходства ни с одной из современных выборок. Можно предположить, что его племя не оставило дожившего до наших дней потомства, или же оставило мало. Тем не менее, очень хорошо видно, кто из наших современников в наибольшей степени родственен древнему охотнику — это восточноевропейцы с максимумом на восточном побережье Балтийского моря

LoschbourIBD

Finnish 41,21 —//Confidence: very low
Estonian 39,63 —//Confidence: high
Balt 37,85 —//Confidence: high
Russian-North 36,25 —//Confidence: very high
Belarusian 35,31 —//Confidence: high
Karelian 35,21 —//Confidence: high
Veps 34,75 —//Confidence: medium
Ukrainian-West-and-Center 34,48 —//Confidence: medium
Polish 33,8 —//Confidence: high
Norwegian 32,34 —//Confidence: high
German-Austrian 31,4 —//Confidence: very low
Russian-South 30,87 —//Confidence: very high
Russian-West 30,73 —//Confidence: medium
Erzya 30,19 —//Confidence: medium
Saami 30,12 —//Confidence: high
Swedish 29,78 —//Confidence: high
Hungarian 28,55 —//Confidence: very high
Ukrainian-East-and-Center 28,54 —//Confidence: medium
Croatian 27,31 —//Confidence: very high
Komi 26,48 —//Confidence: high

Образец Loschbour в том же этнокалькуляторе MDLP K5:

Loschbour

Для визуализации разницы между «охотником» и «земледельцем» я нормировал значения первого путем умножения на 1.5. Красный цвет означает большее родство с Loschbour, зеленый — LBK. Бурый, как у удмуртов, эвенков или китайцев — нейтрален.

LminusLBKIBD

Но что же наш третий источник наследственности европейцев, аутосомный компонент Ancestral North Eurasian, полученный при генотипировании останков мальчика с сибирской палеолитической стоянки Мальта? К сожалению, его геном расшифрован не так хорошо по сравнению с двумя предыдущими. Это и неудивительно — оценочный возраст мальтинца втрое больше, около 24 тысяч лет. К тому же за это время и количество сегментов, дошедших до наших современников, должно заметно упасть. Поэтому поиск общих сегментов со стандартными настройками дал весьма невразумительную картину. Пришлось резко ослабить настройки фильтра — вместо минимального размера сегмента в 15о снипов (из примерно 200 тысяч) до 50, и вместо минимальной длины сегмента в 3 сМ до 2. После этого алгоритм смог кое-что уловить:

MaltaIBD

Итак, наиболее родственным мальтинцу народом среди наших современников получились удмурты. Вспоминается, что этот народ является одним из чемпионов по наличию Y-гаплогруппы N, пришедшей в Европу с востока. Впрочем, дело тут может быть совсем в другом.

Конечно, уровень погрешности здесь еще выше, чем в предыдущих случаях, но тем не менее, картина вырисовывается довольно отчетливо и неплохо коррелирует с распространением компонента ANE.

Сборный образец «древнего скандинава» Motala1-2 не показал столь же отчетливой картины, как Loschbour и LBK. Видимо, дело в том, что он получен в результате объединения данных из разных наиболее качественно прочитанных геномов. При ослаблении настроек фильтра аналогично мальтинцу получается весьма похожая на Loschbour картина, но более размытая. Не думаю, что есть смысл приводить ее здесь.

Итак, среди современных европейцев можно найти родственников представителей всех трех основных источников (по крайней мере, известных сейчас) их современного генофонда. Насколько реально это родство? Сложно сказать. Конечно, тяжело поверить в сохранение IBD-сегментов на протяжении сотен поколений. С другой стороны, как показало моделирование, мелкие сегменты почти неуничтожимы. А ведь для отрисовки карт используются в основном именно маленькие сегменты в диапазоне 3-4-5 сМ. Возможно, многие из них являются результатом случайного объединения еще более мелких сегментов, или они поддерживаются отбором, или случайно закрепились в популяции. Думаю, что мы в любом случае можем считать этих людей своими родственниками, хотя и не очень близкими ))

Исследование генетики татар Поволжья при помощи анализа на IBD-сегменты

Исследование генетики татар Поволжья при помощи анализа на IBD-сегменты

Не секрет, что под этнонимом «татары» в России зачастую скрываются совершенно разные этнические группы. Существуют татары казанские, астраханские, сибирские, крымские и т.д. В данном исследовании нас интересуют татары среднего Поволжья — казанцы и мишари.

Это достаточно многочисленный и активно тестирующийся народ, неплохо представленный в аутосомных базах 23andMe и FTDNA. По мере роста статистики прогонов татарских генотипов через калькулятор Вадима Веренича К27, я начал впадать в некоторое замешательство. В своем большинстве татары получались довольно близкими друг к другу по соотношению предковых компонентов Admixture. Однако одновременно существовали и различия, где было весьма сложно понять — не результат ли это попросту случайных отклонений? Разделение между казанскими татарами и мишарями проявлялось скорее как тенденция к несколько большим значениям «балто-славянских» и «финских» компонентов у вторых, чем как явный сигнал.

Поэтому при появлении у меня нового инструмента — скрипта, анализирующего наличие общих IBD-сегментов с научными выборками, я не замедлил пропустить через него имеющиеся генотипы татар из коммерческих выборок. Сразу же проявились различия, что позволило сделать вывод — несмотря на сходство татар по пропорциям предковых компонентов, их источники частично различаются.

Чтобы по возможности снизить влияние случайных отклонений, я постарался выделить усреднения по территориально-этническим группам. Наиболее бросающимся в глаза признаком казанских татар оказалось большое количество общих сегментов с марийской и чувашской выборками. Однако это еще не означает, что казанцы разделяют большую часть общих предков с марийцами или чувашами. Дело в том, что эти выборки испытали очень сильный генный дрейф. В результате даже не очень значительное родство с ними проявляется весьма ярко. В прошлой заметке я назвал это «эффект ашкенази», по имени наиболее известного примера. Судя по всему, марийцы и чуваши разделяют заметную часть общих предков, поэтому и «эффект ашкенази» у них общий.

Усреднение по трем казанским татарам из Апастовского района Татарстана:

Tatar-ApastovIBD

Довольно типичная картина — фоновая засветка по Восточной Европе, яркое пятно у марийцев и чувашей и более бледное — у татарской научной выборки. Точный источник татарской выборки мне неизвестен, но сравнительно слабые показатели могут хорошо объясняться большей численностью и генетическим разнообразием татар.

Татары из Тархановского района, 5 человек, выглядят весьма похоже, лишь марийско-чувашское пятно менее яркое:

Tatar-TarhanIBD

Татары из северо-западной части Башкирии, четыре человека. По сравнению с предыдущими выборками, добавилось некоторое влияние удмуртов и башкир:

Tatar-Bash-NWIBD

Насколько же велико может быть количество общих предков татар с чувашами и марийцами? Попробуем сравнить апастовскую выборку с усреднением по трем чувашам:

ChuvashIBD

В калькуляторах на базе Admixture у чувашей ярко проявляется «уральский» компонент, и здесь мы хорошо видим его распространение — от саами до манси. Уровень пересечения с чувашской выборкой при моих типичных настройках — 115 сМ. Примерно такой же уровень получился у марийца (отличие от чувашей — в более высоком пересечении с марийской выборкой). При этом у людей с наполовину марийским или чувашским происхождением этот показатель составил чуть меньше 80. У апастовской выборки — 67. Можно сделать прикидку, что при недавнем адмиксе это соответствовало бы примерно 1/3 общих предков. Однако если эти предки жили давно, когда дрейф проявился еще не так сильно, их доля могла быть выше. Таким образом, оценкой снизу будет 30%. Провести оценку сверху поможет упоминавшийся «уральский» компонент. При калибровке К27 его содержание у чувашей получилось равным 19, усреднение по татарам из апастовской выборки —  около 9. Таким образом, даже если все не пересекающиеся с чувашами предки были из популяций с нулевым содержанием этого компонента (что малореально), вклад чувашей не мог быть выше 50%. Думаю, что наиболее реалистичным вариантом будет все же 1/3.

Разумеется, существует еще вариант, что чуваши получили «уральский» компонент уже после разделения с татарами. Тогда количество общих предков может быть и гораздо большим. Однако этому варианту скорее соответствует некий более древний уровень родства, чем рассматриваемые здесь исторические времена.

Я попробовал подсчитать, исходя из предположения, что «чувашские» компоненты составили 1/3 наследственности татар, на что могли быть похожи оставшиеся 2/3 по К27. В одиночном режиме результат оказался непохожим ни на один народ, кроме самих татар. В режиме смеси комбинации тоже показались на первый взгляд очень странными, однако, как мы позже увидим, кое-какой смысл в них был:

Using 2 populations approximation:
1 Nogay_D+Russian_Novgorod_D @ 6,174824

Using 3 populations approximation:
1 50% Russian_North_R8 +25% Kazakh_R2 +25% Romanian_D @ 3,826868

2 50% Russian_North_R8 +25% Bulgarian_S14 +25% Kazakh_R2 @ 4,087314

У меня не нашлось полноценной мишарской выборки из районов за пределами Татарстана и Башкирии, поэтому пришлось объединить три образца, получившиеся похожими и по IBD-картографу, и по предковым компонентам в калькуляторе Вадима Веренича. Первый происходит из мишарей Нижегородской области, второй — из пензенских мишарей, третий — из служилых татар Самарской области.

Mishar-NPSIBD

Как мы можем видеть, здесь не только нет «марийского» пятна, но даже наоборот — на этом месте показано уменьшение количества общих сегментов по сравнению с соседними популяциями. Родство с чувашами имеется, однако, очевидно, идет по другой линии предков чувашей, не совпадающей с предками марийцев. Наиболее же сильно выделяются эрзяне. Как и в случае родства казанских татар с чувашами, это вовсе не говорит об определяющем вкладе эрзян в генетику мишарей. Нижний предел я бы оценил аналогичным предыдущему случаю методом примерно в 20-25%. Что касается верхнего ограничителя, тут сложнее из-за отсутствия специфического «эрзянского» компонента Admixture. Если ориентироваться на общий восточноевропейский компонент Balto-Slavic, то он ограничивает максимальный уровень примерно 70-80 процентами. Вполне возможно, что предками мишарей были не сами эрзяне или мокшане, а родственная им соседняя популяция — это дополнительно затрудняет оценку.

Для сравнения, эрзянская выборка, пять человек:

ErzyaIBD

Мишари из Дрожжановского района Татарстана, три человека:

Mishar-DrozzhIBD

Картина схожа с предыдущей мишарской выборкой, однако у марийцев уже нет провала. Возможно, это связано с близостью к Чувашии, возможно — с влиянием казанских татар.

Выборка мишарей из Башкирии получилась ближе к казанскому варианту. Это может объясняться спецификой именно данной выборки, либо различиями между мишарями в целом. Придумать объяснений можно много, но думаю, здесь нет смысла в них вдаваться.

Mishar-BashkIBD

Итак, для каждого из народов (или, при другом подходе, субэтносов), мы видим на картах один из предковых источников. Однако попытка вывести оставшиеся источники методом пересчета предковых компонентов оказалась малоудачной. Чтобы решить эту проблему, я попробовал визуализировать разницу с первым источником. На карте приведена разница между первой («сборной») мишарской выборкой и эрзянами, для контрастности умноженная на три:

MNPSminusErzyaIBD

Зеленые тона показывают выборки, более близкие эрзянам, красно-бурые — мишарской выборке. Промежуточные варианты одинаково близки и тем, и другим. Максимум разницы в пользу мишарей достигается из крупных выборок у бурят и тувинцев, что очень хорошо совпадает с недавней работой по генетическим следам тюркской экспансии . Немногим отстают от них и башкиры с казахами. Интересно, что кавказские выборки, за исключением ногайцев и балкарцев (наличие в этой компании армян остается загадкой )) ), получились несколько ближе к эрзянам, что говорит против теории о связи мишарей с Кавказом (либо она каким-то образом идет через эрзяноподобную сторону). Пятно у вепсов, думаю, тоже что-то означает, поскольку в слабом виде видно у многих татар. Однако это может быть и следствием более высокого уровня дрейфа у вепсов по сравнению с соседями.

При построении аналогичной карты для пары казанцы/чуваши в качестве базовой выборки я выбрал апастовскую. Башкирские по понятным причинам не могут служить типичным образцом, а тархановская демонстрирует тенденцию сдвига к мишарям. К тому же наиболее родственная чувашам выборка может выявить отличия с ними более показательно.

TAminusChuvashIBD

Зеленая зона вдоль северной части Сибири объясняется более высоким уровнем родства с этими народами у чувашей, чем у татар (все тот же уральский компонент). Родство с народами степной полосы и возможной тюркской прародины находится на примерно одном уровне у «чувашской» и «нечувашской» части генома казанских татар. Родство же с выборками Средней Азии, Кавказа, Средиземноморья — выше. Вероятно, средиземноморскими же пересечениями объясняется повышенный уровень общих сегментов с ашкенази (не забываем, что это число надо делить в разы из-за ашкенази-эффекта). Примерно такого же уровня пятно с крымскими татарами выглядит бледнее из-за небольшой площади полуострова. Интересно также пересечение с болгарами. Не думал, что их тюркский компонент проявится настолько заметно. Впрочем, возможно, это объясняется турецкими или татарскими вливаниями, а не древними булгарами. Ну и обращает на себя внимание знакомое пятно у вепсов и эстонцев.

А теперь вспомним еще раз раскладку при попытке реконструкции «нечувашской» части на базе К27:

2 50% Russian_North_R8 +25% Bulgarian_S14 +25% Kazakh_R2 @ 4,087314

Неправильно, однако уже не так странно, как казалось вначале.

Не следует думать, что перечисленные популяции составляют 2/3 наследственности казанских татар (раз уж 1/3 мы оцениваем вклад «чувашской» стороны). Более вероятным кажется вариант, когда заметную часть от этих 2/3 занимает некая нейтральная по отношению к чувашам популяция, у которой уровень IBD сегментов с другими уральцами и восточноевропейцами был близок к ней. Из-за нейтральности она плохо выделяется на картах IBD-разности, однако калькуляторы на базе Admixture показывают — вклад пришельцев с далекого Юга или Востока не мог быть определяющим. Возможно, именно на эту популяцию намекают «вепсско-эстонское» и «южно-русское» пятна.

В завершение я хочу привести карту разницы между мишарями и казанцами:

MNPSminusTAIBD

С казанской стороны мы видим знакомые марийско-чувашское и крымско-татарское пятна, а также, слегка неожиданно, но не удивительно, азербайджанское (с расширением вдоль Южного Каспия). С мишарской стороны знакомые эрзяне, неожиданно выделилась территория ВКЛ (какие-то вливания оттуда в геном мишарей?), и, по совсем непонятной причине, выборка коми. Родство с азиатскими выборками идет с некоторым перевесом в пользу казанцев, особенно в «зоне марийско-чувашского влияния».

Аналогично примечанию к предыдущей карте, не следует забывать — здесь показана разница. Нейтральная общность может быть велика, но не видна этим методом.

Визуализация количества общих (IBD) сегментов — часть вторая

Обзор волжско-уральских популяций я хочу начать несколько издалека — с карты для селькупа из селения парабель Томской области. В какой-то мере он служит той же цели, что и литовец в предыдущей части:

Selkup-ParabelIBD

Пересечение с соседями по западной Сибири зашкаливает, как и положено для небольших групп с высоким уровнем генного дрейфа. Однако интересно не это, а выбросы на запад — к башкирам, удмуртам, марийцам. чувашам. Видно и повышение у саами. Таким образом, здесь мы наблюдаем распространение «уральского» генетического компонента.

Очень специфичной популяцией являются и марийцы. Уровень «эффекта ашкенази» получился намного выше, чем у самих ашкенази. Таким образом, все народы, имеющие хоть в сколько-нибудь заметной степени общих предков с марийцами, хорошо видны на карте:

MariIBD

В первую очередь это чуваши, сильно влияние у выборки казанских татар, удмуртов, манси и башкир. Вот это и есть «волжско-уральский круг популяций». Интересно, что коми и удмурты оказались в разных категориях, несмотря на языковое родство. Впрочем. как видно по карте коми-зырянина в предыдущей части, есть между ними и генетические пересечения.

100% чуваша из коммерческих выборок у меня нет, однако человек наполовину чувашского происхождения проявляет сходство как с чувашами, так и с марийцами. В отличие от предыдущей карты, чуваши у него на первом месте (это видно в таблице, поскольку картограф обрезал оба зашкаливающих значения до допустимого максимума) :

Chuvash-MokshaIBD

А вот нижегородские мишари более уместно смотрелись бы в предыдущей части заметки:

Mishar-NizhniyIBD

Родство с балто-славяно-финским кругом популяций явно более выражено. чем с волжско-уральским.

Татарин смешанного казанско-мишарского происхождения, южная часть Татарстана:

Tatar-SamaraIBD

Еще раз напомню — неправомерно на основании наиболее яркого пятна у марийцев говорить, что этот человек наиболее близок марийцам. Наличие общих предков с этим народом проявляется в разы ярче из-за «ашкенази-эффекта». То, что татарско-казанская выборка гораздо бледнее, объясняется тем, что татары — более крупный народ с высоким генетическим разнообразием.

Татарин с Урала (часть предков-башкиры):

Tatar-Bashkir-UralIBD

Как ни странно, я не просчитал ни одного «классического» казанского татарина, увлекшись краевыми случаями. Возможно, у него казанская выборка оказалась бы ярче. Эту задачу оставим на будущее.

Башкир:

BashkirIBD

Интересно продление пятна на северо-восток, к уральским народам вплоть до юкагиров.

У сибирского татарина видна общность с селькупами и марийцами. Вспоминая яркость на карте парабельского селькупа, степень этой общности не так уж и велика. Виден и вклад из монгольских степей.

Tatar-SiberianIBD

Неожиданно, у казаха количество общих сегментов с восточносибирскими популяциями оказалось выше, чем с собственно казахской выборкой:

KazahIBD

На ум приходят два объяснения — гетерогенность казахов и более высокий уровень «ашкенази-эффекта» у восточносибирских народов. Впрочем, я недостаточно владею информацией по этногеномике казахов, чтобы строить предположения.

Результаты казаха замыкают мое исследование. Не скажу, что в его результате я открыл для себя что-то сильно новое и неожиданное, однако общая картина стала более понятной и наглядной. Эксперимент мне понравился.

Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии

Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии.

Этнокалькуляторы на базе Admixture, представляющие результат «просчета» генома испытуемого в виде смеси предковых компонентов, достигли уже очень хорошей точности. Однако у них есть и определенные недостатки. Во-первых, случается, что у двух разных народов пропорции смешения этих компонентов довольно близки, хотя близкого родства между ними не наблюдается. Обычно для исключения такого эффекта увеличивают число компонентов, то есть повышают детализацию. Однако при этом зачастую возрастает и «шумность», случайные отклонения от ожидаемых значений. Кроме того, бывает тяжело понять — смешение произошло в предыдущем поколении, или тысячу лет назад? Если человек происходит из двух отдаленных народов, он часто позиционируется в географической точке, находящейся между ними, и непохож ни на один из родительских народов. При более сложносоставном происхождении все запутывается еще сильнее.

Нет ли метода напрямую измерить уровень родства отдельного человека с той или иной популяцией? При такой постановке вопроса сразу приходит на ум один из возможных ответов — необходимо просчитать количество IBD (то есть идентичных благодаря общности происхождения) аутосомных сегментов. Такой подход уже реализован в утилите от 23andMe под названием Countries of Ancestry, однако с рядом заметных недочетов. Используются результаты опроса пользователей сервиса о стране их происхождения, при этом непонятно, каков размер выборки от каждой страны. Да и детализация уровня «страна» для жителей России явно не подходит — зачем мешать в одну кучу карел, осетинов и якутов.

К счастью, эти проблемы можно частично устранить, используя научные выборки (либо коммерческие, однако набрать подобный объем из коммерческих выборок мне сейчас не по силам). С удешевлением процесса генотипирования количество имеющихся в открытом доступе выборок начало быстро расти. В первую очередь я использовал выборки, выложенные на сервере Эстонского биоцентра . Они стали основой. Часть пробелов была заполнена выборками из недавней работы Hellenthal , их пришлось переконвертировать из build 36 в build 37. Отдельное спасибо Вадиму Вереничу за помощь с несколькими выборками, хорошо увеличившими охват этнокарты.

Главной сложностью в работе оказалось сведение геномов из всех источников вместе. В каждой научной работе использовался свой набор снипов, часто с разной ориентацией. Коммерческие выборки тоже неоднородны — например, в FTDNA, как оказалось, существует четыре варианта файлов raw data со слегка отличающимся набором снипов и разной ориентацией примерно трех сотен из них. Добавьте к этому два варианта выравнивания и трансферы из 23andMe (у которой нашлись свои заморочки, например, дублирование одних и тех же снипов под разными названиями).

Конечно, хотелось использовать как можно большее количество снипов. Однако после ряда попыток придумать коэффициенты пересчета и прочее, стало понятно, что это методологически неверно. Пришлось оставить лишь те снипы, которые присутствовали во всех используемых выборках, в стандарте FTDNA, а также на чипе v3 от 23andMe. Вероятно, в будущем придется включить в просчет и новый, четвертый чип от этой компании, однако пока я решил с ним не связываться. В общем итоге осталось около 244 тысяч снипов — не так уж мало, я опасался худшего. От покрытия FTDNA это составляет чуть больше трети.

Компания FTDNA и сервис Gedmatch используют для фильтрации общих сегментов критерий наличия не менее 700 снипов. Однако для мелких сегментов он выполняется не так уж часто (из-за чего у клиентов FTDNA возникает иллюзия сравнительно небольшого количества таких сегментов). Поэкспериментировав, я остановился на рубеже в 150 снипов — менее него количество сегментов, являющихся статистическими артефактами, начало быстро расти. Основным показателем для отрисовки на этнокарте я взял общую сумму сегментов длиной более 3 сМ. Конечно, более длинные сегменты являются более четким показателем родства, однако их заметно меньше. А это значит, что их количество более подвержено случайным отклонениям. С другой стороны, более мелкие сегменты сливаются в общую кашу. Таким образом, выбранный критерий является компромиссом. При увеличении объема выборок на порядки станет возможно использовать только длинные сегменты и улавливать родство более четко.

Метод дает релевантные результаты при сравнении с выборками свыше 10 человек. Чем меньше размер выборки, тем сильнее влияние случайных отклонений. Из-за этого часть выборок я объединил вместе (например, литовцы и латыши стали балтами), часть исключил с карты. Однако некоторые все же пришлось оставить — в первую очередь это финны (2 человека), западные украинцы (6), башкиры (6) и австрийцы (4). Если для какой-то популяции значения явно выпадают из ряда соседей, всегда обращайте внимание на размер выборки, приведенный в сопроводительной таблице.

Одновременно достоинством и недостатком метода является сильное влияние «эффекта основателя», «множественного родства», «бутылочных горлышек» и т.д. За этим перечислением скрывается примерно одно и то же — когда популяция происходит от сравнительно небольшой группы людей, ее члены разделяют между собой большое количество общих сегментов. Наиболее известным примером являются евреи-ашкенази — достаточно иметь одного отдаленного предка из этого народа, чтобы получить множество генетических «кузенов». Таким образом, родство с народом, подвергшемуся такому эффекту, видно более четко. Но это же искажает общую картину — одинаковое количество генетических пересечений может означать совершенно разную степень близости в зависимости от истории популяции.

Я сравнил 26 человек из коммерческих выборок, представляющие различные популяции интересующих меня регионов, с набором из 1130 геномов, взятых из научных выборок. Результаты сведены в таблицу и частично визуализированы на картах. При интерпретации помните о вышеперечисленных искажениях!

Начнем с представителя народа, считающегося наиболее архетипичными восточноевропейцами в большинстве этнокалькуляторов. Это литовцы (картинка увеличивается по клику):

 

LithuanianIBD

Как видно, литовец оправдывает это звание и по количеству общих сегментов. Красное пятно закрывает большую часть Восточной Европы, в том числе и балтийских финнов. Условно говоря, на этой карте мы видим некий «базовый уровень родства» среди восточноевропейцев.

Пятно восточного финна практически совпадает по форме, однако распределение интенсивности иное:

Finnish-EastIBD

Я бы сказал, что в основном это более частный и специфичный вариант того же, что мы видим у литовца. Доказательством может служить высокий уровень пересечения с балтской выборкой. В то же время, существует и финская специфика, например, пересечение с саами, которые у литовца довольно бледные. Более яркое и пересечение со шведами. Скорее всего, здесь мы видим результат включения в состав шведов финского субстрата, поскольку с теми же норвежцами интенсивность явно ниже.

Крайней западной точкой у нас будет представитель российских немцев. На этнокалькуляторах Admixture он получается достаточно типичным представителем немецкого народа, поэтому версию о заметном влиянии на его наследственность русских можно исключить.

German_RussiaIBD

К сожалению, немецкой выборки у меня нет, поэтому Германия закрашена серым. Некоторым заменителем является Швеция, которая чуть ярче соседей. К некоторому  удивлению, французы и британцы не показали заметной общности с немцем, хотя ее уровень все же выше средневосточноевропейского. Частично это может объясняться тем, что в британской выборке лишь семь человек из 23 — англичане, остальные являются ирландцами. шотландцами и валлийцами. Пятно у восточных украинцев и южных русских также загадочно — неужели это след знаменитых готов?

Невозможно исследовать генетическое разнообразие восточноевропейцев и обойти при этом ашкенази. Поэтому я позволил себе небольшую некорректность и разместил их на карте в районе нынешней Одессы. Картинка для ашкенази из коммерческой выборки:

AshkenaziIBD

Ожидаемое ярко-красное пятно сходства с родной популяцией, остальные все довольно далеко (на втором месте получилась выборка сефардов, но ее на карте нет). Повышение у басков и греков показывает родство ашкенази со средиземноморскими популяциями, пятно у восточных украинцев и белорусов объяснимо длительным совместным проживанием.

Перейдем к восточным славянам. Небольшой размер выборки западных украинцев не помешал им оказаться на первом месте у карпатского русина:

Carpathian_RusinIBD

Пятна на остальной территории получились довольно неровными. Я бы не стал делать из этого каких-то глубоких выводов о древних пересечениях карпатцев и финнов или эрзян.

Северо-восточная Беларусь:

BelarusianIBD

Украина (Полтава):

Ukrainian-PoltavaIBD

Обращает на себя внимание пересечение с поляками.

Человек смешанного происхождения — донские казаки и украинцы:

RuUa-CossackIBD

Тверь-Рязань:

Russian-CenterIBD

Как видно, балто-славянская общность улавливается всегда, в то время как более тонкие различия частично видны, частично скрываются шумом (случайными отклонениями).

Представители эрзи и мокши явно в своей основе близки балто-славянам. При этом балтийские финны никак не выделяются, а народы волго-уральского региона уже довольно далеки. Все это не является новостью для интересующихся темой людей, однако независимое подтверждение результатов показывает действенность методики.

Эрзя:

ErzyaIBD

Мокша:

MokshaIBD

Мокшанская выборка не помещена на карту из-за своего маленького размера (давала слишком большие случайные отклонения). У мокши «родная» выборка получилась заметно ближе эрзянской, у эрзи, соответственно, наоборот. Вероятно, это значит, что, несмотря на родственность двух групп, различие между ними с точки зрения разделяемой популяционной истории существенно (простыми словами, женились преимущественно внутри своего народа).

У северного русского видно родство как с балто-славянскими выборками, так и с балтийскими финнами:

Russian-NorthIBD

Наряду с этим, у русского из Пермского края ощущается влияние коми. Вероятно, с этим же связано и приближение других народов Урала:

Russian-PermIBD

В то же время, сами коми-зыряне скорее относятся к тому же «балто-славяно-финскому» кругу популяций:

KomiIBD

Чтобы не делать пост бесконечным, карты для народов волжско-уральского региона (в широком смысле) будут приведены в следующей части.

Предварительный обзор нового этнокалькулятора от FTDNA myOrigins

Предварительный обзор нового этнокалькулятора от FTDNA myOrigins (дополнено 06.05)

Сегодня компания FTDNA открыла ограниченный доступ к бета-версии своего нового этнокалькулятора, который должен прийти на смену Population Finder. Необходимость замены старой утилиты давно назрела — предикты, выдаваемые этим инструментом, отличались крайней неточностью, и выглядели откровенно неудачно на фоне продукта основного конкурента — Ancestry Composition от 23andMe.

Видимо, после недавнего фиаско с громким анонсом обновленного дерева Y-DNA, в компании решили проявить разумную осторожность и открыли доступ к новому продукту лишь админам проектов, предупредив, что это закрытый бета-тест. На текущий момент можно видеть результаты лишь примерно половины участников (остальные, вероятно, ждут просчета. К сожалению, в этот список попал и я. Дополнение — как выяснилось, «переносы» из 23andMe все же были просчитаны, но не поставлены ссылки  на результат), однако этого достаточно для предварительной оценки нового инструмента.

Видно, что проделана большая работа, и в целом myOrigins (а именно так решили назвать Population Finder 2.0) выглядит гораздо достойнее своего предшественника. Выделен ряд географических зон, к которым может быть отнесен геном тестируемого, полностью либо частично. Зоны, к которым отнесена хотя бы часть его наследственности, выделяются на карте. Чем выше вклад зоны, тем ярче пятно. Похромосомного режима, как в Ancestry Composition, нет. Впрочем, выделяемые им сегменты часто бывают довольно сомнительными, поэтому я не считаю данный факт недостатком myOrigins. Как и следовало ожидать от компании, ориентированной в первую очередь на покупателей из Северной Америки и Западной Европы, наибольшей детализации подверглась Северо-Западная Европа. Она разделена на три близких между собой зоны — «британскую» Coastal Islands, «франко-германскую» Coastal Plain и «скандинавскую» Northlands.

Насколько хорошо получилось произвести разделение, покажет будущее — я в основном обратил внимание на компоненты, важные для восточноевропейцев. Кстати, возникает ощущение, что названия и кое-что в описании зон взято из другой версии программы, поскольку они зачастую плохо стыкуются с картой. Так, «балто-славянское» пятно названо Trans-Ural Peneplain, однако при этом нарисовано на территории Польши, Белоруссии и Украины. Но я забегаю вперед. Итак, две основные зоны, выделенные для Восточной Европы — это «балто-славянская» Trans-Ural Peneplain и «финская» North Circumpolar. Кроме этого, довольно часто проявляется «восточноазиатский» компонент Asian Northeast. Распределение выглядит разумно — украинцы, белорусы, южные русские преимущественно относятся к «балто-славянской зоне», со сдвигом к северу растет вклад «финской» зоны. «Восточноазиатский» компонент, проявляющийся у северян, не удивляет, а то, что он периодически встречается у украинцев, можно отнести на влияние Степи. Впрочем, конкретные соотношения двух основных восточноевропейских компонентов у некоторых участников вызывают подозрение в заметных случайных отклонениях процентовки. Дополнение — подозрения перешли в уверенность.

Тем большее удивление вызывают результаты некоторых представителей народов Поволжья и Урала. У них «найдены» «британский» и «франко-германский» компоненты, причем процент может доходить до 20. Думаю, причина здесь в отсутствии «уральской» зоны. Судя по описанию, ее роль должен был взять на себя «финский» компонент, якобы доходящий вдоль Полярного Круга до самой Гренландии. Частично ему это удается — видно, что у чувашей, марийцев, татар его много. Однако финны очень своеобразны, и не могут полностью отображать все не-азиатское разнообразие Севера Евразии. Как результат — заметную часть генома уральцев алгоритм не может отнести ни к «финскому», ни к «балто-славянскому» компоненту, при этом видно его европейское происхождение. Подозреваю, что такие варианты «на всякий случай» относят к британцам. Логично для алгоритма, рассчитанного в первую очередь на американцев.

Дополнение — как оказалось, «франко-германская» зона довольно часто рисуется и восточным славянам. Видимо, дело здесь не только в отсутствии «уральской» зоны, но и в других особенностях используемого алгоритма. «Британская» зона так и продолжает связываться с «уральцами».

Другие зоны, могущие представлять интерес — «средиземноморская» North Mediterranean, «анатолийско-кавказская» Anatolian Crossroads, «афганско-среднеазиатская» Eurasian Heartland, «америндская» Bering Expansion. Все эти компоненты могут встречаться в небольших количествах у восточноевропейцев, обычно их присутствие вполне оправдано.

На мой взгляд, в целом выделение зон сделано вполне разумно. Основная претензия — отсутствие «уральской» зоны, но честно говоря, сложно ожидать от американской компании внимания к этой тонкости. Излишнее выделение зон в Европе также вполне понятно. Дополнение — к недостаткам я бы отнес и отсутствие варианта «nonspecific» для неопределенных случаев, как сделано в Ancestry Composition. Тогда казусов с неверным разнесением по зонам было бы меньше. На первый взгляд, продукт получился вполне на уровне конкурента, а значит, компания может не беспокоиться еще несколько лет )). После полного просчета результатов всех участников и перехода утилиты в открытый вид мы увидим, действительно ли это так.

Возможна ли оценка вероятного возраста ближайшего общего предка по размеру одиночного аутосомного IBD-сегмента?

В последние годы среди людей, интересующихся генеалогией, приобрели заметную популярность сервисы, производящие поиск генетических родственников по всем линиям, а не только по прямой мужской и прямой женской. В качестве примера можно привести Family Finder от FTDNA и DNA relatives от 23andMe. Участник получает достаточно длинный список так называемых «совпаденцев» — людей, имеющих с ним один или более участок половинного совпадения (УПС) на аутосомах (неполовых хромосомах). Если участок достаточно длинный (а его длина измеряется в сантиморганидах, обозначающих вероятность разрыва участка при каждой передаче в следующее поколение), то это говорит о наличии общего предка (от которого участок и получен).

При этом большинство совпаденцев имеет с вами один, реже два или три одиночных сегмента диапазоном 8-15 или около того сМ. Предсказанная степень родства — от пяти-шести-юродности до неопределенно далекого. Интуитивно кажется, что более вероятно близкое родство, а далекие родственники пришли из так называемого «хвоста распределения» — по теории вероятности, часть сегментов должна сохраниться дольше, чем ожидается.

Так ли это? Поскольку я предполагаю, что придется еще не раз давать ссылку на этот пост людям, ищущим ответа на вопрос о возрасте ближайшего общего предка по одному сегменту, помещу этот ответ в самом начале:

В растущей популяции количество IBD-сегментов размером до 10-20 сМ (верхняя граница зависит от скорости роста) с каждым поколением только увеличивается.

Это значит, что более дальнее родство с совпаденцем из 23andMe или FTDNA вероятнее ближнего (по крайней мере, пока мы не добираемся до предков, живших в эпоху стагнации или уменьшения численности популяции). Грубо говоря, сегменты успевают размножиться быстрее, чем они разрываются.

Этот вывод был для меня неожиданным, однако он отлично согласуется с наблюдаемой практикой. Собственно, то, что большинство подобных сегментов являются весьма древними, было ясно мне и раньше, однако в качестве объяснений приходили на ум различные причины замедления распада (например, высокая гомозиготность в популяции). Инерция мышления не позволяла увидеть процесс в динамике.

Взявшись за решение задачи оценки вероятного возраста общего предка, я решил промоделировать процесс, постаравшись учесть ряд факторов. В модели просчитывается потомство от одного предка на протяжении 10-13 поколений (В зависимости от количества детей на семью. Пойти далее не позволила мощность компьютера). При этом для каждого потомка учитывается его пол (частота рекомбинации различается у мужчин и женщин), случайным образом определяется количество детей и просчитываются общие сегменты с одной, выделенной веткой древа, имитирующей нашу родовую линию. Использовалась генетическая карта от Rutgers University, согласно которой общая длина аутосом составляет примерно 3600 сМ. Для простоты Х-хромосома в моделировании не участвовала. Модель прогонялась 10000 раз, результат усреднялся. Далее для каждого следующего поколения результат умножался на степень двойки, чтобы учесть возрастание количества предков.

Для начала я запустил модель для стабильной популяции — среднее количество детей у каждого человека составляло 2, то есть рост отсутствовал. На графике показано суммарное количество общих с нашей веткой сегментов из каждой размерной категории (но не более 50 сМ) для каждого поколения. Видно, что для многих категорий количество сегментов поначалу увеличивалось, однако постепенно рост сменялся падением.
IBD_Diag01
Дольше всего держалась категория 1-5 сМ, стабилизировавшая свою численность к 12 поколению. Откуда же брался этот рост?
Более мелкие сегменты «подпитывались» распадом крупных. Например, при разрыве сегмента 14 сМ на 6 и 8, мог появиться 8 сМ сегмент (второй исчезал, так как по наследству передавался лишь один). Категория наиболее мелких сегментов при этом находилась на вершине пищевой цепочки, поэтому продержалась дольше всех. Однако к 12 поколению крупных сегментов для ее подпитки просто не осталось. Поэтому в каждом поколении количество сегментов, переданных от конкретного предка, уменьшалось вдвое, однако и количество предков увеличивалось в той же пропорции. Итого — практическая стабилизация численности. Медленный распад сегментов в пределах нескольких процентов на поколение практически незаметен. А вот у более крупных сегментов процесс распада идет быстрее, поэтому их количество заметно снижается. На следующем графике изображена доля, занимаемая по количеству данной категорией сегментов (исключая из общего числа сегменты крупнее 50 сМ). Доля мелких сегментов неизбежно растет с каждым поколением.

IBD_Diag02

Казалось бы, результаты моделирования полностью подтверждают интуитивные представления. Можно рассчитать и наиболее вероятное время жизни общего предка. Например, при наличии сегмента 11-15 сМ медиана находится между 7 и 8 поколением.

Однако следующая модель, предполагающая рост популяции на 25% за поколение (среднее количество детей — 2.5 на человека), дала заметно отличающийся график.

Как видно, с каждым поколением растет не только количество мелких сегментов, но и число сегментов вплоть до категории 20-25 сМ! В предыдущей модели их количество росло лишь до 4 поколения, а далее начало снижаться. Я попробовал проверить модель независимым расчетом. Допустим, у нас есть два человека, разделяющих общий сегмент 15 сМ. У одного из них два потомка в следующем поколении, у другого — 3 (примерно, как во второй модели). Если я правильно рассчитал вероятности, матожидание наличия неповрежденного сегмента между их потомками, составляет 111%. Если у нас была 1000 таких пар, в следующем поколении пар уже будет 1110. Чем больше сегмент, тем выше вероятность его разрыва и ниже матожидание передачи. Граница для выбранных условий проходит примерно по 20 сМ — для этого сегмента матожидание около 100% . Рост количества сегментов из категории 21-25 сМ, видимо, объясняется подпиткой от более крупных. Их число стабилизируется к 11-12 поколению и в дальнейшем должно начать падать. Количество же мелких сегментов при этом растет прямо-таки как на дрожжах, формируя экспоненциальный график.

Процентное соотношение разных категорий сегментов схоже с предыдущей моделью, однако доля категорий выше 10 сМ вполне ощутима.

При более быстром росте населения верхняя граница устойчивости сегментов должна сдвигаться в сторону увеличения. Чем больше детей у каждого родителя, тем больше крупных сегментов перейдет потомкам. Ради интереса, я запустил и вариант со средним количеством детей на семью, равным трем. Здесь эффект еще более выражен. А ведь при заселении новых пространств такое количество детей — далеко не предел.

IBD_Diag05

IBD_Diag06

Обнаруженный эффект естественным образом объясняет факты наличия большого количества общих сегментов внутри популяций ашкенази, финнов, американцев Юга США. Взрывной рост численности неизбежно ведет к данному итогу. То же самое относится и к славянам — большую часть их истории численность славян быстро росла. Думаю, это объясняет многие общие сегменты, к примеру, между русскими и поляками.

Теперь мне стали понятны некоторые моменты из прошлогодней заметки, часть которой была посвящена работе Ralph&Coop на схожую тему:

2. Второй момент связан напрямую с проблемой определения времени жизни последнего общего предка от которого был унаследован сегмент. Понятно, что ответ на этот вопрос будет иметь важное значение для тех людей, кто покупал услуги 23andme исключительно в генеалогических целях. На первый взгляд, все просто. Допустим, если я и Вы разделяем IBD блок генома размеров в 10 сантиморганов , то встает вопрос — когда же именно жил наш последний общий предок?
По теоретическим расчетам, средняя длина блока IBD унаследованного общего предка жившего пяти поколений назад, составляет 10 сантиморганид; поэтому мы могли бы ожидать, что средняя дистанция до общего предка составляет всего пять поколений.

Тем не менее, прямая экспликация результатов в обсуждаемой работе говорит о том, что средний возраст блока (10 cM) общего по происхождению у двух лиц с территории Соединенного Королевства составляет от 32 до 52 поколений (в зависимости от типа используемого распределения). Такое расхождение с теоретическими прогнозами видимо связано с тем, что априори гораздо более вероятно, что общий генетический предок жил в более отдаленном прошлом, и эта априорная вероятность сильно искажает результаты нашего наивной ожидания. И хотя с учетом действия рекомбинации представляется маловероятным, что блок 10 сM унаследован от конкретного общего предка жившего примерно 40 поколений назад, существует большое количество таких древних общих предков.

Именно так — маловероятна передача от каждого конкретного древнего предка, но в целом передача от древних предков как раз более вероятна, чем от близких.

Это также означает, что расчетные возраста зависят также и от разделенной популяционной историей ‘: например, возраст аналогичного блока (10 cM) разделяемого кем-то из Соединенного Королевства с кем-то из Италии еще старше, как правило, примерно 60 поколений до общего предка.

Впрочем, это правило не применяется в том случае если предки из совсем недавнего прошлого (не более чем восемь поколений) . Обычно в таком случае от общего предка наследуется сразу несколько длинных сегментов (часто на разных хромосомах), и в данном случае, мы можем надеяться сделать вывод о конкретном генеалогическом родстве с достаточной степенью достоверность, хотя даже в этом случае следует соблюдать осторожность, чтобы исключить возможность того, что эти несколько блоков не были унаследованы от общих удаленных предков.

Скорее даже меньше — пять-шесть поколений.

Но все же, в некоторых случаях оценка возраста общего предка по одиночному сегменту должна быть возможна. Я сделал прикидку для использованных трех моделей. Поколения 1-4 исключались — для этих случаев вариант получения лишь одного сегмента чересчур маловероятен. Не рассматривались совпаденцы старшего возраста — в модели участвовали лишь люди примерно нашего поколения. Впрочем, понятно, что оценка для отцов и дедов наших ровесников должна несколько отличаться в сторону уменьшения количества поколений до общего предка.

IBD_Diag07

Сегменты 46-50 сМ во всех моделях получились около пяти поколений. По сути, это нулевая отметка, поскольку поколения до четырех отрезаны. Получить такой одиночный сегмент очень маловероятно, но если уж вы его получили, общий предок не может быть давно. Противоположный конец — сегменты, возраст которых настолько велик, что не поддается оценке в рамках модели. В варианте нулевого роста это сегменты примерно до 10 сМ, для роста 25% на поколение — до 25 сМ (можно предположить для 21-25 сМ что-то в районе 12-20 поколений), для роста 50% на поколение — до 40 сМ

В реальности мы не наблюдаем большого количества совпаденцев с сегментами 15, 20, 25 сМ. Думаю, это объясняется тем, что в истории любой популяции периоды роста сменялись периодами уменьшения численности. В это время сравнительно крупные сегменты разрушались. Однако в целом за последние тысячелетия численность европейцев только росла.

Подытожу. Я доволен, что удалось снять противоречие между наблюдаемыми фактами и теоретическими ожиданиями. Получается, что если мы и наш совпаденец с одиночным сегментом происходим из непрерывно растущей популяции, то с наибольшей вероятностью наш ближайший общий предок жил в момент начала этого роста, либо в ближайшие поколения перед ним. С чуть меньшей вероятностью — в следующем поколении, и так далее с понижением вероятности к нашему времени. Количество поколений при этом не ограничено вообще — хоть 50. Многочисленные польские, финские, немецкие совпаденцы получают разумное объяснение. Ну а уж ашкенази ложатся сюда просто идеально.
Ясно, что это упрощение (непрерывный рост в течение 50 поколений навряд ли где-то был), но упрощение более близкое к реальности, чем предыдущие представления. Конечно, в модели не учтен ряд факторов. Однако и составные УПсы, и инбридинг, и отбор, и повышенная гомозиготность только удревняют сегменты. Если считать эти факторы весомыми, предикт возраста одиночного УПСа должен быть еще выше. Допустим, составной УПС выглядит, как полученный от сравнительно близкого предка, а на самом деле — от двух более далеких. А это как раз то, что я хочу доказать.

О значимости мутаций в митохондриальном геноме

Если принадлежность к той или иной Y-гаплогруппе, за исключением генеалогических и исторических целей, имеет пока не очень понятную значимость (вспоминается лишь заметка о повышенном риске сердечных приступов среди носителей Y-гаплогруппы I в Британии, и странное исследование о том, что у носителей гаплогрупп, более распространенных в развитых странах, в среднем более высокий IQ), то сомнений по поводу важности митогаплогрупп нет. Митохондриальный геном невелик, однако сами митохондриии играют в организме ключевую роль — обеспечивают клетки энергией.

Ряд интересных фактов о митохондриях был собран Вадимом Вереничем в его заметке годичной давности

Поскольку я принадлежу к митогруппе U4, меня наиболее интересуют именно ее особенности. Например, вот что пишет Борис Малярчук в работе «Сигналы адаптивной эволюции митохондриальных генов у европейцев»:

Поскольку современные европейцы являются отчасти потомками европейского населения эпохи верхнего
    плейстоцена, пережившего последнее оледенение, то вполне ожидаемым является присутствие в современ
    ном генофонде европейцев адаптивных вариантов, возникших в ледниковое время.

    Предполагается, что наиболее радикальные из
    менения свидетельствуют о влиянии адаптации,
    т.е. направленного отбора [11]. Результаты ана
    лиза показали, что только три замены являются
    радикальными (табл. 2). Одна из них возникла в
    момент образования гаплогруппы U4, характер
    ной для населения Восточной Европы, Запад
    ной и Южной Сибири, и две замены возникли в
    момент образования подгрупп U5a1 и U5a1a1b.

В чем именно заключалась адаптация, в работе подробно не раскрывается. однако кажется весьма вероятным, что адаптация произошла к холодному климату.

К чему ведет столь длинное вступление? Все это вспомнилось мне в связи с появившимся сегодня постом Maciamo Hay «Большинство крупных митогаплогрупп порождены мутациями в гене коэнзима Q»

Далее следует мой любительский перевод заметки на русский язык:

Анализируя филогению митоДНК, я заметил, что большинство широко распространенных, успешных митогаплогрупп появилось в результате мутаций гена MT-CYB, кодирующего протеин цитохром-б. Этот ген расположен между позициями 14747 и 15887.

Очень многие макрогаплогруппы определяются подобными мутациями, включая L0a’b’f, L1b, L1c, L2b’c, L3b, L3d, L3e1, L3e2, L3f, L3k, L5a, L6, M, N, HV, JT. К этим макрогаплогруппам принадлежит более 95% населения Африки и почти 100% людей, живущих вне ее. Многие основные или крупные гаплогруппы Европы и Ближнего Востока определяются дополнительными мутациями MT-CYB, например, H5a1, H13, J1c, J2, J2b, T, U1, U2b’c’d’e, U3, U4, U5a, K, W, W5, X1 и X3.

MT-CYB играет важнейшую роль в синтезе ATF (окислительное фосфорилирование). Мутации, произошедшие в ненужном месте, могут привести к непереносимости физических нагрузок и множественным патологиям. Мутации же, найденные в распространенных гаплогруппах, наверняка улучшают работу гена, предоставляя эволюционное преимущество своим носителям в текущих природных условиях.

Вот список основных митогрупп, содержащих мутации в гене MT-CYB. Я не включал все подгруппы, однако некоторые из них здесь есть. Идея в том, что мутации в этом разделе кодирующего региона встречаются редко, но появившись, приводят к резкому росту популяции своих носителей, порождая новые субклады.

В Африке:

L0a’b’f
L0b
L0f
L0d
L1b
L1c
L1c3
L2b’c (x2 мутации гена MT-CYB)
L2d
L5a
L6 (x5)
L2’3’4’6
L4b1a
L3a1 (x2)
L3b (x2)
L3f
L3e1 (x2)
L3e2
L3k
M (x2)
N
U6a1
U6a2
U6a3
U6a4
U6a7
U6c

В Восточной Евразии, Океании и Америке:

B4a1a
B4b’d’e’j
B4c
B5a
B5b (x4)
B5b2
C4
D4a
D4b1
D4b2a
E2
G1 (x2)
G2a1b
G3a
M10 (x2)
M12
M15
M17a (x2)
N5a
N9b
P
P3
P4a
P5
P7
P9
U2b’c’d’e
U2a2
U2b
U2c
Z
Z1
Z2
Z5

В Западной Евразии:

H2a2a (CRS)
H5a1
H7d
H13 (+ H13a1a1a)
HV
HV1a’b’c
JT
J1c
J2
J2a2
J2b
K
K1b1a
K2a1 (x2)
N1a1
N1b2
R1a
T (x2)
T2g
T3
U1
U1b
U1b1
U2d
U3
U3c
U4
U4c
U5a
U5a1
U5b1a
U5b1c
U5b1i
U7a5
U9a1
W
W5
X1
X3
X2e
X2g
X2j
X2l
X2n

Некоторые дополнения:

Любопытно, что самые распространенные субклады гаплогруппы U, которые по настоящему преуспели — это те, кто получил свою мутацию в гене MT-CYB.

Внутри гаплогруппы U2 первая мутация произошла у U2b’c’d’e. U2a2 получила свою мутацию, оставив с предковым вариантом MT-CYB лишь U2a1. Каждая из южноазиатских веток получила свою дополнительгую мутацию, в отличие от европейской U2e. Возможно, это и объясняет тот факт, что U2e слабо распространена в Европе, несмотря на свое присутствие там на протяжении как минимум 33 тысяч лет. В то же время U2a, U2b и U2c получили в Индии широкое распространение.

Гаплогруппа U8 — тоже одна из старейших в Европе (в Чехии найден образец возрастом 31 тысячу лет), но лишь один из ее субкладов распространен с частотой более, чем 0,5% у европейцев. Он был переименован из U8b2 в гаплогруппу K, поскольку оказался в 20 раз успешнее всех остальных субкладов U8, вместе взятых. Вероятно, неслучайно одна из его определяющих мутаций произошла на MT-CYB.

Гаплогруппа U6 не получила мутации MT-CYB, в отличие от других субкладов U высокого уровня. Однако позже произошли отдельные мутации в пяти субкладах U6a (U6a1, U6a2, U6a3, U6a4, U6a7), и в U6c. Возможно, благодаря этому разнообразию, ветви U6a отлично адаптировались к разным климатическим зонам и преуспели, в то время как U6b осталась мало распространена.

Мутация MT-CYB произошла у макрогаплогруппы JT, затем еще дважды у T, которая стала одной из наиболее успешных европейских и ближневосточных гаплогрупп. После долгого отхода от JT, гаплогруппа T внезапно испытала взрывной рост. J2a2 и J2b, два распространенных на Ближнем Востоке и в Северной Африке субклада, тоже определяются мутациями MT-CYB. Более редкие субклады, такие, как J1a, J2a1 и J1d не получили новых мутаций MT-CYB. То же относится и к J1b, однако у некоторых ее субкладов (J1b1a3, J1b2a) они есть. Сравнительно позднее приобретение, которое, возможно, объясняет, почему J1b была не слишком распространена в Европе до бронзового века.

Гаплогруппы H и V широко распространились после мутации T14766C во все том же гене MT-CYB, и быстро разделились на более чем сотню ветвей. Интересно, что субклады, ставшие доминирующими в неолитической Европе (а именно, H5a1 and H13), получили дополнительные мутации MT-CYB. У остальных субкладов трудно найти что-то подобное, что может косвенно говорить нам об особенной эффективности мутации T14766C

Остальные европейские гаплогруппы, не входящие в HV, JT или UK, в основном не получили мутаций MT-CYB — и в результате остались мелкими линиями, как N1a, N1b, N1c, N2a, N3, R1, R2. Лишь немногие выросли достаточно, чтобы породить собственные гаплогруппы верхнего уровня. Это N2b, ставшая гаплогруппой W, и N1a1b2, ставшая I. Ожидаемо, W определяется мутацией MT-CYB. Для гаплогруппы I мутация произошла в предковой группе N1a1, бывшей крупной неолитической гаплогруппой, но в основном дошедшей до наших дней в форме I. Кстати, гаплогруппа I определяется редкой мутацией в транспортной РНК, кодирующей глицин, нейромедиаторную аминокислоту.

Распространение предковых компонентов для калькулятора K36 проекта Eurogenes

Мне показалось интересным создать таблицу распространения предковых компонентов по восточноевропейским и некоторым соседним популяциям для уже довольно старого калькулятора K36 от Поляко (в свое время автор отказался делать по нему оракул. Сам калькулятор имеется на Gedmatch):
Усреднения по восточноевропейским популяциям для K36
Файл для «Оракула четырех предков» по тем же популяциям

Калькулятор вышел «шумным», значения компонентов у отдельных людей заметно плавают. Тем не менее, он любопытен попыткой максимально детализировать генетический портрет Восточной Европы. Можно отдельно выделить распространение некоторых компонентов (в скобках указаны популяции, на основе которых выводился компонент):
Fennoscandian (финны)

Finnish_East    68,85
Estonian    38,32
Russian_North    25,02
Sweden-2    23,70
Russian_Perm    22,26
Russian_Vyatka    21,52
Russian_Novgorod_Yaroslavl    20,61
Komi    17,68
Sweden-1    17,63
Lithuanian    17,14
Russian_Meshtchyora    15,99
Russian_Center    15,04
Erzya    14,85
Belarusian_East    14,57
Russian_Bryansk    14,45
Chuvash    14,30
Mishar_Drozh    13,67
Russian_Kursk    13,63
Russian_Voronezh    13,59
Russian_Smolensk    13,48
Mari    13,35
Mishar_Bashkiria    13,28
Moksha    13,17
Russian_Oryol    12,99
Tatar_Tatarstan    12,93
Belarusian_Polesye    12,80
Tatar_Yunusbaev    12,55
Bashkir    11,30
Udmurt    11,16
Polish    10,86
Ukrainian_East    10,86
Selkup    10,34
Moldavian    9,71
Mishar_Nizhniy    9,10
Ukrainian_West    8,59
Tatar_Siberia    4,13
Carpathian    4,11
Kumyk    3,14
Kazakh    3,01
Kabardinian    2,33
Tabassaran    1,80
Balkarian    0,48
Abkhazian    0,13

East_Central_Euro (Литовцы, белорусы, украинцы)

Lithuanian    34,73
Russian_Bryansk    28,09
Belarusian_East    26,94
Belarusian_Polesye    26,73
Russian_Smolensk    25,43
Russian_Center    25,16
Ukrainian_East    24,91
Polish    24,83
Russian_Kursk    24,22
Russian_Oryol    23,38
Russian_Voronezh    22,78
Russian_Meshtchyora    21,06
Ukrainian_West    20,77
Russian_Novgorod_Yaroslavl    20,33
Estonian    19,00
Russian_Perm    17,97
Moksha    17,89
Russian_North    17,39
Carpathian    17,19
Erzya    16,86
Russian_Vyatka    16,67
Moldavian    16,55
Mishar_Drozh    14,36
Mishar_Nizhniy    13,95
Mishar_Bashkiria    12,89
Tatar_Tatarstan    11,44
Komi    10,80
Tatar_Yunusbaev    10,60
Sweden-2    9,24
Sweden-1    8,92
Chuvash    8,70
Udmurt    8,56
Bashkir    6,82
Mari    5,63
Finnish_East    4,01
Kazakh    3,95
Kumyk    3,91
Tabassaran    3,09
Kabardinian    1,99
Tatar_Siberia    1,47
Balkarian    1,21
Selkup    0,46
Abkhazian    0,00

Eastern_Euro  (Северные русские, эрзя, мокша)

Russian_Vyatka    25,14
Udmurt    24,06
Moksha    22,68
Erzya    22,61
Russian_North    21,07
Russian_Novgorod_Yaroslavl    21,04
Russian_Meshtchyora    20,79
Russian_Perm    20,56
Russian_Kursk    20,15
Russian_Smolensk    20,12
Lithuanian    19,69
Russian_Center    19,69
Russian_Oryol    18,77
Ukrainian_East    18,50
Belarusian_East    18,38
Russian_Voronezh    18,29
Polish    17,48
Komi    17,24
Belarusian_Polesye    16,96
Mari    16,41
Mishar_Drozh    15,89
Russian_Bryansk    15,69
Mishar_Nizhniy    15,20
Ukrainian_West    15,08
Mishar_Bashkiria    14,93
Tatar_Tatarstan    14,91
Bashkir    14,66
Estonian    14,31
Moldavian    14,08
Tatar_Yunusbaev    13,25
Carpathian    13,05
Chuvash    12,38
Tatar_Siberia    11,27
Finnish_East    10,59
Selkup    9,32
Sweden-2    7,20
Sweden-1    6,39
Kazakh    2,96
Kumyk    2,53
Balkarian    2,35
Tabassaran    2,34
Kabardinian    1,15
Abkhazian    0,69

Volga-Ural (Чуваши)

Mari    29,14
Chuvash    26,02
Komi    11,23
Udmurt    10,81
Selkup    10,56
Bashkir    10,54
Tatar_Yunusbaev    9,27
Mishar_Nizhniy    9,15
Mishar_Bashkiria    8,61
Tatar_Tatarstan    8,55
Mishar_Drozh    8,49
Moksha    7,42
Tatar_Siberia    6,58
Erzya    6,47
Russian_Perm    5,89
Russian_North    5,09
Russian_Vyatka    4,98
Russian_Novgorod_Yaroslavl    4,34
Russian_Meshtchyora    3,22
Russian_Voronezh    3,21
Russian_Center    3,19
Belarusian_East    3,03
Carpathian    2,94
Russian_Bryansk    2,94
Estonian    2,84
Russian_Oryol    2,72
Kabardinian    2,63
Ukrainian_East    2,51
Russian_Kursk    2,10
Kazakh    2,09
Moldavian    1,77
Kumyk    1,47
Russian_Smolensk    1,45
Balkarian    1,36
Polish    1,28
Finnish_East    1,27
Belarusian_Polesye    1,20
Ukrainian_West    1,11
Tabassaran    1,07
Sweden-1    0,66
Sweden-2    0,42
Abkhazian    0,13
Lithuanian    0,00

East_Balkan (Румыны, болгары)

Carpathian    8,52
Moldavian    8,26
Russian_Voronezh    7,94
Belarusian_Polesye    7,80
Polish    7,15
Russian_Meshtchyora    6,97
Russian_Smolensk    6,96
Russian_Oryol    6,61
Ukrainian_West    6,37
Belarusian_East    6,23
Russian_Kursk    6,20
Tatar_Tatarstan    6,15
Russian_Center    5,99
Mishar_Nizhniy    5,85
Ukrainian_East    5,45
Erzya    5,33
Russian_Bryansk    5,06
Lithuanian    5,04
Russian_Novgorod_Yaroslavl    4,41
Russian_North    3,89
Tatar_Yunusbaev    3,56
Mishar_Bashkiria    3,52
Chuvash    3,51
Russian_Perm    3,28
Russian_Vyatka    3,28
Estonian    3,22
Tatar_Siberia    2,58
Abkhazian    2,48
Sweden-2    2,46
Moksha    2,32
Komi    2,21
Kumyk    1,86
Sweden-1    1,80
Bashkir    1,55
Mishar_Drozh    1,47
Tabassaran    1,35
Kabardinian    1,11
Finnish_East    0,88
Udmurt    0,79
Mari    0,29
Balkarian    0,27
Kazakh    0,27
Selkup    0,00

North_Caucasian (Адыги, балкарцы, чеченцы, осетины, кумыки)

Tabassaran    41,85
Balkarian    40,18
Kumyk    39,18
Kabardinian    36,82
Abkhazian    35,25
Tatar_Siberia    13,39
Kazakh    9,01
Bashkir    8,37
Mishar_Drozh    8,12
Moksha    7,53
Tatar_Yunusbaev    7,37
Tatar_Tatarstan    7,32
Mishar_Nizhniy    7,24
Udmurt    5,68
Mishar_Bashkiria    5,46
Chuvash    4,75
Erzya    3,63
Russian_Kursk    3,63
Komi    3,51
Russian_Oryol    3,46
Moldavian    3,26
Russian_Meshtchyora    2,68
Russian_Voronezh    2,52
Carpathian    2,41
Russian_Center    2,15
Belarusian_East    2,12
Mari    1,68
Russian_Smolensk    1,34
Russian_Novgorod_Yaroslavl    1,30
Russian_Bryansk    1,24
Polish    1,04
Russian_Perm    0,94
Ukrainian_East    0,86
Russian_Vyatka    0,83
Sweden-2    0,74
Russian_North    0,62
Belarusian_Polesye    0,47
Ukrainian_West    0,24
Sweden-1    0,16
Selkup    0,09
Estonian    0,00
Finnish_East    0,00
Lithuanian    0,00

Siberian (Буряты, чукчи, эвенки, коряки, нганасаны, тувинцы, якуты, юкагиры)

Selkup    60,69
Kazakh    25,54
Tatar_Siberia    25,04
Mari    19,17
Bashkir    17,82
Komi    13,53
Chuvash    13,36
Udmurt    11,50
Tatar_Yunusbaev    11,22
Tatar_Tatarstan    7,36
Mishar_Drozh    7,13
Mishar_Nizhniy    6,61
Russian_Perm    5,73
Mishar_Bashkiria    5,57
Russian_Vyatka    3,85
Erzya    3,62
Kabardinian    2,52
Moksha    2,12
Russian_North    2,12
Kumyk    1,55
Balkarian    1,22
Russian_Novgorod_Yaroslavl    0,74
Russian_Meshtchyora    0,29
Russian_Center    0,01
Abkhazian    0,00
Belarusian_East    0,00
Belarusian_Polesye    0,00
Carpathian    0,00
Estonian    0,00
Finnish_East    0,00
Lithuanian    0,00
Moldavian    0,00
Polish    0,00
Russian_Bryansk    0,00
Russian_Kursk    0,00
Russian_Oryol    0,00
Russian_Smolensk    0,00
Russian_Voronezh    0,00
Sweden-1    0,00
Sweden-2    0,00
Tabassaran    0,00
Ukrainian_East    0,00
Ukrainian_West    0,00

Некоторые компоненты «пикуют» не у тех популяций, на основе которых были выведены. Например, самыми «волжско-уральскими» оказались не чуваши, а марийцы.

Исследование происхождения евреев-ашкенази в свете хазарской версии

На сайте Wayne State University можно увидеть исследование http://digitalcommons.wayne.edu/humbiol_preprints/41/ от Behar, Metspalu et al под названием «No Evidence from Genome-Wide Data of a Khazar Origin for the Ashkenazi Jews», что я бы перевел как «генетика не подтверждает хазарскую теорию происхождения евреев-ашкенази».
Здесь будет приведен краткий пересказ статьи с моими комментариями.

Для начала авторы перечисляют ряд предыдущих исследований на тему происхождения евреев, и подводят некоторые итоги:

Во-первых, можно уверенно определить наличие у человека предков-ашкенази на основании анализа его генома, причем зачастую даже в ситуациях, когда лишь часть его предков относились к этому народу.
Во-вторых, все ашкенази имеют необычайно большое количество общих генетических сегментов — как по сравнению с количеством таких сегментов между ашкенази и людьми из других популяций, так и по сравнению с наличием общих сегментов внутри других популяций.
В-третьих, разница между представителями западных и восточных ашкеназских популяций сравнительно мала — генетически они являются единой популяцией.
В-четвертых, евреи-ашкенази проявляют сильное сходство с евреями-сефардами, и, в меньшей степени, с североафриканскими евреями.

В целом же наиболее вероятным вариантом происхождения ашкенази можно предположить смешение ближневосточных популяций с популяциями южной или западной Европы.

Принято считать, что евреи попали в Северную и Восточную Европу из Италии, поначалу распространяясь вдоль Рейна. Однако существуют и другие версии, среди них довольно популярна хазарская. Согласно ей, восточноевропейские евреи-ашкенази в значительной степени происходят от населения хазарского каганата. Верхушка этого государства, территориально располагавшегося в низовьях Волги и на Северном Кавказе, вероятно, исповедовала иудаизм. После уничтожения каганата в конце 1 тысячелетия нашей эры она могла переселиться западнее.

GAJOMAP

Сложность заключается в том, что у нас нет достоверной информации о генетическом портрете хазар. Можно строить разнообразные предположения по поводу их вклада в наследственность ашкенази, однако как их подтвердить или опровергнуть?
Одно из недавних исследований (Elhaik, 2013) как раз и сфокусировалось на попытках выделить этот вклад. Однако, по мнению Бехара (с моей точки зрения, выглядящем весьма обоснованно), попытка представить грузин и армян в качестве «прокси» хазар довольно неудачна. Эти народы географически недалеки от Ближнего Востока, генетическую связь с которым можно считать доказанным фактом. В то же время, они проживают к югу от кавказского хребта, в то время как хазарский каганат находился севернее. Горы — серьезная преграда для обмена генами.
Чтобы окончательно рассеять сомнения, Behar et al дополнили свой набор популяциями, максимально широко представляющими Кавказ (222 образца из 13 популяций). Кроме этого, 39 человек из поволжских популяций охватывают северную часть каганата.
Таким образом, если от хазар остались хоть какие-то следы в генетике когда-то подвластного им региона, они должны проявиться. Всего же в исследовании использовано 1774 образца (включая 352 новых), из них 202 представляют различные еврейские популяции (включая 84 новых образца).

Не буду подробно останавливаться на методике подготовки образцов, авторы произвели многочисленные положенные в таких случаях действия — исключение редких и ненадежных снипов, сцепленных снипов, криптородственников и так далее. Однако фазирование и импутация были проведены лишь для использования в SPA-анализе и поиска IBD-сегментов.

Авторы применили следующие методы обработки данных:

1) Построение PCA-плота.
Этот метод служит для выявления общих закономерностей, при этом тонкости могут смазаться. В работе приведен плот, построенный по двум первым главным компонентам. Сформировалась классическая V-образная фигура, при этом регион, куда попали ашкенази, можно рассматривать лишь при заметном увеличении из-за его плотной заполненности. Кружками отмечены условные «центры тяжести» для каждой популяции. Большинство евреев, в том числе ашкенази, оказались в окружении народов Восточного Средиземноморья — между Ближним Востоком и Юго-Западной Европой.
При этом неподалеку оказались и армяне с грузинами, в то время как народы Северного Кавказа уже находятся на заметном расстоянии. Хороший повод бросить камешек в огород Elhaik. С другой стороны, заметен и некоторый сдвиг в сторону именно северокавказских популяций.

2) SPA-анализ.
Вкратце суть метода состоит в том, что алгоритму «скармливают» геномы с известной географической локализацией (широта и долгота), и он пытается найти внутри них маркеры, связанные с этими показателями. Это называется «тренировка». Далее производятся противоположные действия с интересующими нас геномами (которые не участвовали в тренировке) — в них ищутся найденные на тренировке маркеры и на их основании вычисляется широта и долгота.
Метод широко рекламировался при своем появлении, однако попытки интернет-пользователей европейского происхождения применить выложенные авторами файлы на себе вызвали крайний скептицизм своими результатами. Это было связано с попытками сопоставить вычисленные координаты с реальной географической картой — зачастую получалось очень смешно. Тем не менее, если рассматривать результат как аналог PCA-плота, он смотрится вполне адекватно. В частности, окружение для ашкенази не слишком отличается от полученного предыдущим методом.

На картинке слева изображен PCA-плот, справа — результаты SPA-анализа

GAJOPCA

3) Admixture
Программа Admixture рассматривает представленные ей геномы как результат смеси K источников, и распределяет их на соответствующее количество кластеров. Согласно встроенным инструментам проверки, наиболее удачным значением K в данном случае является K=10. Результат представлен на картинке:

GAJOADMIX

Как обычно, в этом виде анализа из европейских народов наиболее схожими с ашкенази оказались южные итальянцы и греки. Это не обязательно говорит о происхождении от этих народов — предковые компоненты могли независимо смешаться в схожей пропорции. Обращает на себя внимание сходство между ашкенази и сефардами — особенно жителями северного побережья Средиземного моря. С Ближним Востоком ашкенази связывает в первую очередь светло-голубой «арабский» кластер, с Европой — синий «северо-восточноевропейский». Темно-голубой «средиземноморский» и зеленый «кавказско-ближневосточный» кластеры характерны как для Ближнего Востока, так и для Европы. При этом три связанных с Ближним Востоком кластера присутствуют у всех групп евреев — в том числе и таких удаленных, как индийские. Можно предположить, что именно они маркируют изначальный еврейский генофонд.
Что же может служить маркером хазарского влияния? Я считаю, что это, несомненно, оранжевый «сибирский» кластер. Его особенностью является то, что он присутствует в значимых количествах у всех тюркских народов — даже у турок. Это позволяет связать его распространение с тюркскими миграциями, хотя и не во всех случаях. Так, обращает на себя внимание его наличие у эстонцев, до которых тюрки навряд ли могли добраться. Предполагаю, что это результат более ранних миграций с востока на запад.
Как бы то ни было, хазары, как народ тюркского кочевого происхождения, несомненно должны были нести в себе этот компонент — и передать его ашкенази, влившись в их состав. Однако же у ашкенази «сибирский» компонент наблюдается лишь в совершенно следовых количествах — аналогично многим другим народам. Таким образом, если хазарское влияние и было, его следует признать незначительным.

4) ASD — подсчет количества общих аллелей. По сути, это напрямую подсчитанное генетическое сходство. Интересно, что для обеих групп ашкенази — восточных и западных, наиболее похожей популяцией оказались сицилийцы, и уже потом — другие еврейские группы. Это может говорить о происхождении ашкенази от южных итальянцев, или о схожем происхождении южных итальянцев и ашкенази. Остальные еврейские группы проявляют наибольшее сходство с другими евреями и своими географическими соседями. Популяции Северного Кавказа ожидаемо не проявили особого сходства с ашкенази. Для контроля были проведены аналогичные расчеты с использованием вместо еврейских популяций с Ближнего Востока — киприотов, друзов, палестинцев. Они показали аналогичный уровень сходства с кавказцами.

5) Подсчет количества общих сегментов. Этот метод показывает наличие родственных связей. В групповом сравнении с ашкенази с огромным отрывом лидируют сефарды и североафриканские евреи, далее идут восточноевропейцы, что говорит об их некотором вкладе в ашкеназскую наследственность, остальные группы демонстрируют низкий уровень общих сегментов. Родство с жителями этих регионов если есть, то оно слишком древнее, чтобы заметно проявиться в этом виде анализа.

Вывод из этого делается простой — все пять методов подтверждают друг друга, и ни один из них не демонстрирует заметного хазарского влияния. Что касается возможности следовых количеств, то исключить их нельзя — как отличить небольшое хазарское влияние от других факторов, если оно на уровне «шума»? Исследование Elhaik, 2013 опровергнуто.
На мой взгляд, эта логика вполне убедительна.

Интерактивная этнокарта от Hellenthal et al

Благодаря любезности Вадима Веренича мне предоставилась возможность публиковать заметки в его блоге, чем я не преминул воспользоваться.

В журнале Science появилось любопытное исследование от Garrett Hellenthal и других. Не являясь постоянным читателем журнала, я обратил внимание на публикацию после ссылок на форуме Молгена и в других местах. Вот что пишет об исследовании Компьютерра (привожу по цитате пенелопы):

«Время и место миграций человека уточнили с помощью генов

    Анализ геномов человеческих популяций позволил установить, с кем и когда они контактировали в недавнем прошлом.
       
    Выйдя из Африки и расселившись, наш брат вовсе не остался сидеть на захваченных местах, а продолжал блуждать по земле. Эти блуждания происходили и после формирования цивилизаций, да и продолжаются до сих пор: каждый может вспомнить про миграции варварских племён в древнеримские времена, что же до сего дня, то тут достаточно просто выйти на улицу, чтобы убедиться, что народы по-прежнему в движении и перемешиваются. Такие блуждания иногда происходят мирно, иногда — совсем не мирно, но, так или иначе, это отражается в генетической истории популяции.

    Можно ли сейчас, проанализировав геном людей из разных уголков земного шара, восстановить историю миграций?
    Это сложно, но вполне возможно, как показали Гаррет Гелленталь (Garrett Hellenthal) из Университетского колледжа Лондона (Великобритания) и его коллеги из Оксфорда и Института эволюционной антропологии Общества Макса Планка (Германия). Учёные проанализировали ДНК почти полутора тысяч человек из 95 популяций по всему миру. Итогом работы стала интерактивная популяционно-генетическая карта человечества; кроме того, результаты исследований опубликованы в журнале Science.

    Полученные генетические данные во многих случаях подтверждают исторические: так, например, в ДНК хазарейцев нашли монгольский след, который появился в их геноме во времена Монгольской империи, что вполне согласуется с историческими источниками. Такие же монгольские следы удалось найти ещё в нескольких популяциях вплоть до Турции, в которых они появились примерно в то же время, что и у хазарейцев.

    С другой стороны, удалось обнаружить такие генетические примеси, которые до сих пор от внимания исследователей ускользали: например, у людей ту в современном Китае нашли следы европейской ДНК, похожей на ту, что есть у современных греков. Появилась эта европейская примесь около 1 200 года н. э., и связана она, очевидно, с купцами, ходившими в то время Великим шёлковым путём. Надо ли говорить, что нынешние (гео)политические границы слабо отражают миграционно-генетическую картину? Так, на территории Пакистана в некоторых группах обнаруживается влияние древней Европы, в других есть следы африканских арабов, живших южнее Сахары, к третьим в геном затесалась ДНК из Восточной Азии.

    http://compulenta.computerra.ru/chelovek/biologiya/10011487/
    http://www.sciencemag.org/content/343/6172/747.abstract

    Интерактивная популяционно-генетическая карта: http://admixturemap.paintmychromosomes.com/ «

Исследование заинтересовало меня в первую очередь тем, что в нем применен новый метод, отличный от привычных мне этнокалькуляторов на основе Admixture. Тем более, что в качестве иллюстрации был создан специальный сайт с интерактивной картой — весьма user-friendly подход ) Первое впечатление от карты было таким:

«Карта довольно любопытна. Само исследование я не читал (по причине платности доступа к нему), однако в FAQ, прилагаемом к карте, изложена основная суть метода. Он достаточно сложен — сначала каждый геном (всего использовано 1530 геномов) разбивается на мелкие участки, далее по каждому участку находятся наиболее типичные варианты для макрорегионов — Африка, Америка, Центральная и Южная Азия, Восточная Азия, Европа, Ближний Восток, Океания. Теперь мы имеем что-то наподобие результатов этнокалькулятора в режиме Chromosome painting — каждая хромосома каждого участника раскрашена в радужный цвет. В примере из FAQ у представителя нигерийского народа йоруба получилось ~80% Африки, остальное разделили между собой Ближний Восток, Европа, в меньшей степени Центральная-Южная и Восточная Азия.
Сравнивая между собой эти раскраски, можно моделировать смешение представителей разных популяций, и находить наиболее вероятные варианты — смешивание каких групп могло породить интересующую нас популяцию? Расстояния в сМ между полученными из одного источника участками известны, известны длины этих участков и их количество. Таким образом, можно оценить время их получения. На графиках в правом нижнем углу карты показаны эти соотношения, однако математическая модель не расписывается. Дана такая подробность — если график имеет форму убывающей гиперболы, значит, указанные в заголовке популяции связаны с одним и тем же источником адмикса. Если же наоборот, прибывает — эти две популяции представляют разные источники.
Сразу виден один из недостатков метода — в качестве источников примеси рассматриваются лишь современные популяции, хотя со времен смешения они могли сильно измениться. Непонятно, как вычисляется направление потока генов? Если у северных русских показана польская примесь, а у поляков примесь от северных русских, видимо, это говорит, что они получили общие сегменты из одного источника, которым были праславяне?
Ехидный Поляко уже нашел на карте у литовцев заметную примесь от восточноафриканского народа Hadza. Однако она показывается лишь в одном из вариантов расчета, есть и вполне адекватные — литовцы, как смесь поляков и белорусов. Не понимая сути расчетов, мне сложно интерпретировать этот результат  🙂
В любом случае я за применение новых методов, так как, по ощущениям, из традиционных этнокалькуляторов на основе Admixture чего-то нового уже не выжать. Плохо, что на карте практически не представлены народы России, хотя результаты северных русских, чувашей и народов Кавказа смотрятся любопытно.»

В процессе обсуждения Вадим Веренич провел профессиональный разбор использованных авторами исследования методов:

«Алгоритмы имплементированные в Globetrotter крайне интересны — они представляют собой некий гибрид между алгоритмами Chromopainter/fineStructure (что неудивительно, так как в числе авторов обсуждаемой карты и статьи фигурируют разработчики этих программ) и алгоритмами Admixtools/Alder. Не вдаваясь в нудное обсуждение деталей закулисной математики статистики, суть метода сводится к следущему (зеленым цветом я выделил этапы, основанные на алгоритмах fineStructure/Сhromopainter, синим — алгоритмы, альтернативные алгоритмам Admixtools/Alder)

1) Геном каждого отдельного генома в выборке разбивается похромосомно на мелкие chunks («куски»), и затем с помощью программы Chromopainter производится вычисление попарной матрицы общих «кусков» в режиме» между всеми геномами выборке. Данные матрицы на выходе преобразуются в популяционный вектор, в котором каждый индивид-реципиент представляется в виде мозаичной смеси фрагментов геномов других индивидов в выборке.
2) Затем генерируется 10 произвольных «хромопэйнтинига» для каждого индивида-реципинента
3) После чего происходит первичное моделирование адмикса с помощью регрессионного анализа, в которой популяционный вектор реципиентов выступает в качестве «критериальной» зависимой переменной, а популяционный вектор доноров — в качестве предикторов.
4) Полученные в ходе этого анализа коэффициенты регресии применяются для уточнения «хромопэйнтинга» таким образом, что на основании значений коэффициентов регрессии каждой популяций-донору назначаются вес. Каждый ненулевый вес применяется к тем популяциям, которые вносят значимый вклад в адмикс.
5) На следующем этапе генерируются эмпирические кривые «coancestry» («сопроисхождения», т.е доли сегментов общего происхождения), cначала  берутся «взвешенные» значения взятых попарно сегментов популяций-доноров, эти сегменты удалены друг от друга на генетической дистании G (выраженной в cM). Кривая строится на основании измерения отношения усредненного произведения весов (на определенной генетической дистанции) к усредненному произведению весов на всем геноме в рассматриваемой паре популяций. Это кривая отображает отношение угасания «предковых» значений LD (неравновесного сцепления) к генетической дистанции (cM). Интересно, что каждый индивид представлен здесь двумя «гаплоидами» (т.е фазированными формами своих генотипов). В целях избежания искажения из-за неизбежных ошибок фазирования, авторы предлогают суммировать значения весов в обеих «гаплоидах» индивида.
6) После чего происходит fitting, т.е пригонка кривых «сопроисхождения» в целях вычисления MLE (наиболее вероятной оценки) параметра «лямбда» — экспотенциального распередления значений скорректированных значений всех кривых «сопроисхождения». На основании этого параметра вычисляется время событий адмикса в поколениях.  95% доверительный интервал вычисляется с помощью метода бутстрэппинга.
7) На основе значений популяционного вектора и коэффициентов регрессии адмикса вычислются а и b компоненты истинного aдмикса.
8) Производится новая наиболее вероятная оценка коэффициента адмикса в популяции-реципиента в целом путем интерполяции и бустстрэппинга а установленных значений коэффициента адмикса в первой популяции-донора  и 1-а значений коэффициента адмикс в популяции второго донора.»

(далее опять от Srkzgenetics)

Не могу сказать, что глубоко изучил статью и сопутствующие ей материалы. Скорее, наоборот — статья довольно сложна, а возможности уделить ей необходимое внимание пока нет. Однако есть определенные основания для скептицизма в отношении приведенных авторами датировок событий. В разделе, касающемся Восточной Европы, авторы обнаружили у русских восточноазиатскую примесь времен татаро-монгольского нашествия, либо более ранних нашествий кочевников — гуннов, мадьяр, булгар.
Зная, откуда получены геномы русских, использованные в статье (это генотипированные в рамках проекта HGDP жители юго-западной части Архангельской области), остается лишь недоумевать подобной интерпретации. Мало того, у соседних финнов этот адмикс заметно сильнее — видимо, кочевники добрались и до озер Суоми.
Возникает подозрение, что в глазах исследователей все русские одинаковы и выводы подгонялись под известные исторические события )) Тем не менее, само присутствие «сибирских» аллелей у жителей Севера, как известно любителям этнокалькуляторов, вполне реально. В этом смысле выводы авторов не вызывают протеста.

Покопавшись в карте и сравнив приведенные на ней данные с известной мне информацией по этнокалькуляторам, я сделал для себя такие выводы:
1) Даты адмиксов весьма сомнительны
2) Распределение вклада различных популяций в исследуемую, напротив, отторжения не вызывает. Однако воспринимать его нужно так — процент вклада примерно соответсвует доле предков, разделяемых этими двумя популяциями. При такой постановке вопрос о направлении перетока генов теряет смысл.
3) Следует обращать внимание в первую очередь на first event (более свежее событие по расчетам авторов). Second event зачастую смотрится весьма странно — похоже, это некий артефакт используемого алгоритма.

Попробую проинтерпретировать в этой манере результаты нескольких исследованных популяций.

Russian — северные русские. Как принято считать, северные русские получились в результате смешивания пришельцев-славян с местным дославянским населением.
Polish (52.9%) Lithuanian (7.8%) Belorussian (5.8%)
Три тесно связанных между собой популяции представляют «балто-славянскую» часть наследственности северных русских
Finnish (14.7%) Chuvash (5.6%) Chuvash (2.6%)
«Дославянская» часть частично связана с финнами, частично с чувашами, при этом связь с финнами примерно в 2 раза сильнее. На мой взгляд, более чем адекватно с учетом того, что других северных восточноевропейских популяций для отображения этого компонента просто нет. Современные чуваши слабо подходят на роль предков северных русских — однако они несомненно имеют некоторых общих предков с северными русскими. Эту связь мы и видим.
Oroqen (2.4%)
К сожалению, народы Сибири практически не представлены в модели, за исключением прошедших «бутылочное горлышко» якутов. Поэтому в роли их прокси приходится отдуваться даурам и орочам. Как я подозреваю, появление этого компонента на севере связано с приходом в Европу N1c1, хотя совершенно не настаиваю на этой интерпретации.

Итак, имеем пропорцию смешения пришельцев и местного населения примерно 3 к 1.

Сравним полученный результат с Оракулом для популяции North Russian в этнокалькуляторе K27beta
[1,] «North-Russian»                            «0»
[2,] «69.9% Mordovian + 30.1% Vepsa»            «2.1942»
[3,] «79.2% Center-Russian + 20.8% Saami»       «2.5603»
[4,] «23% Karelian + 77% Mordovian»             «2.6758»
[5,] «77.2% Russian + 22.8% Saami»              «2.9311»
[6,] «15.2% Finland + 84.8% Mordovian»          «3.1693»

Не совсем то же самое, поскольку большая часть популяций K27 отсутствует в модели Hellenthal et al, однако варианты (3) и (5) выглядят все-таки схоже.

Finnish
Oroqen (10.5%) Уже упоминавшийся «сибирский» компонент. У финнов проявляется заметно сильнее, чем у северных русских, что закономерно. Возможно, использованы образцы северо-восточных финнов?
Russian (32.8%) Chuvash (1.4%) Родство с «дославянским» компонентом северных русских. С чувашами уже совсем мало общего.
Norwegian (44.4%) Симметрично соседям с востока, финны имеют общих предков и со своими западными соседями. Пропорция очень близка к 50/50.
Lithuanian (5.6%) не вызывает удивления и наличие общих предков с литовцами.
Basque (3.0%) Средиземноморцы-неолитчики добрались до далекого севера в совсем уж небольшом числе.

Lithuanian
Polish (51.7%) Belorussian (38.4%) Russian (8.9%)
Литовцы, наряду с латышами известные как носители модального балто-славянского компонента, проявляют наибольшее родство со своими славянскими соседями.
Daur (0.4%) Oroqen (0.3%) Colombian (0.2%)
Однако обращает на себя внимание и вторая сторона «адмикса» — все тот же «сибирский» компонент.

Не буду разбирать здесь оставшиеся популяции, поскольку процесс занимает достаточно много времени. Кажущиеся на первый взгляд странными адмиксы зачастую либо поддаются разумной интерпретации, либо имеют свои параллели в предковых компонентах этнокалькуляторов на основе Admixture.