Сравнение двух древних европейцев и одного сибиряка с выборками из современных народов методом поиска общих аутосомных сегментов

За последние годы был опубликован ряд работ, посвященных попыткам генотипирования останков древних людей — от живших несколько тысячелетий назад до «усть-ишимца» с предположительным возрастом около 45 тысяч лет, неандертальцев и «денисовки». Количество таких расшифровок растет все быстрее, что не может не вызывать оптимизма.  Трудами известного геномного блоггера Феликса Чандракумара большинство из них было переведено в простой и доступный формат, аналогичный файлам raw data от FTDNA и 23andMe.

Ради интереса я попробовал проверить геномы (предположительно, это два «бритта» железного века и три «англа», «сакса» или «юта» времен переселения этих племен в Британию) из одной из таких недавних работ на наличие IBD-сегментов с современными выборками. Ничего особенного от этой попытки я не ожидал, но результат все равно разочаровал. Никаких связей с современными германцами или кельтами, лишь короткие обрывки сегментов с северо-восточными европейцами.

Как выяснилось, большинство из имеющихся сейчас древних геномов совершенно не годится для такого рода анализа. Основная причина — крайне низкое качество генотипирования. Количество снипов и прочтений на один снип невелико, и подавляющее большинство из них гомозиготно (то есть второй аллель не прочитан). А это значит, что практически все IBD-сегменты разрушены и мы можем увидеть лишь самый базовый и древний уровень родства. В терминах этнокалькуляторов на основе Admixture это оказался (в данном случае) «северо-восточноевропейский» предковый компонент, который наиболее ярко проявляется у народов восточной Балтики — с ними и нашлось наибольшее количество обрывков.

Тем не менее, не все так плохо. Можно выделить известную работу Иосифа Лазаридиса с коллегами о трех предковых популяциях современных европейцев. Геномы европейского раннего земледельца культуры линейно-ленточной керамики (образец Stuttgart, или LBK. Около 7500 лет назад) и почти синхронного ему охотника-собирателя, останки которого найдены на территории нынешнего Люксембурга (Loschbour, около 8000 лет назад) прочитаны очень качественно и почти не уступают файлам от 23andMe и FTDNA.

Карта сумм общих сегментов древнего земледельца с современными выборками:

LBKIBD

С заметным отрывом от остальных лидируют жители острова Сардиния, считающиеся сохранившимися в наиболее чистом виде потомками когда-то переселившихся в Европу земледельцев Восточного Средиземноморья. За ними следуют другие южноевропейские популяции (включая ашкенази и сефардов), скандинавы и восточноевропейцы.

Sardinian 61,06 —//Confidence: very high
Italian 50,14 —//Confidence: very high
French 49,56 —//Confidence: very high
Bulgarian 48,9 —//Confidence: high
Hungarian 48,29 —//Confidence: very high
Basque 45,92 —//Confidence: very high
Greek 45,7 —//Confidence: very high
Norwegian 44,95 —//Confidence: high
Ashkenazi 44,04 —//Confidence: high
Sephard 43,52 —//Confidence: high
Croatian 42,23 —//Confidence: very high
Belarusian 42,12 —//Confidence: high
Swedish 41,86 —//Confidence: high
German-Austrian 41,33 —//Confidence: very low
British 41,2 —//Confidence: very high
Russian-South 40,7 —//Confidence: very high
Balt 40,38 —//Confidence: high
Greek_Azov 39,61 —//Confidence: low
Ukrainian-East-and-Center 39,49 —//Confidence: medium
Estonian 39,27 —//Confidence: high

Наличие общих сегментов с этими народами можно объяснять и миграциями потомков земледельцев на север, и ассимиляцией «земледельцами» «охотников» при продвижении вглубь Европы. Думается, для южных европейцев более актуальна первая причина, для восточных вторая, скандинавы где-то посередине.

Все это не новость, хотя мне понравилось подтверждение работоспособности метода. Более интересным мне показался «язык», протянувшийся на восток — через Кавказ и Среднюю Азию до самой Монголии. Забегая вперед, скажу, что у «охотника» Loschbour такого не наблюдается. Чем может объясняться эта связь? Приток генов с Востока к предкам «штутгартца»? Или же наоборот, его родственники, переселившиеся на восток, оставили свой след в геноме монголов? Для проверки я решил использовать один из этнокалькуляторов, разработанных до появления образца LBK в открытом доступе. При разработке более поздних он был использован как европеец и мог исказить картину.

LBK

Как видите, никаких следов Восточной Азии — чистый средиземноморец. Так что совсем не исключено, что на востоке мы здесь видим следы, к примеру, афанасьевцев.

«Охотник» Loschbour не показал такого яркого сходства ни с одной из современных выборок. Можно предположить, что его племя не оставило дожившего до наших дней потомства, или же оставило мало. Тем не менее, очень хорошо видно, кто из наших современников в наибольшей степени родственен древнему охотнику — это восточноевропейцы с максимумом на восточном побережье Балтийского моря

LoschbourIBD

Finnish 41,21 —//Confidence: very low
Estonian 39,63 —//Confidence: high
Balt 37,85 —//Confidence: high
Russian-North 36,25 —//Confidence: very high
Belarusian 35,31 —//Confidence: high
Karelian 35,21 —//Confidence: high
Veps 34,75 —//Confidence: medium
Ukrainian-West-and-Center 34,48 —//Confidence: medium
Polish 33,8 —//Confidence: high
Norwegian 32,34 —//Confidence: high
German-Austrian 31,4 —//Confidence: very low
Russian-South 30,87 —//Confidence: very high
Russian-West 30,73 —//Confidence: medium
Erzya 30,19 —//Confidence: medium
Saami 30,12 —//Confidence: high
Swedish 29,78 —//Confidence: high
Hungarian 28,55 —//Confidence: very high
Ukrainian-East-and-Center 28,54 —//Confidence: medium
Croatian 27,31 —//Confidence: very high
Komi 26,48 —//Confidence: high

Образец Loschbour в том же этнокалькуляторе MDLP K5:

Loschbour

Для визуализации разницы между «охотником» и «земледельцем» я нормировал значения первого путем умножения на 1.5. Красный цвет означает большее родство с Loschbour, зеленый — LBK. Бурый, как у удмуртов, эвенков или китайцев — нейтрален.

LminusLBKIBD

Но что же наш третий источник наследственности европейцев, аутосомный компонент Ancestral North Eurasian, полученный при генотипировании останков мальчика с сибирской палеолитической стоянки Мальта? К сожалению, его геном расшифрован не так хорошо по сравнению с двумя предыдущими. Это и неудивительно — оценочный возраст мальтинца втрое больше, около 24 тысяч лет. К тому же за это время и количество сегментов, дошедших до наших современников, должно заметно упасть. Поэтому поиск общих сегментов со стандартными настройками дал весьма невразумительную картину. Пришлось резко ослабить настройки фильтра — вместо минимального размера сегмента в 15о снипов (из примерно 200 тысяч) до 50, и вместо минимальной длины сегмента в 3 сМ до 2. После этого алгоритм смог кое-что уловить:

MaltaIBD

Итак, наиболее родственным мальтинцу народом среди наших современников получились удмурты. Вспоминается, что этот народ является одним из чемпионов по наличию Y-гаплогруппы N, пришедшей в Европу с востока. Впрочем, дело тут может быть совсем в другом.

Конечно, уровень погрешности здесь еще выше, чем в предыдущих случаях, но тем не менее, картина вырисовывается довольно отчетливо и неплохо коррелирует с распространением компонента ANE.

Сборный образец «древнего скандинава» Motala1-2 не показал столь же отчетливой картины, как Loschbour и LBK. Видимо, дело в том, что он получен в результате объединения данных из разных наиболее качественно прочитанных геномов. При ослаблении настроек фильтра аналогично мальтинцу получается весьма похожая на Loschbour картина, но более размытая. Не думаю, что есть смысл приводить ее здесь.

Итак, среди современных европейцев можно найти родственников представителей всех трех основных источников (по крайней мере, известных сейчас) их современного генофонда. Насколько реально это родство? Сложно сказать. Конечно, тяжело поверить в сохранение IBD-сегментов на протяжении сотен поколений. С другой стороны, как показало моделирование, мелкие сегменты почти неуничтожимы. А ведь для отрисовки карт используются в основном именно маленькие сегменты в диапазоне 3-4-5 сМ. Возможно, многие из них являются результатом случайного объединения еще более мелких сегментов, или они поддерживаются отбором, или случайно закрепились в популяции. Думаю, что мы в любом случае можем считать этих людей своими родственниками, хотя и не очень близкими ))

Исследование генетики татар Поволжья при помощи анализа на IBD-сегменты

Исследование генетики татар Поволжья при помощи анализа на IBD-сегменты

Не секрет, что под этнонимом «татары» в России зачастую скрываются совершенно разные этнические группы. Существуют татары казанские, астраханские, сибирские, крымские и т.д. В данном исследовании нас интересуют татары среднего Поволжья — казанцы и мишари.

Это достаточно многочисленный и активно тестирующийся народ, неплохо представленный в аутосомных базах 23andMe и FTDNA. По мере роста статистики прогонов татарских генотипов через калькулятор Вадима Веренича К27, я начал впадать в некоторое замешательство. В своем большинстве татары получались довольно близкими друг к другу по соотношению предковых компонентов Admixture. Однако одновременно существовали и различия, где было весьма сложно понять — не результат ли это попросту случайных отклонений? Разделение между казанскими татарами и мишарями проявлялось скорее как тенденция к несколько большим значениям «балто-славянских» и «финских» компонентов у вторых, чем как явный сигнал.

Поэтому при появлении у меня нового инструмента — скрипта, анализирующего наличие общих IBD-сегментов с научными выборками, я не замедлил пропустить через него имеющиеся генотипы татар из коммерческих выборок. Сразу же проявились различия, что позволило сделать вывод — несмотря на сходство татар по пропорциям предковых компонентов, их источники частично различаются.

Чтобы по возможности снизить влияние случайных отклонений, я постарался выделить усреднения по территориально-этническим группам. Наиболее бросающимся в глаза признаком казанских татар оказалось большое количество общих сегментов с марийской и чувашской выборками. Однако это еще не означает, что казанцы разделяют большую часть общих предков с марийцами или чувашами. Дело в том, что эти выборки испытали очень сильный генный дрейф. В результате даже не очень значительное родство с ними проявляется весьма ярко. В прошлой заметке я назвал это «эффект ашкенази», по имени наиболее известного примера. Судя по всему, марийцы и чуваши разделяют заметную часть общих предков, поэтому и «эффект ашкенази» у них общий.

Усреднение по трем казанским татарам из Апастовского района Татарстана:

Tatar-ApastovIBD

Довольно типичная картина — фоновая засветка по Восточной Европе, яркое пятно у марийцев и чувашей и более бледное — у татарской научной выборки. Точный источник татарской выборки мне неизвестен, но сравнительно слабые показатели могут хорошо объясняться большей численностью и генетическим разнообразием татар.

Татары из Тархановского района, 5 человек, выглядят весьма похоже, лишь марийско-чувашское пятно менее яркое:

Tatar-TarhanIBD

Татары из северо-западной части Башкирии, четыре человека. По сравнению с предыдущими выборками, добавилось некоторое влияние удмуртов и башкир:

Tatar-Bash-NWIBD

Насколько же велико может быть количество общих предков татар с чувашами и марийцами? Попробуем сравнить апастовскую выборку с усреднением по трем чувашам:

ChuvashIBD

В калькуляторах на базе Admixture у чувашей ярко проявляется «уральский» компонент, и здесь мы хорошо видим его распространение — от саами до манси. Уровень пересечения с чувашской выборкой при моих типичных настройках — 115 сМ. Примерно такой же уровень получился у марийца (отличие от чувашей — в более высоком пересечении с марийской выборкой). При этом у людей с наполовину марийским или чувашским происхождением этот показатель составил чуть меньше 80. У апастовской выборки — 67. Можно сделать прикидку, что при недавнем адмиксе это соответствовало бы примерно 1/3 общих предков. Однако если эти предки жили давно, когда дрейф проявился еще не так сильно, их доля могла быть выше. Таким образом, оценкой снизу будет 30%. Провести оценку сверху поможет упоминавшийся «уральский» компонент. При калибровке К27 его содержание у чувашей получилось равным 19, усреднение по татарам из апастовской выборки —  около 9. Таким образом, даже если все не пересекающиеся с чувашами предки были из популяций с нулевым содержанием этого компонента (что малореально), вклад чувашей не мог быть выше 50%. Думаю, что наиболее реалистичным вариантом будет все же 1/3.

Разумеется, существует еще вариант, что чуваши получили «уральский» компонент уже после разделения с татарами. Тогда количество общих предков может быть и гораздо большим. Однако этому варианту скорее соответствует некий более древний уровень родства, чем рассматриваемые здесь исторические времена.

Я попробовал подсчитать, исходя из предположения, что «чувашские» компоненты составили 1/3 наследственности татар, на что могли быть похожи оставшиеся 2/3 по К27. В одиночном режиме результат оказался непохожим ни на один народ, кроме самих татар. В режиме смеси комбинации тоже показались на первый взгляд очень странными, однако, как мы позже увидим, кое-какой смысл в них был:

Using 2 populations approximation:
1 Nogay_D+Russian_Novgorod_D @ 6,174824

Using 3 populations approximation:
1 50% Russian_North_R8 +25% Kazakh_R2 +25% Romanian_D @ 3,826868

2 50% Russian_North_R8 +25% Bulgarian_S14 +25% Kazakh_R2 @ 4,087314

У меня не нашлось полноценной мишарской выборки из районов за пределами Татарстана и Башкирии, поэтому пришлось объединить три образца, получившиеся похожими и по IBD-картографу, и по предковым компонентам в калькуляторе Вадима Веренича. Первый происходит из мишарей Нижегородской области, второй — из пензенских мишарей, третий — из служилых татар Самарской области.

Mishar-NPSIBD

Как мы можем видеть, здесь не только нет «марийского» пятна, но даже наоборот — на этом месте показано уменьшение количества общих сегментов по сравнению с соседними популяциями. Родство с чувашами имеется, однако, очевидно, идет по другой линии предков чувашей, не совпадающей с предками марийцев. Наиболее же сильно выделяются эрзяне. Как и в случае родства казанских татар с чувашами, это вовсе не говорит об определяющем вкладе эрзян в генетику мишарей. Нижний предел я бы оценил аналогичным предыдущему случаю методом примерно в 20-25%. Что касается верхнего ограничителя, тут сложнее из-за отсутствия специфического «эрзянского» компонента Admixture. Если ориентироваться на общий восточноевропейский компонент Balto-Slavic, то он ограничивает максимальный уровень примерно 70-80 процентами. Вполне возможно, что предками мишарей были не сами эрзяне или мокшане, а родственная им соседняя популяция — это дополнительно затрудняет оценку.

Для сравнения, эрзянская выборка, пять человек:

ErzyaIBD

Мишари из Дрожжановского района Татарстана, три человека:

Mishar-DrozzhIBD

Картина схожа с предыдущей мишарской выборкой, однако у марийцев уже нет провала. Возможно, это связано с близостью к Чувашии, возможно — с влиянием казанских татар.

Выборка мишарей из Башкирии получилась ближе к казанскому варианту. Это может объясняться спецификой именно данной выборки, либо различиями между мишарями в целом. Придумать объяснений можно много, но думаю, здесь нет смысла в них вдаваться.

Mishar-BashkIBD

Итак, для каждого из народов (или, при другом подходе, субэтносов), мы видим на картах один из предковых источников. Однако попытка вывести оставшиеся источники методом пересчета предковых компонентов оказалась малоудачной. Чтобы решить эту проблему, я попробовал визуализировать разницу с первым источником. На карте приведена разница между первой («сборной») мишарской выборкой и эрзянами, для контрастности умноженная на три:

MNPSminusErzyaIBD

Зеленые тона показывают выборки, более близкие эрзянам, красно-бурые — мишарской выборке. Промежуточные варианты одинаково близки и тем, и другим. Максимум разницы в пользу мишарей достигается из крупных выборок у бурят и тувинцев, что очень хорошо совпадает с недавней работой по генетическим следам тюркской экспансии . Немногим отстают от них и башкиры с казахами. Интересно, что кавказские выборки, за исключением ногайцев и балкарцев (наличие в этой компании армян остается загадкой )) ), получились несколько ближе к эрзянам, что говорит против теории о связи мишарей с Кавказом (либо она каким-то образом идет через эрзяноподобную сторону). Пятно у вепсов, думаю, тоже что-то означает, поскольку в слабом виде видно у многих татар. Однако это может быть и следствием более высокого уровня дрейфа у вепсов по сравнению с соседями.

При построении аналогичной карты для пары казанцы/чуваши в качестве базовой выборки я выбрал апастовскую. Башкирские по понятным причинам не могут служить типичным образцом, а тархановская демонстрирует тенденцию сдвига к мишарям. К тому же наиболее родственная чувашам выборка может выявить отличия с ними более показательно.

TAminusChuvashIBD

Зеленая зона вдоль северной части Сибири объясняется более высоким уровнем родства с этими народами у чувашей, чем у татар (все тот же уральский компонент). Родство с народами степной полосы и возможной тюркской прародины находится на примерно одном уровне у «чувашской» и «нечувашской» части генома казанских татар. Родство же с выборками Средней Азии, Кавказа, Средиземноморья — выше. Вероятно, средиземноморскими же пересечениями объясняется повышенный уровень общих сегментов с ашкенази (не забываем, что это число надо делить в разы из-за ашкенази-эффекта). Примерно такого же уровня пятно с крымскими татарами выглядит бледнее из-за небольшой площади полуострова. Интересно также пересечение с болгарами. Не думал, что их тюркский компонент проявится настолько заметно. Впрочем, возможно, это объясняется турецкими или татарскими вливаниями, а не древними булгарами. Ну и обращает на себя внимание знакомое пятно у вепсов и эстонцев.

А теперь вспомним еще раз раскладку при попытке реконструкции «нечувашской» части на базе К27:

2 50% Russian_North_R8 +25% Bulgarian_S14 +25% Kazakh_R2 @ 4,087314

Неправильно, однако уже не так странно, как казалось вначале.

Не следует думать, что перечисленные популяции составляют 2/3 наследственности казанских татар (раз уж 1/3 мы оцениваем вклад «чувашской» стороны). Более вероятным кажется вариант, когда заметную часть от этих 2/3 занимает некая нейтральная по отношению к чувашам популяция, у которой уровень IBD сегментов с другими уральцами и восточноевропейцами был близок к ней. Из-за нейтральности она плохо выделяется на картах IBD-разности, однако калькуляторы на базе Admixture показывают — вклад пришельцев с далекого Юга или Востока не мог быть определяющим. Возможно, именно на эту популяцию намекают «вепсско-эстонское» и «южно-русское» пятна.

В завершение я хочу привести карту разницы между мишарями и казанцами:

MNPSminusTAIBD

С казанской стороны мы видим знакомые марийско-чувашское и крымско-татарское пятна, а также, слегка неожиданно, но не удивительно, азербайджанское (с расширением вдоль Южного Каспия). С мишарской стороны знакомые эрзяне, неожиданно выделилась территория ВКЛ (какие-то вливания оттуда в геном мишарей?), и, по совсем непонятной причине, выборка коми. Родство с азиатскими выборками идет с некоторым перевесом в пользу казанцев, особенно в «зоне марийско-чувашского влияния».

Аналогично примечанию к предыдущей карте, не следует забывать — здесь показана разница. Нейтральная общность может быть велика, но не видна этим методом.

Визуализация количества общих (IBD) сегментов — часть вторая

Обзор волжско-уральских популяций я хочу начать несколько издалека — с карты для селькупа из селения парабель Томской области. В какой-то мере он служит той же цели, что и литовец в предыдущей части:

Selkup-ParabelIBD

Пересечение с соседями по западной Сибири зашкаливает, как и положено для небольших групп с высоким уровнем генного дрейфа. Однако интересно не это, а выбросы на запад — к башкирам, удмуртам, марийцам. чувашам. Видно и повышение у саами. Таким образом, здесь мы наблюдаем распространение «уральского» генетического компонента.

Очень специфичной популяцией являются и марийцы. Уровень «эффекта ашкенази» получился намного выше, чем у самих ашкенази. Таким образом, все народы, имеющие хоть в сколько-нибудь заметной степени общих предков с марийцами, хорошо видны на карте:

MariIBD

В первую очередь это чуваши, сильно влияние у выборки казанских татар, удмуртов, манси и башкир. Вот это и есть «волжско-уральский круг популяций». Интересно, что коми и удмурты оказались в разных категориях, несмотря на языковое родство. Впрочем. как видно по карте коми-зырянина в предыдущей части, есть между ними и генетические пересечения.

100% чуваша из коммерческих выборок у меня нет, однако человек наполовину чувашского происхождения проявляет сходство как с чувашами, так и с марийцами. В отличие от предыдущей карты, чуваши у него на первом месте (это видно в таблице, поскольку картограф обрезал оба зашкаливающих значения до допустимого максимума) :

Chuvash-MokshaIBD

А вот нижегородские мишари более уместно смотрелись бы в предыдущей части заметки:

Mishar-NizhniyIBD

Родство с балто-славяно-финским кругом популяций явно более выражено. чем с волжско-уральским.

Татарин смешанного казанско-мишарского происхождения, южная часть Татарстана:

Tatar-SamaraIBD

Еще раз напомню — неправомерно на основании наиболее яркого пятна у марийцев говорить, что этот человек наиболее близок марийцам. Наличие общих предков с этим народом проявляется в разы ярче из-за «ашкенази-эффекта». То, что татарско-казанская выборка гораздо бледнее, объясняется тем, что татары — более крупный народ с высоким генетическим разнообразием.

Татарин с Урала (часть предков-башкиры):

Tatar-Bashkir-UralIBD

Как ни странно, я не просчитал ни одного «классического» казанского татарина, увлекшись краевыми случаями. Возможно, у него казанская выборка оказалась бы ярче. Эту задачу оставим на будущее.

Башкир:

BashkirIBD

Интересно продление пятна на северо-восток, к уральским народам вплоть до юкагиров.

У сибирского татарина видна общность с селькупами и марийцами. Вспоминая яркость на карте парабельского селькупа, степень этой общности не так уж и велика. Виден и вклад из монгольских степей.

Tatar-SiberianIBD

Неожиданно, у казаха количество общих сегментов с восточносибирскими популяциями оказалось выше, чем с собственно казахской выборкой:

KazahIBD

На ум приходят два объяснения — гетерогенность казахов и более высокий уровень «ашкенази-эффекта» у восточносибирских народов. Впрочем, я недостаточно владею информацией по этногеномике казахов, чтобы строить предположения.

Результаты казаха замыкают мое исследование. Не скажу, что в его результате я открыл для себя что-то сильно новое и неожиданное, однако общая картина стала более понятной и наглядной. Эксперимент мне понравился.

Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии

Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии.

Этнокалькуляторы на базе Admixture, представляющие результат «просчета» генома испытуемого в виде смеси предковых компонентов, достигли уже очень хорошей точности. Однако у них есть и определенные недостатки. Во-первых, случается, что у двух разных народов пропорции смешения этих компонентов довольно близки, хотя близкого родства между ними не наблюдается. Обычно для исключения такого эффекта увеличивают число компонентов, то есть повышают детализацию. Однако при этом зачастую возрастает и «шумность», случайные отклонения от ожидаемых значений. Кроме того, бывает тяжело понять — смешение произошло в предыдущем поколении, или тысячу лет назад? Если человек происходит из двух отдаленных народов, он часто позиционируется в географической точке, находящейся между ними, и непохож ни на один из родительских народов. При более сложносоставном происхождении все запутывается еще сильнее.

Нет ли метода напрямую измерить уровень родства отдельного человека с той или иной популяцией? При такой постановке вопроса сразу приходит на ум один из возможных ответов — необходимо просчитать количество IBD (то есть идентичных благодаря общности происхождения) аутосомных сегментов. Такой подход уже реализован в утилите от 23andMe под названием Countries of Ancestry, однако с рядом заметных недочетов. Используются результаты опроса пользователей сервиса о стране их происхождения, при этом непонятно, каков размер выборки от каждой страны. Да и детализация уровня «страна» для жителей России явно не подходит — зачем мешать в одну кучу карел, осетинов и якутов.

К счастью, эти проблемы можно частично устранить, используя научные выборки (либо коммерческие, однако набрать подобный объем из коммерческих выборок мне сейчас не по силам). С удешевлением процесса генотипирования количество имеющихся в открытом доступе выборок начало быстро расти. В первую очередь я использовал выборки, выложенные на сервере Эстонского биоцентра . Они стали основой. Часть пробелов была заполнена выборками из недавней работы Hellenthal , их пришлось переконвертировать из build 36 в build 37. Отдельное спасибо Вадиму Вереничу за помощь с несколькими выборками, хорошо увеличившими охват этнокарты.

Главной сложностью в работе оказалось сведение геномов из всех источников вместе. В каждой научной работе использовался свой набор снипов, часто с разной ориентацией. Коммерческие выборки тоже неоднородны — например, в FTDNA, как оказалось, существует четыре варианта файлов raw data со слегка отличающимся набором снипов и разной ориентацией примерно трех сотен из них. Добавьте к этому два варианта выравнивания и трансферы из 23andMe (у которой нашлись свои заморочки, например, дублирование одних и тех же снипов под разными названиями).

Конечно, хотелось использовать как можно большее количество снипов. Однако после ряда попыток придумать коэффициенты пересчета и прочее, стало понятно, что это методологически неверно. Пришлось оставить лишь те снипы, которые присутствовали во всех используемых выборках, в стандарте FTDNA, а также на чипе v3 от 23andMe. Вероятно, в будущем придется включить в просчет и новый, четвертый чип от этой компании, однако пока я решил с ним не связываться. В общем итоге осталось около 244 тысяч снипов — не так уж мало, я опасался худшего. От покрытия FTDNA это составляет чуть больше трети.

Компания FTDNA и сервис Gedmatch используют для фильтрации общих сегментов критерий наличия не менее 700 снипов. Однако для мелких сегментов он выполняется не так уж часто (из-за чего у клиентов FTDNA возникает иллюзия сравнительно небольшого количества таких сегментов). Поэкспериментировав, я остановился на рубеже в 150 снипов — менее него количество сегментов, являющихся статистическими артефактами, начало быстро расти. Основным показателем для отрисовки на этнокарте я взял общую сумму сегментов длиной более 3 сМ. Конечно, более длинные сегменты являются более четким показателем родства, однако их заметно меньше. А это значит, что их количество более подвержено случайным отклонениям. С другой стороны, более мелкие сегменты сливаются в общую кашу. Таким образом, выбранный критерий является компромиссом. При увеличении объема выборок на порядки станет возможно использовать только длинные сегменты и улавливать родство более четко.

Метод дает релевантные результаты при сравнении с выборками свыше 10 человек. Чем меньше размер выборки, тем сильнее влияние случайных отклонений. Из-за этого часть выборок я объединил вместе (например, литовцы и латыши стали балтами), часть исключил с карты. Однако некоторые все же пришлось оставить — в первую очередь это финны (2 человека), западные украинцы (6), башкиры (6) и австрийцы (4). Если для какой-то популяции значения явно выпадают из ряда соседей, всегда обращайте внимание на размер выборки, приведенный в сопроводительной таблице.

Одновременно достоинством и недостатком метода является сильное влияние «эффекта основателя», «множественного родства», «бутылочных горлышек» и т.д. За этим перечислением скрывается примерно одно и то же — когда популяция происходит от сравнительно небольшой группы людей, ее члены разделяют между собой большое количество общих сегментов. Наиболее известным примером являются евреи-ашкенази — достаточно иметь одного отдаленного предка из этого народа, чтобы получить множество генетических «кузенов». Таким образом, родство с народом, подвергшемуся такому эффекту, видно более четко. Но это же искажает общую картину — одинаковое количество генетических пересечений может означать совершенно разную степень близости в зависимости от истории популяции.

Я сравнил 26 человек из коммерческих выборок, представляющие различные популяции интересующих меня регионов, с набором из 1130 геномов, взятых из научных выборок. Результаты сведены в таблицу и частично визуализированы на картах. При интерпретации помните о вышеперечисленных искажениях!

Начнем с представителя народа, считающегося наиболее архетипичными восточноевропейцами в большинстве этнокалькуляторов. Это литовцы (картинка увеличивается по клику):

 

LithuanianIBD

Как видно, литовец оправдывает это звание и по количеству общих сегментов. Красное пятно закрывает большую часть Восточной Европы, в том числе и балтийских финнов. Условно говоря, на этой карте мы видим некий «базовый уровень родства» среди восточноевропейцев.

Пятно восточного финна практически совпадает по форме, однако распределение интенсивности иное:

Finnish-EastIBD

Я бы сказал, что в основном это более частный и специфичный вариант того же, что мы видим у литовца. Доказательством может служить высокий уровень пересечения с балтской выборкой. В то же время, существует и финская специфика, например, пересечение с саами, которые у литовца довольно бледные. Более яркое и пересечение со шведами. Скорее всего, здесь мы видим результат включения в состав шведов финского субстрата, поскольку с теми же норвежцами интенсивность явно ниже.

Крайней западной точкой у нас будет представитель российских немцев. На этнокалькуляторах Admixture он получается достаточно типичным представителем немецкого народа, поэтому версию о заметном влиянии на его наследственность русских можно исключить.

German_RussiaIBD

К сожалению, немецкой выборки у меня нет, поэтому Германия закрашена серым. Некоторым заменителем является Швеция, которая чуть ярче соседей. К некоторому  удивлению, французы и британцы не показали заметной общности с немцем, хотя ее уровень все же выше средневосточноевропейского. Частично это может объясняться тем, что в британской выборке лишь семь человек из 23 — англичане, остальные являются ирландцами. шотландцами и валлийцами. Пятно у восточных украинцев и южных русских также загадочно — неужели это след знаменитых готов?

Невозможно исследовать генетическое разнообразие восточноевропейцев и обойти при этом ашкенази. Поэтому я позволил себе небольшую некорректность и разместил их на карте в районе нынешней Одессы. Картинка для ашкенази из коммерческой выборки:

AshkenaziIBD

Ожидаемое ярко-красное пятно сходства с родной популяцией, остальные все довольно далеко (на втором месте получилась выборка сефардов, но ее на карте нет). Повышение у басков и греков показывает родство ашкенази со средиземноморскими популяциями, пятно у восточных украинцев и белорусов объяснимо длительным совместным проживанием.

Перейдем к восточным славянам. Небольшой размер выборки западных украинцев не помешал им оказаться на первом месте у карпатского русина:

Carpathian_RusinIBD

Пятна на остальной территории получились довольно неровными. Я бы не стал делать из этого каких-то глубоких выводов о древних пересечениях карпатцев и финнов или эрзян.

Северо-восточная Беларусь:

BelarusianIBD

Украина (Полтава):

Ukrainian-PoltavaIBD

Обращает на себя внимание пересечение с поляками.

Человек смешанного происхождения — донские казаки и украинцы:

RuUa-CossackIBD

Тверь-Рязань:

Russian-CenterIBD

Как видно, балто-славянская общность улавливается всегда, в то время как более тонкие различия частично видны, частично скрываются шумом (случайными отклонениями).

Представители эрзи и мокши явно в своей основе близки балто-славянам. При этом балтийские финны никак не выделяются, а народы волго-уральского региона уже довольно далеки. Все это не является новостью для интересующихся темой людей, однако независимое подтверждение результатов показывает действенность методики.

Эрзя:

ErzyaIBD

Мокша:

MokshaIBD

Мокшанская выборка не помещена на карту из-за своего маленького размера (давала слишком большие случайные отклонения). У мокши «родная» выборка получилась заметно ближе эрзянской, у эрзи, соответственно, наоборот. Вероятно, это значит, что, несмотря на родственность двух групп, различие между ними с точки зрения разделяемой популяционной истории существенно (простыми словами, женились преимущественно внутри своего народа).

У северного русского видно родство как с балто-славянскими выборками, так и с балтийскими финнами:

Russian-NorthIBD

Наряду с этим, у русского из Пермского края ощущается влияние коми. Вероятно, с этим же связано и приближение других народов Урала:

Russian-PermIBD

В то же время, сами коми-зыряне скорее относятся к тому же «балто-славяно-финскому» кругу популяций:

KomiIBD

Чтобы не делать пост бесконечным, карты для народов волжско-уральского региона (в широком смысле) будут приведены в следующей части.

Предварительный обзор нового этнокалькулятора от FTDNA myOrigins

Предварительный обзор нового этнокалькулятора от FTDNA myOrigins (дополнено 06.05)

Сегодня компания FTDNA открыла ограниченный доступ к бета-версии своего нового этнокалькулятора, который должен прийти на смену Population Finder. Необходимость замены старой утилиты давно назрела — предикты, выдаваемые этим инструментом, отличались крайней неточностью, и выглядели откровенно неудачно на фоне продукта основного конкурента — Ancestry Composition от 23andMe.

Видимо, после недавнего фиаско с громким анонсом обновленного дерева Y-DNA, в компании решили проявить разумную осторожность и открыли доступ к новому продукту лишь админам проектов, предупредив, что это закрытый бета-тест. На текущий момент можно видеть результаты лишь примерно половины участников (остальные, вероятно, ждут просчета. К сожалению, в этот список попал и я. Дополнение — как выяснилось, «переносы» из 23andMe все же были просчитаны, но не поставлены ссылки  на результат), однако этого достаточно для предварительной оценки нового инструмента.

Видно, что проделана большая работа, и в целом myOrigins (а именно так решили назвать Population Finder 2.0) выглядит гораздо достойнее своего предшественника. Выделен ряд географических зон, к которым может быть отнесен геном тестируемого, полностью либо частично. Зоны, к которым отнесена хотя бы часть его наследственности, выделяются на карте. Чем выше вклад зоны, тем ярче пятно. Похромосомного режима, как в Ancestry Composition, нет. Впрочем, выделяемые им сегменты часто бывают довольно сомнительными, поэтому я не считаю данный факт недостатком myOrigins. Как и следовало ожидать от компании, ориентированной в первую очередь на покупателей из Северной Америки и Западной Европы, наибольшей детализации подверглась Северо-Западная Европа. Она разделена на три близких между собой зоны — «британскую» Coastal Islands, «франко-германскую» Coastal Plain и «скандинавскую» Northlands.

Насколько хорошо получилось произвести разделение, покажет будущее — я в основном обратил внимание на компоненты, важные для восточноевропейцев. Кстати, возникает ощущение, что названия и кое-что в описании зон взято из другой версии программы, поскольку они зачастую плохо стыкуются с картой. Так, «балто-славянское» пятно названо Trans-Ural Peneplain, однако при этом нарисовано на территории Польши, Белоруссии и Украины. Но я забегаю вперед. Итак, две основные зоны, выделенные для Восточной Европы — это «балто-славянская» Trans-Ural Peneplain и «финская» North Circumpolar. Кроме этого, довольно часто проявляется «восточноазиатский» компонент Asian Northeast. Распределение выглядит разумно — украинцы, белорусы, южные русские преимущественно относятся к «балто-славянской зоне», со сдвигом к северу растет вклад «финской» зоны. «Восточноазиатский» компонент, проявляющийся у северян, не удивляет, а то, что он периодически встречается у украинцев, можно отнести на влияние Степи. Впрочем, конкретные соотношения двух основных восточноевропейских компонентов у некоторых участников вызывают подозрение в заметных случайных отклонениях процентовки. Дополнение — подозрения перешли в уверенность.

Тем большее удивление вызывают результаты некоторых представителей народов Поволжья и Урала. У них «найдены» «британский» и «франко-германский» компоненты, причем процент может доходить до 20. Думаю, причина здесь в отсутствии «уральской» зоны. Судя по описанию, ее роль должен был взять на себя «финский» компонент, якобы доходящий вдоль Полярного Круга до самой Гренландии. Частично ему это удается — видно, что у чувашей, марийцев, татар его много. Однако финны очень своеобразны, и не могут полностью отображать все не-азиатское разнообразие Севера Евразии. Как результат — заметную часть генома уральцев алгоритм не может отнести ни к «финскому», ни к «балто-славянскому» компоненту, при этом видно его европейское происхождение. Подозреваю, что такие варианты «на всякий случай» относят к британцам. Логично для алгоритма, рассчитанного в первую очередь на американцев.

Дополнение — как оказалось, «франко-германская» зона довольно часто рисуется и восточным славянам. Видимо, дело здесь не только в отсутствии «уральской» зоны, но и в других особенностях используемого алгоритма. «Британская» зона так и продолжает связываться с «уральцами».

Другие зоны, могущие представлять интерес — «средиземноморская» North Mediterranean, «анатолийско-кавказская» Anatolian Crossroads, «афганско-среднеазиатская» Eurasian Heartland, «америндская» Bering Expansion. Все эти компоненты могут встречаться в небольших количествах у восточноевропейцев, обычно их присутствие вполне оправдано.

На мой взгляд, в целом выделение зон сделано вполне разумно. Основная претензия — отсутствие «уральской» зоны, но честно говоря, сложно ожидать от американской компании внимания к этой тонкости. Излишнее выделение зон в Европе также вполне понятно. Дополнение — к недостаткам я бы отнес и отсутствие варианта «nonspecific» для неопределенных случаев, как сделано в Ancestry Composition. Тогда казусов с неверным разнесением по зонам было бы меньше. На первый взгляд, продукт получился вполне на уровне конкурента, а значит, компания может не беспокоиться еще несколько лет )). После полного просчета результатов всех участников и перехода утилиты в открытый вид мы увидим, действительно ли это так.

О новых профессиях связанных с генетикой и молекулярной биологией

17 февраля известное российское Агентство стратегических инициатив и Московской школы управления «СКОЛКОВО» разродилось примечательным изданием — атласом новых профессий. Я не буду останавливаться на отдельных моментах этого издания (благо, что он находится в открытом доступе), и процитирую те фрагменты атласа, в которых описываются новые потенциальные области трудовой занятости, так или иначе связанных с генетикой

Генетический консультант. Проводит первичный и плановый генетический анализ в диагностических центрах, обрабатывает данные с диагностических устройств, дает заключение и рекомендации по дальнейшей схеме лечения (выявление наследственных заболеваний, онкомаркеров и т.д.
Сегодня генетические консультации нам известны, преимущественно благодаря компании 23andMe, которая предлагает частным заказчикам генетический анализ генома. Компания любопытна не столько даже тем, что предлагает за разумные деньги целый ворох прелюбопытной информации (посмотреть можно, например, тут) или тем, что основательница компании – супруга Сергея Брина, или тем, что одним из инвесторов в компанию является Юрий Мильнер, совладелец Mail.ru Group. Интересно, что сейчас компания проходит тот путь внешнего сопротивления регулирующих органов, который, вероятно, отражает общую судьбу новых технологий: в ноябре 2013 года FDA (Агентство Минздрава США по надзору за качеством продуктов и медикаментов) предписала 23andMe приостановить продажи тестов, поскольку компания нарушает закон, говоря, что на основе ее тестов можно определить более 250 заболеваний. Как авторитетно говорит агентство, утверждать это можно, только основываясь на медицинских тестах, одобренных FDA. Посмотрим, что будет дальше, но ясно, что запрос на первичный генетический анализ в ближайшее время будет расти, а значит, будут нужны генетические консультанты.

Клинический биоинформатик. В случае нестандартного течения болезни строит модель биохимических процессов болезни, чтобы понять первопричины заболевания (выявляет нарушения на клеточном и субклеточном уровне)
Клиническая биоинформатика на западе также существует не первый год. Сегодня на Западе клиническая биоинформатика (или трансляционная биоинформатика) направлена на то, чтобы по максимуму использовать весь багаж накопленной информации – генетической, биологической и медицинской – может быть применен для того, чтобы разработать персонализированную терапию и траектории лечения пациента. В основе клинической биоинформатики лежит использование IT-методов для анализа фундаментальной биомедицинской и генетической научной информации для применения в клинической медицине. Трансляционная медицина есть и в России, и специалисты прогнозируют появление большого количества рабочих мест в этой области (подробнее можно узнать в рассказе Сергея Румянцева для ПостНауки)

Еще раз о так называемых генетических алгоритмах

На Habrahabr размещены неплохие вводные материалы в теорию так называемых генетических алгоритмах, о которых мы писали уже не раз, в том числе и при рассмотрении вопросов евгеники.

Здесь будет очень полезен опыт природы.
Оператор скрещивания классического генетического алгоритма по сути своей соответствует мейозу — только в генетическом алгоритме число потомков равно числу предков.
Но в природе также существует и другой тип размножения — митоз и мы также можем приспособить его для использования в генетическом алгоритме.

В качестве основного принципа устанавливаем, что хромосомы с наибольшими значениями функции приспособленности размножаются митозом, а хромосомы с наименьшими значениями функции приспособленности размножаются мейозом.
Ближайшей аналогией подобного механизма является размножение микроорганизмов которые могут использовать как один так и другой пути размножения. Микроорганизмам наиболее приспособленным к окружающей среде выгодно максимально быстро запустить свою репликацию в неизменном виде, наименее приспособленным выгодно запустить рекомбинацию генетического материала для поиска вариантов с большей приспособленностью.

Каждая хромосома, к которой применен оператор митоза, заведомо производит как минимум одного полностью идентичного ей самой потомка.
Помимо этого, чем больше приспособленность хромосомы превышает среднее значение приспособленности по всей популяции, тем больше вероятность того, что хромосома произведет второго потомка.

Хромосомы с меньшей приспособленностью формируют пул для скрещивания между собой. Попарное скрещивание хромосом из пула проводится до тех пор пока не будет достигнута требуемая общая численность популяции (с учетом хромосом уже созданных с помощью оператора митоза). Выбор хромосом для скрещивания производится случайным образом методом рулетки (хромосомам с большей приспособленностью соответствует больший сектор на колесе рулетки). Численность популяции остается постоянной на протяжении всего времени работы генетического алгоритма.

Дилемма Платона в свете генетических алгоритмов

В истории хорошо известно описание демографической политики идеального государства в описании философа Платона. В своей краткой форме, описание можно свести к евгенической программе, формулировка которой содержится в трактате «Государство». На некоторых празднествах невест и женихов будут соединять, как их учат верить, якобы по жребию в таком количестве, которое необходимо для сохранения постоянной численности населения; но на самом деле правители города будут производить манипуляцию с жребиями, исходя из евгенических принципов. Они будут устраивать так, чтобы лучшие производители имели больше всего детей. Все дети будут после рождения отбираться у своих родителей, и будут приняты серьезные меры предосторожности, чтобы родители не знали, которые дети являются их детьми, а дети не должны знать, кто их родители. Детей с физическими недостатками и детей худших родителей «станут скрывать как следует в тайном и неизвестном месте».В конце 20 века биологические идеи, отдаленно напоминающие воззрения Платона, получили свою формальную реализацию в виде так называемых генетических алгоритмов. Краткое описание основных положений теории генетических алгоритмов приведено по материалам сайта «Искусственный интеллект», а также с использованием монографии Панченко «Введение в генетические алгоритмы».

Селекция – это выбор тех хромосом, которые будут участвовать в создании потомков для следующей популяции, т.е. для очередного поколения. Такой выбор производится согласно принципу естественного отбора, по которому наибольшие шансы на участие в создании новых особей имеют хромосомы с наибольшими значениями функции приспособленности. Существуют различные методы селекции.

Рассмотрим их.

Основанный на принципе колеса рулетки (жребии) метод селекции считается для генетических алгоритмов основным методом отбора особей для родительской популяции с целью последующего их преобразования генетическими операторами, такими как скрещивание и мутация. Несмотря на случайный характер процедуры селекции, родительские особи выбираются пропорционально значениям их функций приспособленности: каждой хромосоме сопоставлен сектор колеса рулетки, величина которого устанавливается пропорциональной значению функции приспособленности данной хромосомы, поэтому, чем больше значение функции приспособленности, тем больше сектор на колесе рулетки. Отсюда вытекает, что чем больше сектор на колесе рулетки, тем выше шанс, что будет выбрана именно эта хромосома. Слабая сторона этого метода заключается в том, что особи с очень малым значением функции приспособленности слишком быстро исключаются из популяции, что может привести к преждевременной сходимости генетического алгоритма. Кроме того, особенности алгоритма не исключают варианты, в которых потомство субоптимальных особей достигает оптимума в следующиъ поколениях. В связи с вышесказанным, созданы и используются альтернативные алгоритмы селекции.

Турнирная селекция

При турнирной селекции все особи популяции разбиваются на подгруппы с последующим выбором в каждой из них особи с наилучшей приспособленностью. Различаются два способа такого выбора: детерминированный выбор и случайный выбор. Детерминированный выбор осуществляется с вероятностью, равной             1            , а случайный выбор – с вероятностью, меньшей 1. Подгруппы могут иметь произвольный размер, но чаще всего популяция разделяется на подгруппы по 2-3 особи в каждой.

Турнирный метод пригоден для решения задач как максимизации, так и минимизации функции. Помимо того, он может быть легко распространен на задачи, связанные с многокритериальной оптимизацией, т.е. на случай одновременной оптимизации нескольких функций. В турнирном методе допускается изменение размера подгрупп, на которые подразделяется популяция. Исследования подтверждают, что турнирный метод действует эффективнее, чем метод рулетки.

На рисунке ниже представлена схема, которая иллюстрирует метод турнирной селекции для подгрупп, состоящих из двух особей. Такую схему легко обобщить на подгруппы большего размера.

 

Ранговая селекция

При ранговой селекции особи популяции ранжируются по значениям их функции приспособленности. Это можно представить себе как отсортированный список особей, упорядоченных по направлению от наиболее приспособленных к наименее приспособленным (или наоборот), в котором каждой особи приписывается число, определяющее ее место в списке и называемое рангом. Количество копий каждой особи, введенных в родительскую популяцию, рассчитывается по априорно заданной функции в зависимости от ранга особи. Пример такой функции может быть следующий график.

 

Достоинство рангового метода заключается в возможности его применения как для максимизации, так и для минимизации функции.

Существуют различные варианты алгоритмов селекции. Представленные выше методы (рулетки, турнирный и ранговый) применяются чаще всего, но существуют так называемые особые процедуры селекции: элитарная стратегия и генетический алгоритм с частичной заменой популяции.

Элитарная стратегия заключается в защите наилучших хромосом на последующих итерациях. В классическом генетическом алгоритме самые приспособленные особи не всегда переходят в следующее поколение. Это означает, что новая популяция не всегда содержит хромосому с наибольшим значением функции приспособленности из предыдущей популяции. Элитарная стратегия применяется для предотвращения потери такой особи. Эта особь гарантированно включается в новую популяцию.

Генетический алгоритм с частичной заменой популяции, иначе называемый генетическим алгоритмом с зафиксированным состоянием, характеризуется тем, что часть популяции переходит в следующее поколение без каких-либо изменений. Это означает, что входящие в эту часть хромосомы не подвергаются операциям скрещивания и мутации. Часто в конкретных реализациях алгоритма данного типа на каждой итерации заменяются только одна или две особи вместо скрещивания и мутации в масштабе всей популяции.