Исследование генетики татар Поволжья при помощи анализа на IBD-сегменты

Исследование генетики татар Поволжья при помощи анализа на IBD-сегменты

Не секрет, что под этнонимом «татары» в России зачастую скрываются совершенно разные этнические группы. Существуют татары казанские, астраханские, сибирские, крымские и т.д. В данном исследовании нас интересуют татары среднего Поволжья — казанцы и мишари.

Это достаточно многочисленный и активно тестирующийся народ, неплохо представленный в аутосомных базах 23andMe и FTDNA. По мере роста статистики прогонов татарских генотипов через калькулятор Вадима Веренича К27, я начал впадать в некоторое замешательство. В своем большинстве татары получались довольно близкими друг к другу по соотношению предковых компонентов Admixture. Однако одновременно существовали и различия, где было весьма сложно понять — не результат ли это попросту случайных отклонений? Разделение между казанскими татарами и мишарями проявлялось скорее как тенденция к несколько большим значениям «балто-славянских» и «финских» компонентов у вторых, чем как явный сигнал.

Поэтому при появлении у меня нового инструмента — скрипта, анализирующего наличие общих IBD-сегментов с научными выборками, я не замедлил пропустить через него имеющиеся генотипы татар из коммерческих выборок. Сразу же проявились различия, что позволило сделать вывод — несмотря на сходство татар по пропорциям предковых компонентов, их источники частично различаются.

Чтобы по возможности снизить влияние случайных отклонений, я постарался выделить усреднения по территориально-этническим группам. Наиболее бросающимся в глаза признаком казанских татар оказалось большое количество общих сегментов с марийской и чувашской выборками. Однако это еще не означает, что казанцы разделяют большую часть общих предков с марийцами или чувашами. Дело в том, что эти выборки испытали очень сильный генный дрейф. В результате даже не очень значительное родство с ними проявляется весьма ярко. В прошлой заметке я назвал это «эффект ашкенази», по имени наиболее известного примера. Судя по всему, марийцы и чуваши разделяют заметную часть общих предков, поэтому и «эффект ашкенази» у них общий.

Усреднение по трем казанским татарам из Апастовского района Татарстана:

Tatar-ApastovIBD

Довольно типичная картина — фоновая засветка по Восточной Европе, яркое пятно у марийцев и чувашей и более бледное — у татарской научной выборки. Точный источник татарской выборки мне неизвестен, но сравнительно слабые показатели могут хорошо объясняться большей численностью и генетическим разнообразием татар.

Татары из Тархановского района, 5 человек, выглядят весьма похоже, лишь марийско-чувашское пятно менее яркое:

Tatar-TarhanIBD

Татары из северо-западной части Башкирии, четыре человека. По сравнению с предыдущими выборками, добавилось некоторое влияние удмуртов и башкир:

Tatar-Bash-NWIBD

Насколько же велико может быть количество общих предков татар с чувашами и марийцами? Попробуем сравнить апастовскую выборку с усреднением по трем чувашам:

ChuvashIBD

В калькуляторах на базе Admixture у чувашей ярко проявляется «уральский» компонент, и здесь мы хорошо видим его распространение — от саами до манси. Уровень пересечения с чувашской выборкой при моих типичных настройках — 115 сМ. Примерно такой же уровень получился у марийца (отличие от чувашей — в более высоком пересечении с марийской выборкой). При этом у людей с наполовину марийским или чувашским происхождением этот показатель составил чуть меньше 80. У апастовской выборки — 67. Можно сделать прикидку, что при недавнем адмиксе это соответствовало бы примерно 1/3 общих предков. Однако если эти предки жили давно, когда дрейф проявился еще не так сильно, их доля могла быть выше. Таким образом, оценкой снизу будет 30%. Провести оценку сверху поможет упоминавшийся «уральский» компонент. При калибровке К27 его содержание у чувашей получилось равным 19, усреднение по татарам из апастовской выборки —  около 9. Таким образом, даже если все не пересекающиеся с чувашами предки были из популяций с нулевым содержанием этого компонента (что малореально), вклад чувашей не мог быть выше 50%. Думаю, что наиболее реалистичным вариантом будет все же 1/3.

Разумеется, существует еще вариант, что чуваши получили «уральский» компонент уже после разделения с татарами. Тогда количество общих предков может быть и гораздо большим. Однако этому варианту скорее соответствует некий более древний уровень родства, чем рассматриваемые здесь исторические времена.

Я попробовал подсчитать, исходя из предположения, что «чувашские» компоненты составили 1/3 наследственности татар, на что могли быть похожи оставшиеся 2/3 по К27. В одиночном режиме результат оказался непохожим ни на один народ, кроме самих татар. В режиме смеси комбинации тоже показались на первый взгляд очень странными, однако, как мы позже увидим, кое-какой смысл в них был:

Using 2 populations approximation:
1 Nogay_D+Russian_Novgorod_D @ 6,174824

Using 3 populations approximation:
1 50% Russian_North_R8 +25% Kazakh_R2 +25% Romanian_D @ 3,826868

2 50% Russian_North_R8 +25% Bulgarian_S14 +25% Kazakh_R2 @ 4,087314

У меня не нашлось полноценной мишарской выборки из районов за пределами Татарстана и Башкирии, поэтому пришлось объединить три образца, получившиеся похожими и по IBD-картографу, и по предковым компонентам в калькуляторе Вадима Веренича. Первый происходит из мишарей Нижегородской области, второй — из пензенских мишарей, третий — из служилых татар Самарской области.

Mishar-NPSIBD

Как мы можем видеть, здесь не только нет «марийского» пятна, но даже наоборот — на этом месте показано уменьшение количества общих сегментов по сравнению с соседними популяциями. Родство с чувашами имеется, однако, очевидно, идет по другой линии предков чувашей, не совпадающей с предками марийцев. Наиболее же сильно выделяются эрзяне. Как и в случае родства казанских татар с чувашами, это вовсе не говорит об определяющем вкладе эрзян в генетику мишарей. Нижний предел я бы оценил аналогичным предыдущему случаю методом примерно в 20-25%. Что касается верхнего ограничителя, тут сложнее из-за отсутствия специфического «эрзянского» компонента Admixture. Если ориентироваться на общий восточноевропейский компонент Balto-Slavic, то он ограничивает максимальный уровень примерно 70-80 процентами. Вполне возможно, что предками мишарей были не сами эрзяне или мокшане, а родственная им соседняя популяция — это дополнительно затрудняет оценку.

Для сравнения, эрзянская выборка, пять человек:

ErzyaIBD

Мишари из Дрожжановского района Татарстана, три человека:

Mishar-DrozzhIBD

Картина схожа с предыдущей мишарской выборкой, однако у марийцев уже нет провала. Возможно, это связано с близостью к Чувашии, возможно — с влиянием казанских татар.

Выборка мишарей из Башкирии получилась ближе к казанскому варианту. Это может объясняться спецификой именно данной выборки, либо различиями между мишарями в целом. Придумать объяснений можно много, но думаю, здесь нет смысла в них вдаваться.

Mishar-BashkIBD

Итак, для каждого из народов (или, при другом подходе, субэтносов), мы видим на картах один из предковых источников. Однако попытка вывести оставшиеся источники методом пересчета предковых компонентов оказалась малоудачной. Чтобы решить эту проблему, я попробовал визуализировать разницу с первым источником. На карте приведена разница между первой («сборной») мишарской выборкой и эрзянами, для контрастности умноженная на три:

MNPSminusErzyaIBD

Зеленые тона показывают выборки, более близкие эрзянам, красно-бурые — мишарской выборке. Промежуточные варианты одинаково близки и тем, и другим. Максимум разницы в пользу мишарей достигается из крупных выборок у бурят и тувинцев, что очень хорошо совпадает с недавней работой по генетическим следам тюркской экспансии . Немногим отстают от них и башкиры с казахами. Интересно, что кавказские выборки, за исключением ногайцев и балкарцев (наличие в этой компании армян остается загадкой )) ), получились несколько ближе к эрзянам, что говорит против теории о связи мишарей с Кавказом (либо она каким-то образом идет через эрзяноподобную сторону). Пятно у вепсов, думаю, тоже что-то означает, поскольку в слабом виде видно у многих татар. Однако это может быть и следствием более высокого уровня дрейфа у вепсов по сравнению с соседями.

При построении аналогичной карты для пары казанцы/чуваши в качестве базовой выборки я выбрал апастовскую. Башкирские по понятным причинам не могут служить типичным образцом, а тархановская демонстрирует тенденцию сдвига к мишарям. К тому же наиболее родственная чувашам выборка может выявить отличия с ними более показательно.

TAminusChuvashIBD

Зеленая зона вдоль северной части Сибири объясняется более высоким уровнем родства с этими народами у чувашей, чем у татар (все тот же уральский компонент). Родство с народами степной полосы и возможной тюркской прародины находится на примерно одном уровне у «чувашской» и «нечувашской» части генома казанских татар. Родство же с выборками Средней Азии, Кавказа, Средиземноморья — выше. Вероятно, средиземноморскими же пересечениями объясняется повышенный уровень общих сегментов с ашкенази (не забываем, что это число надо делить в разы из-за ашкенази-эффекта). Примерно такого же уровня пятно с крымскими татарами выглядит бледнее из-за небольшой площади полуострова. Интересно также пересечение с болгарами. Не думал, что их тюркский компонент проявится настолько заметно. Впрочем, возможно, это объясняется турецкими или татарскими вливаниями, а не древними булгарами. Ну и обращает на себя внимание знакомое пятно у вепсов и эстонцев.

А теперь вспомним еще раз раскладку при попытке реконструкции «нечувашской» части на базе К27:

2 50% Russian_North_R8 +25% Bulgarian_S14 +25% Kazakh_R2 @ 4,087314

Неправильно, однако уже не так странно, как казалось вначале.

Не следует думать, что перечисленные популяции составляют 2/3 наследственности казанских татар (раз уж 1/3 мы оцениваем вклад «чувашской» стороны). Более вероятным кажется вариант, когда заметную часть от этих 2/3 занимает некая нейтральная по отношению к чувашам популяция, у которой уровень IBD сегментов с другими уральцами и восточноевропейцами был близок к ней. Из-за нейтральности она плохо выделяется на картах IBD-разности, однако калькуляторы на базе Admixture показывают — вклад пришельцев с далекого Юга или Востока не мог быть определяющим. Возможно, именно на эту популяцию намекают «вепсско-эстонское» и «южно-русское» пятна.

В завершение я хочу привести карту разницы между мишарями и казанцами:

MNPSminusTAIBD

С казанской стороны мы видим знакомые марийско-чувашское и крымско-татарское пятна, а также, слегка неожиданно, но не удивительно, азербайджанское (с расширением вдоль Южного Каспия). С мишарской стороны знакомые эрзяне, неожиданно выделилась территория ВКЛ (какие-то вливания оттуда в геном мишарей?), и, по совсем непонятной причине, выборка коми. Родство с азиатскими выборками идет с некоторым перевесом в пользу казанцев, особенно в «зоне марийско-чувашского влияния».

Аналогично примечанию к предыдущей карте, не следует забывать — здесь показана разница. Нейтральная общность может быть велика, но не видна этим методом.

Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии

Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии.

Этнокалькуляторы на базе Admixture, представляющие результат «просчета» генома испытуемого в виде смеси предковых компонентов, достигли уже очень хорошей точности. Однако у них есть и определенные недостатки. Во-первых, случается, что у двух разных народов пропорции смешения этих компонентов довольно близки, хотя близкого родства между ними не наблюдается. Обычно для исключения такого эффекта увеличивают число компонентов, то есть повышают детализацию. Однако при этом зачастую возрастает и «шумность», случайные отклонения от ожидаемых значений. Кроме того, бывает тяжело понять — смешение произошло в предыдущем поколении, или тысячу лет назад? Если человек происходит из двух отдаленных народов, он часто позиционируется в географической точке, находящейся между ними, и непохож ни на один из родительских народов. При более сложносоставном происхождении все запутывается еще сильнее.

Нет ли метода напрямую измерить уровень родства отдельного человека с той или иной популяцией? При такой постановке вопроса сразу приходит на ум один из возможных ответов — необходимо просчитать количество IBD (то есть идентичных благодаря общности происхождения) аутосомных сегментов. Такой подход уже реализован в утилите от 23andMe под названием Countries of Ancestry, однако с рядом заметных недочетов. Используются результаты опроса пользователей сервиса о стране их происхождения, при этом непонятно, каков размер выборки от каждой страны. Да и детализация уровня «страна» для жителей России явно не подходит — зачем мешать в одну кучу карел, осетинов и якутов.

К счастью, эти проблемы можно частично устранить, используя научные выборки (либо коммерческие, однако набрать подобный объем из коммерческих выборок мне сейчас не по силам). С удешевлением процесса генотипирования количество имеющихся в открытом доступе выборок начало быстро расти. В первую очередь я использовал выборки, выложенные на сервере Эстонского биоцентра . Они стали основой. Часть пробелов была заполнена выборками из недавней работы Hellenthal , их пришлось переконвертировать из build 36 в build 37. Отдельное спасибо Вадиму Вереничу за помощь с несколькими выборками, хорошо увеличившими охват этнокарты.

Главной сложностью в работе оказалось сведение геномов из всех источников вместе. В каждой научной работе использовался свой набор снипов, часто с разной ориентацией. Коммерческие выборки тоже неоднородны — например, в FTDNA, как оказалось, существует четыре варианта файлов raw data со слегка отличающимся набором снипов и разной ориентацией примерно трех сотен из них. Добавьте к этому два варианта выравнивания и трансферы из 23andMe (у которой нашлись свои заморочки, например, дублирование одних и тех же снипов под разными названиями).

Конечно, хотелось использовать как можно большее количество снипов. Однако после ряда попыток придумать коэффициенты пересчета и прочее, стало понятно, что это методологически неверно. Пришлось оставить лишь те снипы, которые присутствовали во всех используемых выборках, в стандарте FTDNA, а также на чипе v3 от 23andMe. Вероятно, в будущем придется включить в просчет и новый, четвертый чип от этой компании, однако пока я решил с ним не связываться. В общем итоге осталось около 244 тысяч снипов — не так уж мало, я опасался худшего. От покрытия FTDNA это составляет чуть больше трети.

Компания FTDNA и сервис Gedmatch используют для фильтрации общих сегментов критерий наличия не менее 700 снипов. Однако для мелких сегментов он выполняется не так уж часто (из-за чего у клиентов FTDNA возникает иллюзия сравнительно небольшого количества таких сегментов). Поэкспериментировав, я остановился на рубеже в 150 снипов — менее него количество сегментов, являющихся статистическими артефактами, начало быстро расти. Основным показателем для отрисовки на этнокарте я взял общую сумму сегментов длиной более 3 сМ. Конечно, более длинные сегменты являются более четким показателем родства, однако их заметно меньше. А это значит, что их количество более подвержено случайным отклонениям. С другой стороны, более мелкие сегменты сливаются в общую кашу. Таким образом, выбранный критерий является компромиссом. При увеличении объема выборок на порядки станет возможно использовать только длинные сегменты и улавливать родство более четко.

Метод дает релевантные результаты при сравнении с выборками свыше 10 человек. Чем меньше размер выборки, тем сильнее влияние случайных отклонений. Из-за этого часть выборок я объединил вместе (например, литовцы и латыши стали балтами), часть исключил с карты. Однако некоторые все же пришлось оставить — в первую очередь это финны (2 человека), западные украинцы (6), башкиры (6) и австрийцы (4). Если для какой-то популяции значения явно выпадают из ряда соседей, всегда обращайте внимание на размер выборки, приведенный в сопроводительной таблице.

Одновременно достоинством и недостатком метода является сильное влияние «эффекта основателя», «множественного родства», «бутылочных горлышек» и т.д. За этим перечислением скрывается примерно одно и то же — когда популяция происходит от сравнительно небольшой группы людей, ее члены разделяют между собой большое количество общих сегментов. Наиболее известным примером являются евреи-ашкенази — достаточно иметь одного отдаленного предка из этого народа, чтобы получить множество генетических «кузенов». Таким образом, родство с народом, подвергшемуся такому эффекту, видно более четко. Но это же искажает общую картину — одинаковое количество генетических пересечений может означать совершенно разную степень близости в зависимости от истории популяции.

Я сравнил 26 человек из коммерческих выборок, представляющие различные популяции интересующих меня регионов, с набором из 1130 геномов, взятых из научных выборок. Результаты сведены в таблицу и частично визуализированы на картах. При интерпретации помните о вышеперечисленных искажениях!

Начнем с представителя народа, считающегося наиболее архетипичными восточноевропейцами в большинстве этнокалькуляторов. Это литовцы (картинка увеличивается по клику):

 

LithuanianIBD

Как видно, литовец оправдывает это звание и по количеству общих сегментов. Красное пятно закрывает большую часть Восточной Европы, в том числе и балтийских финнов. Условно говоря, на этой карте мы видим некий «базовый уровень родства» среди восточноевропейцев.

Пятно восточного финна практически совпадает по форме, однако распределение интенсивности иное:

Finnish-EastIBD

Я бы сказал, что в основном это более частный и специфичный вариант того же, что мы видим у литовца. Доказательством может служить высокий уровень пересечения с балтской выборкой. В то же время, существует и финская специфика, например, пересечение с саами, которые у литовца довольно бледные. Более яркое и пересечение со шведами. Скорее всего, здесь мы видим результат включения в состав шведов финского субстрата, поскольку с теми же норвежцами интенсивность явно ниже.

Крайней западной точкой у нас будет представитель российских немцев. На этнокалькуляторах Admixture он получается достаточно типичным представителем немецкого народа, поэтому версию о заметном влиянии на его наследственность русских можно исключить.

German_RussiaIBD

К сожалению, немецкой выборки у меня нет, поэтому Германия закрашена серым. Некоторым заменителем является Швеция, которая чуть ярче соседей. К некоторому  удивлению, французы и британцы не показали заметной общности с немцем, хотя ее уровень все же выше средневосточноевропейского. Частично это может объясняться тем, что в британской выборке лишь семь человек из 23 — англичане, остальные являются ирландцами. шотландцами и валлийцами. Пятно у восточных украинцев и южных русских также загадочно — неужели это след знаменитых готов?

Невозможно исследовать генетическое разнообразие восточноевропейцев и обойти при этом ашкенази. Поэтому я позволил себе небольшую некорректность и разместил их на карте в районе нынешней Одессы. Картинка для ашкенази из коммерческой выборки:

AshkenaziIBD

Ожидаемое ярко-красное пятно сходства с родной популяцией, остальные все довольно далеко (на втором месте получилась выборка сефардов, но ее на карте нет). Повышение у басков и греков показывает родство ашкенази со средиземноморскими популяциями, пятно у восточных украинцев и белорусов объяснимо длительным совместным проживанием.

Перейдем к восточным славянам. Небольшой размер выборки западных украинцев не помешал им оказаться на первом месте у карпатского русина:

Carpathian_RusinIBD

Пятна на остальной территории получились довольно неровными. Я бы не стал делать из этого каких-то глубоких выводов о древних пересечениях карпатцев и финнов или эрзян.

Северо-восточная Беларусь:

BelarusianIBD

Украина (Полтава):

Ukrainian-PoltavaIBD

Обращает на себя внимание пересечение с поляками.

Человек смешанного происхождения — донские казаки и украинцы:

RuUa-CossackIBD

Тверь-Рязань:

Russian-CenterIBD

Как видно, балто-славянская общность улавливается всегда, в то время как более тонкие различия частично видны, частично скрываются шумом (случайными отклонениями).

Представители эрзи и мокши явно в своей основе близки балто-славянам. При этом балтийские финны никак не выделяются, а народы волго-уральского региона уже довольно далеки. Все это не является новостью для интересующихся темой людей, однако независимое подтверждение результатов показывает действенность методики.

Эрзя:

ErzyaIBD

Мокша:

MokshaIBD

Мокшанская выборка не помещена на карту из-за своего маленького размера (давала слишком большие случайные отклонения). У мокши «родная» выборка получилась заметно ближе эрзянской, у эрзи, соответственно, наоборот. Вероятно, это значит, что, несмотря на родственность двух групп, различие между ними с точки зрения разделяемой популяционной истории существенно (простыми словами, женились преимущественно внутри своего народа).

У северного русского видно родство как с балто-славянскими выборками, так и с балтийскими финнами:

Russian-NorthIBD

Наряду с этим, у русского из Пермского края ощущается влияние коми. Вероятно, с этим же связано и приближение других народов Урала:

Russian-PermIBD

В то же время, сами коми-зыряне скорее относятся к тому же «балто-славяно-финскому» кругу популяций:

KomiIBD

Чтобы не делать пост бесконечным, карты для народов волжско-уральского региона (в широком смысле) будут приведены в следующей части.

Сибирские ученые выявили у тувинцев особую мутацию, отвечающую за глухоту

Сибирские ученые выявили у тувинцев особую мутацию, отвечающую за глухоту

 

Потеря слуха входит в число самых распространенных врожденных заболеваний. В среднем, один из двух тысяч людей появляется на свет глухим. Более половины из них имеют генетическую причину недуга. Чаще всего в этом виноват ген GJB2 (Сх26). Оказалось, что почти у каждой расы он имеет свои специфические изменения, приводящие к глухоте. Кандидату биологических наук Ольге Леонидовне Посух из Института цитологии и генетики СО РАН удалось выявить мутацию, из-за которой в большинстве случаев рождаются тугоухие дети в Тыве.