Расширенные карты для палеогеномов

Обновлено 30.11.2014

Этот пост также продолжает один из предыдущих, а именно визуализацию суммы IBD-сегментов (а возможно, это и не IBD — вопрос остается открытым) двух палеоевропейцев и мальчика со стоянки Мальта с современными  выборками. С тех пор в открытом доступе появилось еще несколько обработанных палеогеномов — «усть-ишимец«, «Костенки-14» («человек с Маркиной горы») и два палеогенома хорошего качества из Венгрии.

Результаты собраны мной в онлайн-таблицу, а также отрисованы на расширенных картах. Поскольку усть-ишимец явно тяготел к восточноазиатам, пришлось добавить к сравнению выборки из Южной и Восточной Азии. Ну а после этого логика подсказывала, что неолитических земледельцев Европы неплохо бы сравнить с жителями Ближнего Востока. Таким образом, все карты перерисованы.

Напомню также, что результаты для «мальтинца» и «костенковца» получены при ослабленных настройках фильтра из-за низкого качества прочтения этих двух геномов. Напрямую сравнивать их с пятью другими нельзя. Для отрисовки Loschbour значения умножены на 1,5 в целях повышения контрастности.

«Неолитическая фермерша» )) Stuttgart/LBK

«Неолитический земледелец» NE1:

Усреднение по двум земледельцам дает более ровную картинку:

«Охотник-собиратель» Loschbour:

Разница между «охотником-собирателем» и усреднением по двум земледельцам. Красное — больше сегментов с Loschbour, зеленое — c Stuttgart и NE1

Европеец позднего бронзового века BR2 из Венгрии:

«Усть-ишимец»:

Костенки-14 (ослабленные настройки):

Мальтинец (аналогично):

И наконец, в качестве примера результата нашего современника, моя собственная карта:

 

 

Визуализация уровня гомозиготности и генетического разнообразия у народов Евразии

Обновлено 30.11.2014

После составления при написании предыдущего поста таблицы уровня гомозиготности в выборках Евразии, мне, конечно же, захотелось визуализировать его на карте (дополнив рядом новых выборок) .  Можно считать, что эта карта показывает уровень генетического разнообразия у каждого народа (ведь чем ниже количество гомозиготных снипов, тем разнообразие выше), но с одной оговоркой. Дело в том, что это число сильно зависит от используемого набора снипов. Таким образом, если в наборе много снипов, более часто встречающихся у европейцев, то разнообразие у них автоматически окажется завышенным, а у жителей других частей света — заниженным. А поскольку чипы для генотипирования предназначены в первую очередь для европейцев, такое вполне возможно.

Но все же мне кажется, что этот эффект либо не повлиял на результаты, либо повлиял незначительно. Наиболее разнообразными выборками получились отнюдь не европейские, а жители районов, прилегающих к Красному Морю. Это выглядит вполне объяснимо, поскольку где-то там и находится прародина всех не-африканцев. Другие результаты смотрятся тоже очень логично — по мере удаления от прародины разнообразие постепенно терялось.

Update от 21.01.2015. Для оценки эффекта можно сравнить с подсчетами из работы Fu et al:

FuHomosyg

Как можно увидеть, результаты по неафриканским популяциям хорошо коррелируют с моими. Однако по африканским выборкам результат прямо противоположный. Очевидно, евразийские снипы у них менее распространены, зато имеются свои собственные. Таким образом, метод (с данным набором снипов) можно использовать для выборок за пределами Черной Африки.

На карте зеленым цветом выделены выборки с наибольшим разнообразием, красным — с наименьшим:

HomosygIBDext

Как я уже писал, наивысшим разнообразие получилось у жителей Египта, Эфиопии, Йемена. Наинизшее из присутствующих на карте — у народов Северо-Восточной Сибири и Южного Китая. Однако у не попавших на карту есть и гораздо более экстремальные значения гомозиготности. Наибольшей она оказалась у южноамериканских индейцев и выборки папуасов. Чуть отстали африканские пигмеи, а вот обычные африканцы (йоруба и кенийские банту) вышли примерно на уровне восточноазиатов. Возможно, их реальное разнообразие еще выше (с учетом эффекта, описанного в первом абзаце).

Видно снижение разнообразия у народов-изолятов — калашей и бедуинов. И наоборот, у народов смешанного происхождения разнообразие выше. Например, на границе Европы и Азии выделяются ногайцы, башкиры, татары, коми-зыряне. В целом в Европе разнообразие плавно снижается с юга на север, за исключением выборок-изолятов — басков и сардинцев. А, допустим, в Индии все наоборот — понижение идет с северо-запада, откуда шли вторжения пришельцев, на юг и восток, к дравидам и австроазиатам.

При подсчете суммы IBD-сегментов уровень гомозиготности в выборке играет заметную роль. Например, «экстремалы» эвенки и эвены всегда разделяют меньше сегментов с европейцами, чем их соседи, но зато больше — с восточноазиатами.

В заключение приведу обновленную таблицу среднего процента гомозиготных снипов по используемым выборкам (и по используемому набору снипов):

Yemenite 65,20%
Egyptian 65,31%
Ethiopian 65,33%
Nogay 65,49%
Moroccan 65,52%
BR2 65,61%
Tatar-Kazan 65,65%
Azerbaijani 65,66%
Tatar-Crimean 65,67%
Kumyk 65,71%
Uttar-Pradesh-HC 65,72%
Bashkir 65,73%
Balkarian 65,78%
Komi 65,88%
Gujarati 65,92%
Tadjik 65,92%
UAE 65,92%
Turkmen 65,95%
Uzbek 66,00%
Uygur 66,00%
Greek_Azov 66,01%
Ashkenazi 66,03%
Ossetian 66,04%
Spanish 66,05%
Burusho 66,05%
Chuvash 66,05%
Croatian 66,05%
Abkhazian 66,09%
Iranian 66,09%
Russian-North-East 66,10%
Lezgin 66,10%
German 66,10%
Armenian 66,13%
Bulgarian 66,13%
Russian-South 66,14%
Italian-South 66,15%
Romanian 66,16%
Ukrainian-West-and-Center 66,16%
Sicilian 66,16%
Russian-North-Kargopol 66,17%
Greek 66,17%
Cypriot 66,18%
Swedish 66,19%
Palestinian 66,19%
Chechen 66,20%
Belarusian 66,20%
Hungarian 66,23%
Hazara 66,23%
Moksha 66,23%
Erzya 66,24%
Udmurt 66,25%
Georgian 66,26%
Ukrainian-East-and-Center 66,26%
Sephard 66,27%
Italian 66,29%
Ust-Ishim 66,29%
Kazah 66,29%
Tatar_Lithuanian 66,30%
Kurd 66,32%
Jordanian 66,33%
Turkish 66,33%
Mari 66,33%
Polish 66,34%
Adygei 66,35%
Norwegian 66,35%
Russian-West 66,36%
French 66,36%
Estonian 66,42%
Balt 66,45%
Karelian 66,45%
Kol 66,47%
NE1 66,49%
Veps 66,50%
British 66,51%
Finnish 66,51%
Tunisian 66,52%
Uttar-Pradesh 66,53%
Mansi 66,60%
Sindhi 66,61%
Brahui 66,68%
Kanjar 66,71%
Pathan 66,75%
Syrian 66,78%
Kirgiz 66,79%
Saud 66,91%
Makrani 67,02%
Basque 67,02%
Druze 67,08%
LBK 67,08%
Sardinian 67,08%
Andhra-Pradesh 67,09%
Bedouin 67,27%
Karnataka 67,33%
Hakas 67,33%
Altaian 67,33%
Balochi 67,36%
Saami 67,55%
Mongol 67,56%
Kalash 67,59%
Shor 67,63%
Munda 67,75%
Kerala 67,88%
Burmese 67,97%
BantuKenia 68,08%
Tuvinian 68,08%
Dolgan 68,24%
Tamil-Nadu 68,27%
Buryat 68,48%
Selkup 68,49%
Ket 68,54%
Xibo 68,54%
Cambodian 68,61%
Mongola 68,63%
Tu 68,65%
Yoruba 68,68%
Yakut 69,01%
Daur 69,11%
Han-North 69,14%
Nivh 69,25%
Naxi 69,31%
Evenk 69,32%
Hezhen 69,34%
Oroqen 69,39%
Yi 69,40%
Han 69,48%
Dai 69,62%
Japanese 69,67%
Miao 69,73%
Tujia 69,80%
She 69,88%
Naga 70,06%
Lahu 70,14%
Nganassan 70,37%
Even 70,64%
BiakaPygmy 70,69%
Maya 71,08%
MbutiPygmy 72,80%
Melanesian 73,03%
Loschbour 73,79%
Papuan 75,67%
Karitiana 76,17%
Kostenki-14 85,96%
Motala12 90,19%
Malta 94,41%

Оценка влияния уровня аутосомной гомозиготности при генотипировании на длину и количество ложных IBD-сегментов

В последнее время я пробовал сравнивать файлы геномов, полученные при генотипировании останков древних людей, с современными выборками в поисках  длинных общих IBD (или все же на деле это IBS?)-сегментов. Как выяснилось, результат в первую очередь зависит от качества прочтения древнего генома, особенно от уровня гомозиготности. Большинство древних геномов прочитывают с небольшим уровнем покрытия (1х-2х), и естественно, при этом захватывается лишь один аллель. Например. если реальные значения снипа A и T, при единичном прочтении можно увидеть либо A, либо T — второе значение останется нерасшифрованным. Любой длинный сегмент при этом окажется разорван.

Есть и геномы, прочитанные с высоким качеством. Их уровень гомозиготности близок к получающемуся у наших современников при коммерческом тестировании в FTDNA и 23andMe. Например, к таким относится BR2 из недавней работы Gamba et al. «Genome flux and stasis in a five millennium transect of European prehistory». Сумма общих сегментов у «венгра» бронзового века с европейскими выборками вполне сопоставима с тем, что получается у наших современников. Как уже неоднократно писалось, возраст таких сегментов вполне может насчитывать несколько тысячелетий, поэтому результат не слишком удивляет. Однако общие сегменты с нашими современниками нашлись и у «усть-ишимца» — древнейшего расшифрованного генома человека современного типа возрастом около 44 тысяч лет (согласно радиоуглеродной датировке). Сложно поверить, чтобы IBD-сегменты могли сохраняться так долго. Что послужило этому причиной? Поддержка отбора, ошибки генетической карты (расстояния между многими снипами получены интерполированием, а это может быть неправильно)? А может быть, это вовсе и не IBD-сегменты, а просто случайно возникшие IBS?

(IBD (identical by descent) — участки совпадающих последовательностей снипов, полученные несколькими людьми от одного и того же предка в результате общности происхождения. IBS (identical by state) — тоже участки совпадающих последовательностей снипов, но причины этого совпадения могут быть другими. Формально IBD это частный случай IBS, но часто понятие IBS используют как синоним лже-IBD сегмента)

Если высокий уровень гомозиготности способен разрушать сегменты, не может ли высокий уровень гетерозиготности создавать лже-сегменты? Вообще, насколько протяженными могут быть лже-IBD сегменты, и каково их количество? Понятно, что идеально гетерозиготный генотип (то есть несущий оба аллеля для каждого снипа) будет совпадать на уровне «родитель-ребенок» с любым человеком (в реальной жизни его возникновение невозможно, разве что искусственным путем). Также понятно, что по теории вероятностей между любыми двумя людьми будут возникать микро»сегменты» из случайно совпавших снипов. Насколько протяженными они могут быть?

Для начала я решил попробовать оценить уровень гомозиготности в используемом мной для IBD-карт наборе выборок. Для сравнения туда же добавлено несколько древних геномов (они выделены жирным шрифтом). «Усть-ишимец» пока выложен лишь до 8 хромосомы, это составляет около половины протяженности аутосом по количеству снипов. Используется набор из примерно 255 тысяч снипов, на другом наборе результаты должны отличаться. Показан усредненный по выборке процент снипов от общего числа, где оба аллеля совпадают.

Уровень гомозиготности по выборке:

Nogay 65,49%
BR2 65,61%
Tatar-Kazan 65,65%
Azerbaijani 65,66%
Tatar-Crimean 65,67%
Kumyk 65,71%
Bashkir 65,74%
Balkarian 65,78%
Komi 65,88%
Tadjik 65,92%
Turkmen 65,95%
Uzbek 66,00%
Uygur 66,00%
Greek_Azov 66,01%
Ossetian 66,01%
Ashkenazi 66,03%
Croatian 66,05%
Chuvash 66,08%
Iranian 66,09%
Lezgin 66,10%
German-Austrian 66,13%
Armenian 66,13%
Bulgarian 66,13%
Belarusian 66,13%
Russian-South 66,14%
Abkhazian 66,15%
Turkish 66,15%
Romanian 66,16%
Russian-North 66,17%
Greek 66,17%
Swedish 66,19%
Erzya 66,19%
Chechen 66,20%
Moksha 66,21%
Ukrainian-East-and-Center 66,21%
Georgian 66,22%
Hungarian 66,23%
Udmurt 66,25%
Sephard 66,27%
Italian 66,29%
Kazah 66,29%
Tatar_Lithuanian 66,30%
Ukrainian-West-and-Center 66,31%
Finnish 66,33%
Mari 66,33%
Polish 66,34%
Adygei 66,35%
Norwegian 66,35%
French 66,36%
Russian-West 66,37%
Estonian 66,42%
UstIshim 66,44%
Karelian 66,45%
Balt 66,46%
Veps 66,50%
British 66,51%
Mansi 66,60%
Kirgiz 66,79%
Basque 67,02%
LBK 67,08%
Sardinian 67,08%
Hakas 67,33%
Altaian 67,33%
Saami 67,55%
Mongol 67,56%
Shor 67,63%
Tuvinian 68,08%
Dolgan 68,24%
Buryat 68,48%
Selkup 68,49%
Ket 68,54%
Xibo 68,54%
Mongola 68,63%
Yakut 68,98%
Daur 69,11%
Han-North 69,14%
Nivh 69,25%
Evenk 69,32%
Hezhen 69,34%
Oroqen 69,39%
Nganassan 70,37%
Even 70,62%
Loschbour 73,79%
Motala12 90,19%
Malta-1 94,41%

Выборкой с наибольшим аутосомным разнообразием (наименьшей гомозиготностью)  оказались кубанские ногайцы, что совершенно не удивляет в связи с их смешанным происхождением. Многие другие народы из начала списка также известны своей смешанностью. Любопытно, что близки к началу и ашкенази, хотя я ожидал от них, наоборот, большего однообразия. Видимо, здесь проявляется их происхождение от двух различающихся групп — ближневосточников и европейцев.

Большая часть списка расположилась в промежутке 66-67% , в том числе и усть-ишимец. Несмотря на более свежий вклад неандертальцев и близость к общему корню, по уровню разнообразия он оказался таким же, как и наши современники. Либо здесь сказываются сложности с расшифровкой столь древнего генома, либо аутосомное разнообразие с тех времен поддерживалось на примерно одном уровне — вымывание одних снипов сопровождалось появлением новых.

Самым низким уровень разнообразия оказался у народов Сибири (где мы явно видим результат генного дрейфа) и китайцев (след быстрого расширения?). В Европе хуже всего с разнообразием оказалось у народов-изолятов — басков и сардинцев. Геном охотника-собирателя Loschbour, скорее всего, прочитан со средним качеством — похоже, это и было причиной того, что в предыдущей заметке у него оказалось меньше общих сегментов с нашими современниками, чем у «фермера» LBK, а вовсе не вымирание его народа.

Таким образом, за базовый уровень гомозиготности можно смело принять 66,6%, то есть 2/3 снипов из используемого мной набора у среднего европейца гомозиготны. Попробуем сделать оценку длины и количества лже-сегментов. Очевидно, что на гетерозиготных участках сегмент разорваться не может. Таким образом, вероятность разрыва на отдельно взятом снипе уже падает до 2/32/3=44,36% . (это оценка вероятности, что у обоих сравниваемых геномов выбранный снип гомозиготен. К сожалению, для упрощения модели пришлось использовать предположение, что для каждого снипа вероятность гетерозиготности примерно одинакова, в то время как в реальности это должно быть не так). Далее, если на гомозиготном участке у обоих геномов сравниваемый аллель один и тот же, то разрыва сегмента также не произойдет. Возьмем для простоты вероятность минорного варианта снипа как 1/6 (вероятность гетерозиготности на снипе 1/3, минорным мог быть либо первый, либо второй аллель, значит, делим вероятность пополам. В реальности надо считать сложнее, но для оценки подойдет). К разрыву могут привести два варианта — в первом геноме мажорный вариант снипа, во втором минорный — вероятность 5/61/6=5/36, и наоборот — в первом минорный, во втором мажорный вероятность такая же. Для получения итоговой вероятности разрыва сегмента на один снип мы умножаем 44,36% на (5/36+5/36) и получаем 12,32% вероятность разрыва лже-сегмента на любом случайно выбранном снипе.

Да уж, есть где запутаться ))) Надеюсь, я все же нигде сильно не ошибся и оценка близка к истине ))

Исходя из вероятности разрыва 12,32% на снип, лже-сегмент будет иметь кумулятивную, то есть накопленную вероятность разрыва 50% при прохождении 5-6 снипов (это медиана). Значит, половина лже-сегментов будет короче этого числа, половина-длиннее. Кумулятивная вероятность разрыва растет в 10 раз каждые 17-18 снипов — 90% лже-сегментов будут короче 18 снипов, 99% — короче 37,  99,9%-54 и так далее. Так как медианное значение при нормальном распределении обычно составляет около 0,7 от среднего, средняя длина лже-сегмента оценивается в 7,5 снипов. На 245 тысяч снипов будет приходиться 32 тысячи сегментов, а на 1130 геномов из используемых выборок — в общей сложности около 36 с половиной миллионов.

Из них около трех с половиной тысяч будут иметь длину не менее 72 снипа, около 36 — 107 снипов, а чтобы гарантированно снизить число лже-сегментов до нуля, нужно установить фильтр в районе 130-140 снипов. Что интересно, примерно на те же цифры я вышел экспериментальным путем, пробуя различные настройки. Оптимальным мне показалось отбрасывать все сегменты с длиной менее, чем 150 снипов. Теория неплохо сошлась с практикой.

Итак, лже-УПСы (участки половинного совпадения), возникшие по статистическим причинам, не должны оказывать особого влияния на IBD-сегменты. Подавляющее большинство из них по длине не превышает несколько десятков снипов (лишь примерно каждый тысячный преодолевает рубеж 50-60 снипов). Разумеется, из-за их наличия реально существующие сегменты неизбежно удлиняются, однако принципиально исказить картину это не может. Конечно, такие причины, как поддержка отбором и искажения, вызванные неточностью генетических карт, остаются в силе. Возможны и другие причины — загадка наличия значимых сегментов с палеоДНК продолжает требовать объяснения.

При ослаблении фильтра до 50 снипов, как в случае с мальтинцем, лже-УПСы уже должны стать заметными. Неудивительно, что при нормальных настройках значимых сегментов почти не получалось — уровень гомозиготности оказался весьма велик.

В заключение приведу график зависимости вероятности разрыва лже-сегмента от уровня гомозиготности в популяции при использовании той же формулы. Как уже писалось, идеально гетерозиготный геном не будет иметь разрывов вообще. Но и в идеально гомозиготной выборке разрывов не будет, ведь аллели у всех совпадают! Что же происходит в промежутке между этими двумя крайностями? Как выяснилось, максимальна вероятность разрыва лже-сегмента при уровне гомозиготности около 70%, что близко к реально существующему уровню. При больших значениях длина лже-сегментов начинает быстро расти из-за того, что все слишком похожи между собой, при меньших — из-за того, что на гетерозиготных снипах сегмент порваться не способен. Уровни ниже 0,45 я убрал из-за их явной нереалистичности. Как можно догадаться, там график движется к нулю.

HZ

Сравнение двух древних европейцев и одного сибиряка с выборками из современных народов методом поиска общих аутосомных сегментов

За последние годы был опубликован ряд работ, посвященных попыткам генотипирования останков древних людей — от живших несколько тысячелетий назад до «усть-ишимца» с предположительным возрастом около 45 тысяч лет, неандертальцев и «денисовки». Количество таких расшифровок растет все быстрее, что не может не вызывать оптимизма.  Трудами известного геномного блоггера Феликса Чандракумара большинство из них было переведено в простой и доступный формат, аналогичный файлам raw data от FTDNA и 23andMe.

Ради интереса я попробовал проверить геномы (предположительно, это два «бритта» железного века и три «англа», «сакса» или «юта» времен переселения этих племен в Британию) из одной из таких недавних работ на наличие IBD-сегментов с современными выборками. Ничего особенного от этой попытки я не ожидал, но результат все равно разочаровал. Никаких связей с современными германцами или кельтами, лишь короткие обрывки сегментов с северо-восточными европейцами.

Как выяснилось, большинство из имеющихся сейчас древних геномов совершенно не годится для такого рода анализа. Основная причина — крайне низкое качество генотипирования. Количество снипов и прочтений на один снип невелико, и подавляющее большинство из них гомозиготно (то есть второй аллель не прочитан). А это значит, что практически все IBD-сегменты разрушены и мы можем увидеть лишь самый базовый и древний уровень родства. В терминах этнокалькуляторов на основе Admixture это оказался (в данном случае) «северо-восточноевропейский» предковый компонент, который наиболее ярко проявляется у народов восточной Балтики — с ними и нашлось наибольшее количество обрывков.

Тем не менее, не все так плохо. Можно выделить известную работу Иосифа Лазаридиса с коллегами о трех предковых популяциях современных европейцев. Геномы европейского раннего земледельца культуры линейно-ленточной керамики (образец Stuttgart, или LBK. Около 7500 лет назад) и почти синхронного ему охотника-собирателя, останки которого найдены на территории нынешнего Люксембурга (Loschbour, около 8000 лет назад) прочитаны очень качественно и почти не уступают файлам от 23andMe и FTDNA.

Карта сумм общих сегментов древнего земледельца с современными выборками:

LBKIBD

С заметным отрывом от остальных лидируют жители острова Сардиния, считающиеся сохранившимися в наиболее чистом виде потомками когда-то переселившихся в Европу земледельцев Восточного Средиземноморья. За ними следуют другие южноевропейские популяции (включая ашкенази и сефардов), скандинавы и восточноевропейцы.

Sardinian 61,06 —//Confidence: very high
Italian 50,14 —//Confidence: very high
French 49,56 —//Confidence: very high
Bulgarian 48,9 —//Confidence: high
Hungarian 48,29 —//Confidence: very high
Basque 45,92 —//Confidence: very high
Greek 45,7 —//Confidence: very high
Norwegian 44,95 —//Confidence: high
Ashkenazi 44,04 —//Confidence: high
Sephard 43,52 —//Confidence: high
Croatian 42,23 —//Confidence: very high
Belarusian 42,12 —//Confidence: high
Swedish 41,86 —//Confidence: high
German-Austrian 41,33 —//Confidence: very low
British 41,2 —//Confidence: very high
Russian-South 40,7 —//Confidence: very high
Balt 40,38 —//Confidence: high
Greek_Azov 39,61 —//Confidence: low
Ukrainian-East-and-Center 39,49 —//Confidence: medium
Estonian 39,27 —//Confidence: high

Наличие общих сегментов с этими народами можно объяснять и миграциями потомков земледельцев на север, и ассимиляцией «земледельцами» «охотников» при продвижении вглубь Европы. Думается, для южных европейцев более актуальна первая причина, для восточных вторая, скандинавы где-то посередине.

Все это не новость, хотя мне понравилось подтверждение работоспособности метода. Более интересным мне показался «язык», протянувшийся на восток — через Кавказ и Среднюю Азию до самой Монголии. Забегая вперед, скажу, что у «охотника» Loschbour такого не наблюдается. Чем может объясняться эта связь? Приток генов с Востока к предкам «штутгартца»? Или же наоборот, его родственники, переселившиеся на восток, оставили свой след в геноме монголов? Для проверки я решил использовать один из этнокалькуляторов, разработанных до появления образца LBK в открытом доступе. При разработке более поздних он был использован как европеец и мог исказить картину.

LBK

Как видите, никаких следов Восточной Азии — чистый средиземноморец. Так что совсем не исключено, что на востоке мы здесь видим следы, к примеру, афанасьевцев.

«Охотник» Loschbour не показал такого яркого сходства ни с одной из современных выборок. Можно предположить, что его племя не оставило дожившего до наших дней потомства, или же оставило мало. Тем не менее, очень хорошо видно, кто из наших современников в наибольшей степени родственен древнему охотнику — это восточноевропейцы с максимумом на восточном побережье Балтийского моря

LoschbourIBD

Finnish 41,21 —//Confidence: very low
Estonian 39,63 —//Confidence: high
Balt 37,85 —//Confidence: high
Russian-North 36,25 —//Confidence: very high
Belarusian 35,31 —//Confidence: high
Karelian 35,21 —//Confidence: high
Veps 34,75 —//Confidence: medium
Ukrainian-West-and-Center 34,48 —//Confidence: medium
Polish 33,8 —//Confidence: high
Norwegian 32,34 —//Confidence: high
German-Austrian 31,4 —//Confidence: very low
Russian-South 30,87 —//Confidence: very high
Russian-West 30,73 —//Confidence: medium
Erzya 30,19 —//Confidence: medium
Saami 30,12 —//Confidence: high
Swedish 29,78 —//Confidence: high
Hungarian 28,55 —//Confidence: very high
Ukrainian-East-and-Center 28,54 —//Confidence: medium
Croatian 27,31 —//Confidence: very high
Komi 26,48 —//Confidence: high

Образец Loschbour в том же этнокалькуляторе MDLP K5:

Loschbour

Для визуализации разницы между «охотником» и «земледельцем» я нормировал значения первого путем умножения на 1.5. Красный цвет означает большее родство с Loschbour, зеленый — LBK. Бурый, как у удмуртов, эвенков или китайцев — нейтрален.

LminusLBKIBD

Но что же наш третий источник наследственности европейцев, аутосомный компонент Ancestral North Eurasian, полученный при генотипировании останков мальчика с сибирской палеолитической стоянки Мальта? К сожалению, его геном расшифрован не так хорошо по сравнению с двумя предыдущими. Это и неудивительно — оценочный возраст мальтинца втрое больше, около 24 тысяч лет. К тому же за это время и количество сегментов, дошедших до наших современников, должно заметно упасть. Поэтому поиск общих сегментов со стандартными настройками дал весьма невразумительную картину. Пришлось резко ослабить настройки фильтра — вместо минимального размера сегмента в 15о снипов (из примерно 200 тысяч) до 50, и вместо минимальной длины сегмента в 3 сМ до 2. После этого алгоритм смог кое-что уловить:

MaltaIBD

Итак, наиболее родственным мальтинцу народом среди наших современников получились удмурты. Вспоминается, что этот народ является одним из чемпионов по наличию Y-гаплогруппы N, пришедшей в Европу с востока. Впрочем, дело тут может быть совсем в другом.

Конечно, уровень погрешности здесь еще выше, чем в предыдущих случаях, но тем не менее, картина вырисовывается довольно отчетливо и неплохо коррелирует с распространением компонента ANE.

Сборный образец «древнего скандинава» Motala1-2 не показал столь же отчетливой картины, как Loschbour и LBK. Видимо, дело в том, что он получен в результате объединения данных из разных наиболее качественно прочитанных геномов. При ослаблении настроек фильтра аналогично мальтинцу получается весьма похожая на Loschbour картина, но более размытая. Не думаю, что есть смысл приводить ее здесь.

Итак, среди современных европейцев можно найти родственников представителей всех трех основных источников (по крайней мере, известных сейчас) их современного генофонда. Насколько реально это родство? Сложно сказать. Конечно, тяжело поверить в сохранение IBD-сегментов на протяжении сотен поколений. С другой стороны, как показало моделирование, мелкие сегменты почти неуничтожимы. А ведь для отрисовки карт используются в основном именно маленькие сегменты в диапазоне 3-4-5 сМ. Возможно, многие из них являются результатом случайного объединения еще более мелких сегментов, или они поддерживаются отбором, или случайно закрепились в популяции. Думаю, что мы в любом случае можем считать этих людей своими родственниками, хотя и не очень близкими ))

Исследование генетики татар Поволжья при помощи анализа на IBD-сегменты

Исследование генетики татар Поволжья при помощи анализа на IBD-сегменты

Не секрет, что под этнонимом «татары» в России зачастую скрываются совершенно разные этнические группы. Существуют татары казанские, астраханские, сибирские, крымские и т.д. В данном исследовании нас интересуют татары среднего Поволжья — казанцы и мишари.

Это достаточно многочисленный и активно тестирующийся народ, неплохо представленный в аутосомных базах 23andMe и FTDNA. По мере роста статистики прогонов татарских генотипов через калькулятор Вадима Веренича К27, я начал впадать в некоторое замешательство. В своем большинстве татары получались довольно близкими друг к другу по соотношению предковых компонентов Admixture. Однако одновременно существовали и различия, где было весьма сложно понять — не результат ли это попросту случайных отклонений? Разделение между казанскими татарами и мишарями проявлялось скорее как тенденция к несколько большим значениям «балто-славянских» и «финских» компонентов у вторых, чем как явный сигнал.

Поэтому при появлении у меня нового инструмента — скрипта, анализирующего наличие общих IBD-сегментов с научными выборками, я не замедлил пропустить через него имеющиеся генотипы татар из коммерческих выборок. Сразу же проявились различия, что позволило сделать вывод — несмотря на сходство татар по пропорциям предковых компонентов, их источники частично различаются.

Чтобы по возможности снизить влияние случайных отклонений, я постарался выделить усреднения по территориально-этническим группам. Наиболее бросающимся в глаза признаком казанских татар оказалось большое количество общих сегментов с марийской и чувашской выборками. Однако это еще не означает, что казанцы разделяют большую часть общих предков с марийцами или чувашами. Дело в том, что эти выборки испытали очень сильный генный дрейф. В результате даже не очень значительное родство с ними проявляется весьма ярко. В прошлой заметке я назвал это «эффект ашкенази», по имени наиболее известного примера. Судя по всему, марийцы и чуваши разделяют заметную часть общих предков, поэтому и «эффект ашкенази» у них общий.

Усреднение по трем казанским татарам из Апастовского района Татарстана:

Tatar-ApastovIBD

Довольно типичная картина — фоновая засветка по Восточной Европе, яркое пятно у марийцев и чувашей и более бледное — у татарской научной выборки. Точный источник татарской выборки мне неизвестен, но сравнительно слабые показатели могут хорошо объясняться большей численностью и генетическим разнообразием татар.

Татары из Тархановского района, 5 человек, выглядят весьма похоже, лишь марийско-чувашское пятно менее яркое:

Tatar-TarhanIBD

Татары из северо-западной части Башкирии, четыре человека. По сравнению с предыдущими выборками, добавилось некоторое влияние удмуртов и башкир:

Tatar-Bash-NWIBD

Насколько же велико может быть количество общих предков татар с чувашами и марийцами? Попробуем сравнить апастовскую выборку с усреднением по трем чувашам:

ChuvashIBD

В калькуляторах на базе Admixture у чувашей ярко проявляется «уральский» компонент, и здесь мы хорошо видим его распространение — от саами до манси. Уровень пересечения с чувашской выборкой при моих типичных настройках — 115 сМ. Примерно такой же уровень получился у марийца (отличие от чувашей — в более высоком пересечении с марийской выборкой). При этом у людей с наполовину марийским или чувашским происхождением этот показатель составил чуть меньше 80. У апастовской выборки — 67. Можно сделать прикидку, что при недавнем адмиксе это соответствовало бы примерно 1/3 общих предков. Однако если эти предки жили давно, когда дрейф проявился еще не так сильно, их доля могла быть выше. Таким образом, оценкой снизу будет 30%. Провести оценку сверху поможет упоминавшийся «уральский» компонент. При калибровке К27 его содержание у чувашей получилось равным 19, усреднение по татарам из апастовской выборки —  около 9. Таким образом, даже если все не пересекающиеся с чувашами предки были из популяций с нулевым содержанием этого компонента (что малореально), вклад чувашей не мог быть выше 50%. Думаю, что наиболее реалистичным вариантом будет все же 1/3.

Разумеется, существует еще вариант, что чуваши получили «уральский» компонент уже после разделения с татарами. Тогда количество общих предков может быть и гораздо большим. Однако этому варианту скорее соответствует некий более древний уровень родства, чем рассматриваемые здесь исторические времена.

Я попробовал подсчитать, исходя из предположения, что «чувашские» компоненты составили 1/3 наследственности татар, на что могли быть похожи оставшиеся 2/3 по К27. В одиночном режиме результат оказался непохожим ни на один народ, кроме самих татар. В режиме смеси комбинации тоже показались на первый взгляд очень странными, однако, как мы позже увидим, кое-какой смысл в них был:

Using 2 populations approximation:
1 Nogay_D+Russian_Novgorod_D @ 6,174824

Using 3 populations approximation:
1 50% Russian_North_R8 +25% Kazakh_R2 +25% Romanian_D @ 3,826868

2 50% Russian_North_R8 +25% Bulgarian_S14 +25% Kazakh_R2 @ 4,087314

У меня не нашлось полноценной мишарской выборки из районов за пределами Татарстана и Башкирии, поэтому пришлось объединить три образца, получившиеся похожими и по IBD-картографу, и по предковым компонентам в калькуляторе Вадима Веренича. Первый происходит из мишарей Нижегородской области, второй — из пензенских мишарей, третий — из служилых татар Самарской области.

Mishar-NPSIBD

Как мы можем видеть, здесь не только нет «марийского» пятна, но даже наоборот — на этом месте показано уменьшение количества общих сегментов по сравнению с соседними популяциями. Родство с чувашами имеется, однако, очевидно, идет по другой линии предков чувашей, не совпадающей с предками марийцев. Наиболее же сильно выделяются эрзяне. Как и в случае родства казанских татар с чувашами, это вовсе не говорит об определяющем вкладе эрзян в генетику мишарей. Нижний предел я бы оценил аналогичным предыдущему случаю методом примерно в 20-25%. Что касается верхнего ограничителя, тут сложнее из-за отсутствия специфического «эрзянского» компонента Admixture. Если ориентироваться на общий восточноевропейский компонент Balto-Slavic, то он ограничивает максимальный уровень примерно 70-80 процентами. Вполне возможно, что предками мишарей были не сами эрзяне или мокшане, а родственная им соседняя популяция — это дополнительно затрудняет оценку.

Для сравнения, эрзянская выборка, пять человек:

ErzyaIBD

Мишари из Дрожжановского района Татарстана, три человека:

Mishar-DrozzhIBD

Картина схожа с предыдущей мишарской выборкой, однако у марийцев уже нет провала. Возможно, это связано с близостью к Чувашии, возможно — с влиянием казанских татар.

Выборка мишарей из Башкирии получилась ближе к казанскому варианту. Это может объясняться спецификой именно данной выборки, либо различиями между мишарями в целом. Придумать объяснений можно много, но думаю, здесь нет смысла в них вдаваться.

Mishar-BashkIBD

Итак, для каждого из народов (или, при другом подходе, субэтносов), мы видим на картах один из предковых источников. Однако попытка вывести оставшиеся источники методом пересчета предковых компонентов оказалась малоудачной. Чтобы решить эту проблему, я попробовал визуализировать разницу с первым источником. На карте приведена разница между первой («сборной») мишарской выборкой и эрзянами, для контрастности умноженная на три:

MNPSminusErzyaIBD

Зеленые тона показывают выборки, более близкие эрзянам, красно-бурые — мишарской выборке. Промежуточные варианты одинаково близки и тем, и другим. Максимум разницы в пользу мишарей достигается из крупных выборок у бурят и тувинцев, что очень хорошо совпадает с недавней работой по генетическим следам тюркской экспансии . Немногим отстают от них и башкиры с казахами. Интересно, что кавказские выборки, за исключением ногайцев и балкарцев (наличие в этой компании армян остается загадкой )) ), получились несколько ближе к эрзянам, что говорит против теории о связи мишарей с Кавказом (либо она каким-то образом идет через эрзяноподобную сторону). Пятно у вепсов, думаю, тоже что-то означает, поскольку в слабом виде видно у многих татар. Однако это может быть и следствием более высокого уровня дрейфа у вепсов по сравнению с соседями.

При построении аналогичной карты для пары казанцы/чуваши в качестве базовой выборки я выбрал апастовскую. Башкирские по понятным причинам не могут служить типичным образцом, а тархановская демонстрирует тенденцию сдвига к мишарям. К тому же наиболее родственная чувашам выборка может выявить отличия с ними более показательно.

TAminusChuvashIBD

Зеленая зона вдоль северной части Сибири объясняется более высоким уровнем родства с этими народами у чувашей, чем у татар (все тот же уральский компонент). Родство с народами степной полосы и возможной тюркской прародины находится на примерно одном уровне у «чувашской» и «нечувашской» части генома казанских татар. Родство же с выборками Средней Азии, Кавказа, Средиземноморья — выше. Вероятно, средиземноморскими же пересечениями объясняется повышенный уровень общих сегментов с ашкенази (не забываем, что это число надо делить в разы из-за ашкенази-эффекта). Примерно такого же уровня пятно с крымскими татарами выглядит бледнее из-за небольшой площади полуострова. Интересно также пересечение с болгарами. Не думал, что их тюркский компонент проявится настолько заметно. Впрочем, возможно, это объясняется турецкими или татарскими вливаниями, а не древними булгарами. Ну и обращает на себя внимание знакомое пятно у вепсов и эстонцев.

А теперь вспомним еще раз раскладку при попытке реконструкции «нечувашской» части на базе К27:

2 50% Russian_North_R8 +25% Bulgarian_S14 +25% Kazakh_R2 @ 4,087314

Неправильно, однако уже не так странно, как казалось вначале.

Не следует думать, что перечисленные популяции составляют 2/3 наследственности казанских татар (раз уж 1/3 мы оцениваем вклад «чувашской» стороны). Более вероятным кажется вариант, когда заметную часть от этих 2/3 занимает некая нейтральная по отношению к чувашам популяция, у которой уровень IBD сегментов с другими уральцами и восточноевропейцами был близок к ней. Из-за нейтральности она плохо выделяется на картах IBD-разности, однако калькуляторы на базе Admixture показывают — вклад пришельцев с далекого Юга или Востока не мог быть определяющим. Возможно, именно на эту популяцию намекают «вепсско-эстонское» и «южно-русское» пятна.

В завершение я хочу привести карту разницы между мишарями и казанцами:

MNPSminusTAIBD

С казанской стороны мы видим знакомые марийско-чувашское и крымско-татарское пятна, а также, слегка неожиданно, но не удивительно, азербайджанское (с расширением вдоль Южного Каспия). С мишарской стороны знакомые эрзяне, неожиданно выделилась территория ВКЛ (какие-то вливания оттуда в геном мишарей?), и, по совсем непонятной причине, выборка коми. Родство с азиатскими выборками идет с некоторым перевесом в пользу казанцев, особенно в «зоне марийско-чувашского влияния».

Аналогично примечанию к предыдущей карте, не следует забывать — здесь показана разница. Нейтральная общность может быть велика, но не видна этим методом.

Визуализация количества общих (IBD) сегментов — часть вторая

Обзор волжско-уральских популяций я хочу начать несколько издалека — с карты для селькупа из селения парабель Томской области. В какой-то мере он служит той же цели, что и литовец в предыдущей части:

Selkup-ParabelIBD

Пересечение с соседями по западной Сибири зашкаливает, как и положено для небольших групп с высоким уровнем генного дрейфа. Однако интересно не это, а выбросы на запад — к башкирам, удмуртам, марийцам. чувашам. Видно и повышение у саами. Таким образом, здесь мы наблюдаем распространение «уральского» генетического компонента.

Очень специфичной популяцией являются и марийцы. Уровень «эффекта ашкенази» получился намного выше, чем у самих ашкенази. Таким образом, все народы, имеющие хоть в сколько-нибудь заметной степени общих предков с марийцами, хорошо видны на карте:

MariIBD

В первую очередь это чуваши, сильно влияние у выборки казанских татар, удмуртов, манси и башкир. Вот это и есть «волжско-уральский круг популяций». Интересно, что коми и удмурты оказались в разных категориях, несмотря на языковое родство. Впрочем. как видно по карте коми-зырянина в предыдущей части, есть между ними и генетические пересечения.

100% чуваша из коммерческих выборок у меня нет, однако человек наполовину чувашского происхождения проявляет сходство как с чувашами, так и с марийцами. В отличие от предыдущей карты, чуваши у него на первом месте (это видно в таблице, поскольку картограф обрезал оба зашкаливающих значения до допустимого максимума) :

Chuvash-MokshaIBD

А вот нижегородские мишари более уместно смотрелись бы в предыдущей части заметки:

Mishar-NizhniyIBD

Родство с балто-славяно-финским кругом популяций явно более выражено. чем с волжско-уральским.

Татарин смешанного казанско-мишарского происхождения, южная часть Татарстана:

Tatar-SamaraIBD

Еще раз напомню — неправомерно на основании наиболее яркого пятна у марийцев говорить, что этот человек наиболее близок марийцам. Наличие общих предков с этим народом проявляется в разы ярче из-за «ашкенази-эффекта». То, что татарско-казанская выборка гораздо бледнее, объясняется тем, что татары — более крупный народ с высоким генетическим разнообразием.

Татарин с Урала (часть предков-башкиры):

Tatar-Bashkir-UralIBD

Как ни странно, я не просчитал ни одного «классического» казанского татарина, увлекшись краевыми случаями. Возможно, у него казанская выборка оказалась бы ярче. Эту задачу оставим на будущее.

Башкир:

BashkirIBD

Интересно продление пятна на северо-восток, к уральским народам вплоть до юкагиров.

У сибирского татарина видна общность с селькупами и марийцами. Вспоминая яркость на карте парабельского селькупа, степень этой общности не так уж и велика. Виден и вклад из монгольских степей.

Tatar-SiberianIBD

Неожиданно, у казаха количество общих сегментов с восточносибирскими популяциями оказалось выше, чем с собственно казахской выборкой:

KazahIBD

На ум приходят два объяснения — гетерогенность казахов и более высокий уровень «ашкенази-эффекта» у восточносибирских народов. Впрочем, я недостаточно владею информацией по этногеномике казахов, чтобы строить предположения.

Результаты казаха замыкают мое исследование. Не скажу, что в его результате я открыл для себя что-то сильно новое и неожиданное, однако общая картина стала более понятной и наглядной. Эксперимент мне понравился.

Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии

Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии.

Этнокалькуляторы на базе Admixture, представляющие результат «просчета» генома испытуемого в виде смеси предковых компонентов, достигли уже очень хорошей точности. Однако у них есть и определенные недостатки. Во-первых, случается, что у двух разных народов пропорции смешения этих компонентов довольно близки, хотя близкого родства между ними не наблюдается. Обычно для исключения такого эффекта увеличивают число компонентов, то есть повышают детализацию. Однако при этом зачастую возрастает и «шумность», случайные отклонения от ожидаемых значений. Кроме того, бывает тяжело понять — смешение произошло в предыдущем поколении, или тысячу лет назад? Если человек происходит из двух отдаленных народов, он часто позиционируется в географической точке, находящейся между ними, и непохож ни на один из родительских народов. При более сложносоставном происхождении все запутывается еще сильнее.

Нет ли метода напрямую измерить уровень родства отдельного человека с той или иной популяцией? При такой постановке вопроса сразу приходит на ум один из возможных ответов — необходимо просчитать количество IBD (то есть идентичных благодаря общности происхождения) аутосомных сегментов. Такой подход уже реализован в утилите от 23andMe под названием Countries of Ancestry, однако с рядом заметных недочетов. Используются результаты опроса пользователей сервиса о стране их происхождения, при этом непонятно, каков размер выборки от каждой страны. Да и детализация уровня «страна» для жителей России явно не подходит — зачем мешать в одну кучу карел, осетинов и якутов.

К счастью, эти проблемы можно частично устранить, используя научные выборки (либо коммерческие, однако набрать подобный объем из коммерческих выборок мне сейчас не по силам). С удешевлением процесса генотипирования количество имеющихся в открытом доступе выборок начало быстро расти. В первую очередь я использовал выборки, выложенные на сервере Эстонского биоцентра . Они стали основой. Часть пробелов была заполнена выборками из недавней работы Hellenthal , их пришлось переконвертировать из build 36 в build 37. Отдельное спасибо Вадиму Вереничу за помощь с несколькими выборками, хорошо увеличившими охват этнокарты.

Главной сложностью в работе оказалось сведение геномов из всех источников вместе. В каждой научной работе использовался свой набор снипов, часто с разной ориентацией. Коммерческие выборки тоже неоднородны — например, в FTDNA, как оказалось, существует четыре варианта файлов raw data со слегка отличающимся набором снипов и разной ориентацией примерно трех сотен из них. Добавьте к этому два варианта выравнивания и трансферы из 23andMe (у которой нашлись свои заморочки, например, дублирование одних и тех же снипов под разными названиями).

Конечно, хотелось использовать как можно большее количество снипов. Однако после ряда попыток придумать коэффициенты пересчета и прочее, стало понятно, что это методологически неверно. Пришлось оставить лишь те снипы, которые присутствовали во всех используемых выборках, в стандарте FTDNA, а также на чипе v3 от 23andMe. Вероятно, в будущем придется включить в просчет и новый, четвертый чип от этой компании, однако пока я решил с ним не связываться. В общем итоге осталось около 244 тысяч снипов — не так уж мало, я опасался худшего. От покрытия FTDNA это составляет чуть больше трети.

Компания FTDNA и сервис Gedmatch используют для фильтрации общих сегментов критерий наличия не менее 700 снипов. Однако для мелких сегментов он выполняется не так уж часто (из-за чего у клиентов FTDNA возникает иллюзия сравнительно небольшого количества таких сегментов). Поэкспериментировав, я остановился на рубеже в 150 снипов — менее него количество сегментов, являющихся статистическими артефактами, начало быстро расти. Основным показателем для отрисовки на этнокарте я взял общую сумму сегментов длиной более 3 сМ. Конечно, более длинные сегменты являются более четким показателем родства, однако их заметно меньше. А это значит, что их количество более подвержено случайным отклонениям. С другой стороны, более мелкие сегменты сливаются в общую кашу. Таким образом, выбранный критерий является компромиссом. При увеличении объема выборок на порядки станет возможно использовать только длинные сегменты и улавливать родство более четко.

Метод дает релевантные результаты при сравнении с выборками свыше 10 человек. Чем меньше размер выборки, тем сильнее влияние случайных отклонений. Из-за этого часть выборок я объединил вместе (например, литовцы и латыши стали балтами), часть исключил с карты. Однако некоторые все же пришлось оставить — в первую очередь это финны (2 человека), западные украинцы (6), башкиры (6) и австрийцы (4). Если для какой-то популяции значения явно выпадают из ряда соседей, всегда обращайте внимание на размер выборки, приведенный в сопроводительной таблице.

Одновременно достоинством и недостатком метода является сильное влияние «эффекта основателя», «множественного родства», «бутылочных горлышек» и т.д. За этим перечислением скрывается примерно одно и то же — когда популяция происходит от сравнительно небольшой группы людей, ее члены разделяют между собой большое количество общих сегментов. Наиболее известным примером являются евреи-ашкенази — достаточно иметь одного отдаленного предка из этого народа, чтобы получить множество генетических «кузенов». Таким образом, родство с народом, подвергшемуся такому эффекту, видно более четко. Но это же искажает общую картину — одинаковое количество генетических пересечений может означать совершенно разную степень близости в зависимости от истории популяции.

Я сравнил 26 человек из коммерческих выборок, представляющие различные популяции интересующих меня регионов, с набором из 1130 геномов, взятых из научных выборок. Результаты сведены в таблицу и частично визуализированы на картах. При интерпретации помните о вышеперечисленных искажениях!

Начнем с представителя народа, считающегося наиболее архетипичными восточноевропейцами в большинстве этнокалькуляторов. Это литовцы (картинка увеличивается по клику):

 

LithuanianIBD

Как видно, литовец оправдывает это звание и по количеству общих сегментов. Красное пятно закрывает большую часть Восточной Европы, в том числе и балтийских финнов. Условно говоря, на этой карте мы видим некий «базовый уровень родства» среди восточноевропейцев.

Пятно восточного финна практически совпадает по форме, однако распределение интенсивности иное:

Finnish-EastIBD

Я бы сказал, что в основном это более частный и специфичный вариант того же, что мы видим у литовца. Доказательством может служить высокий уровень пересечения с балтской выборкой. В то же время, существует и финская специфика, например, пересечение с саами, которые у литовца довольно бледные. Более яркое и пересечение со шведами. Скорее всего, здесь мы видим результат включения в состав шведов финского субстрата, поскольку с теми же норвежцами интенсивность явно ниже.

Крайней западной точкой у нас будет представитель российских немцев. На этнокалькуляторах Admixture он получается достаточно типичным представителем немецкого народа, поэтому версию о заметном влиянии на его наследственность русских можно исключить.

German_RussiaIBD

К сожалению, немецкой выборки у меня нет, поэтому Германия закрашена серым. Некоторым заменителем является Швеция, которая чуть ярче соседей. К некоторому  удивлению, французы и британцы не показали заметной общности с немцем, хотя ее уровень все же выше средневосточноевропейского. Частично это может объясняться тем, что в британской выборке лишь семь человек из 23 — англичане, остальные являются ирландцами. шотландцами и валлийцами. Пятно у восточных украинцев и южных русских также загадочно — неужели это след знаменитых готов?

Невозможно исследовать генетическое разнообразие восточноевропейцев и обойти при этом ашкенази. Поэтому я позволил себе небольшую некорректность и разместил их на карте в районе нынешней Одессы. Картинка для ашкенази из коммерческой выборки:

AshkenaziIBD

Ожидаемое ярко-красное пятно сходства с родной популяцией, остальные все довольно далеко (на втором месте получилась выборка сефардов, но ее на карте нет). Повышение у басков и греков показывает родство ашкенази со средиземноморскими популяциями, пятно у восточных украинцев и белорусов объяснимо длительным совместным проживанием.

Перейдем к восточным славянам. Небольшой размер выборки западных украинцев не помешал им оказаться на первом месте у карпатского русина:

Carpathian_RusinIBD

Пятна на остальной территории получились довольно неровными. Я бы не стал делать из этого каких-то глубоких выводов о древних пересечениях карпатцев и финнов или эрзян.

Северо-восточная Беларусь:

BelarusianIBD

Украина (Полтава):

Ukrainian-PoltavaIBD

Обращает на себя внимание пересечение с поляками.

Человек смешанного происхождения — донские казаки и украинцы:

RuUa-CossackIBD

Тверь-Рязань:

Russian-CenterIBD

Как видно, балто-славянская общность улавливается всегда, в то время как более тонкие различия частично видны, частично скрываются шумом (случайными отклонениями).

Представители эрзи и мокши явно в своей основе близки балто-славянам. При этом балтийские финны никак не выделяются, а народы волго-уральского региона уже довольно далеки. Все это не является новостью для интересующихся темой людей, однако независимое подтверждение результатов показывает действенность методики.

Эрзя:

ErzyaIBD

Мокша:

MokshaIBD

Мокшанская выборка не помещена на карту из-за своего маленького размера (давала слишком большие случайные отклонения). У мокши «родная» выборка получилась заметно ближе эрзянской, у эрзи, соответственно, наоборот. Вероятно, это значит, что, несмотря на родственность двух групп, различие между ними с точки зрения разделяемой популяционной истории существенно (простыми словами, женились преимущественно внутри своего народа).

У северного русского видно родство как с балто-славянскими выборками, так и с балтийскими финнами:

Russian-NorthIBD

Наряду с этим, у русского из Пермского края ощущается влияние коми. Вероятно, с этим же связано и приближение других народов Урала:

Russian-PermIBD

В то же время, сами коми-зыряне скорее относятся к тому же «балто-славяно-финскому» кругу популяций:

KomiIBD

Чтобы не делать пост бесконечным, карты для народов волжско-уральского региона (в широком смысле) будут приведены в следующей части.

Предварительный обзор нового этнокалькулятора от FTDNA myOrigins

Предварительный обзор нового этнокалькулятора от FTDNA myOrigins (дополнено 06.05)

Сегодня компания FTDNA открыла ограниченный доступ к бета-версии своего нового этнокалькулятора, который должен прийти на смену Population Finder. Необходимость замены старой утилиты давно назрела — предикты, выдаваемые этим инструментом, отличались крайней неточностью, и выглядели откровенно неудачно на фоне продукта основного конкурента — Ancestry Composition от 23andMe.

Видимо, после недавнего фиаско с громким анонсом обновленного дерева Y-DNA, в компании решили проявить разумную осторожность и открыли доступ к новому продукту лишь админам проектов, предупредив, что это закрытый бета-тест. На текущий момент можно видеть результаты лишь примерно половины участников (остальные, вероятно, ждут просчета. К сожалению, в этот список попал и я. Дополнение — как выяснилось, «переносы» из 23andMe все же были просчитаны, но не поставлены ссылки  на результат), однако этого достаточно для предварительной оценки нового инструмента.

Видно, что проделана большая работа, и в целом myOrigins (а именно так решили назвать Population Finder 2.0) выглядит гораздо достойнее своего предшественника. Выделен ряд географических зон, к которым может быть отнесен геном тестируемого, полностью либо частично. Зоны, к которым отнесена хотя бы часть его наследственности, выделяются на карте. Чем выше вклад зоны, тем ярче пятно. Похромосомного режима, как в Ancestry Composition, нет. Впрочем, выделяемые им сегменты часто бывают довольно сомнительными, поэтому я не считаю данный факт недостатком myOrigins. Как и следовало ожидать от компании, ориентированной в первую очередь на покупателей из Северной Америки и Западной Европы, наибольшей детализации подверглась Северо-Западная Европа. Она разделена на три близких между собой зоны — «британскую» Coastal Islands, «франко-германскую» Coastal Plain и «скандинавскую» Northlands.

Насколько хорошо получилось произвести разделение, покажет будущее — я в основном обратил внимание на компоненты, важные для восточноевропейцев. Кстати, возникает ощущение, что названия и кое-что в описании зон взято из другой версии программы, поскольку они зачастую плохо стыкуются с картой. Так, «балто-славянское» пятно названо Trans-Ural Peneplain, однако при этом нарисовано на территории Польши, Белоруссии и Украины. Но я забегаю вперед. Итак, две основные зоны, выделенные для Восточной Европы — это «балто-славянская» Trans-Ural Peneplain и «финская» North Circumpolar. Кроме этого, довольно часто проявляется «восточноазиатский» компонент Asian Northeast. Распределение выглядит разумно — украинцы, белорусы, южные русские преимущественно относятся к «балто-славянской зоне», со сдвигом к северу растет вклад «финской» зоны. «Восточноазиатский» компонент, проявляющийся у северян, не удивляет, а то, что он периодически встречается у украинцев, можно отнести на влияние Степи. Впрочем, конкретные соотношения двух основных восточноевропейских компонентов у некоторых участников вызывают подозрение в заметных случайных отклонениях процентовки. Дополнение — подозрения перешли в уверенность.

Тем большее удивление вызывают результаты некоторых представителей народов Поволжья и Урала. У них «найдены» «британский» и «франко-германский» компоненты, причем процент может доходить до 20. Думаю, причина здесь в отсутствии «уральской» зоны. Судя по описанию, ее роль должен был взять на себя «финский» компонент, якобы доходящий вдоль Полярного Круга до самой Гренландии. Частично ему это удается — видно, что у чувашей, марийцев, татар его много. Однако финны очень своеобразны, и не могут полностью отображать все не-азиатское разнообразие Севера Евразии. Как результат — заметную часть генома уральцев алгоритм не может отнести ни к «финскому», ни к «балто-славянскому» компоненту, при этом видно его европейское происхождение. Подозреваю, что такие варианты «на всякий случай» относят к британцам. Логично для алгоритма, рассчитанного в первую очередь на американцев.

Дополнение — как оказалось, «франко-германская» зона довольно часто рисуется и восточным славянам. Видимо, дело здесь не только в отсутствии «уральской» зоны, но и в других особенностях используемого алгоритма. «Британская» зона так и продолжает связываться с «уральцами».

Другие зоны, могущие представлять интерес — «средиземноморская» North Mediterranean, «анатолийско-кавказская» Anatolian Crossroads, «афганско-среднеазиатская» Eurasian Heartland, «америндская» Bering Expansion. Все эти компоненты могут встречаться в небольших количествах у восточноевропейцев, обычно их присутствие вполне оправдано.

На мой взгляд, в целом выделение зон сделано вполне разумно. Основная претензия — отсутствие «уральской» зоны, но честно говоря, сложно ожидать от американской компании внимания к этой тонкости. Излишнее выделение зон в Европе также вполне понятно. Дополнение — к недостаткам я бы отнес и отсутствие варианта «nonspecific» для неопределенных случаев, как сделано в Ancestry Composition. Тогда казусов с неверным разнесением по зонам было бы меньше. На первый взгляд, продукт получился вполне на уровне конкурента, а значит, компания может не беспокоиться еще несколько лет )). После полного просчета результатов всех участников и перехода утилиты в открытый вид мы увидим, действительно ли это так.

Возможна ли оценка вероятного возраста ближайшего общего предка по размеру одиночного аутосомного IBD-сегмента?

В последние годы среди людей, интересующихся генеалогией, приобрели заметную популярность сервисы, производящие поиск генетических родственников по всем линиям, а не только по прямой мужской и прямой женской. В качестве примера можно привести Family Finder от FTDNA и DNA relatives от 23andMe. Участник получает достаточно длинный список так называемых «совпаденцев» — людей, имеющих с ним один или более участок половинного совпадения (УПС) на аутосомах (неполовых хромосомах). Если участок достаточно длинный (а его длина измеряется в сантиморганидах, обозначающих вероятность разрыва участка при каждой передаче в следующее поколение), то это говорит о наличии общего предка (от которого участок и получен).

При этом большинство совпаденцев имеет с вами один, реже два или три одиночных сегмента диапазоном 8-15 или около того сМ. Предсказанная степень родства — от пяти-шести-юродности до неопределенно далекого. Интуитивно кажется, что более вероятно близкое родство, а далекие родственники пришли из так называемого «хвоста распределения» — по теории вероятности, часть сегментов должна сохраниться дольше, чем ожидается.

Так ли это? Поскольку я предполагаю, что придется еще не раз давать ссылку на этот пост людям, ищущим ответа на вопрос о возрасте ближайшего общего предка по одному сегменту, помещу этот ответ в самом начале:

В растущей популяции количество IBD-сегментов размером до 10-20 сМ (верхняя граница зависит от скорости роста) с каждым поколением только увеличивается.

Это значит, что более дальнее родство с совпаденцем из 23andMe или FTDNA вероятнее ближнего (по крайней мере, пока мы не добираемся до предков, живших в эпоху стагнации или уменьшения численности популяции). Грубо говоря, сегменты успевают размножиться быстрее, чем они разрываются.

Этот вывод был для меня неожиданным, однако он отлично согласуется с наблюдаемой практикой. Собственно, то, что большинство подобных сегментов являются весьма древними, было ясно мне и раньше, однако в качестве объяснений приходили на ум различные причины замедления распада (например, высокая гомозиготность в популяции). Инерция мышления не позволяла увидеть процесс в динамике.

Взявшись за решение задачи оценки вероятного возраста общего предка, я решил промоделировать процесс, постаравшись учесть ряд факторов. В модели просчитывается потомство от одного предка на протяжении 10-13 поколений (В зависимости от количества детей на семью. Пойти далее не позволила мощность компьютера). При этом для каждого потомка учитывается его пол (частота рекомбинации различается у мужчин и женщин), случайным образом определяется количество детей и просчитываются общие сегменты с одной, выделенной веткой древа, имитирующей нашу родовую линию. Использовалась генетическая карта от Rutgers University, согласно которой общая длина аутосом составляет примерно 3600 сМ. Для простоты Х-хромосома в моделировании не участвовала. Модель прогонялась 10000 раз, результат усреднялся. Далее для каждого следующего поколения результат умножался на степень двойки, чтобы учесть возрастание количества предков.

Для начала я запустил модель для стабильной популяции — среднее количество детей у каждого человека составляло 2, то есть рост отсутствовал. На графике показано суммарное количество общих с нашей веткой сегментов из каждой размерной категории (но не более 50 сМ) для каждого поколения. Видно, что для многих категорий количество сегментов поначалу увеличивалось, однако постепенно рост сменялся падением.
IBD_Diag01
Дольше всего держалась категория 1-5 сМ, стабилизировавшая свою численность к 12 поколению. Откуда же брался этот рост?
Более мелкие сегменты «подпитывались» распадом крупных. Например, при разрыве сегмента 14 сМ на 6 и 8, мог появиться 8 сМ сегмент (второй исчезал, так как по наследству передавался лишь один). Категория наиболее мелких сегментов при этом находилась на вершине пищевой цепочки, поэтому продержалась дольше всех. Однако к 12 поколению крупных сегментов для ее подпитки просто не осталось. Поэтому в каждом поколении количество сегментов, переданных от конкретного предка, уменьшалось вдвое, однако и количество предков увеличивалось в той же пропорции. Итого — практическая стабилизация численности. Медленный распад сегментов в пределах нескольких процентов на поколение практически незаметен. А вот у более крупных сегментов процесс распада идет быстрее, поэтому их количество заметно снижается. На следующем графике изображена доля, занимаемая по количеству данной категорией сегментов (исключая из общего числа сегменты крупнее 50 сМ). Доля мелких сегментов неизбежно растет с каждым поколением.

IBD_Diag02

Казалось бы, результаты моделирования полностью подтверждают интуитивные представления. Можно рассчитать и наиболее вероятное время жизни общего предка. Например, при наличии сегмента 11-15 сМ медиана находится между 7 и 8 поколением.

Однако следующая модель, предполагающая рост популяции на 25% за поколение (среднее количество детей — 2.5 на человека), дала заметно отличающийся график.

Как видно, с каждым поколением растет не только количество мелких сегментов, но и число сегментов вплоть до категории 20-25 сМ! В предыдущей модели их количество росло лишь до 4 поколения, а далее начало снижаться. Я попробовал проверить модель независимым расчетом. Допустим, у нас есть два человека, разделяющих общий сегмент 15 сМ. У одного из них два потомка в следующем поколении, у другого — 3 (примерно, как во второй модели). Если я правильно рассчитал вероятности, матожидание наличия неповрежденного сегмента между их потомками, составляет 111%. Если у нас была 1000 таких пар, в следующем поколении пар уже будет 1110. Чем больше сегмент, тем выше вероятность его разрыва и ниже матожидание передачи. Граница для выбранных условий проходит примерно по 20 сМ — для этого сегмента матожидание около 100% . Рост количества сегментов из категории 21-25 сМ, видимо, объясняется подпиткой от более крупных. Их число стабилизируется к 11-12 поколению и в дальнейшем должно начать падать. Количество же мелких сегментов при этом растет прямо-таки как на дрожжах, формируя экспоненциальный график.

Процентное соотношение разных категорий сегментов схоже с предыдущей моделью, однако доля категорий выше 10 сМ вполне ощутима.

При более быстром росте населения верхняя граница устойчивости сегментов должна сдвигаться в сторону увеличения. Чем больше детей у каждого родителя, тем больше крупных сегментов перейдет потомкам. Ради интереса, я запустил и вариант со средним количеством детей на семью, равным трем. Здесь эффект еще более выражен. А ведь при заселении новых пространств такое количество детей — далеко не предел.

IBD_Diag05

IBD_Diag06

Обнаруженный эффект естественным образом объясняет факты наличия большого количества общих сегментов внутри популяций ашкенази, финнов, американцев Юга США. Взрывной рост численности неизбежно ведет к данному итогу. То же самое относится и к славянам — большую часть их истории численность славян быстро росла. Думаю, это объясняет многие общие сегменты, к примеру, между русскими и поляками.

Теперь мне стали понятны некоторые моменты из прошлогодней заметки, часть которой была посвящена работе Ralph&Coop на схожую тему:

2. Второй момент связан напрямую с проблемой определения времени жизни последнего общего предка от которого был унаследован сегмент. Понятно, что ответ на этот вопрос будет иметь важное значение для тех людей, кто покупал услуги 23andme исключительно в генеалогических целях. На первый взгляд, все просто. Допустим, если я и Вы разделяем IBD блок генома размеров в 10 сантиморганов , то встает вопрос — когда же именно жил наш последний общий предок?
По теоретическим расчетам, средняя длина блока IBD унаследованного общего предка жившего пяти поколений назад, составляет 10 сантиморганид; поэтому мы могли бы ожидать, что средняя дистанция до общего предка составляет всего пять поколений.

Тем не менее, прямая экспликация результатов в обсуждаемой работе говорит о том, что средний возраст блока (10 cM) общего по происхождению у двух лиц с территории Соединенного Королевства составляет от 32 до 52 поколений (в зависимости от типа используемого распределения). Такое расхождение с теоретическими прогнозами видимо связано с тем, что априори гораздо более вероятно, что общий генетический предок жил в более отдаленном прошлом, и эта априорная вероятность сильно искажает результаты нашего наивной ожидания. И хотя с учетом действия рекомбинации представляется маловероятным, что блок 10 сM унаследован от конкретного общего предка жившего примерно 40 поколений назад, существует большое количество таких древних общих предков.

Именно так — маловероятна передача от каждого конкретного древнего предка, но в целом передача от древних предков как раз более вероятна, чем от близких.

Это также означает, что расчетные возраста зависят также и от разделенной популяционной историей ‘: например, возраст аналогичного блока (10 cM) разделяемого кем-то из Соединенного Королевства с кем-то из Италии еще старше, как правило, примерно 60 поколений до общего предка.

Впрочем, это правило не применяется в том случае если предки из совсем недавнего прошлого (не более чем восемь поколений) . Обычно в таком случае от общего предка наследуется сразу несколько длинных сегментов (часто на разных хромосомах), и в данном случае, мы можем надеяться сделать вывод о конкретном генеалогическом родстве с достаточной степенью достоверность, хотя даже в этом случае следует соблюдать осторожность, чтобы исключить возможность того, что эти несколько блоков не были унаследованы от общих удаленных предков.

Скорее даже меньше — пять-шесть поколений.

Но все же, в некоторых случаях оценка возраста общего предка по одиночному сегменту должна быть возможна. Я сделал прикидку для использованных трех моделей. Поколения 1-4 исключались — для этих случаев вариант получения лишь одного сегмента чересчур маловероятен. Не рассматривались совпаденцы старшего возраста — в модели участвовали лишь люди примерно нашего поколения. Впрочем, понятно, что оценка для отцов и дедов наших ровесников должна несколько отличаться в сторону уменьшения количества поколений до общего предка.

IBD_Diag07

Сегменты 46-50 сМ во всех моделях получились около пяти поколений. По сути, это нулевая отметка, поскольку поколения до четырех отрезаны. Получить такой одиночный сегмент очень маловероятно, но если уж вы его получили, общий предок не может быть давно. Противоположный конец — сегменты, возраст которых настолько велик, что не поддается оценке в рамках модели. В варианте нулевого роста это сегменты примерно до 10 сМ, для роста 25% на поколение — до 25 сМ (можно предположить для 21-25 сМ что-то в районе 12-20 поколений), для роста 50% на поколение — до 40 сМ

В реальности мы не наблюдаем большого количества совпаденцев с сегментами 15, 20, 25 сМ. Думаю, это объясняется тем, что в истории любой популяции периоды роста сменялись периодами уменьшения численности. В это время сравнительно крупные сегменты разрушались. Однако в целом за последние тысячелетия численность европейцев только росла.

Подытожу. Я доволен, что удалось снять противоречие между наблюдаемыми фактами и теоретическими ожиданиями. Получается, что если мы и наш совпаденец с одиночным сегментом происходим из непрерывно растущей популяции, то с наибольшей вероятностью наш ближайший общий предок жил в момент начала этого роста, либо в ближайшие поколения перед ним. С чуть меньшей вероятностью — в следующем поколении, и так далее с понижением вероятности к нашему времени. Количество поколений при этом не ограничено вообще — хоть 50. Многочисленные польские, финские, немецкие совпаденцы получают разумное объяснение. Ну а уж ашкенази ложатся сюда просто идеально.
Ясно, что это упрощение (непрерывный рост в течение 50 поколений навряд ли где-то был), но упрощение более близкое к реальности, чем предыдущие представления. Конечно, в модели не учтен ряд факторов. Однако и составные УПсы, и инбридинг, и отбор, и повышенная гомозиготность только удревняют сегменты. Если считать эти факторы весомыми, предикт возраста одиночного УПСа должен быть еще выше. Допустим, составной УПС выглядит, как полученный от сравнительно близкого предка, а на самом деле — от двух более далеких. А это как раз то, что я хочу доказать.

О совпадающих геномных сегментах и числе общих предков современных европейцев

Пожалуй, ни для кого не секрет, что я всегда критично относился к спекулятивным танцам с бубнами вокруг предсказания степени родства (дистанции до последнего общего предка) между отдельно взятыми индивидами по размерам и генетической дистанции совпадающих у этих индивидов генетических сегментов.  Основным объектом моей критики являлись сверх-оптимистичные оценки гипотетического родства, используемые в коммерческих компаниях 23andme и FTDNA. Тут дело не в фирме, а в статистических особенностях выборки (у 23ия она явно ассимметричная) и -что еще ВАЖНЕЕ — в неопределенности процесса рекомбинации, что приводит к практическим трудностям в плане предсказания степени родства. То есть такой рубеж (пороговое значение сМ+размер УПСа) за пределами которых точный (в мат.статистическом смысле этого слова) генеалогический предикт невозможен.  Как я показывал ранее, у 23andme и особенно у FTDNA -он явно завышен и оторван от эмпирической действительности.  Красноречивым доказательством фатальной ошибки методологии (игнорирование сложного комплекса демографических факторов) является то, что большинство из предсказанных «6-7-юродных кузенов» не смогли подтвердить предсказанную степень родства с помощью методов традиционной генеалогии.

Этот досадный пробел был предметом многочисленных дискуссий среди пользователей компаний, в ходе которых мне так и не удалось убедить людей в иллюзорности их генеалогических мечтаний, которые подобно башням из слоновой кости, были выстроены на пустом месте  — неправильном предикте родства от ведущих коммерческих компаний в области персональной геномики.  Мои ухищрения,  -целью которых была демонстрация очевидного факта, что дискретный совпадающий сегмент размеров в 700 базовых пар и генетической дистанцией 7 см, мог достаться с одинаковой вероятностью как  от общего предка жившего 1000-2000 лет назад,  так и от прапрапрапрапрадеда, — так остались и пустыми логико-риторическими упражнениями в сотрясании интернет-траффика.  Не помогали даже материальные аргументы в виде результатов посегментного анализа  IBD у двух отдельно взятых неродственных людей из разных этнических групп. Например, вот результаты моего анализа выборки европейцев в программе Germline  (в целях сравнения статистических данных с данными 23andme, пороговые параметры в определении блока совпадения были приближены  к аналогичным параметрам в 23andme):

Orcadian HGDP00805 GBR_Orkney HG00108 2 107235902 153679651 rs12478937 rs10804036 3840 48,02 cM
Orcadian HGDP00804 Orcadian HGDP00810 2 2419677 29883379 rs12472646 rs12105526 3200 47,35 cM
North_Italian HGDP01173 North_Italian HGDP01174 2 43848995 70558910 rs7601418 rs17005666 3072 27,72 cM
Orcadian HGDP00803 Orcadian HGDP00810 2 61897757 88544724 rs7589969 rs13416374 2560 27,25 cM
Belorussian V150 Belorussian V219 2 53712521 66119342 rs6752239 rs17481962 1152 19,24 cM
Orcadian HGDP00804 GBR_Orkney HG00123 2 176257713 202211470 rs7592980 rs2676325 1920 18,39 cM
Lithuanian V216 Lithuanian V184 2 230439641 239396393 rs9288651 rs12471757 1152 18,13 cM
Ceu NA12045 Ceu NA12046 2 31424193 53699177 rs4952085 rs12479326 2816 15,09 cM
Chuvash GSM536732 Chuvash GSM536741 2 196830738 213271317 rs6731238 rs7575556 1408 14,6 cM
North-ossetian NorthOssetia3 North-ossetian NorthOssetia17 2 114989183 128751553 rs1346763 rs17016070 1152 14,52 cM
Russian HGDP00903 Russian HGDP00886 2 180753203 200962201 rs2056790 rs842823 1280 13,13 cM
Toscanian NA20752 Toscanian NA20826 2 71262858 85022082 rs412014 rs1979403 1280 12,83 cM
Sardinian HGDP01078 Sardinian HGDP00670 2 211234009 219428593 rs2270476 rs751135 896 12,71 cM
Lithuanian GSM536635 Lithuanian V174 2 53712521 61891702 rs6752239 rs1534648 768 11,51 cM
Chuvash GSM536730 Chuvash GSM536734 2 192150674 206350465 rs6713885 rs3732088 1024 10,98 cM
Finn HG00362 Finn HG00364 2 195087979 207551957 rs17587496 rs1006389 1024 10,63 cM
Toscanian NA20538 Toscanian NA20801 2 195087979 207551957 rs17587496 rs1006389 1024 10,63 cM
Toscanian NA20510 Toscanian NA20582 2 57622181 64181096 rs1527624 rs329497 512 10,38 cM
Lithuanian GSM536639 Lithuanian V192 2 57622181 64181096 rs1527624 rs329497 512 10,38 cM
North-ossetian NorthOssetia8 North-ossetian NorthOssetia17 2 221949758 229434957 rs11689951 rs13002075 768 10,1 cM
Orcadian HGDP00810 GBR_Orkney HG00109 2 150927335 167571220 rs10930090 rs869000 1408 9,98 cM
Ukrainian-Bel UkrBel618 Lithuanian V181 2 143507484 150927022 rs2304700 rs7600018 512 9,9 cM
North-ossetian NorthOssetia5 North-ossetian NorthOssetia19 2 45493838 59093657 rs3755072 rs6545712 1664 9,56 cM
Finn HG00173 Ceu NA12891 2 59113811 64181096 rs9309307 rs329497 384 9,24 cM
Chuvash GSM536734 Chuvash GSM536738 2 59113811 64181096 rs9309307 rs329497 384 9,24 cM
Ashkenazy GSM536681 Ashkenazy GSM536690 2 61897757 67156370 rs7589969 rs13405122 512 9,22 cM
Orcadian HGDP00800 Orcadian HGDP00802 2 212143458 218035046 rs12622730 rs2618139 640 9,14 cM
French_Basque HGDP01368 French_Basque HGDP01375 2 176257713 190701607 rs7592980 rs6718711 1152 9,13 cM
Finn HG00185 Ukrainian V234 2 188656086 200962201 rs7582658 rs842823 768 9,1 cM
Ceu NA12340 GBR_Orkney HG00108 2 53712521 60353988 rs6752239 rs2110398 640 9,04 cM
Romanian GSM536601 Belorussian GSM536699 2 149282942 156626573 rs12467520 rs16839941 640 9 cM
Abhasian abh53 North-ossetian NorthOssetia2 2 149282942 156626573 rs12467520 rs16839941 640 9 cM
Ashkenazy GSM536679 Ashkenazy GSM536681 2 60356734 65245546 rs907574 rs6546132 384 8,62 cM
Finn HG00343 Finn HG00366 2 129857353 138348072 rs2123522 rs16839804 768 8,26 cM
French_Basque HGDP01361 French_Basque HGDP01360 2 231428606 235338278 rs2466150 rs7602550 512 8,03 cM
Toscanian NA20539 Toscanian NA20585 2 51717876 59093657 rs11563025 rs6545712 768 7,98 cM
Lithuanian GSM536636 Lithuanian V184 2 51717876 59093657 rs11563025 rs6545712 768 7,98 cM
Ceu NA12044 Lithuanian V205 2 133615548 141217162 rs1434228 rs16844617 768 7,96 cM
Ukrainian-Bel UkrBel622 Belorussian V189 2 149282942 154983271 rs12467520 rs799761 512 7,92 cM
Spaniards GSM536582 French_Basque HGDP01377 2 142156580 149275095 rs1437351 rs1374441 512 7,9 cM
Orcadian HGDP00807 Orcadian HGDP00805 2 142156580 149275095 rs1437351 rs1374441 512 7,9 cM
Orcadian HGDP00807 GBR_Orkney HG00108 2 142156580 149275095 rs1437351 rs1374441 512 7,9 cM
Finn HG00185 Finn HG00366 2 182395284 195087892 rs16867499 rs17513288 768 7,74 cM
French_Basque HGDP01375 French_Basque HGDP01357 2 182395284 195087892 rs16867499 rs17513288 768 7,74 cM
Chuvash GSM536735 Chuvash GSM536741 2 52752510 59093657 rs1563200 rs6545712 640 7,72 cM
Russian HGDP00879 Ukrainian Ukraine94 2 52752510 59093657 rs1563200 rs6545712 640 7,72 cM
Russian HGDP00891 Ukrainian V202 2 61897757 66119342 rs7589969 rs17481962 384 7,72 cM
Toscanian NA20803 GBR_Cornwall HG00237 2 113480046 119613318 rs895497 rs6728751 512 7,7 cM
Finn HG00173 CEU_V V257 2 177355234 190701607 rs1554824 rs6718711 1024 7,68 cM
Lithuanian GSM536644 Belorussian V221 2 196830738 206350465 rs6731238 rs3732088 768 7,52 cM
Belorussian GSM536701 Mordovian mordovia4 2 144851058 150927022 rs3928425 rs7600018 384 7,5 cM
Ashkenazy GSM536680 Ashkenazy GSM536691 2 230439641 234587863 rs9288651 rs3732214 512 7,46 cM
Ashkenazy GSM536691 Ashkenazy GSM536694 2 230439641 234587863 rs9288651 rs3732214 512 7,46 cM
Russian HGDP00886 Russian HGDP00883 2 29273095 34859496 rs1670284 rs17015608 768 7,43 cM
Abhasian abh74 Nogay nogay8 2 137299914 144795535 rs12617926 rs10496963 768 7,31 cM
Ashkenazy GSM536690 Ashkenazy GSM536692 2 47533482 57615259 rs10514805 rs13422952 1152 7,3 cM
Adygei HGDP01382 Adygei HGDP01402 2 47533482 57615259 rs10514805 rs13422952 1152 7,3 cM
Belorussian GSM536699 GBR_Kent HG00130 2 56109336 61891702 rs3850353 rs1534648 512 7,14 cM
Chuvash GSM536733 Chuvash GSM536734 2 116610556 123992914 rs7579948 rs10496614 640 7,03 cM
Finn HG00179 Lithuanian GSM536639 2 60356734 64181096 rs907574 rs329497 256 7 cM
Ceu NA12891 Lithuanian V183 2 60356734 64181096 rs907574 rs329497 256 7 cM
Toscanian NA20541 Hungarian GSM536631 2 60356734 64181096 rs907574 rs329497 256 7 cM
Toscanian NA20541 Ukrainian V234 2 60356734 64181096 rs907574 rs329497 256 7 cM
Hungarian GSM536631 Ukrainian V234 2 60356734 64181096 rs907574 rs329497 256 7 cM
Sardinian HGDP00667 Russian HGDP00895 2 60356734 64181096 rs907574 rs329497 256 7 cM
French HGDP00537 Lithuanian V183 2 60356734 64181096 rs907574 rs329497 256 7 cM
French_Basque HGDP01368 Orcadian HGDP00798 2 60356734 64181096 rs907574 rs329497 256 7 cM
Belorussian V189 Russian V186 2 60356734 64181096 rs907574 rs329497 256 7 cM
Belorussian V189 Norwegian V255 2 60356734 64181096 rs907574 rs329497 256 7 cM
Ceu NA12843 CEU_V V224 2 141221189 146650404 rs387927 rs7608936 512 6,98 cM
East_German V242 Swedish V245 2 149282942 153679651 rs12467520 rs10804036 384 6,98 cM
North-ossetian NorthOssetia3 North-ossetian NorthOssetia5 2 114989183 121038508 rs1346763 rs7568633 512 6,97 cM
North-ossetian NorthOssetia5 North-ossetian NorthOssetia17 2 114989183 121038508 rs1346763 rs7568633 512 6,97 cM
Toscanian NA20803 CEU_V V166 2 48791118 57615259 rs17326328 rs13422952 1024 6,94 cM
Ukrainian-Pol UkrainePol25 Belorussian V221 2 50693731 57615259 rs17040897 rs13422952 768 6,88 cM
Ukrainian-Lv UkrLv228 Ukrainian-Lv UkrLv223 2 51717876 57615259 rs11563025 rs13422952 640 6,86 cM
Ukrainian V196 V251 Lithuanian 2 51717876 57615259 rs11563025 rs13422952 640 6,86 cM
Ceu NA12003 Belorussian V157 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Toscanian NA20539 Toscanian NA20541 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Toscanian NA20541 Toscanian NA20585 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Hungarian GSM536616 Polish V176 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Hungarian GSM536634 GBR_Orkney HG00108 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Lithuanian GSM536642 French_Basque HGDP01361 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Lithuanian GSM536642 North-ossetian NorthOssetia1 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
French HGDP00522 Ukrainian-Lv UkrLv237 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Russian V164 Swedish V178 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Lithuanian GSM536636 Ukrainian-Bel UkrBel618 2 54935367 60353988 rs12713282 rs2110398 512 6,77 cM
Russian HGDP00880 CEU_V V214 2 54935367 60353988 rs12713282 rs2110398 512 6,77 cM
French_Basque HGDP01366 CEU_V V212 2 54935367 60353988 rs12713282 rs2110398 512 6,77 cM
Lithuanian V183 Belorussian V219 2 54935367 60353988 rs12713282 rs2110398 512 6,77 cM
Hungarian GSM536634 Mordovian mordovia15 2 24378462 29883379 rs7603997 rs12105526 512 6,75 cM
French_Basque HGDP01374 French_Basque HGDP01370 2 33876524 42795681 rs4313958 rs10194712 1024 6,75 cM
French_Basque HGDP01374 French_Basque HGDP01369 2 208741802 216158215 rs7589531 rs1898722 640 6,74 cM
French_Basque HGDP01366 French_Basque HGDP01360 2 150927335 158463570 rs10930090 rs6437119 640 6,71 cM
Adygei HGDP01385 Ashkenazy V217 2 133615548 139819161 rs1434228 rs1877937 640 6,66 cM
Lithuanian V192 East_German V199 2 133615548 139819161 rs1434228 rs1877937 640 6,66 cM
French_Basque HGDP01361 French_Basque HGDP01375 2 184066647 195087892 rs2368443 rs17513288 640 6,62 cM
Belorussian GSM536702 Ashkenazy V217 2 52752510 57615259 rs1563200 rs13422952 512 6,59 cM
Chuvash GSM536745 Lithuanian V184 2 52752510 57615259 rs1563200 rs13422952 512 6,59 cM
Ceu NA07346 Orcadian HGDP00808 2 134492388 141217162 rs7594310 rs16844617 640 6,59 cM
Lithuanian GSM536642 Ukrainian-Bel UkrBel614 2 132875392 138348072 rs7422689 rs16839804 640 6,55 cM
French_Basque HGDP01361 French_Basque HGDP01373 2 219454805 223052099 rs10177996 rs4674656 384 6,54 cM
French_Basque HGDP01373 French_Basque HGDP01363 2 219454805 223052099 rs10177996 rs4674656 384 6,54 cM
Toscanian NA20509 Toscanian NA20540 2 180753203 192143509 rs2056790 rs4640333 768 6,53 cM
Adygei HGDP01383 Abhasian abh85 2 180753203 192143509 rs2056790 rs4640333 768 6,53 cM
CEU_V V214 Lithuanian V218 2 180753203 192143509 rs2056790 rs4640333 768 6,53 cM
Russian V207 Belorussian V189 2 212143458 216960658 rs12622730 rs1111341 512 6,5 cM
Ceu NA12046 GBR_Kent HG00149 2 143507484 149275095 rs2304700 rs1374441 384 6,49 cM
Hungarian GSM536618 Belorussian V189 2 143507484 149275095 rs2304700 rs1374441 384 6,49 cM
Adygei HGDP01383 Adygei HGDP01402 2 143507484 149275095 rs2304700 rs1374441 384 6,49 cM
GBR_Cornwall HG00231 GBR_Cornwall HG00243 2 20207509 24368500 rs7601441 rs10495747 384 6,42 cM
Ceu NA12891 Orcadian HGDP00797 2 132875392 137296704 rs7422689 rs10496758 512 6,29 cM
Adygei HGDP01385 CEU_V V166 2 132875392 137296704 rs7422689 rs10496758 512 6,29 cM
Russian V165 Lithuanian V192 2 132875392 137296704 rs7422689 rs10496758 512 6,29 cM
French_Basque HGDP01360 French_Basque HGDP01364 2 23009367 28398613 rs7586848 rs2279475 384 6,24 cM
Russian V207 Russian V162 2 178836075 190701607 rs919682 rs6718711 896 6,16 cM
Ceu NA06985 Ukrainian V234 2 61897757 65245546 rs7589969 rs6546132 256 6,15 cM
Ashkenazy GSM536679 Ashkenazy GSM536690 2 61897757 65245546 rs7589969 rs6546132 256 6,15 cM
Sardinian HGDP00673 Sardinian HGDP01072 2 61897757 65245546 rs7589969 rs6546132 256 6,15 cM
French_Basque HGDP01372 French_Basque HGDP01375 2 85022931 105998825 rs6726213 rs1647681 1152 5,99 cM
Iberian HG01530 Lithuanian GSM536639 2 196830738 205189112 rs6731238 rs12621708 640 5,94 cM
Toscanian NA20539 Toscanian NA20810 2 142156580 146650404 rs1437351 rs7608936 384 5,9 cM
Romanian GSM536594 Belorussian V157 2 142156580 146650404 rs1437351 rs7608936 384 5,9 cM
Finn HG00355 CEU_V V206 2 129857353 135467264 rs2123522 rs2322253 512 5,89 cM
Hungarian GSM536627 Belorussian GSM536698 2 123995298 128751553 rs6707592 rs17016070 384 5,86 cM
Lithuanian GSM536640 Belorussian V219 2 123995298 128751553 rs6707592 rs17016070 384 5,86 cM
French_Basque HGDP01374 French_Basque HGDP01369 2 123995298 128751553 rs6707592 rs17016070 384 5,86 cM
Iberian HG01501 French HGDP00514 2 57622181 61891702 rs1527624 rs1534648 384 5,85 cM
French HGDP00514 Mordovian mordovia15 2 57622181 61891702 rs1527624 rs1534648 384 5,85 cM
French HGDP00538 French_Basque HGDP01357 2 57622181 61891702 rs1527624 rs1534648 384 5,85 cM
French_Basque HGDP01377 GBR_Orkney HG00123 2 57622181 61891702 rs1527624 rs1534648 384 5,85 cM
Mordovian mordovia15 CEU_V V213 2 57622181 61891702 rs1527624 rs1534648 384 5,85 cM
Romanian GSM536594 Russian HGDP00897 2 116610556 122642738 rs7579948 rs12612050 512 5,82 cM
Finn HG00367 East_German V242 2 166035134 169872014 rs10497261 rs2247506 384 5,79 cM
Mordovian mordovia6 Belorussian V150 2 166035134 169872014 rs10497261 rs2247506 384 5,79 cM
Russian V179 Polish V169 2 170969033 176253825 rs6736609 rs7578330 512 5,79 cM
Hungarian GSM536626 Polish V223 2 24378462 29269296 rs7603997 rs1728828 384 5,78 cM
Russian HGDP00899 Belorussian V235 2 24378462 29269296 rs7603997 rs1728828 384 5,78 cM
French_Basque HGDP01377 French_Basque HGDP01360 2 231428606 234587863 rs2466150 rs3732214 384 5,76 cM
French_Basque HGDP01361 French_Basque HGDP01377 2 233009060 235338278 rs12996863 rs7602550 384 5,76 cM
French_Basque HGDP01372 French_Basque HGDP01374 2 104096603 111624162 rs12613102 rs724710 640 5,75 cM
Lithuanian GSM536641 Belorussian GSM536698 2 121048500 127300092 rs1467326 rs4072704 512 5,72 cM
Finn HG00180 East_German V199 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Finn HG00343 GBR_Kent HG00143 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Finn HG00365 Ashkenazy V217 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Ceu NA07346 East_German V199 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Ceu NA12891 Ashkenazy V217 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Ceu NA12891 East_German V199 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Romanian GSM536590 Orcadian HGDP00798 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Lithuanian GSM536640 Belorussian V220 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Lithuanian GSM536642 Ukrainian Ukraine141 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Adygei HGDP01388 GBR_Cornwall HG00257 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Ukrainian-Pol UkrainePol19 East_German V240 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Ukrainian-Pol UkrainePol19 East_German V241 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
GBR_Orkney HG00101 Lithuanian V192 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Russian V165 East_German V199 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Lithuanian V183 Ashkenazy V217 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Lithuanian V184 Polish V180 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
CEU_V V212 Belorussian V220 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Belorussian V220 Ashkenazy V217 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
East_German V241 East_German V199 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Ashkenazy V217 East_German V199 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Finn HG00179 Belorussian V189 2 135475565 142152929 rs6706490 rs164979 640 5,68 cM
Iberian HG01630 Ceu NA12283 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Iberian HG01630 Mordovian mordovia14 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Ceu NA12006 Ceu NA12155 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Toscanian NA20538 Russian GSM536913 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Toscanian NA20755 GBR_Cornwall HG00233 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Toscanian NA20798 French_Basque HGDP01376 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Hungarian GSM536616 North_Italian HGDP01155 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Hungarian GSM536616 Orcadian HGDP00810 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Lithuanian GSM536636 Chuvash GSM536745 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Lithuanian GSM536642 Russian V165 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Lithuanian GSM536642 Lithuanian V192 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Lithuanian GSM536643 Norwegian V255 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Ashkenazy GSM536679 Ashkenazy V217 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Chuvash GSM536736 Russian HGDP00891 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Chuvash GSM536745 CEU_V V214 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
French_Basque HGDP01361 Lithuanian V192 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
French HGDP00522 GBR_Cornwall HG00258 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
North_Italian HGDP01174 French_Basque HGDP01379 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
North_Italian HGDP01174 French_Basque HGDP01365 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
French HGDP00515 Bulgarian Bulgaria7 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Sardinian HGDP00673 Ukrainian-Lv UkrLv237 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Abhasian abh9 Lithuanian V254 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Mordovian mordovia6 Lithuanian V184 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Mordovian mordovia12 Bulgarian Bulgaria6 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Bulgarian Bulgaria6 Polish V160 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Belorussian V221 Lithuanian V184 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Lithuanian V184 CEU_V V214 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Russian V232 V251 Lithuanian 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Belorussian V189 Ukrainian V202 2 48791118 56107009 rs17326328 rs13418952 896 5,65 cM
North_Italian HGDP01177 Mordovian mordovia2 2 2419677 3692890 rs12472646 rs13395090 256 5,61 cM
North-ossetian NorthOssetia3 Polish V169 2 2419677 3692890 rs12472646 rs13395090 256 5,61 cM
Ukrainian V236 Belorussian V220 2 49679328 56107009 rs1553129 rs13418952 768 5,61 cM
Chuvash GSM536730 Chuvash GSM536740 2 85022931 105326765 rs6726213 rs2576767 1024 5,6 cM
Toscanian NA20581 Russian V179 2 51717876 56107009 rs11563025 rs13418952 512 5,57 cM
Adygei HGDP01388 Lithuanian V222 2 51717876 56107009 rs11563025 rs13418952 512 5,57 cM
GBR_Cornwall HG00231 CEU_V V226 2 51717876 56107009 rs11563025 rs13418952 512 5,57 cM
Mordovian mordovia2 Mordovian mordovia15 2 12179872 15869508 rs10201732 rs11687741 384 5,53 cM
Toscanian NA20509 Toscanian NA20542 2 234051542 236028545 rs745155 rs4663587 384 5,53 cM
French HGDP00515 French_Basque HGDP01368 2 182395284 192143509 rs16867499 rs4640333 640 5,52 cM
Belorussian V189 Ashkenazy V229 2 182395284 192143509 rs16867499 rs4640333 640 5,52 cM
Finn HG00180 Ceu NA12891 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00180 Chuvash GSM536744 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00180 Orcadian HGDP00797 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00180 Ukrainian-Pol UkrainePol19 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00180 Russian V165 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00180 East_German V241 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00180 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00343 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00355 Adygei HGDP01385 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA07346 Ceu NA12892 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA11829 Orcadian HGDP00797 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA11829 CEU_V V204 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12006 GBR_Kent HG00143 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12044 Lithuanian GSM536642 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12044 Orcadian HGDP00797 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12044 CEU_V V204 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12044 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12044 Russian V161 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12283 Adygei HGDP01385 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12283 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12283 East_German V199 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12891 Ukrainian-Pol UkrainePol19 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12891 Russian V165 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12891 Lithuanian V192 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12891 Belorussian V220 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12892 GBR_Kent HG00143 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12892 East_German V199 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Lithuanian GSM536642 Adygei HGDP01385 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Lithuanian GSM536642 CEU_V V204 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Chuvash GSM536729 Chuvash GSM536738 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00807 East_German V199 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00796 GBR_Orkney HG00108 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Adygei HGDP01385 CEU_V V204 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
French HGDP00515 French HGDP00527 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Adygei HGDP01388 Lithuanian V192 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Adygei HGDP01388 Belorussian V220 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
North_Italian HGDP01154 Mordovian mordovia5 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
North_Italian HGDP01154 Lithuanian V250 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Russian HGDP00879 GBR_Kent HG00143 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00797 Lithuanian V192 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00797 CEU_V V166 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00797 East_German V240 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00797 East_German V241 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00797 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00797 East_German V199 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Bulgarian Bulgaria37 Polish V248 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ukrainian Ukraine141 CEU_V V204 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ukrainian-Pol UkrainePol19 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
GBR_Kent HG00143 Norwegian V256 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
GBR_Cornwall HG00257 Belorussian V220 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Polish V180 East_German V241 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Lithuanian V192 CEU_V V204 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Lithuanian V192 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
CEU_V V204 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
CEU_V V204 Russian V161 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
East_German V240 Norwegian V256 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ashkenazy V217 Lithuanian V250 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Lithuanian V250 East_German V199 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Abhasian abh27 Ukrainian-Lv UkrLv223 2 185957876 195087892 rs16823795 rs17513288 512 5,45 cM
Iberian HG01504 French_Basque HGDP01372 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Iberian HG01504 French_Basque HGDP01362 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Ceu NA12155 GBR_Kent HG00130 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Ceu NA12155 GBR_Cornwall HG00237 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Ceu NA12155 East_German V198 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Ceu NA12155 CEU_V V257 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Ceu NA12891 Norwegian V256 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Toscanian NA20800 Ukrainian V188 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Toscanian NA20803 GBR_Kent HG00130 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Toscanian NA20803 East_German V198 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Toscanian NA20803 CEU_V V257 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Romanian GSM536595 North_Italian HGDP01157 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Lithuanian GSM536643 French HGDP00525 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Belorussian GSM536703 GBR_Kent HG00130 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
French_Basque HGDP01372 French_Basque HGDP01362 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
French_Basque HGDP01360 French_Basque HGDP01380 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
GBR_Kent HG00130 GBR_Cornwall HG00237 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
GBR_Kent HG00130 East_German V198 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
GBR_Kent HG00130 CEU_V V257 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
GBR_Cornwall HG00237 East_German V198 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
GBR_Cornwall HG00237 CEU_V V257 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Russian V207 Norwegian V194 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
East_German V198 CEU_V V257 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Lithuanian GSM536635 V251 Lithuanian 2 66144018 71254525 rs10198404 rs397458 640 5,39 cM
Ceu NA12275 Polish V243 2 146687885 150927022 rs12997609 rs7600018 256 5,39 cM
Ceu NA12347 French_Basque HGDP01375 2 146687885 150927022 rs12997609 rs7600018 256 5,39 cM
French_Basque HGDP01375 East_German V242 2 146687885 150927022 rs12997609 rs7600018 256 5,39 cM
Russian HGDP00895 Lithuanian V211 2 146687885 150927022 rs12997609 rs7600018 256 5,39 cM
French_Basque HGDP01362 French_Basque HGDP01371 2 195087979 202211470 rs17587496 rs2676325 512 5,34 cM
North_Italian HGDP01152 CEU_V V175 2 195087979 202211470 rs17587496 rs2676325 512 5,34 cM
Chuvash GSM536730 Chuvash GSM536743 2 116610556 121038508 rs7579948 rs7568633 384 5,33 cM
French_Basque HGDP01374 French_Basque HGDP01368 2 116610556 121038508 rs7579948 rs7568633 384 5,33 cM
Finn HG00362 Finn HG00367 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Finn HG00365 French_Basque HGDP01359 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Ceu NA07056 North-ossetian NorthOssetia5 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Ceu NA12044 Ceu NA12546 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Toscanian NA20503 Toscanian NA20796 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Toscanian NA20510 Sardinian HGDP01071 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Toscanian NA20582 French_Basque HGDP01357 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Toscanian NA20797 Ukrainian V234 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Toscanian NA20798 Lithuanian GSM536636 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Toscanian NA20804 Sardinian HGDP01071 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Spaniards GSM536581 Russian V165 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Hungarian GSM536616 Ukrainian-Pol UkrainePol25 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Hungarian GSM536627 GBR_Cornwall HG00233 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Lithuanian GSM536636 Mordovian mordovia6 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Lithuanian GSM536636 CEU_V V214 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Lithuanian GSM536638 Ukrainian-Lv UkrLv223 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Lithuanian GSM536642 Russian HGDP00880 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
French HGDP00522 Sardinian HGDP00673 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Orcadian HGDP00799 East_German V233 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
French_Basque HGDP01379 French_Basque HGDP01365 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Adygei HGDP01383 CEU_V V209 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
North_Italian HGDP01155 Mordovian mordovia5 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Russian HGDP00897 Swedish V245 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Mordovian mordovia6 CEU_V V214 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Mordovian mordovia6 Norwegian V255 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Bulgarian Bulgaria37 Russian V232 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
GBR_Cornwall HG00231 Belgian V253 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Russian V179 Russian V162 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Lithuanian V184 CEU_V V206 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Iberian HG01504 Romanian GSM536601 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
Iberian HG01504 French_Basque HGDP01377 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
Romanian GSM536602 East_German V241 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
French_Basque HGDP01357 CEU_V V257 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
Ukrainian-Bel UkrBel614 Russian V164 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
GBR_Orkney HG00123 GBR_Kent HG00129 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
Lithuanian V184 Lithuanian V174 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
Ceu NA12891 Hungarian GSM536630 2 167571666 169872014 rs1877192 rs2247506 256 5,28 cM
Ashkenazy GSM536677 CEU_V V214 2 167571666 169872014 rs1877192 rs2247506 256 5,28 cM
Russian V164 Lithuanian V222 2 167571666 169872014 rs1877192 rs2247506 256 5,28 cM
Toscanian NA20803 French_Basque HGDP01362 2 125284013 129849835 rs314712 rs2030664 384 5,26 cM
Bulgarian Bulgaria7 Latvian V238 2 125284013 129849835 rs314712 rs2030664 384 5,26 cM
Ceu NA12045 Ashkenazy GSM536681 2 122648492 127300092 rs1545016 rs4072704 384 5,24 cM
Romanian GSM536600 Belorussian V220 2 122648492 127300092 rs1545016 rs4072704 384 5,24 cM
French_Basque HGDP01374 French_Basque HGDP01368 2 122648492 127300092 rs1545016 rs4072704 384 5,24 cM
Ceu NA12347 Orcadian HGDP00797 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
Ceu NA12347 East_German V203 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
Ceu NA12347 East_German V242 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
Orcadian HGDP00797 East_German V203 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
Orcadian HGDP00797 East_German V242 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
Bulgarian Bulgaria39 Norwegian V194 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
East_German V203 East_German V242 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
Ashkenazy V229 Russian V161 2 190708276 196826267 rs13012077 rs1869796 384 5,17 cM
Finn HG00355 Toscanian NA20807 2 174422779 178813234 rs17233751 rs6433715 384 5,14 cM
Hungarian GSM536627 Belorussian V221 2 196830738 204167451 rs6731238 rs4675350 512 5,07 cM
Chuvash GSM536730 Adygei HGDP01382 2 192150674 198914641 rs6713885 rs2727765 384 5,04 cM
Adygei HGDP01382 CEU_V V209 2 192150674 198914641 rs6713885 rs2727765 384 5,04 cM
Mordovian mordovia13 Nogay nogay7 2 192150674 198914641 rs6713885 rs2727765 384 5,04 cM

Как видно из приведенного анализа, некоторые из совпадающих сегментов с генетической дистанцией > 7 cM встречаются не только в сравнениях людей одной популяции, но и при сравнении лиц из удаленных друг от друга этнических популяций. Второй важный момент:  причины образования больших  IBD сегментов могут быть разными, поэтому сегменты сами по себе не всегда надежны при определении степени родства между отдельно взятыми людьми. В моем примере, внушительные размеры совпадающего сегмента у оркнейцев — 47.35 сM — объясняются вовсе не близкой степенью родства, а большим количеством общих предков, и следовательно инбридингом, одним из следствий которого является гомозиготность популяции.  В  случае с тосканцами (North Italians) блок размером в 25 сантиморганид есть ни что иное как свидетельство феномена криптородства. Что касается сегмента с генетической дистанцией 19 сM между V150 (это я) и V217, то он детектируется в 23andme. Поскольку часть предков V150 и V217 проживала в географически смежных регионах (Пинский и Слуцкий регион Беларуси), то нельзя исключать очевидной связи сегмента с региональной привязкой (например, встречается у большой части населения этого региона И таких примеров множество. Такие примеры лучше всего иллюстрировать построив в программах типа Gephi сети, где в качестве ребер соединяющих узлы, будут выступать величины генетической дистанции между индивидами. Например, так

screenshot_225259

До июля прошлого года,  мой одинокий голос разума здравого скептицизма было подобен гласу вопиющего в пустыне.
В июле 2012 года произошло знаменательное событие —  ученые Peter Ralph и Graham Coop их университета Южной Калифорнии опубликовали в arXiv первоначальную версию своей статьи (которая позже была размещена и на профильном портале PLos Biology).

Эту работу -The Geography of Recent Genetic Ancestry across Europe- можно считать новаторской по целому ряду признаков.
Во-первых, это первая работа написанная на предмет анализа соотношения мозаики генетического наследования (в виде рекомбинантных блоков) и генеалогической дистанции. Емнип, раньше такие вопросы рассматривались только в рамках узких форумных дискуссий.

Во-вторых, в работе используется весьма элегантный математический аппарат и затрагивается целый ряд важных вопрос.

И, наконец, в-третьих, авторы используют академическую выборку европейских популяций Popres, обследуя  ее на ряд важных статистических параметров.

Но дадим слово самим авторам:

Недавняя генеалогическая история человеческой популяции отражает сложную мозаику сформированную процессами отдельных миграций, крупномасштабными перемещения населения и другими демографическими событиями. Анализ геномных данных популяций может пролить свет на события недавней истории, а редкие недавние следы общей генетической родословной обнаруживаются в виде длинных идентичных сегментов  в сравниваемом материал. Мы использовали геномные данные 2257 европейцев (в базе данных Population Reference [POPRES]) для проведения одного из первых исследований недавней генеалогической родословной в течение последних 3000 лет в европейском континентальном масштабе. Мы обнаружили 1 900 000  длинных геномных сегментов-совпадений, и использовали длины этих сегментов для установления характера распределения общих предков во времени и географии. Мы считаем, что пара современных европейцев, живущих в соседних этнических популяций, имеет в среднем от 2 до 12  общих генетических предков в течении  последних 1500 лет, и свыше 100 генетических предков в течении предыдущих 1000 года. Эти цифры уменьшаются  экспоненциально с увеличением географического расстояния, но так как эти генетические предки составляет лишь мизерную долю от общего числа генеалогических предков, теоретически люди с разных концов Европы должны иметь миллионы общих генеалогических предков за последние 1000 лет. Существует также существенные региональные различия в числе общих генетических предков. Например, особенно значительное число общих предков наблюдается между несколькими восточно-европейскими популяциями,  возникновение которых относится примерно к периоду переселения народов (которое включает в  себя славянскую и гуннской экспансии в этом регионе). С другой стороны один из самых низких уровней общего происхождения  наблюдается на Апеннинском  и Пиренейском полуостровах, и это может свидетельствовать о различных эффектах в демографической истории населения в этих районах и / или более стабильно структурированном населении.

Как отмечалось выше, в работе затрагивается целый спектр интересных моментов касающихся предмета исследований.
Мы остановимся только на двух моментах:

1. Представители некоторых этнических популяций разделяют в среднем  большое количество общих предков с соседней популяцией, чем с представителями собственной этногруппы. Пример: немцы разделяют большее число предков с поляками, чем с другими немцами (1,24 против 1,05, р = 5,7 × 10-6).  Авторы объясняют этот феномен недавней асимметричной миграцией из меньшей популяции в большую.

2. Второй момент связан напрямую с проблемой определения времени жизни последнего общего предка от которого был унаследован сегмент. Понятно, что ответ на этот вопрос будет иметь важное значение для тех людей, кто покупал услуги 23andme исключительно в генеалогических целях. На первый взгляд, все просто. Допустим, если я и Вы разделяем  IBD блок генома размеров в 10 сантиморганов , то встает вопрос — когда же именно жил наш последний общий предок?
По теоретическим расчетам, средняя длина блока IBD унаследованного общего предка жившего пяти поколений назад, составляет 10 сантиморганид; поэтому мы могли бы ожидать, что средняя дистанция до общего предка составляет всего пять поколений.

Тем не менее, прямая экспликация результатов в обсуждаемой работе говорит о том, что средний возраст блока (10 cM) общего по происхождению у двух лиц с территории Соединенного Королевства составляет от 32 до 52 поколений (в зависимости от типа используемого распределения). Такое расхождение с теоретическими прогнозами видимо связано с тем, что априори гораздо более вероятно, что общий генетический предок  жил  в более отдаленном  прошлом, и эта априорная вероятность сильно искажает результаты нашего наивной ожидания. И хотя с учетом действия рекомбинации представляется маловероятным, что блок 10 сM унаследован от конкретного общего предка жившего примерно 40 поколений назад, существует большое количество таких древних общих предков. Это также означает, что расчетные возраста зависят также и от разделенной популяционной историей ‘: например, возраст аналогичного блока (10 cM) разделяемого кем-то из Соединенного Королевства с кем-то из Италии еще старше, как правило, примерно 60 поколений до  общего предка.  Впрочем, это правило не применяется в том случае если предки из совсем недавнего прошлого (не более чем восемь поколений) . Обычно в таком случае от общего предка наследуется сразу несколько длинных  сегментов (часто на разных хромосомах), и  в данном случае, мы можем надеяться сделать вывод о конкретном генеалогическом родстве с достаточной степенью достоверность, хотя даже в этом случае следует соблюдать осторожность, чтобы исключить возможность того, что эти несколько блоков не были унаследованы от общих удаленных предков.