«Ледниковый период в Европе и изучение останков древнего человека на территории России»

Лекция Йоханнеса Краузе  (Johannes Krause) «Ледниковый период в Европе и изучение останков древнего человека на территории России» состоится в рамках Фестиваля науки

8 октября 2016  в  Шуваловском корпусе МГУ, аудитория «В4» 

12.45-13.45

Йоханнес Краузе  — профессор археологии и палеогенетики,  директор Института наук об истории человека Общества Макса Планка (Max Planck Institute for the Science of Human History) в Йене.

программу Фестиваля науки 7-9 октября можно скачать здесь  program-2016

«МОСКВА, 10 окт – РИА Новости. Известный палеогенетик Йоханнес Краузе рассказал РИА «Новости» о том, почему ученые сегодня считают степи Прикаспия родиной народов Европы, поделился мыслями о причинах почти полного вымирания Европы в конце ледникового периода, а также порассуждал о перспективе «воскрешения» средневековой чумы.

Йоханнес Краузе, палеогенетик из Института истории человека в Йене (Германия) – один из самых известных «некромантов» современности, которому удалось за последние несколько лет восстановить и изучить геномы средневековых возбудителей чумы и проказы, раскрыть тайны миграций и вымирания первых жителей Земли.

Кроме того, он обнаружил, что в конце ледникового периода фактически вся Европа вымерла и была заново заселена «северными евразийцами», поселенцами с юга России, а также нашел однозначные генетические свидетельства того, что неандертальцы были каннибалами. Обо всем этом Краузе рассказал на лекции в МГУ имени М.В. Ломоносова, которая проводилась в рамках всероссийского фестиваля Наука 0+.

— Йоханнес, недавно вы выяснили, что почти все первые жители Европы вымерли и не оставили следов в ДНК современного населения субконтинента. В чем могли быть причины такой катастрофы, вызвали ли ее болезни или климат?

— Сам по себе ледниковый период был периодом масштабных климатических изменений. Поэтому мы собственно и называем его ледниковым периодом – температуры упали на 10 градусов Цельсия, и большая часть Европы была покрыта льдом во время последнего ледникового максимума, 20 тысяч лет назад.

В то время, по сути, в Центральной Европе было невозможно жить – она представляла собой области вечной мерзлоты, покрытые тундрой и льдами.

Череп кроманьонца из Чехии
Генетики: в конце ледникового периода почти вся Европа вымерла

Поэтому то, что в то время местное население полностью вымерло и было замещено новой группой людей, никого не должно удивлять. Поэтому я считаю, что болезни, в том числе и чума, вряд ли могли вызвать это вымирание, а климатические изменения – вполне могли это сделать.— Вы и ваш коллега Дэвид Рейчпоказали в недавнем прошлом, что Европа была заселена несколькими волнами мигрантов, которых было или три, или четыре. Сколько их было на самом деле?

— На текущий момент у нас есть сведения о том, что первые люди появились в Европе примерно 40 тысяч лет назад. Следы этой популяции людей были найдены в Румынии в виде скелета одного человека, а также останками еще одного древнего кроманьонца, которые были открыты в окрестностях Омска, в Усть-Ишиме. Они являются на сегодняшний день древнейшими останками человека современного типа за пределами Африки.

Оба этих человека принадлежали к особой популяции древних людей, следов которых вообще не осталось в нашей ДНК. Иными словами, они не были предками современных жителей Азии и Европы. Их популяцию можно назвать первой провалившейся попыткой колонизовать мир за пределами Африки.

За ними следовали люди, подобные тем, чьи останки были найдены в окрестностях деревни Костенки в Воронежской области. Их следы уже можно заметить в ДНК последующих групп древних людей.

Реконструкция облика члена ямной культуры Прикаспя
Генетики нашли новые доказательства каспийских корней индоевропейцев

Со времени жизни людей в Костенках и до конца ледникового периода, который завершился примерно 15 тысяч лет назад, в генетике Европы почти ничего не поменялось. Примерно 14 тысяч лет назад в Европу проникли первые мигранты с Ближнего Востока, и затем, около 7-8 тысяч лет назад, произошла вторая волна ближневосточной миграции, принесшая с собой фермерское искусство. И последняя волна миграции, самая масштабная из них, произошла примерно пять тысяч лет назад, когда Европа была заселена жителями прикаспийских и причерноморских степей.

Проблема, на самом деле, не в подсчете волн миграции, а в самом термине. Под миграцией мы обычно понимаем перемещение больших групп людей, условно говоря, из точки А в точку Б. С другой стороны, в реальности могли происходить не массовые миграции, а просто медленная экспансия новых групп людей, распространявшихся по Европе со скоростью, скажем, пять километров в год. Поэтому нельзя говорить о том, что древние люди в один момент вдруг сказали «мы покидаем Россию, едем в Европу», собрали вещи и поехали – этот процесс мог протекать органично и незаметно для коренных жителей субконтинента, постепенно замещая их благодаря большему числу потомства и другим факторам. Мне кажется, именно так нужно думать, когда мы рассуждаем о волнах миграции в прошлом.»

 

Реклама

ALDER анализ происхождения белорусов и поляков

В качестве одного из метода проверки надежности импутированных снипов для анализа популяционной истории различных этнических групп, я использовал метод ALDER (он представляет собой более продвинутую версию алгоритма ROLOFF, описанного в известной работе Patterson et al. 2012).

Метод ALDER  выявляет нюансы популяционной истории через оценку двух важных параметров: а) рекомбинации — процесса обмена участками между разными молекулами ДНК, который напоминает перемешивание игральных карт в колоде (у человека он обязательно происходит при образовании половых клеток) и б) неравновесия по сцеплению — явления, при котором несколько участков ДНК передаются вместе блоками, которые формируются несколько по-разному в разных популяциях из-за того, что в разных популяциях наследуются разные комбинации сегментов ДНК. Таким образом, метод основан на выявлении специфических для каждой популяции сцепленных участков ДНК и на оценке доли общих сегментов в выборках сравниваемых популяций. При этом метод ALDER на основе оценки неравновесия по сцеплению определяет правдоподобность того, что две выбранные группы являются предковыми по отношению к анализируемым популяциям. Кроме того, метод позволяет также установить время смешения через оценку доли рекомбинаций на поколение.
Как было сказано выше, метод ALDER представляет собой расширенный вариант алгоритма ROLLOFF.Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатура LD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории,  чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения  LD в адмиксе напрямую связана с числом поколений, прошедших с момента адмикса,  так как c возрастанием числа поколений увлечивается число рекомбинаций произошедших между  двумя отдельными SNP-ами. Проще говоря: Rolloff соответствует экспоненциальной кривой угасания уровня LD от расстояния, и эта скорость экспоненциального снижения как раз и используется  для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.В качестве двух тестовых популяций я использовал две группы — выборку белорусов (данные публичной коллекции эстонского биоцентра, вошедшие позднее в стандартный набор популяций лаборатории Райха, а также данные белорусов, собранные мной в проекте MDLP) и выборку поляков (из публичной коллекции эстонского биоцентра, а также данные поляков из выборки моего проекта MDLP).   В 2012 году я уже проводил анализ ROLLOFF белорусов, поэтому было интересно посмотреть, как изменится картина после добавления новых палеогеномов и импутированных (негенотипированных) снипов. Для полноты эксперимента, я также включил данные поляков, чтобы посмотреть, работает ли метод на данных, полученных с помощью других платформ генотипирования (NB:когда я проводил анализ, у меня еще не было данных поляков из кураторской базы данных лаборатории Reich).

В качественных референсных популяций (кандидатов в предковые популяции) я использовал набор из 400 популяций в моей расширенной выборки.  Программа работает в три этапа:

  • На первом этапе определяется статистическая значимость сравнения амплитуд угасания 2-референсной LD(в случае наличия такой значимость программа пишет success)

Cледующие комбинации дали положительный результат

Belarusian Andronovo.SG Chukchis
Belarusian Andronovo.SG Koryaks
Belarusian Armenian_Martuni Karelia_HG
Belarusian Bashkir Turkish_Jewish
Belarusian Nordic_LN.SG Villabruna
Belarusian Turkish_Jewish Uzbek
Belarusian Anatolia_Neolithic Brahui
Belarusian Anatolia_Neolithic Burusho
Belarusian Anatolia_Neolithic Itelmen
Belarusian Anatolia_Neolithic Koryak
Belarusian Anatolia_Neolithic Mixtec
Belarusian Anatolia_Neolithic Pathan
Belarusian Anatolia_Neolithic Mala
Belarusian Anatolia_Neolithic Turkmen
Belarusian Anatolia_Neolithic Uygur
Belarusian Druze Selkup
Belarusian Mala Syrian
Belarusian Mixtec Spain_EN
Belarusian Anatolia_Neolithic Brahui
Belarusian Anatolia_Neolithic Burusho
Belarusian Anatolia_Neolithic Chukchi
Belarusian Anatolia_Neolithic Selkup
Belarusian Anatolia_Neolithic Sindhi
Belarusian Anatolia_Neolithic Uygur
Belarusian British-Roman Koryak
Belarusian British-Roman Mixtec
Belarusian Chukchi Mala
Belarusian Itelmen Uzbek_WGA
Belarusian LBK_EN Selkup
Belarusian Selkup Turkish_Trabzon
Belarusian Abhkasian Lahu
Belarusian Ami_Coriell Uzbek_WGA
Belarusian Anatolia_Neolithic Chukchi
Belarusian Anatolia_Neolithic Daur
Anatolia_Neolithic Han
Anatolia_Neolithic Han_NChina
Anatolia_Neolithic Miao
Anatolia_Neolithic Turkmen
Belarusian Atayal_Coriell Uzbek_WGA
Belarusian British-Roman Mixtec
Belarusian Chukchi Mala
Belarusian Dai Greek_Islands
Belarusian Dai Uzbek_WGA
Belarusian Daur North_Ossetian
Belarusian Daur Uzbek_WGA
Belarusian Eskimo_Chaplin LBK_EN
Belarusian Georgian Lahu
Belarusian Georgian Yi
Belarusian Greek_Islands Han
Belarusian Greek_Islands Miao
Belarusian Greek_Islands Mixtec
Belarusian Greek_Islands Nganasan
Belarusian Greek_Islands Ulchi
Belarusian Greek_Islands Xibo
Belarusian Han Uzbek_WGA
Belarusian Han Yemenite_Jew
Belarusian Han_NChina Uzbek_WGA
Belarusian Han_NChina Yemenite_Jew
Belarusian Japanese Uzbek_WGA
Belarusian Korean Uzbek_WGA
Belarusian Lahu Turkish_Jew
Belarusian Lahu Uzbek_WGA
Belarusian Lahu Yemenite_Jew
Belarusian LBK_EN Selkup
Belarusian Miao Uzbek_WGA
Belarusian Miao Yemenite_Jew
Belarusian Naxi Uzbek_WGA
Belarusian Oroqen Uzbek_WGA
Belarusian She Uzbek_WGA
Belarusian Tu Uzbek_WGA
Belarusian Tujia Uzbek_WGA
Belarusian Tujia Yemenite_Jew
Belarusian Ulchi Uzbek_WGA
Belarusian Uzbek_WGA Xibo
Belarusian Uzbek_WGA Yi
Belarusian Uzbek_WGA Yukagir_Tundra
Belarusian Yemenite_Jew Yi
  • На втором — cоответствие скоростей угасания LD в попарном сравнении с референсными популяциями (программа выдает предупреждение, если амплитуды угасания LD несовместимы).  Как видно, большинство триплетов (таргетная популяция + 2 референса) имеет несовместимые амплитуды угасания LD.

DATA: success (warning: decay rates inconsistent) 0.028 Belarusian Andronovo.SG Chukchis 4.64 2.80 2.11 85% 244.96 +/- 44.45 0.00055485 +/- 0.00011964 262.22 +/- 50.30 0.00029724 +/- 0.00010632 105.99 +/- 50.22 0.00013405 +/- 0.00003707
DATA: success (warning: decay rates inconsistent) 3.8e-05 Belarusian Andronovo.SG Koryaks 5.86 2.80 2.36 85% 241.36 +/- 36.30 0.00059837 +/- 0.00010219 262.22 +/- 50.30 0.00029724 +/- 0.00010632 105.75 +/- 44.80 0.00011083 +/- 0.00002791
DATA: success (warning: decay rates inconsistent) 0.037 Belarusian Armenian_Martuni Karelia_HG 4.58 2.20 3.48 53% 206.14 +/- 39.11 0.00072944 +/- 0.00015918 324.91 +/- 90.64 0.00018302 +/- 0.00008311 189.01 +/- 42.42 0.00043186 +/- 0.00012423
DATA: success (warning: decay rates inconsistent) 0.044 Belarusian Bashkir Turkish_Jewish 4.55 2.70 2.53 83% 121.78 +/- 24.93 0.00009384 +/- 0.00002064 153.64 +/- 48.19 0.00006384 +/- 0.00002366 296.25 +/- 73.05 0.00014988 +/- 0.00005929
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Nordic_LN.SG Villabruna 4.54 2.19 5.01 30% 160.01 +/- 35.24 0.00086280 +/- 0.00018037 139.86 +/- 63.88 0.00033916 +/- 0.00014340 117.88 +/- 23.51 0.00043952 +/- 0.00008295
DATA: success (warning: decay rates inconsistent) 0.0032 Belarusian Turkish_Jewish Uzbek 5.07 2.53 2.35 112% 116.58 +/- 23.00 0.00008493 +/- 0.00001382 296.25 +/- 73.05 0.00014988 +/- 0.00005929 83.46 +/- 35.51 0.00004275 +/- 0.00001721
DATA: success (warning: decay rates inconsistent) 0.0066 Belarusian Anatolia_Neolithic Brahui 4.18 4.42 2.87 37% 63.78 +/- 15.17 0.00000803 +/- 0.00000192 92.46 +/- 19.49 0.00001427 +/- 0.00000323 88.94 +/- 27.82 0.00000775 +/- 0.00000270
DATA: success (warning: decay rates inconsistent) 0.019 Belarusian Anatolia_Neolithic Burusho 3.93 4.42 2.19 47% 93.43 +/- 9.05 0.00001536 +/- 0.00000390 92.46 +/- 19.49 0.00001427 +/- 0.00000323 149.25 +/- 37.02 0.00001357 +/- 0.00000621
DATA: success (warning: decay rates inconsistent) 0.035 Belarusian Anatolia_Neolithic Itelmen 3.79 4.42 2.15 64% 69.11 +/- 15.92 0.00002889 +/- 0.00000762 92.46 +/- 19.49 0.00001427 +/- 0.00000323 134.23 +/- 58.31 0.00003278 +/- 0.00001523
DATA: success (warning: decay rates inconsistent) 0.023 Belarusian Anatolia_Neolithic Koryak 3.90 4.42 2.30 30% 82.94 +/- 21.28 0.00003363 +/- 0.00000828 92.46 +/- 19.49 0.00001427 +/- 0.00000323 111.83 +/- 48.56 0.00002562 +/- 0.00000985
DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.90 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Mixtec 3.87 4.42 2.73 71% 71.36 +/- 14.69 0.00003027 +/- 0.00000782 92.46 +/- 19.49 0.00001427 +/- 0.00000323 149.36 +/- 43.83 0.00002944 +/- 0.00001080
DATA: success (warning: decay rates inconsistent) 0.019 Belarusian Anatolia_Neolithic Pathan 3.93 4.42 2.02 42% 104.78 +/- 14.08 0.00001497 +/- 0.00000380 92.46 +/- 19.49 0.00001427 +/- 0.00000323 141.03 +/- 36.42 0.00001165 +/- 0.00000577
DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success (warning: decay rates inconsistent) 0.026 Belarusian Anatolia_Neolithic Uygur 3.87 4.42 2.54 56% 71.95 +/- 14.95 0.00001528 +/- 0.00000395 92.46 +/- 19.49 0.00001427 +/- 0.00000323 127.39 +/- 37.67 0.00001541 +/- 0.00000606
DATA: success (warning: decay rates inconsistent) 0.02 Belarusian Druze Selkup 3.93 2.02 3.14 73% 51.53 +/- 13.06 0.00001224 +/- 0.00000311 110.46 +/- 43.38 0.00001040 +/- 0.00000516 59.53 +/- 18.98 0.00000945 +/- 0.00000299
DATA: success (warning: decay rates inconsistent) 0.044 Belarusian Mala Syrian 3.73 3.87 2.84 28% 72.39 +/- 19.33 0.00000805 +/- 0.00000216 87.55 +/- 18.75 0.00001071 +/- 0.00000277 96.31 +/- 27.52 0.00000993 +/- 0.00000350
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Mixtec Spain_EN 3.85 2.73 2.67 26% 114.65 +/- 21.37 0.00005462 +/- 0.00001417 149.36 +/- 43.83 0.00002944 +/- 0.00001080 117.07 +/- 30.31 0.00002193 +/- 0.00000820
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Anatolia_Neolithic Brahui 3.70 3.45 2.55 32% 63.07 +/- 15.18 0.00000871 +/- 0.00000235 81.39 +/- 21.48 0.00001207 +/- 0.00000349 87.19 +/- 27.66 0.00000771 +/- 0.00000303
DATA: success (warning: decay rates inconsistent) 0.039 Belarusian Anatolia_Neolithic Burusho 3.74 3.45 2.00 61% 89.47 +/- 10.12 0.00001582 +/- 0.00000423 81.39 +/- 21.48 0.00001207 +/- 0.00000349 152.62 +/- 45.80 0.00001482 +/- 0.00000742
DATA: success (warning: decay rates inconsistent) 0.0013 Belarusian Anatolia_Neolithic Chukchi 4.52 3.45 2.79 35% 77.64 +/- 16.37 0.00003602 +/- 0.00000797 81.39 +/- 21.48 0.00001207 +/- 0.00000349 110.36 +/- 39.54 0.00002861 +/- 0.00000981
DATA: success (warning: decay rates inconsistent) 0.038 Belarusian Anatolia_Neolithic Selkup 3.74 3.45 2.41 38% 55.27 +/- 13.63 0.00002155 +/- 0.00000576 81.39 +/- 21.48 0.00001207 +/- 0.00000349 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Anatolia_Neolithic Sindhi 3.83 3.45 2.68 61% 65.40 +/- 9.12 0.00001072 +/- 0.00000280 81.39 +/- 21.48 0.00001207 +/- 0.00000349 122.70 +/- 32.60 0.00001132 +/- 0.00000423
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.00000250 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Uygur 3.85 3.45 2.16 37% 70.37 +/- 13.51 0.00001582 +/- 0.00000411 81.39 +/- 21.48 0.00001207 +/- 0.00000349 102.34 +/- 33.39 0.00001107 +/- 0.00000512
DATA: success (warning: decay rates inconsistent) 0.021 Belarusian British-Roman Koryak 3.89 2.37 2.28 74% 62.36 +/- 16.01 0.00003903 +/- 0.00000934 52.03 +/- 19.63 0.00002305 +/- 0.00000974 113.23 +/- 49.75 0.00002665 +/- 0.00001027
DATA: success (warning: decay rates inconsistent) 0.0084 Belarusian British-Roman Mixtec 4.11 2.37 2.50 80% 64.78 +/- 15.52 0.00004703 +/- 0.00001145 52.03 +/- 19.63 0.00002305 +/- 0.00000974 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success (warning: decay rates inconsistent) 0.01 Belarusian Chukchi Mala 4.06 2.79 4.06 60% 172.83 +/- 30.55 0.00002691 +/- 0.00000663 110.36 +/- 39.54 0.00002861 +/- 0.00000981 93.18 +/- 21.71 0.00001222 +/- 0.00000301
DATA: success (warning: decay rates inconsistent) 0.047 Belarusian Itelmen Uzbek_WGA 3.69 2.36 2.20 54% 142.22 +/- 27.73 0.00006725 +/- 0.00001821 129.35 +/- 53.29 0.00003152 +/- 0.00001338 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.009 Belarusian LBK_EN Selkup 4.09 2.18 2.41 67% 67.83 +/- 16.58 0.00002655 +/- 0.00000641 115.11 +/- 38.65 0.00001960 +/- 0.00000899 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 0.05 Belarusian Selkup Turkish_Trabzon 3.68 2.41 2.11 32% 56.53 +/- 15.37 0.00001451 +/- 0.00000330 57.06 +/- 20.02 0.00000933 +/- 0.00000386 77.83 +/- 33.34 0.00000751 +/- 0.00000355
DATA: success (warning: decay rates inconsistent) 0.017 Belarusian Abhkasian Lahu 4.21 2.47 2.97 174% 32.04 +/- 6.68 0.00001002 +/- 0.00000238 3.95 +/- 1.60 0.00000098 +/- 0.00000024 57.34 +/- 19.33 0.00001384 +/- 0.00000369
DATA: success (warning: decay rates inconsistent) 0.00018 Belarusian Ami_Coriell Uzbek_WGA 5.15 2.09 2.20 63% 162.32 +/- 22.43 0.00007649 +/- 0.00001486 118.09 +/- 56.57 0.00002688 +/- 0.00001279 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0041 Belarusian Anatolia_Neolithic Chukchi 4.52 3.45 2.79 35% 77.64 +/- 16.37 0.00003602 +/- 0.00000797 81.39 +/- 21.48 0.00001207 +/- 0.00000349 110.36 +/- 39.54 0.00002861 +/- 0.00000981
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Daur 4.12 3.45 2.63 47% 73.39 +/- 17.81 0.00002378 +/- 0.00000569 81.39 +/- 21.48 0.00001207 +/- 0.00000349 118.84 +/- 40.98 0.00002486 +/- 0.00000947
DATA: success 0.05 Belarusian Anatolia_Neolithic Han 3.96 3.45 3.00 17% 79.39 +/- 18.74 0.00002687 +/- 0.00000678 81.39 +/- 21.48 0.00001207 +/- 0.00000349 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.00002310 +/- 0.00000644
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.20 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.00000250 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success (warning: decay rates inconsistent) 0.00046 Belarusian Atayal_Coriell Uzbek_WGA 4.97 2.02 2.20 53% 179.16 +/- 31.95 0.00008213 +/- 0.00001654 130.82 +/- 54.40 0.00002576 +/- 0.00001275 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian British-Roman Mixtec 4.11 2.37 2.50 80% 64.78 +/- 15.52 0.00004703 +/- 0.00001145 52.03 +/- 19.63 0.00002305 +/- 0.00000974 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success (warning: decay rates inconsistent) 0.033 Belarusian Chukchi Mala 4.06 2.79 4.06 60% 172.83 +/- 30.55 0.00002691 +/- 0.00000663 110.36 +/- 39.54 0.00002861 +/- 0.00000981 93.18 +/- 21.71 0.00001222 +/- 0.00000301
DATA: success (warning: decay rates inconsistent) 0.009 Belarusian Dai Greek_Islands 4.35 3.05 2.28 32% 122.32 +/- 24.18 0.00004797 +/- 0.00001103 88.71 +/- 29.04 0.00001846 +/- 0.00000511 102.11 +/- 26.83 0.00001569 +/- 0.00000687
DATA: success (warning: decay rates inconsistent) 0.049 Belarusian Dai Uzbek_WGA 3.97 3.05 2.20 87% 160.47 +/- 30.16 0.00006276 +/- 0.00001582 88.71 +/- 29.04 0.00001846 +/- 0.00000511 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0015 Belarusian Daur North_Ossetian 4.73 2.63 2.09 122% 42.94 +/- 8.92 0.00000724 +/- 0.00000153 118.84 +/- 40.98 0.00002486 +/- 0.00000947 178.58 +/- 51.90 0.00001887 +/- 0.00000901
DATA: success (warning: decay rates inconsistent) 0.047 Belarusian Daur Uzbek_WGA 3.97 2.63 2.20 62% 164.70 +/- 29.83 0.00008292 +/- 0.00002087 118.84 +/- 40.98 0.00002486 +/- 0.00000947 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.00086 Belarusian Eskimo_Chaplin LBK_EN 4.84 2.29 2.18 73% 53.65 +/- 11.08 0.00002657 +/- 0.00000479 63.81 +/- 27.89 0.00001618 +/- 0.00000586 115.11 +/- 38.65 0.00001960 +/- 0.00000899
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Georgian Lahu 4.10 2.89 2.97 166% 43.55 +/- 10.61 0.00001537 +/- 0.00000311 5.27 +/- 1.82 0.00000079 +/- 0.00000023 57.34 +/- 19.33 0.00001384 +/- 0.00000369
DATA: success (warning: decay rates inconsistent) 0.05 Belarusian Georgian Yi 3.96 2.89 3.26 179% 35.28 +/- 8.91 0.00000897 +/- 0.00000226 5.27 +/- 1.82 0.00000079 +/- 0.00000023 93.65 +/- 25.60 0.00002033 +/- 0.00000624
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3.00 15% 108.92 +/- 26.70 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.50 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.20 2.28 3.37 15% 118.40 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.90 0.00002845 +/- 0.00000805
DATA: success (warning: decay rates inconsistent) 0.042 Belarusian Greek_Islands Xibo 4.00 2.28 2.59 37% 101.05 +/- 22.65 0.00003689 +/- 0.00000922 102.11 +/- 26.83 0.00001569 +/- 0.00000687 70.25 +/- 27.10 0.00001649 +/- 0.00000507
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success (warning: decay rates inconsistent) 1.8e-05 Belarusian Han Uzbek_WGA 5.56 3.00 2.20 83% 145.83 +/- 21.23 0.00006518 +/- 0.00001171 93.68 +/- 31.25 0.00002137 +/- 0.00000623 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.023 Belarusian Han Yemenite_Jew 4.14 3.00 2.19 41% 101.08 +/- 19.78 0.00002665 +/- 0.00000644 93.68 +/- 31.25 0.00002137 +/- 0.00000623 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.00017 Belarusian Han_NChina Uzbek_WGA 5.15 3.58 2.20 76% 147.58 +/- 21.48 0.00006493 +/- 0.00001261 101.71 +/- 28.43 0.00002310 +/- 0.00000644 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.021 Belarusian Han_NChina Yemenite_Jew 4.16 3.58 2.19 47% 88.25 +/- 14.91 0.00002464 +/- 0.00000593 101.71 +/- 28.43 0.00002310 +/- 0.00000644 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Japanese Uzbek_WGA 3.99 2.51 2.20 76% 158.76 +/- 32.98 0.00007182 +/- 0.00001802 101.02 +/- 40.27 0.00002259 +/- 0.00000766 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.034 Belarusian Korean Uzbek_WGA 4.05 3.28 2.20 72% 147.50 +/- 22.94 0.00006552 +/- 0.00001618 106.54 +/- 29.46 0.00002451 +/- 0.00000748 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0022 Belarusian Lahu Turkish_Jew 4.65 2.97 3.22 53% 53.69 +/- 9.97 0.00001763 +/- 0.00000379 57.34 +/- 19.33 0.00001384 +/- 0.00000369 92.56 +/- 21.52 0.00000780 +/- 0.00000242
DATA: success (warning: decay rates inconsistent) 7.8e-06 Belarusian Lahu Uzbek_WGA 5.70 2.97 2.20 119% 125.65 +/- 17.75 0.00006183 +/- 0.00001084 57.34 +/- 19.33 0.00001384 +/- 0.00000369 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.028 Belarusian Lahu Yemenite_Jew 4.10 2.97 2.19 85% 73.51 +/- 17.32 0.00002186 +/- 0.00000534 57.34 +/- 19.33 0.00001384 +/- 0.00000369 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.029 Belarusian LBK_EN Selkup 4.09 2.18 2.41 67% 67.83 +/- 16.58 0.00002655 +/- 0.00000641 115.11 +/- 38.65 0.00001960 +/- 0.00000899 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 3e-05 Belarusian Miao Uzbek_WGA 5.47 3.63 2.20 89% 141.79 +/- 17.01 0.00005964 +/- 0.00001090 86.31 +/- 23.79 0.00001726 +/- 0.00000411 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.012 Belarusian Miao Yemenite_Jew 4.29 3.63 2.19 49% 96.51 +/- 17.73 0.00002466 +/- 0.00000575 86.31 +/- 23.79 0.00001726 +/- 0.00000411 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.036 Belarusian Naxi Uzbek_WGA 4.04 2.35 2.20 87% 150.57 +/- 27.26 0.00006598 +/- 0.00001633 88.34 +/- 37.62 0.00001891 +/- 0.00000714 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0037 Belarusian Oroqen Uzbek_WGA 4.54 2.50 2.20 75% 159.87 +/- 26.32 0.00007776 +/- 0.00001713 102.18 +/- 40.85 0.00002369 +/- 0.00000834 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.043 Belarusian She Uzbek_WGA 3.99 3.16 2.20 70% 177.32 +/- 34.01 0.00008208 +/- 0.00002055 108.68 +/- 31.62 0.00002238 +/- 0.00000708 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.029 Belarusian Tu Uzbek_WGA 4.09 2.28 2.20 85% 150.44 +/- 31.12 0.00006074 +/- 0.00001485 91.29 +/- 40.04 0.00001929 +/- 0.00000802 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.001 Belarusian Tujia Uzbek_WGA 4.80 2.09 2.20 61% 164.13 +/- 25.59 0.00008133 +/- 0.00001693 120.48 +/- 57.69 0.00002290 +/- 0.00001057 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.00002290 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.0053 Belarusian Ulchi Uzbek_WGA 4.47 3.37 2.20 65% 153.49 +/- 25.35 0.00007000 +/- 0.00001567 114.38 +/- 33.90 0.00002845 +/- 0.00000805 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.00055 Belarusian Uzbek_WGA Xibo 4.93 2.20 2.59 105% 129.90 +/- 24.58 0.00005579 +/- 0.00001132 225.56 +/- 61.89 0.00007507 +/- 0.00003406 70.25 +/- 27.10 0.00001649 +/- 0.00000507
DATA: success (warning: decay rates inconsistent) 0.00062 Belarusian Uzbek_WGA Yi 4.91 2.20 3.26 83% 156.22 +/- 22.94 0.00007252 +/- 0.00001478 225.56 +/- 61.89 0.00007507 +/- 0.00003406 93.65 +/- 25.60 0.00002033 +/- 0.00000624
DATA: success (warning: decay rates inconsistent) 0.011 Belarusian Uzbek_WGA Yukagir_Tundra 4.31 2.20 2.55 61% 182.09 +/- 32.35 0.00008497 +/- 0.00001970 225.56 +/- 61.89 0.00007507 +/- 0.00003406 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success (warning: decay rates inconsistent) 0.048 Belarusian Yemenite_Jew Yi 3.97 2.19 3.26 41% 130.87 +/- 22.50 0.00003478 +/- 0.00000876 142.22 +/- 61.15 0.00001902 +/- 0.00000870 93.65 +/- 25.60 0.00002033 +/- 0.00000624

После отсеивания не очень пригодных для дальнейшего анализа триплетов  у нас осталась следующие комбинации:

DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.9 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.05 Belarusian Anatolia_Neolithic Han 3.96 3.45 3 17% 79.39 +/- 18.74 0.00002687 +/- 0.00000678 81.39 +/- 21.48 0.00001207 +/- 0.00000349 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.0000231 +/- 0.00000644
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.2 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3 15% 108.92 +/- 26.7 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.5 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.2 2.28 3.37 15% 118.4 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.9 0.00002845 +/- 0.00000805
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.0000229 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.0000087

На третьем этапе программа определяет статистическая значимость комбинации (p-статистику):

P-значение (англ. P-value) — величина, используемая при тестировании статистических гипотез. Фактически это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода). Проверка гипотез с помощью P-значения является альтернативой классической процедуре проверки через критическое значение распределения.

Обычно P-значение равно вероятности того, что случайная величина с данным распределением (распределением тестовой статистики при нулевой гипотезе) примет значение, не меньшее, чем фактическое значение тестовой статистики.

Отберем значения P меньше 0.05

DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.0000231 +/- 0.00000644
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.5 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.9 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.2 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.2 2.28 3.37 15% 118.4 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.9 0.00002845 +/- 0.00000805
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.0000229 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.0000087
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3 15% 108.92 +/- 26.7 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623

Получаем следующие пары (с датировкой адмикса в поколениях и годах)

Таргет Референс 1 Референс 2 Поколения Погрешность Года Погрешность
Belarusian Anatolia_Neolithic Turkmen 85.64 +/- 28.96 2483.56 +/- 839.84
Belarusian Anatolia_Neolithic Turkmen 72.89 +/- 23.73 2113.81 +/- 688.17
Belarusian Anatolia_Neolithic Han_NChina 101.71 +/- 28.43 2949.59 +/- 824.47
Belarusian Anatolia_Neolithic Turkmen 72.89 +/- 23.73 2113.81 +/- 688.17
Belarusian Greek_Islands Mixtec 121.19 +/- 40.18 3514.51 +/- 1165.22
Belarusian Greek_Islands Yukagir_Tundra 119.62 +/- 45.23 3468.98 +/- 1311.67
Belarusian Anatolia_Neolithic Mala 87.55 +/- 18.75 2538.95 +/- 543.75
Belarusian Anatolia_Neolithic Miao 86.31 +/- 23.79 2502.99 +/- 689.91
Belarusian Greek_Islands Ulchi 114.38 +/- 33.9 3317.02 +/- 983.1
Belarusian Tujia Yemenite_Jew 142.22 +/- 61.15 4124.38 +/- 1773.35
Belarusian Greek_Islands Miao 86.31 +/- 23.79 2502.99 +/- 689.91
Belarusian Greek_Islands Nganasan 97.92 +/- 45.95 2839.68 +/- 1332.55
Belarusian Greek_Islands Han 93.68 +/- 31.25 2716.72 +/- 906.25
Belarusian Anatolia_Neolithic Han 93.68 +/- 31.25 2716.72 +/- 906.25

О чем свидетельствует результаты? Результаты указывают на наличие сигнала смешивания предковых популяций белорусов с неолитическими земледельцами (ближневосточные популяции и популяции ближнего Востока здесь выступают в качестве суррогата неолитических популяций), и с рядом восточноазиатских, сибирских и америндских популяций (здесь они выступают в качестве суррогата сибирского вклада в генофонд восточной Европы) cо средним интервалом смешения примерно 2850 +- 950 лет назад, т.е в период бронзового века.

Ниже приведены графики угасания LD в комбинации Anatolian-Neolithic + Mala

Затем я уменьшил масштаб подгонки (fitting) кривых угасания LD до 0.5 сантиморганид и взял в качестве референса  палеогеномы с хорошим покрытием

Эксперимент с Loschbour + Stuttgart оказался неудачным.

Более правдоподобна комбинация андроновцев (Andronovo) и чукчей (дата адмикса — 125+-60 поколений тому назад)

Вторая попытка подгонки референсных популяций Loschbour и Stuttgart в качестве предковых групп оказался более удачным (дата адмикса — приблизительно 445 +- 56 поколений тому назад, времена энеолита)

Адмикс с сибирскими палеопопуляциями (MA1) примерно в два раза «моложе» (258 +- 42 поколения, бронзовый век)

Еще один вариант адмикса между палеолитическими жителями Европы и MA1 (датировка — 393 +- 75 поколений)

Теперь о поляках. К сожалению, результаты оказались гораздо более зашумленными, так как использовались данные генотипирования на платформе Illumina, имеющей меньшее пересечение снипов со снипами платформы Affymetrix HumanOrigins. Несмотря на это, программа ALDER нашла три комбинации, пусть и с несовместимой амплитудой угасания LD.

DATA: success (warning: decay rates inconsistent) 0.011 Pole Eskimo_Sireniki Irish-BA 3.87 2.01 2.53 40% 146.66 +/- 27.30 0.00035747 +/- 0.00009228 161.51 +/- 69.51 0.00013202 +/- 0.00006577 107.56 +/- 33.31 0.00015435 +/- 0.00006109
DATA: success (warning: decay rates inconsistent) 0.0068 Pole Eskimo_Sireniki Remedello_BA.SG 3.99 2.01 2.57 49% 110.88 +/- 21.02 0.00024049 +/- 0.00006022 161.51 +/- 69.51 0.00013202 +/- 0.00006577 182.60 +/- 39.99 0.00014922 +/- 0.00005796
DATA: success (warning: decay rates inconsistent) 0.035 Pole Eskimo_Chaplin Remedello_BA.SG 3.59 2.51 2.57 56% 102.38 +/- 21.46 0.00022199 +/- 0.00006181 126.26 +/- 42.96 0.00009643 +/- 0.00003846 182.60 +/- 39.99 0.00014922 +/- 0.00005796

Здесь тоже виден слабый сигнал адмикса популяций бронзового века из Западной Европы (Remedello и ирландского бронзового века) c америндскими популяциями.

Впрочем, дополнительный анализ в программе ROLLOFF (с уменьшенным масштабом подгонки — fitting) выдал правдоподобные (c низким значением P) варианты. Например, вариант Bichon + Georgian_Kakheti: 151.41 +/-38.18, p= 4.7e-06

Очень хорошим вариантом оказался вариант адмикса Esperstedt_MN-Halberstadt_LBA: (дата адмикса — 163.80 +/- 34.11), p=4.8e-07

О «ближневосточном компоненте» палеолитических охотников-собирателей Европы

Сергей Козлов

О «ближневосточном компоненте» палеолитических охотников-собирателей Европы

Описание
Рассмотрена статья Qiaomei Fu et al. «The genetic history of Ice Age Europe». Проведен анализ европейских палеогеномов возрастом от 37 до 8 тысяч лет из данной статьи и более ранних работ. Аутосомный компонент западных охотников-собирателей (WHG) — преимущественно результат генетического дрейфа, гипотеза авторов о его формировании в результате однократной миграции в Европу около 14 тысяч лет назад носителей ближневосточных аутосомных компонентов несостоятельна. Вместе с тем, обмен генофондом с ближневосточными популяциями несомненно происходил, однако для прояснения его истории необходимы палеогеномы с Ближнего Востока. Подтверждаются выводы из более старых работ о наличии ближневосточного («базального») компонента у образца Костенки-14 (человек с Маркиной Горы), отрицаемые в рассматриваемой статье. Вероятно, он связан с компонентом охотников-собирателей Кавказа (CHG). Опровергается вывод авторов о восточноазиатском влиянии на поздних WHG. Проведено моделирование ряда возможных событий смешения и построено дерево вероятных взаимосвязей аутосомных компонентов с размещением на нем имеющихся палеогеномов.

Обсуждение работы Qiaomei Fu et al на форуме «Молекулярная генеалогия».

Новые палеогеномы из статьи
В рассматриваемой статье впервые произведен временной срез геномов жителей Европы верхнего палеолита. Конечно, единичные геномы у нас были и раньше (Костенки-14, Oase1), однако не хватало системности для построения целостной картины изменений в генофонде европейцев на протяжении этого периода. Статья частично решает эту проблему — прочтено несколько десятков новых геномов. К сожалению, остался неохваченным период 19-28 тысяч лет назад (а с учетом лишь геномов приемлемого качества — 19-30 тлн), но и имеющиеся образцы позволяют сделать ряд интересных выводов.

Коротко о содержании рассматриваемой работы, критика
Авторы подтверждают выводы из более ранних работ об угасании вклада неандертальцев в генофонд современных европейцев с ходом времени (предположительно, на неандертальские участки ДНК действовал отрицательный отбор). Далее они касаются нескольких интересных мелочей (присутствие Y-гаплогруппы R1b в палеолитической Европе — образец Villabruna возрастом 14 тысяч лет, появление «мутации светлоглазости» почти одновременно в Европе и на Кавказе (разумеется, это не отменяет вероятности нахождения более древних образцов с этой мутацией впоследствии) и необычные для региона в наши дни митогаплогруппы). После этого авторы переходят к объединению образцов в кластеры и попытке реконструкции их взаимоотношений. По сути, здесь все просто — европейские палеогеномы из одной эпохи объединяются в один кластер. Классические европейские WHG выступают под псевдонимом «кластер Villabruna», их непосредственные предшественники — el Miron, и ряд геномов возрастом 30 тысяч лет (из них лишь один заслуживающего рассмотрения качества) — кластер Vestonice. Чуть более старые GoyetQ116-1 и костенковец не вошли ни в один кластер. Далее делается очень странный вывод, что с появлением кластера Villabruna (в дальнейшем я буду называть их «WHG» согласно общепринятой терминологии), произошло резкое изменение генофонда в результате вливания компонента, связанного с современными ближневосточными популяциями. Формально приводится и альтернативное объяснение — результат нормальной изменчивости среди охотников-собирателей, и группы с меньшей общностью с Ближним Востоком были замещены группами, изначально имевшими большую общность. Однако в abstract статьи попал лишь первый вариант.

Мое объяснение
Даже из диаграммы, которая должна иллюстрировать точку зрения авторов, следует прямо противоположный ей вывод — изменения, относимые к появлению классических WHG, начались задолго до этого и происходили постепенно. «Ближневосточное влияние» (зеленые ромбики) появляется в заметных масштабах уже в предшествующем кластере el Miron, на пять тысячелетий ранее. Но перед этим кластером находится разрыв в девять тысячелетий, где, вполне возможно, мы тоже могли бы увидеть это влияние. Однако на картинке разрыв закрыт и создается впечатление резкого перехода.
Исходное изображение:

ИсходнаяСхема
Отмасштабированная пропорционально реальной временной шкале картинка:
Безымянный-3
Как я покажу в дальнейшем, общность палеообразцов с классическими WHG и современными северными европейцами (которые являются преимущественно потомками WHG) с ходом времени росла постоянно — от костенковца и GoyetQ116-1 к el Miron, Villabruna и Loschbour. По моим предположениям, основной механизм здесь — дрейф генов. Не надо думать, что это был некий целенаправленный процесс — наоборот, дрейф генов во многом случаен (хотя и отбор наверняка сыграл свою роль), но именно то, что получилось в его результате, и стало европейскими охотниками-собирателями мезолита. Поэтому естественно, что чем ближе к нашему времени, тем выше сходство с итоговым результатом процесса.
Вместе с тем, с ходом времени мы наблюдаем и относительное повышение общности с ближневосточными популяциями, хотя и в заметно меньшем масштабе. Однако трудно сказать, кто, когда, сколько раз и на кого влиял. Допустим в качестве модели, что несущие компонент WHG группы повлияли на ближневосточников в относительно недавнем прошлом. Тогда повышение сходства палеогеномов с WHG автоматически будет немного повышать сходство и с ближневосточниками пропорционально доле WHG в их генофонде, даже если в ту эпоху на Ближнем Востоке о WHG и не слыхали. С другой стороны, небольшие равномерные вливания с Ближнего Востока в Европу могли дать такой же эффект. Или же третья группа, вроде CHG, могла повлиять как на WHG, так и на ближневосточников (необязательно одновременно). Словом, точку здесь поставит лишь хорошая выборка палеогеномов с Ближнего Востока -сравнение с современными популяциями всегда оставит место гаданиям.
Что касается восточноазиатского влияния на часть WHG (внимательные читатели критикуемой работы могли заметить, что оно «проявляется» и у одного из древнейших образцов — GoyetQ116-1), то оно объясняется ошибочностью принятия основой для сравнения образца Kostenki-14. Далее я еще коснусь этого.

Использованные для анализа методы и палеообразцы, причины их выбора
В этой заметке я не стал применять свой излюбленный метод — подсчет сумм общих (IBD) сегментов. Хотя качество некоторых образцов вполне позволяет его применить, трудно понять, как при этом надежно сравнить между собой образцы из эпох, разделенных десятками тысячелетий? Ведь сегменты со временем уменьшаются в размерах, при этом скорость процесса сильно зависит от популяционной истории — в одной выборке быстрее, в другой медленнее… Добавим к этому резко различающееся качество прочтения палеогеномов, и за корректность сравнения поручиться становится совершенно невозможно.
Поэтому я решил пойти путем подсчета доли общих снипов (IBS), как простого и объективного показателя. Чем больше значений снипов совпадает, тем выше генетическая близость. Я не согласен с мнением, что учитывать надо лишь производные (derived) аллели — ведь если оба варианта закрепились в популяции, то для дрейфа генов уже безразлично, какой из них предковый. Для того, чтобы поставить геномы разного качества в одинаковые условия, я случайным образом выбрал для каждого аллеля одно из прочтений и оставил лишь его, то есть создал искусственную гаплоидность, как часто делается с палеогеномами от лаборатории Райха. Обычно я ругаю этот подход, как разрушающий IBD-сегменты, но в данном случае он приносит пользу. Далее я ограничил набор снипов пересечением трех множеств — снипы, используемые мной для сравнения с современными выборками и снипы, прочитанные у образцов Villabruna и GoyetQ116-1. Более логично было бы выбрать в качестве базового образца WHG прочитанный наиболее качественно из всех Loschbour, однако носитель R1b Villabruna в любом случае будет вызывать интерес общественности и подозрения в отличиях от других WHG, поэтому решение было принято в его пользу. Что касается GoyetQ116-1, то из всех древних образцов он наиболее связан с «промежуточным» между палеолитическими европейцами и WHG el-Miron, за что и был выбран в качестве второй опоры. Итоговый набор составил около 107 тысяч снипов. Для сравнения Villabruna и Goyet с el Miron было проведено отдельное уменьшение набора до присутсвующих у всех троих 65 тысячи снипов.
Среди остальных использованных палеообразцов хорошо прочитанные Loschbour, Ust-Ishim, Kostenki, NE1, Kotias отмасштабировались практически без потерь в количестве снипов, Mota1 и Motala12 — с незначительными потерями. Несколько хуже отмасштабировались Vestonice16, «карел» c Оленьего острова I0061, «мальтинец» и один из наиболее ранних геномов неолитчических земледельцев Анатолии I0707, но они также были включены в сравнение, поскольку представляют явный интерес. Судя по сравнению результатов I0707 и его близкого аналога из Европы NE1, подсчеты сохранили корректность.

Таблица результатов и ее применение
Результаты сравнения сведены в таблицу, с которой желающие могут ознакомиться по ссылке. Кроме современных выборок, приведены и выборки из имеющихся палеогеномов (конец таблицы), хотя их качество очень разное. Впрочем, интересующие нас в первую очередь западные охотники-собиратели WHG и ранние неолитические земледельцы Анатолии AEF представлены вполне неплохо, хотя по Анатолии пока, к сожалению, охвачена лишь крайняя западная часть. Наиболее древние европейцы — Kostenki14, GoyetQ116-1, Vestonice16 объединены в выборку pre-WHG. Число в каждой ячейке — доля совпадающих аллелей для текущего образца с этой выборкой — допустим, 65 означает 65% общих снипов (на данном наборе снипов — число сильно зависит от набора).
Несмотря на все ухищрения, призванные поставить геномы в равные условия, прямое сравнение результатов оказалось невозможным — у некоторых образцов чуть больше совпадающих снипов со всеми выборками, у некоторых — чуть меньше. Разница невелика, но в этом методе играют роль даже доли процента. Возможно, причина — в разном качестве прочтения, возможно — индивидуальные особенности образцов или что-то еще. Однако решение проблемы существует. Поскольку увеличение или уменьшение доли совпадающих снипов примерно пропорционально для всех выборок, можно взять соотношение этой доли с выборкой, равно удаленной от всех («outgroup»). В качестве подобного ориентира я решил взять объединение всех четырех используемых мной выборок из Африки южнее Сахары — представителей пигмеев мбути и бьяка, кенийских банту, нигерийского племени йоруба. На графике ниже приведена доля общих снипов для каждого из палеогеномов с соответствующей выборкой (Balt, Druze, WHG и т.д.) после приведения доли общих снипов с африканцами к одинаковому с другими образцами значению путем домножения на коэффициент. Для проверки корректности метода на график помещены другие outgroups, которые в исследуемый период явно не могли участвовать в обмене генами ни с африканцами, ни с исследуемыми палеообразцами — выборка папуасов. Как интерпретировать их результат, я опишу чуть ниже.
График1
Палеогеномы (kya означает тысяч лет назад):
Ust-Ishim — усть-ишимский человек, наиболее древний приемлемо прочитанный геном человека современного типа.
Kostenki-14, GoyetQ116-1, Vestonice16 — древние геномы из Европы
el-Miron — предшественники WHG
Villabruna, Loschbour — WHG
Motala12 — охотник-собиратель из Швеции, представитель группы SHG (охотники-собиратели Скандинавии)
Karelian — образец с Оленьего Острова, так называемый EHG (восточный охотник-собиратель). Malta — древний «сибиряк» со стоянки Мальта, образец аутосомного компонента ANE — предковые северные евразийцы
EHG находятся в промежутке между WHG и ANE и, вероятно, являются их смесью.
I0707 — ранний неолитический земледелец с запада Анатолии
NE1 — ранний неолитический земледелец с территории Венгрии
Kotias — мезолитический охотник-собиратель с Кавказа

Ради интереса я также поместил на график результаты современного восточноевропейца с предками из трех восточнославянских народов (Modern EE).

Левая часть графика иллюстрирует изменения в генофонде европейцев с течением времени (усть-ишимский человек добавлен для сравнения, хотя он и не из Европы), правая — другие представляющие интерес геномы.
При сравнениях палеогеномов с палеовыборками сравнение «сам с собой» пропускалось.

Интерпретация сравнения с выборкой папуасов
Как мы видим, соотношение «родство с папуасами»/»родство с африканцами» для палеоевропейцев представляет собой почти горизонтальную линию. Это значит, что с какой скоростью европейцы «отдрейфовывали» от папуасов, примерно с такой же они отдалялись и от суб-сахарцев. Выглядит логично. Усть-ишимец выше всех, и это тоже логично — ведь он находится наиболее близко во времени к моменту расхождения папусов, восточноазиатов и WHG/ANE — значит, он и должен иметь относительно больше общего с папуасами. С другой стороны, для образца Kotias, имеющего много «базального» компонента, логично иметь заметно более низкое значение этого соотношения — момент расхождения «базальников» и предков остальных не-африканцев (включая папуасов) был очень давно. Ранние земледельцы, как смесь «базальников» и WHG, закономерно находятся в промежутке между WHG и Kotias. Даже неравномерности в графике охотников-собирателей находят свое объяснение — как я покажу позже, у костенковца вероятно небольшое влияние «базальников», и он проваливается на графике. Также я предполагаю небольшое базальное влияние у WHG и el Miron — соответственно, они находятся чуть ниже Goyet, мальтинца и оленеостровца. Итак, контрольная проверка показала применимость метода.

Важная ремарка — когда я в дальнейшем буду писать о росте доли общих снипов (график с течением времени идет вверх), надо понимать, что этот рост относительный. Есть некий базовый «уровень разбегания» — это скорость, с которой мы с каждым поколением отдаляемся от африканцев и папуасов из-за дрейфа генов и других факторов. Если в относительных значениях общность с друзами растет, это не значит, что она точно растет в абсолютных значениях — возможно, она тоже падает, но из-за обмена генами с нами падает медленнее, чем могла бы. А может, с друзами общность медленно растет, но с отстающими от них йеменцами медленно падает. Все зависит от соотношения скорости дрейфа генов, который нас растаскивает, и скорости обмена генами, который объединяет. В данном случае нас интересует, что удается увидеть наличие факта этого обмена.

Интерпретация графика
В первую очередь бросается в глаза пунктирная красная линия вверху — доля общих снипов с выборкой WHG. Как легко заметить, рост был почти непрерывен в течение всего времени, лишь, немного споткнувшись на образце Vestonice (возможно, поэтому в статье отнесли этот кластер к «тупиковой ветви». Впрочем, на сравнении с балтской выборкой такого не происходит, а современные выборки все же качеством на порядок выше — значит, доверия им больше). Ниже сплошной красной линией приведено сравнение с наиболее близкой к WHG выборкой наших современников — жителями восточного побережья Балтики (выборка Balt состоит из 11 литовских образцов, 6 латышских, 2 из Латгалии и одного с российско-латышской границы). Здесь картина аналогична — каждый следующий во времени образец ближе к балтам, чем предыдущий, включая даже Vestonice16. Очевидно, что объяснить это монотонное приближение единоразовой миграцией невозможно, а вот процессы генетического дрейфа укладываются в модель замечательно. Зеленые линии — аналогичная пара для неолитических земледельцев (пунктир) и считающихся (по результатам аутосомного анализа) наряду с армянами их наиболее сохранившимися представителями на Ближнем Востоке друзами Палестины. Здесь мы тоже видим рост, но более медленный по сравнению с ростом сходства с WHG. Если учесть, что порядка четверти генофонда AEF считается полученным от WHG, то примерно половину роста необходимо отнести на этот фактор. Оставшаяся половина и будет искомым обменом генами между «базальниками» и WHG. Для моделирования «базальников» зачастую применяют выборку из Йемена, как наиболее отдаленную от европейцев среди ближневосточников. Неизвестно, насколько это моделирование корректно, однако я включил их в сравнение (голубая линия). Родство с ними также растет, хотя и медленнее, чем с AEF или друзами. Однако, начав заметно ниже папуасов, ближе к нашему времени йеменцы успешно обгоняют их и становятся более близкими к WHG. Ведь обмен генами с йеменцами гораздо менее затруднен географически, чем с папуасами.

Несколько слов о правой половине графика
Представитель сестринской к WHG клады — ANE, мальтинец (24 тлн), обладает относительным сродством с WHG примерно на уровне европейских образцов 30-37 тысяч лет назад. Можно предположить, что момент расхождения был не слишком задолго до этого времени. При этом сродство с «балтской» выборкой относительно выше — поскольку в Восточной Европе присутствует не только WHG, но и доля ANE. У «карела» EHG связь с WHG закономерно выше (поскольку он и сам частично WHG), соответственно выросла и связь с ближневосточниками. То же самое, но в еще большей степени можно сказать про образец из Швеции Motala12 (скандинавские охотники-собиратели — SHG считаются WHG с примесью ANE). На паре AEF/NE1 можно пронаблюдать, как при продвижении в Европу у неолитчиков вырос вклад WHG, зато упал «ближневосточный» компонент. У «палеокавказца» Kotias по сравнению с ними резко падает связь с восточноевропейцами, и менее резко, но тоже падает — с ближневосточниками.

Определенный интерес представляет и сравнение с некоторыми другими современными выборками. Я не стал помещать их на основной график, чтобы избежать его перегруженности, но размещаю более полный вариант ниже.
График2
Сардинцы добавлены, как наиболее яркие современные представители неолитических земледельцев, удмурты — как связанные с EHG, корнцы — с более западным вариантом WHG, калаши — за «калашский» кластер, кеты и южноамериканские индейцы каритиана — за связь с ANE.

Карты для палеогеномов

Теперь перейдем к рассмотрению каждого из палеогеномов отдельно. Для начала несколько слов об усть-ишимце. Хотя он и наиболее близок к общему корню, но все же, судя по всему, в его времена расхождение неафриканского человечества на основные ветви уже состоялось. Ближайшими к усть-ишимцу выборками оказались меланезийцы и папуасы, далее идут жители юго-восточной Азии, тамилы и восточноазиаты.

Каждая карта нормируется отдельно — ярко-красным выделяется наиболее хорошо связанная с этим геномом выборка из представленных, ярко-зеленым — наименее связанная. Не представленные на карте выборки (четыре африканские, две америндские, папуасы и меланезийцы) в нормировании не участвуют, по сравнению с африканцами все неафриканцы были бы просто разными оттенками красного. Карты в этой статье построены согласно доле общих снипов (IBS), по тем же таблицам, что и предыдущий график. Это не IBD-анализ. В более хорошем качестве карты можно загрузить отсюда
UstIshim.png
Хотя европейцы и среднеазиаты чуть ближе к усть-ишимцу, чем североафриканцы и ближневосточники, разница сравнительно невелика. Частично удаление европейцев от усть-ишимца следует отнести на влияние «базальников», но думаю, WHG и сами по себе успели хорошо удалиться от восточной ветви человечества. Поэтому на роль представителя общей для всех базы усть-ишимец не годится.

GoyetQ116-1
По причинам, описанным мной в разделе «Использованные для анализа методы и палеообразцы», из наиболее древних европейских геномов на роль «базового» был выбран GoyetQ116-1. И, как показывает карта, уже 35 тысячелетий назад европейские аутосомы начали приобретать свои основные черты. На первом месте по схожести — уже упоминавшаяся выборка «Balt», она будет попадаться нам вновь и вновь. Родство с остальными европейцами выражено вполне отчетливо. Однако интересно обратить внимание на другие регионы. Во-первых, родство с североафриканскими и ближневосточными популяциями находится на том же уровне, что и родство с восточноазиатами. Видимо, мы поймали тот момент, когда протоевропейцы были равноудалены от этих двух стволов. В дальнейшем родство с восточноазиатами будет ослабевать, а с ближневосточниками — усиливаться. Как говорится, «география-это судьба».

GoyetQ116-1.png
Еще раз повторюсь, что речь идет о современных ближневосточниках. Насколько они репрезентативны по сравнению с населением региона 10, 20, 50 тысяч лет назад — совершенно непонятно.
Очень интересно «вторичное пятно» в Индии. Вероятно, оно было бы соединено яркой полосой с европейским ареалом, если бы не размывшие ее миграции «базальников» с юго-запада и восточноазиатов с северо-востока. При этом в юго-восточной Индии и Бирме ареал связи с прото-WHG перекрывается с ареалом хорошей связанности с усть-ишимцев. Не отсюда ли когда-то разошлись две наших ветки? Я не являюсь специалистом по Y-гаплогруппам, но кажется, с максимумом разнообразия макрогаплогруппы K, включающей в себя в качестве ветвей такие известные гаплогруппы, как N, O, R, Q, это соотносится хорошо (в таком случае, «базальников» можно связать с IJ). Разумеется, сюда также относится оговорка о возможной несхожести современного и древнего населения.

Vestonice16
Картина для Vestonice16 довольно схожа с картой GoyetQ116-1.

Vestonice16.pngПри сравнении видно, что связь с восточной (и в первую очередь Юго-Восточной) Азией несколько ослабла, а связь с западными выборками (как европейскими, так и ближневосточными) слегка усилилась. Однако разница невелика и из-за этого сравнительная карта выглядит некрасиво. Чтобы избежать загромождения излишними иллюстрациями, ее не привожу.

Kostenki14
Как и Вестонице, костенковец весьма схож с GoyetQ116-1. В данном случае мне хочется привести именно карту разницы со вторым палеогеномом, чтобы продемонстрировать его «южный» компонент. Зеленое — больше общего с костенковцем, красное — с Goyet.
GoyetQ116-1VsKostenki14Merged.png
Из-за схожести двух геномов карта очень зашумлена, однако противоположности проявляются хорошо. Ярко-зеленое прекрасно совпадает с областью распространения компонента кавказских охотников-собирателей CHG (ниже будет приведена карта и для них). Видны его максимумы на Кавказе и у калашей, на Балканах, и даже (хотя это может быть погрешностью) замечавшееся при анализе «ямных» геномов пятно в северо-западной Европе. Красное же в юго-восточной Азии — район максимальной «небазальности». Оттенки бурого и близкие к ним разглядывать нет смысла, также, как и отдельные «выбросы».
Как будет показано далее, костенковец наиболее успешно моделируется, как смесь 86% GoyetQ116-1 и 14% Kotias. Строго говоря, мы не можем утверждать, что GoyetQ116-1 представляет чистых прото-WHG, а костенковец является смесью с южанами. Не исключено, что «южный» компонент присутствует и у GoyetQ116-1, просто его меньше. В конце концов, смешение могло произойти еще по пути в Европу.

el Miron
Закончив с наиболее древними геномами, мы можем перейти к рассмотрению динамики европейского генофонда во времени (впрочем, до момента прибытия неолитических земледельцев она довольно однообразна). Поэтому ближайшие карты будут только сравнительными. Итак, красное — выборки, сходство с которыми у образца el Miron (19 тлн) усилилось по сравнению с образцом GoyetQ116-1 (35 тлн). зеленое — выборки, сходство с которыми ослабло. Бурое — возможно, слегка усилилось, возможно, ослабло, но не так сильно, как с зеленым. Об этом я написал в разделе «важная ремарка» после графика.

elMironVsGoyetQ116-1.png

Villabruna

VillabrunaVsElMiron.pngКак видите, прибытие Villabruna никакого переворота не произвело. Как и раньше, с ходом времени сходство с циркумбалтийцами усиливалось, с восточноазиатами — ослабевало, с ближневосточниками — то ли слегка усиливалось, то ли медленно ослабевало, но медленнее, чем с восточноазиатами.

Loschbour
Этот образец настолько схож с предыдущим (см график), что разностная карта показывает один шум. Поэтому я приведу конечный итог — вот к чему пришли WHG спустя 29 тысячелетий:
LoschbourVsGoyetQ116-1.png
А также сравнение — где произошли наибольшие изменения
Сравнение Loschbour и GoyetQ116-1

LoschbourVsGoyetQ116-1.png
Дальше всего «убежали» от протоевропейцев жители юго-восточной Азии, далее идут Индия, Восточная Сибирь и Северная Африка. За пределами основного региона меньше всего «скорость убегания» на Северном Кавказе, у ираноязычных памирцев, греков-киприотов и кетов (везде можно предположить контакты с носителями WHG).

Теперь перейдем к Кавказу и Анатолии. Уже упоминавшийся в пояснениях к карте для костенковца кавказский охотник-собиратель Kotias:

Kotias.png

Интересно попытаться расщепить этот компонент на составляющие. В значительной части он несомненно связан общим корнем с прото-WHG (хорошо выделяются оба значимых для этого компонента региона — Европа и Индия). Попробуем вычленить не-WHG часть путем сравнения с GoyetQ116-1.

KotiasVsGoyetQ116-1.png

В первую очередь закономерно выделяются зоны наибольшего распространения CHG — Кавказ и Афганистан (калаши)/Пакистан/Иран. Однако кроме этого, проявляется и связь с Ближним Востоком, Анатолией, Балканами — регионами распространения ранненеолитических земледельцев. Таким образом, можно предположить, что у CHG имеется связь с ближневосточным аутосомным компонентом (знаменитые «базальники»), который впоследствии стал основой генофонда неолитических земледельцев и через них повлиял на современных европейцев. Потому-то Европа и выглядит на этой карте в целом нейтрально — на юго-востоке персиливает влияние «базальников», на северо-востоке — WHG. И наоборот, Восточная Азия, куда базальники не добрались, оказалась ярко-зеленой — это говорит о том, что время их расхождения с восточноазиатами древнее, чем время расхождения восточноазиатов и WHG.

Тот же самый эффект, но с противоположной стороны мы можем наблюдать, сравнив Kotias и геном ранненеолитического земледельца из Анатолии:KotiasVsAEF.png

Поскольку теперь Kotias менее «базальный», на этот раз Восточная Азия оказалась красной. Хотя наиболее выражен «не-базальный» компонент Kotias в Индии. Поэтому я считаю, что компонент CHG следует считать смешанным между «ближневосточным» (предковым к AEF) и «индийским» (предковым к WHG) компонентом.

Раз уж я неоднократно упомянул AEF, приведу карту и для представителя этой выборки I0707.

AEF.png

Среди наших современников наиболее схожими с ним являются жители острова Сардиния, находящемся в западной части Средиземного Моря. Можно сказать, что компонент ранних земледельцев сохранился там, словно в заповеднике. В целом он лучше представлен в южной Европе, чем на Ближнем Востоке. Хотя не стоит забывать — для анализа у нас есть лишь палеогеномы с крайнего запада Анатолии, на границе с Европой. Вполне возможно, что ближневосточные геномы оказались бы ближе к современным выборкам с Ближнего Востока. Пока же мы можем сказать, что в регионе наиболее схожими с имеющимися образцами неолитчиков оказались армяне, друзы и греки-киприоты.

Наконец, последними я хочу привести две карты для образца возрастом в 24 тысячелетия со стоянки Мальта в Прибайкалье. На основе его анализа в свое время было выдвинуто предположении о существовании «популяции-призрака» — ANE, предковых северных евразийцев, которые повлияли на многих соседей, в том числе на американских индейцев, но сами к нашему времени исчезли. ANE считаются родственной к WHG веткой и не несут восточноазиатского или ближневосточного влияния. В схожести картин можно легко убедиться:

MaltaIBDext.png

Если WHG это западный вариант, то у ANE основная тяжесть приходится на выборки из Западной Сибири (кеты), Урала (манси) и недавных мигрантов из этого же региона (саами). Очевидно, в прошлом ареал ANE простирался заметно восточнее, но к нашим дням они оказались вытеснены мигрантами с юга, из Восточной Азии. Интересно сравнить, каковы же основные отличия ANE от прото-WHG:

MaltaVsGoyetQ116-1.png

Пятно в западной Сибири вполне ожидаемо. Меня более заинтересовало пятно вокруг выборки калашей в средней Азии. Если вспомнить о связи этого же региона с кавказскими охотниками-собирателями, то уместно предположить, что здесь мы нащупали корень не-ближневосточной части CHG. При анализе Admixture мальтинец показывал наличие около 30% CHG, поэтому я долго ломал голову, как связать этот факт с явной не-ближневосточностью мальтинца. Теперь все становится на свои места — взаимосвязь идет через «калашский» компонент.
Что касается отличий прото-WHG от ANE, то они чуть ближе к восточноазиатам (может, их точка отделения чуть юго-восточнее, чем у ANE?), и ближе к «базальникам», что вновь заставляет меня думать о «базальном» влиянии уже у GoyetQ116-1. В конце концов, если у двух других образцов оно есть, может быть и у этого. Но пока более «чистых» образцов у нас нет, сравнить не с кем. С другой стороны, мальтинский образец на одиннадцать тысячелетий моложе — возможно, за это время он сильнее отдрейфовал от остальных веток.

Численная оценка доли вклада каждого компонента в некоторые из адмиксов.
В процессе работы над сравнительными картами у меня возникла мысль, не попробовать ли сделать численную оценку на основе все тех же таблиц общности IBS с современными выборками. Действительно, если я предполагаю, что не-WHG компонент костенковца очень похож на результаты кавказского охотника-собирателя Kotias, то я могу проверить, насколько близка к костенковцу будет комбинация 1% Kotias + 99% GoyetQ116-1, 2% Kotias + 98% GoyetQ116-1 и так далее, проверив сумму среднеквадратичных отклонений по всем столбцам. Для того, чтобы исключить влияние уже упоминавшегося в начале статьи эффекта, для каждой тройки сравниваемых геномов производилось нормирование. Таким образом, суммы IBS с современными выборками по каждому геному совпадали.

Для проверки модели я решил использовать геном, смешанное происхождение которого достоверно известно. Как мы знаем, по мере продвижения в Европу и с ходом тысячелетий исходный генофонд неолитических земледельцев постепенно размывался благодаря влиянию местных охотников-собирателей. Следовательно, геном семитысячелетней давности земледельца из Венгрии NE1 должен хорошо моделироваться, как смесь земледельца из Анатолии AEF (возраст генома на тысячу лет больше) и WHG. Так и получается — если в роли представителя WHG выступает более ранний геном Villabruna, модель предсказывает соотношение 11% WHG на 89% AEF, для более позднего Loschbour соотношение почти такое же — 10% WHG на 90% AEF. Среднеквадратичное отклонение при этом меньше единицы — в дальнейшем будем считать такое значение признаком того, что смешение моделируется хорошо.
Ряд результатов для заинтересовавших меня вариантов моделирования приведен на изображениях ниже:
Оракул01.png
Кратко прокомментирую. При попытке смоделировать NE1, как смесь WHG и CHG отклонение резко возрастает, что говорит о неудачности такой модели по сравнению с предыдущим вариантом. Родственные WHG охотники-собиратели ANE могут частично служить заменой Villabruna, однако результат хуже. Таким образом, результаты моделирования полностью соответствуют здравому смыслу. Я решил попробовать сделать еще один шаг и ввести в модель искусственный образец «базальника», полученный вычитанием из геномов неолитических земледельцев 15-20 процентов вклада WHG. Конечно, точная доля компонента WHG в геномах неолитчиков нам неизвестна, однако это лучше, чем применять в качестве «базального» образца геном AEF.
Результат костенковца действительно лучше всего моделируется, как смесь 86% прото-WHG и 14% CHG (Kotias), что мы и наблюдали на сравнительной карте. Чуть хуже вариант 94% прото-WHG на 6% базальников. Для другого древнего образца из Европы, Vestonice16, картина противоположная — базальники лучше подходят в качестве второй стороны, чем кавказцы. Интересно, что наиболее старые образцы Y-гаплогруппы I пока что найдены именно у представителей кластера Вестонице — возможно, это не случайное совпадение и вливание «базального» компонента связано с приходом носителей этой гаплогруппы.
«Опорный» прото-WHG GoyetQ116-1 не моделируется, как смесь кого-либо из двух других представителей группы и южан. Однако он может быть относительно неплохо смоделирован, как 88% костенковца и 12% мальтинца. Вероятно, это связано с отсутствием «базального» компонента у образца со стоянки Мальта.

Оракул02.png
Носитель R1b Villabruna может быть смоделирован, как смесь одного из своих предшественников и базальников, однако отклонение при этом слишком велико, чтобы считать моделирование успешным.
CHG Kotias плохо моделируется, как смесь каких-либо двух других образцов. Наиболее удачный вариант — 48% Мальта и 52% базальники (что еще раз говорит о его промежуточном положении между двумя кладами).
«Оленеостровец» EHG наиболее хорошо моделируется, как  смесь 51% SHG (Motala12) и 49% ANE (мальтинец), отклонение великовато.

Оракул03.png
«Скандинав» Motala12 хорошо моделируется, как смесь 72% WHG и 28% EHG
Промежуточный между прото- и классическими WHG образец el Miron оптимально моделируется именно как смесь первых (GoyetQ116-1) и вторых (Villabruna). Однако при этом он оказывается ближе к более древним родственникам, хотя расстояние по времени до них гораздо больше. Возможно, это объясняется ускорением дрейфа в эпоху 19-14 тлн, но мне кажется более правдоподобным другое объяснение — WHG это потомки сестринской к el Miron ветви, поэтому часть дрейфа у них прошла отдельно.

Дерево вероятных взаимосвязей
Попытавшись максимально подробно и непротиворечиво свести вместе как данные, полученные в результате вышеописанных исследований, так и информацию из других работ, я изобразил дерево возможных взаимодействий палеообразцов и аутосомных компонентов. Схема достаточно условна, поэтому размещать на ней датировки далее 40 тысяч лет назад не имеет смысла. Гипотетический общий компонент «мальтинца» и охотников собирателей-кавказа я обозначил «Kalash», но надо понимать, что под этим вовсе не подразумеваются современные калаши — просто неким образом связанная с ними древняя предковая популяция. Серыми стрелками между «базальниками» и CHG, «базальниками» и WHG обозначено, что взаимодействия, по-видимому, были, но обозначить их одиночной линией на схеме тяжело. «Уральский» компонент — это часть генофонда народов Урала и западной Сибири, которую можно отнести к европейской ветви, для получения картины современного состояния необходимо объединить ее с восточноазиатским влиянием.

Дерево08.png

Думаю, что на самом деле все гораздо сложнее и запутаннее, чем изображено здесь )) Будем ждать новых расшифровок древних геномов для дальнейшего развития схемы.

Вторая фаза нового проекта

Две недели назад я сообщил об окончании первой фазы своего нового проекта (на первом этапе работы удалось собрать надежную выборку из более чем 5000 образцов более чем 250 различных этно-популяционных групп людей по всему миру.

Как я уже рапортовал ранее, самой сложной из запланированных на втором этапе задач являлась импутирование (импутация) отсутствующих генотипов.  Читатели моего блога помнят, что две предыдущие экспериментальные попытки импутирования больших выборок     — в 2013  и в 2015  — закончились неудачно (или, если говорить точнее, качество импутированных генотипов не оправдало моих завышенных ожиданий). В предыдущих опытах я задействовал мощную комбинацию программ ShapeIT и IMPUTE и  метод импутирования снипов за счет использования большой референсной панели аутосомных гаплотипов (из 1000 genomes),  гарантирующей более аккуратное определение генотипов.

На этот раз, я решил не повторять ошибок, и обратился к использованию других программ — в частности , к  Minimac3, хорошо зарекомендовавшую себя в работе с геномами 1000G.  К моему счастью, я набрел на недавно появившиеся публичные сервера, работающие с «облачным» сервисом импутирования Cloudgene. геномов.
Серверы импутирования геномов позволяют использовать полную референсную панель гаплотипов для точного определения недостающих генотипов в анализируемых данных. Пользователи подобных серверов могут загружать (предварительно фазированные или несфазированные) данные генотипов на сервер. Процедура импутирования  будет осуществляться на удаленном сервере, и по окончанию этого процесса рассчитанные данные доступны пользователю для скачивания. Наряду с импутированием, подобные сервисы позволяют провести процедуру контроля качества (QC) и фазировки данных в качестве предварительного этапа процесса импутирования генотипов.

Прототипы серверов импутирования уже доступны в институте Сангера и Мичиганского университета. В дополнение к вышеназванным серверам, можно упомянуть прототип сервера поэтапной полномасштабной  фазировки генотипов анализируемых образцов (прототип создан биоинформатиками Оксфордского университета). На мой взгляд, самое простое и доступное решение задачи импутирования на удаленном сервере было разработано сотрудниками   Мичиганского университета. Дополнительное преимущество этому решению дает грамотная документация по использованию сервиса.

Основная рабочая лошадка сервиса — это комбинация двух или трех программ — две програмы для фазирования диплоидных генотипов в гаплоидную фазу  ShapeIT и Hapi-UR , а в качестве основного ПО для самого процесса импутирования (определения) недостающих генотипов — вышеупомянутую программу Minimac3.

Описание эксперимента с импутированием генотипов на удаленном сервере

В самом начале,  я разбил свою выборку на пять когорт (т.к. референсные панели на сервере также разбиты на «этнографические группы»):

  1. европейцы (европейцы + кавказцы) — 1715 образцов -87169 снипа
  2. азиаты (+американские аборигены и аборигены островов Тихого Океана) — 2356 образцов — 87044 снипа
  3. африканцы — 1054 образца — 86754 снипов
  4. палеогеномы древних жителей Евразии, Африки и Америки -340 — 594500 снипов
  5. смешанные группы — преимущественно мозабиты, пуэрто-риканцы и др.
QC-Report
На рисунке показана корреляция между частотами аллелей в изучаемоей выборке (здесь: европейская когорта) и частотами аллелей в референсной панели

К моему вящему неудовльствию,  некоторые образцы в сводной выборке не прошли контроль качества — в первую очередь это касается образцов европейцев из базы данных POPRES, а также выборок статьи  Xing et al. (2010). Скорее всего, их нужно будет импутировать отдельно.

Несмотря на значительную скорость обработки генотипов на удаленном сервере, к настоящему времени эксперимент еще не доведен до конца.  Пока я планирую ограничиться импутированием генотипов в 3 первых когортах (т.к. импутирование палеогеномов с помощью современных референсных панелей гаплотипов вероятнее всего приведет к искажению истинного разнообразия палеогеномов за счет проекции на современные группы населения, хотя авторы статьи Gamba et al. 2014 в сопроводительном материале к своей статье утверждают обратное).

После окончания фазирования и последующей обработки генотипов европейской когорты в программе Plink (были отсеяны все варианты с вероятностью ниже 0.9) ,  я получил выборку из 1715 европейцев с 25 215 169 снипами против изначальных 87169, т.е число снипов в выборке увеличилось в 290 раз!
В азиатской когорте соотношение импутированных генотипов к исходным составило чуть меньшую величину 19 048 308 / 87044 = 219.

Проверка результатов

Разумеется, все полученные результаты нуждались в дополнительной проверке качества генотипирования.
Cначала я объединил импутированную европейскую когорту с когортой палеогеномов (которая не была импутирована) и рассчитал в программе PLINK 1.9 матрицу IBS (т.е. сходства образцов в выборке между собой, эта метрика отдаленно напоминает Global Similarity в клиентских отчетах 23andme), а затем усреднил данные по популяциям и произвел по усредненным значениям иерархическую кластеризацию по признакам сходства (IBS, identity by state). Результат превзошел все мои пессимистические ожидания

 

 

Как становится очевидно из приведенной выше кластерограммы,  в целом взаимное расположение популяций в кластерах соответствует (в общих чертах) взаимному географическому положению. Присутствуют, правда, и некоторые огрехи. Так, например, венгры очутились в одном кластере с русскими из Курска,  норвежцы — с русскими из Смоленска, а усредненные «русские» — с американцами европейского происхождения из штата Юта и французами. Трудно сказать, в чем здесь причина, тем более что матрица была составлена по значениям IBS (идентичности по состоянию), а не IBD (идентичности по происхождению).  Более подробные данные о попарных значениях IBS между популяциями выборки можно посмотреть в этой таблице

Импутированная азиатская когорта (несмотря на расширение географии за счет включения образцов коренного населения Америки и аборигенов бассейна Тихого океана)  тоже  оказалась на удивление надежной. Я пока не буду останавливаться на подробностях изучения этой когорты, вместо этого я размещаю здесь результаты MDS- мультдименсионального шкалирования образцов выборки, образованной в ходе слияния 2 импутированных когорт (европейской и азиатской) с 1 неимпутированной (палеогеномы). Цветовое обозначение точек соответствует определенным кластерам, выявленных в выборке с помощью алгоритма MCLUST (cледуя рекомендациям Диенека Понтикоса). Всего этих кластеров 15 и они обозначены последовательностью чисел от 1 до 15, и каждый из этих кластеров имеет свою четкую географическую привязку:

  • 1 — кластер популяций ближнего Востока и  Анатолии
  • 2 — кластер популяций северного Кавказа
  • 3 — «индоевропейский» кластер древних популяций Синташта, шнуровой культуры, Ямной культуры и т.д.
  •  4 — кластер аборигенных жителей Америки (эскимосов и индейцев)
  • 5 — суперкластер популяций средиземноморского и восточноевропейского региона
  • 6 — сибирский кластер алтайских и самодийских популяций
  • 7 — кластер популяций западной и северной Европы
  • 8 — кластер палеосибирских популяций (таких как чукчи, ительмены и коряки)
  • 9 — кластер аборигенных (австронезийских и тай-кадайских) популяций юго-восточной Азии (даи, атаяла и ами)
  • 10 — кластер неолитических популяций
  • 11 — еще один ближневосточно-средиземноморский кластер (ашкеназим, сардинцы и так далее)
  • 12 — кластер североиндийских популяций
  • 13 — кластер центральноазиатских популяций
  • 14 — поволжские популяции
  • 15 — разные групп индусов

 

Обновление проекта: окончание первой фазы

После нескольких лет практически полного пассивного бездействия в области изучения генетической вариативности популяций населения Восточной Европы, я решил продолжить свои скромные изыскания в этом вопросе. Примерно год ушел на пересборку и соединение различных выборок популяций (выборки разных исследований содержат разное количество частично перекрывающихся снипов, и это обстоятельство существенно влияет на качество и значимость получаемыых в анализе таких выборок результатов). К сожалению, разница в частотах минорных снипов в выборках одних и тех же этнических групп, но генотипированных на разных платформах Illumina и Affy,  приводит к существенному снижению качества импутирования недостающих маркеров. Это очень плохо, так как во многих из разработанных методик анализа генетического разнообразия,  надежность результатов напрямую зависит от полноты генотипирования, т.е. в идеале во всех популяциях должны быть равномерно представлены все снипы, т.е маркеры из полного объединенного набора.  Вопреки моим ожиданиям, у этой проблемы не существует тривиального решения, поэтому я решил отложить задачу импутации отсутствующих генотипов в образцах выборки на дальнейшее (чуть позже я поделюсь своими соображениями о том, как сделать результат импутирования более точным).

Ровно год назад я сообщил о том, что в основу (базу) новой выборки будут положены полный публичный кураторский набор контрольных популяционных групп лаборатории Райха, что и было выполнено частично, хотя запланированную процедуру импутирования так и не удалось завершить в силу огромной компьютерной ресурсозатратности задачи.

Все же, с учетом тяжелых уроков всех предыдущих ошибок (в том числе и при работе с палеогеномами человека), мне все же удалось собрать набор из примерно 6500 сэмплов из более чем 250 этно-популяционных групп со всего земного шара. На этом можно считать первую фазу законченной.

В качестве предварительной иллюстрации надежности результатов можно привести график PCA (анализа главных компонентов генетической вариативности в западноевразийских популяциях из описанной выше сводной выборки, после применения соответствующих фильтров контроля качества снипов).

West-Eurasia (modern and ancient samples)

Как мне кажется, получился неплохой график PC (анализа главных компонент) древних и современных групп народонаселения, причем  хорошо видно на какие современные группы накладываются палеогеномы.
Но теперь другая проблема — я не могу сохранить этот график в формате PDF (видимо, разработчики Plotly отключили эту опцию в бесплатной версии). Можно выгрузить графику в файл png, но в отличие от векторного формата pdf, png — формат растровый, и улучшить качество графики уже не получится.

Поэтому я сделал альтернативные варианты (без использования пакета Plotly) графика с изображением положения популяций в пространстве двух главных компонентов генетического разнообразия Евразии.

После несколько лет практически полного отсутствия активности в области изучения генетической вариативности популяций населения Восточной Европы, я решил продолжить свои скромные изыскания в этом вопросе. Примерно год ушел на пересборку и соединение различных выборок популяций (выборки разных исследований содержат разное количество частично перекрывающихся снипов, и это обстоятельство существенно влияет на статистическое качество). К сожалению, разница в частотах минорных снипов в выборках одних и тех же этнических групп, но генотипированных на разных платформах Illumina и Affy,  приводит к существенному снижению импутирования недостающих маркеров. Это очень плохо, так как во многих из предложенных методик анализа генетического разнообразия,  надежность результатов напрямую зависит от полноты генотипирования, т.е. в идеале во всех популяциях должны быть равномерно представлены все снипы, т.е маркеры из полного объединенного набора.  Вопреки моим ожиданиям, у этой проблемы не существует тривиального решения, поэтому я решил отложить задачу импутации отсутствующих генотипов в образцах выборки на дальнейшее (чуть позже я поделюсь своими соображениями о том, как сделать результат импутирования более точным).

Ровно год назад я сообщил о том, что в основу (базу) новой выборки будут положены полный публичный кураторский набор контрольных популяционных групп лаборатории Райха, что и было выполнено частично, хотя запланированную процедуру импутирования так и не удалось завершить в силу огромной компьютерной ресурсозатратности задачи.

Все же, с учетом тяжелых уроков всех предыдущих ошибок (в том числе и при работе с палеогеномами человека), мне все же удалось собрать набор из примерно 6500 сэмплов из более чем 250 этно-популяционных групп со всего земного шара. На этом можно считать первую фазу законченной.

В качестве предварительной иллюстрации надежности результатов можно привести график PCA (анализа главных компонентов генетической вариативности в западноевразийских популяциях из описанной выше сводной выборки, после применения соответствующих фильтров контроля качества снипов).

West-Eurasia (modern and ancient samples)

Как мне кажется, получился неплохой график PC (анализа главных компонент) древних и современных групп народонаселения, причем  хорошо видно на какие современные группы накладываются палеогеномы.
Но теперь другая проблема — я не могу сохранить этот график в формате PDF (видимо, разработчики Plotly отключили эту опцию в бесплатной версии). Можно выгрузить графику в файл png, но в отличие от векторного формата pdf, png — формат растровый, и улучшить качество графики уже не получится.

Поэтому я сделал альтернативные варианты (без использования пакета Plotly) графика с изображением положения популяций в пространстве двух главных компонентов генетического разнообразия Евразии.

Реконструкция миграций по палеоДНК

Сергей Козлов

Реконструкция миграций по палеоДНК

Накопившийся за последние годы объем информации по аутосомной палеоДНК стал уже слишком велик, а потому начал требовать систематизации. Для этой цели я нанес взаимоотношения между собой ряда образцов из Евразии на нижеследующую схему:

ВзаимоотношенияПалеообразцовv3

Стрелки отображают вероятные влияния, однако источником их не обязательно является культура, указанная в ячейке, из которой выходит стрелка. Здесь больше привязка к географии — если влиял и не этот конкретный источник, то какой-то близкий и схожий. Многие ячейки попросту оставлены пустыми. В противоположность этому, остриё каждой стрелки указывает на конкретные образцы из определенной культуры, проанализированные учёными.

Чтобы не загромождать схему, для Европы я не стал создавать множество колонок, поскольку они были бы структурно схожи между собой. Кроме отображенной в таблице Центральной Европы (в основном это образцы из Германии), неплохой временной срез существует по северной Испании, где пещеры хорошо сохранили древние образцы. Совершенно аналогично предыдущему случаю, в мезолите местность населяют охотники-собиратели WHG, далее появляются неолитические земледельцы (аутосомно близкие по всей Европе), после чего в их генофонде понемножку начинает расти доля WHG, вплоть до халколита. Более поздние палеообразцы оттуда мне пока неизвестны.

Охотники-собиратели юго-западной Скандинавии (SHG) по аутосомам находились между WHG и EHG (похоже, что мезолитические охотники-собиратели северо-западной Евразии формировали континуум с плавным переходом от WHG на западе к ANE на востоке). Впоследствии мы видим появление все тех же неолитических земледельцев, а еще позже в регион попадают «ямноподобные» носители CHG, как и в Германии. Среди археологов нередко принято выделять этих пришельцев в отдельную от их аналогов с южного берега Балтики (культура шнуровой керамики) культуру боевых топоров, или ладьевидных топоров. И генетика дает для этого некоторые основания — в отличие от германских шнуровиков, у образца из Швеции вклад CHG заметно ниже, а влияние северных охотников-собирателей — выше. Однако и здесь носители CHG явно свежие пришельцы, ранее этот компонент в регионе не находили.

Третьим регионом, по которому имеется временной срез, является Венгрия. Можно было бы включить ее в центральноевропейскую колонку, однако у венгерских образцов имеется своя специфика. Если на протяжении мезолита-неолита ситуация развивается по привычной схеме, то в эпоху бронзы новоприбывшее население заметно отличается от тех, кто мигрировал в более северные районы. Да, растет доля «кавказского» компонента, но он более «анатолийский», чем «степной-ямный» (казалось бы, именно в степной Венгрии можно в первую очередь ожидать «ямный» компонент). При этом доля «охотничьего» компонента у них также заметно повышена по сравнению с неолитчиками. Возможно, эти люди и ответственны за аутосомный сдвиг у представителей ККК и Унетицкой культуры, отображенный в таблице. С этого момента в Центральной Европе наличествуют все основные имеющиеся в ней в наши дни аутосомные компоненты и население становится достаточно схожим с нашими современниками.

К сожалению, между Волгой и Карпатами до сих пор не проанализировано ни одного образца из обсуждаемого периода (единственный удостоившийся подобной чести — палеолитический образец с Маркиной Горы (Костёнки-14), для нашей цели бесполезен). Поэтому остается лишь строить предположения, какие изменения происходили в генофонде населения Восточноевропейской равнины в это время. Когда будет закрыта эта дыра, на данный момент мне совершенно непонятно. Что касается Средней Азии и Кавказа, то мы можем ожидать появления новых результатов оттуда в обозримом будущем.

 

 

Подготовка к анализу новых образцов палеогеномов

Несколькими постами ранее ув. Сергей Козлов подготовил замечательный по своей глубине русскоязычный обозор новой статьи Allentoft et al. 2015 (еще раз выражаю свою благодарность). В этом обзоре были затронуты преимущественно технические вопросы, в то время как в аналогичном разборе на сайте генофонд.ру было пересказано общее содержание статьи:  » Cтатья большого международного коллектива, опубликованная 11 июня в журнале Nature, посвящена исследованию геномов популяций Евразии в бронзовом веке (изучен период от 3000 до 1000 лет до н.э.). Первый автор Мортен Aллентофт (Morten E. Allentoft) и ведущий автор Эске Виллерслев (Eske Willerslev) представляют Центр географической генетики Музея естественной истории Университета Копенгагена, Дания. Эта статья вызвала огромный интерес у специалистов по истории популяций человека — ведь в ней представлен анализ самого большого массива древних геномов из разных археологических культур эпохи бронзы. На основании анализа древних геномов авторы пробуют реконструировать древние миграции и распространение археологических культур во времени и пространстве. В бронзовом веке, начало которого датируют временем 3500-3300 лет до н.э., в производстве орудий и оружия камень все больше уступает место металлу. Это сопровождается   радикальными культурными и социальными изменениями в жизни людей. Они касаются не только хозяйственного уклада – возникает новое понимание имущественных отношений, семьи и личности. Основной вопрос, на который попытались ответить авторы статьи — были ли эти изменения результатом передачи культурных навыков или результатом миграций населения. Иными словами, «была ли это циркуляция людей или идей». Важнейший вопрос — связаны ли эти события с распространением индоевропейских языков, на которых сейчас говорит большая часть человечества.»

Лавина публикаций древних геномов (кроме вышеупомянутых статей Allentoft et al. 2015, Haak et al. 2015, летом опубликовались статьи Pinhasi et al. Optimal Ancient DNA Yields from the Inner Ear Part of the Human Petrous Bone,  и Fu et al.  An early modern human from Romania with a recent Neanderthal ancestor, однако к сожалению, количество снипов в большинстве образцов палеогеномов недостаточно для проведения развернутых анализов вместе с палеогеномами из других статей) заставила меня ускорить подготовку своей сводной выборки референсных образцов популяций (об этом я писал в предыдущих записях).

Я решил отказаться от полного импутирования древних геномов (очевидно бессмысленного занятия, так как у нас нет надежной референсной панели для импутирования выборочно секвенированных палеогеномв), и вместо этого ограничился импутированным (с помощью панели 1000 Genomes) набором снипов в контрольном наборе популяций лаборатории Райха (Affymetrix Human Origins Fully Public Dataset), этот набор использовался в статье Lazaridis et al. 2014.  

Разумеется, ни одна процедура «импутирования генома» (imputation of genome -сложнопереводимый на русский язык термин) не обходится без ошибок. Поэтому перед тем как приступить к самому анализу, я провел проверку качества выборки. На этот раз, я использовал  инструментарий Python — PyGenClean. Этот инструментий существенно облегчает стандартизацию генетических данных и  контроль качества выходных данных платформы генотипирования. Он минимизирует ошибки манипулирования данными, и ускоряет процесс очистки данных от потенциальных ошибок генотипирования,  а также позволяет составлять информативные графики и автоматически оценивать предварительные параметры последующего статистического анализа.

После отсеивания снипов c низким качеством и индивидов с низкой степенью генотипирования, а также снипов с существенным отклонением от равновесия Харди-Вайнберга, я посмотрел оставшиеся образцы на предмет наличия в выборке «оutliers» (так называемых «статистических выбросов»). До процедуры нахождения выбросов график главных компонент выглядел следующим образом:

И после нахождения выбросов (т.е образцов со стандартным отклонением больше 5 сигм)

Первоначально я планировал анализировать древние геномы вместе с геномами современных людей, однако (как видно из нижеприведенных графиков) палеогеномы гораздо в большей степени отклоняются от реперных точек, бессистемно разбиваясь на группы:

 

Поэтому такую очистку данных лучше проводить в два захода, один — для современных образцов, а другой — для палеогеномов. А затем полученные «качественные» выборки соединять в общую контрольную выборку.
В нашем случае, я так и поступил, получив выборку из 2250 этнопопуляционных образцов и 155 000 снипов.

Вот так выглядит взаимное расположение образцов геномов на PCA графике.

 

Caucasian, North-African, Afro-American, AG2, South-European, Alberstedt-LN, Native-American, Siberian, African, East-Asian, Near-Eastern, Atayal-Coriell, Native-Australian, Australian, Australian-ECCAC, East-European, Baalberge-MN, South-Asian, Volga-Ural, West-European, Bell-Beaker-LN, North-Indian, BenzigerodeHeimburg-LN, South-Indian, Ancient-African, American, Oceanian, South-East-Asian, Arctic, Corded-Ware, Near-East, Denisovan, Denmark-Carlstrup, Denmark-Falshoy, Denmark-Marbjerg, Denmark-Sebberskole, Esperstedt-MN, EuropeanIronAge, North-European, Halberstadt-LBA, Central-Asian, Hixton, Href, HungaryGamba-BA, HungaryGamba-CA, HungaryGamba-EN, HungaryGamba-HG, HungaryGamba-IA, Iceman, Karelia-HG, Karsdorf-LN, Kostenki14, LaBrana1, LateDorset, LBK-EN, WHG, MA1, Mezmaiskaya, MiddleDorset, North-Greek, South-Italian, Piramalai-Kallars, Poland-Polwice, Poland-Szczepankowice, Poland-Unetice, Poland-Chociwiel, Samara-HG, Saqqaq, East-Aasian, Spain-EN, Spain-EN-relative-of-I0410, Spain-MN, Starcevo-EN, Stuttgart, Sweden-Abekas, Sweden-Angamollan, Sweden-Visby, SwedenSkoglund-MHG, SwedenSkoglund-MN, SwedenSkoglund-NHG, Thule, Unetice-EBA, Ust-Ishim, Vindija, Yamnaya

Именно эту выборку я положил в основу своего нового тестового калькулятора K13 (о его создании я расскажу позже) — предназначенный для анализа «глубокого» происхождения популяций. Как всегда, модель нового калькулятора основана на базовой модели известного DIYDodecad калькулятора. Впервые я остался более или менее удовлетворен полученными результатами. Думаю, что от этой модели можно плясать дальше. И хотя модельная кластеризация с помощью алгоритма Mclust дает основание полагать, что используемая мной выборка из 2230 геномов наилучшим образом (т.е без неизбежного при больших значениях K вырождения компонентов) описывается моделью из 8 кластеров, я остановился на K=13 т.е 13 кластерах:

  1. Amerindian — модальный компонент американских индейцев

 

 

  • ANE — модальный компонент северных евразийцев, изолирован из общего с WHG кластера — наивысшие значения в древнесибирских образцах MA1, AG2, а также у андроновцев, синаштинцев, представителей ямной культуры, шнуровиков и т.д. Из ныне живущих популяций самый высокий процент у калашей. Практически совпадает с ANE в статье Lazaridis et al. 2014

 

 

  • Arctic — модальный компонент с пиком в популяциях коряков, чукчей, ительменов и эскимосов

 

 

  • ASI — модальный компонент южноиндийских популяций, у современных популяций наивысший процент у онге, идентичен ASI в работе Reich et al. 2009.

 

 

  • Caucas(us)-Gedrosia — идентичен кластеру, открытому в 2011 году Диенеком Понтикосом

 

 

  • EastAsian — модальный компонент жителей восточной Азии

 

 

  • ENF — компонент древних европейских земледельцев неолита, пик в образцах палеогеномов культуры линейно-ленточной керамики. Тождественен аналогичному компоненту в работах популяционных генетиков (Lazaridis et al. 2014, Haak et al. 2015). В современных этнопулах — наивысшие значения у сардинцев, корсиканцев и басков.

 

 

  • NearEast — модальный компонент жителей ближнего Востока

 

 

  • Oceanian — модальный компонент аборигенных жителей Океании, Австронезии, Меланезии и Микронезии — пик у современных папуасов и австралийских аборигенов

 

 

  • Paleo-African — модальный компонент африканских пигмеев и бушменов

 

 

  • Siberian — модальный компонент народностей юго-восточной Сибири

 

 

  • Subsaharian — второй африканских компонент — пик в популяциях мандинка, йоруба и ишан

 

 

  • WHG-UHG — компонент древних европейских мезолитических охотников-собирателей, пик в образцах палеогеномов мезолитических популяций европейских охотников-собирателей. Тождественен аналогичному компоненту в работах популяционных генетиков (Lazaridis et al. 2014, Haak et al. 2015). Из современных популяций — наивысший процент в популяциях эстонцев, литовцев, финнов и др.

 

 

MDS plot - K13 ancestral population

Как я и предполагал, модель калькулятора оказалась особенно хороша в применении к анализу древних геномов. И на самом деле, на нижеприведенном графике PCA (пространстве 2 главных компонент результатов анализа древних геномов в моем бета-калькуляторе K13) видны замечательные вещи. Расположение геномов хорошо вписывается в треугольник, один из углов которого образуют геномы древних «ямников» (из работы Haak et al. 2015), причем геномы «русских»ямники из работы Allentoft at al.2015 чуть-чуть сдвинуты в сторону древних мезолитических геномов древних европейских охотников-собирателей. За ними (в направлении «неолитического» угла) следуют представители шнуровой культуры, еще дальше — геномы представителей геномов унетицкой культуры и т.д. Второй угол треугольника образован неолитическим геномами, причем если более поздние неолитические геномы сдвигаются ближе к представителям линейно-ленточной культуры (англ. Linear Pottery culture, фр. Culture rubanée, нем. Linearbandkeramische Kultur, LBK — наиболее распространенная неолитическая культура Центральной Европы 5500—4500 гг. до н. э.), то более ранние геномы — геном представительницы более ранней фазы этой культуры (Stuttgart-LBK), а также геномы представителей балканских неолитических культур — Старчево и Винча — очень близки к палеогеному из Barcin (культура Чатал-Хююк, cамые ранние найденные культурные слои относятся к 7400 г. до н. э.). Таким образом генетика подтверждает утверждения археологов о близости неолитических культур Балкан и Анатолии. Более того — данные генетики свидетельствуют о том, что во времена т.н «неолитической революции» происходила не только и не столько миграция технологий (как считали некоторые археологи), но и миграция населения (из Анатолии на Балканы). Причем, судя по моему графику PCA, миграция происходила в несколько, хронологически удаленных, этапов, и — скорее всего — из разных мест. Крайную точку в этому угле треугольника я обозначил как «анатолийские земледельцы» (ближайший к этой точки геном — геном «земледельца» из культуры Старчево — взят из работ Haak et al. 2015).

Для людей, интересующихся вопросами происхождения индоевропейцев, разумеется будет более интересна другая сторона треугольника, которая скорее всего отражает градиент увеличения градиента частот так называемого ANE — «компонента древних северных евразийцев».

Образно говоря, вектор градиента начинается в геномах ямников (больше половины генома которых состояла из этого компонента) и затем идет к геномам представителей синташтинской, афанасьевской, андроновской, окуневской и карасукской культур.
Пару слов об этих культурах (положение геномов представителей которых можно посмотреть на графике).
1) Синташтинская культура формировалась из древнеямных и катакомбных племён и местного населения. Синташтинцев связывают с индоиранскими племенами.
2) Андроновская культура также развивается на базе ямной. На западе она доходила до района Урала и Волги, где контактировала со срубной культурой. На востоке андроновская культура распространилась до Минусинской котловины, частично включив в себя территорию ранней афанасьевской культуры. Андроновцев (также как и синаштинцев) относят к индоиранской сообщности.
3) Афанасьевская культура была создана мигрантами из Восточной Европы, в частности, носителями древнеямной культуры, ассимилировавшими местное население. Сменилась карасукской и окуневской культурами.Наследниками афанасьевцев были племена тагарской культуры, дожившей до III в. до н. э., по другой версии, тагарцы были скифами, а потомки афанасьевцев — тохарами, которых именно скифы-тагарцы вытеснили в Синьцзян.Большинство исследователей ассоциируют афанасьевскую культуру с (прото-)тохарами.
4) Окуневская культура — фнтропологический тип населения этой эпохи был смешанного европеоидно-монголоидного происхождения, с преобладанием монголоидного. Как отмечает А. В. Громов, бросается в глаза их морфологическая разнородность — встречаются как чисто монголоидные черепа, так и типично европеоидные, не обнаруживающими никаких следов монголоидной примеси. Проведя обстоятельный анализ антропологических особенностей населения неолита и ранней бронзы, А. А. Громов пришел к выводу, что физический тип окуневцев сложился в результате смешения местного неолитического населения с выходцами из территории Средней Азии и Казахстана (афанасьевцами)
5) Карасукская культура — развилась на основе окуневской культуры под влиянием андроновской культуры.

Интересно, что геном мальчика с южносибирской палеолитической стоянки MA-1 как раз проецируется между центроидами геномов представителей синташтинской, афанасьевской, андроновской, окуневской и карасукской культур. Эти геномы (вернее их центроиды) занимают на графике значительное место. Самый дальний из них — геном алтайца из эпохи железного века (примерно 50 год до нашей эры). Сразу за ним идут все из имеющихся у меня палеогеномов жителей Америков (палеоэскимосы — в том числе и Saqqaq; и «палеоиндейцы» — Clovis, древние жители Перу и палеогеномы Botocudo). Любопытно что последние — геномы Botocudo — хотя и являются самыми современными (1600 год нашей эры), однако в них хорошо заметен «океанский компонент», именно поэтому они смыкаются на графике с палеогеномом австралийского аборигена. В этой связи я вспоминаю оригинальную теорию Тура Хейердала о наличии доисторических контактов между жителями островов Тихого океана и жителями Южной Америки.

Особое место на графики занимают «живые реликты» — онге, один из коренных андаманских народов (адиваси), геномы так называемого «усть-ишимца» (возраст 45000 лет), костенковца (Kostenki-14, возраст 38 700 -36 200 лет), и недавно опубликованный палеогеном Oase из Румынии (возрастом 37000-42000 лет). Они образуют отдельную группу (особенно близки друг к другу румынский палеогеном Oase и усть-ишимец), однако я терясь в догадках о том, что именно означает столь заметная близость этих геномов.

 

 

Eurasian and American paleogenomes