«Ледниковый период в Европе и изучение останков древнего человека на территории России»

Лекция Йоханнеса Краузе  (Johannes Krause) «Ледниковый период в Европе и изучение останков древнего человека на территории России» состоится в рамках Фестиваля науки

8 октября 2016  в  Шуваловском корпусе МГУ, аудитория «В4» 

12.45-13.45

Йоханнес Краузе  — профессор археологии и палеогенетики,  директор Института наук об истории человека Общества Макса Планка (Max Planck Institute for the Science of Human History) в Йене.

программу Фестиваля науки 7-9 октября можно скачать здесь  program-2016

«МОСКВА, 10 окт – РИА Новости. Известный палеогенетик Йоханнес Краузе рассказал РИА «Новости» о том, почему ученые сегодня считают степи Прикаспия родиной народов Европы, поделился мыслями о причинах почти полного вымирания Европы в конце ледникового периода, а также порассуждал о перспективе «воскрешения» средневековой чумы.

Йоханнес Краузе, палеогенетик из Института истории человека в Йене (Германия) – один из самых известных «некромантов» современности, которому удалось за последние несколько лет восстановить и изучить геномы средневековых возбудителей чумы и проказы, раскрыть тайны миграций и вымирания первых жителей Земли.

Кроме того, он обнаружил, что в конце ледникового периода фактически вся Европа вымерла и была заново заселена «северными евразийцами», поселенцами с юга России, а также нашел однозначные генетические свидетельства того, что неандертальцы были каннибалами. Обо всем этом Краузе рассказал на лекции в МГУ имени М.В. Ломоносова, которая проводилась в рамках всероссийского фестиваля Наука 0+.

— Йоханнес, недавно вы выяснили, что почти все первые жители Европы вымерли и не оставили следов в ДНК современного населения субконтинента. В чем могли быть причины такой катастрофы, вызвали ли ее болезни или климат?

— Сам по себе ледниковый период был периодом масштабных климатических изменений. Поэтому мы собственно и называем его ледниковым периодом – температуры упали на 10 градусов Цельсия, и большая часть Европы была покрыта льдом во время последнего ледникового максимума, 20 тысяч лет назад.

В то время, по сути, в Центральной Европе было невозможно жить – она представляла собой области вечной мерзлоты, покрытые тундрой и льдами.

Череп кроманьонца из Чехии
Генетики: в конце ледникового периода почти вся Европа вымерла

Поэтому то, что в то время местное население полностью вымерло и было замещено новой группой людей, никого не должно удивлять. Поэтому я считаю, что болезни, в том числе и чума, вряд ли могли вызвать это вымирание, а климатические изменения – вполне могли это сделать.— Вы и ваш коллега Дэвид Рейчпоказали в недавнем прошлом, что Европа была заселена несколькими волнами мигрантов, которых было или три, или четыре. Сколько их было на самом деле?

— На текущий момент у нас есть сведения о том, что первые люди появились в Европе примерно 40 тысяч лет назад. Следы этой популяции людей были найдены в Румынии в виде скелета одного человека, а также останками еще одного древнего кроманьонца, которые были открыты в окрестностях Омска, в Усть-Ишиме. Они являются на сегодняшний день древнейшими останками человека современного типа за пределами Африки.

Оба этих человека принадлежали к особой популяции древних людей, следов которых вообще не осталось в нашей ДНК. Иными словами, они не были предками современных жителей Азии и Европы. Их популяцию можно назвать первой провалившейся попыткой колонизовать мир за пределами Африки.

За ними следовали люди, подобные тем, чьи останки были найдены в окрестностях деревни Костенки в Воронежской области. Их следы уже можно заметить в ДНК последующих групп древних людей.

Реконструкция облика члена ямной культуры Прикаспя
Генетики нашли новые доказательства каспийских корней индоевропейцев

Со времени жизни людей в Костенках и до конца ледникового периода, который завершился примерно 15 тысяч лет назад, в генетике Европы почти ничего не поменялось. Примерно 14 тысяч лет назад в Европу проникли первые мигранты с Ближнего Востока, и затем, около 7-8 тысяч лет назад, произошла вторая волна ближневосточной миграции, принесшая с собой фермерское искусство. И последняя волна миграции, самая масштабная из них, произошла примерно пять тысяч лет назад, когда Европа была заселена жителями прикаспийских и причерноморских степей.

Проблема, на самом деле, не в подсчете волн миграции, а в самом термине. Под миграцией мы обычно понимаем перемещение больших групп людей, условно говоря, из точки А в точку Б. С другой стороны, в реальности могли происходить не массовые миграции, а просто медленная экспансия новых групп людей, распространявшихся по Европе со скоростью, скажем, пять километров в год. Поэтому нельзя говорить о том, что древние люди в один момент вдруг сказали «мы покидаем Россию, едем в Европу», собрали вещи и поехали – этот процесс мог протекать органично и незаметно для коренных жителей субконтинента, постепенно замещая их благодаря большему числу потомства и другим факторам. Мне кажется, именно так нужно думать, когда мы рассуждаем о волнах миграции в прошлом.»

 

Размышления над эффективностью алгоритма SPA

Перед тем,  как закрыть тему SPA, я решил поразмышлять о причинах неточности определения географического ареала происхождения с помощью генома. Те, кто воспользовался моей моделью для программы SPA (последняя версия — сентябрь 2016 года), могли убедится в том, что даже при наличии большого количества маркеров, модель не во всех случаях точно определяет ареал происхождения (даже с поправкой на погрешность радиусом в 500 км).
В основу алгоритма SPA положены примерно те же самые предпосылки, что и в случае с классическим анализом главных компонент (PCA)

  • Первая предпосылка  подхода SPA состоит в том, что частота аллели каждого SNP в популяции может быть смоделирована в виде непрерывной двумерной функции на карте. Другими словами, при выборе хромосомы индивидуума из локации с позицией (х, у) на карте, вероятность наблюдения минорного аллеля в SNP j на хромосоме может быть сформулирована в виде функции F (х, у), где Fj является непрерывной функцией, описывающей поведение частоты аллеля в зависимости от географического положения
  • Затем на основании сказанного делается упрощающее предположение, что эта функция является экземпляром логистической функции

 

где х представляет собой вектор переменных, указывающих географическое местоположение и а и Ь коэффициенты функции. Авторы понимают каждую из этих функций, как функцию FJ функции наклона градиента частота в SNP J. Эта функция кодирует крутизну склона по норме а, при этом предпологается что смещение параметра b фиксировано. Кроме того, направленность наклона  кодируется в значении вектора а.  Более подробно, θj = арктангенс (aj(1) / aj(2)) могут быть приняты в знчения угла для SNP j, где aj(1)  и aj(2)  являются первым и вторым элементами вектора а.

Поскольку SPA имеет явные географические координаты, подход может быть расширен для систем за пределами обычной картезианской двумерной плоскости координат. В качестве демонстрации этого, авторы программы SPA использовали алгоритм для анализа пространственной структуры населения земного шара, в которой двухмерное отображение на двухмерной плоскости не может точно фиксировать структуру популяции. Таким образом, каждый индивид проецируется на точку земного шара в трехмерном пространстве. Соответственно, авторы использовали трехмерный вектор х (с ограничением || х || равным определенной константе), чтобы представить индивидуальную позицию.

Используя данные (генотипы индивидов из различных популяций из  HGDP), авторы обнаружили что пространственная топология расположения индивидов в пространстве SPA мы наблюдали, что сильно напоминала топологию географической карту мира. В частности, люди из того же континента были сгруппированы вместе, а континенты были разделены примерно так, как это следовало бы ожидать из пространственного расположения.

ng-2285-f3

 

Главная проблема метода состояла в другом. Несмотря на точность топологии взаимного расположения индивидов,  на карте SPA сильно искажены расстояния между континентами.

Например, продольный размер континента Евразии составил 92 градусов в  SPA-пространстве земного шара, в то время как в пространстве реального земного шара — 150 градусов. Продольное расстояние между Европой и Северной Америкой составило 167 градусов на SPA карте земного шара, в то время как на самом деле оно составляет 90 градусов.  Любопытно отметить, что мой опыт работы с этой программы показал, что наибольшую проблему составляют географические координаты долготы, в то время как широты предсказываются довольно точно. То есть по какой-то причине (несимметричность генетических градиентов в направлении север-юг и направлении восток-запад?) пространство SPA очень сильно искажается в продольном измерении (т.е в долготу).
По этой причине, вычисленные географические точки происхождения для европейцев часто оказываются в Атлантическом океана и так далее.

Я решил использовать данные импутированных генотипов для европейских популяций (я занимался их импутацией на протяжении последнего полгода). На этот раз я ограничился только европейскими популяциями. Я  сделал два разных набора с разным числом снипов — один с 1 062 376 снипами, которые содержатся в платформах генотиприрования клиентов 23andme и FTDNA, другой — примерно 590 395 снипов.  Обе модели можно скачать с Google Drive  (здесь и здесь).

Несмотря на тщательный подбор снипов, обе модели продолжают страдать характерным сдвигом географических долгот, а это означает, что данная проблема обусловлена не выборкой генотипов, а самим алгоритмом программы (т.е. улучшение качества выборки или увеличение количества снипов не приводит к повышению точности даже в том случае, если мы используем для тренировки программы на обучающей выборке  индивидов с известной географической локацией).

Это хорошо видно на полученных в ходе анализа моих собственных данных географических координатах 2 точек происхождения (одна из них в Гренландии,  другая в Средиземном море)

untitled

Разумеется, вряд ли можно говорить о точности подобных вычислений. В ходе размышлений над способом решения проблемы я вспомнил о существовании ортогонального прокрустового анализа.

Я взял две матрицы — одну с географическими координатами (фактически центроиды — географические центры стран) и  вторую с предсказанными  (в модели 1M cнипов) величинами географических координат тех же самых образцов (с усредненными значениями по этносам), а затем совершил прокрустово преобразование в программе R, получив новую матрицу с преобразованными значениями координат. Ниже виден результат операции (преобразованные усредненные координаты образцов спроецированы вместе с центроидами на карту Европы). И хотя координаты по-прежнему немного сдвинуты относительно истинных, в целом результат уже гораздо лучше (правдоподобнее).rplot14При проведении прокрустова анализа, кроме Xnew (трансформированной матрицы),  мы получили значения матрицы вращения R, s- коэффициент масштабирования и tt — вектор трансляции координат, минимизирующие дистанцию между матрицей предсказанных координат и матрицей географических координат.

Эти значения можно использовать для коррекции значений географических координат, рассчитанных в SPA. Я снова использую свои данные (2 предсказанные точки географического происхождения Xp):


Xt=sRXp + 1tt


При подстановке Xp получаем следующие значения

точка A:  60.245448+-11.059673 северной широты;  21.394898 +- -5.979712  восточной долготы (северо-западная Балтика и Скандинавия)

точка B: 43.000748+-8.801889 северной широты;  20.725216+-52.159598 восточной долготы (юго-восточная Европа, Балканы и Греция).

 

 

 

 

 

Геномика датской популяции

В середине августа в журнале Genetics опубликовали статью о генофонде современной датской популяции Athanasiadis et al., Nationwide Genomic Study in Denmark Reveals Remarkable Population Homogeneity, Genetics Early online August 17, 2016; DOI: 10.1534/genetics.116.189241

Методологически исследование напоминает известную статью о генофонде Великобритании.

Аннотация: Дания играет существенную роль в истории Северной Европы. В рамках общенациональной научной просветительской инициативы, мы собрали генетические и антропометрические данные примерно 800 датчан — учащихся средней школы и использовали их, чтобы выяснить генетический состав населения Дании, а также для оценки методики полигенного предсказания фенотипических признаков у подростков. Мы обнаружили замечательную однородность датского генофонда в разных географических регионах, хотя  исследование и  обнаружило слабые сигналы генетической структуры, отражающие историю страны. Датский генофонд характеризуется геномной близостью с соседними странами, особенно общим сходством по генетическим маркерам снижения веса из Великобритании, Швеции, Норвегии, Германии и Франции. Геномный сигнал обмена генами с польской популяцией был обнаружен в регионах Зеландия и Фюна , причем наша датировка даты «смешения» совпала с историческими свидетельствами о переселении славян-вендов на юге Дании. Мы также обнаружили  значительное различие в демографической истории скандинавских стран. Дания имеет наименьший текущий эффективный размер популяции по сравнению с Норвегией и Швецией. И, наконец, мы обнаружили, что полигенное предсказание самооценки роста у подростков  в датской популяции был удивительно точным (коэффициент корреляции R2 = 0,639 ± 0,015). Высокая однородность генофонда населения Дании позволят пренебречь изучением этнической структуры генофонда  в ходе предстоящих крупномасштабных исследований по картированию генов (GWAS) в  стране.

DK_clusters_&_admix

Анализ древней ДНК – проблемы, их преодоление и результаты

На портале Генофонд.ру размещен реферат важной статьи, подводящей промежуточные итоги изучения древней ДНК. Я позволю себе удовольствие процитировать себе некоторые места этого замечательного обзора, написанного ув. Надеждой Марковой

Термин «древняя ДНК» возник в научной литературе в 1980-х годах в связи с появлением новой области исследований, которая получила название «молекулярная палеонтология». С развитием сначала методов ДНК-амплификации (полимеразной цепной реакции), а потом методов секвенирования нового поколения эта область получила мощный толчок к развитию и сегодня стала основным средством реконструкции эволюции живых организмов, и в том числе реконструкции истории человека.

Революция в эволюционной генетике

Исследование древней ДНК совершило революцию в эволюционной генетике, так как появилась возможность напрямую исследовать прошлое, законсервированное в «капсуле времени» ДНК, пишут авторы статьи. Работы последних десятилетий показали, что древняя ДНК может сохраняться в костях, зубах, мумифицированных и замороженных тканях, и может быть извлечена из этих древних образцов. Впервые древняя ДНК была извлечена в 1984 г. (Higuchi et al.) из высохшей мышцы вымершего родственника зебры. Но ее анализ целиком зависел от развития технологий, поэтому стал возможен с появлением ДНК-амплификации (метод полимеразно-цепной реакции – ПЦР), и вышел на новый уровень с появлением методов секвенирования нового поколения. На рисунке авторы представили основные вехи в истории изучения древней ДНК.

О методологии исследования палео-ДНК

Методы палеогенетики оказались незаменимы, чтобы разобраться в  ключевых этапах человеческой цивилизации. Например, понять, как именно происходила смена обществ охотников-собирателей на первых земледельцев, как распространялось по Европе сельское хозяйство – имела ли место передача технологий от одних популяций другим или же происходила смена самих популяций («циркуляция идей или людей»). Анализ древней ДНК показал, что между периодами 8 и 5 тысяч лет назад Европа не была генетически однородной: первые земледельцы с Ближнего Востока мигрировали в Западную Европу и  смешивались там с местными охотниками-собирателями. В Восточную Европу около  6-5 тыс. лет назад туда пришли группы людей из Анатолии, которые смешавшись с охотниками-собирателями, дали начало популяциям скотоводов, наиболее успешная из которых известна по ямной культуре.  Полагают, что именно миграции ямников из понто-каспийских степей на запад и на восток около 4,5 тыс. лет назад можно связать с распространением технологий и, возможно, языков индоевропейской семьи.

Древняя ДНК может помочь и в изучении развития признаков, характерных только для Homosapiens, таких как речь, подчеркивают авторы статьи. Изучение генетических вариаций, связанных с языком, дает информацию о том, когда мог возникнуть сложный  язык, присущий человеку. Так, было показано, что определенный вариант гена FOXP2 (именно его в первую очередь связывают с развитием речи)  имелся уже у неандертальцев. Вероятно, считают специалисты, этот вариант возник у общих предков неандертальцев и современного человека.

Древняя ДНК помогает в изучении адаптации человека к разным условиям среды. При анализе древних геномов в них были выявлены сигналы отбора, связанных с изменением диеты, чувствительностью к ультрафиолету  и пр. Так, становится ясно, как распространялись по Европе такие черты, как светлая кожа и толерантность  к лактозе (способность переваривать молоко во взрослом возрасте).

Трудности в изучении палео-ДНК и их преодоление

Одна из основных проблем, с которыми сталкиваются исследователи древней ДНК, это ее деградация, которая неизбежно происходит со временем.  Обычно ДНК из древних образцов сильно фрагментирована, загрязнена микробной ДНК и химически модифицирована. Причем степень деградации  в больше степени зависит от условий, в которых находился древних образец (температура, влажность), чем от его возраста. Последние исследования показали, что теоретический предел возраста образца, из которого можно извлечь ДНК, составляет 1-1,5 млн лет. Авторы описывают методы, которыми можно преодолеть трудности, связанные с особенностями древней ДНК.

Фрагментация ДНК может быть частично преодолена с помощью современных протоколов, позволяющих извлекать и анализировать очень короткие фрагменты, длиной 50-70 нуклеотидов. К тому же, методы секвенирования нового поколения ориентированы на анализ коротких фрагментов, длина которых составляет 50-100 нуклеотидов.

Большую проблему составляет контаминация древней ДНК современной ДНК. Преодолеть ее нужно путем строгого соблюдения протоколов, учитывающих правила сбора образов, обработки рабочих помещений, применение методов ДНК-аутентификации, независимой перепроверки результатов и пр. Развиваются также методы механической и химической деконтаминации – авторы их описывают.

Еще одна важная проблема – посмертное изменение ДНК из-за гидролиза и окисления, вызывающее деаминацию нуклеотидов, которая ведет к ложным результатам ПЦР. Авторы описывают несколько молекулярно-генетических и биоинформатичесих подходов для преодоления этой проблемы, с ними можно ознакомиться в тексте статьи.

Инструменты анализа

С увеличением числа образцов древней ДНК ученые получают возможность исследовать древнюю генетическую изменчивость на популяционном уровне и сравнивать ее с современной. Различные методы (PCA, STRUCTURE, ADMIXTURE, SPAMIX, SPA, ADMIXTOOLS, GPS, LAMP, HAPMIX,  reAdmix, MUTLIMIX, mSpectrum, SABER и др.), которые были разработаны для анализа современных популяций, применяются и к древним популяциям. В комбинации с антропологическими данными и историческими  сведениями они позволяют реконструировать пути миграций, определять состав предков той или иной популяции, выяснять географическое  происхождение гаплотипов.

Эпигенетика и палео-ДНК

Фенотипическое проявление генотипической изменчивости зависит не только от изменчивости тех или иных аллелей в геноме, но и от степени экспрессии генов, а она во многом определяется химическими модификациями, не затрагивающими последовательность нуклеотидов в ДНК, то есть эпигенетическими. Это метилирование ДНК, модификация белков-гистонов, спектр некодирующей РНК. Последние исследования показали, что некоторые эпигенетические модификации сохраняются и postmortem. Так, удалось картировать метилирование генома неандертальцев и денисовцев. Выяснилось, что некоторые гены были более метилированы у древних людей, чем у современных. Анализ метилирования позволяет также определить возраст индивида (как современного – что важно для криминалистики, так и древнего).

Новая книга Олега Балановского

Присоединяюсь к поздравлениям Олега Балановского по случаю выпуска долгожданной  и важной книги

обложка

Балановский О.П. Генофонд Европы. М.: Тов-во научн. изданий КМК.2015. 354 с.

Монография посвящена генофонду народонаселения Европы – исследованию его пространственной изменчивости и его истории. В книге проанализированы как собственные данные автора, так и литературные: созданные базы данных включили более 130 тысяч образцов по мтДНК и более 140 тысяч – по Y-хромосоме. Параллельное изучение генофонда Европы по маркерам Y-хромосомы, мтДНК и полногеномным панелям обеспечило синтез результатов этих трех генетических систем. Такой синтез актуален не только для генетиков, но и для смежных наук – антропологии, археологии, лингвистики, истории, все активнее включающих данные генетики в комплексные исследования этногенеза. В книге рассмотрены и данные по древней ДНК, позволяющие – эпоха за эпохой – проследить историю генофонда Европы. А совместный анализ количественных лингвистических и генетических данных выявляет непростую связь языков и генофондов. Особую актуальность для российской науки имеют исследования славянских и северокавказских народов, которым посвящены отдельные главы.

 

Подготовка к анализу новых образцов палеогеномов

Несколькими постами ранее ув. Сергей Козлов подготовил замечательный по своей глубине русскоязычный обозор новой статьи Allentoft et al. 2015 (еще раз выражаю свою благодарность). В этом обзоре были затронуты преимущественно технические вопросы, в то время как в аналогичном разборе на сайте генофонд.ру было пересказано общее содержание статьи:  » Cтатья большого международного коллектива, опубликованная 11 июня в журнале Nature, посвящена исследованию геномов популяций Евразии в бронзовом веке (изучен период от 3000 до 1000 лет до н.э.). Первый автор Мортен Aллентофт (Morten E. Allentoft) и ведущий автор Эске Виллерслев (Eske Willerslev) представляют Центр географической генетики Музея естественной истории Университета Копенгагена, Дания. Эта статья вызвала огромный интерес у специалистов по истории популяций человека — ведь в ней представлен анализ самого большого массива древних геномов из разных археологических культур эпохи бронзы. На основании анализа древних геномов авторы пробуют реконструировать древние миграции и распространение археологических культур во времени и пространстве. В бронзовом веке, начало которого датируют временем 3500-3300 лет до н.э., в производстве орудий и оружия камень все больше уступает место металлу. Это сопровождается   радикальными культурными и социальными изменениями в жизни людей. Они касаются не только хозяйственного уклада – возникает новое понимание имущественных отношений, семьи и личности. Основной вопрос, на который попытались ответить авторы статьи — были ли эти изменения результатом передачи культурных навыков или результатом миграций населения. Иными словами, «была ли это циркуляция людей или идей». Важнейший вопрос — связаны ли эти события с распространением индоевропейских языков, на которых сейчас говорит большая часть человечества.»

Лавина публикаций древних геномов (кроме вышеупомянутых статей Allentoft et al. 2015, Haak et al. 2015, летом опубликовались статьи Pinhasi et al. Optimal Ancient DNA Yields from the Inner Ear Part of the Human Petrous Bone,  и Fu et al.  An early modern human from Romania with a recent Neanderthal ancestor, однако к сожалению, количество снипов в большинстве образцов палеогеномов недостаточно для проведения развернутых анализов вместе с палеогеномами из других статей) заставила меня ускорить подготовку своей сводной выборки референсных образцов популяций (об этом я писал в предыдущих записях).

Я решил отказаться от полного импутирования древних геномов (очевидно бессмысленного занятия, так как у нас нет надежной референсной панели для импутирования выборочно секвенированных палеогеномв), и вместо этого ограничился импутированным (с помощью панели 1000 Genomes) набором снипов в контрольном наборе популяций лаборатории Райха (Affymetrix Human Origins Fully Public Dataset), этот набор использовался в статье Lazaridis et al. 2014.  

Разумеется, ни одна процедура «импутирования генома» (imputation of genome -сложнопереводимый на русский язык термин) не обходится без ошибок. Поэтому перед тем как приступить к самому анализу, я провел проверку качества выборки. На этот раз, я использовал  инструментарий Python — PyGenClean. Этот инструментий существенно облегчает стандартизацию генетических данных и  контроль качества выходных данных платформы генотипирования. Он минимизирует ошибки манипулирования данными, и ускоряет процесс очистки данных от потенциальных ошибок генотипирования,  а также позволяет составлять информативные графики и автоматически оценивать предварительные параметры последующего статистического анализа.

После отсеивания снипов c низким качеством и индивидов с низкой степенью генотипирования, а также снипов с существенным отклонением от равновесия Харди-Вайнберга, я посмотрел оставшиеся образцы на предмет наличия в выборке «оutliers» (так называемых «статистических выбросов»). До процедуры нахождения выбросов график главных компонент выглядел следующим образом:

И после нахождения выбросов (т.е образцов со стандартным отклонением больше 5 сигм)

Первоначально я планировал анализировать древние геномы вместе с геномами современных людей, однако (как видно из нижеприведенных графиков) палеогеномы гораздо в большей степени отклоняются от реперных точек, бессистемно разбиваясь на группы:

 

Поэтому такую очистку данных лучше проводить в два захода, один — для современных образцов, а другой — для палеогеномов. А затем полученные «качественные» выборки соединять в общую контрольную выборку.
В нашем случае, я так и поступил, получив выборку из 2250 этнопопуляционных образцов и 155 000 снипов.

Вот так выглядит взаимное расположение образцов геномов на PCA графике.

 

Caucasian, North-African, Afro-American, AG2, South-European, Alberstedt-LN, Native-American, Siberian, African, East-Asian, Near-Eastern, Atayal-Coriell, Native-Australian, Australian, Australian-ECCAC, East-European, Baalberge-MN, South-Asian, Volga-Ural, West-European, Bell-Beaker-LN, North-Indian, BenzigerodeHeimburg-LN, South-Indian, Ancient-African, American, Oceanian, South-East-Asian, Arctic, Corded-Ware, Near-East, Denisovan, Denmark-Carlstrup, Denmark-Falshoy, Denmark-Marbjerg, Denmark-Sebberskole, Esperstedt-MN, EuropeanIronAge, North-European, Halberstadt-LBA, Central-Asian, Hixton, Href, HungaryGamba-BA, HungaryGamba-CA, HungaryGamba-EN, HungaryGamba-HG, HungaryGamba-IA, Iceman, Karelia-HG, Karsdorf-LN, Kostenki14, LaBrana1, LateDorset, LBK-EN, WHG, MA1, Mezmaiskaya, MiddleDorset, North-Greek, South-Italian, Piramalai-Kallars, Poland-Polwice, Poland-Szczepankowice, Poland-Unetice, Poland-Chociwiel, Samara-HG, Saqqaq, East-Aasian, Spain-EN, Spain-EN-relative-of-I0410, Spain-MN, Starcevo-EN, Stuttgart, Sweden-Abekas, Sweden-Angamollan, Sweden-Visby, SwedenSkoglund-MHG, SwedenSkoglund-MN, SwedenSkoglund-NHG, Thule, Unetice-EBA, Ust-Ishim, Vindija, Yamnaya

Именно эту выборку я положил в основу своего нового тестового калькулятора K13 (о его создании я расскажу позже) — предназначенный для анализа «глубокого» происхождения популяций. Как всегда, модель нового калькулятора основана на базовой модели известного DIYDodecad калькулятора. Впервые я остался более или менее удовлетворен полученными результатами. Думаю, что от этой модели можно плясать дальше. И хотя модельная кластеризация с помощью алгоритма Mclust дает основание полагать, что используемая мной выборка из 2230 геномов наилучшим образом (т.е без неизбежного при больших значениях K вырождения компонентов) описывается моделью из 8 кластеров, я остановился на K=13 т.е 13 кластерах:

  1. Amerindian — модальный компонент американских индейцев

 

 

  • ANE — модальный компонент северных евразийцев, изолирован из общего с WHG кластера — наивысшие значения в древнесибирских образцах MA1, AG2, а также у андроновцев, синаштинцев, представителей ямной культуры, шнуровиков и т.д. Из ныне живущих популяций самый высокий процент у калашей. Практически совпадает с ANE в статье Lazaridis et al. 2014

 

 

  • Arctic — модальный компонент с пиком в популяциях коряков, чукчей, ительменов и эскимосов

 

 

  • ASI — модальный компонент южноиндийских популяций, у современных популяций наивысший процент у онге, идентичен ASI в работе Reich et al. 2009.

 

 

  • Caucas(us)-Gedrosia — идентичен кластеру, открытому в 2011 году Диенеком Понтикосом

 

 

  • EastAsian — модальный компонент жителей восточной Азии

 

 

  • ENF — компонент древних европейских земледельцев неолита, пик в образцах палеогеномов культуры линейно-ленточной керамики. Тождественен аналогичному компоненту в работах популяционных генетиков (Lazaridis et al. 2014, Haak et al. 2015). В современных этнопулах — наивысшие значения у сардинцев, корсиканцев и басков.

 

 

  • NearEast — модальный компонент жителей ближнего Востока

 

 

  • Oceanian — модальный компонент аборигенных жителей Океании, Австронезии, Меланезии и Микронезии — пик у современных папуасов и австралийских аборигенов

 

 

  • Paleo-African — модальный компонент африканских пигмеев и бушменов

 

 

  • Siberian — модальный компонент народностей юго-восточной Сибири

 

 

  • Subsaharian — второй африканских компонент — пик в популяциях мандинка, йоруба и ишан

 

 

  • WHG-UHG — компонент древних европейских мезолитических охотников-собирателей, пик в образцах палеогеномов мезолитических популяций европейских охотников-собирателей. Тождественен аналогичному компоненту в работах популяционных генетиков (Lazaridis et al. 2014, Haak et al. 2015). Из современных популяций — наивысший процент в популяциях эстонцев, литовцев, финнов и др.

 

 

MDS plot - K13 ancestral population

Как я и предполагал, модель калькулятора оказалась особенно хороша в применении к анализу древних геномов. И на самом деле, на нижеприведенном графике PCA (пространстве 2 главных компонент результатов анализа древних геномов в моем бета-калькуляторе K13) видны замечательные вещи. Расположение геномов хорошо вписывается в треугольник, один из углов которого образуют геномы древних «ямников» (из работы Haak et al. 2015), причем геномы «русских»ямники из работы Allentoft at al.2015 чуть-чуть сдвинуты в сторону древних мезолитических геномов древних европейских охотников-собирателей. За ними (в направлении «неолитического» угла) следуют представители шнуровой культуры, еще дальше — геномы представителей геномов унетицкой культуры и т.д. Второй угол треугольника образован неолитическим геномами, причем если более поздние неолитические геномы сдвигаются ближе к представителям линейно-ленточной культуры (англ. Linear Pottery culture, фр. Culture rubanée, нем. Linearbandkeramische Kultur, LBK — наиболее распространенная неолитическая культура Центральной Европы 5500—4500 гг. до н. э.), то более ранние геномы — геном представительницы более ранней фазы этой культуры (Stuttgart-LBK), а также геномы представителей балканских неолитических культур — Старчево и Винча — очень близки к палеогеному из Barcin (культура Чатал-Хююк, cамые ранние найденные культурные слои относятся к 7400 г. до н. э.). Таким образом генетика подтверждает утверждения археологов о близости неолитических культур Балкан и Анатолии. Более того — данные генетики свидетельствуют о том, что во времена т.н «неолитической революции» происходила не только и не столько миграция технологий (как считали некоторые археологи), но и миграция населения (из Анатолии на Балканы). Причем, судя по моему графику PCA, миграция происходила в несколько, хронологически удаленных, этапов, и — скорее всего — из разных мест. Крайную точку в этому угле треугольника я обозначил как «анатолийские земледельцы» (ближайший к этой точки геном — геном «земледельца» из культуры Старчево — взят из работ Haak et al. 2015).

Для людей, интересующихся вопросами происхождения индоевропейцев, разумеется будет более интересна другая сторона треугольника, которая скорее всего отражает градиент увеличения градиента частот так называемого ANE — «компонента древних северных евразийцев».

Образно говоря, вектор градиента начинается в геномах ямников (больше половины генома которых состояла из этого компонента) и затем идет к геномам представителей синташтинской, афанасьевской, андроновской, окуневской и карасукской культур.
Пару слов об этих культурах (положение геномов представителей которых можно посмотреть на графике).
1) Синташтинская культура формировалась из древнеямных и катакомбных племён и местного населения. Синташтинцев связывают с индоиранскими племенами.
2) Андроновская культура также развивается на базе ямной. На западе она доходила до района Урала и Волги, где контактировала со срубной культурой. На востоке андроновская культура распространилась до Минусинской котловины, частично включив в себя территорию ранней афанасьевской культуры. Андроновцев (также как и синаштинцев) относят к индоиранской сообщности.
3) Афанасьевская культура была создана мигрантами из Восточной Европы, в частности, носителями древнеямной культуры, ассимилировавшими местное население. Сменилась карасукской и окуневской культурами.Наследниками афанасьевцев были племена тагарской культуры, дожившей до III в. до н. э., по другой версии, тагарцы были скифами, а потомки афанасьевцев — тохарами, которых именно скифы-тагарцы вытеснили в Синьцзян.Большинство исследователей ассоциируют афанасьевскую культуру с (прото-)тохарами.
4) Окуневская культура — фнтропологический тип населения этой эпохи был смешанного европеоидно-монголоидного происхождения, с преобладанием монголоидного. Как отмечает А. В. Громов, бросается в глаза их морфологическая разнородность — встречаются как чисто монголоидные черепа, так и типично европеоидные, не обнаруживающими никаких следов монголоидной примеси. Проведя обстоятельный анализ антропологических особенностей населения неолита и ранней бронзы, А. А. Громов пришел к выводу, что физический тип окуневцев сложился в результате смешения местного неолитического населения с выходцами из территории Средней Азии и Казахстана (афанасьевцами)
5) Карасукская культура — развилась на основе окуневской культуры под влиянием андроновской культуры.

Интересно, что геном мальчика с южносибирской палеолитической стоянки MA-1 как раз проецируется между центроидами геномов представителей синташтинской, афанасьевской, андроновской, окуневской и карасукской культур. Эти геномы (вернее их центроиды) занимают на графике значительное место. Самый дальний из них — геном алтайца из эпохи железного века (примерно 50 год до нашей эры). Сразу за ним идут все из имеющихся у меня палеогеномов жителей Америков (палеоэскимосы — в том числе и Saqqaq; и «палеоиндейцы» — Clovis, древние жители Перу и палеогеномы Botocudo). Любопытно что последние — геномы Botocudo — хотя и являются самыми современными (1600 год нашей эры), однако в них хорошо заметен «океанский компонент», именно поэтому они смыкаются на графике с палеогеномом австралийского аборигена. В этой связи я вспоминаю оригинальную теорию Тура Хейердала о наличии доисторических контактов между жителями островов Тихого океана и жителями Южной Америки.

Особое место на графики занимают «живые реликты» — онге, один из коренных андаманских народов (адиваси), геномы так называемого «усть-ишимца» (возраст 45000 лет), костенковца (Kostenki-14, возраст 38 700 -36 200 лет), и недавно опубликованный палеогеном Oase из Румынии (возрастом 37000-42000 лет). Они образуют отдельную группу (особенно близки друг к другу румынский палеогеном Oase и усть-ишимец), однако я терясь в догадках о том, что именно означает столь заметная близость этих геномов.

 

 

Eurasian and American paleogenomes

Еще раз о палеогеномах европейцев (к работе Haak et. al. 2015)

Еще когда появились первые анонсы препринта статьи Haak et al. 2015,  можно было сделать интуитивные предположения о том, что использованные в работе образцы палеогеномов будут всесторонне изучены не только авторами статьи, но и многочисленными любителями, причем ожидаемая степень детализации полученной картины генетического разнообразия  будет предположительно выше именно у последних (т.е всевозможных геномнных блоггеров).

Так оно и вышло. Давид Веселовский из Eurogenes провел целый ряд экспериментов с объединенным базовым набром «геномов» современных популяций и так называемых древних геномов.  В частности, в одном из своих анализов он задействовал новую программу qpAdm из последней версии пакета Admixtools,  и в ходе пробного моделирования геномов представителей ямной культуры из самарской культуры был наилучшая аппроксимация (fit, подгонка) была получена в комбинации  51.4% генома  охотников-собирателей Самары и  48.6 современных грузин (STD 0,032, chisq 3,890, р-value 2.20661e-22). Образцы палеогеномов представителей  шнуровой керамики могут быть в свою очередь смоделированы как 73% геномов ямников + 27% палеогеномов Esperstedt_MN (STD 0,060, chisq 2,621, р-value 9.74968e-06).

Это интересный результат, главным образом потому данные лингвистики позволяют предположить, что ранние индоевропейцы — по-видимому, кочевники ямной культуры или их предки — были в тесном контакте с прото-картвельскими популяциями.  Похожий результат был получен авторами статьи (у которых представители ямной культуры выступали как 50% -50% смесь геномов карельских охотников-собирателей и армян), а также в моих экспериментах, в которых геномы современных белорусов были представлены  гибридной моделью  современных геномов армян и палегеномов шведских охотников-собирателей Motala.

Впрочем, я согласен с Веселовским — главная проблема с подобными ретроспективными анализами заключается в том, что про причине отсутствия большого количества достоверных древних палеогеномов, популяционные генетики часто вынуждены моделировать древние популяции посредством комбинаций современных популяций. Как отмечает Веселовский, в генофонде современных грузин присутствует (по его оценке) 20% так называемого ANE-компонента, который, вероятно, прибыл на Кавказ из Евразийской степи. Если это так, то алгоритм qpAdm  может переоценить «кавказский» компонент в геномах ямников, по крайней мере, на 10%.

В другом своем анализе Веселовский уделил особое внимание  проблеме происхождения одного из основных компонентов в геноме древних ямников. Так например, анализ Admixture в Haak et al. 2015 включает в себя ряд интригующих компонентов с К = 16 до К = 20, которые, как правило составляют более 40% от генетической структуры потенциально прото-индо-европейских геномов ямников. Веселовский выделил компонент сигнализирующий этот тип «адмикса» и подробно изучил его. Заслуживает внимание тот факт, что компонент достигает своего пика на Кавказе и в горах Гиндукуша, и в целом показывает сильную корреляцию с регионами относительно высокой частоты связанных с палеогеномом MA1  компонентами происхождения (ANE). С другой стороны, другой компонент ямников достигает пиковых значений у  ранних европейских фермеров (EEF), у которых отсутствует компоент ANE.

Выделенные Веселовским 3 основные компоненты-составляющие геномов ямников были преобразованы в синтетические популяции (центрально-азиатская, европейская и неолитическая европейская), которые в свою очередь использовались в качестве подмножества для вычисления векторов загрузки (loadings) в PCA анализе полного набора современных популяций.

https://drive.google.com/file/d/0B9o3EYTdM8lQak82NFVYSUJfWGc/preview

Очевидно, более детальный расклад и анализ вклада различных компонентов геномов палеоевропейцев в геном современных жителей Европы можно найти в подробном анализе Сергея Козлова  «Палеоевропейцы из работы Haak et al, 2015 в свете анализа на IBD-сегменты«.

Как я уже упоминал ранее, мой опыт с «выведением» предкового аутосомного компонента индоевропейцев (обозначенного в статье Lazaridis et al. 2013 сокращением ANE) полностью удался. Поскольку всем очевидно, что этот компонент родственен «североиндийскому предковому компоненту» (ANI — обозначение из статьи Reich et al. 2009 и Moorjani et al 2011) о структуре генофонда индийских этнических групп), я взял 10 индийских этнических групп, имеющихся в кураторском наборе лаборатории Райха и проанализировал эту выборку в Admixture на пропорции вхождения их геномов в 2 априорно заданные кластеры. Первый кластер ANE был априорно задан 40 синтетическим индивидами, сгенерированными в программе Plink на основании расчитанных ранее частот аллелей «чистого» компонента ANE. В качестве дополнительного контрольного образца я использовал геном Malta1, т.к. он содержит в себе наивысшее содержание компонента ANE. Второй кластер был задан 4 индивидами Onge (одна из аборигенных народностей Андаманских островов). Как неоднократно указывалось в литературе, именно жители Андаманских островов являются самыми «чистыми» носителями т.н «южно-индийского» предкового компонента ASI (на континенте чистых носителей этого «компонента» не осталось, в том числе и среди популяций дравидов, ведда и мунда). После нескольких экспериментов по эвристическому методу проб и ошибок, я получил более или менее приемлимое разделение индивидов на 2 кластера, а затем вычислил частоты аллелей в каждом из этих кластеров. Любопытно, что в ходе опыта, удалось не только выделить компонент ANI, но и добиться неплохого уровня дискримнации между компонентом ANI, ANE, и благодаря этому, оба компонента могут быть включены в мой следующий этно-популяционный калькулятор.

Надежность компонентов я проверил на собственных данных. В рабочей модели калькулятора K14 удельное распределение этно-генографических компонентов моего генома выглядит следующим образом:

68.75% — европейский мезолитический компонент
13.12% — северо-евразийский компонент ANE
10.23% — европейский неолитический компонент
4% — ANI (северо-индийский предковый компонент)
1.6% — кавказский компонент
1.2% — алтайский компонент
0.2% — сибирский компонент

Затем я использовал 120 древних образцов аутосомной ДНК человека (начиная с верхнего палеолита до бронзового и железного веков) из последней работы и проработал их в бета-версии своего этно-популяционного калькулятора K14. Я надеялся выделить компонент ANE из ANI, но из таблицы видно, что это фактически один и тот же компонент

Когда я закончу полномерную импутацию всего набора данных от лаборатории Райха, я займусь проведением аналогичных экспериментов. А пока — примерно месяц назад я сообщил о начале первого этапа своего нового проекта. Согласно первоначальному замыслу, на первый этап — фазирование и импутация данных выборок из статей Haak et al .2015 (preprint) и Lazaridis et al. 2014 — я отводил месяц. Так оно и получилось.

В качестве затравки для импутирования я использовал набор 424329 снипов на 22 аутосомных хромосамх. Набор состоял из снипов, прошедших стандратный геномный контроль качества. Фазирование и импутация снипов я проводил с помощью пайплайна Molgenis.

По окончанию этого вычислительно-емкого процесса, мною был получен набор из примерно 5 миллионов снипов; после отсева не входящих в панели Illumina снипов у меня осталось 913841 снипов.

Ниже приведена похромосомная статистика снипов до и после импутации данных.
Как видно, на всех хромосомах (за исключением 19 и 20) количество снипов увеличилось примерно в два раза.

Для оценки качества импутации я сравнил импутированные генотипы своих данных с известными данными из своих сырых данных (снипы с иллюминовского чипсета 23andme) на предмет конкорданса (соответствия).
Оказалось, что у 6.5% импутированных генотипов оба варианта не совпадали с генотипам в rawdata от 23andme, у 17.33% — не совпадал один из двух вариантов. Таким образом, качество импутации составляет примерно 76.18%, что неплохо, учитывая что среднее значение качества импутации в программе IMPUTE v2 + SHAPEIT составляет примерно 69%.

11071088_10206257613949054_7906454924722989677_nChromosome Pre-imputation Post-imputation Percentage of imputed snps

1 36638 88155 41.56
2 40140 90003 44.60
3 33218 62030 53.55
4 23594 54462 43.32
5 19731 55284 35.69
6 27979 56485 49.53
7 22804 49172 46.38
8 23072 48756 47.32
9 19369 42438 45.64
10 25340 49666 51.02
11 23145 46434 49.84
12 16967 45668 37.15
13 14998 35626 42.10
14 15529 36429 42.63
15 14663 27844 52.66
16 15034 33806 44.47
17 7799 24949 31.26
18 11697 27709 42.21
19 7102 17715 40.09
20 12654 5054 -39.94
21 6495 2572 -39.60
22 6361 13584 46.83
424329 913841 36.74

Для проверки полезности полученного набора (объединенного набора «реальных» и импутированных снипов), я соединил его с 112 образцами человеческих палеогеномов из новой статьи Haak et al. 2015. Полученный таким образом набор я проанализировал методом выделения главных компонент, первые две из которых я впоследствии использовал для построения графика главных компонент. Как мне кажется, получилось красиво и правдоподобно.

Two first principal components

 

Через неделю работы в GoogleCloud, получил результаты второго цикла обработки (импутации и фазировки) палеогеномов. Напомню, задачей ставилось увеличение числа снипов палеогеномов до уровня, позволяющего проводить исследования с привлечением сторонних данных по современным человеческим популяциям (т.е не только по тем популяциям, которые включены в кураторский набор лаборатории Рейха, но и другим наборам, генотипированным на платформе Illumina; и что самое главное — с привлечением данных конкретных пользователей 23andme и FTDNA).

И если результатами первой части я был вполне доволен, то этого нельзя сказать о второй части. Теперь я понимаю, что ошибка содержалась в самом дизайне цикла второй части, в которой для импутации и фазирования использовались только реальные и «симуляционные» палеогеномы. В результате, хотя импутация и улучшила взаимное позиционирование палеогеномов в пространстве главных компонент генетического разнообразия, однако при слиянии импутированного в автономном режиме набора палеогеномов с набор полученным в первой части проекта, получилась картина. в которой палеогеномы образуют как бы параллельную субструктуру по отношению к современным популяциям.
Данное обстоятельство объясняется тем, что у древних геномов людей больше общего разнообразия между собой, чем с геномами современных людей (у которых в результате многочисленных генетических дрейфов и бутылочных горлышек большая часть разнообразия была потеряна). По этому причине, при независимой импутации древних геномов их сходство между собой только усилилось, а дистанция с современными популяциями увеличилась. Примечательно при этом, что пропорции вилкообразного разделения генетического разнообразия такие же, как и у современных людей.

На графике PCA эта ситуация прослеживается особенно хорошо, где отчетиливо видно наложение этих двух V-вилок друг на друга (см. нижний график)

Это означает одно — работу над проектом надо продолжить

2014 год — год палеогенетики и эпигенетики

Оглядываясь назад на события и открытия, коими в уходящем 2014 году ознаменовалась область исследований генетики человека, можно смело сказать что уходящий год был годом прорыва в двух принципиально различных направлениях — в палеогенетике, изучающей геномы популяций древних людей прошлого, и  в эпигенетике,  с помощью которой можно прогнозировать будущее (здоровье и качество жизни) отдельных людей.


Палеогенетика

В самом начале 2014 года, на руках немногочисленных исследователей  палеогеномов было менее десятка древних геномов человека, опубликованных в предыдущие года. К концу 2014 года опубликован ряд работ, посвященных попыткам генотипирования останков древних людей — от живших несколько тысячелетий назад до «усть-ишимца» с предположительным возрастом около 45 тысяч лет, неандертальцев и «денисовки». Количество таких расшифровок растет все быстрее, что не может не вызывать оптимизма.  Вторая половина 2014 года особенно примечательна как количеством подобных публикаций, так и числом полных геномных NGS-сиквенсов древних людей, размещенных в публичных репозиториях (банках геномных данных). Так, в сентябре в Nature была опубликована окончательная версия работы Lazaridis et al. 2014  «Ancient human genomes suggest three ancestral populations for present-day Europeans». Работа получила широкое освещение в СМИ, поскольку аналитическая выборка сэмплов в этом исследовании включала значительное количествао заново генотипированных (на чипе Affymetrix HumanOrigin) образцов ДНК из древних палеолитических стоянок Сибири (Афонтова Гора, Малта), представителя древней индейской культуры Кловис и палеоэскимоса Cаккак. В работе был представлен  целый  ряд образцов древней ДНК представителей европейских мезолитических и неолитических культур, опубликованных в более ранних работах 2012-2014 годов: Skoglund et a. 2014 «Genomic Diversity and Admixture Differs for Stone-Age Scandinavian Foragers and Farmers»(шведские земледельцы и охотники собиратели эпохи неолита); Olalde et al. 2014 «Derived immune and ancestral pigmentation alleles in a 7,000-year-old Mesolithic European» (дДНК мезолитического населения Иберийского полуострова) и т.д.

Опубликованные геномы так и остались бы достоянием небольшой группы ученых, и по-прежнему бы использовались бы только для сравнения с абстрактными и анонимизрованных данными референсных популяций человека, если бы усилиями пары любителей (прежде всего усилиям Чандракумара) палеогеномы не были преобразованы в привычные и удобные для популяционного анализа форматы  BAM, VCF и Plink binary, а также в стандартный формат геномных данных от FTDNA. По своей сути, преобразование состояло в сложной процедуре сборки генома из библиотек коротких геномных ридов (в формате sra., в котором эти риды хранятся в репозиториях крупных баз геномных данных). Полученные сборки геномов в формате sam/bam cравниваются с референсным геномом человека, и отличающиеся одиночные нуклеотидные полиморфизмы сохраняются в VCF файл. Здесь нужно помнить о том, что в этой процедуре не учитывался параметр качества сиквенса PHRED score. Традиционно рекомендуется использовать только те базовые пары, PHRED score которых превышает 30, т.е чья точность определения составляет 99.9% (или 1 ошибка на 1000 базовых пар). Кроме того, в этой процедуре разработчик не учел влияние постмортальных изменений ДНК. Cледует помнить, что ДНК, как и любая биомолекула, способна вступать в химические реакции с окружающим миром, тут-то и появляются различные модификации нуклеотидов (особенно по краям фрагментов древней ДНК). Наиболее частая постмортальная мутация — дезаминирование цитозинов (C), приводящая к возникновению урацилов (U) в последовательности древней ДНК, которые при проведении ПЦР многократно копируются «бездушным» ферментом ДНК-полимеразой как тимин (Т). Именно по этой причине, при оценке достоверности снипов в полученных из палеогеномов вариантах особое внимание требуется уделять транзициям C->T и  G->A.  Если при подсчете вариантов окажется, что такие транзиции встречаются чаще ожидаемого, то можно сделать вывод о существенном повреждении палео-ДНК.  И хотя по причине игнорирования этих ограничений, автором было получено большое количество снипов, в некоторых случаях, например при объединении полученных данных NGS c данными генотипирования с помощью классических технологий миркочипов, использование таких данных может существенно уменьшить качество интерпретации.

Тем не менее, благодаря этим усилиям, и не в меньшей степени, благодаря соотрудничеству с порталом Gedmatch и компанией  FTDNA, большинство клиентов ведущих компаний на рынке персональной геномики и генетической генеалогии (таких как 23andme, и FTDNA) могут сравнить свои данные с данными древних геномов либо путем сравнения частото аллелей, либо посегментно сравнивая свои хромосомы с гомологичными хромосомами древних геномов.  Более того, Феликс Чандракумар пошел дальше и разместил 10 наиболее качественных палеогеномов (т.е палеогеномов с наибольшим числом перекрывающихся разными микроматрицами снипов) на FTDNA. Таким образом, с помощью сервиса MyOrigins FTDNA, исследователи могут установить распределение «этно-популяционных составляющих» или «предковых этнопопуляционных компонентов» в этих древних геномов. Нужно помнить, конечно же, что в случае с наиболее древними геномами (геномами неандертальца, усть-ишимца и т.д.) полученное распределение более молодых компонентов (полученных из современных популяций) нельзя интерпретировать буквально.


Эту замечательную функцию дополняют калькуляторы Eurogenes, благодаря которым любой интересующийся человек может посмотреть, какой процент его/ее генома приходится на тот или иной древний геном. Для людей, озабоченных вопросами анонимности, Феликс разработал отдельное десктопное приложение  — калькулятор древней ДНК. Этот калькулятор  показывает, какой процент ДНК (составных сегментов) аутосомной ДНК клиента попадает в каждый из 30 образцов древней ДНК . Другими словами, он показывает  процент общих предков в сравнении современного ДНК и палеоДНК.

Подводя итоги года, можно сказать, что в области изучения древней ДНК все ожидания были оправданы.


Эпигенетика

Под эпигенетикой обычно понимают область знаний о совокупности свойств организма, которые не закодированы непосредственно в геноме, но могут и должны передаваться по наследству.Эпигенетика может быть определена как изучение механизмов контроля активности генов во времени и пространстве в процессе развития сложных организмов. К настоящему времени обнаружены и описаны различные механизмы контроля активности генов, однако в уходящем 2014 году особое внимание ученые уделяли  изучению одного из таких механизмов  — ферментативному (энзиматическому) метилированию самой генетической матрицы, то есть ДНК.

Метилирование — это изменение молекулы ДНК путем присоединения метильной группы (-СH3) к нуклеотиду C, причем необходимо, чтобы за С следовал нуклеотид G. Последовательность нуклеотидов -CG- называется СpG динуклеотидом, или CpG сайтом. Метилирование происходит не во всех клетках одновременно, поэтому говорят о проценте метилирования определенного CpG сайта.метилирование ДНК ощутимо сказывается на её взаимодействии (связывании) с различными белками. Во многих случаях метилирование по цитозиновым остаткам препятствует связыванию специфично реагирующих с ДНК ядерных белков (факторов), которые, собственно, и осуществляют разные генетические процессы, в том числе транскрипцию, репликацию и репарацию.Как известно, метилирование играет важнейшую роль в механизме экспрессии (т.е качественном и количественном проявлени) генотипа в фенотип. оказано, что с изменением профиля метилирования связаны такие заболевания, как различные виды рака, диабет первого и второго рода, шизофрения и т.д. Поэтому важно уметь анализировать профиль метилирования генома, и здесь перед энзимологией расскрываются огромные перспективы. Например, в 2014 году компания «СибЭнзайм» открыла новый фермент, на базе которого разработали новый метод детекции. Он позволяет определять, включен или выключен интересующий вас ген — э то управляющий механизм в организме, именно отключение отдельных генов ученые связывают с развитием рака:

С технической точки зрения, изучение метиляции ДНК происходит с использованием модифицированного варианта ChiPSeq (это комбинированный вариант иммунопреципитации хроматина (ChIP) и высокоэффективного секвенирования ДНК для определения участков связывания ДНК и белков). Не вдаваясь в биолого-химические подробности этого модифицированного метода, его можно кратко описать следующим образом. Каждый CpG сайт измеряется с помощью двух флуоресцентных проб. Флуоресцентный сигнал проб пропорционален соответственно количеству метилированных и неметилированных CpG сайтов в тестируемом образце.  Полученные данные образуют собой профиль метилирования, который удобно сравнивать с различными референсными образцами. Как уже говорилось выше, этот профиль можно использовать не только для медицинских целей (например, для изучения эпигенетических факторов развития различных заболеваний), но и для более общих целей. В недавном исследовании, проведённом специалистами из Калифорнийского университета (UCLA), выявило биологические часы, встроенные в геном человека и оно впервые определило, что внутренние часы в состоянии точно оценить возраст различных человеческих органов, тканей и клеток. Исследователи обратили свое внимание на метилировании – естественном процессе, изменяющем химический состав ДНК. Он изучил 121 набор данных, собранных ранее исследователями, изучавшими метилирование здоровых и раковых тканей человека. Проанализировав информацию по 8000 образцов из 51 типа тканей и клеток со всего тела, исследователи смогли определить, как возраст влияет на уровни метилирования с рождения до 101 года. Он определил, что метилирование работает на 353 участках ДНК, которые изменяются с возрастом. Таким образом, профиль метилирования ДНК представляет собой наиболее надежную метрику для расчетов биологического возраста как отдельных органов, так и всего организма.

Принимая это во внимание, можно сказать что и в последующие года эпигенетику ожидают радужные перспективы.

Публикации и работа с палеогеномами

Как я уже отмечал в своих предыдущих записях, за последние годы был опубликован ряд работ, посвященных попыткам генотипирования останков древних людей — от живших несколько тысячелетий назад до «усть-ишимца» с предположительным возрастом около 45 тысяч лет, неандертальцев и «денисовки». Количество таких расшифровок растет все быстрее, что не может не вызывать оптимизма.  Вторая половина 2014 года особенно примечательна как количеством подобных публикаций, так и числом полных геномных NGS-сиквенсов древних людей, размещенных в публичных репозиториях (банках геномных данных). Так, в сентябре в Nature была опубликована окончательная версия работы Lazaridis et al. 2014  «Ancient human genomes suggest three ancestral populations for present-day Europeans». Работа получила широкое освещение в СМИ, поскольку аналитическая выборка сэмплов в этом исследовании включала значительное количествао заново генотипированных (на чипе Affymetrix HumanOrigin) образцов ДНК из древних палеолитических стоянок Сибири (Афонтова Гора, Малта), представителя древней индейской культуры Кловис и палеоэскимоса Cаккак. В работе был представлен  целый  ряд образцов древней ДНК представителей европейских мезолитических и неолитических культур, опубликованных в более ранних работах 2012-2014 годов: Skoglund et a. 2014 «Genomic Diversity and Admixture Differs for Stone-Age Scandinavian Foragers and Farmers»(шведские земледельцы и охотники собиратели эпохи неолита); Olalde et al. 2014 «Derived immune and ancestral pigmentation alleles in a 7,000-year-old Mesolithic European» (дДНК мезолитического населения Иберийского полуострова) и т.д.

В этой связи необходимо также отметить статью Carpenter et al. 2013 «Pulling out the 1%: whole-genome capture for the targeted enrichment of ancient DNA sequencing libraries»в которой целый авторский коллектив представил результаты исследований древних образцов ДНК найденных в захоронениях бронзового века II тыс. д.н.э (Болгария и Дания).  В следующей работе опубликованной в конце октября, Gamba et al. 2014. «Genome flux and stasis in a five millennium transect of European prehistory»,  читателям была представлена хронологическая перспектива на процесс изменения генофонда населения популяций живших на территории  Паннонской равнины на протяжении 5000 лет (с эпохи неолита до конца железного века), проиллюстрированная на примере изучения 13 образцов древней ДНК. Параллельно вместе с этим Wellcome Trust Sanger Institute разместил геномные «риды» геномов древних англосаксов и бриттов (сама статья еще находится в процессе пре-публикации, презентация статьи была представлена на последней конференции AJHG).

Более важные публикации появилась совсем недавно. В частности, таковой публикацией является статья Fu et al. 2014 «Genome sequence of a 45,000-year-old modern human from western Siberia» о  геноме так называемого «усть-ишимца» (возраст останков которого датируются 45 000 д.н.э) и статья Seguin-Orlando et al. 2014 «Genomic structure in Europeans dating back at least 36,200 years», посвященная обсуждению результатов анализа ДНК знаменитого «папусоида»  с палеолитической стоянки Костенки-14.Тело мужчины, жившего 37 тыс. лет назад и найденное в 1954 г. на юго-западе России, оказалось источником старейшей европейской ДНК. Анализ его генома, опубликованный на прошлой неделе, показывает, что большинство разнообразных европейских генетических комбинаций существуют более 30 тыс.лет и пережили последний ледниковый период. Генетики обнаружили что ДНК Костенки-14 является близкородственным по отношению к раннеевропейским охотникам-собирателям, современным европейцам и жителям Сибири.
В то же время другой древний геном, данные о котором были опубликованы несколько недель назад, принадлежащий сорокапятитысячелетнему западному сибиряку, известному как Усть-Ишим, имел родство как с европейцами, так и с азиатами.  Любопытно, что в этой статье подтверждается то о чем я говорил гораздо раньше: процент неандертальских генов у древних евразийцев был выше чем у современных (о чем я упоминал в одной из своих заметок в этом блоге).

Трудами известного геномного блоггера Феликса Чандракумара большинство из них было переведено в простой и доступный формат, аналогичный файлам raw data от FTDNA и 23andMe. В GEDMatch можно поиграть с этнокалькуляторами и даже попытаться сравнить свой геном с геномами древних людей.Для этого следует взять из таблицы (кот. видна, если пройти по ссылке) номера, которыми обозначены древние геномы.

Sample Name Sample Location GEDMatch Sex Y-DNA Mt-DNA Approx. Age by authors My Analysis or Comments
Altai Neanderthal Denisova Cave, Siberia F999902 Female 50,000 years
Denisova Denisova Cave, Siberia F999903 Female 30,000 years
Palaeo-Eskimo Qeqertarsuaq, Greenland F999906 Male Q1a D2a1 4,000 years Palaeo-Eskimo 2000 BC DNA
Clovis-Anzick-1 Montana, North America F999919 Male Q-Z780 D4h3a 12,500 years Matches Living people.
Mal’ta South-Central Siberia F999914 Male R U 24,000 years Matches Living people on X Chromosome.
La Braña-Arintero León, Spain F999915 Male C-V183 U5b2c1 7,000 years Analyzing La Braña-Arintero Ancient DNA
Motala-12 Östergötland, Sweden F999917 Male I-L460 U2e1 7,000 years My Analysis of Motala-12 ancient DNA
LBK Stuttgart, Germany F999916 Female T2c2 7,500 years Matches Living people
Loschbour  Loschbour, Luxembourg F999918 Male I-L460 U5b1a 8,000 years Matches Living people
Ajvide58 Sweden F999924 Male I-CTS772 U4d 5000 years Ajvide58 DNA Analysis
Gökhem2 Sweden F999934 Female H1c 5000 years Gökhem2 Ancient DNA Analysis
Hinxton-2 Cambridgshire, UK F999921 Female H2a2b1 1300 years Hinxton-2 Analysis
Hinxton-3 Cambridgshire, UK F999922 Female K1a4a1a2b 1300 years Hinxton-3 Analysis
Hinxton-4 Cambridgshire, UK F999925 Male R-DF25 H1ag1 2000 years Hinxton-4 has X-Matches with living people
Hinxton-5 Cambridgshire, UK F999926 Female H2a2a1 1300 years Hinxton5 Ancient DNA Analysis
KO1 Tiszaszőlős-Domaháza, Hungary F999931 Male I-L68 R3 5650-5780 cal BC Analysis of Neolithic KO1 genome
NE1 Polgár-Ferenci-hát, Hungary F999937 Female U5b2c 5070-5310 cal BC NE1 Ancient DNA Analysis
NE5 Kompolt-Kigyósér, Hungary F999927 Male C-F3393 J1c 4990-5210 cal BC Ancient Hungarian Genome NE5 Analysis
NE6 Apc-Berekalja I., Hungary F999932 Male C-P255 K1a3a3 4950-5300 cal BC Analysis of Hungarian genome-NE6
NE7 Apc-Berekalja I., Hungary F999928 Male I-L1228 N1a 4360-4490 cal BC Ancient Hungarian genome — NE7
CO1 Apc-Berekalja I., Hungary F999930 Female H 2700-2900 cal BC Analysis of Copper age genome CO1
BR2 Ludas-Varjú-dűlő, Hungary F999933 Male J-M67 K1a1a 1110-1270 cal  BC Ancient BR2 matches living people
IR1 Ludas-Varjú-dűlő, Hungary F999929 Male N-M231 G2a1 830-980 cal BC Ancient Hungarian genome — IR1
Tyrolean Iceman
(ERP001144)
Tisenjoch Pass, Oetztal Alps Male 5300 years Pending
Ust’-Ishim Ust’-Ishim, Siberia F999935 Male K-M526 R 45,000 years Ust’-Ishim matches with living people!
Kostenki14 European Russia F999936 Male C-V199 U2b 38,700-36,200 years Kostenki14 Ancient DNA Analysis
Sample Name Sample Location Sex Y-DNA Mt-DNA Approx. Age by authors
Mezmaiskaya Neanderthal Mezmaiskaya Cave Female 29,000 years
Tianyuan Tianyuan Cave, China R 40,000 years
Afontova Gora-2 South-Central Siberia Male R1? R 17,000 years
Motala-1 Östergötland, Sweden Female U5a1 7,000 years
Motala-9 Östergötland, Sweden Female U5a2 or U5a1f1a1 7,000 years
Motala-6 Östergötland, Sweden Male U5a2d 7,000 years
Motala-2 Östergötland, Sweden Male F-P139 U5e1 7,000 years
Motala-4 Östergötland, Sweden Female U5a2d 7,000 years
Motala-3 Östergötland, Sweden Male I-M258 U2e1 7,000 years
Hinxton-1 Cambridgshire, UK Male R-L151 K1a1b1b 2000 years
Ajvide53 Sweden Female U4d 5000 years
Ajvide59 Sweden Male I-PF3796 U5b2c1 5000 years
Gökhem7 Sweden Female H 5000 years
Ire8 Sweden Male I-CTS6343 U4d 5000 years
StoraFörvar11 Stora Karlsö, Sweden Male I-CTS4077 U5a1f1a 7500 years
Gökhem4 Sweden Male CF-M3690 H 5000 years
Gökhem5 Sweden Female K1e 5000 years
Ajvide52 Sweden Male HIJK-F929 HV0a 5000 years
Ajvide70 Sweden Female U4d 5000 years
NE4 Polgár-Ferenci-hát, Hungary Female J1c 5050-5290 cal BC
NE3 Garadna, Hungary Female X2b 5010-5210 cal BC
BR1 Kompolt-Kigyósér, Hungary Female K1c1 1980-2190 cal BC
KO2 Berettyóújfalu-Morotva-liget, Hungary Female K1 5570-5710 cal BC
NE2 Debrecen Tócópart Erdõalja, Hungary Female HV 5060-5290 cal BC
V2 Vratitsa, Bulgaria Male U2e1’2’3 1500-1100 BC
M4 Borum Eshøj, Denmark Male B2 1350 BC
K8 Krushare, Bulgaria Male R 450-400 BC
NA43 Laguna de los Condores, Peru Male B4b’d’e 1000-1500 AD
AusAboriginal Western Austalian Male F-M235 O1a 100 years
NA41 Laguna de los Condores, Peru Male L3 1000-1500 AD
P192-1 Svilengrad, Bulgaria Male U3b 800-500 BC
T2G2 Stambolovo, Bulgaria Male H1c9a 850-700 BC
NA42 Laguna de los Condores, Peru Male D1 1000-1500 AD
NA50 Laguna de los Condores, Peru B4b’d’e 1000-1500 AD
NA47 Laguna de los Condores, Peru L3 1000-1500 AD
NA40 Laguna de los Condores, Peru L3 1000-1500 AD
NA39 Laguna de los Condores, Peru Male B2 1000-1500 AD
Feld1 Neanderthal Neander Valley, Germany 42,000 years
Sid1253 Neanderthal El Sidron cave, Asturias, Spain 49,000 years
Vi33.16 Neanderthal Vindija cave, Croatia Female 38,310 years
Vi33.25 Neanderthal Vindija cave, Croatia Female
Vi33.26 Neanderthal Vindija cave, Croatia Female 44,450 years

В своем блоге Феликс размещает аналитические отчеты по каждому из проведенных анализов, отчеты включают графическое отображения «состава различных геномных компонентов происхождения» каждого из образцов в калькуляторах Gedmatch (включая мой последний калькулятор K23b), фенотипические признаки (предположительный цвет кожи и глаз), возраст на момент смерти и т.д.
Пытаясь ответить на вопрос,  насколько  правдоподобны (в смысле реального генеалогического родства) результаты совпадения сегментов древних и современных людей, Феликс приводит замечательные вычисления оценки правдоподобия совпадений в геномах современных людей и древних образцов. К сожалению, рассуждения замечательные, но вызывающие определенные вопросы, которые я озвучу в другой заметке.

Так или иначе, поставленная Феликсом на поток и практически полностью автоматизированная работа с древними геномами заслуживает безусловного признания, поскольку в силу разделения труда позволяет другими исследователям-любителям полностью сконцетрировать свое внимание на процессе непосредственного анализа полученных данных, вместо того чтобы тратить свои ресурсы на процесс извлечения снипов из «сырых» геномных данных. Благодаря этому разделению труда,  Давид Веселовский из проекта Eurogenes провел ряд замечательных экспериментов с этими данными (включая PCA, Treemix и вычисление генного дрейфа с помощью f3). В основном выводы этих экспериментов повторят то, что было написано в статьях профильных генетиков, за исключением одного интересного вывода на основании графа Treemix, в котором отображено направление процессов обмена генами между различными древними популяциями:

«В отношении Kostenki14, графики  Treemix  подтверждают один из основных выводов работы Seguin-Orlando et al. 2014, согласно которой  главны компонент образца  Kostenki-14  является базальным «предковым» компонентом более поздних европейцев (Basal_Eurasian). Тем не менее, два последних графика показывают, что этот базальный «компонент» не тот же самый «базальный» компонент в геноме неолитического образца из Штутгарта, связанного с базальным евразийским  компонентом, который был описан  в работе Lazaridis et al. 2013″.

Другой геномный блоггер, Сергей Козлов, использовал те же самые данные палеогеномов (взятые с сайта Ф. Чандракумара) для создания замечательных карт, иллюстрирующих количество и интенсивность общих IBD-сегментов палеогеномов и геномов современных популяций.

Я решил не оставаться в стороне и провел собственный анализ PCA и кластеризации популяций по значениям компонентов генетического разнообразия.

Ниже приведены иллюстрации к моему опыту кластеризации собственного генома с геномами древних жителей Евразии. В качестве входных данных алгоритма ward-кластеризации в программе R, я использовал собственные значения 4 векторов главных компонентов (PC) разнообразия. Эти векторы, в свою очередь, были получены путем вычислений в большом массиве (2024 образца) генетических данных (примерно 110 тысяч снип-полиморфизмов) представителей современных и древних популяций. Мой геном (обозначенный как Vadim) представляет собой набор, полученныq в ходе импутации по датасету Human Origin значения снипов информативных с точки зрения эволюционного происхождения, и используется в качестве контрольной группы.

Для начала график PCA, и положение палеогеномов на этом графике.

10805810_10205228379818844_2683994891484833194_n

В аналитической выборке я задействовал снипы геномов высших и низших приматов (дендрограмма выборка укоренена на геноме мармозетки), древних гоминидов (денисовского человека и неандертальцев). Остальное — как я и упоминал выше — представляет собой совокупность снипов современных и древних популяций.

Благодаря характеру выборки и характеру используемых снипов, я могу взглянуть на свое происхождение с наиболее широкой перспективы, позволяющей проследить индивидуальный эволюционный путь от древнейших людей до наших современников.
Можно сказать, что я проделал самое далекое (из всех предыдущих) генеалогическое путешествие в собственное прошлое. Разумеется, без предыдущего выделения обработки образцов древнего ДНК новейшими биохимическими методами, а также публикации данных — это путешствие длинной в сотни тысяч лет не могло бы просто состоятся. Так что огромное спасибо всем биохимикам, генетикам и биоинформатиков работавшим с образцами древней ДНК.

Полученные мной кластерные дендрограммы вышли очень большого разрешения. В силу этого, имеет смысл изучить топологию, структуры и расположение популяционных групп-кластеров в полномасштабном варианте, иначе могут возникнуть интересные вопросы.

1557253_10205127321932460_4975988878575720296_o 10801887_10205156832150197_5471832914364777784_n (1) 10801887_10205156832150197_5471832914364777784_n 247121_10205156832710211_7030394711716209950_n 1235004_10205156831950192_4536397005560655073_n 1379610_10205156832350202_753531489446222277_n 10411811_10205156831710186_6596784203743263163_n

Поэтому — я подготовил соответствующие файлы PDF и разместил ссылки на эти файлы для удобного просмотра.

tree1

tree2

tree3

tree4

tree5

tree6

tree7

tree8

tree9

tree10

tree11

tree12

tree13

tree14

tree15

tree16

Здесь их опубликовать не представляется возможным, и по этой причине я ограничу себя размещением тех фрагментов трех вариантов кластерных диаграмм, на которых присутствуют древние образцы.
Забегая вперед, можно заметить, что образцы ДНК древних людей (т.е людей современного анатомического типа — homo sapiens sapiens), строго говоря, разбиваются на три органические суперкластера — древних сибириков (или евразийцев), древних европейских охотников-собирателей, и ранних неолитических европейских земледельцев. В основной своей части состав и топология популяционных кластеров стабилен в разных вариантах, наибольшие видоизменения заметны у тех образцов, чье множество снипов имеет меньшее пересечение с общим набором снипов. Отсюда довольно таки тривиальный вывод: чем меньше общее число снипов — тем больше флуктуаций наблюдается в расположении древних образцов внутри ветвей кластерной дендрограммы.

Кластер древних евразийцев наиболее стабилен (т.к. там всего два древних генома Afontova Gora 2 (AG2) и знаменитый мальчик с сибирской стоянки Malta (MA1); причем оба образца взяты из одного источника данных). Из современных популяций к этому кластеру наиболее органично примыкают различные группы населения центральной Азии — от таджиков до гуджаратов, и от калашей до пуштунов.

Кластер древних охотников-собирателей Европы наиболее неустойчив, и это объясняется прежде всего разным числом снипов в образцах, а также тем что сами образцы взяты из разных исследований. Тем не менее тенденция наглядна — древнейшие европейцы (охотники-собиратели мезолита) наиболее близки по своим аутосомным снипам к жителям современной западной и северной Европы — особенно Британских островов, Скандинавии и Балтийского региона. Практически во всех вариантах прибалтийцы близки к древним жителям Швеции (Готланда), а также мезолитическим образцам La Brana, Motala и Loshbour. Последние также близки к финнам, эстонцам и северным русским. Из более поздних и географически удаленных образцов к ним близки древние образцы из Венгрии неолитического периода, бронозового и железного веков (BR1, NE2 и KO1).

Интересно, что в этот же кластер входят как современные популяции западной Европы (британцы, норвежцы, французы и др.), так и современные жители центральной Европы — чехи хорваты и венгры. Является ли это наследием древних времен (гальштатской общности связываемой с древними кельтами) — трудно сказать. Не этим ли объясняется тот факт, что образцы древних англо-саксов и бриттов (обозначенные здесь как Hixton) иногда кластеризируются с (современными!) венграми, хорватами, иногда с современными англичанами из Кента и корнуэлльцами. При этом некоторые из образцов Hixton остаются близки (в смысле схожести генома) к скандинавам, оркнейцам, шотландцам, и даже литовцам.

Мой собственный «геном» (Vadim) также входит в эту группу, причем в разных вариантах он определенно близок одновременно и древним мезолитическим и эпинеолитическим шведам, а также более поздним образцам из Венгрии (киммерийского мальчика IR1, а также самый «балтийский» из всех древних венгерских обрацов — KO1). Интересно что IR1 («аутосомный геном» «киммерийского » мальчика Y-гаплогрупы N1a из захоронения паннонской культуры бронзового века Mezőcsát примерно 900 год до нашей эры) в первых четырех главных компонентах кластеризируется с моим собственным «аутосомным геномом»). Это наверное объясняет почему мой собственный геном дает хорошие комбинации (fit) к комбинации трапезундских турков и древних жителей Балтийского региона.

Как известно, попгенетики готовят к публикации большую статью, в которой подводятся итоги нескольких лет исследования генофонда представителей древних культуры шнуровой керамики* (известной также как культура боевых топоров) и ямной культуры** (другое название — древнеямная культурно-историческая общность). Безусловно, это исследование обещает пролить свет на некоторые темные места генетических связей жителей этих культур с современным населением Восточной Европы (особенно Польши, Украины, Беларуси и юго-западной части России).

Пока все детали исследования неизвестны, однако благодаря настойчивости некоторых энтузиастов генетической генеалогии (Веселовского и пр.) удалось выяснить, например, что генофонд древние образцы представителей Ямной культуры в рамках формальных тестов (f3 и D-статистик) наилучшим образом аппроксимируются как результат смешения древнего мезолитического населения севера Европы (в работе их представляют карельские образцы, очевидно из известных захоронений Палеострова) и населения, близкого к современным закавказским популяциям (лучший результат дали армяне из Еревана).

Признаюсь, эти сведения приободрили меня. Дело в том, что последние несколько недель я занимался изучением эволюции аутосомного генофонда беларусов (и своего тоже) из недавно опубликованного набора лаборатории Райха (это одна из усеченных версии их знаменитого кураторского набора Human Origin Dataset).
Как и раньше, для анализа я использовал инструменты разработанные программистами той же лаборатории (Admixtools), а также Alder — программу написанную на основе открытого кода Admixtools, и оптимизированную под более детальный анализ процесса смешивания различных предковых групп.

Так вот, до получения сведений о предварительных результатах попгенетиков, я был немного смущен полученной картиной. У меня получилось вот что. С точки зрения формальной оценки (f3-статистки, аналога более известной p-статистки) лучшие пары адмикса для беларусов (с отрицательным значением Z) представляли собой либо комбинацию мезолитического населения Европы (Loshbour) и современного населения современной Анатолии и ближнего Востока, либо комбинацию ‘генов’ неолитических жителей Европы (LBK380, а также современных сардинцев) и современных америндских популяций (происходящих, как нам известно, из восточной Сибири).
Вот начало списка значимых пар:

Mixe Sardinian Vadim -11.811
Sardinian Mixe Vadim -11.811
Karitiana Sardinian Vadim -11.757
Sardinian Karitiana Vadim -11.757
Zapotec Sardinian Vadim -11.638
Sardinian Zapotec Vadim -11.638
Loschbour Georgian_Megrels Vadim -11.599
Georgian_Megrels Loschbour Vadim -11.599
Piapoco Sardinian Vadim -11.482
Sardinian Piapoco Vadim -11.482
Loschbour Turkish_Trabzon  Vadim -11.434
Turkish_Trabzon Loschbour Vadim -11.434
Loschbour Assyrian_WGA Vadim -11.395
Assyrian_WGA Loschbour Vadim -11.395
LBK380 Piapoco Vadim -11.354
Piapoco LBK380 Vadim -11.354
Surui Sardinian Vadim -11.346
Sardinian Surui Vadim -11.346
Loschbour Abkhasian Vadim -11.293
Abkhasian Loschbour Vadim -11.293
Bolivian_LaPaz Sardinian Vadim -11.232
Sardinian Bolivian_LaPaz Vadim -11.232
Loschbour Iranian_Jew Vadim -11.231
Iranian_Jew Loschbour Vadim -11.231

Я выбрал около сотни значимых пар и проверил их достоверность «адмикса) с помощью инструментов D-статистки (qpDstat) в попарном сравнении каждой из значимых комбинаций (начало таблицы):

Vadim Italian_Tuscan : Loschbour Palestinian 0.0293 8.141 best
Vadim Iranian : LBK380 GujaratiC_GIH 0.0245 7.319 best
Vadim Motala12 : Druze Sardinian 0.0125 7.285 best
Vadim Loschbour : Palestinian Albanian 0.0146 7.17 best
Vadim Sardinian : GujaratiC_GIH Iranian 0.0121 7.151 best
Vadim Palestinian : Spanish_Pais_Vasco_IBS GujaratiC_GIH 0.0145 7.126 best
Vadim Egyptian_Comas : Basque_Spanish GujaratiC_GIH 0.0137 7.016 best
Vadim Sardinian : Loschbour Egyptian_Comas 0.0251 6.962 best
Vadim Sardinian : Loschbour Tunisian_Jew 0.0251 6.789 best
Vadim Palestinian : Basque_Spanish GujaratiC_GIH 0.013 6.758 best
Vadim Sardinian : Loschbour Palestinian 0.0237 6.69 best
Vadim Basque_Spanish : Balkar Palestinian 0.0076 6.601 best
Vadim GujaratiC_GIH : Tunisian_Jew Egyptian_Comas 0.0094 6.493 best
Vadim Spanish_Pais_Vasco_IBS : Balkar Palestinian 0.0079 6.458 best
Vadim Loschbour : Druze Italian_WestSicilian 0.0135 6.443 best
Vadim Loschbour : Iranian Albanian 0.0159 6.385 best
Vadim Palestinian : Sardinian Iranian 0.0083 6.344 best

Как видно, лучшая достоверность (обмена генами) у тех пар которые представляют собой комбинацию мезолитических популяций (Loshbour и Motala), популяций Кавказа, южной Европы и центральной Азии.

Это особенно хорошо заметно в тесте f4ratio. Вот например сравнение 2 квадропул, три популяции в каждой из которых идентичны (беларусы, кумыки и Losbour), а четвертая популяция отличается (балкарцы vs. Motala). Результат означает что кроме мезолитического компонента Loshbour (из западной Европы), у беларусов наблюдается эксцесс (28+-0.1%) дополнительного источника мезолитических «генов» (типично для балтийских популяций мезолита вроде Motala)

Vadim Kumyk Loschbour Motala12 : Vadim Kumyk Loschbour Balkar 0.285678 0.096194 2.97

Крайне любопытны и результаты проведенного мной в Alder исследования источников «древного» адмикса у беларусов.
Я выбрал только те пары, в которых амплитуда угасания LD в двух гипотетических популяциях-донорах была сопоставима с амплитудой угасания LD в популяции-реципиенте (т.е у беларусов). Интересно, что только две пары (пенджабцы + Motala) и (иракские евреи + чукчи) дали консистентную попарную подгонку кривой угасания LD с незначительным разбросом амплитуды (15-25%). К слову, комбинация Armenian+Motala-merge (примерно идентичная наиболее устойчивой модели адмикса у жителей ямной культуры) тоже присутствует в списке «успешных» комбинаций, однако кривые угасания LD имеют разную скорость угасания (их амплитуда отличается уже на 55% и поэтому они не консистентны, т.е несовместимы) в попарном режиме сравнения

DATA: success_consistent 0.0042 Belarusian Punjabi_Lahore_PJL Motala_merge 4.49 2.76 2.78 15%
DATA: success_consistent 0.0098 Belarusian Iraqi_Jew Chukchi 4.31 2.2 3.01 25%
DATA: success 0.0065 Belarusian Mongola Motala_merge 4.4 2.64 2.78 28%
DATA: success 0.011 Belarusian Yi Papuan 4.29 2.26 4.66 28%
DATA: success 0.00037 Belarusian Lebanese Papuan 4.98 2.69 4.66 38%
DATA: success 0.041 Belarusian Kusunda Motala_merge 3.98 2.61 2.78 41%
DATA: success 0.013 Belarusian Hezhen Motala_merge 4.25 2.17 2.78 49%
DATA: success 0.037 Belarusian Motala_merge Tu 4.01 2.78 3.13 51%
DATA: success 4.20E-06 Belarusian Kalmyk Motala_merge 5.79 2.36 2.78 54%
DATA: success 0.0086 Belarusian She Motala_merge 4.34 2.58 2.78 54%
DATA: success 0.0019 Belarusian Armenian Motala_merge 4.66 2.14 2.78 55%
DATA: success 0.048 Belarusian Daur Motala_merge 3.94 2.11 2.78 56%
DATA: success 0.0042 Belarusian Motala_merge Miao 4.49 2.78 3.5 59%
DATA: success 0.041 Belarusian Oroqen Motala_merge 3.98 2.28 2.78 59%
DATA: success 0.013 Belarusian Thai Motala_merge 4.25 2.13 2.78 65%
DATA: success 0.043 Belarusian Motala_merge Lahu 3.97 2.78 3.56 71%
DATA: success 0.0049 Belarusian Motala_merge Japanese 4.46 2.78 3.53 72%

Примечательно что для пары Belarusian Armenian Motala_merge  Admixtools датирует смешение 114.67+/-20.5 поколений тому назад. А вот датировка адмикса для двух первых пар (последняя колонка это датировка адмикса
Belarusian Punjabi_Lahore_PJL Motala_merge 4.49 2.76 2.78 15% 142.4+/-27.54
Belarusian Iraqi_Jew Chukchi 4.31 2.2 3.01 25% 43.28+/-9.45 То есь самое позднее 3500 лет до нашего времени.Итак, выводы: в эволюционной перспективе, костяк аутосомного генофонда беларусов составляет субстрат мезолитического генетического компонента Европы, к которому примешиваются два потока — один с юга, с наиболее значимым вливанием во времена неолита (земледельцы из Анатолии и ближнего Востока), другой — видимо более поздний (т.к. он отсутствует у ямников) из Сибири.


*Культура боевых топоров, культура шнуровой керамики (нем. Schnurkeramik) — археологическая культура медного и бронзового веков, распространенная на обширных территориях Центральной и Восточной Европы и датированная 3200 г. до н. э./2300 до н. э. — 2300 г. до н. э./1800 г. до н. э. Племена культуры боевых топоров часто считают первыми индоевропейцами на территории Средней Европы
**Я́мная культу́ра (точнее — Древнея́мная культу́рно-истори́ческая о́бщность) — археологическая культура эпохи позднего медного века — раннего бронзового века (3600—2300 до н. э.). Занимала территорию от Южного Приуралья на востоке до Днестра на западе, от Предкавказья на юге до Среднего Поволжья на севере.В рамках ранней версии курганной гипотезы Марии Гимбутас ямная культура связывалась с поздними протоиндоевропейцами.

 

Кластер древних жителей по своей устойчивости занимает промежуточное место между кластерами древних северных евразийцев и западных европейских охотников-собирателей.
В этот кластер, иерархически близкий популяциям Кавказа и ближнего Востока, предсказуемо входят предстаители самых классических популяции южной Европы — от греков и болгар, до басков и сардинцев. Как уже стало обычным, сардинцы кластеризуются с образцом тирольского человека Этци и женщины из линейноленточной культуры («LBK380»). В большинстве вариантов (2 из трех опубликованных) к этой подгруппе примыкают представители древнейших неолитических культур на территории современной Венгрии — CO1, H4, H3, NE5, NE7). Жители бронзового века (на графике они ошибочно обозначены как Europe оказались посередине между раннеевропейскими охотникам-собирателями и земледельцами.

Добавление к выборке древних геномов «усть-ишимца» и «костенковца» позволило пролить свет на некоторые особенности эволюции популяций центральной и восточной части Евразии. В кластерном анализе (вардовская кластеризация) по 4 первым компонентам PCA усть-ишимец у меня получился в одном кластере с киргизами и кажется селькупами. По первым двум компонентам в том варианте рейховского набора популяций, где нет андаманцев Onge — он попадает в один кластер с австралийскими аборигенами.
Думаю, что onge все же ближе, да к тому же во всех калькуляторах у усть-ишимца максимум «генома» приходится на сочетание южно-индийских и юго-восточноазиатских компонентов.  А вот «костенковец» оказывается ближе всего к чувашам и саамам. Что характерно — в предыдущих вариантах, в которых я не использовал костенковца, место костенковца часто занимал AG-2 (Afontova Gora).  Также заметна разница между кластерными схемами PC1-2 и PC-1-2-3-4.В первом случае костенковец в одном кластере с индусами, а во-втором с с чувашами и саамами. Характерно, что восточноевразийские палеогеномы Тяньюань и Усть-Ишим входят в один кластер (их положение не сильно меняется), а MA1 нет.

Расширенные карты для палеогеномов

Обновлено 30.11.2014

Этот пост также продолжает один из предыдущих, а именно визуализацию суммы IBD-сегментов (а возможно, это и не IBD — вопрос остается открытым) двух палеоевропейцев и мальчика со стоянки Мальта с современными  выборками. С тех пор в открытом доступе появилось еще несколько обработанных палеогеномов — «усть-ишимец«, «Костенки-14» («человек с Маркиной горы») и два палеогенома хорошего качества из Венгрии.

Результаты собраны мной в онлайн-таблицу, а также отрисованы на расширенных картах. Поскольку усть-ишимец явно тяготел к восточноазиатам, пришлось добавить к сравнению выборки из Южной и Восточной Азии. Ну а после этого логика подсказывала, что неолитических земледельцев Европы неплохо бы сравнить с жителями Ближнего Востока. Таким образом, все карты перерисованы.

Напомню также, что результаты для «мальтинца» и «костенковца» получены при ослабленных настройках фильтра из-за низкого качества прочтения этих двух геномов. Напрямую сравнивать их с пятью другими нельзя. Для отрисовки Loschbour значения умножены на 1,5 в целях повышения контрастности.

«Неолитическая фермерша» )) Stuttgart/LBK

«Неолитический земледелец» NE1:

Усреднение по двум земледельцам дает более ровную картинку:

«Охотник-собиратель» Loschbour:

Разница между «охотником-собирателем» и усреднением по двум земледельцам. Красное — больше сегментов с Loschbour, зеленое — c Stuttgart и NE1

Европеец позднего бронзового века BR2 из Венгрии:

«Усть-ишимец»:

Костенки-14 (ослабленные настройки):

Мальтинец (аналогично):

И наконец, в качестве примера результата нашего современника, моя собственная карта: