Этногеномика беларусов — часть III

Анализ этно-популяционного адмикса

 

В ходе следующеего этапа, окончательный набор данных по референсным популяциям (которые я храню в linkage-формате PLINK) был обработан в программеAdmixture. Во время выбора подходящей модели проведения теста на этно-популяционный адмикс, мы столкнулись с крайне трудной задачей: как было показано в профильных научных исследованиях (Pattersonetal.2006) количество маркеров, необходимых для надежной стратификации популяций в анализе обратно пропорциональна генетическому расстоянию (фСТ) между популяциями. Согласно рекомендациям пользователей программы Admixture, считается что примерно 10 000 генетических SNP-маркеров достаточно для выполнения интер-континентальной GWAS-коррекции обособленных популяций (например, уровень дивергенции между африканскими, азиатскими и европейскими популяциями FST> 0.05), в то время как для аналогичной коррекции между внутриконтинентальными популяциями требуется более чем 100000 маркеров (в Европе, например, ФСТ < 0.01). Для повышения точности результатов Admixtureмы решили использовать метод, предложенный Dienekes. Этот метод позволяетпреобразовать частот аллелей в “синтетические” индивиды (см. такжепример Зака Аджмалаиз проекта HarappaDNA). Идея метода довольно проста: сначала необходимо запустить unsupervisedанализ Admixtureс целью вычисления частот аллелей в так называемых предковых компонентов, а затем на основании аллельных частот сгенерировать “фиктивные популяции”. Именно эти фиктивные популяции и индивиды будут использоваться в ходе чистых референсов в ходе последующего анализа этно-популяционного анализа. Впрочем, как и любые другие исследователи, работающий над четким решением проблемы этно-популяционного адмикса, мы были вынуждены считаться с ограничениями этого подхода. Хотя мы отдаем себе отчет в существовании явных методологических подвохов в использовании смоделированных искусственных индивидов для определения адмикса в реальной популяции, мы полагаем что полученные в ходе аллельно-частотного моделирования “фиктивных индивидов” представляют самую лучшую аппроксимацию древних генетических компонентов предпологаемых древних компонентов. В ходе применения простого моделирующего метода, нами были получены значимые результаты в ходе создания нового калькулятора. Сначала мы произвели unsupervisedAdmixture(при значении К = 22, т.е 22 кластера частот аллель или предковых компонентов). По выполнению анализа нами были получены оценки коэффициентов адмикса в каждой из этих 22 аллельных кластеров, а также частоты аллелей для всех SNP-ов в каждой из 22 родовых популяций.

Затем мы использовали мнемонические обозначения для каждого компонента (имена для каждого из компонентов выведены в порядке их появления). Нужно помнить, что обозначения этих компонентов носят скорее мнемонический условный характер:

Pygmy

West-Asian
North-European-Mesolithic
Tibetan
Mesomerican
Arctic-Amerind
South-America_Amerind
Indian
North-Siberean
Atlantic_Mediterranean_Neolithic
Samoedic
Proto-Indo-Iranian
East-Siberean
North-East-European
South-African
North-Amerind
Sub-Saharian
East-South-Asian
Near_East
Melanesian
Paleo-Siberean
Austronesian

Вышеупомянутые частоты аллель, вычисленные в ходе unsupervised(безнадзорного) анализа (AdmixtureK= 22) объединенного набора данных, были затем использованы для симуляции синтетических индивидов, по 10 индивидов на каждую из 22 предковых компонент. Это симуляционное моделирование проводилось с помощью PLINKкоманды -simulateРасстояние между между симулированными «искусствеными» индивидами было визуаилизировано с использованием многомерного масштабирования.

simul

На следущем этапе, я включил группу смоделированных индивидов (220 индивидов) в новую эталонную популяцию. После чего я запустил новый анализ А, на этот раз в полном “поднадзорном” режиме для K= 22, причем полученные в ходе симуляционного моделирования фиктивные популяции фиктивных индивидов использовались в качестве новых референсных эталонных групп. На конвергенцию 22 априорно заданых предковых компонентов было затрачено 31 итераций (3 7773,1 сек) с окончательным loglikelihood: -188032005,430318 (ниже, на следущей странице, приведена таблица значений Fst между расчетными ‘предковыми’ популяциями):

fst dist

Рисунок 1. FST-дистанции между компонентами

 

Приведенная выше матрица Fstдистанций была использована для определения наиболее вероятной топологии NJ-дерева всех 22 предковых компонентов ( примечание: в качестве outgroup-таксона использовался South-Africancomponent).

Этногеномика беларусов — часть II

Анализ структуры аутосомного генофонда популяции беларусов: методы, технические параметры и предварительные замечания.

 

В целях сопоставимости выводов данных анализа с приведенными выше выводами профессиональных популяционных генетиков, мы использовали в своем исследовании референтную выборку беларусовиз ДНК-банка Института Генетики Беларуси в том же объеме, в котором она была задействована в исследовании группы ученных под руководством Бехара (модифицированная выборка Генбанка с кодом доступа:GSE21478)[1]. Наряду с референтной группой беларусов (обозначена как Belarusian), мы использовали данные лиц беларуского происхождения из нашего собственного проекта этно-популяционного анализа лиц, предки которых проживали на территории Беларуси минимум 100-150 лет(обозначено как Belarusian_V).

Для проведения сравнительного анализа генофонда популяций нам понадобился референтный набор популяций. Референтный набор популяций в этом калькуляторе был собран в программе PLINK  методом “intersection&thinning” ( дословно “пересечением и истончением”) образцов из различных источников данных:HapMap 3(отфильтрованный набор данных КЕС, YRI, JPT, CHB),1000genomes, Rasmussen et al. (2010), HGDP (кураторская база данных Стэнфордского университета), Metspalu et al. (2011), Yunusbayev et al (2011),Chaubey et al. (2010)и т.д. Кроме того, мыотобралипроизвольным образом по 10 сэмплов (или максимальное количество доступных сэмплов в тех случаях, когда общее число сэмплов в популяции было меньше 10) от каждой европейской страны, представленной в панеле базе данныхPOPRES.Наконец, для того чтобы оценить степень корреляции между современным и древним генетическим разнообразием населения Европы, мытакже включилив выборку образцы древней ДНКЭци(Keller et al. (2012)) , образцы жителей шведского неолита Gök4, Ajv52, Ajv70, Ire8, STE7 (Skoglund et al. (2012))и 2 образца La Braña – останков мезолитических жителей Пиренейского полуострова (Sánchez-Quinto et al.(2012)).

Затем мыдобавили90 образцов – анонимизированных данных — участников моего проекта. После слияния вышеупомянутых наборов данных и истончения набора SNP с помощью особой команды PLINK, мыисключилиSNP-ы с менеечем 0.5% минорных аллелей. Послечего мыотфильтровал дубликаты, лиц с высоким уровнем общих по происхождению идентичных сегментов (IBD). В качестве критерия фильтрации были использованы расчеты IBD в Plink, где IBD представлена как средняя доля аллелей общих между двумя людьми по всем анализируемым локусам. Затем мыудалилииз выборки лиц с высоким коэффициентом предпологаемого родства, коэффициенты родства были вычислены в программном обеспеченииKing).

Для получения более стабильных результатов, мытакже отфильтровалисэмплы с более чем 3 стандартными отклонениями от средних данных по популяции. Поскольку коэффициент родства может быть надежно определен с помощью оценки HWE (ожидания, вытекающего из законаХарди-Вайнберга) между SNP-ами с той же базовой частотой аллелей, то SNP-ы с существенным отклонением (p < 5.5 x10−8) от ожидания Харди-Вайнберга были удалены из объединенного набора данных. После этого мывыделилите SNP-ы, которые присутствовали в чипах Illumina / Affymetrix, и затем произвелифильтрацию снипов на основе расчетов степени неравновесного сцепления (в этом эксперименте мыиспользовалтхромосомное ‘окно’ размером в 50 базовых пар, с шагом 5 базовых пар и пороговым значением уровня сцепления R ^ 2, равным 0,3).

По окончанию этой сложной последовательности операций, мыполучил окончательноый набора данных, который включал в себя 80 751 снипов, 2516 человек и 225 референсных популяций.

 

[1] http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE21478

Дайджест новостей генетики и ДНК-генеалогии за январь-февраль 2014 года (часть 2)

**

Разработчики pyGenClean разместили полезный инструмент для предварительной подготовки выборки популяций для GWAS и этно-популяционного анализа. С помощью можно значительно автоматизировать относительно сложный процесс нахождения генетических outliers (т.е посторонних образцов выделающихся на фоне гомогенной однородной структуры популяции), а также провести многомерное шкалирования имеющихся популяций.

**

Я закончил проект по изучению структуры аутосомного генофонда грузинских этнографических групп. Ниже приведены выполненные в проекте публикую графики c результатами многомерного скалирования (MDS) и  анализа главных компонент (PCA) в изученной выборке. Еще я понял свою главную ошибку во время работы с предыдущими графиками — она состоит в том, что я раньше не сохранял в R framework данные и историю проделанных над ними операций. R очень гибкая среда для статистического анализа, но в силу большого разнообразия существующих пакетов для визуализации данных для выполнения одних и тех же команд часто возникает путаница с выбором подходящей техники визуализации. Поэтому лучше всего не начинать каждый раз с нуля, а сохранять workflow для последующих экспериментов. 1488015_10202873063857417_243934024_n 1526938_10202873450227076_1155088601_n

**

В русскоязычном секторе Интернета увеличивается число простых людей (и не совсем простых людей, вроде Татьяны Толстой), которые не боятся рассказывать открыто о своих генетических рисках, хотя в силу своего непонимания того что именно означает указанная в отчете risk odd (вероятность риска) , многие их выводы выглядят наивными.
Впрочем, ничего нет нового под Луной. Многие из моих сверхоптимистеских собеседников предполагали, что именно благодаря 23andme у рядового обывателя появилась возможность  наблюдения за своими генотипами (или геномами , под которым мы — summa summarum — понимаем здесь всю совокупность прочитанных генотипов), и даже за динамикой экспрессии свого экзома.
Тем не менее, даже я помню, как задолго до начала моего увлечения генетикой, примерно в 2002 году я видел передачу про исландскую компанию Decodeme по Discovery Channel. После длинного интервью с тогдашним ведущим сотрудником этой компании (К.Стефансон), в котором он рассказал о тотальном (почти 80%) генотипировании всей исландской нации, создатели фильма взяли краткие интервью у простых исландцев. Мне запомнился один исландец-докер, который — не отрываясь от процесса разгрузки траулера с рыбой, — с улыбкой на лице сказал: «Я могу выпивать по 10 чашек кофе в течении одного часа. Cогласно исследованиям ученных из DeCODE Genetics, в гене метаболизма кофеина у меня аллельный вариант, повышаюший скорость метаболизма кофеина».
Вывод — 23andme не были первыми, их заслуга в другом — в том что они вывели персональную геномику (в ее упрощенной форме) на новый, международно доступный уровень.

**
Компания Nanoporetech выпустила на рынок портативное устройство MinION, предназначенное для анализа молекул (в том числе и молекул ДНК), его можно применять для анализа структуры протеина и секвенрования ДНК. Устройство можно подключить к обычному компьютеру через USB-порт.
**

Уважаемый Pavel Bernshtam предложил реалистичную перспективу на стартапы. Кроме всего прочего, между строк замечаний Бернштама можно прочитать имплицитное неявное объяснение феномена значительной молодости самых известных стартаперов (им нечего терять и их руки-головы не связаны-загружены семейными обязанностями прокормки супруги и спиногрызов).
Я стою на перепутье выбора между развитием идеи этно-популяционного ДНК-калькулятора в форме стартапа, либо форме краудсорзинга, либо некоммерческая инструментализация разработки в криминалистике (в виде патента на методику нового вида криминалистической ДНК-экспертизы, которая со временем заменит надоевший всем фбр-овский CODIS):

«Хорошо, если просили про стартапы. Для стартапа нужно несколько вещей. Самое простое — идея. Идея сама по себе не стоит ничего. 0. Самая классная идея — НИЧЕГО. Идея начинает хоть что то стоить (тоже немного) если на ее основе написан бизнес план. Обоснованный бизнес план. Бизнес план, который может убедить. Сколько юзеров придет к вам на сайт в первые полгода? миллион? А почему? Докажите. А сколько зарегестрируется? Почему?
Следущее, что нужно — человек, который может принести инвестиции. Для этого нужно — представительность, бизнес план, знакомства и уйма всего иного. Нужно найти выход на инвесторов (без выхода тоже можно, но разговаривать с тобой будут иначе), нужно что бы тебя порекомендовали, нужно уметь рассказывать и убеждать. Далее — деньги. Скорее всего у Вас не получится сделать прототип, достаточный для получения инвестиции вечером на коленке, параллельно с основной работой. Вам надо будет уволиться и писать код.»

**
Как Вы помните, на Gedmatch.com были размещены разработанные мною этно-популяционные калькуляторы MDLP на платформе DIY Dodecad. Они позволяют довольно-точно определять этническое и популяционное происхождение исходя только из сравнительноого анализа частот полиморфизмов ДНК протестированного человека с частотами полиморфизмов ДНК в референсных популяциях. Несмотря на простоту использования (загрузил свое raw data, нажал на кнопку — получил результат), основные пользователи этого инструмента — американцы — имеют траблз с пониманием и интерпретацией результатов. Вот например, из свежего, присланного мне в январе. Ко мне уже обращаются как к доктору, который должен выдать свой авторитетный этнодиагноз:

» I had my test at 23and me and it has me as 100 European.
My mom says its a lie as my dad was an inuit from Alaska .My kit is ******
Could you please debunk inuit story»

Papa was a rolling stone (c)

«My results are for North-Amerind, (North American Indian) .. I suspect 4 generations back

Chr 1 1.7%
Chr 7 3.3%
Chr 18 2.5%

Is this a definite result for American Indian Heritage?»

На такие письма я вообще больше не отвечаю. Весьма странно что у столь многих американцев в последнее время появился фетиш происхождения от американских индейцев. Раньше это было не так заметно.

**

Повторное ресеквенирование «древнего» генома останков жителя мезолитической Иберии из La Brana 1 (того самого, которого исследовали в позапрошлом году на аутосомы и митохондриальный геном) показало, что этот человек имел очень необычную для Европы Y-хромосомную гаплогруппы — С6. Странности заметны на и уровне фенотипа: согласно анализу комплекса снипов, определяющих на уровне генотипа цвет кожи и глаз, он был темнокожим человеком с голубыми глазами (!).  У древнего европейца, жившего в пещере Ла-Бранья-Аринтеро (La Braña-Arintero, León) на севере Испании примерно 7 тысяч лет назад, были голубые глаза и очень смуглая кожа. Так художник представил себе то, как выглядел житель испанской пещеры 7 тысяч лет назад. (Ниже рисунок, опубликованный в Эль Паис.)

Палеогенетики успешно прочитали ДНК из костей древнего европейца, жившего в одной из пещер на севере Испании примерно 7 тысяч лет назад, и выяснили, что у него были голубые глаза и очень смуглая кожа, говорится в статье, опубликованной в журнале Nature. «Главным сюрпризом для нас стало то, что этот человек обладал типично «африканскими» версиями генов, которые управляют пигментацией кожи, что вероятно делало его очень смуглым или даже темнокожим, хотя мы и не можем точно определить ее тон. Еще более удивительным стало то, что этот «испанец» обладал теми вариациями генов, которые делают глаза европейцев голубыми, что делает этот геном уникальных, так как по всем остальным признакам он происходит из Северной Европы», — заявил Карлес Лалуэса-Фокс из Института эволюционной биологии в Барселоне (Испания). Что касается редкой гаплогруппы (C6, или по мнению некоторых исследователей просто C), то оказывается, что еще в 2013 году несколько любителей-непрофессионалов предсказывали вероятность присутствия С у части жителей палеолитической и мезолитиской Европы — по их мнению, мужское население палеолитической Европы могло принадлежать к линиям — C-V20 (в ISOGG С6), F и IJ.

«Ранние представители современного человека в Европе (EEMH), широко известные как кроманьонцы, мигрировали с Ближнего Востока в Европу несколькими волнами. Задумывашись над тем, какие гаплогруппы Y-ДНК могут быть связаны с ними, и в каком порядке они мигрировали в Европу, я придумал следующую хронологии для верхнего палеолита.

1) Гаплогруппа С6 (или С *, которая развилась в C6 в Европе)

2) Гаплогруппа F

3) Гаплогруппа IJ (которая развилась в Европе в гаплогруппу I) «

Заслуживает внимание и мастерское использование в данном исследовании методов секвенирования нового поколения — в частности, после того как генетики собрали геном древнего европейца из прочитанных мелких сегментов ДНК («ридов») по методу отображения ридов на референсный геном человека,  осталось приличное количество неиспользованных ридов. Генетики использовали «сухой остаток» для проведения метагеномического анализа. Как известно, метагеномика работает с набором всех ДНК находящихся в среде; следовательно генетики сделали удачное предположение о том, что «риды» без привязки к человеческому геному принадлежали геномам бактерии. BLAST-анализ ридов в Генбанке позволил установить те виды бактерий, секвенсы геномов которых были наиболее близки к изучаемым ридам.


В конце января были опубликованы две замечательные статьи на русском языке, посвященные бурно развивающейся области исследований — молекулярной патологии: «Молекулярная патология и роль врача-патологоанатома»  и «Наследственно обусловленный рак молочной железы и яичников«.


The Coop Lab продолжает размещать материалы о статистических рассхождениях в характере наследования генетического материала у ближайших родственников. Традиционно считается, что сибсы (сиблинги) одного пола похожи друг на друга в той или иной степени. Различие в фенотипических чертах объясняются разными факторами окружающей среды воздействующих в разной степени на их развитие. Тем не менее, как было показано в статье The Coop Lab,сибсы различаются также на уровне своего генома, за счет случайности сегрегации и рекомбинации.


Китайские генетики разработали  новый метод генной хирургии (точное геномое редактирование) и успешно применили его на макаках.


Ученные из университета Северной Аризоны «возродили» вирус древней чумы, пандемия которой пришлась на время правения византийского императора Юстиниана (Юстинианова чума). В лаборатории был прочтена последовательность ДНК бактерии-возбудителя чумы, которая содержалась в останках жертв этой пандемии. Очевидно, здесь также применялись методы метагеномики.


В сетевой версии журнала «Наука и жизнь» размещена статья о характере генетической интрогрессии (межвидовым обменом чужеродной генетической изменчивостью) произошедшей между неандертальцами и предками анатомически современного человека много десятков тысяч лет назад, и приведшей к частичной гибридизации двух видов, чьи эволюционные пути разошлись около полумиллиона лет тому назад:
«Оказалось, что практически все неандертальские гены локализованы в Х хромосоме, а значит, передались нам по женской линии. Ученые пришли к выводу, что мальчики, рождавшиеся в результате смешения кровей, были в большинстве своем бесплодны. «Когда неандертальцы и люди скрещивались, это было на краю биологической совместимости, ведь два генома не встречались друг с другом примерно полмиллиона лет», — комментирует результаты исследования один из его авторов Дэвид Рейч, генетик из Медицинской школы Гарварда (США).»

Я еще в 2010 году говорил, что если смешивание с неандертальцами происходило, то скорее всего гены были привнесены от связей между мужчинами homo sapiens sapiens и женщинами-неандертальцами. Не откажу себе в удовольствии процитировать свое сообщение на форуме Молгена.

«Re: Люди носят гены неандертальцев
Ответ #23 : 10 Май 2010, 19:40:25  Самое неубедительное в обеих работах это
1)отбор снипов для анализа (перекрестное сравнение снипов орангутанга, человека и шимпанзе — выбрали те, которые у человека являются, как считается, потомковыми).
2) по отобранным снипами произвели выравнивание (alignment) секвенсов шимпанзе, человека и неандертальца фазирование предкового генотипа общего предка человека, неандертальца и современного человека (т.е говоря проще, реконструировали (предсказали) гипотетический генотип по методу Байесовской апостериорной вероятности)
3) затем разбили фрагменты генома неандертала по снипами по признаку совпадения или несовпадения с предковыми значения гипотетического секвенса общего предка шимпанзе и гомо, на три группы -гомозиготные с предковым значением снипа, гомозиготные с потомковым значением и просто гетерозиготы. Про исключение более половины мутаций (пусть и синонимических), я вообще молчу. Но кто может гарантировать, что предковый генотип реконструирован верно, и, что самое главное — где доказательство того, что у неандертала должно быть именно предковое значение снипа, а не мутировавшее параллельно с человеком.
Наконец, на приведенном выше графике, разброс участков генома совпадающих у человека и неандертальца по X хромосоме, находится в меньшем диапозоне SD (стандартного отклонения), эти участки небольшие, но по структуре более дивергентные.
Из чего следует 2 вывода:
a) основное генное вливание шло через X хромосому и b) поскольку около 2/3 генетической информации X хромосомы аккумулируется в женских линиях, то направление вливания шло через самок неандертальцев и мужчин-сапиенсов, что несколько противроечит картине изображенной в первой статье.»

Любопытно, что при ресеквенировании геномов неандертальцев и секвенировании геномов новых неандертальцев (из пещеры Окладникова) применили новый метод секвенирования. В частности, они секвенировали митохондриальную ДНК из кости неандертальца и отделили ее от ДНК современного человека, что позволило доказать родство между жившими в Сибири и в Европе неандертальцами.Метод определения посторонних наслоений ДНК основан на анализе ее естественных мутаций. Так, у 30–40% образцов, возраст которых насчитывает несколько тысяч лет, цитозин превращается в тимин, а гуанин — в аденин. Ученые разработали систему, моделирующую процессы естественного изменения ДНК и сравнивающую полученный результат с данными образца.

Аналогичная методика была применена и в отношении менее древних образцов ДНК. Насчет мезолитических образцов из работы Лазаридиса, я не читал ту часть сапплемента где описывается техническая сторона опыта. Но в другой работе упомянутого в статье Скоглунда (Skoglund et al .2012) — в неолитическах образцах результаты поссмертной гидролитической деаминации (cytosine —> thymine or guanine —> adenine) были удалены. Но у неандера разумеется из было горадо больше и пришлось придумывать методику реконструкции первоначальных нуклеотидов.Кроме того, в статье Lazardis et.al.2013 (точнее в сапплементе) содержится указание на использование урацил-ДНК-гликосилазы и эндонуклеозы при подготовке библиотек для сиквенирования.Использование этого метода значительно (!) уменьшает включение деаминированных остатков C/G→T/A (здесь подробности).


Уважаемый «любитель» Владимир Таганкин на основе большого эмпирического материала (десятки тысяч гаплотипов) провел серьезное исследование дисперсии значений локусов Y-STR. Это исследование  по своему качеству превосходит многие статьи профессиональных популяционных генетиков.


В статье доктора Линча известный «феномен раздутости нефункциональной части человеческого генома» объясняется сочетанием ряда генетических факторов. Мутации, увеличивающие размер генома (дупликации), с гораздо меньшей вероятностью вредят организму, чем мутации, при которых часть генома теряется (делеции). Поэтому с увеличением частоты мутаций геном начинает непроизвольно расти. То есть причинно-следственная цепочка тут следующая:

малый размер популяции > увеличение генетического дрейфа > нарушение аккуратности репликации генома (увеличение частоты мутаций) > увеличение размера генома.

Как мне кажется, это объяснение можно применить к анализу всех мутаций, в том числе и STR (коротких тандемных потворов).


В январе и начале февраля было опубликовано несколько статей, в которых затрагивается тематика ДНК-криминалистика. Так в ходе проведенного Федеральным Бюро Расследований США аудита национальной базы данных ДНК, было обнаружено 166 ДНК-профиля, которые содержали ошибки. Часть этих ошибок появилась в результате ошибок клерков, другая часть связана с ошибками при интерпретации данных допущенных сотрудниками лабораторий. Проведенная тогда же проверка профилей ДНК в базе данных города Нью-Йорке дала аналогичные результаты. Неприятный факт обнаружения ошибок в STR-профилях ДНК поднимает старые вопрос о необходимости замены существующей системы CODIS. В более ранней работе, в которой рассматривалась роль и место устаревающей, но по-прежнему существующей системы CODIS в системе быстро развивающегося комплекса знаний о геноме человека, авторы сделали интересный вывод: несмотря на то, что маркеры CODIS часто лежат в пределах геномных и генных доменов, связанных с риском развития определенных заболеваний или отвечающих за определенные функции генома, не было найдено никаких  убедительных доказательств того, что «короткие тандемные повторы», используемые в качестве маркеров CODIS, могут помочь установить физические черты человека.  Наконец, в совсем новой работе по ДНК-криминалистике («Recent Advances in Forensic DNA analysis«), наряду с обсуждением сугубо технических моментов сбора и подготовки биологического материала к анализу, затрагивается и вопрос о возможных альтернативах STR (коротких тандемных повторов), т.е того типа маркеров которые лежат в основе системы CODIS. Одной из логичных альтернатив являются однонуклеотидные полиморфизмы (снипы). Одним из преимуществ снипов над STR является тот факт, что в сильнодеградированные фрагменты ДНК могут быть проанализированы только с помощью снипов. Будучи биаллельным маркером, снип может быть включен в ДНК-профиль, однако информативность одичного снипа гораздо ниже информативности STR-локусов, в силу чего  процесс установления личности при работе со смесью разнородных ДНК усложняется. Хотя единчный снип менее информативен ( в силу биаллельности), чем STR, но этот недостаток можно легко избежать за счет увеличения  количества SNP(снип)-маркеров, используемых при анализе. Разный уровень гетерозиготности  является одной из наиболее ценных особенностей снипов. Другой положительной чертой снипов является то, что при определении снипов нет нужды на разделение сегментов по их размеру, что делает мультиплексирование и автоматизации более доступны, чем  в анализе коротких тандемных повторов. Кроме того,  низкая скорость мутации снипов значительно улучшает их стабильность в качестве генетических маркеров.

 

Три предковые группы европейцев

Получивший широкой резонанс в среде профильных профессиональных популяционных генетиков и простых любителей препринт статьи Lazaridis et al. 2013 содержит огромное количество важных наблюдений и заключений насчет происхождения и эволюции структуры генофонда современных европейцев. Объективности ради стоит отметить, что наверное не менее половины выводов вышеупомянутой статьи были озвучены ранее персональными геномными блоггерами в ходе более ранних самостоятельных экспериментов и анализов древней ДНК.  Но важность статьи Lazaridis et al. 2013, конечно же, в другом. В ней приводятся новые данные ( результаты изучения древнего ДНК) ряда доисторических популяций групп людей Европы. В частности, были приведены результаты изучения древнего ДНК мезолитических европейских охотников-собирателей из Люксембурга, чьи мтДНК были опубликована несколько лет назад; результаты генотипирования неолитического образца ДНК неолитического земледельца из Германии: наконец, препринт статьи содержал данные сразу по  нескольким мезолитическим охотникам-собирателей из Швеции.

По раскладу своих предковых компонентов, люксембургский образец похож на образцы  La Brana (иберийский палеолит). В свою очередь,  ДНК шведов периода мезолита похожа на ДНК шведских неолитических охотников-собирателей. Аналогично, структура предковых компонентов у неолитического земледельца напоминает распределение компонентов у тирольского ледового человека Этци, шведского неолитического земледельца культуры воронковидных кубков и современного населения Сардинии. Недавно опубликованный  верхнепалеолитический образец жителя стоянки Мальта (Прибайкалья), авторы относят к  отдельному генетическому супер-компоненту, который  в статье именуется  «компонентом древнего северо-евразийского населения», Согласно наиболее вероятной из обсуждаемых в статье моделей, носители этого компонента смешались с западными евразийцами  еще до того, как носители мезолитического европейского компонента смешались с неолитическими земледельцами с ближнего Востока.

Как я отмечал ранее, очевидность результатов вряд ли нуждается в отдельных комментариях.  Положение индивидов по степени их сходства (выраженного посредством параметра z D-статистики)  относительно условной оси на одном конце которых находятся южные европейцы, на другом — северные европейцы. Шведские сэмплы древнего ДНК времен мезолита и пост-мезолитической (переходной к неолиту) культуры ямочной керамики Готланда сдвигаются в сторону северных европейцев (представлены референсной популяцией литовцев).  Примечательно, что в ту же стороны сдвигаются и представители иберийско-испанского мезолита (образцы La Brana 1 и La Brana 2).
Образцы древнего ДНК представителей культуры воронковидных кубков, Эци Тирольца закономерно смещаются к другому полюса спектра — южным европейцам (которые представлены сардинцами).

PCA график дает отличное представление о соотношении различных компонентов:

europe

 

 

 

model

Таким образом, костяк европейского генофонда образован за счет сочетания трех компонентов:

мезолитические охотники-собирателей Европы (WHG) + древние северо-евразийские популяции между Уралом, Центральной Азией и Сибирью (AHE) + неолитический компонент (генетически связанный с ближневосточными земледельцами EEF).

 

Поскольку в нашем случае мы имеем три исходных компонента, то любая европейская популяция может быть представлена в виде тримодального распределения этих компонентов. Визуализация этого распределения достигается путем отображения популяций внутри треугольника (каждый из углов которого представляет собой отдельный чистый предковый компонент). Таким образом мы можем отображать не только группы людей (т.е популяции), но и отдельных современных индивидов с генотипированными снипами. При визуальном изучении расположения популяций внутри треугольника, мы можем отметить cмещение спектра разнообразия в сторону предкового компонента неолитических земледельцев (EEF). Это наблюдение еще раз подтверждает насколько важным событием для эволюции и развития европейского генофонда являлась  неолитическая революция. Она принесла с собой не только технологические изменения, но и перемены в генофонде тогдашних европейцев. Однако если быть более точным, то нет никаких сомнений в том что компонент EEF аккумулирует в себя не только генофонд первых европейских земледельцев, но и остаточный момент от смешения этого компонента с представителями четвертого компонента («базальных евразийцев»).

admixture

Выявленные предковые компоненты отличаются значительной дискретностью, и в своем чистом виде практически не перекрываются. Именно по этой причине именно эти компоненты (а не общепринятые ныне в аутосомных исследованиях попгенетиков  этногеографические компоненты) могут использоваться в качестве неколлинеарных факторов в анализе эволюции генофонда отдельных народов.

  1. Компонент западноевропейских охотников-собирателей мезолита ( WHG ): метапопуляция этого компонента включает в себя образец Loschbour (мезолитический Люксембург, 8000 лет до настоящего времени) и два мезолитических образца древнего ДНК людей из пещеры La Brana в Испании. Тем не менее, в настоящий момент своего пика WHG (почти 50%) достигает среди эстонцев и литовцев , на востоке Балтийского региона. В этом смысле эти популяции являются наследниками древнейших жителей мезолита Европы. К этой группе примыкает группа шведских неолитических популяций  (скандинавские охотники-собиратели (SHG ) : эта мета- субпопуляция состоиь из шведских мезолитических и неолитических образцов ДНК из Моталы и Готланда , соответственно. Судя по всему, здесь мы имеем дело с  более восточным вариантом WHG , с небольшой примесью генов от древних северо-евразийских популяций.

Удельная доля компонента WHG в генофонде популяций по мере убывания  (градиент убывания в направлении с северо-запада на юго-восток Европы).

Эстонцы 0,495
Литовцы 0,464
Исландцы 0.456
Беларусы 0,431
Норвежцы 0,428
Испанцы 0,068
Греки 0,058

Мальтийцы 0
Ашкенази 0
Сицилийцы 0

  1. Компонент ранних европейских земледельцев (EEF) : по всей видимости, это гибридный компонент являющийся  результатом смешивания части загадочных «базальных евразийцев» и носителей компонента WHG где-то в Европе, возможно, на Балканах. Метапопуляция EEF в чистом виде представлена у представителя линейно-ленточной керамики  (Штутгарт, Германия), Этци Тирольского человека, и неолитического земледельца культуры воронковидных кубков. В наше время пик это компонента  приходится на Сардинию, Сицилийцев, ашкеназов и жителей Мальты (примерно 80-90%).

Удельная доля компонента EEF в генофонде популяций по мере убывания  (градиент убывания частоты направлен в сторону обратную WHG, т.е с юго-востока Европы на северо-запад, однако градиент выражен гораздо менее четко).

Мальтийцы 0,932
Ашкеназим 0,931
Сицилийцы 0,903
Сардинцы 0,817
Испанцы 0,809
Норвежцы 0,411
Исландцы 0,394
Шотландцы 0,39
Литовцы 0,364
Эстонцы 0,322
3. Компонент древних северо-евразийцев ( ANE ): метапопуляция компонента включает в себя   24000 летний верхне-палеолитический образец охотника-собирателя из южно-центральной Сибири, принадлежащий к Y- ДНК гаплогруппе R *, (MA -1), а также  верхнепалеолитический образец из центральной Сибири (Афонтова Гора -2) ( AG2 ). Этот компонент мог вероятно присутствовать в Южной Скандинавии по крайней мере со времен мезолита, но Западной Европы  достиг уже в конце эпохи неолита. В современной Европе самый высокий процент это компонента наблюдается у эстонцев (на уровне чуть более 18%), и  достигает такого же уровня среди шотландцев.

Эстонцы 0,183
Шотландцы 0,182
Венгры 0,179
Литовцы 0,172
Чехи 0,167
Итальянцы из Бергамо 0,108
Сицилийцы 0,097
Ашкеназим 0,069
Мальтийцы 0,068
Сардинцы 0,008

Сводная таблица по раскладу компонент у отдельных популяций  и их формальной статистической значимости (f3-статистика):

q1is

Эпилог

В апреле и мае 2012 года (задолго до появления статьи Lazaridis et al. 2013), в ходе изучения структуры кластеров компонентов в древних ДНК (чьи SNP-данные были тогда у меня в наличии). В ходе анализа Admixture  K=3 программа дала интересное распределение по современным популяциям и древним образцам. Как видно из географического распространения, кластер-метопапуляции готландских охотников-собирателей/ мезолита и современных саамов в значительной части перекрывается с ареалом современного пика компонентов мезолитических охотников-собирателей. Неолитический (средиземноморский) компонент совпадает с ареалом компонента EEF. Наконец, контуры ареал компонента который я ошибочно обозначил как Corded Ware Indo-European, практически перекрываются контурами ареала ANE (пик которого, как отмечалось выше, приходится на популяции шотландцев и эстонцев).

admixture-3

K3-Admixture

 

.

Происхождение гаплогруппы I2a и путь миграции ее носителей в Европе (часть 2)

Еще в 2010 году я пробывал спроецировать итоги дискуссии о «начале гаплогруппы I» (Молген), а  также возраста гаплогрупп I1,I2a1,I2a2,I2b1,I2b2* (рассчитаные Кеном Нордтведтом)  на археологическую карту Европы эпипалеолита и раннего мезолита.
*——
С 2010 года ISOGG-номенклатура субклад гаплогруппы I поменялась. Я не стал вносить изменения в ранее сделанную карту, однако в целях синхронизации предыдущих своих наработок с современной номенклатурой нужно отметить что I1,I2a1,I2a2,I2b1,I2b2 в современной номенклатуре называются I1,I2a1a,I2a1b,I2a2a,I2a2b.

Карта строилась из предположения о моногаплогрупности Европы в палеолите. Это минимальное допущение — но возможно, что оно методологически
неверно. Во-первых, теоретически в Европе периода палеолита могло быть больше гаплогрупп, а в пределах I -больше «гипотетических субкладов»**.

**————

Данные статьи Lazaridis et al. 2013.  содержат убедительную аргменты в пользу существования в структуре I потерянных I* cубклад. В частности два образца с мезолитической стоянки Motala (Motala 2 и Motala 9) были определены как I*.
Если первое кажется маловероятным (т.к. если гаплогруппа I осталась в Европе, почему не остались другие), то второе заключение о большем разнообразии гаплогруппных субкладов кажется логичным.Тем не менее, ответ можно узнать только после анализа древних Y-ДНК.

Вот что примерно получилось.

Главнывывод, наверное, следущий -наибольшое разнообразие субкладов было в «Атлантидемезолитической Европы» — Доггерланде, на котором, видимо, находился эпицентр круга целого ряда мезолитических культур Маглемозе. Почему именно там? Около 8000 г. до н. э. северное побережье массива суши, Доггерленд, представляло собой береговую линию с лагунами, болотами, приливными берегами и пляжами. Возможно, в эпоху мезолита этатерритория была богатейшей в Европе с точки зрения охоты, добычи птицы и рыболовства ( Vincent Gaffney, «Global Warming and the Lost European Country»;
Patterson, W, «Coastal Catastrophe» (paleoclimate research document), University of Saskatchewan).

Следовательно, принимая во внимание богатство экологических ресурсов, охотники и рыболовы позднего палеолита и мезолита должны были стекаться туда в большем количестве. Доггерланд погрузился под воду в результате гигантского оползня Стурегга (когда от Норвегии откололся кусок побережья объемом 3 000 куб.кум) или вызванного оползнем цунами около 8200 лет назад (6200 г. до н. э.). Это отрезало мезолитические культуры Британских островов и часть популяции субклада I2a2a от континента. Что интересно — по расчетам Нордведта точка коалисценции (схождения генетических линий субклад
I2a2a-Isles***) составляет как раз примерно 8 000 лет до нашего времени.

***___________

В номенклатуре ISOGG I2a1b2. Isles — условное название кластера, представленного главным образом на Британских островах.

Представляю читателю результаты проекции гипотетических ареалов субклад I на карту Европы эпохи финального палеолита и мезолита.

Археологические культуры обозначены следующим образом:

1 — маглемозе (по Г. Кларку); 2 -аренсбургская; 3 — свидерская; 4 — тьонгер; 5 — рёссен; 6 — федермессер; 7 -ларнийская; 8 — обанская; 9 — крезвельская; 10 — фосна; 11 — комса; 12 -суомусярве; 13 — аскола; 14 — кунда; 15 — днепро-деснинская; 16 — верхнедонская;17 — волго-окская; 18 — днепро-донецкая; 19 — астурийская; 20 — раковинных куч устья р. Тахо; 21 — тарденуазская; 22 — советеррская; 23 — микролитические памятники Прованса; 24 — азильская; 25 — эпиграветт; 26 — альпийская; 27 -чешско-тюрингский мезолит; 28 — типичная капсийская; 29 — капсийская и иберо-мавританская; 30 — мезолитические памятники испанского Леванта

Источник (исходник) карты: Археология Западной Европы. Каменный век., Монгайт А.Л.

Субклады I и Европа в эпоху финального палеолита и мезолита
Европа в эпоху финального палеолита и мезолита

Митохондриальная ДНК древних жителей Европы.

Октябрь этого года был особо богат публикациями на тему древней ДНК. Самым важным представляется исследование Brandt et al. «Ancient DNA Reveals Key Stages in the Formation of Central European Mitochondrial Genetic Diversity». По своей сути, эта статья подводит итоги десятилетия исследования митохондриальной ДНК древних жителей Европы в период между мезолитом/ранним неолитом и бронзовым веком. Поскольку статья носит обзорный характер, то в ней больше обобщений накопленной информации, чем собственно новой информации.

Древняя митохондриальная ДНК, выделенная из древних скелетов, была использована для восстановления первой подробной генетической истории современных европейцев. Исследование продемонстрировало, как менялся состав населения, происходили волны доисторической миграции. Исследователи составили каталог 364 результатов мтДНК  доисторических жителей Центральной Европы в период начиная с раннего неолита до бронзового века (продолжительность периода составляет примерно четыре тысячи лет). Главным выводом работы представляется тезис авторов  о том, что смешение коренных охотников-собирателей и пришлых ближневосточных земледельцев не может объяснить современное генетическое разнообразие, гораздо более сложное, чем результат простого смешения. Вместе с тем, ученые обнаружили, что эти две культуры на грани бронзового века 4200 лет назад сыграли существенную роль в формирование генетического строения в Центральной Европе.

Исследователей заинтриговало то, что генетические связи можно напрямую сравнивать с изменениями в материальной культуре. Генетические изменения происходили в период, когда культура расширяла свое влияние, и это может служить доказательством взаимодействия древних людей на больших расстояниях. К таким взаимоотношениям относятся миграции из Западной и Восточной Европы в конце каменного века, за счет расширения таких культур, как культура колоколовидных кубков и культура шнуровой керамики (они получили название по форме изготавливаемой посуды).

Тем не менее, один предварительный вывод уже может быть сделан. Парадигма миграционизма жива и по-прежнему актуальна. Любому исследователю-приверженцу парадигмы «горшки -это не люди»  будет трудно объяснить дискретность/прерывание преемственности, обнаруженной при исследовании и сравнении образцов ДНК неолита и бронзового века. Наблюдается серия контрастов: контраст между мито-ДНК древнеевропейских охотников и собирателей (митогаплогруппы U, U4, U5, U8) и ДНК первых европейских земледельцев (митогаплогруппы N1a,T2,K,J,HV,V, W,X) которые, в свою очередь, отличаются от ДНК представителей  позднего европейского неолита (медного века, гаплогруппы I, U2, T1, R), которые вытеснили земледельцев спустя несколько тысяч лет и породили культуры бронзового века. Если парадигма «горшки — это не люди» верна,  то весьма странно, что контрасты между археологическими культурами,  в значительной степени маркируются типом горшков  также, совпадают с зоной генетических контрастов.

Кроме того, удалось проследить не только хорошо изученный миграционный путь через Ближний Восток во времена так называемой неолитической революции, но также путь из Западной и Восточной Европы.


Следующая статья Bollongino et al. 2013 «2000 Years of Parallel Societies in Stone Age Central Europe» рассматривает проблему генетической преемственности под несколько иным углом. В работе показывается,  что охотники-собиратели не исчезли в Центральной Европе после введения сельского хозяйства, но некоторые из их потомков сосуществовали вместе с земледельцами еще в течение двух тысяч лет.

 

О «балтийских» корнях генофонда популяций эрзя и мокша

Анализ генома доисторических «шведов» (принадлежавших к готландской культуре ямочной керамики (Pitted Ware culture (около 3200 — 2300 гг. до н. э.)) показал, что они оказались в окружении плотного кольца из балтийских популяций. В эту группу вошли литовцы, белорусы, поляки, шведы, украинцы, русские (из Северной и Центральной России), мокша и эрзя. Это говорит о том, что у мокшан и эрзян сохранился генофонд старой Северной Европы.