Охотники-собиратели Кавказа и южный генетический полюс ямников

Сергей Козлов

Охотники-собиратели Кавказа и южный генетический полюс ямников.

За прошедший год в научный оборот было введено множество палеогеномов из Европы и евразийской степи. Было доказано, что в западной части Европы произошло как минимум два резких смещения аутосомного ландшафта — сначала на палеоевропейские охотники-собиратели были замещены пришедшими из Анатолии неолитическими земледельцами (впрочем, часть их генофонда все же сохранилась), а впоследствии уже земледельцы оказались сильно потеснены новыми пришельцами, генетически схожими с представителями ямной КИО. Их след хорошо выделяется в современной Европе — во-первых, это относительно недавно обнаруженный, но ставший широко известным среди интересующихся геногеографией компонент ANE, во-вторых же, «загадочный» южный компонент ямников.

Авторы первой из опубликованных работ по аутосомам ямников смоделировали их, как смесь ~50 на 50 мезолитических восточноевропейских охотников-собирателей (EHG) и современных армян (впрочем, еще лучше на эту роль подошли иракские евреи, но их решили пропустить). Эта модель сразу вызвала во мне отрицательное отношение, поскольку у армян хорошо представлен аутосомный компонент неолитических земледельцев, а у ямников он не обнаружен в сколь-нибудь значимых количествах. Таким образом, модель изначально была неверна, но, к сожалению, была растиражирована еще до выхода статьи в свет (благодаря «утечкам» от авторов) и завладела многими умами. Постепенно вокруг слова «армянский» даже перестали ставить кавычки ))

К счастью, над палеогеномами работает целый ряд команд ученых и одна из них решила обратить внимание не только на северные палеообразцы, но и на остававшиеся долгое время в пренебрежении южные. Первой ласточкой стали два охотника-собирателя, жившие (согласно радиоуглеродной оценке) 9 и 13 тысяч лет назад на территории нынешней Грузии. В запаснике у этой команды еще немало могущих представлять интерес образцов древней ДНК, поэтому ждем дальнейших работ.

В качестве основного был использован более поздний из двух образцов, найденный в пещере Kotias. Он прочитан с весьма хорошим для палеогенома качеством (что позволило мне использовать его для подсчета IBD-сегментов). Моделирование показало, что в качестве «южного полюса» генофонда ямников кавказские охотники-собиратели (для них авторы статьи ввели новое сокращенное название — CHG) подходят намного лучше, чем любая из современных выборок:

CHGF3Stat

Это и неудивительно — ведь доминирующим аутосомным компонентом в предпочитаемом мной калькуляторе MDLP K27 у Kotias является Gedrosia-Caucasian, о котором я уже писал:

Однако с точки зрения предковых компонентов Admixture такая модель — далеко не лучший вариант, «южный» ямный компонент скорее связывается с чем-то в промежутке между Восточным Кавказом и Средней Азией. Как и предполагалось, он коррелирует с бимодальным компонентом, условно называемым Gedrosia. Исходя из современных максимумов, его исторический центр находится где-то в южном Прикаспии, возможно, восточнее. Судя по всему, он представляет собой результат смешения «ближневосточного» компонента ENF и ANE, поэтому теоретически исторического центра может и вообще не быть.

Как выяснилось, девять тысячелетий назад этот компонент преобладал и в более западных районах. Что ж, это делает его только еще более подходящим.

Результаты Kotias в K27:

0.42%   Nilotic-Omotic
  2.22% Ancestral-South-Ind.
  3.66% North-European-Balt.
  0.00% Uralic
  0.01% Australo-Melanesian
  1.79% East-Siberian
  0.00% Ancestral-Yayoi
30.28%   Caucasian-Near-East.
  0.00% Tibeto-Burman
  0.00% Austronesian
  0.00% Central-African-Pygm
  1.05% Central-African-HG
  3.66% Nilo-Saharian
  0.00% North-African
52.04%   Gedrosia-Caucasian
  0.00% Cushitic
  0.00% Congo-Pygmean
  1.73% Bushmen
  0.00% South-Meso-Amerind.
  0.00% South-West-European
  0.00% North-Amerindian
  0.00% Arabic
  0.01% North-Circumpolar
  3.13% Kalash
  0.00% Papuan-Australian
  0.00% Baltic-Finnic
  0.00% Bantu

Карта сумм IBD-сегментов Kotias с образцами из современных выборок:

KotiasSnpc-100IBDext

Лидерами по сумме сегментов оказались грузины (приведен список первых 25 результатов):

Georgian 71,79
Abkhazian 70,75
Lezgin 68,27
Greek_Azov 67,15
Balkarian 65,02
Kurd 64,38
Ossetian 62,66
Armenian 61,98
Nogay 60,38
Bosnian 60,23
Slovenian 60,02
Chechen 59,07
Adygei 58,39
Cypriot 58,28
Turkish 55,86
Kosovar 54,64
Ukrainian-West-and-Center 54,17
Bulgarian 53,21
Slovak 53,01
Cornish 52,46
Croatian 52,21
Kumyk 51,96
Makrani 51,91
Syrian 51,78
Greek 51,68

Что ж, можно их поздравить с генетической преемственностью на протяжении десятка тысячелетий. Однако по пропорциям компонентов Admixture грузины и абхазы довольно заметно отличаются от Kotias:

Abkhasian_S3 Georgian_Kaheti_R2 Georgian_West_R4 Svan_R3
Nilotic-Omotic 0,24 0,00 0,52 0,06
Ancestral-South-Indian 0,75 0,92 0,44 0,31
North-European-Baltic 8,58 5,60 6,87 6,93
Uralic 2,17 1,69 0,72 2,34
Australo-Melanesian 0,27 0,07 0,59 0,42
East-Siberean 1,20 0,00 0,20 0,42
Ancestral-Yayoi 0,72 0,00 0,00 0,44
Caucasian-Near-Eastern 40,79 41,08 45,61 42,85
Tibeto-Burman 0,00 1,09 0,12 0,38
Austronesian 0,72 0,20 0,00 0,23
Central-African-Pygmean 0,05 0,06 0,20 0,00
Central-African-Hunter-Gatherers 0,22 0,15 0,29 0,18
Nilo-Saharian 0,55 0,01 0,02 0,15
North-African 0,50 1,17 0,90 0,31
Gedrosia-Caucasian 32,01 31,65 33,18 35,31
Cushitic 1,17 1,56 0,31 0,42
Congo-Pygmean 0,00 0,25 0,18 0,35
Bushmen 0,04 0,00 0,00 0,00
South-Meso-Amerindian 0,27 0,04 0,14 0,12
South-West-European 2,68 5,06 2,73 1,91
North-Amerindian 0,13 0,04 0,13 0,23
Arabic 2,42 6,83 3,56 3,72
North-Circumpolar 0,47 0,09 0,99 0,41
Kalash 2,38 2,33 1,66 1,77
Papuan-Australian 0,42 0,11 0,33 0,32
Baltic-Finnic 1,25 0,00 0,20 0,14
Bantu 0,00 0,00 0,11 0,28

Как видно, компонент Gedrosia-Caucasian у них стал заметно ниже, а более западные и южные Caucasian-Near-Eastern, Arabic, South-West-European — выросли. Вырос и «северный» North-European Baltic. Думаю, что это связано с миграциями в регион новых групп, что несколько размыло изначальный генофонд. Поэтому современные грузины подошли на роль «южного компонента» в меньшей степени по сравнению с Kotias, и древние CHG выглядят на генетической карте более «восточными» (почему я и помещал этот компонент где-то в Прикаспии).

Кроме Кавказа, вызывает интерес явная связь CHG с рядом балканских популяций (и примыкающей к ним правобережной украинской выборке) — вероятно, это неспроста. Причем направление миграций здесь, очевидно, именно от CHG либо их родственников к балканцам.

Думаю, что сами CHG могут быть смоделированы, как смесь ближневосточников и носителей ANE откуда-то с родины компонента Gedrosia. Например, в калькуляторе ANE K7 Kotias получается таким (как обычно, «Африка» отображает архаику палеогеномов):

31.10%   ANE
  5.36% ASE
  0.01% WHG-UHG
  0.00% East_Eurasian
  2.47% West_African
  1.50% East_African
59.56%   ENF

Однако же никаких связей с Сибирью на карте IBD-сегментов он не проявляет. Таким образом, вновь встает вопрос о «южном» и «северном» вариантах ANE. Методами Admixture разделить его пока не удалось (если говорить о «чистом» ANE а не более новых компонентах, куда он входит составной частью). Возможно, он сам по себе является композитом — результатом смеси охотников северной Евразии и пришельцев с юга? Тогда у Kotias проявляется лишь его южная часть. Во всяком случае, мы можем выделить этот «восточный» компонент Kotias  в том числе и методом IBD-анализа, рассмотрев его разность с европейскими неолитическими земледельцами (EEF), выступающими здесь «прокси» ближневосточного компонента:

CHGMinusEEFIBDext

Результат прекрасно совпадает с распределением компонента Gedrosia-Caucasian — один из пиков оказался в Дагестане (лезгины), второй — рядом с исторической Гедрозией. Можно поздравить Вадима Веренича с удачным калькулятором. Любопытно, что соседи лезгинов по Восточному Кавказу — чеченцы и кумыки не оказались ярко выделенными, несмотря на немногим уступающую лезгинам долю ANE. Зато они выделяются у ямников и оленеостровца EHG. Возникает предположение, что либо эти народы в наибольшей степени испытали «ямное» влияние, либо «южный компонент» ямников наиболее связан с ними, либо их ANE относится к чуть другой веточке по сравнению с Kotias, более близкой к ямной. Во всяком случае. здесь есть, над чем подумать.

Теперь сравним Kotias с самими ямными геномами:

CHGMinusYamnayaIBDext

Как видите, связь с ямниками у выборок из Северной Европы и Поволжья-Урала очень сильна по сравнению со связью с CHG. Думаю, что основное объяснение этому — отсутствие у Kotias компонентов WHG и «северного» ANE. Они занимают основную часть как генофонда европейцев, так и ямников. Более интересна ситуация в Азии — в Средней Азии сильнее связь с ямниками, далее при движении на юг, к Индийскому океану, постепенно идет выравнивание в пользу CHG (возможно, это говорит о том, что ямное влияние сокращается и мы видим более «фоновое» родство) и на самом дальнем юге возвращается равновесие (эти популяции уже мало связаны как с ямниками, так и с CHG). «Ямный язык», вдающийся в Китай через алтайцев, уйгуров и Ту — не след ли это тоже индоевропейской миграции? Хотя это может быть и совпадением.

Что касается родного для Kotias Кавказа, то если на западе связь с ним очень сильна, к северо-востоку, как уже писалось, «ямное» влияние нарастает.

Некоторый интерес представляет и сравнение охотников-собирателей Кавказа с уже не раз упоминавшимися в этой заметке западноевразийскими охотниками-собирателями (WHG):

CHGMinusWHGIBDext

Поскольку WHG входит составной частью в генофонд неолитических земледельцев Европы (EEF), то «ближневосточное» влияние в Южной Европе, связанное с их миграциями, частично отфильтруется. Например, считающиеся наиболее схожими с EEF среди наших современников жители острова Сардиния здесь ярко-зеленые. Можно сделать вывод, что на Балканах и в южной Италии влияние CHG довольно серьезно (что мы и видели на первой карте). Хотя из-за влияния «чистого» WHG повсюду в Европе делать точные оценки сложно.

В заключение можно подытожить, что расшифровка геномов охотников-собирателей Кавказа является очередным, и достаточно заметным, шагом в деле восстановления доисторических миграций и формирования современной генетической картины в Евразии.

 

Реклама

LAMP: инструмент для анализа «локального происхождения» геномных сегментов

В этом посте мы продолжим обсуждение существующих методик и инструментов анализа т.н «локального происхождения» отдельных сегментов хромосом в человеческом геноме (под локальным происхождением здесь подразумевается предпологаемое географическое происхождение дискретного сегмента одной их двух парных аутосомных хромосом в геноме человека).

Ранее эта тема поднималась в описании программы SupportMix, а также в сжатом изложении методологии оценки происхождения хромосомных сегментов (инструмент PCAdmix).  Данная заметка будет посвящена третьему инструменту — LAMP (Local Ancestry in adMixed Populations) (Sankararaman et al.2008).

Очевидно, что алгоритмы определения локального происхождения отдельных сегментов человеческих хромосом могут дать неплохие результаты при комбинированном использовании программ PLINK /ADMIXTUIRE/LAMP: например, комбинация этих программ позволяет довольно точно определить не только стратификацию отдельных этно-популяционных групп,  но также и уровень «адмикса» у отдельных людей. Поскольку одна из задач нашего проекта MDLP состояла в определении практических и теоретических преимуществ и/или ограничений конкретных методологий биоинформатического анализа полных генома, я провел эксперимент, позволяющий прояснить ряд ограничений, которые значительно уменьшают уровень достоверности результатов  субструктуры аутосомного генофонда населения Европы.

В качестве инструмента контроля качества комбинированного набора данных (аутосомных SNP-ов 22 хромосом) я использовал Plink, с помощью которого я выбрал для последующего анализа только качественные снипы (99% генотиприрования),  частоты минорных аллелей которых превышают 1%.

Поскольку этно-популяционный фон неравновесного линикиджа марекеров (LD) может существенным образом влиять на основные компоненты субструктуры популяции, я исключил из выборки маркеры, характеризующиеся статистически значимым уровнем LD (с коэффициентом попарной корреляции r2 Пирсона > 0,4) в «скользящем окне» из 100 снипов  с пошаговым сдвигом на 10 снипов. Кроме этого, я также использовал  другие методы Plink для получения однородной выборки  — например, кластеризации на основе IBS для обнаружения пары индивидов (outliers) с  уровнем «родства», значительно более высоким, чем у пары выбранных случайным образом индивидов в однородной популяции.  Под более высоким родством здесь понимается  резко отклоняющиеся значения (более 3 стандартных отклонений) парных значнений IBS по отношению к остальной части выбаки, а также случаи с высоким значения PIHAT (более 0,05) и  высокой степень инбридинга (гомозиготности*). Индивиды с подобными аномальными значениями («выбросы») были удалены из  «обучающего» подмножества нашей выборки .


* В программе Plink степень инбридинга определяется через вероятностную функцию гомозиготности.

 

homozyg
Стратификация образцев в соответствии с уровнями гомозиготности. Вдоль оси Х отображена общая сумма гомозиготных сегментов в килобазах; вдоль Y-оси — средний размер гомозиготных сегментов в килобазах

 

 

homozyg2
Уровни индивидуальной гомозиготности в выбороке: вдоль ости X отложено количество сегментов NSEG. Общая длина гомозиготных сегментов отображается осью Y

 

По окончанию описанных выше процедур фильтрации снипов и удаления «выбросов», окончательный набор данных представлял собой набор данных из 90 455 снипов и 317 человек (289 мужчин, 82 женщин). Эти данные были использованы в последующем анализе.

Прежде всего, мы использовали программу ADMIXTURE (Alexandre, Novembre, Lange 2009), в которой реализована модель оценки максимального правдоподобия (ML), т.е алгоритм кластеризации и оценки структуры популяции в наборе генетических данных (снипов).

В целях сохранения совместимости с MDLP калькулятором, я остановился  на модели, в которой выборка представлена в виде комбинации 7 предковых компонентов (K=7).  Индивидуальные значения процентной составляющей каждого компонента в индивидуальном геноме (матрица Q), была визуализированы в R (ниже приведен график с результатами участников проекта MDLP, полный список  доступен в этой таблице).

Результаты K=7

Полученные предковые компоненты (K=7) я обозначил следующими названиями (с сопутствующей цветовой легендой)**:

  • Транс-кавказский — красный
  • Балканском / средиземноморском -желтый
  • Северо-кавказский -зеленый
  • Западно-европейский
  • Алтайский — светло-голубой
  • Балто-славянский — темно-синий
  • Прибалтийско-финский / Северо-европейский -фиолетовый

**Как обычно, названия компонентов условны и  предназначены для мнемонических целей:  исследователи должны быть осторожными при интерполяции предполагаемых компонентов в анализе этнической истории популяций.

 

 

 

 

MDLP v4 components

 

 

 

На следующем этапе, я разбил все 371 индивидуальных «геномов» выборки на 22 фрагмента (каждый из которой соответствует аутосомной хромосоме) и затем использовал  программное обеспечение Admixture для оценки структуры популяционного вклада в каждую из 22 хромосом. После этого я использовал пайплайн для перевода формата Plink  в формат BEAGLE и последующего поэтапного преобразования фазированных данных BEAGLE обратно Plink формат.

Я предположил, что все образцы в моей выборке (представленной образцами VID)  проекта MDLP возникли в в результате смешивание 7 отдельных предковых групп населения. Данное предположение означает, что «чистые» референсные группы населения тесно связаны с истинными предковыми популяциями. Исходя из этого предположения мы снова задействовали программное обеспечение Admixture,  на этот раз с целью определения предковых компонентов в фазированном наборе данных из отдельных неполовых (аутосомных) хромосом.

Только после этой процедуры я смог использовать программу LAMP для определения уровня адмикса у отдельных индивидов. На практике, определение индивидуального уровня адмикса  означает применение любой из указанных выше процедур, в которй используется либо модель «локус-специфического происхождения» (в случае, если предковые группы популяции априори  неизвестны), либо модель «локус-специфического происхождения» гибридного населения.  Затем полученные значения  локус-специфического происхождения» отдельных сегментов в индивидуальном геноме усреднеяются и   получаются значения долей адмикса в индивидуальном геноме.

Я  расчитал в программном обеспечении Plink частоты аллелей (в стратифицированных по этническим признакам кластерах), и добавил в файл фиксированные частоты рекомбинации (определяются отдельно для каждой из 22 хромосом). Для моделирования динамического процесса смешивания предковых компонентов, я использовал различное количество поколений G ( 5, 10,25 поколений),  предполагая 3 хронологически разных варианта, в которых при  K = 7  предковые популяции A1, …, Ak,  перемешивались в течение G = 5,10,25 поколений.

Результаты экспериментов для каждой из хромосом размещены в отдельные таблицы Excel, каждый из файлов Excel включает в себя следующие разделы:

1) результаты Admixture для фазированных генотипов хромосомы (Chr * -phased)
2) результаты Admixture для нефазированных генотипов хромосомы (Chr * -unphased)
3) результаты LAMP для G = 5 (Chr * -lamp-GEN5)
4) результаты LAMP для G = 10 (Chr * -lamp-GEN5)
5) результаты LAMP для G = 25 (Chr * -lamp-GEN5)

Образец этих выходных данных можно посмотреть в файле Excel с результатами анализа хромосомы 1 (Chr1).

PCAdmix: инструмент и методология для оценки происхождения хромосомных сегментов

В марте прошлого года  Сергей Козлов — один из соавторов данного блога, — опубликовал важную с точки зрения методологии генетико-генеалогического анализа заметку о принципах оценки вероятности определения времени жизни последнего общего предка при попарном сравнении аутосомных данных двух или более сравниваемых индивидов.  Действительно, в последние годы среди людей, интересующихся генеалогией, приобрели заметную популярность сервисы, производящие поиск генетических родственников по всем линиям, а не только по прямой мужской и прямой женской. В качестве примера можно привести Family Finder от FTDNA и DNA relatives от 23andMe. Участник получает достаточно длинный список так называемых «совпаденцев» — людей, имеющих с ним один или более участок половинного совпадения (УПС) на аутосомах (неполовых хромосомах). Если участок достаточно длинный (а его длина измеряется в сантиморганидах, обозначающих вероятность разрыва участка при каждой передаче в следующее поколение), то это говорит о наличии общего предка (от которого участок и получен).
Для значительной части клиентов сервисов персональной коммерческой геномики, интересующихся исключительно вопросами своего происхождения, вопрос о достоверном определении времени жизни общих предков имеет первостепенное значение. И вместе с тем, именно проблема с получением четкого ответа на этот краеугольный вопрос служит одной из главных причин недовольства и раздражения клиентов компаний вроде FTDNA или 23andme.

Действительно, изучив длинные сегменты генома, передававшихся от поколения к поколению и встречающиеся у многих людей, можно примерно определить степень и интенсивность предковых связей, берущих начало много тысяч лет назад.  Здравый смысл подсказыает — дальние родственники имеют такие длинные сегменты генома потому, что они унаследовали их от общих предков. У более далеких родственников длина сегментов общих геномов соответственно становится короче, поскольку происходит рекомбинация гомологичных хромосом, в результате чего с каждым следующим поколением происходит перемешивание всей совокупности генов или генотипа. Очевидно, что число и размер совпадающих общих по происхождению сегментов геномов у двоих произвольно взятых лиц из однородной метапопуляции коррелирует с географический дистанцией —  количество общих генетических предков резко уменьшается по мере увеличения географического расстояния.

Однако наряду с  географически близкими (в пределях 50-100 км)  «совпаденцами», нередко в списках «совпаденцев», предоставляемых в 23andme или FTDNA появляются совершенно экзотические «совпаденцы». Например, у финна может появится совпаденец из Италии, а у корейца — из  Великобритании. Совершенно очевидно, что подобные случаи очень сложно объяснить не только простым сопоставлением сведений о географическом происхождении предков, но даже и безотказной в простых случаях  моделью наложения «этнопопуляционного аутосомного фона в виде коротких реликтовых  IBD сегментов».

В этой связи возникает практический вопрос — как интерпретировать подобные случаи, при условии что подобные сегменты представляют собой не «ложно-позитивные», а вполне достоверные совпадения, указываюшие на существование в неопределенный момент прошлого некоего общего предка. И подобные случаи характерны не только для коммерческих «выборок», но и для вполне серьезных научных баз данных, например 1000 Genomes. В частности,  в этой базе данных при сравнении редких снипов у 89 британцев и 97 китайцев были обнаружены три англо-китайские пары с отдаленным генеалогическим родством ( в геноме этих пар были обнаружены идентичные по происхождению фрагменты (IBD сегменты) ДНК,  которые составляют 0,001%, 0,004% и 0,01%  их геномов).

Самое простое решение этой проблемы некоторые из любителей генетической генеалогии пытались найти в обращении к сервисам главного инструмента аутосомной генетической генеалогии  Gedmatch. В частности, как известно, данный сервер содержит онлайн-версии практически всех популярных среди любителей модификаций DIYDodecad калькуляторов. Например, выбрав разработанный мною калькулятор MDLP K23b в режиме Chromosome painting: Paint differences between 2 kits, 1 chromosome   и сравнив характер распределения предковых компонентов на гомологичных хромосомах у двух сравниваемых людей, можно получить примерное представление о географическом ареале, в котором мог жить общий предок этих людей (вероятно, на этот ареал будет указывать доминирующий на совпадающем сегменте компонент). Логика простая. Предположим, например, что мы сравниваем  сегменты хромосомы X в данных индивида A этнического происхождения D c данными индивида В этнического происхождения С. Здесь возможны три варианта

  • С-происхождение предка или предков индивида A
  • D-происхождение предка или предков индивида B
  • Y-происхождение подмножества предков обоих индивидов

Используя эту логику,  можно предположить что если в попарном сравнении  сегмента обозначится хорошо выраженное преобладание (по отношению к средним значениям) компонента, характерного для этнопопуляции С, то следует выбрать первый сценарий; аналогично, если обнаружится избыток компонентов характерных для этнопопуляции D, то следует выбрать второй сценарий; если будет замечено преобладание редких  для этнопопуляций С и D компонентов, то следует остановится на третьем варианте.

 


Пример I.

В этом примере мы будем использовать свои данные и данные женщины, с которой у нас был обнаружен подтвержденный генеалогией общий предок, живший в середине 19 века.  При сравнении наших данных, алгоритм поиска достоверных генеалого-генетических совпадений обнаружил три сегмента с генетической дистанцией > 7 cантиморганов, cостоящих в блочной записи из более чем 700 последовательно совпадающих снипов

Start Location End Location Centimorgans (cM) SNPs
4 32232224 42421625 13.2 1115
7 8295405 13845989 9.8 885
11 36784445 45084878 8.0 881

Самый большой сегмент = 13.2 cM
Общий размер сегментов с сантиморганах > 7 cM = 30.9 cM
Приблизительное число поколений до общего предка  = 4.4

Задетектированные  сегменты хромосом идеографически отображаются при попарном сравнении в цветовой гамме — черный цвет означает несовпадающие сегменты, другие цвета — компонентную привязку к одному из компонентов моего калькулятора MDLP K23b.  Ниже приведены фрагменты идеографического отображения 2 из 3 вышеуказанных совпадающих сегментов на кариограмму 4 и 7 хромосомы.:

M051225_F298455_4_D64088
Сегмент на 4 хромосоме
M051225_F298455_7_BC1A38
Сегмент на 7 хромосоме

Самый значительный сегмент (13.2 сM) на 4 хромосоме имеют хорошо заметную привязку к северо-восточно-европейскому компоненту [зеленый цвет], в исторической перспективе связанному с наследием мезолитического населения этого региона. А вот сегмент на 7 хромосоме имеет более сложную структуру, в которой характерно преобладание кавказского компонента [голубой цвет]. Таким образом можно уверено утверждать, что общий предок (или предки) могли жить в регионе восточной Европы.

К сожалению, данный инструмент сегментного сравнения на  Gedmatch хотя и прост в обращении (в силу интуитивной понятности), однако  далек от совершенства. В первую очередь, на аккуратность определения «генографического»происхождения сегмента влияет отсутствие на сервере  гаплоидных фаз похромосомных данных. В результате, сравнение ведется не по конкретной фазе (т.е по конкретной хромосоме доставшейся ребенку от каждого из родителей), а по диплоидному составному блоку, т.е вместо настоящих IBD мы можем оперировать half-IBD (HBD), которые на слэнге русскоязычных любителей именуются УПС-ами. Во вторых, аккуратность генографического определения  зависит от аккуратности определения предковых компонентов в используемом варианте калькулятора, но это отдельная тема для разговора.


К счастью, парадокс «экзотических» совпаденцев имеет более точное решение с помощью одной из программ, позволяющих определять геногеографическую структуру или «локальное происхождение» совпадающих сегментов.  Можно использовать разные программы, HAPMIX, LAMP , HAPAA, ANCESTRYMAP — так как несмотря на ряд принципиальных отличий, все они используют алгоритмы моделнй скрытых марковских цепей (HMM) и поэтому выдают в целом схожие результаты. К этому же классу программ относится и более новая програма PCAdmix, которую я буду использовать в своем втором примере, в котором я задействую фазированные в BEAGLE генотипы.  В целях разжевывания принципов работы программы, следует вкратце описать рабочий процесс PCAdmix.
PCAdmix являет cобой метод, который оценивает локальное происхождение хромосомных сегментов с помощью анализа главных компонентов (PCA)  фазированных гаплотипов. В самом начале выполняется анализ главных компонентов в 2-3 референсных панелех, необходимых доя построения пространства главных компонентов, например, для хромосомы 22 . Поскольку метод использует фазированные данные, каждая копия хромосомы 22 в референсных панелях рассматривается как отдельная точка в пространстве главных компонентов. Первые две главные компоненты, как правило, представляют собой оси «предкового» расхождения популяций референсных панелей, что хорошо заметно на графиках. Если подобного рассхождения не наблюдается,  то скорее всего в популяциях референсных панелей «маскируется» присутствие неявной популяционной субструктуры. В построенное таким способом пространство главных компонентов в дальнейшем проецируется группа лиц «смешанного» происхождения, и затем определяется значение нагрузки главных компонентов для каждого снипа.  После этого метод переходит к анализу коротких «окон» снипов — для каждого из этих окон вычисляются  вероятности того, что данное окно в гаплотипе человека «смешанного» происхождения происходит от одной из референсных популяций. Вычисленные таким образоом вероятности различных вариантов происхождения каждого окна снипов, используются на заключительном этапе метода в  скрытой моделе Маркова (HММ) для сглаживания шума в определении происхождения «окон» снипов. Таким образом, данная скрытая модель Маркова НММ зависит от значений главных компонентов, доли каждого «компонента происхождения» на заданной хромосоме, а также матрицы перехода, которая, в свою очередь, зависит от числа поколений прошедших с момента смешивания популяций и генетического расстояния (сM) между двумя окнами снипов. В текущей версии метода, рекомбинаторные расстояния и число поколений определяются параметрами.
Конечным результатом рабочего процесса PCAdmix является матрица состяний скрытой модели Маркова, содержащая апостериорную вероятность каждого из возможных вариантов происхождения для данного «окна снипов», и эта вероятность обусловлена остальной частью данных для хромосомы. Важно отметить, что происхождение каждого окна снипов определяется только в том случае если апостериорная вероятность для одного из возможных происхождений > = 0,8. Любое окно, для которого максимальная апостериорная вероятность любого варианта происхождения <0,8, считается «неопределенным».


Пример 2

Данный пример основан на реальном случае, когда ко мне обратился человек, чьи предки происходят из центральных регионов Азии. Смущенный наличием в списке своих совпаденцев в сервисе Relative Finder 23andme  человека с корейскими и японскими корнями, а также  семейными легендами о «восточноазиатской»прабабушке, он попросил меня определить вероятность присутствия японцев в числе своих ближайших (в пределах 5 поколений) предков, опираясь исключительно на аутосомные данные.

В этом эксперименте, я решил скурпулезно следовать инструкциям разработчиков PCAdmix, и для начала произвел фазирование (биоинформатическую реконструкцию гаплотипных фаз аутосомных хромосом) в программе BEAGLE. Данные тестанта (ок 400 тыс. снипов) были фазированы в присутствии 3 контрольных референсных групп популяций — британцев GBR, китайцев CHB и японцев JPT — поскольку эти группы были позднее задействованы мной в качестве 3 референсных панелей. В целях уменьшения количества ошибок, которые неизбежно появляются в результате импутации пропущенных «генотипов» снипов, я использовал только те общие снипы, которые были определены как в аутосомных данных клиента 23andme, так и в трех референсных группах.

Затем фазированные данные тестанта были похромосомно обработаны в рабочих циклах программы PCAdmix. Программа отфильтровала cнипы с низким значением MAF и высоким значением LD, в результате чего число снипов уменьшилось почти вдвое. Оставшиеся снипы были разбиты на «окна снипов», каждое из которых состяло из 20 снипов.  При расчете по всем 22 хромосомах, общее количество полученных таким разбиением «окон» составило 11 997. В конце рабочего цикла (метод главных компонентов + HMM) программа выдала для каждой парной аутосомной хромосомы A и B  файл в формате bed, удобном для отображения дополнительной информации в аннотации генома (номер хромосомы, начало и конец сегмента, наиболее вероятный регион происхождения сегмента, cM, максимальная вероятность и апостериорная вероятность одного из трех вариантов происхождения — JPT, GBR, CHB, непоказана в таблице). В конечном отчете GBR используется как индикатор сегментов не-восточноазиатского происхождения (nEA), JPT — японского происхождения (JPA), CHB — неспецифичных сегментов восточноазиатского происхождения (EA) :

10 111955 468599 GBR 0.004885 0.134147 GBR* 0.636943
10 521723 811876 GBR 0.142147 0.582463 GBR* 0.646868
10 815149 1151723 GBR 0.585829 0.898724 GBR* 0.676252
10 1156487 1335849 GBR 0.901503 1.23673 GBR 0.925059
10 1337709 1449849 GBR 1.24246 1.60705 GBR 0.99999
10 1454864 1510208 GBR 1.61249 1.76798 GBR 0.999506
10 1512546 1623734 GBR 1.77039 2.12653 GBR 0.999647
10 1624900 1669347 GBR 2.13038 2.25357 GBR 0.999778


Выбор формата BED в качестве формата выходных в моем случае также был далеко неслучайным. C помощью одной из библиотеки платформы Bioconductor формат BED легко отображается в кариограмме 22 пар аутосомных хромосом человека (я использовал координаты геномного билда b37). Чтобы было понятно, что именно изображают эти «кариоплоты» (идеографические изображения хромосом), необходимо пояснить, что  «японское происхождение» (JPA) приписывалась 20-сниповому сегменту только в том случае, если апостериорная вероятность японского происхождения данного «окна из 20 снипов» составляла > = 0,8. Любое окно, для которого максимальная апостериорная вероятность любого варианта составляля <0,8, засчитывалось как окно  с «неопределенным» происхождением (UND).Chromosomes A

Chromosomes A

 

Chromosomes B
Chromosomes B

Эксперимент показал, что среди 11997 «окн» число  «окон» не-восточноазиатского (nEA) происхождения (7650) почти в два раза больше чем число «восточноазиатских» сегментов. Происхождение 2750 геномных «окон» снипов невозможно определеить, и только 965 «окна» могут быть определены как «японские по происхождению». Вместе с 617 окнами «китайского» (EA),  восточно-азиатские сегменты составляют меньше, чем 10% генома.
Не менее важно и то обстоятельства, что значительная доля этих сегментов-окон пришлась на низких «консервативные, низкорекомбинантные» области хромосом,  — такие, как  например, теломеры, центромеры и регионы с низкой плотностью снипов: сегменты в таких регионах могут переходить от одного поколения к другому фактически в неизменном виде. Наконец, те же закономерности распределения родословной были отмечены в обеих фазированных наборах аутосомных хромосом, что опровергает версию о недавной «восточноазиатской» примеси со стороны одного из родитедей и скорее  свидетельствует о древнем эпизоде смешивание определенных центрально- и юго-западноазиатских групп с группами восточноазиатского происхождения (например, в ходе монгольских или тюркских нашествий).

Разумеется, как и во многих других моделях анализа, основанных на вероятностях, наше заключение нельзя считать окончательным вердикторм. Вместо этого, лучше сказать, что шансы в пользу существования «недавнего японского предка» против шансов отсутствия такого, составляют 10 к 90. Другими словами, вариант с недавней японской «примесью» нельзя полностью исключить, поскольку вероятность такого сценария  составляет 11%.

 

Этногеномика беларусов — часть V

Обсуждение результатов и выводы

 

Как отмечалось в введении к нашей статье, главной задачей нашего исследования являлась проверка двух рабочих гипотез, озвученных в предыдущих исследованиях профессиональных попгенетиков. Во-первых, это гипотеза о присутствии трех основных древних компонентов , которая указывает на возможность общего происхождения славян и балтов. Во-вторых, это утверждение о том, что своеобразие аутосомного генофонда беларусов может быть связанно с вкладом балтского субстрата.

После внимательного изучения результатов нашего исследования,можно сказать, что оба из приведенных выше заключений представляют собой крайне упрощеные варианты сложного процесса формирования аутосомного генофонда беларусов. Хотя мы и не можем предоставить окончательных аргументов в пользу или опровержение каждой из этих версий, мы может предоставить более полное и подробное обозрение структуры аутосомного генофонда. В отличие от трех основых компонентов, упомянутых выше, в нашем исследовании мы выделили шесть основных компонентов, типичных для европейцев в целом. Основу генофонда составляет компонент, который мы обозначили как северо-восточно-европейский компонент. Именно этот компонент выделяет беларусов среди других восточных славян, приближая их к современным балтийским популяциям (у литовцев процент компонента составляет 81,9, у латышей — 79,5%, у беларусов -76,4%, у эстонцев — 75,2%). Примечательно, по мере удаления от территории Беларуси на север в с торону Латвии и Эстонии, увеличивается процент северо-европейского генетического компонента (как мы полагаем, этот компонент доминировал в генофонде доисторических жителей Скандинавии в эпоху до распространения финно-угоров и индо-европейцев). С другой стороны, беларусов и других восточных славян отдаляет от балтов и сближает друг к другу более высокий процент так называемого западно-азиатского или кавказского компонента (любопытно, что в этом случае эта закономерность может свидетельствовать в пользу западно-азиатской теории происхождения индо-европейцев).

Далее, как показывает анализ в программе fineStructure, генофонд беларусов характеризируется высокой степенью генетических контактов как с балтами, так и остальными славянами, а также с рядом финно-угорских популяций (например, c эрзя и мокша). О симметричном характере межпопуляционного обмена свидетельствует симметричное расположение популяции беларусов относительно этих трех групп.

Исходяизвышенаписанного,представляетсялогичнымсделатьвыводотом,чтоосновнойкритическийэтапстановленияаутосомногогенофондапришелсянапериодсмешиванияносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,послечегопредковыйаутосомныйгенофондбеларусовприобрелотносительнуюстабильность.Разумеется,даннаямодельнеисключаетпозднейшиеэпизодысмешиванияпопуляций,ноониоставилименьшийследвструктуреаутосомногогенофондабеларусов.Вэтойсвязивозникаеточевидныйвопрос–вкакойименноисторическийпериодпроизошлосмешениеносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,иктобылиихносителями?
В начале сентября 2012 года известная американская лаборатория популяционной генетики доктора Райха опубликовала альфа-версию программного продуктаADMIXTOOOLS1.0. Альфа-версия была разработана для внутреннего использования, поэтому modusoperandiэтого продукта вряд ли является кристально понятным для стороннего пользователя. Положительным аспектом на мой взгляд является то, что ADMIXTOOLSпакет обеспечивает полную совместимость с форматом другой очень популярной программыEIGENSOFT, которая была разработана в той же лаборатории. Это немаловажное обстоятельство намного упрощает процесс обучения в ADMIXTOOLS.

Вышеупомянутый пакет включает в себя 6 приложений, среди которых я считаю наиболее полезнойqp3Popи утилиты для вычисления частотной характеристики аллелей. Впрочем, я не собираюсь обсуждатьqp3popво всех деталях и в контексте данной заметки достаточно отметить, что эта программа реализует тест three_pop(F_3), подробно описанный в известной статье Рейха и соавт. 2009.

Однако другой имплементированный в пакете метод, – метод rolloff– нуждается в более пристальном внимании. Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатураLD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории, чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения LDв адмиксе напрямую связана с числом поколений, прошедших с момента адмикса, так как cвозрастанием числа поколений увлечивается число рекомбинаций произошедших между двумя отдельными SNP-ами. Проще говоря: Rolloffсоответствует экспоненциальной кривой угасания уровня LDот расстояния, и эта скорость экспоненциального снижения как раз и используется для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.

Этот метод открывает интересные перспективы. Для целей этого анализа, я создал специальный набор SNP-данных, который включает в себя около 750 000 cнипов, частично или полностью в 250 различных популяциях человека. Далее, я разбил популяции 3 * 62 000 трио в следующем виде (X, Y, Z), где X и Y – пара рефренсных групп, а Z – белорусы из коллекцииBehar et al.2010. После этого я провел q3Pop анализ этих трио.

Результаты изложены в нижеприведенной таблице

Indian Polish Belarusian -0.000736 0.000251 -2.935
Polish Indian Belarusian -0.000736 0.000251 -2.935
Karitiana Sardinian Belarusian -0.001278 0.000517 -2.471
Sardinian Karitiana Belarusian -0.001278 0.000517 -2.471
Otzi North_Amerind Belarusian -0.002556 0.001126 -2.271
Cirkassian Polish Belarusian -0.000488 0.000231 -2.113
Polish Cirkassian Belarusian -0.000488 0.000231 -2.113
Pima Otzi Belarusian -0.002727 0.00137 -1.99
Pima Sardinian Belarusian -0.000794 0.000431 -1.843
Sardinian Pima Belarusian -0.000794 0.000431 -1.843
Otzi Surui Belarusian -0.002938 0.001931 -1.522
Surui Otzi Belarusian -0.002938 0.001931 -1.522

 

На первый взгляд, результаты нашего эксперимента с 3qPop, кажется, неплохо согласуются с выводами, содержащимися в работеПаттерсон и др. 2012: “Самый поразительный вывод состоит в обнаружени четкого сигнала адмикса в северной Европе, один из элементов которого связан с предками населения наиболее близкого по своей генетике к баскам и жителям Сардинии, а другой – с предками современного населения северо-восточной Азии и Америки. Этот явный сигнал, вероятно, отражает историю смешивания неолитических мигрантов с коренным населением Европы, что подтверждается недавним генетическим анализом древних костей Швеция и секвенированием полного генома Отци Тирольца”. Что касается собственно белорусов, то источники сигнала смешивания с посторонними популяцими менее ясны и расплывчаты. Как было показано ранее, с точки зрения формального анализа примесей (f3 статистики), белорусы могут быть представлены в виде популяционного микса поляков и индусов / черкессов. Первый компонент смеси может быть связан с носителями культуры шнуровой керамики/боевых топоров и культуры колоковидных кубков; второй, в соответствии с результатами, должен быть общим для индусов и черкесов.

 

Белорусы = ((неолитические культуры Европы) + “носители культуры колоковидных кубков”) + (мезолитическое население Европы) + компонент носителей культуры шнуровой керамики)) + скифо-сарматский тип

 

Для оценки дата события базового адмикса в белорусской популяции, мы использовали в качестве референсных популяций поляков и индусов (Примечание: мы снизили порог генетических дистанции в параметрах Rolloff для снижения уровня шума от более поздних адмиксов).

 

rolloff

Как вы можете видеть, сигнал присутствия адмикса обнаруживается гораздо хуже, и в силу этого, погрешности в оценке временного промежутка высоки:

154,158 + -87,024 поколений назад (или, 4470 + -2523 года до настоящего времени / 2510 – +2523 лет до н.э.).

 

Исходя из этого, мы решили модифицировать Rolloff-анализ генофонда белорусов, используя на этот раз в качестве референсов литовцев и пуштунов. Следуя этому совету, я решил предпринять вторую попытку формального анализа адмикса в двух имеющихся у нас выборках беларусов ( выборка беларусов из статьи Behar et al. 2011), и выборка беларусов, собранная в нашем проекте.Ниже приведены результаты эксперимента с двумя этими группам (в отличие результатов нашей предыдущей попытки, результаты данного эксперимента менее “зашумленные”):

rolloff2

 

Интервал числа поколений, прошедших со времен анализируемого адмикса (105.086+-52.59) или 3069 +- 1525 лет до настоящего времени, что соответствует временном интервалу 2 тыс. до нашей эры – 6 век нашей эры. Принимая во внимание эти выводы, мы можем предположить, что основной аутосомный эпизод смешивания предковых популяций беларусов произошел в течении довольно таки продолжительного времени, охватывающего несколько тысяч лет. В этой связи, вопрос о том, кто именно был носителями северо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента, остается открытым.

Еще раз к проблеме генетической преемественности саамов и финнов

Одна из первых записей в этом дневнике была посвящена проблеме происхождения саамов. Поскольку все основные аргументы в споре генетиков, лингвистов и археологов были исчерпаны я решил не возвращаться к этой теме. Однако в середине мая со мной связался Андерс Полсен из генеографического проекта Fennoscandia . Нужно отметить необычайную активность Андерса, которая в последнее время особенно заметна на фоне бездеятельности остальных ведущих геномных блоггеров. В числе прочего следует упомянуть о ряде примечательных заметок Андерса, посвященных сравнительному анализу древнего ДНК останков из мезолитической испанской пещеры La Brana и  ДНК современных саамов. Эти заметки заслуживают дополнительного комментария. Анализом этно-популяционных компонентов ДНК  примерно год тому назад занимался Диенек Понтикос и автор этих строк. Понтикос отметил, в числе прочего, интересный момент:

В связи с небольшим числом извлеченных из останков снипов, я был вынужден создать композитный набор данных за счет слияния данных обеих генотипированных мезолитических индивидов; в моем калькуляторе K7b этот композитный индивид характеризуется наличием 9,3% африканских аллелей и 90,7% аллелей входящих в кластер Atlantic_Baltic, и этот расклад довольно точно соответствует положению этого композита на графике PCA … высокий процент компонента Atlantic_Baltic, согласуется с аналогичным высоким процентом Atlantic_Baltic, выявленным у  охотников-собирателей шведского неолита.

Поскольку география ареала распространения этого компонента, похоже, мало интересует Диенека, более он ничего не писал. Мой анализ показал несколько иную картину. Прежде всего, я использовал несколько иную группировку популяционных кластеров, определенных в ходе анализа чистот аллелей в разных популяциях. Во-вторых, в отличии Диенека, имеющего ограниченный сэмпл популяций балтийского и скандинавского регионов,  у меня была собрана солидная референсная группа эстонцев, шведов, латышей, финнов и саамов. Благодаря этому удалось показать, что ближе всего к La Brana находятся современные саамы, финны, латыши и эстонцы. Это геномная близость оказалась настолько явственной, что представляется возможным выделить компонент объединяющий все эти популяции и мезолитических испанцев в общий компонент, который я назвал палеоевропейским.

Эти выводы заинтересовали Андерса, поскольку в рамках своего проекта Фенноскандия, он уделяет особое внимание скандинавским популяциям, в том числе и саамам.  Месяц назад он написал мне письмо:

Я пытался  много раз проверить твои выводы (насчет близости саамов и мезолитических испанцев). Полученная в программе PLINK IBS матрица позволяет нам предположить, что  в абсолютном выражении, кратчайший путь от La Braña ведет к литовцам, и затем к  части финнов из северных регионов Финляндии. В программе Admixture, которая не учитывает перевес в пользу финнских и скандинавских образцов, финны и литовцы образовали  два разных кластера, а La Brana  попали в  общий кластер с финно-саамским компонентом, а не с литовцами. В другом запуске программы Admixture, я использовал равные по числу образцов выборки финнов и литовцев. В этом эксперимента я не обнаружил какого-либо расхождения между литовцами и финны, а La Brana попали целиком в этом общий финно-литовский компонент. Однако только что я завершил новый анализ структуры генофонда в программе fineStructure -Chromopainter. В размерности 4 «мирового» PCA La Brana  имеют одинаковую вариацию с двумя саамами и финном с небольшой примесью саамской крови.

В качестве ответа, я привел ряд своих собственных наблюдений насчет геномного сходства саамов.Я использовал совокупный набор данных для расчета матриц IBS и последующего импорта попарных IBS матриц в статистическое программное обеспечение R. Используя встроенные библиотеки программы R,  я вычислил средние значения наблюдений в наборе данных с попарными значениями IBS между образцами, включенными в анализ. Ниже приводится таблица с попарными значениями геномного сходства . Как видно,  в этот раз La Brana оказались гораздо более к балтийским популяциям:

Latvian Bra 0,5762
North-German Bra 0,5762
Estonian Bra 0,5761
Lithuanian Bra 0,5703
Russian Bra 0,5699
Czech Bra 0,5694
Swede Bra 0,5694
Russian_North Bra 0,5686
Pole Bra 0,5675
Orcadian Bra 0,5675
Bulgarian Bra 0,5671
South-Germanian Bra 0,5666
TN_Brahmin Bra 0,5661
Swiss Bra 0,5653
CEU Bra 0,5647
Center-Russian Bra 0,5643
Komi Bra 0,5641
Belorusian Bra 0,5638
Athabask Bra 0,5634
Mordovian Bra 0,5629
Kosovar Bra 0,5624
Corsican Bra 0,5622
French Bra 0,5614
Tsimsian Bra 0,5609
Croat Bra 0,5609
Nguni Bra 0,5606
Slovak Bra 0,5606
Hungarian Bra 0,5603
Yukagir Bra 0,5600
West-Ukrainian Bra 0,5596
NAN_Melanesian Bra 0,5595
Chuvash Bra 0,5593
Welsh Bra 0,5593
Colombian Bra 0,5592
Vepsa Bra 0,5591
Karelian Bra 0,5590
Miwok Bra 0,5589
North-Russian Bra 0,5587
Portugese Bra 0,5583
German Bra 0,5582
Macedonian Bra 0,5579
Finn Bra 0,5577
Russian_cossack Bra 0,5577
Colville Bra 0,5576
Russian_Center Bra 0,5576
Bosnian Bra 0,5571
Hakas Bra 0,5570
South-Russian Bra 0,5569
Lumbee Bra 0,5568
Sardinian Bra 0,5567
Selkup Bra 0,5567
Nenets Bra 0,5564
East-Ukrainian Bra 0,5563
Hausa Bra 0,5561
Tuva Bra 0,5558
Meghawal Bra 0,5556
Uzbeki_jew Bra 0,5556
Bashkir Bra 0,5555
Br Bra 0,5554
Inuit-West Bra 0,5552
Mexican Bra 0,5551
Tatar Bra 0,5550
Ukrainian Bra 0,5550
Naxi Bra 0,5548
Libyan-jew Bra 0,5548
British Bra 0,5548
North-Greek Bra 0,5546
French_Basque Bra 0,5545
Khant Bra 0,5544
Ashkenazi_Jew Bra 0,5543
Dharkar Bra 0,5543
Miaozu Bra 0,5542
Tatar_Lithuania Bra 0,5542
Daur Bra 0,5542
Spain Bra 0,5541
Saami Bra 0,5540
Romanian_Jew Bra 0,5540
Brahmin Bra 0,5537
Lezgin Bra 0,5536
Slovenian Bra 0,5536
Udmurd Bra 0,5534
Mongola Bra 0,5533
Sotho Bra 0,5533
Tuscan Bra 0,5533
Altaic Bra 0,5532
Burusho Bra 0,5529
North_Italian Bra 0,5525
Nogay Bra 0,5525
Azeri_Jew Bra 0,5525
Balkar Bra 0,5523
Adygei Bra 0,5522
Kol Bra 0,5520
Montenegrin Bra 0,5520
Gagauz Bra 0,5518
Hakkipikki Bra 0,5518
South-Greek Bra 0,5517
Han Bra 0,5516
Indian_muslim Bra 0,5516
Iberian Bra 0,5515
Georgian_Imereti Bra 0,5515
Greek_Azov Bra 0,5515
She Bra 0,5514
Yakut Bra 0,5513
GreeceThessaly2 Bra 0,5512
Serb Bra 0,5512
North-Ossetian Bra 0,5511
Lak Bra 0,5511
Chechen Bra 0,5511
Dusadh Bra 0,5511
Brahmin_UttarPradesh Bra 0,5510
Tlingit Bra 0,5507
Kalmyk Bra 0,5506
Toscanian Bra 0,5505
IndCan Bra 0,5505
Greek Bra 0,5504
Indian Bra 0,5504
Egyptan Bra 0,5503
Bengali Bra 0,5503
Haida Bra 0,5503
Ashkenazi Bra 0,5503
Kazakh Bra 0,5502
Mansi Bra 0,5502
Burmese Bra 0,5499
Georgian_Jew Bra 0,5499
Tunisian_Jew Bra 0,5496
Mongol Bra 0,5496
Kusunda Bra 0,5496
Turk Bra 0,5495
Karitiana Bra 0,5495
Uttar_Pradesh_scheduled_caste Bra 0,5494
Romanian Bra 0,5494
Kyrgyz Bra 0,5493
Uzbek Bra 0,5491
Roma Bra 0,5491
Ecuadorian Bra 0,5491
Xibo Bra 0,5490
Armenian Bra 0,5490
North_Greek Bra 0,5489
Tujia Bra 0,5489
Caribbean_Hispanic Bra 0,5489
Gond Bra 0,5488
Tatar_Crim Bra 0,5487
Turkmen Bra 0,5487
Iraqi-jew Bra 0,5486
Kurumba Bra 0,5486
Tu Bra 0,5486
Sindhi Bra 0,5484
Kshatriya Bra 0,5483
Oroqen Bra 0,5481
Aleut Bra 0,5478
Brg Bra 0,5478
Druze Bra 0,5478
Tadjik Bra 0,5477
Yizu Bra 0,5477
Kanjar Bra 0,5477
Naga Bra 0,5476
Irani-jew Bra 0,5476
Abhasian Bra 0,5475
Brahui Bra 0,5474
Georgian Bra 0,5472
Dai Bra 0,5471
Evenk Bra 0,5470
Tamil_Brahmin Bra 0,5470
Libyan Bra 0,5469
Cypriot Bra 0,5469
Mari Bra 0,5468
Kumyk Bra 0,5468
Hazara Bra 0,5467
Moroccan Bra 0,5467
Syrian Bra 0,5467
Inkeri Bra 0,5464
Azeri Bra 0,5464
Iraq_jew Bra 0,5464
Indian_Jew Bra 0,5464
Saudian Bra 0,5464
Lambadi Bra 0,5463
Cretan Bra 0,5462
Jordanian Bra 0,5461
Parsi Bra 0,5460
Ket Bra 0,5460
PuertoRican Bra 0,5460
Sephard Bra 0,5459
Chenchus Bra 0,5458
Nyshi Bra 0,5458
Chukchi Bra 0,5455
Shor Bra 0,5455
Velama Bra 0,5455
Lahu Bra 0,5454
Hezhen Bra 0,5454
Bedouin Bra 0,5454
Mozabite Bra 0,5452
Italian_Jew Bra 0,5452
Tamil_Nadu Bra 0,5450
Tharus Bra 0,5449
Chamar Bra 0,5448
Irani Bra 0,5448
Kinh Bra 0,5447
Yemen_jew Bra 0,5446
Center-Italian Bra 0,5445
Tunisian-jew Bra 0,5444
Lebanese Bra 0,5444
Balochi Bra 0,5443
Pygmy Bra 0,5442
Dolgan Bra 0,5442
Serrano Bra 0,5442
Palestinian Bra 0,5441
Brahmin-TNBRAS Bra 0,5441
Makrani Bra 0,5440
Piramalai_Kallar Bra 0,5439
Kalash Bra 0,5439
Algerian Bra 0,5438
Lemba Bra 0,5435
Yemeni Bra 0,5435
Fulani Bra 0,5433
South-Han Bra 0,5432
Uzbekistan_Jew Bra 0,5432
Center-Greek Bra 0,5432
Karakalpak Bra 0,5431
Costanoan Bra 0,5425
Morocco_Jew Bra 0,5422
Gujarati Bra 0,5420
Algerian-jew Bra 0,5418
Tswana Bra 0,5415
Iranian_Jew Bra 0,5413
Yemen_Jew Bra 0,5413
France_Jew Bra 0,5412
Iran_jew Bra 0,5409
Kurd_Jew Bra 0,5407
Egyptian Bra 0,5407
Afar Bra 0,5406
Iraqi Bra 0,5402
Chamat Bra 0,5397
North-Han Bra 0,5392
Khazar_jew Bra 0,5391
!Kung Bra 0,5390
Maya Bra 0,5387
Saudi Bra 0,5379
Tunisian Bra 0,5377
Sicilian Bra 0,5377
Georgian_Laz Bra 0,5373
Indan_muslim Bra 0,5370
Saharan Bra 0,5369
Meena Bra 0,5366
Azeri_jew Bra 0,5364
Ethiopian_Jew Bra 0,5362
Dogon Bra 0,5360
Indian_jew Bra 0,5357
Kongo Bra 0,5347
Algerian_Jew Bra 0,5337
Tat Bra 0,5335
Syrian_Jew Bra 0,5334
Madiga Bra 0,5331
Papuan Bra 0,5322
San Bra 0,5309
Somali Bra 0,5306
Dominican Bra 0,5296
Australian Bra 0,5296
Wolyata Bra 0,5285
Libyan_Jew Bra 0,5280
Bamoun Bra 0,5279
Brong Bra 0,5271
Bambaran Bra 0,5271
Afro-American Bra 0,5271
Tygray Bra 0,5269
Koryak Bra 0,5264
Sandawe Bra 0,5262
Ethiopian Bra 0,5259
Bulala Bra 0,5248
Mada Bra 0,5248
Amhara Bra 0,5246
Kaba Bra 0,5240
Hadza Bra 0,5224
Biaka_Pygmies Bra 0,5211
Oromo Bra 0,5201
Bantu Bra 0,5195
Yoruba Bra 0,5171
Mandenka Bra 0,5169
Igbo Bra 0,5157
African-Caribbean Bra 0,5154
Luhya Bra 0,5152
Yourba Bra 0,5127
Esomali Bra 0,5116
Ari Bra 0,5110
Fang Bra 0,5086
Anuak Bra 0,5077
Sudanese Bra 0,5021
Gumuz Bra 0,4993

Руководствуясь моими замечаниями, Андерс написал новую заметку в свой блог, и эта заметка настолько важна, что я решил ее перевести на русский целиком:

» Те, кто читал мой блог, или участвовал в  проекте Fennoscandia, уже привыкли к появлению на графике  PCA (анализа главных компонентов европейского генетического разнообразия) в программе Chromopainter-finesStructure  типичных фигур с формой напоминающей  символы  «>» или «<«. Обычно кластер располагается близко к корню в то время как популяции Центральной и Восточной Европе популяции оказываются на одной ветке или ребре этой V-образной фигуры, в то время как скандинавы, финны и саамы  — на другой.  Пример этой структуры приведен ниже:

Наверное, многие из моих читателей задавались вопросом, почему распределение популяций на графике PCA имеет именно эту геометрическую форму, а также вопросом касаемо того, сколько лет прошло с момента начала дивергенции двух вышеупомянутых группы популяций.  Чтобы ответить на этот вопрос я произвел анализ данных  по древней ДНК La Braña и MDS анализ  в программе PLINK.  Исходное число точечных мутаций -снипов было уменьшено до 69 000. В анализе я использовал всех участников проекта и референсных популяций. Как мы видим, нет * абсолютно * никаких сомнений, с кем именно кластеризуются древние La Braña в проекции двух основных компонентов генетического разнообразия.


Подобное расположение древних иберийских  La Braña, означает вероятно, что древние La Braña характеризовались определенными генетическими вариациями, вариациями которые напоминали генетические  вариации финнов и саамов  (и сегодня встречаются только в Фенноскандии). В западной и южной Европе эти генетические вариации отсутствуют. Кроме того, существуют вероятно компоненты, которые отделяют La Braña от финнов, и приближают их  к саамам.

Набор данных по La Braña включает в себя 183 000 снипа (эти снипы перекрываются набором данных из проекта 1000G) и мой текущий стандартный набор данных 289 000 снипа.   Интерсекция обеих наборов данных   дает в конечном итоге всего 4 000 снипа. Это явно небольшое количество полиморфизмов, недостаточное для полноценного анализа. Вместо этого я попытался посмотреть, если  другой способ решения этой проблемы, который позволяют произвести анализ с использованием всех 183 000 снипов La Braña. Тот факт, что оба набора данных в этом эксперименте — 183 000 снипа Lа Braña  и 288  000 cнипа  — полностью перекрываются снипами проекта 1000 геномов,  позволяет нам найти решение проблемы  путем импутации SNP-гаплотипов. Эта процедура определения снипов широко используется в генетических исследованиях  в тех случаях, когда объединенный набор данных был генотипирован на различных платформах с использованием общей референсной панели.

Импутация снипов была проnзведена в программе BEAGLE. После этого я сравнил  первоначальный набор данных с «импутированным» набором данных на предмет различий между. Поскольку большинство SNP-ов в данном анализе было определенно в ходе импутирования, то я заметил определенный » искусственный дрейф», состоящий в том, что индивиды с импутированными  снипами становятся более похожи друг на други, чем те же индивиды, но с первоначальными неимпутированными снипами 1000G Поэтому я исключил всех индивидов, чей набор данных содержал импутированные снипы (за исключением La Braña), предполагая что минимизаций фактора неопределенности приведет к тому, что неизбежные незначительные ошибки не будут столь значительно влиять на достоверность результатов. Все генотипы индивидов La Braña представляют собой реальные  генотипы (без использования импутации).

Как мы видим ниже, структура популяций определенная в программе Chromopainter-fineStructure, представляется релевантной как в мировом, так и  в паневропейском масштабе. Это доказывает надежность проведенной операции импутирования снипов,  поэтому эту методологию можно использовать для дальнейшего анализа.

На приведенных выше графиках видно, что отдельные компоненты аутосомных генетических вариаций La Braña сильно отделяет эту группу от остальной части современных европейцев, так же как и  в предыдущем посте с использованием неимпутированных гаплотипов. Причина этого феномена ясна: у индивидов La Braña африканское происхождение выражено более ярко, чем у остальных европейцев. Принадлежность к  восточно-азиатскому, сибирскому и индейскому кластеру, кажется, характерна для сегодняшних финнов.

В этой связи возникает закономерный вопрос: какая из современных нам популяций является самой близкой к La Brana?  При проведении простой IBS-кластеризации в PLINK, мною были получены величины Эвклидовой дистанции между геномными образцами. В режиме диплоидных данных наиболее близкими к La Brana оказываются литовцы и саамы, в  режиме гаплоидном режиме список возглавляют литовцы.


Однако по своему собственному опыту, я могу сказать что нельзя полностью доверять простым сравнениям IBS, поскольку на сходство могут повлиять очень многие факторы. С целью получения большей информации, я произвел новый анализ в  Chromopainter-fineStructure, — на этот раз с использованием только европейских популяций.

Как мы видим из вышеприведенной heatmap, cуществует определенная генетическая связь между литовцами, финнами и басками. В более отдаленной степени, в эту цепочку включаются и саамы.  Наличие большой асимметрии между полученными от других популяций хромосомными сегментами и хромосомными сегментами отданными в другие популяции в ходе процесса обмена генами, а также самый раннее ответвление    La Brana от остальной европейской панели, объясняется очевидно 10%  примеси африканских аллелей обнаруженных ранее.

Однако в анализ главных компонент PCA мы можем выделить влияние разных компонентов в генетическом наборе данных La Brana. В проекции 1 измерения PCA X-ASIS, мы наблюдаем значительную дисперсии отдельных популяций — La Braña находятся в крайне левом углу,  а литовцы — в дальнем правом. В перспективе 1 измерения    (размерности) главных компонентов генетического разнообразия нет никаких сомнений, что саамы находятся ближе всего к La Brana. В перспективе второго измерения 2,  дисперсия смещает La Brana к литовцам. Заметим, что здесь саамы и баски образуют противоположенные кластеры, которые отражают известную генетическую дихотомию-разделение Северо-Восточной  и Юго-Западной Европы.

В проекциях 1 и 3 измерения (Y-ось) мы видим, что La Braña наиболее близки к финнам и в некоторой степени также к пресловутым вологодским русским. В размерности 3 мы также видим, что баски и литовцы расходятся в противоположных направлениях, а  саамы появляется в качестве  промежуточное звена между ними.

Выводы: La Braña, судя по всему, отражают один из основных компонентов, которые в  самой значительной степени присутствуют среди современных популяциях у саамов, но практически отсутствует у остальных европейцев.  У саамы наблюдается и  второй значительный генетический компонент, который, кажется, отражает характерный градиент по направлению север-юг характерный  для  большой части финнов. Однако расположение La Braña в пространстве этого второго компонента нарушает общий тренд — они смещаются гораздо «южнее» от нижней части кластера литовцев в направлении кластера басков. Это означает, что у La Braña наблюдается значительный вклад южно-европейских предков. Оба доминирующих компонента в размерностях 1 и 2 на графики PCA достигают своего пика в северной части Европы (у саамов), причем второй компонент (который отсутствует у  La Braña) может указывать на аутентичный «северный» компонент, cвязанный с позднейшими миграциями. Интерпретация третьего компонента вызывает затруднения. Здесь присутствуют и финны, и русские из Вологда, в то время  как La Braña смещается ближе к литовцам, а  саамы —  в сторону кластера басков.

Заключение: Мезолитические жители Иберийского полуострова — La Brаna — характеризовались генетическими вариациями, которые в настоящее время встречаются среди саамов, и в то же время указывают на принадлежность к более южным популяциям, вроде литовцев и басков. Можно предположить, что оба компонента отражают «северный» и «южный» вклад в их родословную.

Наши наблюдения, по крайней мере частично, согласуются с  выводами Вадима Веренича впервые обнаружившим  связь между мезолитическими охотниками-собирателями Иберийского полуострова и саамами. Behind the Curtains: MDLP World 22 showcase

Новое обновление интерфейса Ancestral_Compositon в 23 и эксперимент с SupportMix

Вступление

Эта заметка будет посвящена взаимосвязанным понятиям «chromosome painting» и адмикс. Современная генетика и персональная геномика на протяжении последних 2-5 лет, уделили большое внимание этим  понятиям под рубрикой «определения происхождения отдельных геномных сегментов».

В 2011 году я провел пару экспериментов с  программного обеспечения  Lamp в своем проекте MDLP(см. Experimental test III: (De)constructing ancestry with LAMP  и Experimental test: estimating ancestries at each locus in a population of admixed individuals (LAMP))). Хотя эксперименты и увенчались определенным успехом, я не был полностью удовлетворен результатами и решил отложить эксперименты с chromosome_painting на будущее. При этом я отметил для себя принципиальное различие между алгоритмами стратификации населения, реализованными в LAMP и программе ADMIXTURE.

Я уже обсуждал различия между LAMP и ADMIXTURE, но в целях иллюстрации идеи моего научного эксперимента, необходимо еще раз обратиться к моим предыдущим объяснениям :

1) Программное обеспечение Admixture реализует модель на основе подхода к оценке коэффициентов происхождения в качестве параметров статистических моделей. Важно также добавить, что модель подхода ADMIXTURE  основана на глобальной парадигме происхождения (т.е. целью анализа в программах ADMIXTURE / STRUCTURE  является оценка удельной доли генетического наследия каждой из предковых K-популяций, причем эта доля рассматривается как усредненная  по всему геному отдельно взятого индивида).

2) Программное обеспечение LAMP построено на эффективном динамическом алгоритме программирования Winpop, который исследует конкретное происхождение каждого из генетических локусов. В ходе выполнения рабочего цикла программы, анализируемый геном разбивается на перекрывающиеся сегменты-смежные «окна SNP» хромосом определенного генеалогического происхождения, причем степень вероятности модели оптимизируется в каждом из этих окон. Конечная цель — обнаружение границ дискретного хромосомного блока и назначение ему конкретного генографического происхождения.
Я понимаю, что проблема задана уже самой постановкой вопроса определения происхождения хромосомных сегментов. Мой опыт показывает, что методы, основанные на установлении конкретных локусных генеалогии, как правило, очень точны в деконволюции генотипных данных. Как уже было показано ранее, эти методы —  в сравнении с  более популярными статистическими методами, лучше справляются с задачей  за счет введения в модель более двух «предковых» популяций, а также за счет  моделирования путей рекомбинации между предковыми сегментов.

В июне 2012 года,  Jason Mezey Lab (Cornell University) выпустила SupportMix -ПО с  алгоритмом машинного обучения для определения предкового происхождения геномных сегментов при анализе отдельных лиц из популяций с недавней или древней историей «cмешения популяций». Что касается точности программного обеспечения, то согласно утверждению авторов,  SupportMix обеспечивает надежный инструментарий для точной и надежной оценки генографического происхождения предков. Как представляется, такой анализ будет иметь решающее значение для точного назначения предковых компонентов во многих из известных смешанных групп населения по всему миру; причем некоторые могут иметь совершено неожиданное происхождение,  ранее  неизвестное из антропологических и исторических исследований. Экспериментальные исследования показали, что точность реконструкции родословной по генетическим данным была ниже для близкородственных групп популяций, но выше, чем при использовании методов LAMP-АНC, которые, как был показано ранее, превосходят другие методы деконволюции происхождения.

Это слишком оптимистичный вывод повлиял на мою выбор между LAMP-АНС и SupportMix в пользу последнего. Честно говоря, я не первый геномный блоггер, который решил использовать Supportmix — в июле 2012 года Polako из проекта Eurogenes осуществил анализ  финнских геномов с использованием программы SupportMix. Я решил повторить этот эксперимент. Тем не менее, имеется существенная разница между анализом Polako и моим экспериментом. В то время как анализ Polako ограничивался использованием современных популяций в качетсве  «предполагаемых популяций-доноров», конечной целью моего проекта была имитация результатов долгожданного предстоящего обновления Ancestry Painting 23andMe (в начале декабря это приложение наконец-то обновилось, и теперь  предлогает более подробные результаты, основанные на приблизительно 20 мировых регионов, составленных как на основании генетических данных клиентов, так и ​​академических референсных групп. С этой целью, я использовал фиктивный набор из 22 моделируемых предполагаемых предковых популяций, симулированных в программе Plink на ччастотах аллелей 22 компонентов в моем калькуляторе World-22.

Эксперимент

SupportMix требует, по крайней мере, три входные файла. Один файл для каждой из предполагаемых предковых популяцій и один файл, содержащий генетическую информацию лиц смешенного требования. Генотипы  должны быть приведены в гаплоидную фазу. Каждая популяция должно быть представлено двумя файлами в форматах транпонированного Plink: TPED и TFAM.

В эксперименте я использовал 80 тысяч  генетических маркеров (80751 SNP), которые были предварительно похромосомно отфазированы с использованием дефолтных настроек в  программном обеспечении BEAGLE. В то время как оригинальный формат Plink не задает эксплицитный порядок аллелей в файле, SupportMix работает с фазированным данными, в которых порядок аллелей имеет решающее значение. Помятуя об этом, я преобразовал  отфазированные в BEAGLE данные непосредственно в TPED формате Plink, минуя тем самым предварительную обработку в Plink. После этого  я воспользовался  UNIX утилитами для обработки текста, чтобы извлечь генотипы из предковых популяций  в соответствующие подмножества (‘референсы’) и разделить выборку проект MDLP  (93 человек) на 9 подгрупп.

Наконец, я интерполировал генетическую дистанцию и положение каждого SNP вдоль хромосомы с использованием генетических карт Rutgers.
При запуске рабочего цикла SupportMix был использован конфигурационный файл с настройками по умолчанию: (window_size = 400, generations_from_admixture_event = 6).

После поэтапных запусков, был получен набор из «хромосомных мозаик» для всех 22 пар хромосом каждого из участников проекта.
Чтобы сделать сравнение с Ancestry Composition oт 23andme более наглядным, я путем нехитрых манипуляций в программе GIMP сообрал свой графический аналого Ancestry Composition, но на этот раз с использованием данных от SupportMix:

Хромосомная мозаика по данным от SupportMix.

Сравнение кастомной хромосомной мозаики с новой диаграммой Ancestry Composition/23andme

Как я уже упоминал выше, в начале декабря сего года, лаборатория 23andme благополучно разрешилась новым интерфейсом «хромосомной мозаики». Он выглядит примерно следущим образом (в режиме Speculative Estimates/ Vadim Verenich’s populations):

ac

Следует признать, что прямое сравнение двух графов — моего кастомного и нового графа от 23andme — вряд ли возможно, т.к мой граф более детальный и компоненты сгруппированы не по современному географическому признаку (как в 23andme), а по степени близости предковых популяций (компонентов).  Кроме того заметно, что степень детализации в 23andme ниже (за счет редукции мелких сегментов), поэтому многие участки сегментов, которые 23andme определяет как «балканские» оказываются на поверку состояющими из атлантическо-средиземноморского или ближневосточного компонента.  Северо-европейский компонент у  23andme частично перекрывается с мезолитическим-северо-европейским и северо-восточно-европейским компонентом в MDLP. И так далее.

Для лиц русского происхождения самой досадной промашкой следует признать отсутствие в 23andme специфических сибирских компонентов. Многие русские люди, особенно из северных и восточных регионов РФ имеет значительный процент сибирских генов. Неспоспособность Ancestry Сomposition уловить сигнал их присутствия должна критическим образом сказаться на результатах.