Подведение итогов экспериментов по неформальному моделированию адмикса в популяциях

Выполняю с небольшим опозданием данное ранее обещание и расскажу о слабых местах выявления процентов этнического происхождения с помощью анализа результатов ДНК-тестирования. Последние лет пять этот тип изучения этно-популяционного происхождения с привлечением данных генетики вошел в моду — в 2011 году, когда я первый раз провел подобный анализ существовало все 2 крупные компании в пакет клиентских услуг которых входило проведение подобных анализов клиентских данных. Ровно столько же было заметных в инете любителей, предлагающих более развернутый и разжеванный вариант подобного разбора этнопроисхождения добровольных участников своих проектов. Главным инструментым и тех и других являлись программы типа Admixture и STRUCTURE (разработанные академическими биоинформатиками для решения одной из задач популяционный генетики — а именно определения этнической субструктуры в структуре изучемых в ходе конкретного исследования национальной или региональной выборки народонаселения).
Прошло лет 6, я провел более тысячи подобных экспериментальных анализов — на принципиально разных выборках и образцах аутосомных снипов представителей разных народов. Каждый из таких экспериментов хотя бы немного отличался от других — и не только числом заранее заданных предковых компонентов этнических популяций, но и разнообразием самих этих популяций, их числом и качеством генетипированных в этих популяциях снипов, — например степенью сцепления снипов между собой, процентом минорных вариантов, количеством снипов, соотношение гомо- и гетерозиготных аллельных вариантов. На первом этапе основной проблемой являлась недостаточная представленность отдельных этносов в выборке вкупе с неполным совпадением популяций по числу генотипированных снипов
Позднее я частично научился обходить проблему за счет импутирования аллельных вариантов недостающих (негенотипированных) снипов по большим референсным панелям. В частности используемый Сергеем Козловым калькулятор K27 был сделан мною как раз с использованием таких импутированых вариантов.
Еще позже — после прорыва в области изучения палеоДНК — появилась возможность не угадывать предковые компоненты слепым перибором числка K (предковых компонентов), а задавать заведомо предковые популяции людей (жителей мезолита, неолита и бронзового века) в качестве чистых предковых популяций К современного народонаселения. Таков, например мой этнокалькулятор K11 Ancient, загруженный зимой этого года на Gedmatch.
Всего же за это время я разработал не менее 60 разных моделей в интервале от K=7 до K33, причем для многих K я разработал сразу несколько моделей.

Все эти модели (только калькуляторы; без инструментов поиска ближайших к тестируемому популяций) я размещаю в открытый доступ на OneDrive (ссылка открывается при нажатии на картинку). Эти файлы работают с программой DIYDodecad, инструкцию использования которой можно найти на сайте Диеникиса

























































Я решил подвести итог этому направлению своей деятельности, на которое ушло много сил, cредств и почти все мое свободное время. Вместо этого я переключусь на более точные формальные методы определения этнического происхождения, разработанный в генетической лаборатории Дэвида Райха из Гарварда.

Главная причина — в силу своего перфекционизма я не был доволен точностью определения частот конкретных предковых компонентов в состав генома отдельно взятых людей. Кроме того, этой зимой в ходе бесед с подобным же любителем насчет проблем Admixture, мы обнаружили ряд причин, приводящих при анализе данных отдельно взятых людей к странным и заведомо неверным комбинациям этнического раскалада предков.
Есть еще одна причина — перенасыщение данного маленького сегмента на рынке инетрпретации генетических данных. В настоящий момент существует уже целый ряд компаний (не менее дюжины), вышедших на рынок ДНК-генеалогии в относительно недавнее время. Каждая из них разработала свой алгоритм и красивый графический интерфейс для визуализации данных по прогнозируемому этнопроисхождению клиента. Увеличилось число крепких и активных любителей (я знаю не менее 10 таких людей), занимающихся в принципе тем же самым, причем иногда качества полученных ими моделей этнического происхождения выше таковых в коммерческих компаниях. Благодаря их усилиям, число доступных этнопопуляционных калькуляторов увеличилось буквально в разы.

Но перейдем к конкретике. Часто люди систематически получают странные результаты — таких примеров можно приводить много. Причем иногда такие странные и неверные расклады можно встретить в больших этнических сообществах — например у чеченцев стабильно в MyHeritage выскакивают в раскаладе предковых групп одинаковые 10-15% жителей Британских остров.
Этот, конечно, нелепый пример, отлично иллюстрирует первую проблемы, связанную с разделением выборки и клиентской базы на кластеры. В отличии от любителей; большинство коммерческих компаний (за исключенеим разве что FTDNA, где алгоритм опеределения процентов этнического происхождения разработал как раз любитель) не занимаются поисками настоящих предковых компонентов — вроде европейских охотников-собирателей, земледельцев и скотоводов бронзового века. Вместо этого все образцы популяций — преимущественно из академических источников — объединяются по географическому признаку в отдельные кластеры — например скандинавский или балканские кластеры. Кластеры задаются как условные предковые компоненты (их может быть довольно много — как например в компании AncestryDNA), якобы позволяющие в данном случае более точно выявить недавнее этнопопуляционное происхождение клиента. И что хуже всего в эти же кластеры включают данные самих клиентов — очень часто просто со слов клиента о своем этническом происхождении (как было в своем время в 23andme), хотя в последнее время в некоторых компаниях (AncestryDNAO) алгоритм усовершенствовали путем включения дополнительных фильтров для отсеивания (например с помощью определения в анализе главных компонентов резко отличающихся и резко выделяющихся в плане этнического происхождения клиентов). Тем не менее, даже самое методичное применение всевозможных дополнительных фильтров не может гарантировать повышение точности предика этнического происхождения. Проблема что в человеческих популяциях — за исключением небольшого количества изолированных задрейфованных популяций вроде нганасан, чукчей, ульчей, калашей, папуасов — ни в одной из этнических групп компоненты не являются дискретными, а представляют собой градиенты частот аллелей, очень часто с большим расбросом из-за чего хвосты частот распределния этих частот перекрываются. На практике этот феномен приводит к появлению в индивидуальных клиентских данных фантомных компонентов — например у европейцев часто появляются всевозможные невозможные компонентоы происхождения — Amerindian, Papuan, Onge и так далее. Подобный подход только вносит сумятицу или — говоря статистическим языком — шум в результаты.

Очевидно, что данная проблема связана с классической проблемой статистики — проблемой организации и подразделения выборки. Схожей по характеру проблемой являеется проблема разнообразия выборки используемой для определения компонентов происхождения. Очевидно, что очень сложно впихнуть все генетическое разнообразие человечества в относительно небольшую выборку — даже еслии ее размер достигает полмиллиона или больше образцов (как у 23andme). Проблема в сверхпредставленности отдельных этнических или квазиэтнических групп в подобных базах данных (западных европейцев, американцев, финнов, ашкеназов и так далее). При неравномерности выборки наблюдается другой классический статистический эффект — искажение результатов выборки в сторону наиболее представленных групп (как было в свое время в 23andme, когда наблюдался эффект сверхпредставленности евреев-ашкеназов в количестве так называех генетических совпаденцев).
Еще одна схожая проблема — в количестве совпадающих снипов (одинакового числа снипов) между тестируемыми индивидуальными образцами и референсными группами. Это проблема затрагивает, правда, только калькуляторы разработанные любителями на базе DIYDodecad — в алгоритмах коммерческих компаний число снипов в рефренсных популяциях и индивидуальных образцах одинаково, т.к. анализируются только те образцы, которые тестировались самой компанией. В вышеупомянутых же этнопопуляционных калькуляторах анализируемые всегда «кроссплатформены» — и если разработчик использовал для разработки калькулятора только те снипы, которые содержаться в чипах 23andme, тогда при анализе данных полученных в компаниях FTDNA или AncestryDNA совпадением снипов будет частичным (так как снипы генотипируемые в этих компаниях совпадают лишь частично). В итоге ситуация в которой сравниваются аллельные частоты снипов референсных популяций (полученные при одном количестве снипов) с аллельными частотами снипов индивида (полученные при совсем другом количестве снипов). Элементарная логика подсказывает что в таком случае будет наблюдаться искажение результатов в совершенно непредсказуемую сторону.
К счастью, у обеих проблем есть разумные решения. Число совпадающих снипов между чипами FTDNA, 23andme (разных версий) и AncestryDNA составляет примерно 300 000, что достатчно для создания калькуляторов приемлемых для анализа данных от всех этих компаний. Решение первой же проблемы тоже есть, но его стоимость немыслимо выскоа — необходимл использовать примерно несколько десятков миллионов ПОЛНЫХ геномов популяций людей со всего мира. Разумеется, никакие любители никогда в жизни не смогут собрать такое количество данных необходимых для создания сверхточных калькуляторов.

Все вышеперечисленные проблемы — сущая мелочь в сравнении с настоящими проблемами, обусловленными алгоритмической стороной вопроса. Дело в том, что все компании (и разумееися любители) — так или иначе — при вычислении аллельных частот в компонентах референсных популяций используют программы использующие парадигму Admixture/Structure. А они используют ML-алгоритмы, минимизирующие ГРУППОВЫЕ частоты аллелей между всеми образцами выборки, т.е. аллельные частоты ПОЛНОСТЬЮ зависят от состава исходной выборки, даже в случае так называемого supervised («обучаемого») анализа, в ходе которого некоторые популяции принимаются за исходные «чистые предковые группы». Поскольку в ранних версиях Admixture, отсутствовала опция фиксирования одной из вычисляемых матрицы (P- матрица аллельных частот снипов в каждом из гипотетических компонентов происхождения; Q-матрица — матрица индивидуальных коэффициентов вклада предковых компонентов в индивидуальный геном с общей построковой суммой в 100%), и практически все компании использовали один и тот же алгоритм (он в во всех подобных программх схож — хотя разняться его имплементации и способы оптимизации функции правдоподобия), то все они подвергнуты искажению истинных частот аллелей. Этот косяк вносит решающий вклад в появление фантомных компонентов происхождения.

То, что вычисленные таким способом значения (скажем русского) могут очень сильно отличаться в сравнении с индивидуальными частотами аллелей (для примера такого же русского из той же скажем Орловской области) — было впервые замечено геномным блоггером Polako.
К сожалению, в силу своем личной ненависти к первоначальному разработчику DIYDodecad — греку Диенекису Понтикосу — он не смог дать формальное объяснение феномена и назвал этот феномен «эффектом калькулятора» (как бы намекая на косорукость кода этой утилиты). На самом деле сам калькулятор здесь не причем — все дела в приниципиальных различиях между определение происхождения на основании частот аллелей вычисленных по группе образцов и тем же самым вычислением аллелей, но уже не в группе, а в индивидуальныом порядке. В этом легко убедиться самому — возьмите клиентские данные, например, норвежца. Вставьте его в большую выборку образцов (например 2000 человек) и прогоните в программе ADMIXTURE задав такое количество гипотетических предковых популяций (K), при котором становится заметна субструктура генофонда популяций на внутриконтинентальном уровне. А затем возьмите того же самого норвежца, но уже в единственном числе, и зафиксировав полученные в предыдущем шаге аллельные частоты в виде предковых популяций. Вы увидите, что различия между результатами анализа одних и тех же данных могут достигать 20 а то и более процентов. Это-то и есть ядро так называемого пресловутого эффекта калькулятора. Очевидно, что и Оракул (т.е. инструмент определения ближайших к клиенту этнических популяций а также моделирования происхождения клиента через набор из 2, 3, 4 популяций) в этом случае (искаженных аллельных частот) будет искусственно создавать фантомные предковые популяций. Например, у русского из Владимирской области могут появиться в качестве шведы,
эстонцы или англичане из Кента.

Строго говоря, первым написал об этой проблема некий Vikas Bansal — автор программы iAdmix:

«For comparison, we also ran ADMIXTURE (in supervised mode using the HapMap reference panel of individuals) on the same dataset (see Figure 1(b)). The European and African admixture estimates for each individual were highly consistent between the two methods. For some individuals, the European component of ancestry using our method was split between the TSI and CEU populations. This could reflect one important difference between the two methods in how they use data from reference individuals. Our method finds a maximum likelihood estimate of the admixture coefficients for each individual using the fixed set of allele frequencies. In contrast, ADMIXTURE, in the supervised mode, utilizes data for all individuals (both the reference populations and the individual(s) being analyzed) to estimate the allele frequencies for each cluster or population and maximize the likelihood function summed across all individuals. Therefore, the allele frequencies are determined not only by the genotypes of the reference individuals but also by the individual(s) that are analyzed for admixture. To confirm this, we estimated allele frequencies by running ADMIXTURE twice: (1) using 800 reference individuals simulated using allele frequencies for 8 HapMap populations (100 individuals per population, see previous section) and (2) 800 reference individuals and 1 additional individual with 100% CEU ancestry simulated using the HapMap allele frequencies. Subsequently, we used our method to estimate admixture coefficients for the simulated CEU individual using the two sets of allele frequencies separately. We found that using the first set of allele frequencies, the admixture coefficients for both CEU and TSI were non-zero. In contrast, using the second set of allele frequencies, only the CEU admixture coefficient was non-zero. This was similar to the results observed in the analysis of the Mozabite data and provided an empirical validation of our hypothesis regarding the difference in the admixture coefficients estimated by the two methods.»

SNPweights: использование модели калькулятора K16 для анализа главных компонентов происхождения

Ранее я уже отрапортовал о создании двух новых моделей для стандартного этно-популяционного калькулятора, в разработке которых использовались геномы людей, cамостоятельно указавшими свое происхождение (self-reported ancestry).
К сожалению, очень часто субъективная оценка собственного происхождения (указываемого респондентами в опросниках) недостаточно надежна для статистических методов анализа происхождения, поскольку некоторые люди либо сообщают ложные сведения о своей родословной или же просто не знают о своем истинном происхождении. Что еще хуже, — во многих публичных популяционных выборках мы не находим никаких  сведений о точном этническом составе людей в выборке . Как многие из вас знают,  существует множество способов достаточно точной оценки происхождения индивида на основе данных SNP генотипирования.

Самый простой способ сводится к следующему: сначала исследователь объединяет генотипы из своего исследования с генотипами образцов в референсной панели (например: HapMap или 1000 геномов),  затем находит пересечение SNP-ов в каждом наборе данных, а затем запускает программу кластеризации, чтобы увидеть, каким образом образцы исследования группируются с популяциями референсных панелей.  В принципе,  сам процесс несложный, но требует немало времени

К счастью, в 2014 году лабораторией Alkes была предложена программа которая, по сути, значительно облегчает процесс, выполняя большую часть работу за вас. Программа называется SNPWEIGHTS и можно скачать здесь.  Говоря простым языком, программа принимает  в качестве входных данных генотипы SNP-ов, самостоятельно находит пересечение генотипов SNP с генотипами в эталонной выборке , рассчитывает веса SNP-ов на основе предварительно настроенных параметров, чтобы построить первую пару главных компонентов (иначе говоря,  cобственных векторов), а затем вычисляет процентное значение происхождения индивидуума из каждой предковой популяции (кластера).

Для того, чтобы запустить программу, необходимо убедится в том, что в вашей системе установлен Python, и что ваши данные генотипирования приведены в формате EIGENSTRAT. Краткую инструкции по преобразованию в формат EIGENSTRAT с помощью инструмента convertf можно почитать здесь.  Данные аутосомного генотипирования FTDNA или 23andme можно напрямую преобразовать в формат EIGENSTRAT с помощью утилиты aconv от Феликса Чандракумара (либо любого самописного софта).

Затем необходимо загрузить сам пакет SNPWEIGHTS и референтную панель с весами снипов.

  • Панель весов SNP для популяций Европы и Западной Африки можно скачать здесь.
  • SNP веса для населения Европы, Западной Африки и  Восточной Азии можно скачать здесь.
  • SNP веса для населения Европы, Западной Африки, Восточной Азии и популяций американских индейцев можно скачать здесь.
  • SNP веса для популяций северо-западной, юго-восточной части Европы, ашкеназских евреев и можно скачать здесь.

Затем необходимо создать файл параметров par.SNPWEIGHTS с названиями входных файлов EIGENSTRAT, референтной панели, и файл c результатами. Например:

input_geno: data.geno
input_snp: data.snp
input_ind: data.ind
input_pop: CO
output: ancestry.txt

И, наконец, нужно запустиь программу с помощью команды inferancestry.py —par par.SNPWEIGHTS. Для того чтобы программа работала, убедитесь, что inferancestry.info и  файл референтной панели  находятся в том же каталоге, что и файл inferancestry.py.

Полученные результаты можно использовать для разных целей. Например,  можно сгенерировать два информативные графика.

Первый график — обычный график PCA c двумя первыми компонентами (собственными векторами) и наложенный на график процентный расклад компонентов происхождения:

Второй треугольный график, на каждом отрезке которого , представлен процентный вклад одной из трех исконных групп популяции (например: Европы, Африки и Азии, в случае с нашими данными этот пример можно заменить на европейских охотников-собирателей, земледельцев неолита и степных скотоводов эпохи бронзы).

Вот простой код генерирования этих графиков в R. В программе R нет базовых пакетов для построения триангулярных графиков, поэтому  нужно будет сначала установить пакет plotrix. Ancestry.txt  — это файл полученный на выходе из SNPWEIGHTS:

# EV Plot with Percent Ancestry Overlay
data=read.table("ancestry.txt", as.is=T, header=F)
names(data)
plot(data$EV1, data$EV2, pch=20, col="gray", xlab="EV1", ylab="EV2")
text(data$EV1, data$EV2,labels=round(data$EUR,2)100, cex=0.4, offset=0.1, pos=3)
text(data$EV1, data$EV2,labels=round(data$AFR,2)
100, cex=0.4, offset=0.1, pos=2)
text(data$EV1, data$EV2,labels=round(data$ASN,2)*100, cex=0.4, offset=0.1, pos=1)
#Triangle Plot
data$total=data$EUR+data$AFR+data$ASN # Need to account
data$European=data$EUR/data$total # for slight rounding
data$African=data$AFR/data$total # in the ancestry
data$Asian=data$ASN/data$total # estimation file for
data_p=data[c("European","Asian","African")] # triax.plot to work
library(plotrix)
triax.plot(data_p, pch=20, cc.axes=T, show.grid=T)

 

Разумеется, размещенные на сайте разработчика референтные панели носят ограниченный характер. Поэтому я решил заполнить пробелы, преобразовав аллельные частоты SNP-ов в 16 предковых компонентах в 16 синтетических «чистых» предковых популяций, каждая из которых состояла из 200 синтетических индивидов («симулянтов») состоящих на 100 процентов из одного компонента происхождения в модели K16). Файл с генотипами 3200 «симулянтов» я использовал для вычисления весов снипов в каждом компоненте. Продвинутые пользователи, желающие протестировать модель K16 до ее публичного релизма, могут скачать полученный файл с весами снипов  здесь, а затем, cледуя приведенным выше инструкциям, использовать его в качестве референтной панели (а затем сравнить свои результаты с усредненными результатами разных этнических популяций).

Я протестировал веса снипов в модели K16 (выражаю признательность автору программу Чену за помощь), и обнаружил, что между данными калькулятора и данными SNPWEIGHTS расхождения носят незначительный характер, хотя похоже, что SNPWEIGHTS не так сглаживает минорные компоненты происхождения (что позволяет легче выделить в пространстве главных компонент кластеры):

test (1)

Две новые модели для калькулятора DIYDodecad

Закончил на 99% подготовку 2 моделей этно-популяционных калькуляторов ДНК — заточенную под deep ancestry (анализ современных геномов с использование древних геномов) K11 и модель для анализа популяционного происхождения современных популяций K16.

 

В число 16 «предполагаемых предковых» популяций в K16 входят следующие выделенные группы:

Австрало-веддоидная
Палеолитические охотники-собиратели Кавказа
Американские аборигены
Охотники-собиратели скандинавского мезолита
Австронезийцы
Ближневосточные неолитические земледельцы
Сибирские аборигены
Ближне-восточные популяции
Североафриканские популяции
Популяции западной Африки
Северные популяции Индостана
Юго-восточноазиатские популяции
Восточные охотники-собиратели
Неолитическое население Европы
Восточно-африканские популяции
Западноевропейские охотники-собиратели

 

Таблица FST между компонентами K11 (FST — Индекс фиксации Райта Fst, отражающий меру дифференциации популяций)

Кластеризация компонентов модели K11 по степени дифференциации

Таблица FST между компонентами K16

Кластеризация компонентов модели K16 по степени дифференциации

 

На следующем PCA графике отображены 2 группы компонентов — предковые компоненты K16 (полученные в программе ADMIXTURE в ходе анализа современных популяций) и предковые компоненты K11 (они вычислены в той же программе, но на другой выборке аутентичных палеогеномов). Поскольку у пользователей подобных калькуляторов часто возникает вопрос о соотношении компонентов разных моделей калькуляторов, я решил разместить их на одном графике. Методология довольно проста. Сначала я сгенерировал в программе PLINK 220 «синтетических» геномов (20 индивидов в 11 группах). В основу положен предложенный Понтикосом метод популяционных «zombies», в котором используется частоты аллелей снипов, полученных в программе ADMIXTURE. Каждая из 11 групп состоит из 20 «индивидов», геном которых на 100% состоит из одного компонента.
То же самое я сделал с компонентами K16. Затем в целях изучения соотношения компонентов этих двух разных моделей, я пропустил «геномы синтетических индивидов» K16 через калькулятор K11. В итоге выяснилось, что только несколько компонентов K16 полностью совпадают с компонентами K11 (например, Amerindian и African). Остальные компоненты K16 разложились на комбинации компонентов K11. Этот простой эксперимент еще раз подтвердил очевидный факт: предковые компоненты ADMIXTURE, выявленные в ходе анализа современных популяций только в редких случаях соответствуют настоящим предковым компонентам. Большинство подобных компонентов возникают в результате сложного процесса фиксации аллельных частот, например в тех случаях, когда непосредственно после смешивания предковых групп разного происхождения происходит процесс генетического дрейфа. Закон Харди—Вайнберга утверждает, что в теоретической идеальной популяции распределение генов будет оставаться постоянным из поколения в поколение. Так, в популяции растений количество «внуков» с генами высокорослости будет ровно таким же, сколько было родителей с этим геном. Но в реальных популяциях дело обстоит иначе. Из-за случайных событий частота распределения генов из поколения в поколение несколько варьирует — это явление называется дрейфом генов. Рассмотрим крупную размножающуюся популяцию со строго определенным распределением аллелей. Представим, что по той или иной причине часть этой популяции отделяется и начинает формировать собственное сообщество. Распределение генов в субпопуляции может быть нехарактерным для более широкой группы, но с этого момента и впредь в субпопуляции будет наблюдаться именно такое, нехарактерное для нее распределение. Это явление называется эффектом основателя.Дрейф генов сходного типа можно наблюдать и на примере явления с запоминающимся названием эффект бутылочного горлышка. Если по какой-либо причине численность популяции резко уменьшится — под воздействием сил, не связанных с естественным отбором (например, в случае необычной засухи или непродолжительного увеличения численности хищников), быстро появившихся и затем исчезнувших, — то результатом будет случайное устранение большого числа индивидуумов. Как и в случае эффекта основателя, к тому времени, когда популяция вновь будет переживать расцвет, в ней будут гены, характерные для случайно выживших индивидуумов, а вовсе не для исходной популяции.

PCA correlation between K11 and K16 components Вот эта таблица с усредненными значениями «симулянтов» компонентов K16 в калькуляторе K11 (колонки — компоненты K16, столбцы — компоненты K11, их пересечения — проекция компонентов K16 в компоненты K11).

Для облегчения понимания сказанного, приведу немного теории. Начну с основ.

Определение базовых терминов

ADMIXTURE (буквально: примесь) – это компьютерная программа (анализ), позволяющая выявлять смешанность состава некоего набора индивидов на основе данных о генотипах и тем самым строить предположения о происхождении популяции.

Принцип работы ADMIXTURE.

Рассмотрим принцип работы ADMIXTURE на примере образцов и популяций из проекта HapMap.

Всего у нас N = 324 образца/индивида, каждый из которых относится к одной из четырех нижеперечисленных популяций:

АФРИКА (ASW) – Африканские предки из Юго-Западной части США
ЮТА (CEU) – жители штата Юта США с корнями из Северной и Западной Европы
МЕКСИКА (MEX) – Мексиканцы, Лонг-Айленд США
ЙОРУБА (URI) – Йоруба, Нигерия
Для удобства дальнейшего изложения будем называть эти популяции «известными».

Также мы предполагаем, что они произошли от К разных предковых популяций (мы не знаем от каких именно). В дальнейшем будем называть эти предковые популяцие «предполагаемыми предковыми». Этих «предполагаемых предковых» популяций на самом деле не существует, у них нет общепризнанных названий и характеристик. И на этом этапе мы даже не знаем какие образцы к какой из этих К популяций могут быть отнесены. Теоретически возможно, что образцы из одной и той же «известной» популяции могут принадлежать к двум разным «предполагаемым предковым» популяциям.

Пример 1.

Предположим, что К = 3.

ADMIXTURE далее работает с образцами (их генотипами) и заданным нами числом К = 3. Имея сведения о генотипах и предположение о количестве «предполагаемых предковых» популяций (К) ADMIXTURE строит свою модель (предположение) того, каков вклад каждой из «предполагаемых предковых» популяций в каждый индивид. В результате мы имеем для каждого индивида 3 цифры: количественный вклад каждой из трех популяций (или образно говоря, на сколько процентов данный индивид состоит из первой «предполагаемой предковой» популяции, на сколько – из второй и на сколько – из третьей). При этом может быть и такая ситуация, что у конкретного индивида в составе отсутствует какая-то из «предполагаемых предковых» популяций, даже возможно, что он принадлежит только к одной из «предполагаемых предковых» поуляций. Предположим, для индивида №1 эти цифры такие: 0.3, 0.5 и 0.2. Что эти цифры означают? Означают они доли каждой из «предполагаемых предковых» популяций (ППП) в индивиде №1, т.е. индивид состоит на 30% из первой ППП, на 50% — из второй и 20% — из третьей. Чем больше вклад каждой ППП в индивида, тем больше индивид является «носителем» данной популяции и ее представителем.
Так называемый этно-популяционный калькулятор ДНК представляет собой инструмент, позволяющий использовать заранее определенные (вычисленные) компоненты этнического происхождения K для определения той комбинация исходных предковых компонентов дает наилучшее соответствие (аппроксимирует) происхождение носителя тестируемой ДНК.

При создании калькулятора ДНК в основу берется определенная модель (например, задается исходное число компонентов или состав референсной выборки), что неизбежно приводит к определенным уступкам в плане точности и проявлению слабых сторон модели. Например, часто люди критикуют подобные модели калькуляторов за излишнюю европоцентричность и недостаточную представленность геномов из других мест, или же используемые для определения компонентов происхождения выборки данных по отдельным популяциям слишком малы для определения сложной субструктуры генофонда референсной популяции. Наконец, более грамотные люди указывают на отсутствие необходимо инструментария (например, формальной статистики) для проверки статистической значимости определенных компонентов в отдельных моделях калькулятора.
Движок обеих калькуляторов — все та же программа DIYDodecad, После того, как ппрограммма ДНКа калькулятора выдаст первичные результаты — процентное распределение компонентов этно-популяционного происхождения в изучаемом геноме, можно будет перейти к вторичному анализу. Суть его проста — зная процентную комбинацию компонентов происхождения в своем геноме, довольно просто смоделировать свой геном в виде смеси нескольких референсных популяций.

Поэтому, в отличие от предыдущих релизов, K11 и K16 будут включать в себя дополнительный контент:

1) классический Oracle, позволяющий смоделировать анализируемый «геном» (точнее, набор из 100-200 тысяч информативный снипов) в виде комбинации двух референсных популяций, а также установить группу генетически ближайших референсных популяций к геному изучаемого индивида. Однако этот инструмент не может быть использован в случае сложного смешанного происхождения (например, когда изучаемый индивид происходит из более чем двух разных этнических популяций). Иногда программа выдает довольно глупые комбинации, cущественным образом понижая достоверность результатов. Впрочем основное преимущество Oracle и состоит в том, что программа предлагает вместо окончательного «простого» решения список альтернативных вариантов.

Пример: в качестве примера я буду использовать собственные данные.
Исходя из полученных в модели K16 значений компонентов, мой условный наиболее близок к восточнославянским популяциям
«Ukrainian-Center» «2.5884»
«Pole» «3.0962»
«Sorb» «3.1733»
«Polish_West» «3.5992»
«Russian-North-West» «3.7265»
«Russian_Smolensk» «3.834»
«Polish» «4.0348»
«Belarusian_EastBelarus» «4.0852»
«Belarusian_WestBelarus» «4.1216»
«DonKuban_cossack» «4.7769»

В комбинированном варианте двух смешанных популяций распределение предковых компонентов происхождения может быть аппроксимировано следующими комбинациями:

«65.8% Belarusian_EastBelarus + 34.2% Norwegian» «1.1023»
«66.4% Belarusian_EastBelarus + 33.6% Icelandic» «1.1118»
«80.9% Latvian + 19.1% Spanish_Baleares_IBS» «1.1154»
«30% French + 70% Lithuanian» «1.1206»
«29% French + 71% Latvian» «1.1215»
«55% French_West + 45% Lithuanian_Zemajitia» «1.1302»
«28.9% French_East + 71.1% Latvian» «1.1402»
«29% French_Northwest + 71% Latvian» «1.1563»
«72.3% Belarusian_EastBelarus + 27.7% Orcadian» «1.1766»
«57.2% European_Utah + 42.8% Lithuanian_Zemajitia» «1.1825»

Основная часть генома — условно славяно-балтийская (что ожидаемо), но с существенным сдвигом в сторону Скандинавии и западной Европы(примерно 20-30%). Скорее всего, это наследие готов, или контактов балтийских племен с викингами. Интересно, что модель K11 (c использованием современных референсных популяций) дает примерно такой же расклад — разве что древний скандинавско-германский пласт выражен чуть резче чем в модели K16

«Belarusian_West» «2.3841»
«Belarusian» «2.4187»
«Pole_Poland» «2.5278»
«Belarusian_East» «3.7288»
«Russian_Central» «3.7635»
«Swede» «3.9724»
«Russian_cossack» «4.1139»
«Ukrainian» «4.2647»
«Russian_Southern» «4.5204»
«Ukrainian_East» «4.8635»
«66.6% Icelandic + 33.4% Latvian» «1.586»
«41.1% Latvian + 58.9% Orcadian» «1.5898»
«47.9% Lithuanian + 52.1% Orcadian» «1.6007»
«60.2% Icelandic + 39.8% Lithuanian» «1.6082»
«5.7% Basque_Spanish + 94.3% Belarusian» «1.6386»
«5.8% Basque_French + 94.2% Belarusian» «1.6406»
«67.2% Belarusian + 32.8% Swede» «1.659»
«40.2% Lithuanian + 59.8% Norwegian» «1.6876»
«33.7% Latvian + 66.3% Norwegian» «1.689»
«94.1% Belarusian + 5.9% Spanish_Pais_Vasco_IBS» «1.7359

В палеокалькуляторе K11 (т.е. с древними геномами) картинка кажется более убедительной

«Unetice_EBA» «2.7065»
«Bell_Beaker_Czech» «5.0633»
«British_AngloSaxon» «5.1998»
«Nordic_LN» «5.6157»
«Corded_Ware_Proto_Unetice_Poland» «6.3751»
«Nordic_MN_B» «6.3865»
«Halberstadt_LBA» «6.4422»
«BenzigerodeHeimburg_LN» «7.4695»
«Nordic_IA» «7.5404»
«Corded_Ware_Estonia» «7.7635»

Из всех палеогеномов наиболее близок к моему геном представителя унетицкой культуры. Происхождение унетицкой культуры до сих пор не выяснено. Между позднейшими энеолитическими культурами и унетицкой культурой существует типологический и хронологический разрыв. Наибольшее признание в результате последних исследований получило предположение, согласно которому в ее возникновении главную роль сыграли культура колоколовидных кубков и надиревская культура, распространенная в Венгрии (см. ниже). У культуры колоколовидных кубков и унетицкой имеется сходство в керамике, в погребальном обряде и в орудиях труда. Небольшую роль могла сыграть культура шнуровой керамики, хотя в целом они очень различаются. Закономерно, что следующими — хотя и с большим отрывом — близкими к моему геному группами палеогеномов являются геномы древних англосаксов (которые близки к древним скандинавам) и представителей чешского ареала культуры колоковидных кубков).
Аналогично, в режиме смешенных популяций хорошо заметны две тенденции. Во-первых, мой геном может быть представлен в виде комбинации палеогенома представителя позднебронзового века (Хальберштадт) и палеогеномов восточных охотников-собирателей эпохи энеолита, во-вторых как смесь 23.4% генома представителей балтийской позднебронзовой эпохи и все того же позднебронзового палеогенома из Хальберштадта

«86.4% Halberstadt_LBA + 13.6% Karelia_HG» «2.139»
«74.1% Bell_Beaker + 25.9% LesCloseaux13_Mesolithic» «2.1574» «35.9% Hungary_BA + 64.1% Poltavka_MBA_outlier» «2.319»
«65.7% Halberstadt_LBA + 34.3% Poltavka_MBA_outlier» «2.4387»
«83.2% Alberstedt_LN + 16.8% Karelia_HG» «2.443»
«23.4% Baltic_LBA + 76.6% Halberstadt_LBA» «2.4846»
«16.7% Europe_MN + 83.3% Poltavka_MBA_outlier» «2.4897»
«83.4% Halberstadt_LBA + 16.6% Samara_Eneolithic» «2.536»
«12.9% Halberstadt_LBA + 87.1% Unetice_EBA» «2.5603»
«16.1% Bell_Beaker_Czech + 83.9% Unetice_EBA» «2.5747»

2) файлы модели K11 и K16 для более сложной программы 4Admix (разработанной Александром Бурнашевом). Вторым инструментом вторичного анализа является 4Mix. Он работает по методу brute-force, шаг за шагом перебирая все возможные комбинации, а по окончанию цикла программа возвращает результат с наименьшим евклидовым расстоянием (по выбору можно использовать гауссово сглаживание, снижающее случайный статистический шум результатов). Как и в классическом Oracle, комбинация cмешиваемых этнических групп не может содержать более 4 популяций, хотя в отличие от классического Oracle, программа может моделировать комбинации из 3 и 4 этнических групп.

Пример. Приведу пример этих 3- и 4-членных аппроксимаций. В принципе, все то же самое, c той лишь разницей что теперь программа выделяет в комбинациях балтийскую и славянскую составляющую. Интересно, что скандинавская составляющая никуда не исчезла, оставаясь в пределах 20-25%
Using 3 populations approximation:
1 50% Belarusian_EastBelarus +25% English_Kent_GBR +25% Latvian @ 0.973956
2 50% Belarusian_EastBelarus +25% English_Kent_GBR +25% Lithuanian @ 0.988467
3 50% Latvian +25% French +25% Balt @ 1.036492
4 50% Lithuanian_Zemajitia +25% French +25% Irish_Connacht @ 1.05259
5 50% Lithuanian +25% Sorb +25% French_West @ 1.059638
6 50% Belarusian +25% Icelandic +25% French_West @ 1.06158
7 50% Lithuanian_Zemajitia +25% French +25% Irish_Cork_Kerry @ 1.074796
8 50% Lithuanian_Aukstajtia +25% French_East +25% Irish_Connacht @ 1.076771
9 50% Lithuanian_Zemajitia +25% French +25% Irish_Ireland @ 1.078576
10 50% Belarusian +25% Norwegian +25% French_West @ 1.079741
11 50% European_Utah +25% Lithuanian_Zemajitia +25% Balt @ 1.084317
12 50% Dane +25% Belarusian_EastBelarus +25% Lithuanian_Aukstajtia @ 1.090086
13 50% Lithuanian_Zemajitia +25% French +25% Scottish_Highlands @ 1.093951
14 50% Lithuanian +25% North_European +25% Sorb @ 1.103744
15 50% Lithuanian_Aukstajtia +25% English_GBR +25% French_Northwest @ 1.105369
16 50% Lithuanian_Zemajitia +25% French +25% Scottish_Grampian @ 1.106616
17 50% Lithuanian_Aukstajtia +25% French_Northwest +25% Irish_Connacht @ 1.106771
18 50% Lithuanian_Aukstajtia +25% French_Northwest +25% Scottish_Dumfries_Galloway @ 1.108261
19 50% Lithuanian +25% French_West +25% Polish_West @ 1.113695
20 50% Latvian +25% North_European +25% Sorb @ 1.115164
31501779 iterations.
Using 4 populations approximation:
1Belarusian_EastBelarus+Lithuanian_Zemajitia+Swede+French_West @ 0.947002
2Belarusian_EastBelarus+English_Kent_GBR+Lithuanian_Aukstajtia+Sorb @ 0.971605
3Belarusian_EastBelarus+Belarusian_EastBelarus+English_Kent_GBR+Latvian @ 0.973956
4Belarusian_EastBelarus+English_Kent_GBR+Lithuanian_Aukstajtia+Polish_East @ 0.986863
5Belarusian_EastBelarus+Belarusian_EastBelarus+English_Kent_GBR+Lithuanian @ 0.988467
6 French+Lithuanian_Zemajitia+Swede+Balt @ 0.98916
7Belarusian_EastBelarus+English_Kent_GBR+Lithuanian_Aukstajtia+Polish @ 0.996302
8 Belarusian+Lithuanian_Aukstajtia+Shetlandic+French_West @ 1.010485
9 Belarusian+Lithuanian_Zemajitia+Irish_Ulster+French_West @ 1.01227
10 Belarusian+Lithuanian_Zemajitia+French_West+Irish_Ulster @ 1.012977
11 Belarusian_EastBelarus+Lithuanian_Aukstajtia+Swede+Welsh @ 1.013043
12Belarusian_EastBelarus+European_Utah+Lithuanian_Aukstajtia+Swede @ 1.013805
13Belarusian_EastBelarus+Lithuanian_Aukstajtia+Swede+French_West @ 1.018296
14German_NorthGermany+Lithuanian_Aukstajtia+Balt+French_West @ 1.026503
15 Lithuanian_Aukstajtia+Sorb+Ukrainian-Center+French_West @ 1.027473
16 Belarusian+Lithuanian_Zemajitia+French_West+Irish_Connacht @ 1.031967
17Belarusian+Lithuanian_Zemajitia+French_West+Irish_Cork_Kerry @ 1.035716
18 French+Latvian+Latvian+Balt @ 1.036492
и т.д.
То же самое, но в модели K11
Using 3 populations approximation:
1 50% Poltavka_MBA_outlier +25% Halberstadt_LBA +25% Hungary_BA @ 2.031302
2 50% Poltavka_MBA_outlier +25% Bell_Beaker_Czech +25% Hungary_BA @ 2.072453
3 50% British_AngloSaxon +25% Halberstadt_LBA +25% Poltavka_MBA_outlier @ 2.125791
4 50% Bell_Beaker +25% Bell_Beaker +25% LesCloseaux13_Mesolithic @ 2.209118
5 50% Halberstadt_LBA +25% British_AngloSaxon +25% Poltavka_MBA_outlier @ 2.244371
6 50% Halberstadt_LBA +25% Hungary_BA +25% Samara_HG @ 2.270667
7 50% Halberstadt_LBA +25% Poltavka_MBA_outlier +25% Unetice_EBA @ 2.291406
8 50% Poltavka_MBA_outlier +25% British_AngloSaxon +25% Hungary_BA @ 2.30791
9 50% Bell_Beaker_Czech +25% Hungary_BA +25% Samara_HG @ 2.356281
10 50% Halberstadt_LBA +25% Nordic_BA +25% Poltavka_MBA_outlier @ 2.358744
11 50% Bell_Beaker +25% Hungary_BA +25% Karelia_HG @ 2.369978
12 50% Bell_Beaker_Czech +25% Nordic_BA +25% Poltavka_MBA_outlier @ 2.385823
13 50% Halberstadt_LBA +25% Corded_Ware_Germany +25% Nordic_BA @ 2.490915
14 50% Poltavka_MBA_outlier +25% Hungary_BA +25% Unetice_EBA @ 2.503754
15 50% British_AngloSaxon +25% Bell_Beaker_Czech +25% Poltavka_MBA_outlier @ 2.53217
16 50% Halberstadt_LBA +25% Baltic_LBA +25% Halberstadt_LBA @ 2.540751
17 50% Hungary_BA +25% Poltavka_MBA_outlier +25% Samara_HG @ 2.551414
18 50% Poltavka_MBA_outlier +25% Alberstedt_LN +25% Hungary_BA @ 2.561557
19 50% British_AngloSaxon +25% Poltavka_MBA_outlier +25% Unetice_EBA @ 2.575398
20 50% Bell_Beaker_Czech +25% British_AngloSaxon +25% Poltavka_MBA_outlier @ 2.575919
1127348 iterations.
Using 4 populations approximation:
1 Halberstadt_LBA+Hungary_BA+Poltavka_MBA_outlier+Poltavka_MBA_outlier @ 2.031302
2 Halberstadt_LBA+Nordic_BA+Poltavka_MBA_outlier+Unetice_EBA @ 2.03713
3 Bell_Beaker_Czech+Hungary_BA+Poltavka_MBA_outlier+Poltavka_MBA_outlier @ 2.072453
4 British_AngloSaxon+Halberstadt_LBA+Poltavka_MBA_outlier+Unetice_EBA @ 2.088049
5 British_AngloSaxon+British_AngloSaxon+Halberstadt_LBA+Poltavka_MBA_outlier @ 2.125791
6 British_AngloSaxon+Halberstadt_LBA+Hungary_BA+Samara_HG @ 2.131526
7 Bell_Beaker_Czech+Halberstadt_LBA+Hungary_BA+Samara_HG @ 2.14648
8 Bell_Beaker+Bell_Beaker+Bell_Beaker+LesCloseaux13_Mesolithic @ 2.209118
9 Bell_Beaker_Czech+Halberstadt_LBA+Nordic_BA+Poltavka_MBA_outlier @ 2.209365
10 Bell_Beaker_Germany+British_AngloSaxon+Hungary_BA+Samara_HG @ 2.212982
11 Bell_Beaker_Czech+Bell_Beaker_Germany+Hungary_BA+Samara_HG @ 2.232922
12 British_AngloSaxon+Halberstadt_LBA+Halberstadt_LBA+Poltavka_MBA_outlier @ 2.244371
13 British_AngloSaxon+Halberstadt_LBA+Nordic_BA+Poltavka_MBA_outlier @ 2.254756
14 Alberstedt_LN+British_AngloSaxon+Hungary_BA+Samara_HG @ 2.255589
15 Bell_Beaker_Czech+British_AngloSaxon+Halberstadt_LBA+Poltavka_MBA_outlier @ 2.256027
16 Halberstadt_LBA+Halberstadt_LBA+Hungary_BA+Samara_HG @ 2.270667

3) новым инструментом в релизе будет R программа nMonte, разработанная голландцем Гером Гизбертом. В отличие от двух предыдущих инструментов (ограниченных в числе используемых для моделирования этнических групп), nMonte позволяет использовать для моделирования (аппроксимации) генмоа все референсные грппы. Программа использует алгоритм эволюционного моделирования по методу Монте-Карло.
После пошагового добавления новой популяции программа определяет уменьшается ли евклидово расстояние; если да, то шаг сохраняется, в противном случае шаг отклоняется. Алгоритм завершает свою работу после выполнения примерно миллиона шагов. Как и два предыдущих инструмента программа стремится к минимализации евклидова расстония; но похоже за счет использования метода Монте-Карло, алгоритм гораздо более эффективен. И, также, как и в других инструментах, в nMonte «наилучшая комбинация» определяется как комбинация с наименьшим расстоянием. Недостаток же nMonte состоит в том, что она выдает только наилучшее подходящее решение, в то время как Oracle представляет альтернативные варианты.
Пример. Посмотрим, сколько потенциальных предковых популяций выдаст nMonte при аппроксимации моего генома.
При первом запуске программа выдала комбинацию (в cкобках процентный вклад референсной популяции) следующих 65 популяций. Также как и в других инструментах, тон задают балтийские популяции, а также белорусы, сорбы и поляки.

Lithuanian_Zemajitia 10.1
Latvian 7.85
Lithuanian_Aukstajtia 7.85
Belarusian_SouthBelarus 6.55
Lithuanian 6.5
Pole 5.45
Belarusian_WestBelarus 4.8
Balt 4.35
Sorb 3.35
Belarusian 3.05
Belgian 3
Norwegian 2.95
Czech 2.75
Dane 2.5
Slovak 2.4
Icelandic 1.9
Swede 1.9
French_SouthFrance 1.5
Slovenian 1.5
Basque_Spanish 1.3
Frisian 1.15
German_NorthGermany 1.1
Sardinian 1.1
Polish_East 1.05
Ukrainian_WestUkraina 1
Polish 0.95
Basque_French 0.9
Orcadian 0.7
Spanish_Pais_Vasco_IBS 0.7
Hungarian 0.65
Irish_Connacht 0.65
DonKuban_cossack 0.6
Dutch 0.6
Ukrainian_EastUkraina 0.6
Scottish_Argyll_Bute_GBR 0.55
European_Utah 0.5
English_GBR 0.45
Croatian 0.4
Russian-Pskov 0.4
French_South 0.4
Welsh 0.35
Irish_Ulster 0.35
Scottish_Fife 0.3
German_SouthGermany 0.25
Scottish_Dumfries_Galloway 0.25
Belarusian_CentralBelarus 0.2
Datog 0.2
English_Cornwall_GBR 0.2
North_European 0.2
Ukrainian 0.2
Russian_Orjol 0.15
Afar 0.1
Belarusian_EastBelarus 0.1
English_Kent_GBR 0.1
Irish 0.1
Kambera 0.1
Russian_Smolensk 0.1
Vindija 0.1
Belarusian-East 0.1
Spanish_Canarias_IBS 0.1
Spanish_Cantabria_IBS 0.1
Spanish_Cataluna_IBS 0.1
Peruvian 0.05
Russian_Voronezh 0.05

В K11 показаны следующие палеогеномы (или их группы). По-прежнему, основа генома 40% моделируется как геном представителя культуры колоколовидных кубков.

«Bell_Beaker» 40.3
«Halberstadt_LBA» 31.6
«Samara_HG» 8.5
«Tyrolean_Iceman_EN» 2.05
«Esperstedt_MN» 1.95
«Swedish_Mesolithic» 1.95
«BerryAuBac_Mesolithic» 1.85
«Swedish_Motala_Mesolithic» 1.7
«Bichon_Azillian» 1.6
«Continenza_Paleolithic» 1.5
«Hungary_BA» 1.5
«LaBrana_Mesolithic» 1.35
«Bell_Beaker_Germany» 1.05
«Hungary_HG» 0.85

4) следующим новым инструментом будет 4mix, более упрощенный вариант 4Admix. Он разработан тем же Г. Гизбертом. Основное отличие от 4Admix — если 4Admix перебирает все возможные комбинации из 4 популяций, то в 4mix можно эксплицитно задавать отдельные комбинации и определять евклидову дистанции между этой комбинацией и аппроксимируемым геномом в пространстве моделей
5) карты компонентов с аннотацией. Аннотации компонентов будут чуть позже, а вот карты уже готовы

Карты распространения некоторых компонентов K16 и K11  в ряде географических ареалов

6) я включил в релиз модифицированный скрип GPS лаборатории Элхайка для определения географического ареала происхождения предков человека, чей геном является предметом изучения. Я включил пару строчек кода для проецирования вычисленных географических координат на географическую карту.
Пример. Ниже показаны две карты, на которые спроецированы географические координаты вычисленной алгоритмом GPS (GPS DNA tool ) точки «этнического происхождения».
Я проверил работоспособность алгоритма на обеих моделях.
В модели K16 (современные популяции) GPS-координаты точки моего «происхождения» 49.7648663288835 32.4345922625112 (примерно 49 градусов северной широты и 32 градуса восточной долготы), т.е где-то на левом берегу Днепра в Украине. Как утверждают разработчики программы, она позволяет определить место происхождения с радиусом погрешности в 500 км. Я вычислил расстояние от полученной точки до настоящего места жительства предков (южная часть Брестской области) и получилось 470 км. Т.е точка попадает в радиус, хотя и с некоторым трудом.

Rplot

Что касается модели K11 (древние геномы), то в этой модели мой «Urheimat» локализуется — весьма ожидаемо — на землях древней унетицкой и лужицких культур (51.1254133094371 13.2336209988448)

Rplot

 

 

Публикации и работа с палеогеномами

Как я уже отмечал в своих предыдущих записях, за последние годы был опубликован ряд работ, посвященных попыткам генотипирования останков древних людей — от живших несколько тысячелетий назад до «усть-ишимца» с предположительным возрастом около 45 тысяч лет, неандертальцев и «денисовки». Количество таких расшифровок растет все быстрее, что не может не вызывать оптимизма.  Вторая половина 2014 года особенно примечательна как количеством подобных публикаций, так и числом полных геномных NGS-сиквенсов древних людей, размещенных в публичных репозиториях (банках геномных данных). Так, в сентябре в Nature была опубликована окончательная версия работы Lazaridis et al. 2014  «Ancient human genomes suggest three ancestral populations for present-day Europeans». Работа получила широкое освещение в СМИ, поскольку аналитическая выборка сэмплов в этом исследовании включала значительное количествао заново генотипированных (на чипе Affymetrix HumanOrigin) образцов ДНК из древних палеолитических стоянок Сибири (Афонтова Гора, Малта), представителя древней индейской культуры Кловис и палеоэскимоса Cаккак. В работе был представлен  целый  ряд образцов древней ДНК представителей европейских мезолитических и неолитических культур, опубликованных в более ранних работах 2012-2014 годов: Skoglund et a. 2014 «Genomic Diversity and Admixture Differs for Stone-Age Scandinavian Foragers and Farmers»(шведские земледельцы и охотники собиратели эпохи неолита); Olalde et al. 2014 «Derived immune and ancestral pigmentation alleles in a 7,000-year-old Mesolithic European» (дДНК мезолитического населения Иберийского полуострова) и т.д.

В этой связи необходимо также отметить статью Carpenter et al. 2013 «Pulling out the 1%: whole-genome capture for the targeted enrichment of ancient DNA sequencing libraries»в которой целый авторский коллектив представил результаты исследований древних образцов ДНК найденных в захоронениях бронзового века II тыс. д.н.э (Болгария и Дания).  В следующей работе опубликованной в конце октября, Gamba et al. 2014. «Genome flux and stasis in a five millennium transect of European prehistory»,  читателям была представлена хронологическая перспектива на процесс изменения генофонда населения популяций живших на территории  Паннонской равнины на протяжении 5000 лет (с эпохи неолита до конца железного века), проиллюстрированная на примере изучения 13 образцов древней ДНК. Параллельно вместе с этим Wellcome Trust Sanger Institute разместил геномные «риды» геномов древних англосаксов и бриттов (сама статья еще находится в процессе пре-публикации, презентация статьи была представлена на последней конференции AJHG).

Более важные публикации появилась совсем недавно. В частности, таковой публикацией является статья Fu et al. 2014 «Genome sequence of a 45,000-year-old modern human from western Siberia» о  геноме так называемого «усть-ишимца» (возраст останков которого датируются 45 000 д.н.э) и статья Seguin-Orlando et al. 2014 «Genomic structure in Europeans dating back at least 36,200 years», посвященная обсуждению результатов анализа ДНК знаменитого «папусоида»  с палеолитической стоянки Костенки-14.Тело мужчины, жившего 37 тыс. лет назад и найденное в 1954 г. на юго-западе России, оказалось источником старейшей европейской ДНК. Анализ его генома, опубликованный на прошлой неделе, показывает, что большинство разнообразных европейских генетических комбинаций существуют более 30 тыс.лет и пережили последний ледниковый период. Генетики обнаружили что ДНК Костенки-14 является близкородственным по отношению к раннеевропейским охотникам-собирателям, современным европейцам и жителям Сибири.
В то же время другой древний геном, данные о котором были опубликованы несколько недель назад, принадлежащий сорокапятитысячелетнему западному сибиряку, известному как Усть-Ишим, имел родство как с европейцами, так и с азиатами.  Любопытно, что в этой статье подтверждается то о чем я говорил гораздо раньше: процент неандертальских генов у древних евразийцев был выше чем у современных (о чем я упоминал в одной из своих заметок в этом блоге).

Трудами известного геномного блоггера Феликса Чандракумара большинство из них было переведено в простой и доступный формат, аналогичный файлам raw data от FTDNA и 23andMe. В GEDMatch можно поиграть с этнокалькуляторами и даже попытаться сравнить свой геном с геномами древних людей.Для этого следует взять из таблицы (кот. видна, если пройти по ссылке) номера, которыми обозначены древние геномы.

Sample Name Sample Location GEDMatch Sex Y-DNA Mt-DNA Approx. Age by authors My Analysis or Comments
Altai Neanderthal Denisova Cave, Siberia F999902 Female 50,000 years
Denisova Denisova Cave, Siberia F999903 Female 30,000 years
Palaeo-Eskimo Qeqertarsuaq, Greenland F999906 Male Q1a D2a1 4,000 years Palaeo-Eskimo 2000 BC DNA
Clovis-Anzick-1 Montana, North America F999919 Male Q-Z780 D4h3a 12,500 years Matches Living people.
Mal’ta South-Central Siberia F999914 Male R U 24,000 years Matches Living people on X Chromosome.
La Braña-Arintero León, Spain F999915 Male C-V183 U5b2c1 7,000 years Analyzing La Braña-Arintero Ancient DNA
Motala-12 Östergötland, Sweden F999917 Male I-L460 U2e1 7,000 years My Analysis of Motala-12 ancient DNA
LBK Stuttgart, Germany F999916 Female T2c2 7,500 years Matches Living people
Loschbour  Loschbour, Luxembourg F999918 Male I-L460 U5b1a 8,000 years Matches Living people
Ajvide58 Sweden F999924 Male I-CTS772 U4d 5000 years Ajvide58 DNA Analysis
Gökhem2 Sweden F999934 Female H1c 5000 years Gökhem2 Ancient DNA Analysis
Hinxton-2 Cambridgshire, UK F999921 Female H2a2b1 1300 years Hinxton-2 Analysis
Hinxton-3 Cambridgshire, UK F999922 Female K1a4a1a2b 1300 years Hinxton-3 Analysis
Hinxton-4 Cambridgshire, UK F999925 Male R-DF25 H1ag1 2000 years Hinxton-4 has X-Matches with living people
Hinxton-5 Cambridgshire, UK F999926 Female H2a2a1 1300 years Hinxton5 Ancient DNA Analysis
KO1 Tiszaszőlős-Domaháza, Hungary F999931 Male I-L68 R3 5650-5780 cal BC Analysis of Neolithic KO1 genome
NE1 Polgár-Ferenci-hát, Hungary F999937 Female U5b2c 5070-5310 cal BC NE1 Ancient DNA Analysis
NE5 Kompolt-Kigyósér, Hungary F999927 Male C-F3393 J1c 4990-5210 cal BC Ancient Hungarian Genome NE5 Analysis
NE6 Apc-Berekalja I., Hungary F999932 Male C-P255 K1a3a3 4950-5300 cal BC Analysis of Hungarian genome-NE6
NE7 Apc-Berekalja I., Hungary F999928 Male I-L1228 N1a 4360-4490 cal BC Ancient Hungarian genome — NE7
CO1 Apc-Berekalja I., Hungary F999930 Female H 2700-2900 cal BC Analysis of Copper age genome CO1
BR2 Ludas-Varjú-dűlő, Hungary F999933 Male J-M67 K1a1a 1110-1270 cal  BC Ancient BR2 matches living people
IR1 Ludas-Varjú-dűlő, Hungary F999929 Male N-M231 G2a1 830-980 cal BC Ancient Hungarian genome — IR1
Tyrolean Iceman
(ERP001144)
Tisenjoch Pass, Oetztal Alps Male 5300 years Pending
Ust’-Ishim Ust’-Ishim, Siberia F999935 Male K-M526 R 45,000 years Ust’-Ishim matches with living people!
Kostenki14 European Russia F999936 Male C-V199 U2b 38,700-36,200 years Kostenki14 Ancient DNA Analysis
Sample Name Sample Location Sex Y-DNA Mt-DNA Approx. Age by authors
Mezmaiskaya Neanderthal Mezmaiskaya Cave Female 29,000 years
Tianyuan Tianyuan Cave, China R 40,000 years
Afontova Gora-2 South-Central Siberia Male R1? R 17,000 years
Motala-1 Östergötland, Sweden Female U5a1 7,000 years
Motala-9 Östergötland, Sweden Female U5a2 or U5a1f1a1 7,000 years
Motala-6 Östergötland, Sweden Male U5a2d 7,000 years
Motala-2 Östergötland, Sweden Male F-P139 U5e1 7,000 years
Motala-4 Östergötland, Sweden Female U5a2d 7,000 years
Motala-3 Östergötland, Sweden Male I-M258 U2e1 7,000 years
Hinxton-1 Cambridgshire, UK Male R-L151 K1a1b1b 2000 years
Ajvide53 Sweden Female U4d 5000 years
Ajvide59 Sweden Male I-PF3796 U5b2c1 5000 years
Gökhem7 Sweden Female H 5000 years
Ire8 Sweden Male I-CTS6343 U4d 5000 years
StoraFörvar11 Stora Karlsö, Sweden Male I-CTS4077 U5a1f1a 7500 years
Gökhem4 Sweden Male CF-M3690 H 5000 years
Gökhem5 Sweden Female K1e 5000 years
Ajvide52 Sweden Male HIJK-F929 HV0a 5000 years
Ajvide70 Sweden Female U4d 5000 years
NE4 Polgár-Ferenci-hát, Hungary Female J1c 5050-5290 cal BC
NE3 Garadna, Hungary Female X2b 5010-5210 cal BC
BR1 Kompolt-Kigyósér, Hungary Female K1c1 1980-2190 cal BC
KO2 Berettyóújfalu-Morotva-liget, Hungary Female K1 5570-5710 cal BC
NE2 Debrecen Tócópart Erdõalja, Hungary Female HV 5060-5290 cal BC
V2 Vratitsa, Bulgaria Male U2e1’2’3 1500-1100 BC
M4 Borum Eshøj, Denmark Male B2 1350 BC
K8 Krushare, Bulgaria Male R 450-400 BC
NA43 Laguna de los Condores, Peru Male B4b’d’e 1000-1500 AD
AusAboriginal Western Austalian Male F-M235 O1a 100 years
NA41 Laguna de los Condores, Peru Male L3 1000-1500 AD
P192-1 Svilengrad, Bulgaria Male U3b 800-500 BC
T2G2 Stambolovo, Bulgaria Male H1c9a 850-700 BC
NA42 Laguna de los Condores, Peru Male D1 1000-1500 AD
NA50 Laguna de los Condores, Peru B4b’d’e 1000-1500 AD
NA47 Laguna de los Condores, Peru L3 1000-1500 AD
NA40 Laguna de los Condores, Peru L3 1000-1500 AD
NA39 Laguna de los Condores, Peru Male B2 1000-1500 AD
Feld1 Neanderthal Neander Valley, Germany 42,000 years
Sid1253 Neanderthal El Sidron cave, Asturias, Spain 49,000 years
Vi33.16 Neanderthal Vindija cave, Croatia Female 38,310 years
Vi33.25 Neanderthal Vindija cave, Croatia Female
Vi33.26 Neanderthal Vindija cave, Croatia Female 44,450 years

В своем блоге Феликс размещает аналитические отчеты по каждому из проведенных анализов, отчеты включают графическое отображения «состава различных геномных компонентов происхождения» каждого из образцов в калькуляторах Gedmatch (включая мой последний калькулятор K23b), фенотипические признаки (предположительный цвет кожи и глаз), возраст на момент смерти и т.д.
Пытаясь ответить на вопрос,  насколько  правдоподобны (в смысле реального генеалогического родства) результаты совпадения сегментов древних и современных людей, Феликс приводит замечательные вычисления оценки правдоподобия совпадений в геномах современных людей и древних образцов. К сожалению, рассуждения замечательные, но вызывающие определенные вопросы, которые я озвучу в другой заметке.

Так или иначе, поставленная Феликсом на поток и практически полностью автоматизированная работа с древними геномами заслуживает безусловного признания, поскольку в силу разделения труда позволяет другими исследователям-любителям полностью сконцетрировать свое внимание на процессе непосредственного анализа полученных данных, вместо того чтобы тратить свои ресурсы на процесс извлечения снипов из «сырых» геномных данных. Благодаря этому разделению труда,  Давид Веселовский из проекта Eurogenes провел ряд замечательных экспериментов с этими данными (включая PCA, Treemix и вычисление генного дрейфа с помощью f3). В основном выводы этих экспериментов повторят то, что было написано в статьях профильных генетиков, за исключением одного интересного вывода на основании графа Treemix, в котором отображено направление процессов обмена генами между различными древними популяциями:

«В отношении Kostenki14, графики  Treemix  подтверждают один из основных выводов работы Seguin-Orlando et al. 2014, согласно которой  главны компонент образца  Kostenki-14  является базальным «предковым» компонентом более поздних европейцев (Basal_Eurasian). Тем не менее, два последних графика показывают, что этот базальный «компонент» не тот же самый «базальный» компонент в геноме неолитического образца из Штутгарта, связанного с базальным евразийским  компонентом, который был описан  в работе Lazaridis et al. 2013″.

Другой геномный блоггер, Сергей Козлов, использовал те же самые данные палеогеномов (взятые с сайта Ф. Чандракумара) для создания замечательных карт, иллюстрирующих количество и интенсивность общих IBD-сегментов палеогеномов и геномов современных популяций.

Я решил не оставаться в стороне и провел собственный анализ PCA и кластеризации популяций по значениям компонентов генетического разнообразия.

Ниже приведены иллюстрации к моему опыту кластеризации собственного генома с геномами древних жителей Евразии. В качестве входных данных алгоритма ward-кластеризации в программе R, я использовал собственные значения 4 векторов главных компонентов (PC) разнообразия. Эти векторы, в свою очередь, были получены путем вычислений в большом массиве (2024 образца) генетических данных (примерно 110 тысяч снип-полиморфизмов) представителей современных и древних популяций. Мой геном (обозначенный как Vadim) представляет собой набор, полученныq в ходе импутации по датасету Human Origin значения снипов информативных с точки зрения эволюционного происхождения, и используется в качестве контрольной группы.

Для начала график PCA, и положение палеогеномов на этом графике.

10805810_10205228379818844_2683994891484833194_n

В аналитической выборке я задействовал снипы геномов высших и низших приматов (дендрограмма выборка укоренена на геноме мармозетки), древних гоминидов (денисовского человека и неандертальцев). Остальное — как я и упоминал выше — представляет собой совокупность снипов современных и древних популяций.

Благодаря характеру выборки и характеру используемых снипов, я могу взглянуть на свое происхождение с наиболее широкой перспективы, позволяющей проследить индивидуальный эволюционный путь от древнейших людей до наших современников.
Можно сказать, что я проделал самое далекое (из всех предыдущих) генеалогическое путешествие в собственное прошлое. Разумеется, без предыдущего выделения обработки образцов древнего ДНК новейшими биохимическими методами, а также публикации данных — это путешствие длинной в сотни тысяч лет не могло бы просто состоятся. Так что огромное спасибо всем биохимикам, генетикам и биоинформатиков работавшим с образцами древней ДНК.

Полученные мной кластерные дендрограммы вышли очень большого разрешения. В силу этого, имеет смысл изучить топологию, структуры и расположение популяционных групп-кластеров в полномасштабном варианте, иначе могут возникнуть интересные вопросы.

1557253_10205127321932460_4975988878575720296_o 10801887_10205156832150197_5471832914364777784_n (1) 10801887_10205156832150197_5471832914364777784_n 247121_10205156832710211_7030394711716209950_n 1235004_10205156831950192_4536397005560655073_n 1379610_10205156832350202_753531489446222277_n 10411811_10205156831710186_6596784203743263163_n

Поэтому — я подготовил соответствующие файлы PDF и разместил ссылки на эти файлы для удобного просмотра.

tree1

tree2

tree3

tree4

tree5

tree6

tree7

tree8

tree9

tree10

tree11

tree12

tree13

tree14

tree15

tree16

Здесь их опубликовать не представляется возможным, и по этой причине я ограничу себя размещением тех фрагментов трех вариантов кластерных диаграмм, на которых присутствуют древние образцы.
Забегая вперед, можно заметить, что образцы ДНК древних людей (т.е людей современного анатомического типа — homo sapiens sapiens), строго говоря, разбиваются на три органические суперкластера — древних сибириков (или евразийцев), древних европейских охотников-собирателей, и ранних неолитических европейских земледельцев. В основной своей части состав и топология популяционных кластеров стабилен в разных вариантах, наибольшие видоизменения заметны у тех образцов, чье множество снипов имеет меньшее пересечение с общим набором снипов. Отсюда довольно таки тривиальный вывод: чем меньше общее число снипов — тем больше флуктуаций наблюдается в расположении древних образцов внутри ветвей кластерной дендрограммы.

Кластер древних евразийцев наиболее стабилен (т.к. там всего два древних генома Afontova Gora 2 (AG2) и знаменитый мальчик с сибирской стоянки Malta (MA1); причем оба образца взяты из одного источника данных). Из современных популяций к этому кластеру наиболее органично примыкают различные группы населения центральной Азии — от таджиков до гуджаратов, и от калашей до пуштунов.

Кластер древних охотников-собирателей Европы наиболее неустойчив, и это объясняется прежде всего разным числом снипов в образцах, а также тем что сами образцы взяты из разных исследований. Тем не менее тенденция наглядна — древнейшие европейцы (охотники-собиратели мезолита) наиболее близки по своим аутосомным снипам к жителям современной западной и северной Европы — особенно Британских островов, Скандинавии и Балтийского региона. Практически во всех вариантах прибалтийцы близки к древним жителям Швеции (Готланда), а также мезолитическим образцам La Brana, Motala и Loshbour. Последние также близки к финнам, эстонцам и северным русским. Из более поздних и географически удаленных образцов к ним близки древние образцы из Венгрии неолитического периода, бронозового и железного веков (BR1, NE2 и KO1).

Интересно, что в этот же кластер входят как современные популяции западной Европы (британцы, норвежцы, французы и др.), так и современные жители центральной Европы — чехи хорваты и венгры. Является ли это наследием древних времен (гальштатской общности связываемой с древними кельтами) — трудно сказать. Не этим ли объясняется тот факт, что образцы древних англо-саксов и бриттов (обозначенные здесь как Hixton) иногда кластеризируются с (современными!) венграми, хорватами, иногда с современными англичанами из Кента и корнуэлльцами. При этом некоторые из образцов Hixton остаются близки (в смысле схожести генома) к скандинавам, оркнейцам, шотландцам, и даже литовцам.

Мой собственный «геном» (Vadim) также входит в эту группу, причем в разных вариантах он определенно близок одновременно и древним мезолитическим и эпинеолитическим шведам, а также более поздним образцам из Венгрии (киммерийского мальчика IR1, а также самый «балтийский» из всех древних венгерских обрацов — KO1). Интересно что IR1 («аутосомный геном» «киммерийского » мальчика Y-гаплогрупы N1a из захоронения паннонской культуры бронзового века Mezőcsát примерно 900 год до нашей эры) в первых четырех главных компонентах кластеризируется с моим собственным «аутосомным геномом»). Это наверное объясняет почему мой собственный геном дает хорошие комбинации (fit) к комбинации трапезундских турков и древних жителей Балтийского региона.

Как известно, попгенетики готовят к публикации большую статью, в которой подводятся итоги нескольких лет исследования генофонда представителей древних культуры шнуровой керамики* (известной также как культура боевых топоров) и ямной культуры** (другое название — древнеямная культурно-историческая общность). Безусловно, это исследование обещает пролить свет на некоторые темные места генетических связей жителей этих культур с современным населением Восточной Европы (особенно Польши, Украины, Беларуси и юго-западной части России).

Пока все детали исследования неизвестны, однако благодаря настойчивости некоторых энтузиастов генетической генеалогии (Веселовского и пр.) удалось выяснить, например, что генофонд древние образцы представителей Ямной культуры в рамках формальных тестов (f3 и D-статистик) наилучшим образом аппроксимируются как результат смешения древнего мезолитического населения севера Европы (в работе их представляют карельские образцы, очевидно из известных захоронений Палеострова) и населения, близкого к современным закавказским популяциям (лучший результат дали армяне из Еревана).

Признаюсь, эти сведения приободрили меня. Дело в том, что последние несколько недель я занимался изучением эволюции аутосомного генофонда беларусов (и своего тоже) из недавно опубликованного набора лаборатории Райха (это одна из усеченных версии их знаменитого кураторского набора Human Origin Dataset).
Как и раньше, для анализа я использовал инструменты разработанные программистами той же лаборатории (Admixtools), а также Alder — программу написанную на основе открытого кода Admixtools, и оптимизированную под более детальный анализ процесса смешивания различных предковых групп.

Так вот, до получения сведений о предварительных результатах попгенетиков, я был немного смущен полученной картиной. У меня получилось вот что. С точки зрения формальной оценки (f3-статистки, аналога более известной p-статистки) лучшие пары адмикса для беларусов (с отрицательным значением Z) представляли собой либо комбинацию мезолитического населения Европы (Loshbour) и современного населения современной Анатолии и ближнего Востока, либо комбинацию ‘генов’ неолитических жителей Европы (LBK380, а также современных сардинцев) и современных америндских популяций (происходящих, как нам известно, из восточной Сибири).
Вот начало списка значимых пар:

Mixe Sardinian Vadim -11.811
Sardinian Mixe Vadim -11.811
Karitiana Sardinian Vadim -11.757
Sardinian Karitiana Vadim -11.757
Zapotec Sardinian Vadim -11.638
Sardinian Zapotec Vadim -11.638
Loschbour Georgian_Megrels Vadim -11.599
Georgian_Megrels Loschbour Vadim -11.599
Piapoco Sardinian Vadim -11.482
Sardinian Piapoco Vadim -11.482
Loschbour Turkish_Trabzon  Vadim -11.434
Turkish_Trabzon Loschbour Vadim -11.434
Loschbour Assyrian_WGA Vadim -11.395
Assyrian_WGA Loschbour Vadim -11.395
LBK380 Piapoco Vadim -11.354
Piapoco LBK380 Vadim -11.354
Surui Sardinian Vadim -11.346
Sardinian Surui Vadim -11.346
Loschbour Abkhasian Vadim -11.293
Abkhasian Loschbour Vadim -11.293
Bolivian_LaPaz Sardinian Vadim -11.232
Sardinian Bolivian_LaPaz Vadim -11.232
Loschbour Iranian_Jew Vadim -11.231
Iranian_Jew Loschbour Vadim -11.231

Я выбрал около сотни значимых пар и проверил их достоверность «адмикса) с помощью инструментов D-статистки (qpDstat) в попарном сравнении каждой из значимых комбинаций (начало таблицы):

Vadim Italian_Tuscan : Loschbour Palestinian 0.0293 8.141 best
Vadim Iranian : LBK380 GujaratiC_GIH 0.0245 7.319 best
Vadim Motala12 : Druze Sardinian 0.0125 7.285 best
Vadim Loschbour : Palestinian Albanian 0.0146 7.17 best
Vadim Sardinian : GujaratiC_GIH Iranian 0.0121 7.151 best
Vadim Palestinian : Spanish_Pais_Vasco_IBS GujaratiC_GIH 0.0145 7.126 best
Vadim Egyptian_Comas : Basque_Spanish GujaratiC_GIH 0.0137 7.016 best
Vadim Sardinian : Loschbour Egyptian_Comas 0.0251 6.962 best
Vadim Sardinian : Loschbour Tunisian_Jew 0.0251 6.789 best
Vadim Palestinian : Basque_Spanish GujaratiC_GIH 0.013 6.758 best
Vadim Sardinian : Loschbour Palestinian 0.0237 6.69 best
Vadim Basque_Spanish : Balkar Palestinian 0.0076 6.601 best
Vadim GujaratiC_GIH : Tunisian_Jew Egyptian_Comas 0.0094 6.493 best
Vadim Spanish_Pais_Vasco_IBS : Balkar Palestinian 0.0079 6.458 best
Vadim Loschbour : Druze Italian_WestSicilian 0.0135 6.443 best
Vadim Loschbour : Iranian Albanian 0.0159 6.385 best
Vadim Palestinian : Sardinian Iranian 0.0083 6.344 best

Как видно, лучшая достоверность (обмена генами) у тех пар которые представляют собой комбинацию мезолитических популяций (Loshbour и Motala), популяций Кавказа, южной Европы и центральной Азии.

Это особенно хорошо заметно в тесте f4ratio. Вот например сравнение 2 квадропул, три популяции в каждой из которых идентичны (беларусы, кумыки и Losbour), а четвертая популяция отличается (балкарцы vs. Motala). Результат означает что кроме мезолитического компонента Loshbour (из западной Европы), у беларусов наблюдается эксцесс (28+-0.1%) дополнительного источника мезолитических «генов» (типично для балтийских популяций мезолита вроде Motala)

Vadim Kumyk Loschbour Motala12 : Vadim Kumyk Loschbour Balkar 0.285678 0.096194 2.97

Крайне любопытны и результаты проведенного мной в Alder исследования источников «древного» адмикса у беларусов.
Я выбрал только те пары, в которых амплитуда угасания LD в двух гипотетических популяциях-донорах была сопоставима с амплитудой угасания LD в популяции-реципиенте (т.е у беларусов). Интересно, что только две пары (пенджабцы + Motala) и (иракские евреи + чукчи) дали консистентную попарную подгонку кривой угасания LD с незначительным разбросом амплитуды (15-25%). К слову, комбинация Armenian+Motala-merge (примерно идентичная наиболее устойчивой модели адмикса у жителей ямной культуры) тоже присутствует в списке «успешных» комбинаций, однако кривые угасания LD имеют разную скорость угасания (их амплитуда отличается уже на 55% и поэтому они не консистентны, т.е несовместимы) в попарном режиме сравнения

DATA: success_consistent 0.0042 Belarusian Punjabi_Lahore_PJL Motala_merge 4.49 2.76 2.78 15%
DATA: success_consistent 0.0098 Belarusian Iraqi_Jew Chukchi 4.31 2.2 3.01 25%
DATA: success 0.0065 Belarusian Mongola Motala_merge 4.4 2.64 2.78 28%
DATA: success 0.011 Belarusian Yi Papuan 4.29 2.26 4.66 28%
DATA: success 0.00037 Belarusian Lebanese Papuan 4.98 2.69 4.66 38%
DATA: success 0.041 Belarusian Kusunda Motala_merge 3.98 2.61 2.78 41%
DATA: success 0.013 Belarusian Hezhen Motala_merge 4.25 2.17 2.78 49%
DATA: success 0.037 Belarusian Motala_merge Tu 4.01 2.78 3.13 51%
DATA: success 4.20E-06 Belarusian Kalmyk Motala_merge 5.79 2.36 2.78 54%
DATA: success 0.0086 Belarusian She Motala_merge 4.34 2.58 2.78 54%
DATA: success 0.0019 Belarusian Armenian Motala_merge 4.66 2.14 2.78 55%
DATA: success 0.048 Belarusian Daur Motala_merge 3.94 2.11 2.78 56%
DATA: success 0.0042 Belarusian Motala_merge Miao 4.49 2.78 3.5 59%
DATA: success 0.041 Belarusian Oroqen Motala_merge 3.98 2.28 2.78 59%
DATA: success 0.013 Belarusian Thai Motala_merge 4.25 2.13 2.78 65%
DATA: success 0.043 Belarusian Motala_merge Lahu 3.97 2.78 3.56 71%
DATA: success 0.0049 Belarusian Motala_merge Japanese 4.46 2.78 3.53 72%

Примечательно что для пары Belarusian Armenian Motala_merge  Admixtools датирует смешение 114.67+/-20.5 поколений тому назад. А вот датировка адмикса для двух первых пар (последняя колонка это датировка адмикса
Belarusian Punjabi_Lahore_PJL Motala_merge 4.49 2.76 2.78 15% 142.4+/-27.54
Belarusian Iraqi_Jew Chukchi 4.31 2.2 3.01 25% 43.28+/-9.45 То есь самое позднее 3500 лет до нашего времени.Итак, выводы: в эволюционной перспективе, костяк аутосомного генофонда беларусов составляет субстрат мезолитического генетического компонента Европы, к которому примешиваются два потока — один с юга, с наиболее значимым вливанием во времена неолита (земледельцы из Анатолии и ближнего Востока), другой — видимо более поздний (т.к. он отсутствует у ямников) из Сибири.


*Культура боевых топоров, культура шнуровой керамики (нем. Schnurkeramik) — археологическая культура медного и бронзового веков, распространенная на обширных территориях Центральной и Восточной Европы и датированная 3200 г. до н. э./2300 до н. э. — 2300 г. до н. э./1800 г. до н. э. Племена культуры боевых топоров часто считают первыми индоевропейцами на территории Средней Европы
**Я́мная культу́ра (точнее — Древнея́мная культу́рно-истори́ческая о́бщность) — археологическая культура эпохи позднего медного века — раннего бронзового века (3600—2300 до н. э.). Занимала территорию от Южного Приуралья на востоке до Днестра на западе, от Предкавказья на юге до Среднего Поволжья на севере.В рамках ранней версии курганной гипотезы Марии Гимбутас ямная культура связывалась с поздними протоиндоевропейцами.

 

Кластер древних жителей по своей устойчивости занимает промежуточное место между кластерами древних северных евразийцев и западных европейских охотников-собирателей.
В этот кластер, иерархически близкий популяциям Кавказа и ближнего Востока, предсказуемо входят предстаители самых классических популяции южной Европы — от греков и болгар, до басков и сардинцев. Как уже стало обычным, сардинцы кластеризуются с образцом тирольского человека Этци и женщины из линейноленточной культуры («LBK380»). В большинстве вариантов (2 из трех опубликованных) к этой подгруппе примыкают представители древнейших неолитических культур на территории современной Венгрии — CO1, H4, H3, NE5, NE7). Жители бронзового века (на графике они ошибочно обозначены как Europe оказались посередине между раннеевропейскими охотникам-собирателями и земледельцами.

Добавление к выборке древних геномов «усть-ишимца» и «костенковца» позволило пролить свет на некоторые особенности эволюции популяций центральной и восточной части Евразии. В кластерном анализе (вардовская кластеризация) по 4 первым компонентам PCA усть-ишимец у меня получился в одном кластере с киргизами и кажется селькупами. По первым двум компонентам в том варианте рейховского набора популяций, где нет андаманцев Onge — он попадает в один кластер с австралийскими аборигенами.
Думаю, что onge все же ближе, да к тому же во всех калькуляторах у усть-ишимца максимум «генома» приходится на сочетание южно-индийских и юго-восточноазиатских компонентов.  А вот «костенковец» оказывается ближе всего к чувашам и саамам. Что характерно — в предыдущих вариантах, в которых я не использовал костенковца, место костенковца часто занимал AG-2 (Afontova Gora).  Также заметна разница между кластерными схемами PC1-2 и PC-1-2-3-4.В первом случае костенковец в одном кластере с индусами, а во-втором с с чувашами и саамами. Характерно, что восточноевразийские палеогеномы Тяньюань и Усть-Ишим входят в один кластер (их положение не сильно меняется), а MA1 нет.

Бета-версия нового этно-популяционного калькулятора MDLP K27

По многочисленным просьбам, я все же решил сделать релиз бета-версии нового MDL DIYкалькулятора. Калькулятор носит кодовое название K27 по числу принятых в качестве априорных предковых компонентов.
Нужно отметить, что перед принятием решения о релизе я долго думал о том, имеет ли смысл выкладывать калькулятор и сопутствующую ему версию Genomic Oracle в открытый доступ. После долгих колебаний я все же решил все же выложить

Хочу сразу отметить три важных нюанса:

1) Эта версия коренным образом отличается от тех бета-версий, которые я отправлял на тестирование ув. А.Бурнашеву и С.Козлову

2) Я не собираюсь (пока) встраивать его в калькуляторы Gedmatch

3) Самое важное: в силу гораздо большего охвата референсных популяций (а всего их 429) в мировом масштабе, этот калькулятор будет гораздо менее информативен для европейцев (восточных и западных), в сравнении с другими калькуляторами проекта, уже находящимися на gedmatch. Это связана прежде всего с тем, что между главными кластерами генетического разнообразия европейцев наблюдается крайне низкая степень дивергенции.  Низкая степень дивергенции заметна на графике MDS центроидов генетического разнообразия каждой из использованных популяций (европейцы находятся в очень узком кластере в центре большого скопления в правой части графика)

Скорее всего в  случае с чистыми европейцами, калькулятор будет показывать только ключевые исторические эпизоды смешения популяций. В калькуляторе из 27 кластеров только 3-4 имеют значение для типичных европейцев. Зато (скорее всего) он будет идеальным инструментов для людей с би- и трирасовым происхождением, а также америндов, азиатов, и африканцев. Остальным рекомендую принимать результаты, как говорят англичане, with a grain of salt.

С другой стороны,  судя по дендрограммам кластеров калькулятора, объединение и соединения компонентов имеют четкую и логичную структуру:

Кластеризация компонентов в эвклидовой метрике
Кластеризация по методу Complate Linkage/Chi-square
Chi-Square/Ward’s method

Инструкции по пользованию калькулятором такие же как и в базовой версии калькулятора от Dienekes Pontikos (эти инструкции можно найти в его блоге). Файл параметров называется test.par.

Что касается Oracle, команды аналогичные Dodecad Oracle, c той лишь разницей что рабочая функция называется cответственно MDLOracle и MOracle2.

Ccылки на скачивание

MDLOracle

Oracle

DIYCalculator

Примечание — в этом дистрибутив калькулятора по ошибке не был включен файл с названиями компонентов (test.txt) .
Этот файл содержит названия компонентов в следующем порядке

Nilotic-Omotic
Ancestral-South-Indian
North-European-Baltic
Uralic
Australo-Melanesian
East-Siberean
Ancestral-Yayoi
Caucasian-Near-Eastern
Tibeto-Burman
Austronesian
Central-African-Pygmean
Central-African-Hunter-Gatherers
Nilo-Saharian
North-African
Gedrosia-Caucasian
Cushitic
Congo-Pygmean
Bushmen
South-Meso-Amerindian
South-West-European
North-Amerindian
Arabic
North-Circumpolar
Kalash
Papuan-Australian
Baltic-Finnic
Bantu

Практические результаты использования калькулятора на примере исходных популяций выборки

Расклад предковых компонентов у Этци Тирольского человека

[1,] «S1» «0»
[2,] «28.1% Cypriot + 71.9% Sardinian» «10.4539»
[3,] «28.8% Cretan + 71.2% Sardinian» «10.5494»
[4,] «23.1% Druze + 76.9% Sardinian» «10.5847»
[5,] «19.9% Bulgarian-Roma + 80.1% Sardinian» «10.6089»
[6,] «19.8% Macedonian-Roma + 80.2% Sardinian» «10.6152»
[7,] «20% Roma + 80% Sardinian» «10.6193»
[8,] «29.9% Island-Greek + 70.1% Sardinian» «10.7168»
[9,] «30.3% Ashkenazi + 69.7% Sardinian» «10.8659»
[10,] «19.4% Georgian_Laz + 80.6% Sardinian» «10.928»

Структура компонентов в образцах древней ДНК из пещеры La_Brana

 BRA
[1,] «BRA» «0»
[2,] «75.5% North_Finn + 24.5% Spanish_Basque» «17.0606»
[3,] «24.2% French_Basque + 75.8% North_Finn» «17.3356»
[4,] «77.1% North_Finn + 22.9% Sardinian» «19.5163»
[5,] «24.1% Iberian + 75.9% North_Finn» «21.1495»
[6,] «76.2% North_Finn + 23.8% Spanish» «21.3459»
[7,] «78.5% North_Finn + 21.5% S1» «22.1884»
[8,] «76.7% North_Finn + 23.3% Portuguese» «22.5586»
[9,] «76.3% North_Finn + 23.7% Puerto-Rican» «22.7617»
[10,] «22.1% Corsican + 77.9% North_Finn» «23.2394»

Древнее ДНК пост-мезолитических жителей Швеции (Готланда)

[1,] «Swedish-Mesolithic» «0»
[2,] «8.9% AriblacksmithIbd + 91.1% Latvian» «13.1043»
[3,] «9% Ariblacksmith + 91% Latvian» «13.1644»
[4,] «9.3% Aricultivator + 90.7% Latvian» «13.9085»
[5,] «9.3% AricultivatorIbd + 90.7% Latvian» «13.9138»
[6,] «7.4% AriblacksmithIbd + 92.6% Lithuanian» «15.5735»
[7,] «7.4% Ariblacksmith + 92.6% Lithuanian» «15.6297»
[8,] «92.7% Latvian + 7.3% Wolayta» «15.8622»
[9,] «4.8% Kalash + 95.2% Latvian» «16.2399»
[10,] «7.4% Aricultivator + 92.6% Lithuanian» «16.2569»

Древнее ДНК неолитических жителей Щвеции

1,] «Swedish-Neolithic» «0»
[2,] «61.9% Georgian_Jew + 38.1% Selkup» «22.6282»
[3,] «38.7% Selkup + 61.3% SephardicBul» «22.7533»
[4,] «37.6% Selkup + 62.4% Sephardic_Bulgaria» «23.0667»
[5,] «62.6% Morocco_Jew + 37.4% Selkup» «23.2594»
[6,] «38.2% Selkup + 61.8% SephardicTurk» «23.6872»
[7,] «38.6% Selkup + 61.4% South-Sicilian» «23.7453»
[8,] «38.1% Selkup + 61.9% West-Sicilian» «23.8583»
[9,] «56.3% Georgian_Jew + 43.7% Udmurd» «23.9074»
[10,] «37.2% Ket + 62.8% SephardicBul» «24.21»

Древнее ДНК жителя палеолитической стоянки Мальта (Сибирь)

[2,] «33.7% Brahui + 66.3% Udmurd» «21.9804»
[3,] «34.5% Makrani + 65.5% Udmurd» «22.357»
[4,] «34.3% Balochi + 65.7% Udmurd» «22.413»
[5,] «33.3% Sindhi + 66.7% Udmurd» «24.1198»
[6,] «36.5% Burusho + 63.5% Udmurd» «24.211»
[7,] «39.7% Pashtun + 60.3% Udmurd» «24.3389»
[8,] «34.3% Pathan + 65.7% Udmurd» «24.716»
[9,] «32.2% Pakistani + 67.8% Udmurd» «24.753»
[10,] «41.4% Tadjik + 58.6% Udmurd» «24.852

Довольно-таки интересны результаты литовских татар. Они показывают что основу их популяции составляли группы близкие к современным каракалпакам. Доказан факт смешивание со славянскими популяциями.

[1,] «Tatar_Lithuania» «0»
[2,] «45.7% Belarusian + 54.3% Karakalpak» «4.114»
[3,] «48.2% East-Ukrainian + 51.8% Karakalpak» «4.362»
[4,] «53.2% Karakalpak + 46.8% South-Russian» «4.373»
[5,] «45.7% Center-Russian + 54.3% Karakalpak» «4.4215»
[6,] «51.8% Karakalpak + 48.2% Russian_cossack» «4.7105»
[7,] «53.7% Karakalpak + 46.3% Pole» «4.7189»
[8,] «51.1% Karakalpak + 48.9% Ukrainian» «4.7654»
[9,] «56.2% Karakalpak + 43.8% Russian» «4.9077»
[10,] «49.9% Karakalpak + 50.1% West-Ukrainian» «5.5127»

Результаты дагестанцев. У кумыков из Стальского замтене сдвиг в сторону европейского неолитического фона, у даргинцев из Уркараха — в сторону таджиков, бурушей и пакистанцев

[,1] [,2]
[1,] «Stalskoe» «0»
[2,] «89.3% Lak + 10.7% Sardinian» «5.9513»
[3,] «87.7% Lak + 12.3% S1» «5.9727»
[4,] «90% Lezgin + 10% Sardinian» «6.2035»
[5,] «91.1% Lezgin + 8.9% Spanish_Basque» «6.2534»
[6,] «88.6% Lezgin + 11.4% S1» «6.339»
[7,] «8.8% French_Basque + 91.2% Lezgin» «6.3573»
[8,] «14.8% S1 + 85.2% Urkarah» «6.613»
[9,] «87.4% Lezgin + 12.6% Puerto-Rican» «6.6176»
[10,] «11.3% Iberian + 88.7% Lezgin» «6.6416»

[1,] «Urkarah» «0»
[2,] «87.2% Lak + 12.8% Tadjik» «3.9718»
[3,] «7.4% Brahui + 92.6% Lak» «4.027»
[4,] «7.1% Balochi + 92.9% Lak» «4.1902»
[5,] «90.7% Lak + 9.3% Pashtun» «4.2146»
[6,] «92.9% Lak + 7.1% Makrani» «4.2644»
[7,] «96.3% Lak + 3.7% Orcadian» «4.4254»
[8,] «5.3% Burusho + 94.7% Lak» «4.4391»
[9,] «95.4% Lak + 4.6% Pakistani» «4.4458»
[10,] «95.3% Lak + 4.7% Sindhi» «4.4459»

Чеченцы, как и должно быть находятся как бы посередине между восточно-северокавказскими популяциями и популяциями западной части северного Кавказа (дагестанцами):

[1,] «Chechen» «0»
[2,] «41.7% Balkarian + 58.3% Lezgin» «1.2933»
[3,] «47% Balkarian + 53% Lak» «1.461»
[4,] «48.6% Adygei + 51.4% Lak» «1.5575»
[5,] «43% Adygei + 57% Lezgin» «1.7072»
[6,] «54.3% Lak + 45.7% North-Ossetian» «2.2724»
[7,] «62% Adygei + 38% Urkarah» «2.3513»
[8,] «60.2% Lezgin + 39.8% North-Ossetian» «2.3592»
[9,] «60.3% Balkarian + 39.7% Urkarah» «2.3594»
[10,] «32.1% Cirkassian + 67.9% Lezgin» «2.647»
Доказана примесь тюркских генов у русских казаков

[,1] [,2]
[1,] «Russian_cossack» «0»
[2,] «4% Karakalpak + 96% Pole» «1.6702»
[3,] «92.7% Pole + 7.3% Tatar_Lithuania» «1.673»
[4,] «3.5% Kyrgyz + 96.5% Pole» «1.6749»
[5,] «96.1% Pole + 3.9% Uyghur» «1.6836»
[6,] «96.3% Pole + 3.7% Uygur» «1.6839»
[7,] «3.6% Kazakh + 96.4% Pole» «1.7032»
[8,] «96% Pole + 4% Uzbek» «1.7071»
[9,] «96.1% Pole + 3.9% Turkmen» «1.7144»
[10,] «3.6% Hazara + 96.4% Pole» «1.7184»

Результаты  крымских татар также обнадеживают. Они представлены как смесь ногайцев, башкиров, литовских татар, — и румын, греков из разных областей, что логично.

[1,] «Tatar_Crim» «0»
[2,] «54.3% Nogay + 45.7% South-Greek» «2.26»
[3,] «46.4% Center-Greek + 53.6% Nogay» «2.9529»
[4,] «46.2% Greek + 53.8% Nogay» «3.1448»
[5,] «55.8% Nogay + 44.2% North-Greek» «3.2151»
[6,] «50% Nogay + 50% Romanian_Jew» «3.3766»
[7,] «41.4% Kosovar + 58.6% Nogay» «3.9495»
[8,] «73.3% Greek_Azov + 26.7% Tatar_Lithuania» «4.6688»
[9,] «22.5% Bashkir + 77.5% Greek_Azov» «4.8702»
[10,] «57.6% Nogay + 42.4% Romanian» «5.0906»

Cеверные финны из Куусамо. Они выходят наиболее истинными наследниками палеолитического населения Европы

[,1] [,2]
[1,] «North_Finn» «0»
[2,] «39.8% BRA + 60.2% Finland» «22.1224»
[3,] «49.2% BRA + 50.8% South_Finn» «24.2635»
[4,] «54.8% BRA + 45.2% Finn» «25.2111»
[5,] «64.1% BRA + 35.9% Inkeri» «25.9453»

Работа над ошибками: неудача в создании дизайна нового калькулятора MDLP World K23

К сожалению, после полгода работы над новой версией генетико-этно-популяционного калькулятора MDLP World K23, должен признать, что из-за неправильных методологических решений, от релиза калькулятора придется отказаться.

В чем же кроются oшибки?

Как известно, референсные популяции в уже существующих калькуляторах образованы путем соединения (слияния) различных наборов популяций из баз данных геномных проектов и научных исследований. Наиболее важными источниками следует признать следующие:

Полученные путем слияния данные хранятся в стандартном формате Plink. Но, как говорится, не все так просто.  Хотя в некоторых из вышеприведенных источниках данные поставляются уже в готовом формате Plink, большинство все же имеют другой формат. Ситуацию усложняет и тот факт, что данные (генотипы) в  разных файлах могут даваться в разных ДНК-цепях; геномные координаты соотвествуют разным  геномным билдам человеческого геномного референса (b36 или b37). Наконец, вместо классических генотипов, могут приводится данные по частоте минорных аллель.
Но самая главная проблема — это существенное расхождения числа генотипированных снипов в разных базах данных. В самых больших проектах, вроде 1000genomes и HapMap, число прошедших QC-фильтры снипов приближается к миллионам, в то время как в научных данных из публикаций, число снипов в панели генотипирования выборки часто не превышает 100-300 тысяч. Вторая важная проблема — использование разных платформ генотипирования, например Illumina или Affymetrix; и по причине этого только часть снипов выборки, типированной с помощью машин Illumina перекрывается со снипами выборки, типированной на другой платформе. Поскольку большинство полногеномных этно-популяционных анализов требует наличие однородной выборки, то это означает что при собирании референсной популяций неизбежно приходится придерживаться четкого правила —  удаление снипов имеющих низкую частоту (менее 0.01) генотипирования в одной из соединяемых выборок. Совершенно очевидно, что при поэтапном слиянии выборок, большинство снипов теряется; так, вместо первоначальных 2 миллионов снипов, на конечном этапе мы можем получить всего 20 000 снипов.

Импутирование отсутствующих генотипов —  потенциальное решение проблемы?

Одним из возможных вариантов решения проблемы сохранения баланса между количеством и качеством снипов является использование алгоритмов импутирования (определения) отсутствующих генотипов. Обычно для этих целей я пользуюсь программой Beagle, однако в этот раз я решил использовать более мощную комбинацию программ ShapeIT и IMPUTE и  метод импутирования снипов за счет использования большой референсной панели аутосомных гаплотипов (из 1000 genomes),  гарантирующей более аккуратное определение снипов.

Я не буду загружать читателя избытком технической информации касательно аспектов фазирования. Скажу лишь, что после нескольких месяцев использования эвристического метода проб и ошибок, я пришел к оптимальному сочетанию снипов в файле полученном путем соединения вышеуказанных выборок.  В целях сохранения совместимости с данными генотипирования от коммерческих компаний, я снизил  до примерно 130 000 (именно такое число снипов является общим при слиянии данных 1000genomes, файлов 23andme и Family Finder от FTDNA). Именно эти снипы и были задействованы при параллельных процессах импутирования в IMPUTE.

В результате я рассчитал аллельные частоты примерно 130000  снипов по референсным популяциям, взятым из академических источников. С целью сохранения совместимости с коммерческими данными, были выбраны только те снипы, которые присутствуют либо в последнем чипсете 23andme, и/либо в последнем чипсете FAmilyFinder от FTDNA. Я высчитал средние значения каждого из 23 компонентов для всех референсных популяций. Также имеются данные по кластерному определению каждого из снипов. Судя по разбивке популяций, они выглядят весьма правдоподобными. Но некоторые кластеры вызвают вопросу. Поэтому перед тем как делать релиз очередного этно-популяционного ДНК-калькулятора, я решил воспользоваться услугами бета-тестеров. В первую очередь, я надеялся на помощь Александр Бурнашев и Srkz (Сергея Козлова) поскольку они лучше остальных в русскоязычном секторе любителей ДНК-генеалогии понимают принципы работы калькуляторов на основе Додекад DIY.

Затем я произвел запуск тестовой версии ДНК-калькулятора с целью проверки надежности предковых компонент. Названия пока носят условный характер.
West-African 0,44

Caucausian 28,87

Near-East-Mediterranean 0,07

Samoyedic 1,66

Polinesian 1,27

North-European 11,36

Amerindian 1,12

East-European 36,89

South-African 0,34

Papuan-Melanesian 0,85

East-African 0,12

Central-Asian-Caucasian 2,37

Arabic 3,51

Nigerian 0

Central-African 0,04

Indian 9,98

Sino-Tibetan 0,13

Indo-Chineese 0

Sub-Saharian 0

West-Mediterranean 0

Для сравнения -усредненные результаты референсных беларусов

East-European 41,6645%

Caucausian 26,3905%

Indian 12,1348%

North-European 11,0739%

Near-East-Mediterranean 2,0315%

Indo-Chineese 1,4123%

Austronesian 1,1291%

Samoyedic 1,1257%

West-African 1,0845%

Polinesian 0,6104%

Nigerian 0,5530%

Arabic 0,4754%

South-African 0,3044%

North-African 0,0010%

North-European-Caucausian 0,0010%

Amerindian 0,0010%

Papuan-Melanesian 0,0010%

East-African 0,0010%

Central-Asian-Caucasian 0,0010%

Central-African 0,0010%

Sino-Tibetan 0,0010%

Sub-Saharian 0,0010%

West-Mediterranean 0,0010%

Критика и очевидные ошибки

Бета-тестеры указали на очевидные несуразности в результатах калькулятора:

У меня есть RAW Data своих родственников и еще пары человек, я прогнал их через калькулятор, добавил результаты ваши и вашей мамы и попробовал сравнить с таблицей. Пока на первый взгляд европейские популяции делятся на две группы — «выглядящие странно» и «выглядящие нормально». Russian_Center смотрится странно, Center-Russian — нормально. Russian_North странно, North Russian нормально. В чем между ними разница, какая популяция откуда?

Странность в том, что прослеживаются две отдельные системы географического распределения компонентов в Европе, при этом с данными реальных протестированых (7 человек, из них неродственных образцов 4) пока что коррелирует только одна из них. 4 образца достаточно, чтобы строить предположения, но для уверенных выводов лучше бы несколько десятков.

Вспоминается «эффект калькулятора» имени Поляко, когда в популяциях, которые использовались для выделения компонентов, их баланс оказывается смещен. При этом сами компоненты реальны и полезны. На примере World-22, компонент North-European Mesolithic у финнов эталонных популяций оказался Finnish 23,6; Finnish-South 30,1; Finnish-North 37,5 . У финнов же с форумов и моих совпаденцев на Gedmatch компонент стабильно между 15 (ближе к западу) и 20 (ближе к востоку), у большинства 16-17. То есть он действительно хорош для Оракула, но только с этой поправкой. Далее, когда я смотрел результаты Оракула World-22 для восточных славян, их почти всех стабильно смещало в сторону запада. Компонент Athlantic_Mediterranean у них оказывался выше на 2-3 пункта, чем в русских эталонах, а North-East European слегка ниже.

Поэтому по World-23 я сразу захотел сравнить распределение с результатами людей, не участвовавших в расчете. У нас есть три реперные точки — Белоруссия в вашем лице, северо-восточные русские в лице моей семьи, есть образец центрального русского и дополнительно лицо смешанного славяно-ашкеназского происхождения. У всех распределение компонентов укладывается в одну систему, и близко к распределению во многих европейских популяциях в таблице. Основные компоненты East-European, Caucausian, Indian, North-European, Samoyedic.

А вот компоненты, по которым географическое распределение удивляет: Пара West-Mediterranean/North-European (North-European, когда его больше 15%). Есть ряд популяций, которые состоят только из этих двух компонентов, в треугольнике Сардиния-Оркнейские острова-Россия. Сформирован клин Сардиния-Прибалтика. У русских показано Russian North-Euro 72,59%, West-Med 27,05%. При этом у всех семерых протестированых West-Mediterranean ноль либо практически ноль, North-European в диапазоне 7-11. French_Basque получили всего 8,92% West-Mediterranean, вместо этого компонента Средиземноморье у них представлено 38,6% Caucausian

North-European-Caucausian встречается в нескольких популяциях, зато по всей планете, очень непонятный компонент. У протестированых в пределах 0-2 процента.

Пара мыслей по другим компонентам: По Indian очень интересное распределение, на первый взгляд это давно известный Gedrosia/Baloch. Однако если Gedrosia распространяется в Европу больше по маршруту Турция-Балканы-Германия-Британия, то Indian World-23 преобладает у финно-угорских народов (маршрут Каспий-Поволжье-Финляндия), а в направлении Западной Европы спадает. А ведь давно замечено в других калькуляторах неожиданное проявление небольших количеств Индии у финно-угров. Пока что результаты протестированых распределение Indian не опровергают и не подтверждают.

Samoyedic пик у юкагиров, скорее его можно назвать Siberian или North-Eurasian

Результаты (названия компонентов вписал в калькулятор сам, может слегка не совпадать) Русская из Сибири (близка к северным) 0.00% North-African 0.88% North-European-Cauca 0.10% Austronesian 1.74% West-African 22.08% Caucasian 1.09% Near_East-Med 8.18% Samoedic 2.02% Polinesian 7.96% North-European 0.99% Amerindian 35.79% East-European 0.91% South-African 0.76% Papuan-Melanesian 0.00% East-African 4.32% Central-Asian-Caucas 2.45% Arabic 0.00% Nigerian 0.00% African-1 10.72% Indian 0.00% Sino-Tibetan 0.00% Indo-Chinese 0.00% African-2 0.01% West-Mediterranean

Русский из центральных областей: 0.00% North-African 1.98% North-European-Cauca 0.38% Austronesian 0.75% West-African 25.45% Caucasian 1.57% Near_East-Med 2.48% Samoedic 1.12% Polinesian 9.70% North-European 1.03% Amerindian 35.59% East-European 0.01% South-African 2.32% Papuan-Melanesian 0.00% East-African 2.81% Central-Asian-Caucas 3.44% Arabic 0.00% Nigerian 0.00% African-1 11.37% Indian 0.00% Sino-Tibetan 0.00% Indo-Chinese 0.00% African-2 0.00% West-Mediterranean.

я прогнал через ваш калькулятор около 20 человек из разных мест европейской части России/СНГ. Ну явно что-то не так с частью исходных популяций. ИМХО, до тех пор, пока непонятны причины этого, результаты так и будут странными. Ощущение, что просто вместе объединены несколько разных калькуляторов с разными популяциями. Почему, к примеру, Russian_Center, Russian_cossack, Russian_North на выходе имеют 46-50% таджикско-лакского компонента Central-Asia? Или это так и задумано? В чем тогда цель? Коротко пробегусь по дереву компонентов, что получилось на данных людей, не участвовавших в расчете: Sub-Saharian (+ кое-где East-African) — выскочило практически у всех в диапазоне 1-3%. Уральско-сибирская веточка смотрится адекватно, за исключением компонента Sino-Tibetan, который проявился в диапазоне 0-2,2 без какой-либо видимой закономерности. Дальше у нас самая странная ветка, где объединились Центральная Азия, Европа и Африка. Как раз к ней-то и относятся странные популяции. У реальных же людей из этой ветки наиболее нормально проявилась Европа — Балтика+Северо-Западная Европа растут при приближении к Литве, Central-Asia уже более разбросана, но общее распределение правдоподобно, однако у всех присутствует и Африка, причем у большинства сумма трех компонентов North African, West African, Central African в районе 4-5 процентов. Indian проявляется в очень небольших количествах, в основном у тех же людей, что и в других калькуляторах. Выглядит адекватно. Ближневосточная ветка явных несообразностей не содержит, но распределение не очень четкое, ощущение зашумленности. Jewish у женщины 1/4 ашкеназкого происхождения не проявился (3,13), вместо него 8,41 Near-East. Почему-то на втором месте по Near-East вы, видимо, шум. Европейская ветка — North-Eastern-Europe и West-Southern-Europe выглядит отменно. Правда, вызывает сомнение, что в этом калькуляторе эталоном северо-восточных европейцев стали финны, а литовцы, наоборот, оказались аутсайдерами со своим отдельным компонентом. Как-то привычнее наоборот )) . Но так даже интереснее. Таблицу исходных популяций почти не прорабатывал по вышеизложенным причинам.

Надеюсь, вы не в обиде на мою критику )) ИМХО, единственное, чем я могу помочь — это именно посмотреть взглядом человека, который много возится с Оракулами. В чем все-таки может быть причина задвоения кластеров? Я не понимаю специфику работы с Admixture, поэтому сам предположить не могу. Разве что другой набор снипов в лишних популяциях? Или расчет кластеров идет несколькими отдельными кусками?

 Как я и предполагал при первоначальных тестовых запусках выявились странности с африканским и центрально-азиатским компонентом.  Впрочем, то что будут странности было видно уже на дереве Fst между компонентами. Я считаю, что корень проблемы  -это фазированные и импутированные данные. Думаю причина именно в этом. Если это так то придется убрать практически все странные или неправдоподобные популяции из коллекции. Если и после изменений с новыми данными ничего не получится, придется убирать провальные популяции.

Насчет африканских компонентов есть еще одно объяснение. Когда я брал выборку с неандертальцами и денисовцами, они практически всегда оказывались в пигмейском кластере (он видимо самый архаичный и древний). Так что скорее в этих 4-5% содежится и реальный африканский след, и «прокси» сигнала древнего адмикса с неандерами и денисовцами. Как показывают неандертальские тесты на 23andme и NG, диапазон такого адмикса с евразийцами составялет 2-4 % В целях поиска первоисточника  ошибки,  я переделал еще раз данные под калькулятор. К сожалению, в первых исправлениях калькулятора пришлось отказаться от популяций Panasian dataset.

Как я не пытался, популяции в этой выборке упорно не кластеризуются с другими юго-восточными азиатскими популяциями )).

В итоге, они практически всегда образовывали в результатах Admixture свой собственный кластер.

Maya Auca Quechua Karitiana Pima Ami Atayal Melanesians Zhuang Han_Cantonese Hmong Jiamao Jinuo Han_Shanghai Uyghur Wa Alorese Dayak Javanese Batak_Karo Lamaholot Lembata Malay Mentawai Manggarai Kambera Sunda Batak_Toba Toraja Andhra_Pradesh Karnataka Bengali-Assamese Rajasthan Uttaranchal Uttar Pradesh Haryana Spiti Bhili Marathi Japanese Ryukyuan Korean Bidayuh Jehai Kelantan Kensiu Temuan Ayta Agta Ati Iraya Minanubu Mamanwa Filipino Singapore_Chinese Singapore_Indian Singapore_Malay Hmong (Miao) Karen Lawa Mlabri Mon Paluang Plang Tai_Khuen Tai_Lue H’tin Tai_Yuan Tai_Yong Yao Hakka Minnan

Итак в переделанной версии нового калькулятора, этно-генографическое происхождение моего генома выглядит следущим образом (в процентах): North-East-European 37,03 Caucasian 25,36 Balto-Scandinavian 10,73 East-Mediterranean 8,67 Near-Eastern 5,46 South-Indian 4,07 Amerindian 2,25 Central-Asian 2,09 Siberian 1,62 East-African 0,65 Dagestan 0,63 Austronesian 0,54 Tibeto-Burmese 0,41 Pygmy 0,39 North-Indian 0,07 West-African 0,03 Paleo-Siberian 0,01 North-African 0 South-Asian 0 Central-African 0 Equatorial-African 0 Sub-Saharan 0 Atlantic-Mediterranean 0 Иными словами, в своей генетической основе я на 33% северо-восточно-европейцев (наследие кордедов-шнуриков и уральцев ямочно-гребенчатой культуры), на 25,36 — носитель анатолийско-кавказских аллелей (в Европе львиная доля этих аллелей — наследие потомков неолитических поселенцев-земледельцев) . East-Mediterranean 8,67 + Near-Eastern 5,46 = 14% ближневосточных аллелей (семито-арабско-еврейская кровь). 11% балто-скандинавских аллелей — наследие мезолитических охотников-собирателей северной Европы. 4% дравидских генов — это явный цыганский след. Ну и наконец, Amerindian 2,25 + Central-Asian 2,09 + Siberian 1,6% — примерно 5% тюркско-сибирско-монгольских генов.

В ходе последующих изменений и уменьшении числа снипов всего до 900 (!)  получилось впихнуть и паназиатскую выборку, богатую популяциями восточной и юго-восточной Азии, и данные из статьи Xing et al.2010. Для коррекции данных, добавил еще в выборку генотипы неандертальцев и денисовского человека. На этот раз уменьшил и число априорных компонентов до 15. На выходе я получил матрицу дивергенции (Fst) между прогнозируемыми предковыми компонентами. Поскольку это есть ни что иное, как матрица дистанции, то я преобразовал ее в дерево с помощью метода Wheeler (2009) NINJA large scale Neighbour-Joining clustering method.

1069319_10201480061153220_287033667_n

В результате получилось дерево, которое весьма неплохо коррелирует с топологиями Y-хромосомного и митохондриального древ человечества. За значение 1.0 принят возраст корня, все остальные цифры в дробях на ребрах дерева (ветвях) означают возраста относительно корня. Например, цифра 0.27 на узле обозначающем диверегенцию австронезийского и восточноазиатского компонента, означает что компоненты дивергировали относительно друг друга 0.27*(возраст дерева) лет тому назад. Теоретически, если мы сможем откалибрировать возраст дерева (или принять априорную оценку возраста корня), можно просчитать возраст диверегенции. Было бы любопытно услышать современные оценки возраста расхождения расовых стволов и возраста субрас в современной антрополгии, так как аутосомные маркеры достоверно лучше коррелируют с антропологическими или расовыми признаками, чем однородительские маркеры.  Предположим, что  возраст корня составит 100000 лет. огда время выделение западных африканцев -80 000 лет
центральных афрриканцев — 80 000 лет, выход из Африки 55 000 лет; разделение на западный и восточный ствол — 50 000 лет; выделение ближневосточно-афроазиатской ветви 45 000 лет; европейской ветви — 48 000 лет. Oколо этого же времени выделился восточный ствол, от которого практически сразу 50 000 лет тому назад ответвились дравиды и чуть позже австралоиды, и так далее.

Комментарий  Евгения Марчукова:

«А. А. Зубов (2004) писал, что начальный этап дифференциации Homo sapiens не был единомоментным, он охватывал период от раннего верхнего палеолита до неолита (включительно), а, если учесть вклад периферийных форм – процесс уходит корнями в средний палеолит. Важно, что вклад «восточного центра» в формирование современного населения отвергать нельзя, хотя линия его собственной эволюции угасла в конце среднего плейстоцена. Она была восстановлена за счет мигрантов с запада представителей «позднего архаичного сапиенса». Позже новая миграция на восток сформировавшегося сапиенса (Мальта и алтайские находки) привели к метисации с местными группами и приняла участие в формировании монголоидного ствола (Чжоукоудянь сходен с Сунгирем). «Сетевидная» эволюция ответственна за появление разных «евро-монголоидных» и «монголо-австралоидных» вариантов. Маркина Гора, Гримальди (на западе) и Лючан (на востоке) указывают на наличие периода, когда Homo был разделен на два надрасовых конгломерата – «западный» и «восточный» без четкой границы.

Доказательством этого является следующее: реликтовые одонтоглифические признаки объединяют европейцев и негроидов, австралийцев с монголоидами. По данным генетики первое деление внутри вида имеет древность 92 тыс.лет, деление внутри больших стволов – 39 тыс.лет. Бушмены и австралийцы выделились первыми- 60-90 тыс. лет, а сохранились благодаря изоляции. В направление к нашим дням происходит изживание архаики в морфологии людей. Чаще всего, идентификация субтаксонов возможно в мезолите — (неолите) – верхнем палеолите. В первичном «восточном стволе» сформировались монголоидный и австралоидный компоненты, а «западный» ствол дал европеоидный и негроидный компоненты сапиенса. Процесс дифференциа-ции имеет непрерывный характер.

Дивергенция расовых стволов происходила, по данным генетики, в пределах последних 100 тыс.лет. Ранее всех выделилась ветвь монголоидов (92 тыс.лет), протонегроиды и протоевропейцы разделились 33 тыс.лет назад. В Африке формирование экваториальных комплексов происходило еще раньше. Монголоидный и негроидный комплексы оформились окончательно позже. Европеодная и монгоидная расы наиболее метисированы.»

Затем я сделал промежуточный вариант калькулятора и решил пока на нем остановиться.
Как всегда, внизу табличка с вычисленными мною предковыми компонентами моего генома

26,09% West-Southern-Europe
24,27% North-Eastern-Europe
15,62% Caucasian-Asian
13,28% Baltic
8,14% Near-Eastern
4,44% Uralic
2,70% Central-Asia
2,32% Amerindian
1,24% Sino-Tibetan
1,16% Central-African
0,41% Sub-Saharian
0,26% North-African
0,03% Indian
0,03% West-African
0,02% Altaic-Siberian
0,01% South-Asian
0,00% East-African
0,00% West-Northern-Europe
0,00% Jewish

1000875_10201544272598466_1144492335_n

 

Репост: Генетика русских, славян, кавказцев, евреев, финнов и других популяций.

Взято с сайта http://haplogroup.narod.ru/genetics_components.html

Гаплогруппы человека передаются по прямым мужской и женской линиям. Но за генетику как мужчин так и женщин ответственна информация, хранимая в аутосомах ДНК. Аутосомы — это первые 22 пары хромосом у человека, которые передаются от обоих родителей после кроссинговера — процесса рекомбинации. Таким образом от отца и матери потомкам передается примерно по равной половине генетической информации.
В данном исследовании используется более 80 000 аутосомных снипов, реперных точек — это очень высокое разрешение, позволяющее уловить даже относительно небольшие влияния на генетическом уровне у основной массы народа. Данные сравнительного анализа взяты из открытого исследования В.Веренича — специалиста по сравнительному анализу генетических компонент. Сами генетические калькуляторы находятся на сервисе GedMatch, и позволяют любому желающему узнать свое сравнительное положение на генетическом графике. Для этого достаточно иметь результаты аутосомного теста компании FTDNA, либо 23andMe. В конце исследования приведены карты географического распространения и частотных максимумов для основных аутосомных компонент из проекта MDLP World-22.
На графиках приведенных ниже показаны основные компоненты и их среднее процентное соотношение для каждой из популяций. В одной строке — процентная разбивка для одной популяции. Каждое деление (вертикальная черта) соответствует 10%, а названия аутосомных компонент располагаются в той же последовательности слева направо, что и в легенде сверху вниз. Чем более похож процентный состав общей генетики у разных народов, тем более похожим выглядит рисунок на приведенном графике. Итак приступим …

Генетика немцев, литовцев, русских, шведов, финнов и т.д.

width=760
На данном графике приведены основные генетические компоненты для европейских народов и выравнены по уменьшению восточно-европейской компоненты (North-East-European) в различных популяциях. Как видно все европейские народы достаточно различны в генетическом плане, и имея в своем наборе одинакового происхождения генетические компоненты, они тем не менее в весьма различных процентах. Для всех славян и балтов в целом одной из максимально-значимых является данная компонента Восточной Европы, которая в максимуме у литовцев и белорусов. Вероятно со времен археологической «культуры шнуровой керамики» территория этих стран была центром происхождения данной компоненты. Она представлена более 80% у литовцев, и всего 20% у итальянцев.
Фиолетовый цвет обозначает атланто-средиземноморскую компоненту, и она увеличивается по мере движения с севера-востока на юго-запад. Так у финнов она достигает в среднем 15%, а у итальянцев 40%. Остальные компоненты менее выражены.

Генетика русских

width=760
На данном графике приведены восточные славяне — русские, белорусы, украинцы.

width=760
На этом графике изображены все славяне, включая западных — поляков и чехов, а также южных — сербов, болгар, македонцев и т.д.
Основных компонент у всех славян — 2. Это восточно-европейская и атланто-средиземноморская. Первая в максимуме у белорусов, а вторая у всех южных славян — сербов, македонцев, болгар. Восточно-европейская компонента более первична по происхождению у славян, а атланто-средиземноморская является приобретенной в процессе миграций славян на Балканы.

Генетика славян, германцев, татар, кавказцев, евреев и т.д.

width=760
Данный график отображает различное происхождение среди народов России. Как видно у славян основной является восточно-европейская компонента, а у народов Поволжья повышается доля сибирских компонент. В то время как для кавказцев наиболее характерны западно-азиатская компонента, средиземноморская и ближне-восточная.

Генетика финнов, угров, удмуртов, саамов и др.

width=760
Как видно для финнов, вепсов и карел характерно схожее генетическое происхождение со славянами. У них также наиболее максимальна восточно-европейская компонента, уменьшается ближе к Уралу и Поволжью, с увеличением в этом регионе сибирских компонент. Также у всех финно-угрских народов выражена значительно компонента мезолита Европы, которая достигает почти 80% у саамов и связана с до-индоевропейским и до-неолитическим населением Европы. Для венгров в целом характерен набор тех генетических компонент, что и для других популяций карпатского региона и Центральной Европы.

Генетика кавказцев — абхазов, осетин, дагестанцев, чеченцев, ногайцев и др.

width=760
Как видно для всего Кавказа характерно сравнительно схожее генетическое происхождение — это большая доля западно-азиатской компоненты и средиземноморской. Немного выбиваются только ногайцы — у них повышается доля сибирских компонент.

Генетика евреев

width=760
Как видно у ашкеназов и у сефардов высокая частота западно-азиатской, атланто-средиземноморской и ближневосточной компонент. При этом у ашкеназов небольшое повышение до 4% сибирской компоненты, что вероятно связано с хазарским наследием. Особенно выбиваются из их «компании» только эфиопские евреи и индийские евреи. У первых высока доля субсахарской Африки, а у вторых доля индийской генетической компоненты.

География генетических компонент


Атланто-Средиземноморская

Восточно-сибирская

Индийская

Субсахарская

Ближневосточная

Восточно-европейская

Самодийская

Мезолит Европы

Западно-азиатская

Пигмейская

Инструкции по использованию геномных калькуляторов

Я давно планировал написать русскоязычную инструкцию по использованию калькуляторов, основанных на парадигме DIY Dodecad, однако все никак не доходили руки. Пару дней назад уважаемый Srkz с форума Молген написал детальную инструкцию к этим калькуляторам. Поскольку инструкции написаны на простом и доступном языке, мне не остается ничего иного, как просто перепостить инструкции в этом блоге.

Так как искать информацию, разбросанную по разным темам довольно сложно, я решил собрать полезные ссылки в одном месте. По мере возможности буду добавлять, поскольку за раз все охватить тяжело.

Программа Диенека Do-It-Yourself DODECAD V2.1 http://dodecad.blogspot.ru/2011/09/do-it-yourself-dodecad-v-21.html (необходима для самостоятельного запуска калькуляторов без заливки данных на Gedmatch).
Инструкция по запуску.
Подготовка к работе:
1) Для работы необходима программа R, скачиваем и устанавливаем отсюда: http://www.r-project.org/
2) Распаковываем содержимое архива DODECAD к себе на компьютер (далее для примера буду считать, что архив распакован в папку C:\DYD, назовем ее «рабочая папка»)
3) Помещаем в рабочую папку файл со своей генетической информацией, скачанной с 23andme https://www.23andme.com/you/download/ или FTDNA (Недавно добавлено GENO 2.0, смотрите http://dodecad.blogspot.ru/2012/11/geno-20-patch-for-diydodecad.html). Назовем его johndoe (по русски будет Имярек  :)   )
4) Для перекодировки файла в формат DYD:
4.1) Запускаем R
4.2) В R выполняем команду setwd(‘c:\\DYD’)
4.3) Выполняем source(‘standardize.r’)
4.4) Выполняем standardize(‘johndoe.txt’, company=’23andMe’) для пользователей 23andme
Или standardize(‘johndoe.csv’, company=’ftdna’) для пользователей FTDNA
4.5) В рабочей папке должен появиться файл genotype.txt

Запуск калькулятора:
5) Распаковываем нужный калькулятор в рабочую папку. В исходный архив уже вложен калькулятор DODECAD v3, его и возьмем в качестве примера.
6) Запускаем R, выполняем setwd(‘c:\\DYD’)
7) Выполняем system(‘DIYDodecadWin dv3.par’). Для других калькуляторов название командного файла .par будет, соответственно, другим.
8 ) Итоговый результат выведется на экран, а также в файл genomewide.txt

Для вывода результата в похромосомном режиме отредактируйте файл .par, заменив строчку genomewide (последняя) на bychr

Работа с Оракулом:
9) Запускаем файл Оракула, например,DodecadOracleV1.RData для нашего примера
10) Выполняем команду DodecadOracle(c(a,b,c…),,k=50), где (a, b, c…) — наши значения по компонентам калькулятора (можно взять из файла genomewide.txt), разделенные запятыми. В самих значениях целая часть от дробной отделяется точкой. k=50 означает «Вывести 50 ближайших популяций». Чтобы вывести варианты смешанных популяций, используем формат команды DodecadOracle(c(a,b,c…),k=50, mixedmode=T). Большие/маленькие буквы имеют значение. Для калькуляторов Вадима Веренича используем команду  MOracle  вместо DodecadOracle

Разнообразные калькуляторы Диенека: http://dodecad.blogspot.ru/search/label/DIYDodecad

Калькуляторы JTest и EUTest Polako http://bga101.blogspot.com.au/2012/09/eurogenes-ashkenazim-ancestry-test-files.html (Файлы для DIYDodecad, данные по исходным популяциям, карты распространения компонентов).
Прямая ссылка на файлы для DYDodecad.
Калькулятор K36 Увы, Оракула для этого очень интересного калькулятора не предвидится.
Информация по более старым калькуляторам

Калькулятор Вадима Веренича World-22 https://docs.google.com/open?id=0B6n7iMc2P-yQMnN2OXVERlhjSXM
Оракул World-22 
Исходные популяции World-22
Карты распространения компонентов
Предыдущий калькулятор Вадима MDLP World для K= от 5 до 15 (в 13 перепутаны аллели)

«Оракул четырех предков»
«Оракул четырех предков» (программа ув. Alex AXe)
EthnoGraph ув. Alex AXe для построения PCA-плотов

Использование «Оракула четырех предков» (скопировано из профильной темы):
С 4 декабря Оракул четырех предков доступен в полном объеме на сайте gedmatch.com (для калькуляторов, у которых есть и обычный оракул — это все калькуляторы проектов MDLP, DODECAD, Harappa и калькуляторы JTest, EUTest проекта Eurogenes). Используйте кнопку Oracle-4 на странице вывода результатов нужного калькулятора. Расчет делается методом минимизации среднеквадратичного отклонения, результаты могут несколько отличаться от выложенных ранее в этой теме из-за различия в исходных данных популяций.

Уважаемый Alex AXe разработал программу, рассчитывающую возможных четырех предков по разным алгоритмам и с возможностью подстановки данных из разных калькуляторов.
Версия 0.97 (самая свежая на момент изменения этого сообщения): http://db.tt/634mFXL2
Комментарий автора:
Сделал нормальную реализацию метода постоянной дисперсии и нормальную нормировку расстояний в нем. Удалось немножко его оптимизировать.

Полностью пересмотрел модель шума и порогов.
Теперь не используется параметр «порог метода», вместо него в соответствующей строчке файла input.txt нужно поставить 1 для использования gaussian-метода и 0 для его отключения. Метод наименьших квадратов будет использован в обоих случаях.

Формат input.txt для версии 0.97:
1-я строка: имя (условное) человека, чьи данные анализируются.
2-я строка: имя файла с данными популяций
3-я строка: имя файла с результатами
4-я строка: число выдаваемых результатов приближений. Для режима 4-х предков будет выдано удвоенное число результатов.
5-я строка: минимальный порог компонентов. Значения меньше его будут отброшены. Для автоопределения порога нужно ввести минус единицу.
6-я строка: 1 для использования Gaussian или же 0 для использования только LSM
7-я и далее строки: значения компонентов

Кстати, долгожданный графический интерфейс готов. Сделал его отдельной программой. При запуске нужно выбрать используемый калькулятор (путем указания файла с данными популяций) и потом ввести значения для конкретного человека.
После нажатия на кнопку «Go!» будет сгенерирован input.txt и запустится внешняя программа расчетов.
Можно одновременно запускать несколько для разных данных одного калькулятора (так как input.txt читается только в момент начала расчетов). Естественно, выходные файлы указывать разными. Смотреть их все так же -блокнотом.

Версия 0,95: http://db.tt/q5pEFZCh

Комментарии автора (несколько отредактированы для удобства):

Просто редактируйте файл input.txt подставляя туда свои значения из результатов калькулятора (вместо прочерков для отсутствующих компонент вводите нули).

В начале файла input.txt указываются следующие параметры:
1. Имя (условное) тестируемого. Сделано для удобства идентификации данных, также это имя потом указывается в выходном файле.
2. Имя файла с данными популяций.
3. Имя файла с результатами. Сделано для удобства.
4. Число выдаваемых приближений.
5. Порог компонента. Значения компонентов, которые меньше его, принимаются равными нулю.
6. Порог метода. При вычислении расстояний между данными и приближением, расстояние между компонентами, меньшие этого порога, не учитываются.
7. Номер метода вычисления расстояний, который будет использован. Доступно 8 методов с номерами от 0 до 7, показавших наилучшие результаты. Ноль соответствует методу квадратов. Если указать в качестве номера метода отрицательное число, то будут последовательно использованы все методы.

Как и было обещано, теперь выдаются приближения не только для 4 предков, но и для меньшего их числа. В случае 3-х предков, считается, что первый — это один из родителей, а остальные двое — это бабушка и дедушка со стороны другого родителя.

Еще один калькулятор (устаревший) http://esquilax.stanford.edu/#painting

За кулисами: как создавался этно-популяционный калькулятор World-22

Летом 2011 года я создал целый рядсобственных модификаций получившего широкую известность калькулятора DIY Dodecad гениального грека Диенека Понтикоса. К моему приятному удивлению, за прошедшее время калькулятором успело воспользоваться несколько тысяч людей, некоторые из которых даже выложили свои результаты в Интернете.  Разумеется, многие также разместили и свои собственные интерпретации полученных результатов. Некоторые из приведенных в комментариях интерпретации выделялись (в хорошем смысле этого слова) высоким академическим уровнем, но мне попадались и такие комментарии, при чтении которых становилось понятно, что авторы не только не понимают принципов и сути парадигмы анализа, предложенного Понтикосом, но и — что гораздо хуже — выдавали свои фантазии за действительности. Особенно часто мне попадались подобные фантастические рассуждения в русскоязычном секторе Интернета.Пример такого невежества можно найти в рассуждениях само-провозглашенного академика ДНК-генеалогии Анатолия  Клесова:

Но и в этом случае различия все равно будут между русскими и монголами. Качественно и как-то полуколичественно его можно рассматривать, но не в виде профанации, как это делает Понтикос. Более того, это рассмотрение – если правильно – надо проводить не на выбранных маленьких фрагментах, а действительно по всему геному. На маленьких фрагментах будут вылезать отдельные особенности – то присущие в основном, например, гаплогруппам Y-I2 и мтДНК-Н, то кому-то еще. И это еще будет зависеть от разрешения, которые и обозначают индексами К=4, К=8 и другими. То есть берут маленький фрагмент генома, да еще с малым (или бóльшим) разрешением, стягивают в точку, и все равно получают в целом ерунду. Но для коммерции годится. Годятся для коммерции и вот такие, в частности, «открытия» того же Понтикоса: Перевод: Интересно то, что европейская популяция показывает присутствие американских индейцев, что показывает и f-статистика, и она же показывает присутствие компонента с Сардинией. Как видим, Понтикос уже забыл, что названия им придуманы как попало, и уже придает им абсолютные значения. Про Сардинию Понтикос уже вошел в состояние экзальтации. Он придает Сардинии некую пра-европейскую значимость, на основании, конечно, этой ерунды с «геномом», который анализирует как хочет. Пример – он трубил по всему свету, что Отци, «ледовый человек», имел геном «Сардинии». Однако только что опубликована статья о том, что Отци – никакая не Сардиния, а типичная Центральная Европа. Ну, и что делать будем? Понтикос, с его страстным желанием сенсаций, каждый раз наступает на одни и те же грабли. Впрочем, фарс продолжается. Теперь тем же занялся некто российский Веренич, а именно тоже насчитывает «польскую компоненту», пользуясь подходом своего гуру-Понтикоса.

Принимая во внимание вышесказанное, я решил просветить русскоязычную общественность относительно каким образом создавалось один из вышеупомянутых калькуляторов-модификаций (а именно World22, поскольку я считаю ее самой удачной модификацией). Тем более что в ходе многочисленных экспериментов было убедительно показано, что результаты моего калькулятора являются наиболее точными для выходцев из Восточной Европы.  В просветительских целях я перевел одно  из сообщений своего англоязычного блока на русский язык.  Надеюсь, что по прочтению этого текста, у читателя сложится более полное представление о принципах этно-популяционного анализа с помощью DIY калькуляторов.

Предварительные замечания

Как вы возможно знаете, MDLP блог не обновлялся с февраля 2012 года.  Полгода тому назад я пообещал себе, что я не буду писать новые сообщения на MDLP блоге до те пор пока я не напишу краткую научный отчет о проделенной работе. Так как приоритеты завершения научной работы были важнее рутиного обновления блога,  то  в связи с нехваткой времени, я был не в состоянии продолжать обновление блога на регулярной основе, в связи с нехваткой времени, я должен был внести изменения в свой исследовательский график. Поэтому я решил воздерживался от размещения новых данных на блоге в течение нескольких месяцев, фокусируясь на более важных вопросах. Несмотря на все ограничения, я продолжал втайне работать  на проектом MDLP, сбором необходимых данных и выполением различных ‘геномных’ экспериментов в целях достижения своей конечной цели. Однако с течением времени, некоторые результаты секретных экспериментов с новыми полногеномными популяционными выборками и инструментами в конечном итоге просочились в Интернет,  порождая огромный интерес к моему проекту. После выпуска новой версии моей собственной модификации DIYDodecad калькулятор на сайте Gedmatch.com, я был буквально завален письмами пользователями сервиса Gedmatch.com.
Тогда я осознал свою основную стратегическую ошибку, которая заключалась в  отсутствии подробной документации к выпущенными мной данными и результатам анализа, и почувствовал себя обязанным разместить более подробные разъяснения. Очевидно, я начну новую серию публикацию в своем блоге,  которая будет тесным образом связанна с теми аспектами моей работы, которая наиболее интересует общественность, то есть с калькулятором MDLP World22.

Основы отбора референсных популяций калькулятора MDLP World22.

Референсный набор  популяций в этом калькуляторе был собран в программе PLINK   методом «intersection&thinning» ( дословно «пересечением и истончением») образцов из различных источников данных: HapMap 3 (отфильтрованный набор данных КЕС, YRI, JPT, CHB), 1000genomes,   Rasmussen et al. (2010),   HGDP (кураторская база данных Стэнфордского университета), Metspalu et al. (2011),  Yunusbayev et al (2011), Chaubey et al. (2010) и т.д.
Кроме того, я отобрал произвольным образом по 10 сэмплов (или максимальное количество доступных сэмплов в тех случаях, когда общее число сэмплов в популяции было меньше 10) от каждой европейской страны, представленной в панеле базе данных POPRES. Наконец, для того чтобы оценить степень корреляции между современным и древним генетическим разнообразием населения Европы, я также включил в выборку образцы древней ДНК Эци (Keller et al. (2012)) ,  образцы житлей шведского неолита Gök4, Ajv52, Ajv70, Ire8, STE7 ( Skoglund et al. (2012)) и 2 образца La Braña  — останков мезолитических жителей Пиренейского полуострова (Sánchez-Quinto et al.(2012)).
Затем я добавил 90 образцов — анонимизированных данных — участников моего проекта. После слияния вышеупомянутых наборов данных и истончения набора SNP с  помощью особой команды PLINK, я исключил SNP-ы с  более чем 1% минорных аллелей. После чего я отфильтровал дубликаты, лиц с высоким уровнем общих по происхождению идентичных сегментов (IBD). В качестве критерия фильтрации  были использованы расчеты IBD в Plink, где IBD представлена как средняя доля аллелей общих между двумя людьми по всем анализируемым локусам.  Затем я удалил из выборки лиц с  высоким коэффициентом предпологаемого родства (коэффициенты родства были вычислены в программном обеспечении King). Для получения более стабильных результатов, я также отфильтровал сэмплы с более чем 3 стандартными отклонениями от средних данных  по популяции. Поскольку коэффициент родства может быть надежно определен с помощью оценки HWE (ожидания, вытекающего из закона Харди-Вайнберга) между SNP-ами с той же базовой частотой аллелей, то SNP-ы с существенным отклонением (p < 5.5 x10−8) от  ожидания Харди-Вайнберга были удалены из объединенного набора данных. После этого я выделил те SNP-ы, которые присутствовали в чипах Illumina / Affymetrix, и затем произвел фильтрацию снипов на основе расчетов степени неравновесного сцепления  (в этой я использовал хромосомное ‘окно’ размером в 50 базовых пар, с шагом 5 базовых пар и пороговым значением уровня сцепления R ^ 2, равным 0,3).
По окончанию этой сложной последовательности операций, я получил окончательноый набора данных, который включал в себя 80 751 снипов,  2516 человек и 225  референсных популяций.

Анализ этно-популяционного адмикс

 В ходе следующенго этапа, окончательный набор данных по референсным популяциям (которые я храню в linkage-формате PLINK) был обработан в программе Admixture.  Во время выбора подходящей модели проведения теста на этно-популяционный адмикс, я столкнулся с крайне трудной задачей: как было показано в профильных научных исследованиях (Patterson et al.2006) количество маркеров, необходимых для надежной стратификации популяций в анализе обратно пропорциональна генетическому расстоянию (фСТ) между популяциями. Согласно рекомендациям пользователей программы Admixture, считается что примерно 10 000 генетических SNP-маркеров достаточно для выполнения интер-континентальной GWAS -коррекции обособленных популяций (например, уровень дивергенции между африканскими, азиатскими и европейскими популяциями  FST > 0.05), в то время как для аналогичной коррекции между внутриконтинентальными популяциями требуется более чем 100000 маркеров (в Европе, например, ФСТ < 0.01). Для повышения точности результатов Admixture я решил использовать метод, предложенный Dienekes. Этот метод позволяет преобразовать частот аллелей в «синтетические» индивиды (см. также пример Зака Аджмала из проекта HarappaDNA). Идея метода довольно проста: сначала необходимо запустить unsupervised анализ Admixture с целью вычисления частот аллелей в так называемых предковых компонентов, а затем на основании аллельных частот сгенерировать «фиктивные популяции».  Именно эти фиктивные популяции и индивиды будут использоваться в ходе чистых референсов в ходе последующего анализа этно-популяционного анализа.
Впрочем, как и любой другой исследователь, работающий над четким решением проблемы этно-популяционного адмикса, я вынужден считаться с ограничениями этого подхода. Хотя я и отдаю себе отчет в существовании явных методологических подвохов в использовании смоделированных искусственных индивидов для определения адмикса в реальной популяции, я все же скорее склонен согласиться с Понтикосом, которые считаeт полученных в ходе  аллельно-частотного моделирования «фиктивных индивидов» лучшей аппроксимацией древних генетических компонентов мирового народонаселения.Как бы то не было, моделирующий подход, предложенный Диенеком и Заком, сослужил свою хорошую службу, поскольку были мной были получены  значимые результаты в ходе создания нового калькулятора. Сначала я произвел unsupervised Admixture (при значении К = 22, т.е 22 кластера частот аллель или предковых компонентов). По выполнению анализа нами были получены оценки коэффициентов адмикса в каждой из этих 22 аллельных кластеров, а также частоты аллелей для всех SNP-ов в каждой из 22 родовых популяций.
Затем я использовал мнемонические обозначения для каждого компонента (имена для каждого из компонентов выведены в  порядке их появления). Нужно помнить, что обозначения этих компонентов носят скорее мнемонический условный характер:
Pygmy
West-Asian
North-European-Mesolithic
Tibetan
Mesomerican
Arctic-Amerind
South-America_Amerind
Indian
North-Siberean
Atlantic_Mediterranean_Neolithic
Samoedic
Proto-Indo-Iranian
East-Siberean
North-East-European
South-African
North-Amerind
Sub-Saharian
East-South-Asian
Near_East
Melanesian
Paleo-Siberean
Austronesian
Вышеупомянутые частоты аллель, вычисленные в ходе unsupervised (безнадзорного) анализа (Admixture K = 22) объединенного набора данных, были затем использованы для симуляции синтетических индивидов, по 10 индивидов на каждую из 22 предковых компонент.  Это симуляционное моделирование проводилось с помощью PLINK команды -simulate Когда моделирование было закончено, я сделал визуализацию расстояния между симулированными индивидами с использованием многомерного масштабирования.
На следущем этапе, я включил группу смоделированных индивидов (220 индивидов) в новую эталонную популяцию. После чего я запустил новый анализ А, на этот раз в полном «поднадзорном» режиме для K = 22, причем полученные в ходе симуляционного моделирования фиктивные популяции фиктивных индивидов использовались в качестве новых референсных эталонных групп.  На конвергенцию 22 априорно заданых предковых компонентов было затрачено  31 итераций (3 7773,1 сек) с окончательным loglikelihood: -188032005,430318 (ниже приведена таблица значений Fst  между расчетными ‘предковыми’ популяциями):
Приведенная выше матрица  Fst дистанций  была использована для определения наиболее вероятной топологии NJ-дерева всех 22 предковых компонентов ( примечание: в качестве outgroup-таксона использовался South-African component). Индивидуальные результаты ‘поднадзорного’ анализа этно-популяционных миксов (в формате Excel) для участников проекта были загружены на GoogleDrive.

MDLP World22 DIYcalculator

Выходные файлы «поднадзорного» анализа  Admixture K=22 (средние значения коэффициентов адмикса в референсных популяциях и значения Fst) были использованы для разработки новой версии DIYcalculator MDLP, который более известен под кодовым названием «World22» (онлайн версия доступна разделе Admixture-утилит на сервисе Gedmatch в рамках проекта MDLP). Как я уже упоминал выше, MDLP DIYcalculator работает на коде Dodecad DIY calculator (c) Dienekes Pontikos.
В свою очередь,  реализованная на сервисе  Gedmatch модификация DIYcalculator ‘World22’ комбинирована с  Oracle ‘World22’ MDLP, который также работает на коде Диенека и Зака Аджмала ​​(Хараппа/DodecadOracle). Программа «Oracle» работает в двух режимах. В режиме single population программа определяет ближайщие (к анализируемому геному) референсные популяции калькулятора Word22. В смешанном режиме, Oracle рассматривает все пары населения, и для каждой из пар вычисляет минимальное Fst-взвешенное расстояние между парой и анализируемым геномом, а также  коэффициенты сходства.
Предковые популяции (т.е. полученные в ходе симуляционное моделирования популяции — см. выше) обозначены в результатах Oracle суффиксом anc, в то время реальные современные и древние популяции обозначены суффиксом der.
Если у Вас возникли проблемы с пониманием/интерпретацией результатов Oracle и DIYcalculcator,  то я настоятельно рекомендую обратится к соответствующим темам в блогах  Dodecad и НаrappaWorld . Я полагаю, что не имеет особого практического смысла заново изобретать велосипед и слово в слово повторять то, что уже было написано более компетентными в этом вопросе людьми.

Что представляют собой компоненты MDLP World-22?

Один из наиболее частых вопросов, которые задают мне пользователи калькулятора, напрямую касается практической интерпретации референсных популяций и предковых компонентов в моих калькуляторах K = 12 и World-22 анализов в виду. Чуть выше по тексту я уже привел часть ответа на этот вопрос , но — как гласит старинная китайская пословица — одна картинка стоит десять тысяч слов. Вот почему я решил визуализировать компоненты на поверхности земного шара путем отображения коэффициентов адмикса. Избегая излишних премудростей, я воспользовался готовым рецептом Франсуа Оливье, который предложал  использовать графическую библиотеку статистического программного обеспечения R для отображения пространственной интерполяции  коэффициентов адмикса (Q матрица) в двух измерениях (где пространственные координаты записываются как географические долгота и широта).  Благодаря этому решению, мне удалось создать по 2 контурные карты на каждый из предковых компонентов.Pygmy (модальный компонент в  популяциях африканских пигмеев Biaka и Mbuti)

West-Asian (бимодальный компонет с пиком на Кавказе и юго-восточной части Ирана, приблизительно идентичен компонентам Caucasian/Gedrosia Диенека Понтикоса)
North-European-Mesolithic (локальный архаичный компонент с пиком в популяции древних европейских жителей Иберийского полуострова La_Brana и современной популяции саамов).
Tibetan (Indo-Burmese) component (Гималаи-Тибет)
Mesomerican (главный генетический компонент  у мезоамериканских америндов)

 

North-Amerind (нативный компонент северо-американских америндов)

South-Amerind (нативный компонент южно-американских индейцев)
  Atlantic-Mediterranean-Neolithic (доминируюший компонент  в западной и юго-западной Европе)

Контурные карты прочих компонентов можно скачать здесь.

Результаты проекта MDLP 2011-2012

Прошел почти два года с момента старта биогеногеографического проекта MDLP.
Через полтора гоад упорного труда, я наконец-то свел в единое целое предварительные данные по чистотам аллелей 150 000 снипов в 40 евразийских популяций. Аллельные компоненты (начиная с K=5 до K=15) были выявлены с помощью квазиньютоновского метода ускорения конверценции итеративных алгоритмов, имплементаированных в программе ADMIXTURE.
Затем файл со значениям частот аллелей был адаптирован для работы с этнопопуляционным калькулятором Диенека Понтикоса (в DOS shell и программной средой R). Каждый из компонентов получил название, более или менее соответствующее популяции или группы популяций, в которых частоты аллелей принимали максимальное значение,
Поскольку все калькуляторы заточены под евразийские популяции, то и названия компонентов привязаны к регионам Евразии.

И хотя на этом можно было бы остановится, однако к моему удивлению, многие из пользователей калькулятора Понтика так и не смогли овладеть требуемыми навыками.

Поэтому-то я и решил попросить глубокоуважаемого Джона Олсона и его помощиников имплементировать мои модификации калькулятора DIYDodecad в виде веб-сервисов.
Теперь от конечных пользователей продукта требуется только загрузить данные со своими генотипами в формате FTDNA или 23andme и выбрать в выпадающем меню один из K-анализов (где K-число генетических кластеров или компонентов)

Прошу любить и жаловать

http://www.gedmatch.com/

Magnus Ducatus Lituaniae Project (MDLP) K5-K12
Admixture Proportions
Admixture Proportions by Chromosome
Admixture Chromosome Painting
Admixture Chromosome Painting
Admixture Chromosome Painting — Compare a single chromosome between 2 kits

http://ww2.gedmatch.com:8006/autosomal/ap_mix1_mdlp.php
http://ww2.gedmatch.com:8006/autosomal/ap_mix1w_euro.php
http://ww2.gedmatch.com:8006/autosomal/ap_mix1z_euro.php
http://ww2.gedmatch.com:8006/autosomal/ap_mix1zzz_euro.php
http://ww2.gedmatch.com:8006/autosomal/ap_mix1zz_euro.php