Работа над ошибками: неудача в создании дизайна нового калькулятора MDLP World K23

К сожалению, после полгода работы над новой версией генетико-этно-популяционного калькулятора MDLP World K23, должен признать, что из-за неправильных методологических решений, от релиза калькулятора придется отказаться.

В чем же кроются oшибки?

Как известно, референсные популяции в уже существующих калькуляторах образованы путем соединения (слияния) различных наборов популяций из баз данных геномных проектов и научных исследований. Наиболее важными источниками следует признать следующие:

Полученные путем слияния данные хранятся в стандартном формате Plink. Но, как говорится, не все так просто.  Хотя в некоторых из вышеприведенных источниках данные поставляются уже в готовом формате Plink, большинство все же имеют другой формат. Ситуацию усложняет и тот факт, что данные (генотипы) в  разных файлах могут даваться в разных ДНК-цепях; геномные координаты соотвествуют разным  геномным билдам человеческого геномного референса (b36 или b37). Наконец, вместо классических генотипов, могут приводится данные по частоте минорных аллель.
Но самая главная проблема — это существенное расхождения числа генотипированных снипов в разных базах данных. В самых больших проектах, вроде 1000genomes и HapMap, число прошедших QC-фильтры снипов приближается к миллионам, в то время как в научных данных из публикаций, число снипов в панели генотипирования выборки часто не превышает 100-300 тысяч. Вторая важная проблема — использование разных платформ генотипирования, например Illumina или Affymetrix; и по причине этого только часть снипов выборки, типированной с помощью машин Illumina перекрывается со снипами выборки, типированной на другой платформе. Поскольку большинство полногеномных этно-популяционных анализов требует наличие однородной выборки, то это означает что при собирании референсной популяций неизбежно приходится придерживаться четкого правила —  удаление снипов имеющих низкую частоту (менее 0.01) генотипирования в одной из соединяемых выборок. Совершенно очевидно, что при поэтапном слиянии выборок, большинство снипов теряется; так, вместо первоначальных 2 миллионов снипов, на конечном этапе мы можем получить всего 20 000 снипов.

Импутирование отсутствующих генотипов —  потенциальное решение проблемы?

Одним из возможных вариантов решения проблемы сохранения баланса между количеством и качеством снипов является использование алгоритмов импутирования (определения) отсутствующих генотипов. Обычно для этих целей я пользуюсь программой Beagle, однако в этот раз я решил использовать более мощную комбинацию программ ShapeIT и IMPUTE и  метод импутирования снипов за счет использования большой референсной панели аутосомных гаплотипов (из 1000 genomes),  гарантирующей более аккуратное определение снипов.

Я не буду загружать читателя избытком технической информации касательно аспектов фазирования. Скажу лишь, что после нескольких месяцев использования эвристического метода проб и ошибок, я пришел к оптимальному сочетанию снипов в файле полученном путем соединения вышеуказанных выборок.  В целях сохранения совместимости с данными генотипирования от коммерческих компаний, я снизил  до примерно 130 000 (именно такое число снипов является общим при слиянии данных 1000genomes, файлов 23andme и Family Finder от FTDNA). Именно эти снипы и были задействованы при параллельных процессах импутирования в IMPUTE.

В результате я рассчитал аллельные частоты примерно 130000  снипов по референсным популяциям, взятым из академических источников. С целью сохранения совместимости с коммерческими данными, были выбраны только те снипы, которые присутствуют либо в последнем чипсете 23andme, и/либо в последнем чипсете FAmilyFinder от FTDNA. Я высчитал средние значения каждого из 23 компонентов для всех референсных популяций. Также имеются данные по кластерному определению каждого из снипов. Судя по разбивке популяций, они выглядят весьма правдоподобными. Но некоторые кластеры вызвают вопросу. Поэтому перед тем как делать релиз очередного этно-популяционного ДНК-калькулятора, я решил воспользоваться услугами бета-тестеров. В первую очередь, я надеялся на помощь Александр Бурнашев и Srkz (Сергея Козлова) поскольку они лучше остальных в русскоязычном секторе любителей ДНК-генеалогии понимают принципы работы калькуляторов на основе Додекад DIY.

Затем я произвел запуск тестовой версии ДНК-калькулятора с целью проверки надежности предковых компонент. Названия пока носят условный характер.
West-African 0,44

Caucausian 28,87

Near-East-Mediterranean 0,07

Samoyedic 1,66

Polinesian 1,27

North-European 11,36

Amerindian 1,12

East-European 36,89

South-African 0,34

Papuan-Melanesian 0,85

East-African 0,12

Central-Asian-Caucasian 2,37

Arabic 3,51

Nigerian 0

Central-African 0,04

Indian 9,98

Sino-Tibetan 0,13

Indo-Chineese 0

Sub-Saharian 0

West-Mediterranean 0

Для сравнения -усредненные результаты референсных беларусов

East-European 41,6645%

Caucausian 26,3905%

Indian 12,1348%

North-European 11,0739%

Near-East-Mediterranean 2,0315%

Indo-Chineese 1,4123%

Austronesian 1,1291%

Samoyedic 1,1257%

West-African 1,0845%

Polinesian 0,6104%

Nigerian 0,5530%

Arabic 0,4754%

South-African 0,3044%

North-African 0,0010%

North-European-Caucausian 0,0010%

Amerindian 0,0010%

Papuan-Melanesian 0,0010%

East-African 0,0010%

Central-Asian-Caucasian 0,0010%

Central-African 0,0010%

Sino-Tibetan 0,0010%

Sub-Saharian 0,0010%

West-Mediterranean 0,0010%

Критика и очевидные ошибки

Бета-тестеры указали на очевидные несуразности в результатах калькулятора:

У меня есть RAW Data своих родственников и еще пары человек, я прогнал их через калькулятор, добавил результаты ваши и вашей мамы и попробовал сравнить с таблицей. Пока на первый взгляд европейские популяции делятся на две группы — «выглядящие странно» и «выглядящие нормально». Russian_Center смотрится странно, Center-Russian — нормально. Russian_North странно, North Russian нормально. В чем между ними разница, какая популяция откуда?

Странность в том, что прослеживаются две отдельные системы географического распределения компонентов в Европе, при этом с данными реальных протестированых (7 человек, из них неродственных образцов 4) пока что коррелирует только одна из них. 4 образца достаточно, чтобы строить предположения, но для уверенных выводов лучше бы несколько десятков.

Вспоминается «эффект калькулятора» имени Поляко, когда в популяциях, которые использовались для выделения компонентов, их баланс оказывается смещен. При этом сами компоненты реальны и полезны. На примере World-22, компонент North-European Mesolithic у финнов эталонных популяций оказался Finnish 23,6; Finnish-South 30,1; Finnish-North 37,5 . У финнов же с форумов и моих совпаденцев на Gedmatch компонент стабильно между 15 (ближе к западу) и 20 (ближе к востоку), у большинства 16-17. То есть он действительно хорош для Оракула, но только с этой поправкой. Далее, когда я смотрел результаты Оракула World-22 для восточных славян, их почти всех стабильно смещало в сторону запада. Компонент Athlantic_Mediterranean у них оказывался выше на 2-3 пункта, чем в русских эталонах, а North-East European слегка ниже.

Поэтому по World-23 я сразу захотел сравнить распределение с результатами людей, не участвовавших в расчете. У нас есть три реперные точки — Белоруссия в вашем лице, северо-восточные русские в лице моей семьи, есть образец центрального русского и дополнительно лицо смешанного славяно-ашкеназского происхождения. У всех распределение компонентов укладывается в одну систему, и близко к распределению во многих европейских популяциях в таблице. Основные компоненты East-European, Caucausian, Indian, North-European, Samoyedic.

А вот компоненты, по которым географическое распределение удивляет: Пара West-Mediterranean/North-European (North-European, когда его больше 15%). Есть ряд популяций, которые состоят только из этих двух компонентов, в треугольнике Сардиния-Оркнейские острова-Россия. Сформирован клин Сардиния-Прибалтика. У русских показано Russian North-Euro 72,59%, West-Med 27,05%. При этом у всех семерых протестированых West-Mediterranean ноль либо практически ноль, North-European в диапазоне 7-11. French_Basque получили всего 8,92% West-Mediterranean, вместо этого компонента Средиземноморье у них представлено 38,6% Caucausian

North-European-Caucausian встречается в нескольких популяциях, зато по всей планете, очень непонятный компонент. У протестированых в пределах 0-2 процента.

Пара мыслей по другим компонентам: По Indian очень интересное распределение, на первый взгляд это давно известный Gedrosia/Baloch. Однако если Gedrosia распространяется в Европу больше по маршруту Турция-Балканы-Германия-Британия, то Indian World-23 преобладает у финно-угорских народов (маршрут Каспий-Поволжье-Финляндия), а в направлении Западной Европы спадает. А ведь давно замечено в других калькуляторах неожиданное проявление небольших количеств Индии у финно-угров. Пока что результаты протестированых распределение Indian не опровергают и не подтверждают.

Samoyedic пик у юкагиров, скорее его можно назвать Siberian или North-Eurasian

Результаты (названия компонентов вписал в калькулятор сам, может слегка не совпадать) Русская из Сибири (близка к северным) 0.00% North-African 0.88% North-European-Cauca 0.10% Austronesian 1.74% West-African 22.08% Caucasian 1.09% Near_East-Med 8.18% Samoedic 2.02% Polinesian 7.96% North-European 0.99% Amerindian 35.79% East-European 0.91% South-African 0.76% Papuan-Melanesian 0.00% East-African 4.32% Central-Asian-Caucas 2.45% Arabic 0.00% Nigerian 0.00% African-1 10.72% Indian 0.00% Sino-Tibetan 0.00% Indo-Chinese 0.00% African-2 0.01% West-Mediterranean

Русский из центральных областей: 0.00% North-African 1.98% North-European-Cauca 0.38% Austronesian 0.75% West-African 25.45% Caucasian 1.57% Near_East-Med 2.48% Samoedic 1.12% Polinesian 9.70% North-European 1.03% Amerindian 35.59% East-European 0.01% South-African 2.32% Papuan-Melanesian 0.00% East-African 2.81% Central-Asian-Caucas 3.44% Arabic 0.00% Nigerian 0.00% African-1 11.37% Indian 0.00% Sino-Tibetan 0.00% Indo-Chinese 0.00% African-2 0.00% West-Mediterranean.

я прогнал через ваш калькулятор около 20 человек из разных мест европейской части России/СНГ. Ну явно что-то не так с частью исходных популяций. ИМХО, до тех пор, пока непонятны причины этого, результаты так и будут странными. Ощущение, что просто вместе объединены несколько разных калькуляторов с разными популяциями. Почему, к примеру, Russian_Center, Russian_cossack, Russian_North на выходе имеют 46-50% таджикско-лакского компонента Central-Asia? Или это так и задумано? В чем тогда цель? Коротко пробегусь по дереву компонентов, что получилось на данных людей, не участвовавших в расчете: Sub-Saharian (+ кое-где East-African) — выскочило практически у всех в диапазоне 1-3%. Уральско-сибирская веточка смотрится адекватно, за исключением компонента Sino-Tibetan, который проявился в диапазоне 0-2,2 без какой-либо видимой закономерности. Дальше у нас самая странная ветка, где объединились Центральная Азия, Европа и Африка. Как раз к ней-то и относятся странные популяции. У реальных же людей из этой ветки наиболее нормально проявилась Европа — Балтика+Северо-Западная Европа растут при приближении к Литве, Central-Asia уже более разбросана, но общее распределение правдоподобно, однако у всех присутствует и Африка, причем у большинства сумма трех компонентов North African, West African, Central African в районе 4-5 процентов. Indian проявляется в очень небольших количествах, в основном у тех же людей, что и в других калькуляторах. Выглядит адекватно. Ближневосточная ветка явных несообразностей не содержит, но распределение не очень четкое, ощущение зашумленности. Jewish у женщины 1/4 ашкеназкого происхождения не проявился (3,13), вместо него 8,41 Near-East. Почему-то на втором месте по Near-East вы, видимо, шум. Европейская ветка — North-Eastern-Europe и West-Southern-Europe выглядит отменно. Правда, вызывает сомнение, что в этом калькуляторе эталоном северо-восточных европейцев стали финны, а литовцы, наоборот, оказались аутсайдерами со своим отдельным компонентом. Как-то привычнее наоборот )) . Но так даже интереснее. Таблицу исходных популяций почти не прорабатывал по вышеизложенным причинам.

Надеюсь, вы не в обиде на мою критику )) ИМХО, единственное, чем я могу помочь — это именно посмотреть взглядом человека, который много возится с Оракулами. В чем все-таки может быть причина задвоения кластеров? Я не понимаю специфику работы с Admixture, поэтому сам предположить не могу. Разве что другой набор снипов в лишних популяциях? Или расчет кластеров идет несколькими отдельными кусками?

 Как я и предполагал при первоначальных тестовых запусках выявились странности с африканским и центрально-азиатским компонентом.  Впрочем, то что будут странности было видно уже на дереве Fst между компонентами. Я считаю, что корень проблемы  -это фазированные и импутированные данные. Думаю причина именно в этом. Если это так то придется убрать практически все странные или неправдоподобные популяции из коллекции. Если и после изменений с новыми данными ничего не получится, придется убирать провальные популяции.

Насчет африканских компонентов есть еще одно объяснение. Когда я брал выборку с неандертальцами и денисовцами, они практически всегда оказывались в пигмейском кластере (он видимо самый архаичный и древний). Так что скорее в этих 4-5% содежится и реальный африканский след, и «прокси» сигнала древнего адмикса с неандерами и денисовцами. Как показывают неандертальские тесты на 23andme и NG, диапазон такого адмикса с евразийцами составялет 2-4 % В целях поиска первоисточника  ошибки,  я переделал еще раз данные под калькулятор. К сожалению, в первых исправлениях калькулятора пришлось отказаться от популяций Panasian dataset.

Как я не пытался, популяции в этой выборке упорно не кластеризуются с другими юго-восточными азиатскими популяциями )).

В итоге, они практически всегда образовывали в результатах Admixture свой собственный кластер.

Maya Auca Quechua Karitiana Pima Ami Atayal Melanesians Zhuang Han_Cantonese Hmong Jiamao Jinuo Han_Shanghai Uyghur Wa Alorese Dayak Javanese Batak_Karo Lamaholot Lembata Malay Mentawai Manggarai Kambera Sunda Batak_Toba Toraja Andhra_Pradesh Karnataka Bengali-Assamese Rajasthan Uttaranchal Uttar Pradesh Haryana Spiti Bhili Marathi Japanese Ryukyuan Korean Bidayuh Jehai Kelantan Kensiu Temuan Ayta Agta Ati Iraya Minanubu Mamanwa Filipino Singapore_Chinese Singapore_Indian Singapore_Malay Hmong (Miao) Karen Lawa Mlabri Mon Paluang Plang Tai_Khuen Tai_Lue H’tin Tai_Yuan Tai_Yong Yao Hakka Minnan

Итак в переделанной версии нового калькулятора, этно-генографическое происхождение моего генома выглядит следущим образом (в процентах): North-East-European 37,03 Caucasian 25,36 Balto-Scandinavian 10,73 East-Mediterranean 8,67 Near-Eastern 5,46 South-Indian 4,07 Amerindian 2,25 Central-Asian 2,09 Siberian 1,62 East-African 0,65 Dagestan 0,63 Austronesian 0,54 Tibeto-Burmese 0,41 Pygmy 0,39 North-Indian 0,07 West-African 0,03 Paleo-Siberian 0,01 North-African 0 South-Asian 0 Central-African 0 Equatorial-African 0 Sub-Saharan 0 Atlantic-Mediterranean 0 Иными словами, в своей генетической основе я на 33% северо-восточно-европейцев (наследие кордедов-шнуриков и уральцев ямочно-гребенчатой культуры), на 25,36 — носитель анатолийско-кавказских аллелей (в Европе львиная доля этих аллелей — наследие потомков неолитических поселенцев-земледельцев) . East-Mediterranean 8,67 + Near-Eastern 5,46 = 14% ближневосточных аллелей (семито-арабско-еврейская кровь). 11% балто-скандинавских аллелей — наследие мезолитических охотников-собирателей северной Европы. 4% дравидских генов — это явный цыганский след. Ну и наконец, Amerindian 2,25 + Central-Asian 2,09 + Siberian 1,6% — примерно 5% тюркско-сибирско-монгольских генов.

В ходе последующих изменений и уменьшении числа снипов всего до 900 (!)  получилось впихнуть и паназиатскую выборку, богатую популяциями восточной и юго-восточной Азии, и данные из статьи Xing et al.2010. Для коррекции данных, добавил еще в выборку генотипы неандертальцев и денисовского человека. На этот раз уменьшил и число априорных компонентов до 15. На выходе я получил матрицу дивергенции (Fst) между прогнозируемыми предковыми компонентами. Поскольку это есть ни что иное, как матрица дистанции, то я преобразовал ее в дерево с помощью метода Wheeler (2009) NINJA large scale Neighbour-Joining clustering method.

1069319_10201480061153220_287033667_n

В результате получилось дерево, которое весьма неплохо коррелирует с топологиями Y-хромосомного и митохондриального древ человечества. За значение 1.0 принят возраст корня, все остальные цифры в дробях на ребрах дерева (ветвях) означают возраста относительно корня. Например, цифра 0.27 на узле обозначающем диверегенцию австронезийского и восточноазиатского компонента, означает что компоненты дивергировали относительно друг друга 0.27*(возраст дерева) лет тому назад. Теоретически, если мы сможем откалибрировать возраст дерева (или принять априорную оценку возраста корня), можно просчитать возраст диверегенции. Было бы любопытно услышать современные оценки возраста расхождения расовых стволов и возраста субрас в современной антрополгии, так как аутосомные маркеры достоверно лучше коррелируют с антропологическими или расовыми признаками, чем однородительские маркеры.  Предположим, что  возраст корня составит 100000 лет. огда время выделение западных африканцев -80 000 лет
центральных афрриканцев — 80 000 лет, выход из Африки 55 000 лет; разделение на западный и восточный ствол — 50 000 лет; выделение ближневосточно-афроазиатской ветви 45 000 лет; европейской ветви — 48 000 лет. Oколо этого же времени выделился восточный ствол, от которого практически сразу 50 000 лет тому назад ответвились дравиды и чуть позже австралоиды, и так далее.

Комментарий  Евгения Марчукова:

«А. А. Зубов (2004) писал, что начальный этап дифференциации Homo sapiens не был единомоментным, он охватывал период от раннего верхнего палеолита до неолита (включительно), а, если учесть вклад периферийных форм – процесс уходит корнями в средний палеолит. Важно, что вклад «восточного центра» в формирование современного населения отвергать нельзя, хотя линия его собственной эволюции угасла в конце среднего плейстоцена. Она была восстановлена за счет мигрантов с запада представителей «позднего архаичного сапиенса». Позже новая миграция на восток сформировавшегося сапиенса (Мальта и алтайские находки) привели к метисации с местными группами и приняла участие в формировании монголоидного ствола (Чжоукоудянь сходен с Сунгирем). «Сетевидная» эволюция ответственна за появление разных «евро-монголоидных» и «монголо-австралоидных» вариантов. Маркина Гора, Гримальди (на западе) и Лючан (на востоке) указывают на наличие периода, когда Homo был разделен на два надрасовых конгломерата – «западный» и «восточный» без четкой границы.

Доказательством этого является следующее: реликтовые одонтоглифические признаки объединяют европейцев и негроидов, австралийцев с монголоидами. По данным генетики первое деление внутри вида имеет древность 92 тыс.лет, деление внутри больших стволов – 39 тыс.лет. Бушмены и австралийцы выделились первыми- 60-90 тыс. лет, а сохранились благодаря изоляции. В направление к нашим дням происходит изживание архаики в морфологии людей. Чаще всего, идентификация субтаксонов возможно в мезолите — (неолите) – верхнем палеолите. В первичном «восточном стволе» сформировались монголоидный и австралоидный компоненты, а «западный» ствол дал европеоидный и негроидный компоненты сапиенса. Процесс дифференциа-ции имеет непрерывный характер.

Дивергенция расовых стволов происходила, по данным генетики, в пределах последних 100 тыс.лет. Ранее всех выделилась ветвь монголоидов (92 тыс.лет), протонегроиды и протоевропейцы разделились 33 тыс.лет назад. В Африке формирование экваториальных комплексов происходило еще раньше. Монголоидный и негроидный комплексы оформились окончательно позже. Европеодная и монгоидная расы наиболее метисированы.»

Затем я сделал промежуточный вариант калькулятора и решил пока на нем остановиться.
Как всегда, внизу табличка с вычисленными мною предковыми компонентами моего генома

26,09% West-Southern-Europe
24,27% North-Eastern-Europe
15,62% Caucasian-Asian
13,28% Baltic
8,14% Near-Eastern
4,44% Uralic
2,70% Central-Asia
2,32% Amerindian
1,24% Sino-Tibetan
1,16% Central-African
0,41% Sub-Saharian
0,26% North-African
0,03% Indian
0,03% West-African
0,02% Altaic-Siberian
0,01% South-Asian
0,00% East-African
0,00% West-Northern-Europe
0,00% Jewish

1000875_10201544272598466_1144492335_n

 

О «балтийских» корнях генофонда популяций эрзя и мокша

Анализ генома доисторических «шведов» (принадлежавших к готландской культуре ямочной керамики (Pitted Ware culture (около 3200 — 2300 гг. до н. э.)) показал, что они оказались в окружении плотного кольца из балтийских популяций. В эту группу вошли литовцы, белорусы, поляки, шведы, украинцы, русские (из Северной и Центральной России), мокша и эрзя. Это говорит о том, что у мокшан и эрзян сохранился генофонд старой Северной Европы.

 

 

Репост: Генетика русских, славян, кавказцев, евреев, финнов и других популяций.

Взято с сайта http://haplogroup.narod.ru/genetics_components.html

Гаплогруппы человека передаются по прямым мужской и женской линиям. Но за генетику как мужчин так и женщин ответственна информация, хранимая в аутосомах ДНК. Аутосомы — это первые 22 пары хромосом у человека, которые передаются от обоих родителей после кроссинговера — процесса рекомбинации. Таким образом от отца и матери потомкам передается примерно по равной половине генетической информации.
В данном исследовании используется более 80 000 аутосомных снипов, реперных точек — это очень высокое разрешение, позволяющее уловить даже относительно небольшие влияния на генетическом уровне у основной массы народа. Данные сравнительного анализа взяты из открытого исследования В.Веренича — специалиста по сравнительному анализу генетических компонент. Сами генетические калькуляторы находятся на сервисе GedMatch, и позволяют любому желающему узнать свое сравнительное положение на генетическом графике. Для этого достаточно иметь результаты аутосомного теста компании FTDNA, либо 23andMe. В конце исследования приведены карты географического распространения и частотных максимумов для основных аутосомных компонент из проекта MDLP World-22.
На графиках приведенных ниже показаны основные компоненты и их среднее процентное соотношение для каждой из популяций. В одной строке — процентная разбивка для одной популяции. Каждое деление (вертикальная черта) соответствует 10%, а названия аутосомных компонент располагаются в той же последовательности слева направо, что и в легенде сверху вниз. Чем более похож процентный состав общей генетики у разных народов, тем более похожим выглядит рисунок на приведенном графике. Итак приступим …

Генетика немцев, литовцев, русских, шведов, финнов и т.д.

width=760
На данном графике приведены основные генетические компоненты для европейских народов и выравнены по уменьшению восточно-европейской компоненты (North-East-European) в различных популяциях. Как видно все европейские народы достаточно различны в генетическом плане, и имея в своем наборе одинакового происхождения генетические компоненты, они тем не менее в весьма различных процентах. Для всех славян и балтов в целом одной из максимально-значимых является данная компонента Восточной Европы, которая в максимуме у литовцев и белорусов. Вероятно со времен археологической «культуры шнуровой керамики» территория этих стран была центром происхождения данной компоненты. Она представлена более 80% у литовцев, и всего 20% у итальянцев.
Фиолетовый цвет обозначает атланто-средиземноморскую компоненту, и она увеличивается по мере движения с севера-востока на юго-запад. Так у финнов она достигает в среднем 15%, а у итальянцев 40%. Остальные компоненты менее выражены.

Генетика русских

width=760
На данном графике приведены восточные славяне — русские, белорусы, украинцы.

width=760
На этом графике изображены все славяне, включая западных — поляков и чехов, а также южных — сербов, болгар, македонцев и т.д.
Основных компонент у всех славян — 2. Это восточно-европейская и атланто-средиземноморская. Первая в максимуме у белорусов, а вторая у всех южных славян — сербов, македонцев, болгар. Восточно-европейская компонента более первична по происхождению у славян, а атланто-средиземноморская является приобретенной в процессе миграций славян на Балканы.

Генетика славян, германцев, татар, кавказцев, евреев и т.д.

width=760
Данный график отображает различное происхождение среди народов России. Как видно у славян основной является восточно-европейская компонента, а у народов Поволжья повышается доля сибирских компонент. В то время как для кавказцев наиболее характерны западно-азиатская компонента, средиземноморская и ближне-восточная.

Генетика финнов, угров, удмуртов, саамов и др.

width=760
Как видно для финнов, вепсов и карел характерно схожее генетическое происхождение со славянами. У них также наиболее максимальна восточно-европейская компонента, уменьшается ближе к Уралу и Поволжью, с увеличением в этом регионе сибирских компонент. Также у всех финно-угрских народов выражена значительно компонента мезолита Европы, которая достигает почти 80% у саамов и связана с до-индоевропейским и до-неолитическим населением Европы. Для венгров в целом характерен набор тех генетических компонент, что и для других популяций карпатского региона и Центральной Европы.

Генетика кавказцев — абхазов, осетин, дагестанцев, чеченцев, ногайцев и др.

width=760
Как видно для всего Кавказа характерно сравнительно схожее генетическое происхождение — это большая доля западно-азиатской компоненты и средиземноморской. Немного выбиваются только ногайцы — у них повышается доля сибирских компонент.

Генетика евреев

width=760
Как видно у ашкеназов и у сефардов высокая частота западно-азиатской, атланто-средиземноморской и ближневосточной компонент. При этом у ашкеназов небольшое повышение до 4% сибирской компоненты, что вероятно связано с хазарским наследием. Особенно выбиваются из их «компании» только эфиопские евреи и индийские евреи. У первых высока доля субсахарской Африки, а у вторых доля индийской генетической компоненты.

География генетических компонент


Атланто-Средиземноморская

Восточно-сибирская

Индийская

Субсахарская

Ближневосточная

Восточно-европейская

Самодийская

Мезолит Европы

Западно-азиатская

Пигмейская

Методы и программы, используемые в работах с аутосомными маркерами ДНК

Вот краткое описание методов анализа аутосом, которые я использовал в своих проектах.

Admixture/Structure – метод позволяет провести доскональный анализ генетической субструктуры в исследуемых группах популяций – этнических групп. Если не вдаваться в подробности, на выходе получаются результаты в виде кластеров аутосомных снипов, по которым можно делать выводы о сходстве или различии сравниваемых групп, а также о процессе этнического формирования. Кроме того, можно рассчитать генетическую дистанцию между отдельными группами.
Adler – метод позволяет оценить время смешения предковых популяций для одной или нескольких групп, а также степень схожести современных этнических популяций и их предковых групп.
SPA – с помощью этой программы можно предсказать на основе генетических данных предполагаемый географический регион происхождения.

PCA/MDS  — стандартные статистические методы поиска главных компоненто/многомерного скалирования генетического разнообразия в исследуемых группах. Результаты можно представить в виде графика отображающего взаимное положение групп в многомерном пространстве генетического разнообразия.

fineStructure – принцип тот же что и в Admixture/Structure, c той лишь существенной разницей что он позволяет выявить внутренние генетические субструктуры этнических групп, которые точнее отображают исторические демографические процессы их становления.

fastIBD/Germline – программы поиска идентичных по генеалогическому происхождению геномных сегментов в генетических данных протестированных лиц. Результаты можно визуализировать в виде матрицы дистанций, которую можно преобразовать в древовидную структурк – дендрограмму.  Дендрограмма показывает степень близости отдельных объектов и кластеров, а также наглядно демонстрирует в графическом виде последовательность их объединения или разделения. Количество уровней дендрограммы соответствует числу шагов слияния или разделения кластеров.

 

О некоторых понятиях генетики и ДНК-генеалогии

В целях просвещения масс, я решил начать серию постов, посвященных базовым понятиям генетики и ДНК-генеалогии. Однако вместо традиционного подхода к объяснению понятий через определения, я решил использовать метод сократической майевтики, то есть ответа на вопрос.

Что такоe снип?

Снип (SNP) -это одиночный нуклеотидный полиморфизм, в генетической систематике относящийся к группе бинарных мутаций UeP (unique event polymorphism, т.е уникальных полиморфных событий).Почему уникальных? Потому что, шанс случайного совпадения аллеля снипа у людей, несвязанных между собой общим происхождением, мал. Правда, существуют отдельные снипы, которые выявлены сразу у нескольких гаплогрупп. Однако эти волатильные снипы не используются для филогенетической классификации ISOGG-дерева Y. Существует отличие и от понятия SNV (single nucleotide variant), но это понятие носит сугубо статистический характер, cнип определяется не просто как вариант, а как полиморфизм в том случае если он встречается у более чем 1% народонаселения.

Что такое DNA strand?

DNA Strand  — это одна из цепочек ДНК (которая комплиментарна по отношению к другой). Обозначается как strand+ и strand-.

Кстати, может быть генетики, которые находятся на форуме, пояснят почему такая путаница со снипами и делециями? Почему для CCR5del32 есть идентификатор характерный для снипов —rs333?
rs333(-;-)
rs333(-;GTCAGTATCAATTCTGGAAGAATTTCCAGACA)
rs333(GTCAGTATCAATTCTGGAAGAATTTCCAGACA;GTCAGTATCAATTCTGGAAGAATTTCCAGACA)

Все просто.
Rs — это обозначение всех полиморфизмов по референсному сиквенсу человека.
Снип -это один из видов полиморфизмов, но, как Вы знаете, есть еще инделы (инсерции + делеции).

В данном случае Delta 32 rs333 обозначает делецию участка ДНК размером в 32 нуклеотид (GTCAGTATCAATTCTGGAAGAATTTCCAGACA)

Проверил — Build36 —   Y   —    6871472   6871966
6871472 Это позиция снипа  L1032. Но счет идет с конца.
Но мало того, эта последовательность не только перевернута, но все T заменены A, а C — G.
Т.е. это другая часть Y-хромосомы.

В Y-сиквенсе геномного билда hg18(Build36) этот регион (495 bp) выглядит следущим образом
>ChrY:6871472..6871966 atctttgggggattggttccaggacctcttgcggatacccaaatgcatgcacactcaaat cctgcagtgtaccctgcaaaacctggtgataggaaaagtcagcactctgtatctggggtt ttgcatcccaaggatactgtattttccttccgaatttgattgtgaatggagaactgagcc ataaggataccaatggtatttattgaaagaaaagtcatgctgtttgattgctgtttgaac cacaaaaaccaagcaaccaaccaaagcccccaaaactaaagctttaaaaaccaatatctg gagaataaaccaaaaccaactaaagcatgaagatggtctaactcagaatgcccagtagaa ctttctaccatatggaaatattttgtatctgtgtagcctcattgccacagctggctaagg gcacaatgggccaagtcatccttactaggcagtgtcagccacactgggccatgtcagcca caccagaccacactg

И, cоотвественно, реверсивная комплиментарная цепочка (strand -)

>ChrY:6871472..6871966 (reverse complemented) cagtgtggtctggtgtggctgacatggcccagtgtggctgacactgcctagtaaggatga cttggcccattgtgcccttagccagctgtggcaatgaggctacacagatacaaaatattt ccatatggtagaaagttctactgggcattctgagttagaccatcttcatgctttagttgg ttttggtttattctccagatattggtttttaaagctttagttttgggggctttggttggt tgcttggtttttgtggttcaaacagcaatcaaacagcatgacttttctttcaataaatac cattggtatccttatggctcagttctccattcacaatcaaattcggaaggaaaatacagt atccttgggatgcaaaaccccagatacagagtgctgacttttcctatcaccaggttttgc agggtacactgcaggatttgagtgtgcatgcatttgggtatccgcaagaggtcctggaac caatcccccaaagat

Праймеры можно сделать по данным Генбанка,затем для пробы (и экономии средств) сделать пару виртуальных ПЦР.
По-моему, даже есть специальные проги для баловства с виртуальными праймерами и виртуальными ПЦР. И только после этого можно ставить реальные ПЦР в лаборатории.

Я так понимаю пункт «Genetic distance» в HIR search и пункт «total CentiMorgans(CM) это одно и тоже, я прав?
И если да, то выходит, что чем больше эта дистанция, тем ближе к тебе оказывается человек, так?

Не факт, что ближе. Вообще, в данном контексте слово дистанция выглядит не очень логично, ибо по логике чем больше «величина» дистанции, тем дальше находятся друг от друга сравниваемые индивиды. В данном случае, генетическая дистанция измеряется в сентиморганах, но сентиморган -это единица не генетической дистанции, а единица измерения расстояния между двумя локусами. При картировании хромосом расстояния между двумя локусами  оценивается путем подсчета количества рекомбинаций на 100 гамет. Это расстояние считается единицей измерения длины гена (а в нашем случае «длины» полусовпадающего участка хромосомы) и называется сентиморганом в честь генетика Т. Моргана, впервые описавшего группы сцепленных генов у плодовой мушки дрозофилы. Если два несинтенических генетическизх локуса находятся на значительном расстоянии друг от друга (т.е величина сM велика), то разрыв между ними будет происходить так же часто, как при расположении этих локусов на разных хромосомах. Поэтому то сентиморган считается также и единицей частоты рекомбинации (или единицей генетического сцепления, что почти одно и то же). Условно говоря 1cM означает 1% вероятности рекомбинаторного события в одном генеалогическом поколении (т.е 1% вероятности того, что при кроссинговере (обмене участками гомологичных хромосом во время конъюгации при мейозе) два локуса на одной хромосоме будут расцеплены друг от друга.

На dna-forums я задавал вопрос о матче в 13 сМ. Мне ответили, что это определённо родство в пределах последних 250-300 лет.

Не факт. Определение дистанции зависит от многих факторов: места, где находится «matching segment», величины LD сегмента (сцепления по неравновесию), воздействием селективного отбора и т.п.

Существуют ли методы оценки достоверности филогении?

Я указал на эти методы в выводах своей работы при интерпретации второй части статьи об ирландцах.
Меня все же терзает вопрос о соотношении понятий неравновесное сцепление/малое генетическое разнообразие выборки. Могут ли тут быть альтернативы. Теоретикам и практикам ДНК генеалогии предлагаю прокомментировать вот эту филогенетическую структуру (в качестве подсказки — предковый гаплотип обозначен литерой C). Размеры кружков пропорциональны количеству гаплотипов. И еще в качестве наводки — представленная популяция статистически незначительно разнообразно, вместе с тем в кластере B наблюдается значительное неравновесное сцепление (но это конечно применимо только к аутосомным гаплотипам).

Что такое Kittler test?

Существуют разные типы тестов Y-STR, в зависимости от структуры и особенностей отделенных локусов. Вот, например, статья, поясняющая как всё не просто с DYS464: http://freepages.genealogy.rootsweb.ancestry.com/~langolier/krahn.pdfТут и переменное число маркеров, и разные последовательности (C-type and G-type), и recLOH конечно. Есть специальные тесты на эти дела, может FTDNA их сделает: DYS464 Extended PCR, DYS464X…

Поясните разницу между снипом и кодоном?

Давайте рассмотрим этот вопрос на примере гена DRD4.  В этом гене определяется  не единичный нуклеотид, а терминаторный кодон (кодирующий тринуклеотид), поэтому говорить о единичном нуклеотидном полиморфизме (снипе) здесь некорректно. Есть  минорный аллель в этом кодоне, присущий финнам, и эта мутация с механизмом выбраса допамина (DRD4). Как показано в научных работах, выброс серотонина тоже вроде связан с тем же геном http://www.jneurosci.org/cgi/content/short/28/11/2933 и http://www.smartplanet.com/technology/blog/rethinking-healthcare/impulsive-it-may-be-a-genetic-mutation/2556/?tag=content;col1

 

 

 

 

Новая версия этно-популяционного калькулятора MDLP и соображения по поводу генетического разнообразия человечества

Сравнение снп-теста DNA Tribes и MDLP World-22 Вадима Веренича.

С подачи FenriR я проработал таблицу эталонных популяций 20-компонентного снп-этнокалькулятора DNA Tribes. Структурно он довольно схож с World-22 Вадима Веренича, поэтому логично провести их сравнение. Европа у Вадима (и в большинстве других калькуляторов) разделяется на два основных полюса — Литва (Северо-Восточная Европа) и Сардиния/баски (Атлантика-Средиземноморье). В ДНА Трайбс выделены эти же два компонента как Славик-Балтик и Медитерранеан. Кроме этого, они постарались выделить еще один компонент — Северо-Западную Европу с пиком в Ирландии и на Оркнейских островах. Логично, если они хотят увеличить детализацию теста для людей преимущественно британского происхождения. Компонент получился композитным, на Западе он заменяет в первую очередь Славик-Балтик, на Востоке — Медитерранеан. Поэтому распространение Славик-Балтик среди славян близко к Северо-Восточной Европе World-22 (с поправкой, о которой в разделе про Уралик), среди германских же и романских народов он падает гораздо резче. Аналогично Медитерранеан доминирует на юго-западе Европы — в абсолютных значениях сильнее, чем у Вадима, но быстрее спадает при удалении.
Мне кажется, основные европейские кластеры сделаны резче, чем они на самом деле, это загрубляет результаты. Но в целом распределение по ним выглядит верным.
Следующий компонент — Уралик. Здесь попытались объединить финнов и чувашей, что, на мой взгляд, неверно для Восточной Европы. Оба этих народа очень своеобразны. Видимо, действовали по аналогии с объединением сардинцев и басков и хотели вывести аналогичной кластер для противоположного конца Европы. Что-то в этой идее есть, но финнов тяжело с кем-то объединить. В результате в состав компонента вошли Мезолитическая Северная Европа из World-22 (финский, в более широком смысле общий северо-европейский компонент), Самоедик (уральский-западносибирский компонент), и отщипнули хороший кусок от Балто-Славика. Здесь калькулятор Вадима выглядит гораздо детальнее и точнее.
Далее идет «сибирский» адмикс, который у Вадима Веренича тонким слоем размазан по северо-востоку Европы. У ДНА Трайбс он частью тоже ушел в Уралик, частично виден у северных русских и очень сильно представлен у чувашей (на мой взгляд, слишком сильно). Важный европейский компонент — Кавказ/Западная Азия. В World-22 он распространен по всей Европе в сравнительно небольших количествах. Считается, что это след первых земледельцев из Малой Азии, в свое время распространившихся по Европе, но впоследствии вытесненных/ассимилированных. В ДНА Трайбс распространение Кавказа и Ближнего Востока (Месопотамиан) похоже на вариант Веренича, но тоже проявлено слабее — видимо, часть ушла в резкие европейские компоненты. Резюмируя — каждый калькулятор нацелен на свою аудиторию. Если DNA Tribes в первую очередь концентрируются на Западной Европе, то проект Вадима Веренича дает заметно лучшую детализацию по Европе Восточной.Судя по результатам FenriR (результаты других форумчан опубликованы до последнего изменения методики), уровень шума в DNA Tribes довольно велик — если Mesoamerican 3.0% Indus Valley 2.9% еще можно списать на Север, Сибирь и Поволжье, то West African 2.0% откровенный шум.

Порог генетического разнообразия человечества.

Поскольку калькулятор показал в большинстве случаев свою состоятельность, я решил начать работу над новой версией этно-популяционного ДНК-калькулятора. Однако прежде чем разместить краткий анонс предстоящего реализа, хочется упоминать примечательную работу, вышедшую в журнале Nature пару дней назад. В журнале “Nature” 3 июля 2013 г. опубликована статья «Генетическое разнообразие и популяционная история высших приматов», подписанная 55 генетиками (лидеры группы – Ксавьер Прадо-Мартинес из Института эволюционной биологии в Барселоне и Питер Садмант из университета штата Вашингтон в Сиэтле). Исследование весьма интересно  как антропологам, так и приматологам. Однако нас, с точки зрения генетики, заинтересовал следующий фрагмент исследования:

Авторы изучили 89 млн точечных нуклеотидных полиморфизмов (SNP) у 79 представителей различных подвидов всех шести видов крупных человекообразных обезьян – шимпанзе, горилл и орангутанов, – а также у 9 людей (трех африканцев и шести жителей других континентов).

Внутривидовая генетическая вариабельность у человека не выходит за пределы внутривидовой изменчивости у других высших приматов, а точнее, находится на ее нижней границе. Гетерозиготность оказалась ниже всего у западных шимпанзе, бонобо, восточных горилл (это связано с инбридингом), а также у людей, особенно представителей неафриканских групп. Последнее вызвано постепенной утратой генетической изменчивости после исхода сапиенсов из Африки и их расселения по миру. Наиболее высокая гетерозиготность обнаружена у суматранских орангутанов.

Как мы видим ниже, именно эти вычисления и выводы о уровне гетерозиготности (которая в данном контексте используется  в качестве индикатора вариативности популяций) будут иметь особое значение при интерпретации результатов нашего нового калькулятора.

Собственно, сабж.

Упомянутые в статье о высших приматах особенности генетического разнообразия отчетливо заметны на PCA графике будущего калькулятора MDLP K=23 (Ultimate Edition). Он создан в R с помощью пакета rgl.  Я выбрал первые три главных компонента (эйгенвекторы — 1526.55, 1104.50, 1041). Наиболее низкой степенью гетерозиготности отличаются европейцы, особенно из северной Европы. На графике они смещаются в одну большую группу, в то время как наиболее значительной гетерогеностью характеризуются африканцы из субэкватариальной Африки. Таким образом, исходный дизайн выборок в новом калькуляторе отлично укладывается в общую эволюционно-биологическую парадигму.
Мы рассчитал аллельные частоты примерно 130000 тысяч снипов по референсным популяциям, взятым из академических источников. С целью сохранения совместимости с коммерческими данными, были выбраны только те снипы, которые присутствуют либо в последнем чипсете 23andme, и/либо в последнем чипсете FAmilyFinder от FTDNA.
мы вычислили средние значения каждого из 23 компонентов для всех референсных популяций. Также имеются данные по  кластерному определению каждого из снипов.
Судя по разбивке популяций, они выглядят весьма правдоподобными. Но некоторые кластеры вызвают вопросы. Любопытно, что данные из известной работы Xing, в которые использовались дагестанцы из коллекции уважаемой Kazima Bulayeva, как бы образуют вектор параллельный основному вектору Европа-Азия.Радует что график имеет характерную V- или триангулярную форму. Это признак правильного расхождения популяций.Это треугольник с углами в популяциях CEU,бушменов и южных китайцев, причем генетическое разнообразие азиатов включает в себя разнообразие америндских популяций.

Учитывая все вышеизложенные проблемы, перед тем как делать релиз очередного этно-популяционного ДНК-калькулятора, я решил воспользоваться услугами бета-тестеров. В первую очередь, надеюсь на помощь Александр Бурнашев и Srkz (Сергея Козлова) поскольку они лучше остальных в русскоязычном секторе любителей ДНК-генеалогии понимают принципы работы калькуляторов на основе Додекад DIY.

Я также выполнил предварительные вычисления аллельных частот компонентов в собственных данных  и данных референсных беларусов.

Данные моей мамы:

East-European 38,65
Caucausian 27,98
North-European 12
Indian 9,92
Samoyedic 2,4
Arabic 1,55
West-African 1,26
Polinesian 1,04
… Central-Asian-Caucasian 1,02
Amerindian 0,94
Near-East-Mediterranean 0,84
Papuan-Melanesian 0,78
Austronesian 0,59
East-African 0,4
North-European-Caucausian 0,34
Central-African 0,25
Sino-Tibetan 0,04
North-African 0
South-African 0
Nigerian 0
Indo-Chineese 0
Sub-Saharian 0
West-Mediterranean 0

Мои собственные данные

East-European 36,89
Caucausian 28,87
North-European 11,36
Indian 9,98
Arabic 3,51
Central-Asian-Caucasian 2,37
Samoyedic 1,66
Polinesian 1,27
Amerindian 1,12
… Austronesian 1
Papuan-Melanesian 0,85
West-African 0,44
South-African 0,34
Sino-Tibetan 0,13
East-African 0,12
Near-East-Mediterranean 0,07
Central-African 0,04
North-African 0
North-European-Caucausian 0
Nigerian 0
Indo-Chineese 0
Sub-Saharian 0
West-Mediterranean 0

Данные референсных беларусов:

East-European 41,6645%
Caucausian 26,3905%
Indian 12,1348%
North-European 11,0739%
Near-East-Mediterranean 2,0315%
Indo-Chineese 1,4123%
Austronesian 1,1291%
Samoyedic 1,1257%
West-African 1,0845%
… Polinesian 0,6104%
Nigerian 0,5530%
Arabic 0,4754%
South-African 0,3044%
North-African 0,0010%
North-European-Caucausian 0,0010%
Amerindian 0,0010%
Papuan-Melanesian 0,0010%
East-African 0,0010%
Central-Asian-Caucasian 0,0010%
Central-African 0,0010%
Sino-Tibetan 0,0010%
Sub-Saharian 0,0010%
West-Mediterranean 0,0010%