Работа над ошибками: неудача в создании дизайна нового калькулятора MDLP World K23

К сожалению, после полгода работы над новой версией генетико-этно-популяционного калькулятора MDLP World K23, должен признать, что из-за неправильных методологических решений, от релиза калькулятора придется отказаться.

В чем же кроются oшибки?

Как известно, референсные популяции в уже существующих калькуляторах образованы путем соединения (слияния) различных наборов популяций из баз данных геномных проектов и научных исследований. Наиболее важными источниками следует признать следующие:

Полученные путем слияния данные хранятся в стандартном формате Plink. Но, как говорится, не все так просто.  Хотя в некоторых из вышеприведенных источниках данные поставляются уже в готовом формате Plink, большинство все же имеют другой формат. Ситуацию усложняет и тот факт, что данные (генотипы) в  разных файлах могут даваться в разных ДНК-цепях; геномные координаты соотвествуют разным  геномным билдам человеческого геномного референса (b36 или b37). Наконец, вместо классических генотипов, могут приводится данные по частоте минорных аллель.
Но самая главная проблема — это существенное расхождения числа генотипированных снипов в разных базах данных. В самых больших проектах, вроде 1000genomes и HapMap, число прошедших QC-фильтры снипов приближается к миллионам, в то время как в научных данных из публикаций, число снипов в панели генотипирования выборки часто не превышает 100-300 тысяч. Вторая важная проблема — использование разных платформ генотипирования, например Illumina или Affymetrix; и по причине этого только часть снипов выборки, типированной с помощью машин Illumina перекрывается со снипами выборки, типированной на другой платформе. Поскольку большинство полногеномных этно-популяционных анализов требует наличие однородной выборки, то это означает что при собирании референсной популяций неизбежно приходится придерживаться четкого правила —  удаление снипов имеющих низкую частоту (менее 0.01) генотипирования в одной из соединяемых выборок. Совершенно очевидно, что при поэтапном слиянии выборок, большинство снипов теряется; так, вместо первоначальных 2 миллионов снипов, на конечном этапе мы можем получить всего 20 000 снипов.

Импутирование отсутствующих генотипов —  потенциальное решение проблемы?

Одним из возможных вариантов решения проблемы сохранения баланса между количеством и качеством снипов является использование алгоритмов импутирования (определения) отсутствующих генотипов. Обычно для этих целей я пользуюсь программой Beagle, однако в этот раз я решил использовать более мощную комбинацию программ ShapeIT и IMPUTE и  метод импутирования снипов за счет использования большой референсной панели аутосомных гаплотипов (из 1000 genomes),  гарантирующей более аккуратное определение снипов.

Я не буду загружать читателя избытком технической информации касательно аспектов фазирования. Скажу лишь, что после нескольких месяцев использования эвристического метода проб и ошибок, я пришел к оптимальному сочетанию снипов в файле полученном путем соединения вышеуказанных выборок.  В целях сохранения совместимости с данными генотипирования от коммерческих компаний, я снизил  до примерно 130 000 (именно такое число снипов является общим при слиянии данных 1000genomes, файлов 23andme и Family Finder от FTDNA). Именно эти снипы и были задействованы при параллельных процессах импутирования в IMPUTE.

В результате я рассчитал аллельные частоты примерно 130000  снипов по референсным популяциям, взятым из академических источников. С целью сохранения совместимости с коммерческими данными, были выбраны только те снипы, которые присутствуют либо в последнем чипсете 23andme, и/либо в последнем чипсете FAmilyFinder от FTDNA. Я высчитал средние значения каждого из 23 компонентов для всех референсных популяций. Также имеются данные по кластерному определению каждого из снипов. Судя по разбивке популяций, они выглядят весьма правдоподобными. Но некоторые кластеры вызвают вопросу. Поэтому перед тем как делать релиз очередного этно-популяционного ДНК-калькулятора, я решил воспользоваться услугами бета-тестеров. В первую очередь, я надеялся на помощь Александр Бурнашев и Srkz (Сергея Козлова) поскольку они лучше остальных в русскоязычном секторе любителей ДНК-генеалогии понимают принципы работы калькуляторов на основе Додекад DIY.

Затем я произвел запуск тестовой версии ДНК-калькулятора с целью проверки надежности предковых компонент. Названия пока носят условный характер.
West-African 0,44

Caucausian 28,87

Near-East-Mediterranean 0,07

Samoyedic 1,66

Polinesian 1,27

North-European 11,36

Amerindian 1,12

East-European 36,89

South-African 0,34

Papuan-Melanesian 0,85

East-African 0,12

Central-Asian-Caucasian 2,37

Arabic 3,51

Nigerian 0

Central-African 0,04

Indian 9,98

Sino-Tibetan 0,13

Indo-Chineese 0

Sub-Saharian 0

West-Mediterranean 0

Для сравнения -усредненные результаты референсных беларусов

East-European 41,6645%

Caucausian 26,3905%

Indian 12,1348%

North-European 11,0739%

Near-East-Mediterranean 2,0315%

Indo-Chineese 1,4123%

Austronesian 1,1291%

Samoyedic 1,1257%

West-African 1,0845%

Polinesian 0,6104%

Nigerian 0,5530%

Arabic 0,4754%

South-African 0,3044%

North-African 0,0010%

North-European-Caucausian 0,0010%

Amerindian 0,0010%

Papuan-Melanesian 0,0010%

East-African 0,0010%

Central-Asian-Caucasian 0,0010%

Central-African 0,0010%

Sino-Tibetan 0,0010%

Sub-Saharian 0,0010%

West-Mediterranean 0,0010%

Критика и очевидные ошибки

Бета-тестеры указали на очевидные несуразности в результатах калькулятора:

У меня есть RAW Data своих родственников и еще пары человек, я прогнал их через калькулятор, добавил результаты ваши и вашей мамы и попробовал сравнить с таблицей. Пока на первый взгляд европейские популяции делятся на две группы — «выглядящие странно» и «выглядящие нормально». Russian_Center смотрится странно, Center-Russian — нормально. Russian_North странно, North Russian нормально. В чем между ними разница, какая популяция откуда?

Странность в том, что прослеживаются две отдельные системы географического распределения компонентов в Европе, при этом с данными реальных протестированых (7 человек, из них неродственных образцов 4) пока что коррелирует только одна из них. 4 образца достаточно, чтобы строить предположения, но для уверенных выводов лучше бы несколько десятков.

Вспоминается «эффект калькулятора» имени Поляко, когда в популяциях, которые использовались для выделения компонентов, их баланс оказывается смещен. При этом сами компоненты реальны и полезны. На примере World-22, компонент North-European Mesolithic у финнов эталонных популяций оказался Finnish 23,6; Finnish-South 30,1; Finnish-North 37,5 . У финнов же с форумов и моих совпаденцев на Gedmatch компонент стабильно между 15 (ближе к западу) и 20 (ближе к востоку), у большинства 16-17. То есть он действительно хорош для Оракула, но только с этой поправкой. Далее, когда я смотрел результаты Оракула World-22 для восточных славян, их почти всех стабильно смещало в сторону запада. Компонент Athlantic_Mediterranean у них оказывался выше на 2-3 пункта, чем в русских эталонах, а North-East European слегка ниже.

Поэтому по World-23 я сразу захотел сравнить распределение с результатами людей, не участвовавших в расчете. У нас есть три реперные точки — Белоруссия в вашем лице, северо-восточные русские в лице моей семьи, есть образец центрального русского и дополнительно лицо смешанного славяно-ашкеназского происхождения. У всех распределение компонентов укладывается в одну систему, и близко к распределению во многих европейских популяциях в таблице. Основные компоненты East-European, Caucausian, Indian, North-European, Samoyedic.

А вот компоненты, по которым географическое распределение удивляет: Пара West-Mediterranean/North-European (North-European, когда его больше 15%). Есть ряд популяций, которые состоят только из этих двух компонентов, в треугольнике Сардиния-Оркнейские острова-Россия. Сформирован клин Сардиния-Прибалтика. У русских показано Russian North-Euro 72,59%, West-Med 27,05%. При этом у всех семерых протестированых West-Mediterranean ноль либо практически ноль, North-European в диапазоне 7-11. French_Basque получили всего 8,92% West-Mediterranean, вместо этого компонента Средиземноморье у них представлено 38,6% Caucausian

North-European-Caucausian встречается в нескольких популяциях, зато по всей планете, очень непонятный компонент. У протестированых в пределах 0-2 процента.

Пара мыслей по другим компонентам: По Indian очень интересное распределение, на первый взгляд это давно известный Gedrosia/Baloch. Однако если Gedrosia распространяется в Европу больше по маршруту Турция-Балканы-Германия-Британия, то Indian World-23 преобладает у финно-угорских народов (маршрут Каспий-Поволжье-Финляндия), а в направлении Западной Европы спадает. А ведь давно замечено в других калькуляторах неожиданное проявление небольших количеств Индии у финно-угров. Пока что результаты протестированых распределение Indian не опровергают и не подтверждают.

Samoyedic пик у юкагиров, скорее его можно назвать Siberian или North-Eurasian

Результаты (названия компонентов вписал в калькулятор сам, может слегка не совпадать) Русская из Сибири (близка к северным) 0.00% North-African 0.88% North-European-Cauca 0.10% Austronesian 1.74% West-African 22.08% Caucasian 1.09% Near_East-Med 8.18% Samoedic 2.02% Polinesian 7.96% North-European 0.99% Amerindian 35.79% East-European 0.91% South-African 0.76% Papuan-Melanesian 0.00% East-African 4.32% Central-Asian-Caucas 2.45% Arabic 0.00% Nigerian 0.00% African-1 10.72% Indian 0.00% Sino-Tibetan 0.00% Indo-Chinese 0.00% African-2 0.01% West-Mediterranean

Русский из центральных областей: 0.00% North-African 1.98% North-European-Cauca 0.38% Austronesian 0.75% West-African 25.45% Caucasian 1.57% Near_East-Med 2.48% Samoedic 1.12% Polinesian 9.70% North-European 1.03% Amerindian 35.59% East-European 0.01% South-African 2.32% Papuan-Melanesian 0.00% East-African 2.81% Central-Asian-Caucas 3.44% Arabic 0.00% Nigerian 0.00% African-1 11.37% Indian 0.00% Sino-Tibetan 0.00% Indo-Chinese 0.00% African-2 0.00% West-Mediterranean.

я прогнал через ваш калькулятор около 20 человек из разных мест европейской части России/СНГ. Ну явно что-то не так с частью исходных популяций. ИМХО, до тех пор, пока непонятны причины этого, результаты так и будут странными. Ощущение, что просто вместе объединены несколько разных калькуляторов с разными популяциями. Почему, к примеру, Russian_Center, Russian_cossack, Russian_North на выходе имеют 46-50% таджикско-лакского компонента Central-Asia? Или это так и задумано? В чем тогда цель? Коротко пробегусь по дереву компонентов, что получилось на данных людей, не участвовавших в расчете: Sub-Saharian (+ кое-где East-African) — выскочило практически у всех в диапазоне 1-3%. Уральско-сибирская веточка смотрится адекватно, за исключением компонента Sino-Tibetan, который проявился в диапазоне 0-2,2 без какой-либо видимой закономерности. Дальше у нас самая странная ветка, где объединились Центральная Азия, Европа и Африка. Как раз к ней-то и относятся странные популяции. У реальных же людей из этой ветки наиболее нормально проявилась Европа — Балтика+Северо-Западная Европа растут при приближении к Литве, Central-Asia уже более разбросана, но общее распределение правдоподобно, однако у всех присутствует и Африка, причем у большинства сумма трех компонентов North African, West African, Central African в районе 4-5 процентов. Indian проявляется в очень небольших количествах, в основном у тех же людей, что и в других калькуляторах. Выглядит адекватно. Ближневосточная ветка явных несообразностей не содержит, но распределение не очень четкое, ощущение зашумленности. Jewish у женщины 1/4 ашкеназкого происхождения не проявился (3,13), вместо него 8,41 Near-East. Почему-то на втором месте по Near-East вы, видимо, шум. Европейская ветка — North-Eastern-Europe и West-Southern-Europe выглядит отменно. Правда, вызывает сомнение, что в этом калькуляторе эталоном северо-восточных европейцев стали финны, а литовцы, наоборот, оказались аутсайдерами со своим отдельным компонентом. Как-то привычнее наоборот )) . Но так даже интереснее. Таблицу исходных популяций почти не прорабатывал по вышеизложенным причинам.

Надеюсь, вы не в обиде на мою критику )) ИМХО, единственное, чем я могу помочь — это именно посмотреть взглядом человека, который много возится с Оракулами. В чем все-таки может быть причина задвоения кластеров? Я не понимаю специфику работы с Admixture, поэтому сам предположить не могу. Разве что другой набор снипов в лишних популяциях? Или расчет кластеров идет несколькими отдельными кусками?

 Как я и предполагал при первоначальных тестовых запусках выявились странности с африканским и центрально-азиатским компонентом.  Впрочем, то что будут странности было видно уже на дереве Fst между компонентами. Я считаю, что корень проблемы  -это фазированные и импутированные данные. Думаю причина именно в этом. Если это так то придется убрать практически все странные или неправдоподобные популяции из коллекции. Если и после изменений с новыми данными ничего не получится, придется убирать провальные популяции.

Насчет африканских компонентов есть еще одно объяснение. Когда я брал выборку с неандертальцами и денисовцами, они практически всегда оказывались в пигмейском кластере (он видимо самый архаичный и древний). Так что скорее в этих 4-5% содежится и реальный африканский след, и «прокси» сигнала древнего адмикса с неандерами и денисовцами. Как показывают неандертальские тесты на 23andme и NG, диапазон такого адмикса с евразийцами составялет 2-4 % В целях поиска первоисточника  ошибки,  я переделал еще раз данные под калькулятор. К сожалению, в первых исправлениях калькулятора пришлось отказаться от популяций Panasian dataset.

Как я не пытался, популяции в этой выборке упорно не кластеризуются с другими юго-восточными азиатскими популяциями )).

В итоге, они практически всегда образовывали в результатах Admixture свой собственный кластер.

Maya Auca Quechua Karitiana Pima Ami Atayal Melanesians Zhuang Han_Cantonese Hmong Jiamao Jinuo Han_Shanghai Uyghur Wa Alorese Dayak Javanese Batak_Karo Lamaholot Lembata Malay Mentawai Manggarai Kambera Sunda Batak_Toba Toraja Andhra_Pradesh Karnataka Bengali-Assamese Rajasthan Uttaranchal Uttar Pradesh Haryana Spiti Bhili Marathi Japanese Ryukyuan Korean Bidayuh Jehai Kelantan Kensiu Temuan Ayta Agta Ati Iraya Minanubu Mamanwa Filipino Singapore_Chinese Singapore_Indian Singapore_Malay Hmong (Miao) Karen Lawa Mlabri Mon Paluang Plang Tai_Khuen Tai_Lue H’tin Tai_Yuan Tai_Yong Yao Hakka Minnan

Итак в переделанной версии нового калькулятора, этно-генографическое происхождение моего генома выглядит следущим образом (в процентах): North-East-European 37,03 Caucasian 25,36 Balto-Scandinavian 10,73 East-Mediterranean 8,67 Near-Eastern 5,46 South-Indian 4,07 Amerindian 2,25 Central-Asian 2,09 Siberian 1,62 East-African 0,65 Dagestan 0,63 Austronesian 0,54 Tibeto-Burmese 0,41 Pygmy 0,39 North-Indian 0,07 West-African 0,03 Paleo-Siberian 0,01 North-African 0 South-Asian 0 Central-African 0 Equatorial-African 0 Sub-Saharan 0 Atlantic-Mediterranean 0 Иными словами, в своей генетической основе я на 33% северо-восточно-европейцев (наследие кордедов-шнуриков и уральцев ямочно-гребенчатой культуры), на 25,36 — носитель анатолийско-кавказских аллелей (в Европе львиная доля этих аллелей — наследие потомков неолитических поселенцев-земледельцев) . East-Mediterranean 8,67 + Near-Eastern 5,46 = 14% ближневосточных аллелей (семито-арабско-еврейская кровь). 11% балто-скандинавских аллелей — наследие мезолитических охотников-собирателей северной Европы. 4% дравидских генов — это явный цыганский след. Ну и наконец, Amerindian 2,25 + Central-Asian 2,09 + Siberian 1,6% — примерно 5% тюркско-сибирско-монгольских генов.

В ходе последующих изменений и уменьшении числа снипов всего до 900 (!)  получилось впихнуть и паназиатскую выборку, богатую популяциями восточной и юго-восточной Азии, и данные из статьи Xing et al.2010. Для коррекции данных, добавил еще в выборку генотипы неандертальцев и денисовского человека. На этот раз уменьшил и число априорных компонентов до 15. На выходе я получил матрицу дивергенции (Fst) между прогнозируемыми предковыми компонентами. Поскольку это есть ни что иное, как матрица дистанции, то я преобразовал ее в дерево с помощью метода Wheeler (2009) NINJA large scale Neighbour-Joining clustering method.

1069319_10201480061153220_287033667_n

В результате получилось дерево, которое весьма неплохо коррелирует с топологиями Y-хромосомного и митохондриального древ человечества. За значение 1.0 принят возраст корня, все остальные цифры в дробях на ребрах дерева (ветвях) означают возраста относительно корня. Например, цифра 0.27 на узле обозначающем диверегенцию австронезийского и восточноазиатского компонента, означает что компоненты дивергировали относительно друг друга 0.27*(возраст дерева) лет тому назад. Теоретически, если мы сможем откалибрировать возраст дерева (или принять априорную оценку возраста корня), можно просчитать возраст диверегенции. Было бы любопытно услышать современные оценки возраста расхождения расовых стволов и возраста субрас в современной антрополгии, так как аутосомные маркеры достоверно лучше коррелируют с антропологическими или расовыми признаками, чем однородительские маркеры.  Предположим, что  возраст корня составит 100000 лет. огда время выделение западных африканцев -80 000 лет
центральных афрриканцев — 80 000 лет, выход из Африки 55 000 лет; разделение на западный и восточный ствол — 50 000 лет; выделение ближневосточно-афроазиатской ветви 45 000 лет; европейской ветви — 48 000 лет. Oколо этого же времени выделился восточный ствол, от которого практически сразу 50 000 лет тому назад ответвились дравиды и чуть позже австралоиды, и так далее.

Комментарий  Евгения Марчукова:

«А. А. Зубов (2004) писал, что начальный этап дифференциации Homo sapiens не был единомоментным, он охватывал период от раннего верхнего палеолита до неолита (включительно), а, если учесть вклад периферийных форм – процесс уходит корнями в средний палеолит. Важно, что вклад «восточного центра» в формирование современного населения отвергать нельзя, хотя линия его собственной эволюции угасла в конце среднего плейстоцена. Она была восстановлена за счет мигрантов с запада представителей «позднего архаичного сапиенса». Позже новая миграция на восток сформировавшегося сапиенса (Мальта и алтайские находки) привели к метисации с местными группами и приняла участие в формировании монголоидного ствола (Чжоукоудянь сходен с Сунгирем). «Сетевидная» эволюция ответственна за появление разных «евро-монголоидных» и «монголо-австралоидных» вариантов. Маркина Гора, Гримальди (на западе) и Лючан (на востоке) указывают на наличие периода, когда Homo был разделен на два надрасовых конгломерата – «западный» и «восточный» без четкой границы.

Доказательством этого является следующее: реликтовые одонтоглифические признаки объединяют европейцев и негроидов, австралийцев с монголоидами. По данным генетики первое деление внутри вида имеет древность 92 тыс.лет, деление внутри больших стволов – 39 тыс.лет. Бушмены и австралийцы выделились первыми- 60-90 тыс. лет, а сохранились благодаря изоляции. В направление к нашим дням происходит изживание архаики в морфологии людей. Чаще всего, идентификация субтаксонов возможно в мезолите — (неолите) – верхнем палеолите. В первичном «восточном стволе» сформировались монголоидный и австралоидный компоненты, а «западный» ствол дал европеоидный и негроидный компоненты сапиенса. Процесс дифференциа-ции имеет непрерывный характер.

Дивергенция расовых стволов происходила, по данным генетики, в пределах последних 100 тыс.лет. Ранее всех выделилась ветвь монголоидов (92 тыс.лет), протонегроиды и протоевропейцы разделились 33 тыс.лет назад. В Африке формирование экваториальных комплексов происходило еще раньше. Монголоидный и негроидный комплексы оформились окончательно позже. Европеодная и монгоидная расы наиболее метисированы.»

Затем я сделал промежуточный вариант калькулятора и решил пока на нем остановиться.
Как всегда, внизу табличка с вычисленными мною предковыми компонентами моего генома

26,09% West-Southern-Europe
24,27% North-Eastern-Europe
15,62% Caucasian-Asian
13,28% Baltic
8,14% Near-Eastern
4,44% Uralic
2,70% Central-Asia
2,32% Amerindian
1,24% Sino-Tibetan
1,16% Central-African
0,41% Sub-Saharian
0,26% North-African
0,03% Indian
0,03% West-African
0,02% Altaic-Siberian
0,01% South-Asian
0,00% East-African
0,00% West-Northern-Europe
0,00% Jewish

1000875_10201544272598466_1144492335_n

 

Работа над ошибками: неудача в создании дизайна нового калькулятора MDLP World K23: 3 комментария

Оставьте комментарий