О так называемом «эффекте калькулятора»

Уважаемый Сергей Козлов написал короткую заметку посвященную так называемому эффекту калькулятора.

«Эффект калькулятора» и его влияние на результаты оракулов аутосомных этно-калькуляторов.

«Эффект калькулятора» и его влияние на результаты оракулов аутосомных этно-калькуляторов.

На Молгене и других форумах периодически всплывает тема несоответствия результатов реальных людей и предсказаний встроенных в этно-калькуляторы оракулов. Недоброжелатели обычно приводят в качестве объяснений плохие исходные выборки либо неправильность самого подхода. Я же считаю, что многие аутосомные калькуляторы работают отлично. Проблема кроется в оракулах — а именно, в «эффекте калькулятора».

Понятие «Calculator effect», которое принято переводить на русский язык, как «эффект калькулятора», было введено известным геномным блоггером Polako. На почве этого у него возникла длительная перепалка с не менее известным блоггером Dienekes Pontikos .
Суть эффекта в том, что результаты людей, включенных в расчет для выделения предковых компонентов (то есть участников его проекта), отличались от результатов людей, которые в проекте не участвовали.
На этом основании он отказывался делать оракулы на базе своих калькуляторов, так как их результат должен был неизбежно искажаться. Однако позже он все-таки выложил новый парный калькулятор Eurogenes JTest/EUtest (14 и 13 компонентов соответственно) вместе с оракулом, который давал хорошие предсказания для большинства европейцев. Чтобы добиться этого, Поляко использовал для расчета предковых компонентов исключительно научные выборки, а таблицы эталонов для оракула строил на основании данных участников своего проекта. Таким образом, ключ к решению проблемы — разделение выборок,
использованных для выделения компонентов, и выборок, использованных для построения таблицы эталонов.

В чем же причина «эффекта калькулятора»? Изучая таблицы эталонов разных калькуляторов и сравнивая их с данными реальных людей, я пришел к выводу, что различия между исходными выборками («эталонами») показываются более резкими, чем они есть между представляемыми популяциями на самом деле.
Содержание главного компонента в эталонах завышается, а содержание второстепенных, особенно близких к главному — занижается. Это естественно, если вспомнить, что сами различия выводятся на основании этих выборок. Приведу в пример один из лучших калькуляторов: MDLP World-22. Содержание основных европейских компонентов North-East European и Atlantic-Mediterranean Neolithic в эталонах и у реальных русских (в среднем):

Русские центра эталон 70,4 16
Русские центра реальные 63 19
Северные русские эталон 63,5 11,8
Северные русские реальные 60 15
Украинцы эталон 64,2 19,7

Реальные русские не могут достичь показателей своего эталона и показываются более удаленными украинцами. В смешанном режиме оракул может показать их, к примеру, на 2/3 русскими и на 1/3 немцами — у немцев North-East European ниже, а Atlantic-Mediteranean выше.
Аналогично, например, у финнов специфически финский компонент North-European mesolithic по таблице эталонов должен достигать 24-37 (в зависимости от местности), обычно же у финнов он в районе 16-18.

В некоторых случаях «эффект калькулятора» способен принести и пользу. У людей смешанного происхождения одна из сторон может выделиться благодаря ему более четко. Конечно, противоположная сторона тогда уедет подальше для компенсации отклонения.

Мной был проведен эксперимент с бета-версией нового 27-компонентного калькулятора Вадима Веренича, который идеологически заменяет его предыдущий этно-калькулятор World-22. Были собраны данные по восточноевропейцам, не участвовавшим в исходном расчете — в общей сложности использованы результаты 68 человек. В основном это были русские из разных регионов, также собраны результаты эрзя, чувашей, балтов, беларусов, ашкенази, бойко, поляка, финнов, норвежцев, турок.
Закономерности полностью подтвердились. Протестированные со схожим происхождением оказались близки друг к другу по содержанию основных компонентов. Популяции уверенно выделяются и каждый попадает в нужный кластер. Некоторое исключение составляют сложно-смешанные случаи — там результат искажается либо неравномерной передачей генов, либо играют роль какие-то другие эффекты. Несколько хуже других группируются также жители Юга России — очевидно, из-за того, что регион был заселен сравнительно недавно и переселенцы происходили из разных местностей.

Таким образом, «эффект калькулятора» хорошо поддается устранению и в будущем, как я надеюсь, исчезнет из оракулов.

Несмотря на то, что данная заметка написана в стиле позитивной и хорошо продуманной критике,  к сожалению автор допустил ряд неточностей, cвязанных с несколько неточным представлением о принципах работы инструментов Диенека Понтикоса (в первую очередь геномного калькулятора и так называемых оракулов.

В целях более полного освещения проблемы, необходимо изложить предысторию вопроса.  Известный геномный блоггер Давид Polako Веселовский в свой записи на блоге Eurogenes (май 2012 года) указывает на то обстоятельство, что  при использовании геномных калькуляторов и оракулов на основе инструментов Диенека Понтикоса, многие люди получают искаженные результаты, несмотря на то, что все делается по инструкции. Например, пользователи из Великобритании часто оказываются в этих калькуляторах гораздо ближе к выходцам из континентальной Европы, чем  этого следовало бы ожидать. Некоторые из них на самом деле полагали, что эта странная картина обусловлена  тем, что они генетически гораздо более похожи на «норманнов» или англосаксов, нежели средний британец. Polako полагает, что истинная причина кроется в том, что он называл «эффектом калькулятора». Эффект калькулятора  состоит в том, когда результаты  людей, которые входят в состав выборки использованной в анализе Admixture при определении частот аллелей калькулятора значительно отличаются от аналогичных результатов людей, которые не были включены в первоначальную выборку, несмотря на то, что обе группы пользователей имеют одинаковое происхождение, и следовательно в обеих случаях можно ожидать идентичные результаты.

В своей ответной статье-апологии «On the so called «Calculator Effect»» (август 2012 года), автор программы — Диенек Понтикос — приводит сокрушительную аргументацию против негативных и поверхностных замечаний Polako. Во-первых, он убедительно показывает, что хотя эффект отклонения результатов сторонних людей от эталонных результатов и имеет место быть, однако он не имеет никакого отношения к алгоритмам калькулятора и оракула. Поэтому, в корне неверно полагать, что расхождение результатов между описанными выше группами является артефактом алгоритма программа. Из этого вытекает очевидное заключение о неверном описании проблемы как следствия работы программы.  Следовательно, сам термин эффект калькулятора неправилен.

Далее Диенек, c присущей ему убедительной и взвешенной аргументацией, показывает что эта проблема или аномалия была описана им задолго до Polako, в заметке «Further caution on admixture estimates: at the edges of variation», датированной октябрем 2011 года (!).

В ходе анализа причин сильного расхождения результатов выборки армян из статьи Юнусбаева и др. (2011) и результатов армян-участников-проекта и армян из выборки в статье Дорона Бехара (2011),  Понтикос использует наглядную геометрическую визуализацию вариации в виде клинов.

Диенек приходит к очевидным заключениям.

При определении относительного  (в отношению к другим индивидам, в том числе и индивидам из референсных выборок) положения индивида на клиньях (clines)  необходимо помнить, что положение  индивида наиболее точно определяется в тех случаях когда края клина надежно «закреплены». На практике это означает,  что при анализе населения определенного региона необходимо использовать как можно больше групп популяций и отдельных лиц по всему периметру изучаемого региона. Далее, позиция  индивида наиболее точно определяется в тех случаях, когда «клин» длинный, т.е небольшие отклонения из-за дрейфа или неполноты выборки по краям  пренебрежимо малы в сравнении с длиной «клина». Наконец,  компоненты маркирующие значительные меж- и внутриконтинентальные расстояния на (например, европейские компоненты по отношению компонентов из  восточной Азии) оцениваются более точно, чем те,  которые маркируют короткие расстояния (например, южноевропейский и западно-азиатские компоненты). От себя могу добавить к выводам Диенека одно важное наблюдение:  точность результатов Admixture (и основанных на этих результатах входных данных соответствующих калькуляторов и оракулов) сильно зависит от двух факторов — степени (Fst)  дивергенции компонентов и числа снипов, использованных при анализе.  Авторы Admixture отмечают, что для компонентов со значительной степенью относительной дивергенции достаточно 10 000 снипов для выявления генетической структуры выборки, для компонентов с относительно низкой дивергенцией (то есть с короткой дистанцией или, в терминах Диенека, коротким «клином») необходимое число снипов должно быть значительно выше (минимум 100 000 снипов). Значительное влияние на величину оказывает и присутствие в изучаемых выборках так называемых редких вариантов, то есть одиночных нуклеотидных вариантов, с частотой распространения менее 1 процента (смотри статью Estimating and interpreting FST: The impact of rare variants).

 

Решение проблемы.

Как справедливо отмечает Понтикоса, у этой проблемы нет простого решения. Для коротких клинов (например, между популяциями в Европе), которые не надежно закреплены ( так как каждая популяция представлена несколькими людьми из отдаленных групп), можно ожидать относительно большие систематические ошибки. Понтикос считает, что самое доступное в ближайшее время решение — это увеличение числа и качества выборок. Другого обходного пути не существует. Хотя общие детали генетического ландшафта (например,  основные континентальные группы-компоненты генетического разнообразия) уже сейчас легко вывести, но детали всегда можно будет улучшить.

Решение, предложенное Сергеем Козловым, является подтверждением наблюдений Понтикоса, в частности о том,  что при анализе населения определенного региона необходимо использовать как можно больше групп популяций и отдельных лиц по всему периметру изучаемого региона. 

 

 

Результаты проекта MDLP 2011-2012

Прошел почти два года с момента старта биогеногеографического проекта MDLP.
Через полтора гоад упорного труда, я наконец-то свел в единое целое предварительные данные по чистотам аллелей 150 000 снипов в 40 евразийских популяций. Аллельные компоненты (начиная с K=5 до K=15) были выявлены с помощью квазиньютоновского метода ускорения конверценции итеративных алгоритмов, имплементаированных в программе ADMIXTURE.
Затем файл со значениям частот аллелей был адаптирован для работы с этнопопуляционным калькулятором Диенека Понтикоса (в DOS shell и программной средой R). Каждый из компонентов получил название, более или менее соответствующее популяции или группы популяций, в которых частоты аллелей принимали максимальное значение,
Поскольку все калькуляторы заточены под евразийские популяции, то и названия компонентов привязаны к регионам Евразии.

И хотя на этом можно было бы остановится, однако к моему удивлению, многие из пользователей калькулятора Понтика так и не смогли овладеть требуемыми навыками.

Поэтому-то я и решил попросить глубокоуважаемого Джона Олсона и его помощиников имплементировать мои модификации калькулятора DIYDodecad в виде веб-сервисов.
Теперь от конечных пользователей продукта требуется только загрузить данные со своими генотипами в формате FTDNA или 23andme и выбрать в выпадающем меню один из K-анализов (где K-число генетических кластеров или компонентов)

Прошу любить и жаловать

http://www.gedmatch.com/

Magnus Ducatus Lituaniae Project (MDLP) K5-K12
Admixture Proportions
Admixture Proportions by Chromosome
Admixture Chromosome Painting
Admixture Chromosome Painting
Admixture Chromosome Painting — Compare a single chromosome between 2 kits

http://ww2.gedmatch.com:8006/autosomal/ap_mix1_mdlp.php
http://ww2.gedmatch.com:8006/autosomal/ap_mix1w_euro.php
http://ww2.gedmatch.com:8006/autosomal/ap_mix1z_euro.php
http://ww2.gedmatch.com:8006/autosomal/ap_mix1zzz_euro.php
http://ww2.gedmatch.com:8006/autosomal/ap_mix1zz_euro.php