Сертификаты онлайн-курсов по генетике

Последние пару месяцев этот блог обновлялся крайне редко и причиной этому было сразу несколько причин. Первая из этих причин связана с защитой докторской диссертации; вторая, не менее важная,  причина кроется в моем сотрудничестве с  российским  стартапом персональной геномики  из Сколково, по заказу которого я выполнил целый ряд довольно сложных работ. Я не буду пока вдаваться в подробности, благо что окончательный релиз продукта компании предстоит в ближайшее время.

Наконец, третья причина  вызвана необходимостью систематизирования  и приведения в органический порядок моих значительных, но бессистемных, познаний в молекулярной биологии, популяционной генетике человека и персональной геномике.  В конечном итоге я решил улучшить качество своих записей о генетике, прослушав ряд cоответствующих MOOC-курсов  на  известном портале Coursera и HarvardEX, и успешно пройдя тесты на проверку усвоения обучаемого предмета в университетах Британской Колумбии, Калифорнии (Сан-Диего), Университета Торонто, и Гарвардском университете.

Надеюсь, что дополнительное обучение в лучших профильных центрах американских университетов, благотворным образом скажется на качестве моих новых заметок о генетике

Statement of Accomplishment

Coursera bioinformatics 2014Certificate
Coursera bioinfomethods2 2014

О так называемом «эффекте калькулятора»

Уважаемый Сергей Козлов написал короткую заметку посвященную так называемому эффекту калькулятора.

«Эффект калькулятора» и его влияние на результаты оракулов аутосомных этно-калькуляторов.

«Эффект калькулятора» и его влияние на результаты оракулов аутосомных этно-калькуляторов.

На Молгене и других форумах периодически всплывает тема несоответствия результатов реальных людей и предсказаний встроенных в этно-калькуляторы оракулов. Недоброжелатели обычно приводят в качестве объяснений плохие исходные выборки либо неправильность самого подхода. Я же считаю, что многие аутосомные калькуляторы работают отлично. Проблема кроется в оракулах — а именно, в «эффекте калькулятора».

Понятие «Calculator effect», которое принято переводить на русский язык, как «эффект калькулятора», было введено известным геномным блоггером Polako. На почве этого у него возникла длительная перепалка с не менее известным блоггером Dienekes Pontikos .
Суть эффекта в том, что результаты людей, включенных в расчет для выделения предковых компонентов (то есть участников его проекта), отличались от результатов людей, которые в проекте не участвовали.
На этом основании он отказывался делать оракулы на базе своих калькуляторов, так как их результат должен был неизбежно искажаться. Однако позже он все-таки выложил новый парный калькулятор Eurogenes JTest/EUtest (14 и 13 компонентов соответственно) вместе с оракулом, который давал хорошие предсказания для большинства европейцев. Чтобы добиться этого, Поляко использовал для расчета предковых компонентов исключительно научные выборки, а таблицы эталонов для оракула строил на основании данных участников своего проекта. Таким образом, ключ к решению проблемы — разделение выборок,
использованных для выделения компонентов, и выборок, использованных для построения таблицы эталонов.

В чем же причина «эффекта калькулятора»? Изучая таблицы эталонов разных калькуляторов и сравнивая их с данными реальных людей, я пришел к выводу, что различия между исходными выборками («эталонами») показываются более резкими, чем они есть между представляемыми популяциями на самом деле.
Содержание главного компонента в эталонах завышается, а содержание второстепенных, особенно близких к главному — занижается. Это естественно, если вспомнить, что сами различия выводятся на основании этих выборок. Приведу в пример один из лучших калькуляторов: MDLP World-22. Содержание основных европейских компонентов North-East European и Atlantic-Mediterranean Neolithic в эталонах и у реальных русских (в среднем):

Русские центра эталон 70,4 16
Русские центра реальные 63 19
Северные русские эталон 63,5 11,8
Северные русские реальные 60 15
Украинцы эталон 64,2 19,7

Реальные русские не могут достичь показателей своего эталона и показываются более удаленными украинцами. В смешанном режиме оракул может показать их, к примеру, на 2/3 русскими и на 1/3 немцами — у немцев North-East European ниже, а Atlantic-Mediteranean выше.
Аналогично, например, у финнов специфически финский компонент North-European mesolithic по таблице эталонов должен достигать 24-37 (в зависимости от местности), обычно же у финнов он в районе 16-18.

В некоторых случаях «эффект калькулятора» способен принести и пользу. У людей смешанного происхождения одна из сторон может выделиться благодаря ему более четко. Конечно, противоположная сторона тогда уедет подальше для компенсации отклонения.

Мной был проведен эксперимент с бета-версией нового 27-компонентного калькулятора Вадима Веренича, который идеологически заменяет его предыдущий этно-калькулятор World-22. Были собраны данные по восточноевропейцам, не участвовавшим в исходном расчете — в общей сложности использованы результаты 68 человек. В основном это были русские из разных регионов, также собраны результаты эрзя, чувашей, балтов, беларусов, ашкенази, бойко, поляка, финнов, норвежцев, турок.
Закономерности полностью подтвердились. Протестированные со схожим происхождением оказались близки друг к другу по содержанию основных компонентов. Популяции уверенно выделяются и каждый попадает в нужный кластер. Некоторое исключение составляют сложно-смешанные случаи — там результат искажается либо неравномерной передачей генов, либо играют роль какие-то другие эффекты. Несколько хуже других группируются также жители Юга России — очевидно, из-за того, что регион был заселен сравнительно недавно и переселенцы происходили из разных местностей.

Таким образом, «эффект калькулятора» хорошо поддается устранению и в будущем, как я надеюсь, исчезнет из оракулов.

Несмотря на то, что данная заметка написана в стиле позитивной и хорошо продуманной критике,  к сожалению автор допустил ряд неточностей, cвязанных с несколько неточным представлением о принципах работы инструментов Диенека Понтикоса (в первую очередь геномного калькулятора и так называемых оракулов.

В целях более полного освещения проблемы, необходимо изложить предысторию вопроса.  Известный геномный блоггер Давид Polako Веселовский в свой записи на блоге Eurogenes (май 2012 года) указывает на то обстоятельство, что  при использовании геномных калькуляторов и оракулов на основе инструментов Диенека Понтикоса, многие люди получают искаженные результаты, несмотря на то, что все делается по инструкции. Например, пользователи из Великобритании часто оказываются в этих калькуляторах гораздо ближе к выходцам из континентальной Европы, чем  этого следовало бы ожидать. Некоторые из них на самом деле полагали, что эта странная картина обусловлена  тем, что они генетически гораздо более похожи на «норманнов» или англосаксов, нежели средний британец. Polako полагает, что истинная причина кроется в том, что он называл «эффектом калькулятора». Эффект калькулятора  состоит в том, когда результаты  людей, которые входят в состав выборки использованной в анализе Admixture при определении частот аллелей калькулятора значительно отличаются от аналогичных результатов людей, которые не были включены в первоначальную выборку, несмотря на то, что обе группы пользователей имеют одинаковое происхождение, и следовательно в обеих случаях можно ожидать идентичные результаты.

В своей ответной статье-апологии «On the so called «Calculator Effect»» (август 2012 года), автор программы — Диенек Понтикос — приводит сокрушительную аргументацию против негативных и поверхностных замечаний Polako. Во-первых, он убедительно показывает, что хотя эффект отклонения результатов сторонних людей от эталонных результатов и имеет место быть, однако он не имеет никакого отношения к алгоритмам калькулятора и оракула. Поэтому, в корне неверно полагать, что расхождение результатов между описанными выше группами является артефактом алгоритма программа. Из этого вытекает очевидное заключение о неверном описании проблемы как следствия работы программы.  Следовательно, сам термин эффект калькулятора неправилен.

Далее Диенек, c присущей ему убедительной и взвешенной аргументацией, показывает что эта проблема или аномалия была описана им задолго до Polako, в заметке «Further caution on admixture estimates: at the edges of variation», датированной октябрем 2011 года (!).

В ходе анализа причин сильного расхождения результатов выборки армян из статьи Юнусбаева и др. (2011) и результатов армян-участников-проекта и армян из выборки в статье Дорона Бехара (2011),  Понтикос использует наглядную геометрическую визуализацию вариации в виде клинов.

Диенек приходит к очевидным заключениям.

При определении относительного  (в отношению к другим индивидам, в том числе и индивидам из референсных выборок) положения индивида на клиньях (clines)  необходимо помнить, что положение  индивида наиболее точно определяется в тех случаях когда края клина надежно «закреплены». На практике это означает,  что при анализе населения определенного региона необходимо использовать как можно больше групп популяций и отдельных лиц по всему периметру изучаемого региона. Далее, позиция  индивида наиболее точно определяется в тех случаях, когда «клин» длинный, т.е небольшие отклонения из-за дрейфа или неполноты выборки по краям  пренебрежимо малы в сравнении с длиной «клина». Наконец,  компоненты маркирующие значительные меж- и внутриконтинентальные расстояния на (например, европейские компоненты по отношению компонентов из  восточной Азии) оцениваются более точно, чем те,  которые маркируют короткие расстояния (например, южноевропейский и западно-азиатские компоненты). От себя могу добавить к выводам Диенека одно важное наблюдение:  точность результатов Admixture (и основанных на этих результатах входных данных соответствующих калькуляторов и оракулов) сильно зависит от двух факторов — степени (Fst)  дивергенции компонентов и числа снипов, использованных при анализе.  Авторы Admixture отмечают, что для компонентов со значительной степенью относительной дивергенции достаточно 10 000 снипов для выявления генетической структуры выборки, для компонентов с относительно низкой дивергенцией (то есть с короткой дистанцией или, в терминах Диенека, коротким «клином») необходимое число снипов должно быть значительно выше (минимум 100 000 снипов). Значительное влияние на величину оказывает и присутствие в изучаемых выборках так называемых редких вариантов, то есть одиночных нуклеотидных вариантов, с частотой распространения менее 1 процента (смотри статью Estimating and interpreting FST: The impact of rare variants).

 

Решение проблемы.

Как справедливо отмечает Понтикоса, у этой проблемы нет простого решения. Для коротких клинов (например, между популяциями в Европе), которые не надежно закреплены ( так как каждая популяция представлена несколькими людьми из отдаленных групп), можно ожидать относительно большие систематические ошибки. Понтикос считает, что самое доступное в ближайшее время решение — это увеличение числа и качества выборок. Другого обходного пути не существует. Хотя общие детали генетического ландшафта (например,  основные континентальные группы-компоненты генетического разнообразия) уже сейчас легко вывести, но детали всегда можно будет улучшить.

Решение, предложенное Сергеем Козловым, является подтверждением наблюдений Понтикоса, в частности о том,  что при анализе населения определенного региона необходимо использовать как можно больше групп популяций и отдельных лиц по всему периметру изучаемого региона. 

 

 

Еще раз о фазировании

В этом посте мы продолжим обсуждение проблематики отфазированных генотипов.
Многих пользователей моего блога интересует вопрос, каким образом можно фазировать биаллельные генотипы в гаплотипы?

С технической точки зрения, процесс фазирования генотипов подразумевает выявление — с высокой апостериорной вероятностью гаплотипной фазы. Как показывает сравнительный анализ алгоритмов фазирования в программах Beagle, PHASE, IMPUTE и т.д., — наиболее точные результаты получается в ходе совместного фазирования генотипов ближайших родственников.Поэтому в генетических штудиях — как популяционных (реже),так и медгенетических (намного чаще) — фазирование проводится с использованием генотипов трио (генотипы матери-отца-ребенка). Однако именно коммерческое генотипирование открывает более широкое поле деятельности для фазирования — получения более-менее однозначного гаплотипа с более-менее однозначной генеалогией. Вопреки распространенному среди любителей ДНК-генеалогии мнению любой составной УПС/HIR может быть легко преобразован в совокупность отельных гаплоблоков, многие из которых достаточно уникальными в предковой популяции анализируемого индивида. Здесь нужно развеять и второе заблуждение любителей — диплоидные генотипы 23andme ни в коем случае нельзя автоматически разбивать на два смежных столбика, единственный легитимным способом получения фазы генотипов является фазирование данных в специальных программах.

В принципе, можно с увереностью утверждать, что после того как из биаллельного генотипа получена гаплотипная фаза генотипа, потребность в HIR-ах отпадет. Сейчас же, при отсутствии полноценных данных по этим регионам и даже фазированных генотипах  УПС-HIR-IBD совпаденцам, приходится пользоваться намного более удаленными -в географическом и генеалогичском смыслах — референсами, типа фазированных гаплотипов в проектах 1000 геномов, HGDP или HapMap. Именно эти фазированные панели используются в новейших и наиболее эфективных программах фазирования генотипов в тех случаях, когда в выборку включены только лица, не родственные между собой.
До тех пор, пока не будет произведено массовое фазирование биаллелей, любой предикт родства сделанный на основании анализа нефазированных генотипов, следует воспринимать с максимальной осторожностью. Например, указание (в РФ алгоритме анализирующем нефазированные данные) на 5-6-юродную степень родства пуштуна и скажем, литовца может с абсолютно одинаковой степенью вероятности (50% на 50%) означать как наличие «афганского» следа в родословной литовца (или литовского следа — у пуштуна), так и очень далекое родство, близкое к случайному совпадению.
В избежании недоразумений, еще раз уточню, что речь идет не о привычных для любителей ДНК-генеалогии Y-STR гаплотипах, — в данном случае это аутосомные гаплотипы, которые выглядят следующим образом: AGGTTCCGAACCTTGGAAG ( и далее примерно несколько тысяч букв A/G/C/T). Фазированный гаплотип -это с определенной степенью вероятности гаплотип основателя. Более того, переход от биаллельных идентичных сегментов к набору идентичных гаплоидных сегментов открывает интересные перспективы в плане молекулярной датировки возраста идентичных гаплоблоков. Принимая во внимание тот факт, что гены и даже аллели этих генов, определяющие на ген.уровне [например, фенотип светлой пигментации волос)] достаточно хорошо известны и описаны в науч.литературе, то проблему датировки можно решить, отфазировав этии генотипы в гаплотипы, мы можем с помощью дерева коалесценции гаплотипов определить узел коалесценции, а следовательно датировать его с помощью молекулярных часов. Этим,кстати, занимается Монтгомери Слаткин (правда в качестве иллюстрации своей теории коалесцента он использует пример других «релевантных в плане мед.рисков генетических локусов»). В отдаленном теоретическом плане, множество малорекомбинантных гаплотипов можно использовать для конструирования специального генетического микрочипа (на основе того же OmniExpress) c включением в этот снип-чип генеалогически актуальных (малорекомбинантных) снипов, фазирование которых выявит наличие устойчивых гаплотипов недавнего происхождения (и соответственно, их генеалогию).

Технические нюансы.

Упрощенный дизайн технического процесса фазирования в общих чертах может выглядеть следующим образом. Сначала подготавливаем файл к приемлемому для фазирования формату (этих форматов много, я выбрал тот, в котором нужно минимально модифицировать исходные комбинированные данные 23ия+HapMap). В качестве proof of concept, я использовал относительно простое программное обеспечение для фазирования диплоидного генотипа (UNIX версия программы SNPHAP). В этой программе фазирование проводится с помощью алгоритмов байесовской инференции. Полученные на выходе отфазированные гаплотипоы пропускаются через своего рода элайнер, и на выходе получается FASTA aligned файл, который легко скармливается TNT путем ввода директивы procedure. А дальше можно либо реконструировать филогению в TNT, либо сохранять в формате Nexus.
В этом варианте процесс фазирования вычислительно-емкий и менее робастный , и эта одна из причин использования серверных возможностей (компьютерных кластеров, где программа может работать месяцами). Например, на байесовскую инференцию- фазировку используемых в данном примере генотипов из небольшого фрагмента 14 хромосомы в выборке из 92 индвидов ушло примерно 8 часов. После окончания цикла фазирования результаты (фазированные гаплотипы) сохраняются в отдельном файле. В описанном выше примере у 92 индивидов с помощью байесовской инференции было выявлено 937  гаплотипа со средней длиной в 5288 нуклеоитида, причем 315 из этих гаплотипов имеют кумулятивную апостериорную вероятность 1.00.

Практический пример (применения в генеалогии).

Этот практический пример основан на анализе моих собственных генетических данных, загруженных на сервер GedMatch. На сервере содержатся два варианта этих данных — нефазированный исходный вариант и второй фазированный вариант (две пары фазированных гаплотипов).

При поиске совпадений по первому варианту, общее количество » обнаруженных кузенов» составляет 179 человек.
Вместе с тем поиск по реконструированной в ходе фазирования той части генотипов, которая досталась мне от отца, общее число кузенов равнялось все 3. Из этих 3 один — родом из Рязани -, но параметры cовподающего сегмента, строго говоря, ниже пороговых значений [cM (7 cM) и число консекутивных снипов (700bp)] бритвы Оккама для генеалогически верифицируемых совпадений. Поэтому его следует отбросить. Остается два человека. Один наполовину беларус-полешук из Глусского и Слуцкого Полесья, наполовину эрзя. Другой — типичный американских пель-мель из смешания разных народов, но его бабушка носила имя Теодосия Осовская, возможно родом из Осового, что находится рядом со Стаховым, откуда родом предки моего отца.
Следовательно,что фазирование может представлять собой самый надежный фильтр для отсеивания false-positive совпадений.

Основы геномики для чайников или как читать результаты аутосомного тестирования

Начну несколько издалека — с современного дизайна биочипов панелей снипов. Нужно вспомнить, что в своей основе биочипы-платформы, используемые в целях коммерческого тестирования в 23ия и ФТДНА представляют собой модифицированные варианты стандартных платформ Иллюмина (23ия) и Аффиметрикс (если я не ошибаюсь, биочип ФТДНА разработан на основе этой платформы). Дизайн обеих платформ разрабатывался из целей, далеких от задач ДНК-генеалогии, или скажем, ДНК-криминалистики (хотя авторы концепции SNP-генотипирования и предполагали смежные задачи, — например, установление личности индивида). Перед разработчиками дизайна биочипов и новых методов снип-генотипирования ставилась четкая задача — разработать платморфму снип-тестирования, совместимую с  двумя основными методами медицинской генетики
Это метод выявления QTL (выявление участков ДНК, сцепленных с генами, обуславливающими тот или иной фенотипический признак), а также метода генетической ассоциации генетического сцепления или неравновесного сцепления генов ,  когда генетические (фенотипические) признаки двух групп  сравниваются напрямую с ДНК-сиквенсами представителей этой группы.

Поскольку снипы обычно представляют собой (за исключением редких аллелей  с частотой двух аллей) вариацию двух аллелей, т.е различаются всего на один олигонуклеотид, то существенной особеностью сиквенсирования на биочипах является проблема оптимизировании недостаточной гибридзации проб, а также потенциальная возможность того, что таргетная ДНК может гибридизировать несовпадающие снипы. Эта особенность приводит к тому, что результаты генотипирования на биочипах  довольно часто дают болшой процент менделевских ошибок, т.е тех случаев когда у ребенка присутстовал аллель, который он не мог унаследовать от родителей (за исключением редкого явления дисомии). Те, кто пользовались утилитой Дэвида Пайка или посылали свои данные Леону (napobo3), могли сами убедиться в этом на примере сравнения своих данных с данными родителей.

Это был первый тип инструментальных погрешностей, вносящих неопределенность в оценку близости или дальности родства. Он связан собственно с процессом гибридизации ДНК. Второй тип инструментальных погрешностей связан собственно с процессом генотипирования индивидуального ДНК. Для генотипирования на платформе Иллюмины испольузется программа GenCall, который по байесовской вероятности определяет кластер, к которому относиться тот или иной локус анализируемого ДНК. Многие из тех форумчан, кто работал со своими данными от 23ия, наверняка видел т.н «no-call» генотипы (-) в raw data. «No-call» означает, что программа не смогла определить генотип (или вернее, кластер к которому относиться анализируемый локус ДНК).

Наличие этих «пустых» генотипов также вносит свою лепту в увеличение т.н инструментальных погрешностей.

Забудем на время о существенных инструментальных погрешностях и перейдем к тому, как 23ия представляет генотипы rs-локусов. Если Вы скачаете файл с генотипами, то там достаточно стандартное обозначение — сначало идет название локуса; затем хромосома, на которой находится локус, физическая дистанция, и наконец — две последние колонки (в NRY и митохондрионе — одна) с генотипом. Генотип содержит следущие обозначения -олигонуклеотиды A,G,C,T, делеции (D), инсерции (I) и no-calls (-).

В качестве примера

Цитировать

rs759691   3   10502762   CC
rs7619994   3   10502775   AA
rs808933   3   10503910   CC
rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs9873870   3   10514482   CT
rs6442176   3   10520676   CT
rs4234497   3   10528419   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   —

Генотип здесь определяется по локусам, по-этому невозможно сказать, какой именно аллель достался от матери, а какой -от отца.

Неверно полагать, что нижеприведенный вариант (жирным обозначены аллели унаследованные, например, от матери) единственно возможный

Цитировать

rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   —

Варианты возможное менделевское наследование аллелей включает в себя все возможные с точки зрения комбинаторики варианты.

Например, вот такой вариант

Цитировать

rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   —

Или  такой

Цитировать

rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   —

Казалось бы достаточно протестировать одного из родителей, и Вы сможите реконструировать «цепочку снипов» (по сути гаплотип), доставшийся Вам от этого родителя. Однако существует такое явление, как дисомия. Однородительская дисомия, то есть наследование обеих копий целой хромосомы или ее части от одного родителя (при отсутствии соответствующего генетического материала от другого родителя), является исключением из менделевских принципов наследования.
Однородительская дисомия была описана при муковисцидозе , когда оба мутантных аллеля наследовались от одного родителя. В таких случаях дисомия имитирует аутосомно-рецессивное наследование.

Это —третий тип погрешностей, на этот раз биологического характера

Таким образом, все вышеназванные погрешности биологического, биохимически-инструментального и чисто инструментального характера, приводят исследователей к необходимости фазирования биаллельных сегментов пар хромосом.

Дальше -про фазирование.

Наверное, перед тем как не мудрствуя лукаво приступить к пояснению фазирования данных 23ия, нужно еще раз вкратце напомнить, по какому алгоритму идет предсказание степени родства в 23ия.

На этот раз, буду краток (с).

Алгоритм 23ия выведен исключительно путем компьютерног моделирования. Бралось некоторое количество генотипных данных реально протестированных в 23ия людей. Эти данные искуственно скрещивались с учетом некоего усредненной величины параметра рекомбинации на один мейоз (или, как у нас принято выражаться, генеалогического поколения), тем самым появились искуственные «геномы» (назовем их так для простоты).
Затем по методу MCMC моделировалась искусственная генеалогия потомков «гибридных геномов» (что-то вроде семьи Менделя), т.е случайным образом (по методу Монте-Карло) генерировалась некая марковская цепь генеалогических поколений (последовательность поколений, в которой последующее состояние зависит только от настоящего состояния и не зависит «от генеалогического прошлого») разной длины — 4,5,8, 11 и т.д поколений.  «»Геномы» всех гибридных геномов сравнивались на предмет а) % общего ДНК b) генетической дистанции сегментов IBD (HIR, или как у нас принято УПСов) выраженной в сM (сентиморганах) и с) количества снипов в этих сегментов.

По этим параметрам (а,b,c) УПСЫ разбивались на кластеры в зависимости от дистанции генома-потомка от генома-предка. Затем произвели своего рода метафорическую процедуры «сверку попаданий сегментов»  в интервалы смоделированного родства. Именно таким образом, с помощью моделирования, создатели алгоритма RF получили пороговые количества снипов и генетической дистанции (в сМ) как для всего диапозона RF, так и для каждого интервала родства (например, 3d-10th cousins).

Эти три параметра и используются в RF для оценки удаленности генетического родства или генеалогической дистанции.

Я не буду останавливаться здесь на подробной критике алгоритма. Скажу только, что несмотря на всю привлекательность дизайна MCMC-алгоритма RF , его главный недостаток -это

1)допущение случайного характера «скрещивания» (пардон за вульгаризм) среди некой метапопуляции,
2)независимость характера скрещивания от предыдущего типа скрещивания,
3) пренебрежение гомозиготностью и т.д.

Не говоря уже об использовании некой усредненной величины рекомбинации и игнорирование естестественного отбора, приводящего к тому, что многие участки хромосом  из-за сильного генетического сцепления остаются в нерекомбинантном состоянии на протяжении веков.

Каждый генеалог знает, что матримониальная стратегия (говоря простым биологическим языком, структура скрещивания) генеалогических групп  не носит случайный характер. Выбор партнеров был обусловлен происхождением, классовой принадлежностью, патрилокальностью, а также религиозными, политическими и идеологическим запретами.

Каждый генеалог и социальный антрополог знает, что структура брачных связей в кланновых и патриархальных обществах в-основном обусловлена структурой предыдущих брачных связей (вспомните хотя бы т.н. брачные обыски, в ходе которых проверялось,не состояли ли брачующиеся в родстве). Конечно же были и исключения, но они статистически пренебрежимы.

Каждый генетик знает, что в оседлых популяциях постепенно возрастает гомозиготность, что ведет к увеличении однородности и генетической близости индивидов внутри популяции.

Каждый генетик знает, что величина рекомбинации очень сильно варируется -в 10 и 100 раз — в зависимости от участка хромосом

Каждый генетик знает, что в оседлых популяциях постепенность возрастает гомозиготность (что есть логичное последствие инбридинга), что ведет к увеличении однородности и генетической близости индивидов внутри популяции.

Каждый генетик знает, что существуют геномные регионы — например MHC, со столь сильным сцеплением, обусловленным отбором, что эти участки могут оставаться идентичными у двух индивидов, даже если их общий предок жил тысячелетие назад

Итак, что имеем в сухом остатке:

1) наличие трех типов «инструментальных» погрешностей в данных генотипов от 23ия
2) сухую абстрактность метода оценки степени родства в алгоритме РФ от 23ия

К этому можно добавить очевидное наличие сегментов УПС с совпаденцами, увеличивающихся в размере при поколенном переходе от родителей к детям, хотя по логике, они должны постепенно затухать, уменьшаясь в размерах. Самое наличие таких сегментов — великолепная иллюстрация кумулятивного действия эфектов возрастания гомозиготности и увеличания фонового уровня «скрытого родства» (на профессиональном слэнге генетиков -«hidden relatedness» ).

Это наводит на очевидную мысль, что указание (в РФ алгоритме анализирующем нефазированные данные) на 5-6-юродную степень родства пуштуна и скажем, литовца может с абсолютно одинаковой степенью вероятности (50% на 50%) означать как наличие «афганского» следа в родословной литовца (или литовского следа — у пуштуна), так и очень далекое родство, близкое к случайному совпадению.

Можно ли строить гипотезы на столь шаткой почве? Вряд ли.

На самом деле сам процесс фазирования генотипов подразумевает выявление (с высокой апостериорной вероятностью) гаплотипной фазы с учетом именно семейных данных. Обычно в генетических штудиях — как популяционных (реже),так и медгенетических (намного чаще) — работают с трио (генотипы матери-отца-ребенка). Но именно коммерческое генотипирование открывает более широкое поле деятельности для фазирования — получения более-менее однозначного гаплотипа с более-менее однозначной генеалогией.

По моим скромным наблюдениям, некоторые клиенты 23ия протестировали уже целые кланы своих родственников по 10-20 человек (отцов, матерей, братьев, сестер, племянников, дедов, бабок, детей, двоюродных, троюродных и т.д человек). Фазирование генотипных данных больших семейст позволило бы создать, выражаясь программистским языком, уникальную семейную библиотеку гаплотипов с четкой ДНК-генеалогической структурой наследования. По мере увеличения таких семейных библиотек и все большему охвату масс, можно было бы сравнивать эти гаплотипы уже на уровне семейств/кланов и выстраивать наиболее вероятные с точки зрения ДНК-генеалогии филогенетические кластеры.

Пока же все остается на интуитивно-гадательном уровне.