Дайджест новостей генетики и ДНК-генеалогии за январь-февраль 2014 года (часть 2)

**

Разработчики pyGenClean разместили полезный инструмент для предварительной подготовки выборки популяций для GWAS и этно-популяционного анализа. С помощью можно значительно автоматизировать относительно сложный процесс нахождения генетических outliers (т.е посторонних образцов выделающихся на фоне гомогенной однородной структуры популяции), а также провести многомерное шкалирования имеющихся популяций.

**

Я закончил проект по изучению структуры аутосомного генофонда грузинских этнографических групп. Ниже приведены выполненные в проекте публикую графики c результатами многомерного скалирования (MDS) и  анализа главных компонент (PCA) в изученной выборке. Еще я понял свою главную ошибку во время работы с предыдущими графиками — она состоит в том, что я раньше не сохранял в R framework данные и историю проделанных над ними операций. R очень гибкая среда для статистического анализа, но в силу большого разнообразия существующих пакетов для визуализации данных для выполнения одних и тех же команд часто возникает путаница с выбором подходящей техники визуализации. Поэтому лучше всего не начинать каждый раз с нуля, а сохранять workflow для последующих экспериментов. 1488015_10202873063857417_243934024_n 1526938_10202873450227076_1155088601_n

**

В русскоязычном секторе Интернета увеличивается число простых людей (и не совсем простых людей, вроде Татьяны Толстой), которые не боятся рассказывать открыто о своих генетических рисках, хотя в силу своего непонимания того что именно означает указанная в отчете risk odd (вероятность риска) , многие их выводы выглядят наивными.
Впрочем, ничего нет нового под Луной. Многие из моих сверхоптимистеских собеседников предполагали, что именно благодаря 23andme у рядового обывателя появилась возможность  наблюдения за своими генотипами (или геномами , под которым мы — summa summarum — понимаем здесь всю совокупность прочитанных генотипов), и даже за динамикой экспрессии свого экзома.
Тем не менее, даже я помню, как задолго до начала моего увлечения генетикой, примерно в 2002 году я видел передачу про исландскую компанию Decodeme по Discovery Channel. После длинного интервью с тогдашним ведущим сотрудником этой компании (К.Стефансон), в котором он рассказал о тотальном (почти 80%) генотипировании всей исландской нации, создатели фильма взяли краткие интервью у простых исландцев. Мне запомнился один исландец-докер, который — не отрываясь от процесса разгрузки траулера с рыбой, — с улыбкой на лице сказал: «Я могу выпивать по 10 чашек кофе в течении одного часа. Cогласно исследованиям ученных из DeCODE Genetics, в гене метаболизма кофеина у меня аллельный вариант, повышаюший скорость метаболизма кофеина».
Вывод — 23andme не были первыми, их заслуга в другом — в том что они вывели персональную геномику (в ее упрощенной форме) на новый, международно доступный уровень.

**
Компания Nanoporetech выпустила на рынок портативное устройство MinION, предназначенное для анализа молекул (в том числе и молекул ДНК), его можно применять для анализа структуры протеина и секвенрования ДНК. Устройство можно подключить к обычному компьютеру через USB-порт.
**

Уважаемый Pavel Bernshtam предложил реалистичную перспективу на стартапы. Кроме всего прочего, между строк замечаний Бернштама можно прочитать имплицитное неявное объяснение феномена значительной молодости самых известных стартаперов (им нечего терять и их руки-головы не связаны-загружены семейными обязанностями прокормки супруги и спиногрызов).
Я стою на перепутье выбора между развитием идеи этно-популяционного ДНК-калькулятора в форме стартапа, либо форме краудсорзинга, либо некоммерческая инструментализация разработки в криминалистике (в виде патента на методику нового вида криминалистической ДНК-экспертизы, которая со временем заменит надоевший всем фбр-овский CODIS):

«Хорошо, если просили про стартапы. Для стартапа нужно несколько вещей. Самое простое — идея. Идея сама по себе не стоит ничего. 0. Самая классная идея — НИЧЕГО. Идея начинает хоть что то стоить (тоже немного) если на ее основе написан бизнес план. Обоснованный бизнес план. Бизнес план, который может убедить. Сколько юзеров придет к вам на сайт в первые полгода? миллион? А почему? Докажите. А сколько зарегестрируется? Почему?
Следущее, что нужно — человек, который может принести инвестиции. Для этого нужно — представительность, бизнес план, знакомства и уйма всего иного. Нужно найти выход на инвесторов (без выхода тоже можно, но разговаривать с тобой будут иначе), нужно что бы тебя порекомендовали, нужно уметь рассказывать и убеждать. Далее — деньги. Скорее всего у Вас не получится сделать прототип, достаточный для получения инвестиции вечером на коленке, параллельно с основной работой. Вам надо будет уволиться и писать код.»

**
Как Вы помните, на Gedmatch.com были размещены разработанные мною этно-популяционные калькуляторы MDLP на платформе DIY Dodecad. Они позволяют довольно-точно определять этническое и популяционное происхождение исходя только из сравнительноого анализа частот полиморфизмов ДНК протестированного человека с частотами полиморфизмов ДНК в референсных популяциях. Несмотря на простоту использования (загрузил свое raw data, нажал на кнопку — получил результат), основные пользователи этого инструмента — американцы — имеют траблз с пониманием и интерпретацией результатов. Вот например, из свежего, присланного мне в январе. Ко мне уже обращаются как к доктору, который должен выдать свой авторитетный этнодиагноз:

» I had my test at 23and me and it has me as 100 European.
My mom says its a lie as my dad was an inuit from Alaska .My kit is ******
Could you please debunk inuit story»

Papa was a rolling stone (c)

«My results are for North-Amerind, (North American Indian) .. I suspect 4 generations back

Chr 1 1.7%
Chr 7 3.3%
Chr 18 2.5%

Is this a definite result for American Indian Heritage?»

На такие письма я вообще больше не отвечаю. Весьма странно что у столь многих американцев в последнее время появился фетиш происхождения от американских индейцев. Раньше это было не так заметно.

**

Повторное ресеквенирование «древнего» генома останков жителя мезолитической Иберии из La Brana 1 (того самого, которого исследовали в позапрошлом году на аутосомы и митохондриальный геном) показало, что этот человек имел очень необычную для Европы Y-хромосомную гаплогруппы — С6. Странности заметны на и уровне фенотипа: согласно анализу комплекса снипов, определяющих на уровне генотипа цвет кожи и глаз, он был темнокожим человеком с голубыми глазами (!).  У древнего европейца, жившего в пещере Ла-Бранья-Аринтеро (La Braña-Arintero, León) на севере Испании примерно 7 тысяч лет назад, были голубые глаза и очень смуглая кожа. Так художник представил себе то, как выглядел житель испанской пещеры 7 тысяч лет назад. (Ниже рисунок, опубликованный в Эль Паис.)

Палеогенетики успешно прочитали ДНК из костей древнего европейца, жившего в одной из пещер на севере Испании примерно 7 тысяч лет назад, и выяснили, что у него были голубые глаза и очень смуглая кожа, говорится в статье, опубликованной в журнале Nature. «Главным сюрпризом для нас стало то, что этот человек обладал типично «африканскими» версиями генов, которые управляют пигментацией кожи, что вероятно делало его очень смуглым или даже темнокожим, хотя мы и не можем точно определить ее тон. Еще более удивительным стало то, что этот «испанец» обладал теми вариациями генов, которые делают глаза европейцев голубыми, что делает этот геном уникальных, так как по всем остальным признакам он происходит из Северной Европы», — заявил Карлес Лалуэса-Фокс из Института эволюционной биологии в Барселоне (Испания). Что касается редкой гаплогруппы (C6, или по мнению некоторых исследователей просто C), то оказывается, что еще в 2013 году несколько любителей-непрофессионалов предсказывали вероятность присутствия С у части жителей палеолитической и мезолитиской Европы — по их мнению, мужское население палеолитической Европы могло принадлежать к линиям — C-V20 (в ISOGG С6), F и IJ.

«Ранние представители современного человека в Европе (EEMH), широко известные как кроманьонцы, мигрировали с Ближнего Востока в Европу несколькими волнами. Задумывашись над тем, какие гаплогруппы Y-ДНК могут быть связаны с ними, и в каком порядке они мигрировали в Европу, я придумал следующую хронологии для верхнего палеолита.

1) Гаплогруппа С6 (или С *, которая развилась в C6 в Европе)

2) Гаплогруппа F

3) Гаплогруппа IJ (которая развилась в Европе в гаплогруппу I) «

Заслуживает внимание и мастерское использование в данном исследовании методов секвенирования нового поколения — в частности, после того как генетики собрали геном древнего европейца из прочитанных мелких сегментов ДНК («ридов») по методу отображения ридов на референсный геном человека,  осталось приличное количество неиспользованных ридов. Генетики использовали «сухой остаток» для проведения метагеномического анализа. Как известно, метагеномика работает с набором всех ДНК находящихся в среде; следовательно генетики сделали удачное предположение о том, что «риды» без привязки к человеческому геному принадлежали геномам бактерии. BLAST-анализ ридов в Генбанке позволил установить те виды бактерий, секвенсы геномов которых были наиболее близки к изучаемым ридам.


В конце января были опубликованы две замечательные статьи на русском языке, посвященные бурно развивающейся области исследований — молекулярной патологии: «Молекулярная патология и роль врача-патологоанатома»  и «Наследственно обусловленный рак молочной железы и яичников«.


The Coop Lab продолжает размещать материалы о статистических рассхождениях в характере наследования генетического материала у ближайших родственников. Традиционно считается, что сибсы (сиблинги) одного пола похожи друг на друга в той или иной степени. Различие в фенотипических чертах объясняются разными факторами окружающей среды воздействующих в разной степени на их развитие. Тем не менее, как было показано в статье The Coop Lab,сибсы различаются также на уровне своего генома, за счет случайности сегрегации и рекомбинации.


Китайские генетики разработали  новый метод генной хирургии (точное геномое редактирование) и успешно применили его на макаках.


Ученные из университета Северной Аризоны «возродили» вирус древней чумы, пандемия которой пришлась на время правения византийского императора Юстиниана (Юстинианова чума). В лаборатории был прочтена последовательность ДНК бактерии-возбудителя чумы, которая содержалась в останках жертв этой пандемии. Очевидно, здесь также применялись методы метагеномики.


В сетевой версии журнала «Наука и жизнь» размещена статья о характере генетической интрогрессии (межвидовым обменом чужеродной генетической изменчивостью) произошедшей между неандертальцами и предками анатомически современного человека много десятков тысяч лет назад, и приведшей к частичной гибридизации двух видов, чьи эволюционные пути разошлись около полумиллиона лет тому назад:
«Оказалось, что практически все неандертальские гены локализованы в Х хромосоме, а значит, передались нам по женской линии. Ученые пришли к выводу, что мальчики, рождавшиеся в результате смешения кровей, были в большинстве своем бесплодны. «Когда неандертальцы и люди скрещивались, это было на краю биологической совместимости, ведь два генома не встречались друг с другом примерно полмиллиона лет», — комментирует результаты исследования один из его авторов Дэвид Рейч, генетик из Медицинской школы Гарварда (США).»

Я еще в 2010 году говорил, что если смешивание с неандертальцами происходило, то скорее всего гены были привнесены от связей между мужчинами homo sapiens sapiens и женщинами-неандертальцами. Не откажу себе в удовольствии процитировать свое сообщение на форуме Молгена.

«Re: Люди носят гены неандертальцев
Ответ #23 : 10 Май 2010, 19:40:25  Самое неубедительное в обеих работах это
1)отбор снипов для анализа (перекрестное сравнение снипов орангутанга, человека и шимпанзе — выбрали те, которые у человека являются, как считается, потомковыми).
2) по отобранным снипами произвели выравнивание (alignment) секвенсов шимпанзе, человека и неандертальца фазирование предкового генотипа общего предка человека, неандертальца и современного человека (т.е говоря проще, реконструировали (предсказали) гипотетический генотип по методу Байесовской апостериорной вероятности)
3) затем разбили фрагменты генома неандертала по снипами по признаку совпадения или несовпадения с предковыми значения гипотетического секвенса общего предка шимпанзе и гомо, на три группы -гомозиготные с предковым значением снипа, гомозиготные с потомковым значением и просто гетерозиготы. Про исключение более половины мутаций (пусть и синонимических), я вообще молчу. Но кто может гарантировать, что предковый генотип реконструирован верно, и, что самое главное — где доказательство того, что у неандертала должно быть именно предковое значение снипа, а не мутировавшее параллельно с человеком.
Наконец, на приведенном выше графике, разброс участков генома совпадающих у человека и неандертальца по X хромосоме, находится в меньшем диапозоне SD (стандартного отклонения), эти участки небольшие, но по структуре более дивергентные.
Из чего следует 2 вывода:
a) основное генное вливание шло через X хромосому и b) поскольку около 2/3 генетической информации X хромосомы аккумулируется в женских линиях, то направление вливания шло через самок неандертальцев и мужчин-сапиенсов, что несколько противроечит картине изображенной в первой статье.»

Любопытно, что при ресеквенировании геномов неандертальцев и секвенировании геномов новых неандертальцев (из пещеры Окладникова) применили новый метод секвенирования. В частности, они секвенировали митохондриальную ДНК из кости неандертальца и отделили ее от ДНК современного человека, что позволило доказать родство между жившими в Сибири и в Европе неандертальцами.Метод определения посторонних наслоений ДНК основан на анализе ее естественных мутаций. Так, у 30–40% образцов, возраст которых насчитывает несколько тысяч лет, цитозин превращается в тимин, а гуанин — в аденин. Ученые разработали систему, моделирующую процессы естественного изменения ДНК и сравнивающую полученный результат с данными образца.

Аналогичная методика была применена и в отношении менее древних образцов ДНК. Насчет мезолитических образцов из работы Лазаридиса, я не читал ту часть сапплемента где описывается техническая сторона опыта. Но в другой работе упомянутого в статье Скоглунда (Skoglund et al .2012) — в неолитическах образцах результаты поссмертной гидролитической деаминации (cytosine —> thymine or guanine —> adenine) были удалены. Но у неандера разумеется из было горадо больше и пришлось придумывать методику реконструкции первоначальных нуклеотидов.Кроме того, в статье Lazardis et.al.2013 (точнее в сапплементе) содержится указание на использование урацил-ДНК-гликосилазы и эндонуклеозы при подготовке библиотек для сиквенирования.Использование этого метода значительно (!) уменьшает включение деаминированных остатков C/G→T/A (здесь подробности).


Уважаемый «любитель» Владимир Таганкин на основе большого эмпирического материала (десятки тысяч гаплотипов) провел серьезное исследование дисперсии значений локусов Y-STR. Это исследование  по своему качеству превосходит многие статьи профессиональных популяционных генетиков.


В статье доктора Линча известный «феномен раздутости нефункциональной части человеческого генома» объясняется сочетанием ряда генетических факторов. Мутации, увеличивающие размер генома (дупликации), с гораздо меньшей вероятностью вредят организму, чем мутации, при которых часть генома теряется (делеции). Поэтому с увеличением частоты мутаций геном начинает непроизвольно расти. То есть причинно-следственная цепочка тут следующая:

малый размер популяции > увеличение генетического дрейфа > нарушение аккуратности репликации генома (увеличение частоты мутаций) > увеличение размера генома.

Как мне кажется, это объяснение можно применить к анализу всех мутаций, в том числе и STR (коротких тандемных потворов).


В январе и начале февраля было опубликовано несколько статей, в которых затрагивается тематика ДНК-криминалистика. Так в ходе проведенного Федеральным Бюро Расследований США аудита национальной базы данных ДНК, было обнаружено 166 ДНК-профиля, которые содержали ошибки. Часть этих ошибок появилась в результате ошибок клерков, другая часть связана с ошибками при интерпретации данных допущенных сотрудниками лабораторий. Проведенная тогда же проверка профилей ДНК в базе данных города Нью-Йорке дала аналогичные результаты. Неприятный факт обнаружения ошибок в STR-профилях ДНК поднимает старые вопрос о необходимости замены существующей системы CODIS. В более ранней работе, в которой рассматривалась роль и место устаревающей, но по-прежнему существующей системы CODIS в системе быстро развивающегося комплекса знаний о геноме человека, авторы сделали интересный вывод: несмотря на то, что маркеры CODIS часто лежат в пределах геномных и генных доменов, связанных с риском развития определенных заболеваний или отвечающих за определенные функции генома, не было найдено никаких  убедительных доказательств того, что «короткие тандемные повторы», используемые в качестве маркеров CODIS, могут помочь установить физические черты человека.  Наконец, в совсем новой работе по ДНК-криминалистике («Recent Advances in Forensic DNA analysis«), наряду с обсуждением сугубо технических моментов сбора и подготовки биологического материала к анализу, затрагивается и вопрос о возможных альтернативах STR (коротких тандемных повторов), т.е того типа маркеров которые лежат в основе системы CODIS. Одной из логичных альтернатив являются однонуклеотидные полиморфизмы (снипы). Одним из преимуществ снипов над STR является тот факт, что в сильнодеградированные фрагменты ДНК могут быть проанализированы только с помощью снипов. Будучи биаллельным маркером, снип может быть включен в ДНК-профиль, однако информативность одичного снипа гораздо ниже информативности STR-локусов, в силу чего  процесс установления личности при работе со смесью разнородных ДНК усложняется. Хотя единчный снип менее информативен ( в силу биаллельности), чем STR, но этот недостаток можно легко избежать за счет увеличения  количества SNP(снип)-маркеров, используемых при анализе. Разный уровень гетерозиготности  является одной из наиболее ценных особенностей снипов. Другой положительной чертой снипов является то, что при определении снипов нет нужды на разделение сегментов по их размеру, что делает мультиплексирование и автоматизации более доступны, чем  в анализе коротких тандемных повторов. Кроме того,  низкая скорость мутации снипов значительно улучшает их стабильность в качестве генетических маркеров.

 

Еще раз о эволюции «динарской клады» гаплогруппы I2a1b и славянизации Балкан

Как известно моим постоянным читателям, я уже на протяжении почти 5 лет пытаюсь опровергнуть устоявшееся в популяционное генетике представление о том, что частотный пик распространения на Балканах гаплотипов так называемой динарской клады гаплогруппы I2a1b можно объяснить  непрерывной генетической приемственностью населения этого региона со времен палеолита. Даже само кодовое название «ветви» — «динарская» — носит условный характер. Вопреки популярной точки зрения,  на самом деле название восходит не к трудам Нордтведту (который его просто популяризировал), а к известной cтарой статье Barac et al.2003. Авторы описали Dinaric Modal Haplotype в его 5-маркерной форме «(DMH: 16–24–11–11–13) by DYS19–390–391–392–393, respectively». Позднее он был расширен до 17, 37,67 и 111 маркеров и обнаружен не только на Балканах, но и по всей Восточной Европе

К сожалению, большинство из моих убедительных аргументов остаются без должного внимания со стороны профильных популяционных генетиков.  На дворе уже 2014 год и что мы видим в свежих работах по популяционной генетике населения Восточной Европы? Собственно говоря, ничего нового. В статье В.С. Панкратова, О.Г. Давыденко «Структура генофондов населения двух регионов Белорусского Полесья» 2013, стр.46 читаем: «Различие частот гаплогруппы I2a2 между популяциями «Вичина» и Западного Полесья не является достоверным, соответственно, она могла попасть в «Вичин» из других регионов Западного Полесья, при этом не происходило событий, приводящих к сильному генетическому дрейфу. Напомним, что для данной гаплогруппы характерна более высокая частота в Полесье, чем в других частях Беларуси, что предположительно является результатом мигра- ции ее носителей из потенциального балканского ледникового рефугиума на территорию юга современной Беларуси. Таким образом, заселение «Вичина» носителями Y-хромосомы I2a2 произошло либо так же, как и заселение других регионов Западного Полесья (в результате миграции с Балкан), либо позже в результате миграции с прилежащих территорий).»  Что характерно — здесь эта гаплогруппа (а речь идет конечно же о печально известной динарской субкладе этой гаплогруппы) названа I2a2 по старой терминологии, а в таблице частот уже по более новой I2a1. Это обстоятельство указывает на то, что статья писалась (или дописывалась) в разные времена. Похоже это общее место всех работ в области популяционой генетики,  так или иначе затрагивающих проблематику балканского палеолитического рефугиума, уже никогда не устранить. И это несмотря на то, что открытие новых снипов и соответствующие изменения в филогенетическом дереве гаплогруппы I2a-P37.2  дают надежные доказательства верности моей первоначальной гипотезы. Вот так, например, выглядит разметка филогенетического древа I2a-P37.2 по состоянию на начало 2014 года.

Еще более глубокая структура субкладов I2a1b приведена в черновой рабочей схеме компании Yfull.

I2_M423_20140203

Несмотря на интуитивно понятную структуру организации информации в филогенетических деревьях (кладограммах), они не могут быть использованы в качестве окончательного аргумента при строгом логическом доказательстве какой бы то ни было гипотезы.
Так уж повелось, что при аргументировании своей позиции в попгенетике надо оперировать языком сухой статистики и математики. Выводы и модели могут быть верными, частично неверными или даже полностью неправильными. Но если они выражены в формально-математическом виде, они имеют полное легитимное право на принятие к обсуждению в ситуации рациональной и конструктивной дискуссии. Поэтому статья (с рабочим названием » ‘Динарская субклада’ I2a1b: маркер славянской экспансии на Балканы?»)  должна  включать в себя, к примеру,  графическое отображение графа филогенетической сети гаплотипов динарской клады, но традиционными методами эту задачу решить крайне сложно. Я наткнулся на интересную альтернативу для тех случаев, когда вместо филогенетической схемы гаплотипов нужно строить гаплотипные сети (haplotype networks), но из-за больших объемов данных построить их в стандартной попгенетической программе Fluxus-Network в течении разумного времени не получается.

Вместо классического, но медленного FN можно использовать бесплатное программное обеспечение Arlequin > HapStar > Graphviz/Gephi/R-Graphviz. Первая попытка визуализации в Gephi:

1526576_10202941657572217_2008628619_n
Поскольку с эстетитческой точки зрения эта попытка была не очень удачной, то я решил повторить эксперимент с визуализацией MST динарского кластера гаплогруппы I2a — на этот раз в цветном исполнении.  В самом центре белоруские гаплотипы, окруженные украинскими гаплотипами. Ветвь Вереничей (Belarus19) в кластере гаплогруппы I2a: Belarus32->Bulgaria68->Poland365->Belarus 19, и очень близко к центру.

1048962_10202961233661607_1211213762_oЗатем я  частично переработал граф сети гаплотипов динарского кластера гаплогруппы I2a1b. Алгоритм Force Atlas 2, хотя и позволяет разглядеть мелкие детали размещения отдельных гаплотипов, — в конечном итоге дает уникальную структуру графа, и эта структура существенным образом отличается от привычной структуры сети гаплотипов в работах попгенетиков. Исходя из этого, я решил ограничиться применением Force Atlas, а затем сгруппировал перекрывающиеся узлы графа в одну группу. Благодаря этому незамысловатому трюку, на выходе я получил гораздо более приемлимый с точки зрения академического стандарта графический вариант. Это, конечно же, не штейнеровское MP-дерево гаплотипов в Fluxus Network, однако и оно дает неплохое представление о характере развития динарского кластера.

Задача: как вы думаете, где находится визуальный центр равновесия графа?

Подсказка: Иногда люди ошибочно полагают, что предковые гаплотипы — это гаплотипы в самом большом кластере. Например, в данном случае — в оранжевом метаузле. Однако это предположение работает только в том случае, если в популяции не было быстрого роста и экспансии. В противном случае может статься так, что носитель маргинального гаплотипа способен, в силу случайных и неслучайных причин вызвать эффект основателя, породив множество потомков. В таких случаях мы можем наблюдать картину характерную для данного графа. И это далеко не единственный случай

1555325_10202973979300240_689832560_n

Еще немного покопался в графе (MST) гаплотипов динарского кластера I2a1b. На полпути зум в Gephi сломался, и процесс «причесывания» начального графа пришлось заканчивать уже в Adobe Illustrator и Adobe Photoshop. Но надеюсь, что теперь-то граф представлен в удобоваримом формате:


1536644_10202976299438242_1824667689_nВ процессе подготовки материала к своей статье о динарской субкладе I2a1b, я сделал график многомерного шкалирования по вычисленной в Арлекине матрице Fst-расстояний между 42 популяционными группировками гаплотипов динарской субклады.

1656113_10203040706128369_1678657762_n

Примечательно что скорректированный коэффициент детерминации R2 в данном случае негативный (что редкость), впрочем этого можно было ожидать так как сам коэффициент детерминации R2 достаточно близок к нулю (R2=0.015), то есть данная модель — разбивка носителей по этногеографическим группам — объясняет 1.5% всей статистической вариативности всей выборки. Кроме того, p-value=1, а это означает, что мы должны принять нулевую гипотезу (отсутствие корреляции). Это близко к полученным значениям AMOVA, согласно которым на генетическое разнообразие между этническими группами приходится только 1% всего генетической разнообразия выборки. 98% приходится на разнообразие между отдельными гаплотипами. Говоря простыми словами, в выборке динариков-I2a1b отсутствует значимая кластеризация по этническому признаку.

Более надежное доказательство вышеозвученного вывода было получено при выполнения теста Мантеля, в котором определялась наличие и надежность корреляции между матрицнй географических расстояний и матрицы попарных Fst между группами популяций. Значения p-value c двухсторонним критерием (two-tailed p value) значительно больше 0.05, что означает  только одного — значимой корреляции не наблюдается, несмотря даже на приличный размер выборки — 774 гаплотипа.

Разумеется, если бы моя статья сопровождалось только схемами и результатами вычислений, то тогда это было бы статья стандартного формата популяционной генетики. Однако, как мне представляется, гораздо интереснее рассмотреть вопрос эволюции и миграции носителей «динарской клады» I2a1b в интердисциплинарном ключе. В этой связи необходимо посмотреть на эту проблему глазами историка, тем более что время экспансии  «динарцев» отлично накладывается на временной интервал экспансии славян на Балканы.

Как я уже отмечал ранее, в журнале Studia Slavica et Balcanica Petropolitana cодержится немало интересных статьей, в которых освещается современное состояние вопроса о так называемой славянизации Балкан во второй половине первого тысячелетия нашей эры.
По непонятной причине, в этом вопросе задают тон те слависты-историки, которые занимаются изучением проблем хорватского этногенеза. По этой причине в журнале представлены сразу 4 альтернативные взгляда на происхождение хорватов, которые представляют собой не столько развитие традиционных конкурирующих теорий автохтонности хорватов (Иван Лучич, Фердо Шишич, Франьо Рачки и пр.) versus миграционной модели (кульминировавшей в дискурссе иллиризма в середине 19 века), сколько новый тренд постмодернистского переосмысления многих традиционных понятий обеих теорий и исторических источников в виде идеологических конструктов и дискурссивных формантов.

  1. Алимов Д. Е. В поисках «племени»: этногенетическая модель «Венской школы» и проблема появления хорватской этничности.
    Алимов отвергает примордиалистский подход к хорватской этничности, в которой далмацкие хорваты виделись осколками первичной хорватской этничности. Термин «хорват» гентилистский, а не этнический: в Аварском каганате этот термин обозначал одну из (много) этно-социальных групп gentes разного происхождения, объединенных не родовыми связями, а принадлежностью к общей воинской группе.Может ли хорватский гентилизм служить свидетельством неславянского характера хорватской этничности или его следует понимать как закономерный социальный продукт миграции со свойственным этому процессу выдвижением на передний
    план — в том числе и в процессах групповой идентификации — воинского дружинного элемента? В свое время Х. Л овмяньский, размышляя над путями формирования так называемых «больших племен» в славянском мире, предположил, что в условиях славянских миграций и колонизации новых пространств закрепить название старого «большого племени» на новом месте, образовав новое «большое племя» со старым названием, могли только хорошо организованные воинские группы [34, Подобным же образом рассуждает и М. Анчич, полагая, что под хорватами и сербами Константина Багрянородного следует разуметь правящие слои соответствующих политий, состоявшие из знатных родов. Во время распада Аварского каганата разные группы хорватов укрылись кто в горах Карпат, кто в Судетах, кто в Восточных Альпах, кто на Динарском нагорье. Поскольку обозначение хорват обозначал лишь принадлежность к определенной социальной группе аварского каганата, то между карпатскими, силезскими, альпийскими и далматскиим славянами нет родства. То есть хорватская идентичность есть продукт трансформации соционима в этноним.
  2. Известная работа Флорина Курты «Создание Славян».
    Если выразить смысл этой работы одним предложением, то автор отрицает самое существование славян до их встречи с византийцев. Само слово славяне и понятие славянства есть продукт византийского имперского дискурса, и первоначально включал в себя не только славян в собственном смысле этого слова, но и германцев, иранцев, фракийцев и так далее.Заключительный раздел труда Ф. Курты суммирует выводы исследования. Особенно важным представляется вывод о том, что раннеславянская этничность не основывалась на языковой общности. (При этом, автор совершенно справедливо замечает, что сам этноним словене появляется гораздо позднее и лишь на периферии славянского ареала.) «Создание славян, — пишет Ф. Курта, — явилось не столько результатом этногенеза, сколько итогом инвенции, воображения и систематизации византийских авторов. … Это была… Самобытность сформированная в тени Юстиниановых крепостей… Имеются существенные основания утверждать, что эта самобытность была значительно более сложной, чем дублет «cклавены — анты» навязанный византийской историографией. … Первое отчетливое утверждение «мы — славяне» происходит из Повести временных лет XII в. Этой летописью завершается процесс создания славян…» (с. 349-350).
  3. Мягкий вариант синтеза «готской теории» и «автохтонтизма» в статьях Мужича. На основании источников, содержащих информацию о переселениях на современную хорватскую территорию, автор приходит к выводу, что именем Sclavi(ni) в принципе назывались полиэтничные переселенцы на Балканах. Суммируя результаты антропологических и генетических исследований, автор заключает, что современные хорваты по преимуществу являются потомками автохтонного населения Балкан. Автор доказывает, что хорватский народ возник как новая этническая общность на Балканах этническим соединением и социальным взаимодействием пришедших с севера воинских контингентов «гото-склавинов» и проживавших здесь различных популяций более многочисленных автохтонов.
  4. Постмодерниcтский-постколониальный этнодискурс австралийского исследователя Дэниела Дзино — книга «Becoming Slav, becoming Croat: identity transformations in post-Roman and early medieval Dalmatia» (Leiden; Boston: Brill, 2010). В книге на методологической платформе постмодернизма и конструктивистского подхода к этничности рассматриваются этносоциальные процессы, протекавшие на территории Далмации (Хорватия) в период поздней античности и раннего Средневековья.

<

p>Попробуем подвести промежуточные выводы этих моделей. Ведущие хорватские историки-слависты, а также некоторые российские «хорватоведы» рассматривают процесс генеза славян в виде некоего подобия черного ящика. Напомню: черный ящик — это система, в которой внешнему наблюдению доступны лишь входные и выходные величины, а ее внутреннее устройство и протекающие в ней процессы не известны. В этом смысле, Аварский кагант действительно хорошо подходит на роль «черного ящика». Большинство исторических сведений об Аварском каганате касается лишь его внешней политики (прежде всего, военных действий). Что касается внутреннего устройства этой кочевой империи, то оно по-прежнему остается terra incognita для историков в силу скудности, фрагментарности и противоречивости имеющихся источников о государственно-административном устройстве этого государства. Поэтому приходится либо интерпролировать имеющиеся сведения о социально-политической структуре других кочевых империй (тюрков, гуннов, монголов), либо просто фантазировать.
Согласно мнению Курты и его сторонников, процесс этногенеза славян протекал следующим образом. Где-то в середине 6 века нашей эры некие ещенеславянские сообщества людей попадают в «черный ящик» Аварского каганата. Спустя несколько поколений «инкубации» славянства из черного ящика Аварского каганата выходит некая, как говорили марксисты, «новая сообщность людей». Эта «новая сообщность», nihilnominus Sclavi («ничтожные именем склавины», как выразился один франкский летописец) внезапно (!) появляется в поле зрения византийцев, «выходя из-за тени построенных Юстинианом на Дунае крепостей» (Ф.Курта). Именно им византийцы и дают имя «славян», имя которых потомки разнесут по всей восточной Европе.

Я конечно же понимаю, что перед хорватскими историками перед самым кануном вступления Хорватии в ЕС, был поставлен политический заказ воскресить старые идеи неславянского происхождения хорватов времен младонационалистического иллирического романтизма в новом, постмодернистском исполнении. Перефразируя вышеупомянутого Д.Дзино, суть этого идеологического заказа можно выразить следующим девизом: «Перестанем быть славянами -станем европейцами!». Но зачем так ненавидеть свои корни, cвое происхождение и свои истоки — это мне непонятно.

Этот конструктивистский подход к вопросу этнической идентичности, согласно которому Аварский каганат выступил в роле катализатора этноформирующей реакции, в результате которой миру была явлена славянская идентичность, мне представляется сомнительным. Здесь уместно вспомнить этническую ситуацию в более поздних империях, например в империи Габсбургов, СССР, ту же Югославию времен Броза Тита. Пример СССР особенно поучителен, особенно если мы учтем тот факт, что СССР существовал примерно столько же лет, сколько и власть Аварского каганата на территории современной Хорватии (не больше 70-80 лет). Хорошо известно, что одной из основной задач национальной политики CCCР было создание новой общности людей — «homines sovetici» («советские люди»). Однако как показала история, в процессе крушения империи (также как и в Югославии) этноцентробежные силы не только не исчезли, но скорее даже усилились. Нет никакого основания полагать, что во времена падения Аварского каганата все могло выглядеть иначе.

При сопоставлени этих моделей мы неизбежно сталкиваемся с закономерным вопросом: а что генетика или ДНК-генеалогия могут прояснить в хитросплетениях исторических фактов?  К счастью, многие историки начинают всерьез интересоваться методами популяционной генетики и ДНК-генетика применительно к вопросам этногенеза и миграции отдельных исторических этносообществ. К несчастью, нейтральные выводы генетики зачастую искажаются или подгоняются историками под те априорные модели, которых эти историки придерживаются. Вот, в свете этой переводной статьи хорвата Ивана Мужича, становится ясно, каким образом происходят злостные манипуляции с интерпретацией данных популяционно-генетического анализа. Этот автор придерживается комбинированной модели происхождения хорват (смешивание автохтонов и готов), поэтому он интерпретирует выкладки популяционной генетики по структуре Y-хромосомного генофонда хорват исключительно в свете предпосылки антропологической и генетической приемственности населения Балкан со времен палеолита.

1743460_10203015436016632_1110433635_n
Такие манипуляции нуждаются в опровержении — и именно эту задачу я считаю главной в своем исследовании.

Русскоязычный ликбез — введение в основные понятия геномики

Уважаемый Владимир Гурьянов поделился замечательной ссылкой на статью 2010 года, в которой на хорошом и доступном для понимания русском языке излагаются базовые понятия современной геномной биоинформатики.
Важность этой статьи трудно переоценить по той причине, что при переводе иноязычных статьей на русский язык зачастую приходиться сталкиваться с отсутствие адекватной устоявшейся русскоязычной переводческой базы в столь новой и динамично развивающейся области, каковой и является геномика.  Кроме того, статьи на эту тематику в научно-популяризаторском секторе Рунете можно перечесть по пальцем, а существующую предметная литература либо написана на очень сложном и непонятном для неспециалиста языке, либо не восполняет существующие лакуны. И если прорехи в русскоязычной профессиональной лексике вкупе с устаревшими знаниями с лихвой компенсируются в профильных высших биологических и медицинских ВУЗах РФ живым общением с преподавателями, то ситуация в небольших группах энтузиастов-любителей коммерческого ДНК-тестирования гораздо более плачевна. В отличии от академических деятелей, приходящих к актуальным вопросам ДНК-тестирования через системное образование в области молекулярной биологии и генетики, большинство любителей приходят в генетику благодаря интересу к генеалогии и антропологии. На первых порах все кажется простым, но по мере погружения в суть самого процесса, они сталкиваются со все более сложными понятиями, которые в силу своей непонятности вызывают у новичков только отторжение. Однако именно более вдумчивое изучение этих основ позволяет по новому подойти к анализу своих собственных генетических данных.Именно по этим причинам, подобные статьи заслуживают более пристального внимания. Статья заслуживает внимательного прочтения, особенно в части описывающей технические стороны сиквенирования (прочтения последовательности) генома: в этой части автор весьма сжато, но точно изложил принципы работы разных методов сиквенирования (в том числе, и технологию сиквенирования нового поколения). Но поскольку в задачу этой небольшой заметки не входит реферирование всего содержания статьи, я решил ограничиться только разбором основных понятий, отдельно выделенных автором в словарик.

Словарик

Геном (точнее, ядерный геном) — совокупность всех молекул ДНК ядра клетки (каждая из отдельных молекул ДНК, взаимодействуя с комплексом белков, образует хромосому). Это понятие настолько базовое, что не нуждается в дополнительных комментарий. Отмечу от себя лишь, что в дальнейшем речь пойдет только о ядерном геноме. Кроме него (по 2 копии на клетку), в клетке содержится 100-1000 митохондрий, имеющих собственный геном, и наконец свой небольшой геном имеется в веретене деления  — структуре, возникающая в клетках эукариот в процессе деления ядра. У человека (Homo sapiens) геном состоит из 23 пар хромосом, находящихся в ядре, а также митохондриальной ДНК. Двадцать две аутосомы, две половые хромосомы Х и Y, а также митохондриальная ДНК человека содержат вместе примерно 3,1 млрд пар оснований. Несмотря на то, что геном в «развернутом виде» относится к макроструктурам (в развернутом состоянии его длина составляет примерно один метр), однако благодаря многоуровневой системы уплотнения, он помещается в микроскопические масштабы клетки. Например, в хромосомах молекула ДНК «уплотняется» в результате сложного взаимодействия с белком гистоном.

Секвенирование — определение первичной структуры (последовательности) биополимера. Применительно к ДНК (или РНК), «отсеквенировать» означает «прочесть» молекулу, то есть — установить последовательность образующих её нуклеотидных оснований. Здесь нужно сделать важный смысловой акцент на прочтении, секвенирование это просто прочтение генома, но не его расшифровка. Этот процесс можно сравнить с процессом воспроизведения неизвестной нам письменности, — мы можем в точности скопировать дискретные знаки письма, и воспроизвести их последовательность, но смысл без криптографической расшифровки нам останется неизвестным. В этой метафоре функцию определения первичной структуры биополимера играет роль автоматического определения знаковых единиц письма, роль биоинформатики — криптографии.

Референсный геном — последовательность ДНК в цифровом виде, составленная учеными как общий репрезентативный пример генетического кода того или иного вида. Вопреки расхожему мифу о триумфальной «расшифровке» генома человека, этот геном не только не расшифрован, но даже еще и не собран полностью. Последняя версия сборки GRChg37 (Genome Reference Consortium human genome 37 или в короткой записи b37), которая представляет собой гаплоидный геном с перемежающимися локусами (т. е. изначально сведенные в одну последовательность аллельные варианты могли располагаться на разных хромосомах, поэтому при сравнении между собой разных сборок всегда можно установить не только расхождение в аллельных вариантах локусов или их физической позиции, но и разницу расположения локусов на хромосомах ). Нужно отметить, что в отличии от геномов реальных людей, референсый геном носит «синтетический характер» — он буквально был собран из геномов 13 разных людей. По состоянию на 2010 год, cуммарная длина расшифрованного генома составляла 3 181 354 029 пар оснований, в составе 329 скаффолдов.  По состоянию на 2010 год в данной сборке имелось 357 пропусков (gaps)  с неизвестной последовательностью, по состоянию на начало 2014 года —  200 пропусков. Референсные геномы человека и мыши поддерживаются и совершенствуются Консорциумом Референсного Генома (Genome Reference Consortium, GRC) — группой менее чем 20 ученых из различных геномных научно-исследовательских институтов, включая European Bioinformatics InstituteNational Center for Biotechnology InformationSanger Institute и Washington University in St. Louis.  Референсный геном имеет практическое значение и для лиц, получившихся данные своего SNP-типирования в коммерческих формах — позиции снипов выравнены по одной из существующих сборок референсого генома (например, в 23andme сейчас используется cборка или билд b37).

Однонуклеотидный полиморфизм, «снип» (SNP, ОНП) — в узком смысле, это однонуклеотидное отличие в последовательности геномной ДНК, встречающееся в исследуемой популяции с частотой более 1%.  Среди любителей ДНК-генеалогии этот термин часто применяется для обозначения всех однонуклеотидных полиморфизмам, например к приватным семейным снипам на Y-хромосоме. Однако в строгом смысле этого слова термин ‘полиморфизм’ применим только к тем вариантам которые встречаются с частотой более 1% .

Genome-wide association study (GWAS) — исследование связи генотипа с различными фенотипическими признаками в масштабе всего генома (прежде всего, наследственными заболеваниями). GWAS выявляет отдельные вариации в ДНК, обусловливающие те или иные заболевания или эффект лекарственных препаратов. Причины практически всех болезней имеют наследственную компоненту, передающуюся от родителя ребенку посредством 3 млрд. пар нуклеотидных остатков, составляющих человеческий геном. Расширение знаний об этих наследственных составляющих должно ускорить разработку новых терапевтических стратегий. Определение генетических факторов, влияющих на здоровье, развитие болезней и ответ на лечение, является ключевым для развития медицины нового поколения, которая будет направленно бороться с патологией при минимальном риске для больного. В исследованиях связей генотипа с различными заболеваниями в масштабе генома ученые сравнивают геномы людей, подверженных болезни (cases), с геномами здоровых людей (controls). Такое сравнение позволяет выявить отличия больных и здоровых на генетическом уровне, даже если эти отличия минимальны.

Секвенаторы «нового поколения» — высокопроизводительные секвенаторы ДНК, не использующие метод терминации цепи Сэнгера и капиллярный электрофорез. Принципы работы приборов различаются от производителя к производителю. Производительность таких секвенаторов на несколько порядков превосходит производительность самых мощных капиллярных приборов и достигает сотен млрд. пар оснований за запуск.

Секвенирование «методом дробовика» (shotgun sequencing) — подход, применяемый при анализе множественных протяженных последовательностей ДНК (геномов, метагеномов, экзомов, библиотек кДНК, наборов ампликонов и т. д.), при котором молекулы ДНК фрагментируются случайным образом на более короткие отрезки, которые затем секвенируются. В случае определения последовательности методом Сэнгера необходимо клонировать каждый фрагмент; в случае секвенирования нового поколения эта необходимость отпадает (что устраняет необходимость клонирования и связанный с этим «перекос» в представленности отдельных фрагментов).

«Рид» (от англ. read) — отдельное прочтение фрагмента ДНК (последовательность нуклеотидных остатков). На мой взгляд это наиболее важное понятие из тех, которые помогают понять суть секвенирования.
Согласно удачному примеру на лекциях П.Певзнера, мы можем сравнить человеческий организм с типографской фабрикой, которая печатает одновременно миллионы копий одного текста (точно также как клетки человека содержат миллионы копий ДНК). В этом случае процесс секвенирования в первом приближении можно сравнить с процессом взрыва на типографской фабрике, после которого вместо копий цельного текста остаются миллиарды мелких обрывков. Эти обрывки и есть образное представление совокупности «ридов». Поэтому перед биоинформатиком встает поистине титаническая задача — собрать из этого невообразимого количества фрагментов  первоначальный текст. На языке биоинформатики это называется ассемблированием геномов (рид->контиг->скаффолд->билд). На практике в этом процессе задействованы алгоритмы из теории графов (Hamiltonian path; Eulerian path и так далее).
Untitled

Ресеквенирование — секвенирование фрагментов ДНК, обобщенная последовательность которых уже известна (в общих чертах), с целью обнаружения индивидуальных отличий конкретного образца.

Секвенирование de novo — расшифровка абсолютно неизвестных последовательностей ДНК, например, генома какого-нибудь нового вида.

Контиг (от англ. contig) — набор перекрывающихся последовательностей ДНК-фрагментов, полученных из одного биологического источника (организма, ткани, клетки). Контиги получаются из прочтений фрагментов геномных или суб-геномных библиотек при секвенировании «методом дробовика».

Скаффолд (от англ. scaffold, «строительные леса») — промежуточная неполная структура секвенируемой последовательности, помогающая сборке ее полной версии. По сути, это серия контигов, расположенных в правильном порядке, но необязательно соединенных в одну непрерывную последовательность.

Географическое распространение компонентов нового калькулятора проекта MDL K27

Не успела бета-версия моего нового этно-популяционного калькулятора и сопутствующего ему геномного оракула (Dodecad oracle) пойти в массы, как один талантливый россиянин Сергей Козлов из Новосибирска (о котором я уже много раз упоминал в блоге) написал программу, позволяющую довольно точно проецировать/предсказывать ареал происхождения анализируемого человека по мере степени увеличения или убывания  процентов предковых компонентов (или аллельных частот)  в отношении к априори заданым точкам на контурным картам (эти точки на контурной карте соответствуют контрольным группам референсных популяций).

Отклоняясь в сторону от темы, хочу отметить что два года назад, когда я начал работу над проектом MDL, я не надеялся найти активных последователей среди русскоговорящего населения, хотя задекларированный в анонсе ареал проекта частично охватывал часть современной западной европейской части России.  Причина моего пессимизма была очевидна — современные русские (впрочем как и 90% прочего человеческого населения) ленивы, глупы и любят бесплатно паразитировать на результатах труда других людей.  К началу 2011 года можно было по пальцам пересчитать тех русскоязычных людей, которые занимались  практическим изучением аутосомного родства и изучения происхождения, или создавали соответствующее программное обеспечение. По прошествии 2 лет,  я должно признать, что в своих мрачных прогнозах немного ошибался.   К счастью, не перевелись еще в известных российских IT-селениях вроде Новосибирска энтузиасты-кулибины.  А это означает, что надежда на пробуждение массового  интереса к ДНК-генеалогии в РФ, так же как это произошло уже в США, где уже сейчас можно наблюдать геномную революцию  во всей ее динамике.

Но вернемся к теме.

Итак,  уважаемый Сергей Козлов разработал интересное программное решение для визуализации пространственного расположения индивида, исходя исключительно из аллельных чистот снипов в геноме:

Я написал программу для совмещения данных этно-калькулятора с географической картой. Чем краснее область, тем более похож протестированный на ее жителей. И наоборот, чем зеленее, тем дальше от них. Черным цветом надписаны популяции, основанные на данных реальных людей, серым — частично или полностью основанные на предположениях.

В связи  с этим, нужно отметить два важных нюанса.
Во-первых,  число реперных точек (т.е «реперных» популяций) по европейской части РФ у Сергея  гораздо выше, чем в оригинальной бета-версии моего калькулятора K27 . Число точек в модификации Сергея было увеличено за счет включения фиксирующих дополнительных групп народонаселения РФ.
Во-вторых, cама идея визуализации  геномных данных на географической карте далеко не нова.  Весной этого года, в своей большой обзорной статье о принципах созданиях этно-популяционных калькуляторов на примере MDL World K22,  я указал на возможность визуализации коэффициентов адмикса в географическом пространстве:

… я решил визуализировать компоненты на поверхности земного шара путем отображения коэффициентов адмикса. Избегая излишних премудростей, я воспользовался готовым рецептом Франсуа Оливье, который предложал  использовать графическую библиотеку статистического программного обеспечения R для отображения пространственной интерполяции  коэффициентов адмикса (Q матрица) в двух измерениях (где пространственные координаты записываются как географические долгота и широта).

При вдумчивом прочтении подобных методов, встает неизбежный вопрос — почему градиенты аллельных частот в геноме людей являются крайне информативными при определении места их происхождения?   Частичный ответ на этот вопрос можно найти в другой моей заметке «О новых перспективах геномной геногеографии: SPA анализ участников проекта MDL«. В этой заметке я обсуждал перспективу расширения традиционных геногеографических методов, так как эксплицитное пространственное моделирования частот аллелей позволяет достаточно точно локализовать положение отдельно взятого человеческого индивида  на географической карте только на основании генетической информации. Если географическое происхождение лиц известно априори, то можно использовать эту информацию для определения функции частот аллелей в каждом SNP. Однако, если таковая информация отсутствует, то наша модель позволяет определить географическое происхождение физических лиц, используя только их генетические данные аналогично более известному методу  многомерного скалирования , основанному на определении пространственных координат статистических параметров.
Это заключение подтверждается в независимом исследовании компании 23andme, согласно которому анализ главных компонентов генетического разнообразия в геноме человека позволяет точно определить его место происхождения в Европе.

К сожалению, в отличии от авторов программы SPA, Cергей Козлов пока не счел нужным опубликовать формальное описание своего метода. Вместо этого, он обкатал программу на данных живых людей и привел их результаты. Вот результаты самого Сергея

Легенда

Результаты «типичного русского»

Результаты карпатского русина

Кроме этого, программа  Сергея умеет визуализировать частоты компоненты калькулятора в мировом масштабе. Ниже приведены все 27 компонентов калькулятора в алфавитном порядке:

Ancestral-South-Indian Ancestral-Yayoi Arabic Australo-Melanesian Austronesian Baltic-Finnic Bantu Bushmen Caucasian-Near-Eastern Central-African-Hunter-Gatherers Central-African-Pygmean Congo-Pygmean Cushitic East-Siberean Gedrosia-Caucasian Kalash Nilo-Saharian Nilotic-Omotic North-African North-Amerindian North-Circumpolar North-European-Baltic Papuan-Australian South-Meso-Amerindian South-West-European Tibeto-Burman Uralic

Методы и программы, используемые в работах с аутосомными маркерами ДНК

Вот краткое описание методов анализа аутосом, которые я использовал в своих проектах.

Admixture/Structure – метод позволяет провести доскональный анализ генетической субструктуры в исследуемых группах популяций – этнических групп. Если не вдаваться в подробности, на выходе получаются результаты в виде кластеров аутосомных снипов, по которым можно делать выводы о сходстве или различии сравниваемых групп, а также о процессе этнического формирования. Кроме того, можно рассчитать генетическую дистанцию между отдельными группами.
Adler – метод позволяет оценить время смешения предковых популяций для одной или нескольких групп, а также степень схожести современных этнических популяций и их предковых групп.
SPA – с помощью этой программы можно предсказать на основе генетических данных предполагаемый географический регион происхождения.

PCA/MDS  — стандартные статистические методы поиска главных компоненто/многомерного скалирования генетического разнообразия в исследуемых группах. Результаты можно представить в виде графика отображающего взаимное положение групп в многомерном пространстве генетического разнообразия.

fineStructure – принцип тот же что и в Admixture/Structure, c той лишь существенной разницей что он позволяет выявить внутренние генетические субструктуры этнических групп, которые точнее отображают исторические демографические процессы их становления.

fastIBD/Germline – программы поиска идентичных по генеалогическому происхождению геномных сегментов в генетических данных протестированных лиц. Результаты можно визуализировать в виде матрицы дистанций, которую можно преобразовать в древовидную структурк – дендрограмму.  Дендрограмма показывает степень близости отдельных объектов и кластеров, а также наглядно демонстрирует в графическом виде последовательность их объединения или разделения. Количество уровней дендрограммы соответствует числу шагов слияния или разделения кластеров.

 

О совпадающих геномных сегментах и числе общих предков современных европейцев

Пожалуй, ни для кого не секрет, что я всегда критично относился к спекулятивным танцам с бубнами вокруг предсказания степени родства (дистанции до последнего общего предка) между отдельно взятыми индивидами по размерам и генетической дистанции совпадающих у этих индивидов генетических сегментов.  Основным объектом моей критики являлись сверх-оптимистичные оценки гипотетического родства, используемые в коммерческих компаниях 23andme и FTDNA. Тут дело не в фирме, а в статистических особенностях выборки (у 23ия она явно ассимметричная) и -что еще ВАЖНЕЕ — в неопределенности процесса рекомбинации, что приводит к практическим трудностям в плане предсказания степени родства. То есть такой рубеж (пороговое значение сМ+размер УПСа) за пределами которых точный (в мат.статистическом смысле этого слова) генеалогический предикт невозможен.  Как я показывал ранее, у 23andme и особенно у FTDNA -он явно завышен и оторван от эмпирической действительности.  Красноречивым доказательством фатальной ошибки методологии (игнорирование сложного комплекса демографических факторов) является то, что большинство из предсказанных «6-7-юродных кузенов» не смогли подтвердить предсказанную степень родства с помощью методов традиционной генеалогии.

Этот досадный пробел был предметом многочисленных дискуссий среди пользователей компаний, в ходе которых мне так и не удалось убедить людей в иллюзорности их генеалогических мечтаний, которые подобно башням из слоновой кости, были выстроены на пустом месте  — неправильном предикте родства от ведущих коммерческих компаний в области персональной геномики.  Мои ухищрения,  -целью которых была демонстрация очевидного факта, что дискретный совпадающий сегмент размеров в 700 базовых пар и генетической дистанцией 7 см, мог достаться с одинаковой вероятностью как  от общего предка жившего 1000-2000 лет назад,  так и от прапрапрапрапрадеда, — так остались и пустыми логико-риторическими упражнениями в сотрясании интернет-траффика.  Не помогали даже материальные аргументы в виде результатов посегментного анализа  IBD у двух отдельно взятых неродственных людей из разных этнических групп. Например, вот результаты моего анализа выборки европейцев в программе Germline  (в целях сравнения статистических данных с данными 23andme, пороговые параметры в определении блока совпадения были приближены  к аналогичным параметрам в 23andme):

Orcadian HGDP00805 GBR_Orkney HG00108 2 107235902 153679651 rs12478937 rs10804036 3840 48,02 cM
Orcadian HGDP00804 Orcadian HGDP00810 2 2419677 29883379 rs12472646 rs12105526 3200 47,35 cM
North_Italian HGDP01173 North_Italian HGDP01174 2 43848995 70558910 rs7601418 rs17005666 3072 27,72 cM
Orcadian HGDP00803 Orcadian HGDP00810 2 61897757 88544724 rs7589969 rs13416374 2560 27,25 cM
Belorussian V150 Belorussian V219 2 53712521 66119342 rs6752239 rs17481962 1152 19,24 cM
Orcadian HGDP00804 GBR_Orkney HG00123 2 176257713 202211470 rs7592980 rs2676325 1920 18,39 cM
Lithuanian V216 Lithuanian V184 2 230439641 239396393 rs9288651 rs12471757 1152 18,13 cM
Ceu NA12045 Ceu NA12046 2 31424193 53699177 rs4952085 rs12479326 2816 15,09 cM
Chuvash GSM536732 Chuvash GSM536741 2 196830738 213271317 rs6731238 rs7575556 1408 14,6 cM
North-ossetian NorthOssetia3 North-ossetian NorthOssetia17 2 114989183 128751553 rs1346763 rs17016070 1152 14,52 cM
Russian HGDP00903 Russian HGDP00886 2 180753203 200962201 rs2056790 rs842823 1280 13,13 cM
Toscanian NA20752 Toscanian NA20826 2 71262858 85022082 rs412014 rs1979403 1280 12,83 cM
Sardinian HGDP01078 Sardinian HGDP00670 2 211234009 219428593 rs2270476 rs751135 896 12,71 cM
Lithuanian GSM536635 Lithuanian V174 2 53712521 61891702 rs6752239 rs1534648 768 11,51 cM
Chuvash GSM536730 Chuvash GSM536734 2 192150674 206350465 rs6713885 rs3732088 1024 10,98 cM
Finn HG00362 Finn HG00364 2 195087979 207551957 rs17587496 rs1006389 1024 10,63 cM
Toscanian NA20538 Toscanian NA20801 2 195087979 207551957 rs17587496 rs1006389 1024 10,63 cM
Toscanian NA20510 Toscanian NA20582 2 57622181 64181096 rs1527624 rs329497 512 10,38 cM
Lithuanian GSM536639 Lithuanian V192 2 57622181 64181096 rs1527624 rs329497 512 10,38 cM
North-ossetian NorthOssetia8 North-ossetian NorthOssetia17 2 221949758 229434957 rs11689951 rs13002075 768 10,1 cM
Orcadian HGDP00810 GBR_Orkney HG00109 2 150927335 167571220 rs10930090 rs869000 1408 9,98 cM
Ukrainian-Bel UkrBel618 Lithuanian V181 2 143507484 150927022 rs2304700 rs7600018 512 9,9 cM
North-ossetian NorthOssetia5 North-ossetian NorthOssetia19 2 45493838 59093657 rs3755072 rs6545712 1664 9,56 cM
Finn HG00173 Ceu NA12891 2 59113811 64181096 rs9309307 rs329497 384 9,24 cM
Chuvash GSM536734 Chuvash GSM536738 2 59113811 64181096 rs9309307 rs329497 384 9,24 cM
Ashkenazy GSM536681 Ashkenazy GSM536690 2 61897757 67156370 rs7589969 rs13405122 512 9,22 cM
Orcadian HGDP00800 Orcadian HGDP00802 2 212143458 218035046 rs12622730 rs2618139 640 9,14 cM
French_Basque HGDP01368 French_Basque HGDP01375 2 176257713 190701607 rs7592980 rs6718711 1152 9,13 cM
Finn HG00185 Ukrainian V234 2 188656086 200962201 rs7582658 rs842823 768 9,1 cM
Ceu NA12340 GBR_Orkney HG00108 2 53712521 60353988 rs6752239 rs2110398 640 9,04 cM
Romanian GSM536601 Belorussian GSM536699 2 149282942 156626573 rs12467520 rs16839941 640 9 cM
Abhasian abh53 North-ossetian NorthOssetia2 2 149282942 156626573 rs12467520 rs16839941 640 9 cM
Ashkenazy GSM536679 Ashkenazy GSM536681 2 60356734 65245546 rs907574 rs6546132 384 8,62 cM
Finn HG00343 Finn HG00366 2 129857353 138348072 rs2123522 rs16839804 768 8,26 cM
French_Basque HGDP01361 French_Basque HGDP01360 2 231428606 235338278 rs2466150 rs7602550 512 8,03 cM
Toscanian NA20539 Toscanian NA20585 2 51717876 59093657 rs11563025 rs6545712 768 7,98 cM
Lithuanian GSM536636 Lithuanian V184 2 51717876 59093657 rs11563025 rs6545712 768 7,98 cM
Ceu NA12044 Lithuanian V205 2 133615548 141217162 rs1434228 rs16844617 768 7,96 cM
Ukrainian-Bel UkrBel622 Belorussian V189 2 149282942 154983271 rs12467520 rs799761 512 7,92 cM
Spaniards GSM536582 French_Basque HGDP01377 2 142156580 149275095 rs1437351 rs1374441 512 7,9 cM
Orcadian HGDP00807 Orcadian HGDP00805 2 142156580 149275095 rs1437351 rs1374441 512 7,9 cM
Orcadian HGDP00807 GBR_Orkney HG00108 2 142156580 149275095 rs1437351 rs1374441 512 7,9 cM
Finn HG00185 Finn HG00366 2 182395284 195087892 rs16867499 rs17513288 768 7,74 cM
French_Basque HGDP01375 French_Basque HGDP01357 2 182395284 195087892 rs16867499 rs17513288 768 7,74 cM
Chuvash GSM536735 Chuvash GSM536741 2 52752510 59093657 rs1563200 rs6545712 640 7,72 cM
Russian HGDP00879 Ukrainian Ukraine94 2 52752510 59093657 rs1563200 rs6545712 640 7,72 cM
Russian HGDP00891 Ukrainian V202 2 61897757 66119342 rs7589969 rs17481962 384 7,72 cM
Toscanian NA20803 GBR_Cornwall HG00237 2 113480046 119613318 rs895497 rs6728751 512 7,7 cM
Finn HG00173 CEU_V V257 2 177355234 190701607 rs1554824 rs6718711 1024 7,68 cM
Lithuanian GSM536644 Belorussian V221 2 196830738 206350465 rs6731238 rs3732088 768 7,52 cM
Belorussian GSM536701 Mordovian mordovia4 2 144851058 150927022 rs3928425 rs7600018 384 7,5 cM
Ashkenazy GSM536680 Ashkenazy GSM536691 2 230439641 234587863 rs9288651 rs3732214 512 7,46 cM
Ashkenazy GSM536691 Ashkenazy GSM536694 2 230439641 234587863 rs9288651 rs3732214 512 7,46 cM
Russian HGDP00886 Russian HGDP00883 2 29273095 34859496 rs1670284 rs17015608 768 7,43 cM
Abhasian abh74 Nogay nogay8 2 137299914 144795535 rs12617926 rs10496963 768 7,31 cM
Ashkenazy GSM536690 Ashkenazy GSM536692 2 47533482 57615259 rs10514805 rs13422952 1152 7,3 cM
Adygei HGDP01382 Adygei HGDP01402 2 47533482 57615259 rs10514805 rs13422952 1152 7,3 cM
Belorussian GSM536699 GBR_Kent HG00130 2 56109336 61891702 rs3850353 rs1534648 512 7,14 cM
Chuvash GSM536733 Chuvash GSM536734 2 116610556 123992914 rs7579948 rs10496614 640 7,03 cM
Finn HG00179 Lithuanian GSM536639 2 60356734 64181096 rs907574 rs329497 256 7 cM
Ceu NA12891 Lithuanian V183 2 60356734 64181096 rs907574 rs329497 256 7 cM
Toscanian NA20541 Hungarian GSM536631 2 60356734 64181096 rs907574 rs329497 256 7 cM
Toscanian NA20541 Ukrainian V234 2 60356734 64181096 rs907574 rs329497 256 7 cM
Hungarian GSM536631 Ukrainian V234 2 60356734 64181096 rs907574 rs329497 256 7 cM
Sardinian HGDP00667 Russian HGDP00895 2 60356734 64181096 rs907574 rs329497 256 7 cM
French HGDP00537 Lithuanian V183 2 60356734 64181096 rs907574 rs329497 256 7 cM
French_Basque HGDP01368 Orcadian HGDP00798 2 60356734 64181096 rs907574 rs329497 256 7 cM
Belorussian V189 Russian V186 2 60356734 64181096 rs907574 rs329497 256 7 cM
Belorussian V189 Norwegian V255 2 60356734 64181096 rs907574 rs329497 256 7 cM
Ceu NA12843 CEU_V V224 2 141221189 146650404 rs387927 rs7608936 512 6,98 cM
East_German V242 Swedish V245 2 149282942 153679651 rs12467520 rs10804036 384 6,98 cM
North-ossetian NorthOssetia3 North-ossetian NorthOssetia5 2 114989183 121038508 rs1346763 rs7568633 512 6,97 cM
North-ossetian NorthOssetia5 North-ossetian NorthOssetia17 2 114989183 121038508 rs1346763 rs7568633 512 6,97 cM
Toscanian NA20803 CEU_V V166 2 48791118 57615259 rs17326328 rs13422952 1024 6,94 cM
Ukrainian-Pol UkrainePol25 Belorussian V221 2 50693731 57615259 rs17040897 rs13422952 768 6,88 cM
Ukrainian-Lv UkrLv228 Ukrainian-Lv UkrLv223 2 51717876 57615259 rs11563025 rs13422952 640 6,86 cM
Ukrainian V196 V251 Lithuanian 2 51717876 57615259 rs11563025 rs13422952 640 6,86 cM
Ceu NA12003 Belorussian V157 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Toscanian NA20539 Toscanian NA20541 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Toscanian NA20541 Toscanian NA20585 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Hungarian GSM536616 Polish V176 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Hungarian GSM536634 GBR_Orkney HG00108 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Lithuanian GSM536642 French_Basque HGDP01361 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Lithuanian GSM536642 North-ossetian NorthOssetia1 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
French HGDP00522 Ukrainian-Lv UkrLv237 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Russian V164 Swedish V178 2 53712521 59093657 rs6752239 rs6545712 512 6,78 cM
Lithuanian GSM536636 Ukrainian-Bel UkrBel618 2 54935367 60353988 rs12713282 rs2110398 512 6,77 cM
Russian HGDP00880 CEU_V V214 2 54935367 60353988 rs12713282 rs2110398 512 6,77 cM
French_Basque HGDP01366 CEU_V V212 2 54935367 60353988 rs12713282 rs2110398 512 6,77 cM
Lithuanian V183 Belorussian V219 2 54935367 60353988 rs12713282 rs2110398 512 6,77 cM
Hungarian GSM536634 Mordovian mordovia15 2 24378462 29883379 rs7603997 rs12105526 512 6,75 cM
French_Basque HGDP01374 French_Basque HGDP01370 2 33876524 42795681 rs4313958 rs10194712 1024 6,75 cM
French_Basque HGDP01374 French_Basque HGDP01369 2 208741802 216158215 rs7589531 rs1898722 640 6,74 cM
French_Basque HGDP01366 French_Basque HGDP01360 2 150927335 158463570 rs10930090 rs6437119 640 6,71 cM
Adygei HGDP01385 Ashkenazy V217 2 133615548 139819161 rs1434228 rs1877937 640 6,66 cM
Lithuanian V192 East_German V199 2 133615548 139819161 rs1434228 rs1877937 640 6,66 cM
French_Basque HGDP01361 French_Basque HGDP01375 2 184066647 195087892 rs2368443 rs17513288 640 6,62 cM
Belorussian GSM536702 Ashkenazy V217 2 52752510 57615259 rs1563200 rs13422952 512 6,59 cM
Chuvash GSM536745 Lithuanian V184 2 52752510 57615259 rs1563200 rs13422952 512 6,59 cM
Ceu NA07346 Orcadian HGDP00808 2 134492388 141217162 rs7594310 rs16844617 640 6,59 cM
Lithuanian GSM536642 Ukrainian-Bel UkrBel614 2 132875392 138348072 rs7422689 rs16839804 640 6,55 cM
French_Basque HGDP01361 French_Basque HGDP01373 2 219454805 223052099 rs10177996 rs4674656 384 6,54 cM
French_Basque HGDP01373 French_Basque HGDP01363 2 219454805 223052099 rs10177996 rs4674656 384 6,54 cM
Toscanian NA20509 Toscanian NA20540 2 180753203 192143509 rs2056790 rs4640333 768 6,53 cM
Adygei HGDP01383 Abhasian abh85 2 180753203 192143509 rs2056790 rs4640333 768 6,53 cM
CEU_V V214 Lithuanian V218 2 180753203 192143509 rs2056790 rs4640333 768 6,53 cM
Russian V207 Belorussian V189 2 212143458 216960658 rs12622730 rs1111341 512 6,5 cM
Ceu NA12046 GBR_Kent HG00149 2 143507484 149275095 rs2304700 rs1374441 384 6,49 cM
Hungarian GSM536618 Belorussian V189 2 143507484 149275095 rs2304700 rs1374441 384 6,49 cM
Adygei HGDP01383 Adygei HGDP01402 2 143507484 149275095 rs2304700 rs1374441 384 6,49 cM
GBR_Cornwall HG00231 GBR_Cornwall HG00243 2 20207509 24368500 rs7601441 rs10495747 384 6,42 cM
Ceu NA12891 Orcadian HGDP00797 2 132875392 137296704 rs7422689 rs10496758 512 6,29 cM
Adygei HGDP01385 CEU_V V166 2 132875392 137296704 rs7422689 rs10496758 512 6,29 cM
Russian V165 Lithuanian V192 2 132875392 137296704 rs7422689 rs10496758 512 6,29 cM
French_Basque HGDP01360 French_Basque HGDP01364 2 23009367 28398613 rs7586848 rs2279475 384 6,24 cM
Russian V207 Russian V162 2 178836075 190701607 rs919682 rs6718711 896 6,16 cM
Ceu NA06985 Ukrainian V234 2 61897757 65245546 rs7589969 rs6546132 256 6,15 cM
Ashkenazy GSM536679 Ashkenazy GSM536690 2 61897757 65245546 rs7589969 rs6546132 256 6,15 cM
Sardinian HGDP00673 Sardinian HGDP01072 2 61897757 65245546 rs7589969 rs6546132 256 6,15 cM
French_Basque HGDP01372 French_Basque HGDP01375 2 85022931 105998825 rs6726213 rs1647681 1152 5,99 cM
Iberian HG01530 Lithuanian GSM536639 2 196830738 205189112 rs6731238 rs12621708 640 5,94 cM
Toscanian NA20539 Toscanian NA20810 2 142156580 146650404 rs1437351 rs7608936 384 5,9 cM
Romanian GSM536594 Belorussian V157 2 142156580 146650404 rs1437351 rs7608936 384 5,9 cM
Finn HG00355 CEU_V V206 2 129857353 135467264 rs2123522 rs2322253 512 5,89 cM
Hungarian GSM536627 Belorussian GSM536698 2 123995298 128751553 rs6707592 rs17016070 384 5,86 cM
Lithuanian GSM536640 Belorussian V219 2 123995298 128751553 rs6707592 rs17016070 384 5,86 cM
French_Basque HGDP01374 French_Basque HGDP01369 2 123995298 128751553 rs6707592 rs17016070 384 5,86 cM
Iberian HG01501 French HGDP00514 2 57622181 61891702 rs1527624 rs1534648 384 5,85 cM
French HGDP00514 Mordovian mordovia15 2 57622181 61891702 rs1527624 rs1534648 384 5,85 cM
French HGDP00538 French_Basque HGDP01357 2 57622181 61891702 rs1527624 rs1534648 384 5,85 cM
French_Basque HGDP01377 GBR_Orkney HG00123 2 57622181 61891702 rs1527624 rs1534648 384 5,85 cM
Mordovian mordovia15 CEU_V V213 2 57622181 61891702 rs1527624 rs1534648 384 5,85 cM
Romanian GSM536594 Russian HGDP00897 2 116610556 122642738 rs7579948 rs12612050 512 5,82 cM
Finn HG00367 East_German V242 2 166035134 169872014 rs10497261 rs2247506 384 5,79 cM
Mordovian mordovia6 Belorussian V150 2 166035134 169872014 rs10497261 rs2247506 384 5,79 cM
Russian V179 Polish V169 2 170969033 176253825 rs6736609 rs7578330 512 5,79 cM
Hungarian GSM536626 Polish V223 2 24378462 29269296 rs7603997 rs1728828 384 5,78 cM
Russian HGDP00899 Belorussian V235 2 24378462 29269296 rs7603997 rs1728828 384 5,78 cM
French_Basque HGDP01377 French_Basque HGDP01360 2 231428606 234587863 rs2466150 rs3732214 384 5,76 cM
French_Basque HGDP01361 French_Basque HGDP01377 2 233009060 235338278 rs12996863 rs7602550 384 5,76 cM
French_Basque HGDP01372 French_Basque HGDP01374 2 104096603 111624162 rs12613102 rs724710 640 5,75 cM
Lithuanian GSM536641 Belorussian GSM536698 2 121048500 127300092 rs1467326 rs4072704 512 5,72 cM
Finn HG00180 East_German V199 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Finn HG00343 GBR_Kent HG00143 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Finn HG00365 Ashkenazy V217 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Ceu NA07346 East_German V199 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Ceu NA12891 Ashkenazy V217 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Ceu NA12891 East_German V199 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Romanian GSM536590 Orcadian HGDP00798 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Lithuanian GSM536640 Belorussian V220 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Lithuanian GSM536642 Ukrainian Ukraine141 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Adygei HGDP01388 GBR_Cornwall HG00257 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Ukrainian-Pol UkrainePol19 East_German V240 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Ukrainian-Pol UkrainePol19 East_German V241 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
GBR_Orkney HG00101 Lithuanian V192 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Russian V165 East_German V199 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Lithuanian V183 Ashkenazy V217 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Lithuanian V184 Polish V180 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
CEU_V V212 Belorussian V220 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Belorussian V220 Ashkenazy V217 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
East_German V241 East_German V199 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Ashkenazy V217 East_German V199 2 133615548 138348072 rs1434228 rs16839804 512 5,72 cM
Finn HG00179 Belorussian V189 2 135475565 142152929 rs6706490 rs164979 640 5,68 cM
Iberian HG01630 Ceu NA12283 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Iberian HG01630 Mordovian mordovia14 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Ceu NA12006 Ceu NA12155 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Toscanian NA20538 Russian GSM536913 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Toscanian NA20755 GBR_Cornwall HG00233 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Toscanian NA20798 French_Basque HGDP01376 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Hungarian GSM536616 North_Italian HGDP01155 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Hungarian GSM536616 Orcadian HGDP00810 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Lithuanian GSM536636 Chuvash GSM536745 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Lithuanian GSM536642 Russian V165 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Lithuanian GSM536642 Lithuanian V192 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Lithuanian GSM536643 Norwegian V255 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Ashkenazy GSM536679 Ashkenazy V217 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Chuvash GSM536736 Russian HGDP00891 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Chuvash GSM536745 CEU_V V214 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
French_Basque HGDP01361 Lithuanian V192 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
French HGDP00522 GBR_Cornwall HG00258 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
North_Italian HGDP01174 French_Basque HGDP01379 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
North_Italian HGDP01174 French_Basque HGDP01365 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
French HGDP00515 Bulgarian Bulgaria7 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Sardinian HGDP00673 Ukrainian-Lv UkrLv237 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Abhasian abh9 Lithuanian V254 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Mordovian mordovia6 Lithuanian V184 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Mordovian mordovia12 Bulgarian Bulgaria6 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Bulgarian Bulgaria6 Polish V160 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Belorussian V221 Lithuanian V184 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Lithuanian V184 CEU_V V214 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Russian V232 V251 Lithuanian 2 53712521 57615259 rs6752239 rs13422952 384 5,66 cM
Belorussian V189 Ukrainian V202 2 48791118 56107009 rs17326328 rs13418952 896 5,65 cM
North_Italian HGDP01177 Mordovian mordovia2 2 2419677 3692890 rs12472646 rs13395090 256 5,61 cM
North-ossetian NorthOssetia3 Polish V169 2 2419677 3692890 rs12472646 rs13395090 256 5,61 cM
Ukrainian V236 Belorussian V220 2 49679328 56107009 rs1553129 rs13418952 768 5,61 cM
Chuvash GSM536730 Chuvash GSM536740 2 85022931 105326765 rs6726213 rs2576767 1024 5,6 cM
Toscanian NA20581 Russian V179 2 51717876 56107009 rs11563025 rs13418952 512 5,57 cM
Adygei HGDP01388 Lithuanian V222 2 51717876 56107009 rs11563025 rs13418952 512 5,57 cM
GBR_Cornwall HG00231 CEU_V V226 2 51717876 56107009 rs11563025 rs13418952 512 5,57 cM
Mordovian mordovia2 Mordovian mordovia15 2 12179872 15869508 rs10201732 rs11687741 384 5,53 cM
Toscanian NA20509 Toscanian NA20542 2 234051542 236028545 rs745155 rs4663587 384 5,53 cM
French HGDP00515 French_Basque HGDP01368 2 182395284 192143509 rs16867499 rs4640333 640 5,52 cM
Belorussian V189 Ashkenazy V229 2 182395284 192143509 rs16867499 rs4640333 640 5,52 cM
Finn HG00180 Ceu NA12891 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00180 Chuvash GSM536744 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00180 Orcadian HGDP00797 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00180 Ukrainian-Pol UkrainePol19 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00180 Russian V165 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00180 East_German V241 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00180 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00343 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Finn HG00355 Adygei HGDP01385 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA07346 Ceu NA12892 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA11829 Orcadian HGDP00797 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA11829 CEU_V V204 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12006 GBR_Kent HG00143 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12044 Lithuanian GSM536642 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12044 Orcadian HGDP00797 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12044 CEU_V V204 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12044 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12044 Russian V161 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12283 Adygei HGDP01385 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12283 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12283 East_German V199 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12891 Ukrainian-Pol UkrainePol19 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12891 Russian V165 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12891 Lithuanian V192 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12891 Belorussian V220 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12892 GBR_Kent HG00143 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ceu NA12892 East_German V199 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Lithuanian GSM536642 Adygei HGDP01385 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Lithuanian GSM536642 CEU_V V204 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Chuvash GSM536729 Chuvash GSM536738 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00807 East_German V199 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00796 GBR_Orkney HG00108 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Adygei HGDP01385 CEU_V V204 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
French HGDP00515 French HGDP00527 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Adygei HGDP01388 Lithuanian V192 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Adygei HGDP01388 Belorussian V220 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
North_Italian HGDP01154 Mordovian mordovia5 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
North_Italian HGDP01154 Lithuanian V250 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Russian HGDP00879 GBR_Kent HG00143 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00797 Lithuanian V192 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00797 CEU_V V166 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00797 East_German V240 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00797 East_German V241 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00797 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Orcadian HGDP00797 East_German V199 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Bulgarian Bulgaria37 Polish V248 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ukrainian Ukraine141 CEU_V V204 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ukrainian-Pol UkrainePol19 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
GBR_Kent HG00143 Norwegian V256 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
GBR_Cornwall HG00257 Belorussian V220 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Polish V180 East_German V241 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Lithuanian V192 CEU_V V204 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Lithuanian V192 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
CEU_V V204 Ashkenazy V217 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
CEU_V V204 Russian V161 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
East_German V240 Norwegian V256 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Ashkenazy V217 Lithuanian V250 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Lithuanian V250 East_German V199 2 133615548 137296704 rs1434228 rs10496758 384 5,45 cM
Abhasian abh27 Ukrainian-Lv UkrLv223 2 185957876 195087892 rs16823795 rs17513288 512 5,45 cM
Iberian HG01504 French_Basque HGDP01372 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Iberian HG01504 French_Basque HGDP01362 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Ceu NA12155 GBR_Kent HG00130 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Ceu NA12155 GBR_Cornwall HG00237 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Ceu NA12155 East_German V198 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Ceu NA12155 CEU_V V257 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Ceu NA12891 Norwegian V256 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Toscanian NA20800 Ukrainian V188 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Toscanian NA20803 GBR_Kent HG00130 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Toscanian NA20803 East_German V198 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Toscanian NA20803 CEU_V V257 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Romanian GSM536595 North_Italian HGDP01157 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Lithuanian GSM536643 French HGDP00525 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Belorussian GSM536703 GBR_Kent HG00130 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
French_Basque HGDP01372 French_Basque HGDP01362 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
French_Basque HGDP01360 French_Basque HGDP01380 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
GBR_Kent HG00130 GBR_Cornwall HG00237 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
GBR_Kent HG00130 East_German V198 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
GBR_Kent HG00130 CEU_V V257 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
GBR_Cornwall HG00237 East_German V198 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
GBR_Cornwall HG00237 CEU_V V257 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Russian V207 Norwegian V194 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
East_German V198 CEU_V V257 2 114989183 118681330 rs1346763 rs17047865 256 5,43 cM
Lithuanian GSM536635 V251 Lithuanian 2 66144018 71254525 rs10198404 rs397458 640 5,39 cM
Ceu NA12275 Polish V243 2 146687885 150927022 rs12997609 rs7600018 256 5,39 cM
Ceu NA12347 French_Basque HGDP01375 2 146687885 150927022 rs12997609 rs7600018 256 5,39 cM
French_Basque HGDP01375 East_German V242 2 146687885 150927022 rs12997609 rs7600018 256 5,39 cM
Russian HGDP00895 Lithuanian V211 2 146687885 150927022 rs12997609 rs7600018 256 5,39 cM
French_Basque HGDP01362 French_Basque HGDP01371 2 195087979 202211470 rs17587496 rs2676325 512 5,34 cM
North_Italian HGDP01152 CEU_V V175 2 195087979 202211470 rs17587496 rs2676325 512 5,34 cM
Chuvash GSM536730 Chuvash GSM536743 2 116610556 121038508 rs7579948 rs7568633 384 5,33 cM
French_Basque HGDP01374 French_Basque HGDP01368 2 116610556 121038508 rs7579948 rs7568633 384 5,33 cM
Finn HG00362 Finn HG00367 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Finn HG00365 French_Basque HGDP01359 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Ceu NA07056 North-ossetian NorthOssetia5 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Ceu NA12044 Ceu NA12546 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Toscanian NA20503 Toscanian NA20796 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Toscanian NA20510 Sardinian HGDP01071 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Toscanian NA20582 French_Basque HGDP01357 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Toscanian NA20797 Ukrainian V234 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Toscanian NA20798 Lithuanian GSM536636 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Toscanian NA20804 Sardinian HGDP01071 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Spaniards GSM536581 Russian V165 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Hungarian GSM536616 Ukrainian-Pol UkrainePol25 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Hungarian GSM536627 GBR_Cornwall HG00233 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Lithuanian GSM536636 Mordovian mordovia6 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Lithuanian GSM536636 CEU_V V214 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Lithuanian GSM536638 Ukrainian-Lv UkrLv223 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Lithuanian GSM536642 Russian HGDP00880 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
French HGDP00522 Sardinian HGDP00673 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Orcadian HGDP00799 East_German V233 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
French_Basque HGDP01379 French_Basque HGDP01365 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Adygei HGDP01383 CEU_V V209 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
North_Italian HGDP01155 Mordovian mordovia5 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Russian HGDP00897 Swedish V245 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Mordovian mordovia6 CEU_V V214 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Mordovian mordovia6 Norwegian V255 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Bulgarian Bulgaria37 Russian V232 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
GBR_Cornwall HG00231 Belgian V253 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Russian V179 Russian V162 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Lithuanian V184 CEU_V V206 2 52752510 56107009 rs1563200 rs13418952 384 5,3 cM
Iberian HG01504 Romanian GSM536601 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
Iberian HG01504 French_Basque HGDP01377 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
Romanian GSM536602 East_German V241 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
French_Basque HGDP01357 CEU_V V257 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
Ukrainian-Bel UkrBel614 Russian V164 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
GBR_Orkney HG00123 GBR_Kent HG00129 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
Lithuanian V184 Lithuanian V174 2 134492388 139819161 rs7594310 rs1877937 512 5,28 cM
Ceu NA12891 Hungarian GSM536630 2 167571666 169872014 rs1877192 rs2247506 256 5,28 cM
Ashkenazy GSM536677 CEU_V V214 2 167571666 169872014 rs1877192 rs2247506 256 5,28 cM
Russian V164 Lithuanian V222 2 167571666 169872014 rs1877192 rs2247506 256 5,28 cM
Toscanian NA20803 French_Basque HGDP01362 2 125284013 129849835 rs314712 rs2030664 384 5,26 cM
Bulgarian Bulgaria7 Latvian V238 2 125284013 129849835 rs314712 rs2030664 384 5,26 cM
Ceu NA12045 Ashkenazy GSM536681 2 122648492 127300092 rs1545016 rs4072704 384 5,24 cM
Romanian GSM536600 Belorussian V220 2 122648492 127300092 rs1545016 rs4072704 384 5,24 cM
French_Basque HGDP01374 French_Basque HGDP01368 2 122648492 127300092 rs1545016 rs4072704 384 5,24 cM
Ceu NA12347 Orcadian HGDP00797 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
Ceu NA12347 East_German V203 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
Ceu NA12347 East_German V242 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
Orcadian HGDP00797 East_German V203 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
Orcadian HGDP00797 East_German V242 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
Bulgarian Bulgaria39 Norwegian V194 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
East_German V203 East_German V242 2 149282942 152131851 rs12467520 rs3732311 256 5,23 cM
Ashkenazy V229 Russian V161 2 190708276 196826267 rs13012077 rs1869796 384 5,17 cM
Finn HG00355 Toscanian NA20807 2 174422779 178813234 rs17233751 rs6433715 384 5,14 cM
Hungarian GSM536627 Belorussian V221 2 196830738 204167451 rs6731238 rs4675350 512 5,07 cM
Chuvash GSM536730 Adygei HGDP01382 2 192150674 198914641 rs6713885 rs2727765 384 5,04 cM
Adygei HGDP01382 CEU_V V209 2 192150674 198914641 rs6713885 rs2727765 384 5,04 cM
Mordovian mordovia13 Nogay nogay7 2 192150674 198914641 rs6713885 rs2727765 384 5,04 cM

Как видно из приведенного анализа, некоторые из совпадающих сегментов с генетической дистанцией > 7 cM встречаются не только в сравнениях людей одной популяции, но и при сравнении лиц из удаленных друг от друга этнических популяций. Второй важный момент:  причины образования больших  IBD сегментов могут быть разными, поэтому сегменты сами по себе не всегда надежны при определении степени родства между отдельно взятыми людьми. В моем примере, внушительные размеры совпадающего сегмента у оркнейцев — 47.35 сM — объясняются вовсе не близкой степенью родства, а большим количеством общих предков, и следовательно инбридингом, одним из следствий которого является гомозиготность популяции.  В  случае с тосканцами (North Italians) блок размером в 25 сантиморганид есть ни что иное как свидетельство феномена криптородства. Что касается сегмента с генетической дистанцией 19 сM между V150 (это я) и V217, то он детектируется в 23andme. Поскольку часть предков V150 и V217 проживала в географически смежных регионах (Пинский и Слуцкий регион Беларуси), то нельзя исключать очевидной связи сегмента с региональной привязкой (например, встречается у большой части населения этого региона И таких примеров множество. Такие примеры лучше всего иллюстрировать построив в программах типа Gephi сети, где в качестве ребер соединяющих узлы, будут выступать величины генетической дистанции между индивидами. Например, так

screenshot_225259

До июля прошлого года,  мой одинокий голос разума здравого скептицизма было подобен гласу вопиющего в пустыне.
В июле 2012 года произошло знаменательное событие —  ученые Peter Ralph и Graham Coop их университета Южной Калифорнии опубликовали в arXiv первоначальную версию своей статьи (которая позже была размещена и на профильном портале PLos Biology).

Эту работу -The Geography of Recent Genetic Ancestry across Europe- можно считать новаторской по целому ряду признаков.
Во-первых, это первая работа написанная на предмет анализа соотношения мозаики генетического наследования (в виде рекомбинантных блоков) и генеалогической дистанции. Емнип, раньше такие вопросы рассматривались только в рамках узких форумных дискуссий.

Во-вторых, в работе используется весьма элегантный математический аппарат и затрагивается целый ряд важных вопрос.

И, наконец, в-третьих, авторы используют академическую выборку европейских популяций Popres, обследуя  ее на ряд важных статистических параметров.

Но дадим слово самим авторам:

Недавняя генеалогическая история человеческой популяции отражает сложную мозаику сформированную процессами отдельных миграций, крупномасштабными перемещения населения и другими демографическими событиями. Анализ геномных данных популяций может пролить свет на события недавней истории, а редкие недавние следы общей генетической родословной обнаруживаются в виде длинных идентичных сегментов  в сравниваемом материал. Мы использовали геномные данные 2257 европейцев (в базе данных Population Reference [POPRES]) для проведения одного из первых исследований недавней генеалогической родословной в течение последних 3000 лет в европейском континентальном масштабе. Мы обнаружили 1 900 000  длинных геномных сегментов-совпадений, и использовали длины этих сегментов для установления характера распределения общих предков во времени и географии. Мы считаем, что пара современных европейцев, живущих в соседних этнических популяций, имеет в среднем от 2 до 12  общих генетических предков в течении  последних 1500 лет, и свыше 100 генетических предков в течении предыдущих 1000 года. Эти цифры уменьшаются  экспоненциально с увеличением географического расстояния, но так как эти генетические предки составляет лишь мизерную долю от общего числа генеалогических предков, теоретически люди с разных концов Европы должны иметь миллионы общих генеалогических предков за последние 1000 лет. Существует также существенные региональные различия в числе общих генетических предков. Например, особенно значительное число общих предков наблюдается между несколькими восточно-европейскими популяциями,  возникновение которых относится примерно к периоду переселения народов (которое включает в  себя славянскую и гуннской экспансии в этом регионе). С другой стороны один из самых низких уровней общего происхождения  наблюдается на Апеннинском  и Пиренейском полуостровах, и это может свидетельствовать о различных эффектах в демографической истории населения в этих районах и / или более стабильно структурированном населении.

Как отмечалось выше, в работе затрагивается целый спектр интересных моментов касающихся предмета исследований.
Мы остановимся только на двух моментах:

1. Представители некоторых этнических популяций разделяют в среднем  большое количество общих предков с соседней популяцией, чем с представителями собственной этногруппы. Пример: немцы разделяют большее число предков с поляками, чем с другими немцами (1,24 против 1,05, р = 5,7 × 10-6).  Авторы объясняют этот феномен недавней асимметричной миграцией из меньшей популяции в большую.

2. Второй момент связан напрямую с проблемой определения времени жизни последнего общего предка от которого был унаследован сегмент. Понятно, что ответ на этот вопрос будет иметь важное значение для тех людей, кто покупал услуги 23andme исключительно в генеалогических целях. На первый взгляд, все просто. Допустим, если я и Вы разделяем  IBD блок генома размеров в 10 сантиморганов , то встает вопрос — когда же именно жил наш последний общий предок?
По теоретическим расчетам, средняя длина блока IBD унаследованного общего предка жившего пяти поколений назад, составляет 10 сантиморганид; поэтому мы могли бы ожидать, что средняя дистанция до общего предка составляет всего пять поколений.

Тем не менее, прямая экспликация результатов в обсуждаемой работе говорит о том, что средний возраст блока (10 cM) общего по происхождению у двух лиц с территории Соединенного Королевства составляет от 32 до 52 поколений (в зависимости от типа используемого распределения). Такое расхождение с теоретическими прогнозами видимо связано с тем, что априори гораздо более вероятно, что общий генетический предок  жил  в более отдаленном  прошлом, и эта априорная вероятность сильно искажает результаты нашего наивной ожидания. И хотя с учетом действия рекомбинации представляется маловероятным, что блок 10 сM унаследован от конкретного общего предка жившего примерно 40 поколений назад, существует большое количество таких древних общих предков. Это также означает, что расчетные возраста зависят также и от разделенной популяционной историей ‘: например, возраст аналогичного блока (10 cM) разделяемого кем-то из Соединенного Королевства с кем-то из Италии еще старше, как правило, примерно 60 поколений до  общего предка.  Впрочем, это правило не применяется в том случае если предки из совсем недавнего прошлого (не более чем восемь поколений) . Обычно в таком случае от общего предка наследуется сразу несколько длинных  сегментов (часто на разных хромосомах), и  в данном случае, мы можем надеяться сделать вывод о конкретном генеалогическом родстве с достаточной степенью достоверность, хотя даже в этом случае следует соблюдать осторожность, чтобы исключить возможность того, что эти несколько блоков не были унаследованы от общих удаленных предков.

Еще раз о фазировании

В этом посте мы продолжим обсуждение проблематики отфазированных генотипов.
Многих пользователей моего блога интересует вопрос, каким образом можно фазировать биаллельные генотипы в гаплотипы?

С технической точки зрения, процесс фазирования генотипов подразумевает выявление — с высокой апостериорной вероятностью гаплотипной фазы. Как показывает сравнительный анализ алгоритмов фазирования в программах Beagle, PHASE, IMPUTE и т.д., — наиболее точные результаты получается в ходе совместного фазирования генотипов ближайших родственников.Поэтому в генетических штудиях — как популяционных (реже),так и медгенетических (намного чаще) — фазирование проводится с использованием генотипов трио (генотипы матери-отца-ребенка). Однако именно коммерческое генотипирование открывает более широкое поле деятельности для фазирования — получения более-менее однозначного гаплотипа с более-менее однозначной генеалогией. Вопреки распространенному среди любителей ДНК-генеалогии мнению любой составной УПС/HIR может быть легко преобразован в совокупность отельных гаплоблоков, многие из которых достаточно уникальными в предковой популяции анализируемого индивида. Здесь нужно развеять и второе заблуждение любителей — диплоидные генотипы 23andme ни в коем случае нельзя автоматически разбивать на два смежных столбика, единственный легитимным способом получения фазы генотипов является фазирование данных в специальных программах.

В принципе, можно с увереностью утверждать, что после того как из биаллельного генотипа получена гаплотипная фаза генотипа, потребность в HIR-ах отпадет. Сейчас же, при отсутствии полноценных данных по этим регионам и даже фазированных генотипах  УПС-HIR-IBD совпаденцам, приходится пользоваться намного более удаленными -в географическом и генеалогичском смыслах — референсами, типа фазированных гаплотипов в проектах 1000 геномов, HGDP или HapMap. Именно эти фазированные панели используются в новейших и наиболее эфективных программах фазирования генотипов в тех случаях, когда в выборку включены только лица, не родственные между собой.
До тех пор, пока не будет произведено массовое фазирование биаллелей, любой предикт родства сделанный на основании анализа нефазированных генотипов, следует воспринимать с максимальной осторожностью. Например, указание (в РФ алгоритме анализирующем нефазированные данные) на 5-6-юродную степень родства пуштуна и скажем, литовца может с абсолютно одинаковой степенью вероятности (50% на 50%) означать как наличие «афганского» следа в родословной литовца (или литовского следа — у пуштуна), так и очень далекое родство, близкое к случайному совпадению.
В избежании недоразумений, еще раз уточню, что речь идет не о привычных для любителей ДНК-генеалогии Y-STR гаплотипах, — в данном случае это аутосомные гаплотипы, которые выглядят следующим образом: AGGTTCCGAACCTTGGAAG ( и далее примерно несколько тысяч букв A/G/C/T). Фазированный гаплотип -это с определенной степенью вероятности гаплотип основателя. Более того, переход от биаллельных идентичных сегментов к набору идентичных гаплоидных сегментов открывает интересные перспективы в плане молекулярной датировки возраста идентичных гаплоблоков. Принимая во внимание тот факт, что гены и даже аллели этих генов, определяющие на ген.уровне [например, фенотип светлой пигментации волос)] достаточно хорошо известны и описаны в науч.литературе, то проблему датировки можно решить, отфазировав этии генотипы в гаплотипы, мы можем с помощью дерева коалесценции гаплотипов определить узел коалесценции, а следовательно датировать его с помощью молекулярных часов. Этим,кстати, занимается Монтгомери Слаткин (правда в качестве иллюстрации своей теории коалесцента он использует пример других «релевантных в плане мед.рисков генетических локусов»). В отдаленном теоретическом плане, множество малорекомбинантных гаплотипов можно использовать для конструирования специального генетического микрочипа (на основе того же OmniExpress) c включением в этот снип-чип генеалогически актуальных (малорекомбинантных) снипов, фазирование которых выявит наличие устойчивых гаплотипов недавнего происхождения (и соответственно, их генеалогию).

Технические нюансы.

Упрощенный дизайн технического процесса фазирования в общих чертах может выглядеть следующим образом. Сначала подготавливаем файл к приемлемому для фазирования формату (этих форматов много, я выбрал тот, в котором нужно минимально модифицировать исходные комбинированные данные 23ия+HapMap). В качестве proof of concept, я использовал относительно простое программное обеспечение для фазирования диплоидного генотипа (UNIX версия программы SNPHAP). В этой программе фазирование проводится с помощью алгоритмов байесовской инференции. Полученные на выходе отфазированные гаплотипоы пропускаются через своего рода элайнер, и на выходе получается FASTA aligned файл, который легко скармливается TNT путем ввода директивы procedure. А дальше можно либо реконструировать филогению в TNT, либо сохранять в формате Nexus.
В этом варианте процесс фазирования вычислительно-емкий и менее робастный , и эта одна из причин использования серверных возможностей (компьютерных кластеров, где программа может работать месяцами). Например, на байесовскую инференцию- фазировку используемых в данном примере генотипов из небольшого фрагмента 14 хромосомы в выборке из 92 индвидов ушло примерно 8 часов. После окончания цикла фазирования результаты (фазированные гаплотипы) сохраняются в отдельном файле. В описанном выше примере у 92 индивидов с помощью байесовской инференции было выявлено 937  гаплотипа со средней длиной в 5288 нуклеоитида, причем 315 из этих гаплотипов имеют кумулятивную апостериорную вероятность 1.00.

Практический пример (применения в генеалогии).

Этот практический пример основан на анализе моих собственных генетических данных, загруженных на сервер GedMatch. На сервере содержатся два варианта этих данных — нефазированный исходный вариант и второй фазированный вариант (две пары фазированных гаплотипов).

При поиске совпадений по первому варианту, общее количество » обнаруженных кузенов» составляет 179 человек.
Вместе с тем поиск по реконструированной в ходе фазирования той части генотипов, которая досталась мне от отца, общее число кузенов равнялось все 3. Из этих 3 один — родом из Рязани -, но параметры cовподающего сегмента, строго говоря, ниже пороговых значений [cM (7 cM) и число консекутивных снипов (700bp)] бритвы Оккама для генеалогически верифицируемых совпадений. Поэтому его следует отбросить. Остается два человека. Один наполовину беларус-полешук из Глусского и Слуцкого Полесья, наполовину эрзя. Другой — типичный американских пель-мель из смешания разных народов, но его бабушка носила имя Теодосия Осовская, возможно родом из Осового, что находится рядом со Стаховым, откуда родом предки моего отца.
Следовательно,что фазирование может представлять собой самый надежный фильтр для отсеивания false-positive совпадений.

О понятии гаплоблок в генетике

Многие люди, которые прочли мои сообщения на Молгене на тему гаплоблоков, как правило задают мне по прочтению два вопроса.

Первый вопрос — доказано ли наличие нерекомбинатных участков в аутосомной ДНК и Х-ДНК?

Второй вопрос — можно ли считать эти участки гаплоблоками?

Чтобы ответить на оба эти вопроса, необходимо для начала уточнить определение гаплоблока.

Во-первых, понятие гаплоблок не стоит путать с понятием «гаплотип«, так как один гаплоблок может включать в себя несколько гаплотипов. Во-вторых, понятие гаплоблок (или в более распространенном варианте – гаплотипный блок) синонимично понятию блок неравновесия по сцеплению (LD-блок)/блок гаплотипов.

Неравновесное сцепление участков хромосомы означает, что во время мейоза вероятность рекомбинации данных участков чрезвычайно мала и данные участки хромосомы наследуются единым блоком. Благодаря усилиям генетиков в начале этого века была составлены разные варианты генетических карт человеческого генома (карты Rutgers, Decodeme, HapMap) и эти карты позволяют определить блоки неравновесия по сцеплению за счет вычисленной частоты рекомбинации между определенными генетическим маркерами (прежде всего SNP-ами).

Почему скорость рекмбинации неодинакова в разных сегментах аутосомных и X-хромосом?

  Если сравнивать величину генетическую дистанции в сантиморганах между 2 локусами и физическую дистанцию между теми же 2 генетическими локусами, то в ходе исследованиий было показано в среднем по человеческому геному 1сM примерно равен 1 000 000 базовых пар (по другим оценкам, 750 000 базовых пар). Это, образно говоря, есть ни что иное, как средняя температура по больнице. На самом деле, в человеческом геноме есть регионы с быстрой рекомбинацией, средней рекомбинацией и регионы так называемого «позитивного отбора», где рекомбинация практически не происходит (классический пример — геномный регион HLA-MHC на 6 хромосоме). В качестве отступления отмечу, что именно по причине неравномерности скоростей рекомбинации, я считаю, что между величиной дистанции в сентиморганах и генеалогической дистанцией нет прямой корреляции. Хотя, если не учитывать эту неравномерность скоростей, то тогда действительно, чем больше величина сM (т.е чем больше величина рекомбинации) участков половинного или полного совпадения, тем ближе друг к другу сравниваемые индивиды. Потому, чем больше рекомбинация, тем меньше шансов того, что эти участки совпадения (которые, при фазировании, должны образовывать гаплоблоки) будут передоваться в неизмененном состоянии от отцов к детям. К сожалению, cудя по всему, алгоритмы предсказания степени родства по аутосомам в 23andme и FTDNA не учитывают этого этих факторов, что радикально влияет на точность предикта:

 Я думаю, что это классический результат генного дрейфа, обусловленного во-первых изоляцией предковых популяций. Поскольку некоторые популяции в буквальном смысле этого слова, варились в собственном «генетическом пуле»; на протяжении многих столетий (что привело к образованию устойчивых гаплоблоков), алгоритм вычисления степени генетического родства в 23andme (которому, разумеется, ничего неизвестно о генетических особенностях предковых популяций сравниваемых индивидов) воспринимает нашее далекое родство как относительно недавное.

Ответ на вопрос

В силу выше сказанного,  на первый взгляд так называемые нерекомбинатные (или вернее, малорекомбинантные) участки Х-ДНК/аутосомной ДНК можно считать гаплоблоками. Однако подобная точка зренія при более тщательном рассмотрении вызывает ряд проблем. Приведу практический пример.

Несколько лет тому назад небольшая группа активистов с ныне канувшего в  Google-кэш форума dna-forums.org занималась экспериментальными любительскими исследованиями гаплоблоков X-хромосомы. Этот полулюбительский проект поиска X-хромосомных обнаружил несколько десятков гаплоблоков, которые я пытался представить в виде квази-филогенетического дерева.Как я уже говорил, эти участки с ограниченной рекомбинацией также определены в том же проекте ХапМап. И, разумеется, генетики (медицинские и популяционные) уже определили и описали множество устойчивых гаплоблоков. В теме по X-хромосомным филогениям на форуем Молген я уже приводил примеры таких блоков на. Исходя из специфики наследования этой хромосомы, большинство из найденных путем простого визуального сравнения гаплоблоки оказались очень небольшими по размеру. Поэтому вряд ли можно вести речь о какой-то конкретной этнической привязке конкретных гаплоблоков — разве что в плане разделения гаплоблоков по глубокому происхождению на африканские, европейские и азиатские. Истинный возраст совпадающего гаплоблока (или даже интервал) предсказать затруднительно. Кроме того, наличие хотспотов рекомбинации и неравномерная плотность выявленных снипов существенно затрудняет поиск устойчивых гаплоблоков (которые и опредляется в результате фазирования). А неравномерная плотность и что еще хуже отсутствие многих HapMap снипов в чипсетах, используемых FTDNA и 23andme (кстати, чипсет Decodeme — в отличие от чипсетов FTDNA и 23andme- наиболее близок к 1,5-млн чипсету HapMap) приводит к появлению  ложных сегментов. Если не ошибаюсь, Leon Kull, который занимался слияниям наборов снипов FTDNA и 23ия, приводил примеры, когда после слияния данных HIR (выявленные в отдельности по результатам снип-тестирования  FTDNA и в 23ия)  просто «ломались», поскольку внутри участка который воспринимался, к примеру в 23ия, как  непрерывная последовательность региона половинного совпадения (HIR-сегмент) вклинивался снип, нарушавший последовательность.

Другая проблема, связанная с практическим изучением гаплоблоков, носит сугубо методлогический характер. Дело в том, что термин гаплоблок в популяционной генетике заимствован сравнительно недавно и взят из терминологии смежного направления — медицинской генетики. Кстати, по иронии судьбы в медицинской генетике традиционная генеалогия играет зачастую гораздо большую роль, чем в популяционной генетике. Ведь в выборки попгенетиков попадают обычно unrelated individuals, в то время как я видел немало работ по медицинской генетике, где приводятся генеалогические таблицы тестируемых индивидов, страдающих тем или иным недугом. Оно и понятно -одна из целей медгенов как раз и является выявление наследуемых гаплоблоков (или даже просто отдельных аллелей) ассоциируемых с тем или иным заболеванием. Не смотря на это и попгенетики все активнее используют понятие LD-гаплоблок в последних работах. В связи с этим у многих любителей возникает закономерное предположение — если найдены аутосомные “гаплоблоки”,то значит должна быть и аутосомные гаплогруппы (по аналоги с Y-ДНК и мито-ДНК). К сожалению, это не совсем так, — в отличие от древа Y и древа митогаплогрупп, древо гаплоблоков практически никогда не будут иметь филогенетически однозначного решения в плане кладистики. Впрочем, это отдельный вопрос,которого я пока не буду касаться.

Важность гаплоблоков в популяционном анализе.

Когда я начал свой любительский проект по анализу аутосомного ДНК различных популяций и отдельных лиц, то следуя примеру других геномных блоггеров я начал с элментарной обработки данных в незаменимой программе Plink — я занимался нахождением IBS матрицы, расчетами статистических параметров гомозиготности (группировкой по совпадающим сегментам, кластеризацией и так далее), структуризацией и выявлением IBD-сегментов и их кластеризацией. Однако со временем я, так же как и большинство BGA блоггеров, осознал необходимость работы с фазированными данными, — с генотипами приведенными в гаплоидную фазу, то есть с гаплоблоками. Кроме того, в новой парадигме стал использоватся новый рекомбинаторный параметр  (который ранее не учитывался в классическом Admixture-анализе) и структура сцепления снип-маркеров. Основным преимуществом фазированных генотипов является более высокая степень вероятности общего происхождения гаплоблоков, которые в случае с идентичными по происхождению сегментами предполагают единую генеалогию. Техническое определение понятия фазирования генотипа в контексте биоинформатики — это выявление или выведение (инференция) гаплотипной фазы массива генотипных данных. Говоря простым языком, это трансформация мультиаллельных блоков в гаплоблоки (гаплотипы). Преимуществом фазированных генотипов является более высокая степень вероятности общего происхождения гаплоблоков , которые — в силу определения понятия гаплоблок -предполагают единое генеалогическое происхождения Разница очевидна. Например, полгода тому назад я изучал этнические гаплоблоки участка условно-половинного совпадения на 1 хромосоме в данных проекта Eurogenes.  К своему разочарованияю, никаких гаплоблоков среди нефазированных генотипов в этом регионе не обнаружилось. Спустя некоторое время автор проекта Eurogenes -Дэвид Веселовски разослал участникам проекта. По сути, Дэвид приступил тогда к новой фазе анализа, о необходимости которой я говорил ранее -а именно к фазированию диплоидных данных в гаплоблоки и дальнейшее выявление общих по происхождению гаплоблоков. Так вот, новый анализ фазированных генотипов (гаплоблоков) в том же проекте показывал, что у лиц с повышенным процентом “северо-западного европейского компонента” (в том числе и лица из кластер номер 5 в другом проекте Dodecad) — имеют значительное количество гаплоблоков, общих по происхождению с северными русскими, чувашами, алтайцами, тувинцами и монголами. То же самое по хромосоме 3, показаны самые большие совпадающие гаплоблоки. Особенно примечательно большое количество совпадаюших гаплоблков с чувашами,венграми.

PS.

С оттенком плохоскрываемого злорадства, должен отметить, что столь любимая Клесовым и Рожанским лографмическая формула (модифицированная формула превращения) веществ гораздо лучше подходит (хотя и в очень обобщенном виде) для моделирования процесса рекомбинаторного “распада” гаплоблоков в аутосомах. Там действительно, гаплоблоки распадаются с учетом частоты рекомбинации. Поэтому-то тот же гуру биоинформатики Монтгомери Слаткин и вводит логарифмы в формулу для оценки возраста IBD-гаплоблока.

Основы геномики для чайников или как читать результаты аутосомного тестирования

Начну несколько издалека — с современного дизайна биочипов панелей снипов. Нужно вспомнить, что в своей основе биочипы-платформы, используемые в целях коммерческого тестирования в 23ия и ФТДНА представляют собой модифицированные варианты стандартных платформ Иллюмина (23ия) и Аффиметрикс (если я не ошибаюсь, биочип ФТДНА разработан на основе этой платформы). Дизайн обеих платформ разрабатывался из целей, далеких от задач ДНК-генеалогии, или скажем, ДНК-криминалистики (хотя авторы концепции SNP-генотипирования и предполагали смежные задачи, — например, установление личности индивида). Перед разработчиками дизайна биочипов и новых методов снип-генотипирования ставилась четкая задача — разработать платморфму снип-тестирования, совместимую с  двумя основными методами медицинской генетики
Это метод выявления QTL (выявление участков ДНК, сцепленных с генами, обуславливающими тот или иной фенотипический признак), а также метода генетической ассоциации генетического сцепления или неравновесного сцепления генов ,  когда генетические (фенотипические) признаки двух групп  сравниваются напрямую с ДНК-сиквенсами представителей этой группы.

Поскольку снипы обычно представляют собой (за исключением редких аллелей  с частотой двух аллей) вариацию двух аллелей, т.е различаются всего на один олигонуклеотид, то существенной особеностью сиквенсирования на биочипах является проблема оптимизировании недостаточной гибридзации проб, а также потенциальная возможность того, что таргетная ДНК может гибридизировать несовпадающие снипы. Эта особенность приводит к тому, что результаты генотипирования на биочипах  довольно часто дают болшой процент менделевских ошибок, т.е тех случаев когда у ребенка присутстовал аллель, который он не мог унаследовать от родителей (за исключением редкого явления дисомии). Те, кто пользовались утилитой Дэвида Пайка или посылали свои данные Леону (napobo3), могли сами убедиться в этом на примере сравнения своих данных с данными родителей.

Это был первый тип инструментальных погрешностей, вносящих неопределенность в оценку близости или дальности родства. Он связан собственно с процессом гибридизации ДНК. Второй тип инструментальных погрешностей связан собственно с процессом генотипирования индивидуального ДНК. Для генотипирования на платформе Иллюмины испольузется программа GenCall, который по байесовской вероятности определяет кластер, к которому относиться тот или иной локус анализируемого ДНК. Многие из тех форумчан, кто работал со своими данными от 23ия, наверняка видел т.н «no-call» генотипы (-) в raw data. «No-call» означает, что программа не смогла определить генотип (или вернее, кластер к которому относиться анализируемый локус ДНК).

Наличие этих «пустых» генотипов также вносит свою лепту в увеличение т.н инструментальных погрешностей.

Забудем на время о существенных инструментальных погрешностях и перейдем к тому, как 23ия представляет генотипы rs-локусов. Если Вы скачаете файл с генотипами, то там достаточно стандартное обозначение — сначало идет название локуса; затем хромосома, на которой находится локус, физическая дистанция, и наконец — две последние колонки (в NRY и митохондрионе — одна) с генотипом. Генотип содержит следущие обозначения -олигонуклеотиды A,G,C,T, делеции (D), инсерции (I) и no-calls (-).

В качестве примера

Цитировать

rs759691   3   10502762   CC
rs7619994   3   10502775   AA
rs808933   3   10503910   CC
rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs9873870   3   10514482   CT
rs6442176   3   10520676   CT
rs4234497   3   10528419   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   —

Генотип здесь определяется по локусам, по-этому невозможно сказать, какой именно аллель достался от матери, а какой -от отца.

Неверно полагать, что нижеприведенный вариант (жирным обозначены аллели унаследованные, например, от матери) единственно возможный

Цитировать

rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   —

Варианты возможное менделевское наследование аллелей включает в себя все возможные с точки зрения комбинаторики варианты.

Например, вот такой вариант

Цитировать

rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   —

Или  такой

Цитировать

rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   —

Казалось бы достаточно протестировать одного из родителей, и Вы сможите реконструировать «цепочку снипов» (по сути гаплотип), доставшийся Вам от этого родителя. Однако существует такое явление, как дисомия. Однородительская дисомия, то есть наследование обеих копий целой хромосомы или ее части от одного родителя (при отсутствии соответствующего генетического материала от другого родителя), является исключением из менделевских принципов наследования.
Однородительская дисомия была описана при муковисцидозе , когда оба мутантных аллеля наследовались от одного родителя. В таких случаях дисомия имитирует аутосомно-рецессивное наследование.

Это —третий тип погрешностей, на этот раз биологического характера

Таким образом, все вышеназванные погрешности биологического, биохимически-инструментального и чисто инструментального характера, приводят исследователей к необходимости фазирования биаллельных сегментов пар хромосом.

Дальше -про фазирование.

Наверное, перед тем как не мудрствуя лукаво приступить к пояснению фазирования данных 23ия, нужно еще раз вкратце напомнить, по какому алгоритму идет предсказание степени родства в 23ия.

На этот раз, буду краток (с).

Алгоритм 23ия выведен исключительно путем компьютерног моделирования. Бралось некоторое количество генотипных данных реально протестированных в 23ия людей. Эти данные искуственно скрещивались с учетом некоего усредненной величины параметра рекомбинации на один мейоз (или, как у нас принято выражаться, генеалогического поколения), тем самым появились искуственные «геномы» (назовем их так для простоты).
Затем по методу MCMC моделировалась искусственная генеалогия потомков «гибридных геномов» (что-то вроде семьи Менделя), т.е случайным образом (по методу Монте-Карло) генерировалась некая марковская цепь генеалогических поколений (последовательность поколений, в которой последующее состояние зависит только от настоящего состояния и не зависит «от генеалогического прошлого») разной длины — 4,5,8, 11 и т.д поколений.  «»Геномы» всех гибридных геномов сравнивались на предмет а) % общего ДНК b) генетической дистанции сегментов IBD (HIR, или как у нас принято УПСов) выраженной в сM (сентиморганах) и с) количества снипов в этих сегментов.

По этим параметрам (а,b,c) УПСЫ разбивались на кластеры в зависимости от дистанции генома-потомка от генома-предка. Затем произвели своего рода метафорическую процедуры «сверку попаданий сегментов»  в интервалы смоделированного родства. Именно таким образом, с помощью моделирования, создатели алгоритма RF получили пороговые количества снипов и генетической дистанции (в сМ) как для всего диапозона RF, так и для каждого интервала родства (например, 3d-10th cousins).

Эти три параметра и используются в RF для оценки удаленности генетического родства или генеалогической дистанции.

Я не буду останавливаться здесь на подробной критике алгоритма. Скажу только, что несмотря на всю привлекательность дизайна MCMC-алгоритма RF , его главный недостаток -это

1)допущение случайного характера «скрещивания» (пардон за вульгаризм) среди некой метапопуляции,
2)независимость характера скрещивания от предыдущего типа скрещивания,
3) пренебрежение гомозиготностью и т.д.

Не говоря уже об использовании некой усредненной величины рекомбинации и игнорирование естестественного отбора, приводящего к тому, что многие участки хромосом  из-за сильного генетического сцепления остаются в нерекомбинантном состоянии на протяжении веков.

Каждый генеалог знает, что матримониальная стратегия (говоря простым биологическим языком, структура скрещивания) генеалогических групп  не носит случайный характер. Выбор партнеров был обусловлен происхождением, классовой принадлежностью, патрилокальностью, а также религиозными, политическими и идеологическим запретами.

Каждый генеалог и социальный антрополог знает, что структура брачных связей в кланновых и патриархальных обществах в-основном обусловлена структурой предыдущих брачных связей (вспомните хотя бы т.н. брачные обыски, в ходе которых проверялось,не состояли ли брачующиеся в родстве). Конечно же были и исключения, но они статистически пренебрежимы.

Каждый генетик знает, что в оседлых популяциях постепенно возрастает гомозиготность, что ведет к увеличении однородности и генетической близости индивидов внутри популяции.

Каждый генетик знает, что величина рекомбинации очень сильно варируется -в 10 и 100 раз — в зависимости от участка хромосом

Каждый генетик знает, что в оседлых популяциях постепенность возрастает гомозиготность (что есть логичное последствие инбридинга), что ведет к увеличении однородности и генетической близости индивидов внутри популяции.

Каждый генетик знает, что существуют геномные регионы — например MHC, со столь сильным сцеплением, обусловленным отбором, что эти участки могут оставаться идентичными у двух индивидов, даже если их общий предок жил тысячелетие назад

Итак, что имеем в сухом остатке:

1) наличие трех типов «инструментальных» погрешностей в данных генотипов от 23ия
2) сухую абстрактность метода оценки степени родства в алгоритме РФ от 23ия

К этому можно добавить очевидное наличие сегментов УПС с совпаденцами, увеличивающихся в размере при поколенном переходе от родителей к детям, хотя по логике, они должны постепенно затухать, уменьшаясь в размерах. Самое наличие таких сегментов — великолепная иллюстрация кумулятивного действия эфектов возрастания гомозиготности и увеличания фонового уровня «скрытого родства» (на профессиональном слэнге генетиков -«hidden relatedness» ).

Это наводит на очевидную мысль, что указание (в РФ алгоритме анализирующем нефазированные данные) на 5-6-юродную степень родства пуштуна и скажем, литовца может с абсолютно одинаковой степенью вероятности (50% на 50%) означать как наличие «афганского» следа в родословной литовца (или литовского следа — у пуштуна), так и очень далекое родство, близкое к случайному совпадению.

Можно ли строить гипотезы на столь шаткой почве? Вряд ли.

На самом деле сам процесс фазирования генотипов подразумевает выявление (с высокой апостериорной вероятностью) гаплотипной фазы с учетом именно семейных данных. Обычно в генетических штудиях — как популяционных (реже),так и медгенетических (намного чаще) — работают с трио (генотипы матери-отца-ребенка). Но именно коммерческое генотипирование открывает более широкое поле деятельности для фазирования — получения более-менее однозначного гаплотипа с более-менее однозначной генеалогией.

По моим скромным наблюдениям, некоторые клиенты 23ия протестировали уже целые кланы своих родственников по 10-20 человек (отцов, матерей, братьев, сестер, племянников, дедов, бабок, детей, двоюродных, троюродных и т.д человек). Фазирование генотипных данных больших семейст позволило бы создать, выражаясь программистским языком, уникальную семейную библиотеку гаплотипов с четкой ДНК-генеалогической структурой наследования. По мере увеличения таких семейных библиотек и все большему охвату масс, можно было бы сравнивать эти гаплотипы уже на уровне семейств/кланов и выстраивать наиболее вероятные с точки зрения ДНК-генеалогии филогенетические кластеры.

Пока же все остается на интуитивно-гадательном уровне.