Исследование происхождения евреев-ашкенази в свете хазарской версии

На сайте Wayne State University можно увидеть исследование http://digitalcommons.wayne.edu/humbiol_preprints/41/ от Behar, Metspalu et al под названием «No Evidence from Genome-Wide Data of a Khazar Origin for the Ashkenazi Jews», что я бы перевел как «генетика не подтверждает хазарскую теорию происхождения евреев-ашкенази».
Здесь будет приведен краткий пересказ статьи с моими комментариями.

Для начала авторы перечисляют ряд предыдущих исследований на тему происхождения евреев, и подводят некоторые итоги:

Во-первых, можно уверенно определить наличие у человека предков-ашкенази на основании анализа его генома, причем зачастую даже в ситуациях, когда лишь часть его предков относились к этому народу.
Во-вторых, все ашкенази имеют необычайно большое количество общих генетических сегментов — как по сравнению с количеством таких сегментов между ашкенази и людьми из других популяций, так и по сравнению с наличием общих сегментов внутри других популяций.
В-третьих, разница между представителями западных и восточных ашкеназских популяций сравнительно мала — генетически они являются единой популяцией.
В-четвертых, евреи-ашкенази проявляют сильное сходство с евреями-сефардами, и, в меньшей степени, с североафриканскими евреями.

В целом же наиболее вероятным вариантом происхождения ашкенази можно предположить смешение ближневосточных популяций с популяциями южной или западной Европы.

Принято считать, что евреи попали в Северную и Восточную Европу из Италии, поначалу распространяясь вдоль Рейна. Однако существуют и другие версии, среди них довольно популярна хазарская. Согласно ей, восточноевропейские евреи-ашкенази в значительной степени происходят от населения хазарского каганата. Верхушка этого государства, территориально располагавшегося в низовьях Волги и на Северном Кавказе, вероятно, исповедовала иудаизм. После уничтожения каганата в конце 1 тысячелетия нашей эры она могла переселиться западнее.

GAJOMAP

Сложность заключается в том, что у нас нет достоверной информации о генетическом портрете хазар. Можно строить разнообразные предположения по поводу их вклада в наследственность ашкенази, однако как их подтвердить или опровергнуть?
Одно из недавних исследований (Elhaik, 2013) как раз и сфокусировалось на попытках выделить этот вклад. Однако, по мнению Бехара (с моей точки зрения, выглядящем весьма обоснованно), попытка представить грузин и армян в качестве «прокси» хазар довольно неудачна. Эти народы географически недалеки от Ближнего Востока, генетическую связь с которым можно считать доказанным фактом. В то же время, они проживают к югу от кавказского хребта, в то время как хазарский каганат находился севернее. Горы — серьезная преграда для обмена генами.
Чтобы окончательно рассеять сомнения, Behar et al дополнили свой набор популяциями, максимально широко представляющими Кавказ (222 образца из 13 популяций). Кроме этого, 39 человек из поволжских популяций охватывают северную часть каганата.
Таким образом, если от хазар остались хоть какие-то следы в генетике когда-то подвластного им региона, они должны проявиться. Всего же в исследовании использовано 1774 образца (включая 352 новых), из них 202 представляют различные еврейские популяции (включая 84 новых образца).

Не буду подробно останавливаться на методике подготовки образцов, авторы произвели многочисленные положенные в таких случаях действия — исключение редких и ненадежных снипов, сцепленных снипов, криптородственников и так далее. Однако фазирование и импутация были проведены лишь для использования в SPA-анализе и поиска IBD-сегментов.

Авторы применили следующие методы обработки данных:

1) Построение PCA-плота.
Этот метод служит для выявления общих закономерностей, при этом тонкости могут смазаться. В работе приведен плот, построенный по двум первым главным компонентам. Сформировалась классическая V-образная фигура, при этом регион, куда попали ашкенази, можно рассматривать лишь при заметном увеличении из-за его плотной заполненности. Кружками отмечены условные «центры тяжести» для каждой популяции. Большинство евреев, в том числе ашкенази, оказались в окружении народов Восточного Средиземноморья — между Ближним Востоком и Юго-Западной Европой.
При этом неподалеку оказались и армяне с грузинами, в то время как народы Северного Кавказа уже находятся на заметном расстоянии. Хороший повод бросить камешек в огород Elhaik. С другой стороны, заметен и некоторый сдвиг в сторону именно северокавказских популяций.

2) SPA-анализ.
Вкратце суть метода состоит в том, что алгоритму «скармливают» геномы с известной географической локализацией (широта и долгота), и он пытается найти внутри них маркеры, связанные с этими показателями. Это называется «тренировка». Далее производятся противоположные действия с интересующими нас геномами (которые не участвовали в тренировке) — в них ищутся найденные на тренировке маркеры и на их основании вычисляется широта и долгота.
Метод широко рекламировался при своем появлении, однако попытки интернет-пользователей европейского происхождения применить выложенные авторами файлы на себе вызвали крайний скептицизм своими результатами. Это было связано с попытками сопоставить вычисленные координаты с реальной географической картой — зачастую получалось очень смешно. Тем не менее, если рассматривать результат как аналог PCA-плота, он смотрится вполне адекватно. В частности, окружение для ашкенази не слишком отличается от полученного предыдущим методом.

На картинке слева изображен PCA-плот, справа — результаты SPA-анализа

GAJOPCA

3) Admixture
Программа Admixture рассматривает представленные ей геномы как результат смеси K источников, и распределяет их на соответствующее количество кластеров. Согласно встроенным инструментам проверки, наиболее удачным значением K в данном случае является K=10. Результат представлен на картинке:

GAJOADMIX

Как обычно, в этом виде анализа из европейских народов наиболее схожими с ашкенази оказались южные итальянцы и греки. Это не обязательно говорит о происхождении от этих народов — предковые компоненты могли независимо смешаться в схожей пропорции. Обращает на себя внимание сходство между ашкенази и сефардами — особенно жителями северного побережья Средиземного моря. С Ближним Востоком ашкенази связывает в первую очередь светло-голубой «арабский» кластер, с Европой — синий «северо-восточноевропейский». Темно-голубой «средиземноморский» и зеленый «кавказско-ближневосточный» кластеры характерны как для Ближнего Востока, так и для Европы. При этом три связанных с Ближним Востоком кластера присутствуют у всех групп евреев — в том числе и таких удаленных, как индийские. Можно предположить, что именно они маркируют изначальный еврейский генофонд.
Что же может служить маркером хазарского влияния? Я считаю, что это, несомненно, оранжевый «сибирский» кластер. Его особенностью является то, что он присутствует в значимых количествах у всех тюркских народов — даже у турок. Это позволяет связать его распространение с тюркскими миграциями, хотя и не во всех случаях. Так, обращает на себя внимание его наличие у эстонцев, до которых тюрки навряд ли могли добраться. Предполагаю, что это результат более ранних миграций с востока на запад.
Как бы то ни было, хазары, как народ тюркского кочевого происхождения, несомненно должны были нести в себе этот компонент — и передать его ашкенази, влившись в их состав. Однако же у ашкенази «сибирский» компонент наблюдается лишь в совершенно следовых количествах — аналогично многим другим народам. Таким образом, если хазарское влияние и было, его следует признать незначительным.

4) ASD — подсчет количества общих аллелей. По сути, это напрямую подсчитанное генетическое сходство. Интересно, что для обеих групп ашкенази — восточных и западных, наиболее похожей популяцией оказались сицилийцы, и уже потом — другие еврейские группы. Это может говорить о происхождении ашкенази от южных итальянцев, или о схожем происхождении южных итальянцев и ашкенази. Остальные еврейские группы проявляют наибольшее сходство с другими евреями и своими географическими соседями. Популяции Северного Кавказа ожидаемо не проявили особого сходства с ашкенази. Для контроля были проведены аналогичные расчеты с использованием вместо еврейских популяций с Ближнего Востока — киприотов, друзов, палестинцев. Они показали аналогичный уровень сходства с кавказцами.

5) Подсчет количества общих сегментов. Этот метод показывает наличие родственных связей. В групповом сравнении с ашкенази с огромным отрывом лидируют сефарды и североафриканские евреи, далее идут восточноевропейцы, что говорит об их некотором вкладе в ашкеназскую наследственность, остальные группы демонстрируют низкий уровень общих сегментов. Родство с жителями этих регионов если есть, то оно слишком древнее, чтобы заметно проявиться в этом виде анализа.

Вывод из этого делается простой — все пять методов подтверждают друг друга, и ни один из них не демонстрирует заметного хазарского влияния. Что касается возможности следовых количеств, то исключить их нельзя — как отличить небольшое хазарское влияние от других факторов, если оно на уровне «шума»? Исследование Elhaik, 2013 опровергнуто.
На мой взгляд, эта логика вполне убедительна.

Citizen scientists определили терминальный снип индейского мальчика

В феврале было опубликовано замечательное исследование Rasmussen et al., наглядно доказавшее взаимосвязь древней индейской популяции (вернее одного из ее представителей — мальчика, получившего «научное» имя Anzick1) с современными популяциями Америки и Евразии. Захоронение, обнаруженное в Западной Монтане, было отнесено археологами к культуре Кловис (Clovis) и соответствующим образом датировано (12,6 kya).

The genome of a Late Pleistocene human from a Clovis burial site in western Montana

Rasmussen et al., 2014
Nature 506, 225–229 (13 February 2014) doi:10.1038/nature13025
Received 03 November 2013 Accepted 14 January 2014 Published online 12 February 2014

Clovis, with its distinctive biface, blade and osseous technologies, is the oldest widespread archaeological complex defined in North America, dating from 11,100 to 10,700 14C years before present (BP) (13,000 to 12,600 calendar years BP)1, 2. Nearly 50 years of archaeological research point to the Clovis complex as having developed south of the North American ice sheets from an ancestral technology3. However, both the origins and the genetic legacy of the people who manufactured Clovis tools remain under debate. It is generally believed that these people ultimately derived from Asia and were directly related to contemporary Native Americans2. An alternative, Solutrean, hypothesis posits that the Clovis predecessors emigrated from southwestern Europe during the Last Glacial Maximum4. Here we report the genome sequence of a male infant (Anzick-1) recovered from the Anzick burial site in western Montana. The human bones date to 10,705 ± 35 14C years BP (approximately 12,707–12,556 calendar years BP) and were directly associated with Clovis tools. We sequenced the genome to an average depth of 14.4× and show that the gene flow from the Siberian Upper Palaeolithic Mal’ta population5 into Native American ancestors is also shared by the Anzick-1 individual and thus happened before 12,600 years BP. We also show that the Anzick-1 individual is more closely related to all indigenous American populations than to any other group. Our data are compatible with the hypothesis that Anzick-1 belonged to a population directly ancestral to many contemporary Native Americans. Finally, we find evidence of a deep divergence in Native American populations that predates the Anzick-1 individual.

http://www.nature.com/nature/journal/v506/n7487/full/nature13025.html

Приведу цитату из вышеуказанного исследования.

«Мы определили Y-гаплогруппу образца Anzick-1 как Q-L54* (хM3) и используя 15 ранее проанализированных последовательностями Y-хромосомы построили дерево, чтобы проиллюстрировать филогенетическое контекст, в рамках гаплогруппы Q. Используя данные об одиночных нуклеотидных полиморфизмах (SNP), мы использовала данные Anzick-1, чтобы оценить время дивергенции между субкладами Q-L54* (хM3) и Q-M3, двух из главных вариаций Y-хромосомы,  характерных для Америки. Нами получено время дивергенции примерно 16 900 лет назад (95% доверительный интервал: 13 000 — 19700 лет назад». 

nature13025-sf2

При этом сравнение  генома Anzick-1 с 52 современными индейскими популяциями выявило большую близость  к ним, чем к современным популяциям Евразии. Причем он оказался ближе к популяциям Центральной Америки, чем Северной.

nature13025-f2

Но, несмотря на явно прорывный характер этой работы для филогении гаплогруппы Q, авторы не пошли дальше определения L54 в качестве терминального снипа.

Отметим, что L54  достаточно «широкий» снип c географической точки зрения. Он распространен по обе стороны Берингова пролива.В частности, в Евразии остался субклад L54+ L330+, представители которого зафиксированы в ряде популяций: от коренных народов Сибири до евреев-романиотов в Греции. 

Исследование проведенное российскими сitizen scientists из группы YFull, занимающейся интерпретацией данных полного сиквенса Y-хромосомы, позволило заглянуть глубже. Anzick1 принадлежит к субкладу L54+ Z780+. Причем данные полного сиквенса его Y-хромосомы, приведенные в дополнительном материале к исследованию Rasmussen et al. (2014), позволили уточнить филогению гаплогруппы Q в целом и даже выделить ещё один субклад L54+ Y2816+

1618571_414955885305304_560427902_n

Интерактивная этнокарта от Hellenthal et al

Благодаря любезности Вадима Веренича мне предоставилась возможность публиковать заметки в его блоге, чем я не преминул воспользоваться.

В журнале Science появилось любопытное исследование от Garrett Hellenthal и других. Не являясь постоянным читателем журнала, я обратил внимание на публикацию после ссылок на форуме Молгена и в других местах. Вот что пишет об исследовании Компьютерра (привожу по цитате пенелопы):

«Время и место миграций человека уточнили с помощью генов

    Анализ геномов человеческих популяций позволил установить, с кем и когда они контактировали в недавнем прошлом.
       
    Выйдя из Африки и расселившись, наш брат вовсе не остался сидеть на захваченных местах, а продолжал блуждать по земле. Эти блуждания происходили и после формирования цивилизаций, да и продолжаются до сих пор: каждый может вспомнить про миграции варварских племён в древнеримские времена, что же до сего дня, то тут достаточно просто выйти на улицу, чтобы убедиться, что народы по-прежнему в движении и перемешиваются. Такие блуждания иногда происходят мирно, иногда — совсем не мирно, но, так или иначе, это отражается в генетической истории популяции.

    Можно ли сейчас, проанализировав геном людей из разных уголков земного шара, восстановить историю миграций?
    Это сложно, но вполне возможно, как показали Гаррет Гелленталь (Garrett Hellenthal) из Университетского колледжа Лондона (Великобритания) и его коллеги из Оксфорда и Института эволюционной антропологии Общества Макса Планка (Германия). Учёные проанализировали ДНК почти полутора тысяч человек из 95 популяций по всему миру. Итогом работы стала интерактивная популяционно-генетическая карта человечества; кроме того, результаты исследований опубликованы в журнале Science.

    Полученные генетические данные во многих случаях подтверждают исторические: так, например, в ДНК хазарейцев нашли монгольский след, который появился в их геноме во времена Монгольской империи, что вполне согласуется с историческими источниками. Такие же монгольские следы удалось найти ещё в нескольких популяциях вплоть до Турции, в которых они появились примерно в то же время, что и у хазарейцев.

    С другой стороны, удалось обнаружить такие генетические примеси, которые до сих пор от внимания исследователей ускользали: например, у людей ту в современном Китае нашли следы европейской ДНК, похожей на ту, что есть у современных греков. Появилась эта европейская примесь около 1 200 года н. э., и связана она, очевидно, с купцами, ходившими в то время Великим шёлковым путём. Надо ли говорить, что нынешние (гео)политические границы слабо отражают миграционно-генетическую картину? Так, на территории Пакистана в некоторых группах обнаруживается влияние древней Европы, в других есть следы африканских арабов, живших южнее Сахары, к третьим в геном затесалась ДНК из Восточной Азии.

    http://compulenta.computerra.ru/chelovek/biologiya/10011487/
    http://www.sciencemag.org/content/343/6172/747.abstract

    Интерактивная популяционно-генетическая карта: http://admixturemap.paintmychromosomes.com/ «

Исследование заинтересовало меня в первую очередь тем, что в нем применен новый метод, отличный от привычных мне этнокалькуляторов на основе Admixture. Тем более, что в качестве иллюстрации был создан специальный сайт с интерактивной картой — весьма user-friendly подход ) Первое впечатление от карты было таким:

«Карта довольно любопытна. Само исследование я не читал (по причине платности доступа к нему), однако в FAQ, прилагаемом к карте, изложена основная суть метода. Он достаточно сложен — сначала каждый геном (всего использовано 1530 геномов) разбивается на мелкие участки, далее по каждому участку находятся наиболее типичные варианты для макрорегионов — Африка, Америка, Центральная и Южная Азия, Восточная Азия, Европа, Ближний Восток, Океания. Теперь мы имеем что-то наподобие результатов этнокалькулятора в режиме Chromosome painting — каждая хромосома каждого участника раскрашена в радужный цвет. В примере из FAQ у представителя нигерийского народа йоруба получилось ~80% Африки, остальное разделили между собой Ближний Восток, Европа, в меньшей степени Центральная-Южная и Восточная Азия.
Сравнивая между собой эти раскраски, можно моделировать смешение представителей разных популяций, и находить наиболее вероятные варианты — смешивание каких групп могло породить интересующую нас популяцию? Расстояния в сМ между полученными из одного источника участками известны, известны длины этих участков и их количество. Таким образом, можно оценить время их получения. На графиках в правом нижнем углу карты показаны эти соотношения, однако математическая модель не расписывается. Дана такая подробность — если график имеет форму убывающей гиперболы, значит, указанные в заголовке популяции связаны с одним и тем же источником адмикса. Если же наоборот, прибывает — эти две популяции представляют разные источники.
Сразу виден один из недостатков метода — в качестве источников примеси рассматриваются лишь современные популяции, хотя со времен смешения они могли сильно измениться. Непонятно, как вычисляется направление потока генов? Если у северных русских показана польская примесь, а у поляков примесь от северных русских, видимо, это говорит, что они получили общие сегменты из одного источника, которым были праславяне?
Ехидный Поляко уже нашел на карте у литовцев заметную примесь от восточноафриканского народа Hadza. Однако она показывается лишь в одном из вариантов расчета, есть и вполне адекватные — литовцы, как смесь поляков и белорусов. Не понимая сути расчетов, мне сложно интерпретировать этот результат  🙂
В любом случае я за применение новых методов, так как, по ощущениям, из традиционных этнокалькуляторов на основе Admixture чего-то нового уже не выжать. Плохо, что на карте практически не представлены народы России, хотя результаты северных русских, чувашей и народов Кавказа смотрятся любопытно.»

В процессе обсуждения Вадим Веренич провел профессиональный разбор использованных авторами исследования методов:

«Алгоритмы имплементированные в Globetrotter крайне интересны — они представляют собой некий гибрид между алгоритмами Chromopainter/fineStructure (что неудивительно, так как в числе авторов обсуждаемой карты и статьи фигурируют разработчики этих программ) и алгоритмами Admixtools/Alder. Не вдаваясь в нудное обсуждение деталей закулисной математики статистики, суть метода сводится к следущему (зеленым цветом я выделил этапы, основанные на алгоритмах fineStructure/Сhromopainter, синим — алгоритмы, альтернативные алгоритмам Admixtools/Alder)

1) Геном каждого отдельного генома в выборке разбивается похромосомно на мелкие chunks («куски»), и затем с помощью программы Chromopainter производится вычисление попарной матрицы общих «кусков» в режиме» между всеми геномами выборке. Данные матрицы на выходе преобразуются в популяционный вектор, в котором каждый индивид-реципиент представляется в виде мозаичной смеси фрагментов геномов других индивидов в выборке.
2) Затем генерируется 10 произвольных «хромопэйнтинига» для каждого индивида-реципинента
3) После чего происходит первичное моделирование адмикса с помощью регрессионного анализа, в которой популяционный вектор реципиентов выступает в качестве «критериальной» зависимой переменной, а популяционный вектор доноров — в качестве предикторов.
4) Полученные в ходе этого анализа коэффициенты регресии применяются для уточнения «хромопэйнтинга» таким образом, что на основании значений коэффициентов регрессии каждой популяций-донору назначаются вес. Каждый ненулевый вес применяется к тем популяциям, которые вносят значимый вклад в адмикс.
5) На следующем этапе генерируются эмпирические кривые «coancestry» («сопроисхождения», т.е доли сегментов общего происхождения), cначала  берутся «взвешенные» значения взятых попарно сегментов популяций-доноров, эти сегменты удалены друг от друга на генетической дистании G (выраженной в cM). Кривая строится на основании измерения отношения усредненного произведения весов (на определенной генетической дистанции) к усредненному произведению весов на всем геноме в рассматриваемой паре популяций. Это кривая отображает отношение угасания «предковых» значений LD (неравновесного сцепления) к генетической дистанции (cM). Интересно, что каждый индивид представлен здесь двумя «гаплоидами» (т.е фазированными формами своих генотипов). В целях избежания искажения из-за неизбежных ошибок фазирования, авторы предлогают суммировать значения весов в обеих «гаплоидах» индивида.
6) После чего происходит fitting, т.е пригонка кривых «сопроисхождения» в целях вычисления MLE (наиболее вероятной оценки) параметра «лямбда» — экспотенциального распередления значений скорректированных значений всех кривых «сопроисхождения». На основании этого параметра вычисляется время событий адмикса в поколениях.  95% доверительный интервал вычисляется с помощью метода бутстрэппинга.
7) На основе значений популяционного вектора и коэффициентов регрессии адмикса вычислются а и b компоненты истинного aдмикса.
8) Производится новая наиболее вероятная оценка коэффициента адмикса в популяции-реципиента в целом путем интерполяции и бустстрэппинга а установленных значений коэффициента адмикса в первой популяции-донора  и 1-а значений коэффициента адмикс в популяции второго донора.»

(далее опять от Srkzgenetics)

Не могу сказать, что глубоко изучил статью и сопутствующие ей материалы. Скорее, наоборот — статья довольно сложна, а возможности уделить ей необходимое внимание пока нет. Однако есть определенные основания для скептицизма в отношении приведенных авторами датировок событий. В разделе, касающемся Восточной Европы, авторы обнаружили у русских восточноазиатскую примесь времен татаро-монгольского нашествия, либо более ранних нашествий кочевников — гуннов, мадьяр, булгар.
Зная, откуда получены геномы русских, использованные в статье (это генотипированные в рамках проекта HGDP жители юго-западной части Архангельской области), остается лишь недоумевать подобной интерпретации. Мало того, у соседних финнов этот адмикс заметно сильнее — видимо, кочевники добрались и до озер Суоми.
Возникает подозрение, что в глазах исследователей все русские одинаковы и выводы подгонялись под известные исторические события )) Тем не менее, само присутствие «сибирских» аллелей у жителей Севера, как известно любителям этнокалькуляторов, вполне реально. В этом смысле выводы авторов не вызывают протеста.

Покопавшись в карте и сравнив приведенные на ней данные с известной мне информацией по этнокалькуляторам, я сделал для себя такие выводы:
1) Даты адмиксов весьма сомнительны
2) Распределение вклада различных популяций в исследуемую, напротив, отторжения не вызывает. Однако воспринимать его нужно так — процент вклада примерно соответсвует доле предков, разделяемых этими двумя популяциями. При такой постановке вопрос о направлении перетока генов теряет смысл.
3) Следует обращать внимание в первую очередь на first event (более свежее событие по расчетам авторов). Second event зачастую смотрится весьма странно — похоже, это некий артефакт используемого алгоритма.

Попробую проинтерпретировать в этой манере результаты нескольких исследованных популяций.

Russian — северные русские. Как принято считать, северные русские получились в результате смешивания пришельцев-славян с местным дославянским населением.
Polish (52.9%) Lithuanian (7.8%) Belorussian (5.8%)
Три тесно связанных между собой популяции представляют «балто-славянскую» часть наследственности северных русских
Finnish (14.7%) Chuvash (5.6%) Chuvash (2.6%)
«Дославянская» часть частично связана с финнами, частично с чувашами, при этом связь с финнами примерно в 2 раза сильнее. На мой взгляд, более чем адекватно с учетом того, что других северных восточноевропейских популяций для отображения этого компонента просто нет. Современные чуваши слабо подходят на роль предков северных русских — однако они несомненно имеют некоторых общих предков с северными русскими. Эту связь мы и видим.
Oroqen (2.4%)
К сожалению, народы Сибири практически не представлены в модели, за исключением прошедших «бутылочное горлышко» якутов. Поэтому в роли их прокси приходится отдуваться даурам и орочам. Как я подозреваю, появление этого компонента на севере связано с приходом в Европу N1c1, хотя совершенно не настаиваю на этой интерпретации.

Итак, имеем пропорцию смешения пришельцев и местного населения примерно 3 к 1.

Сравним полученный результат с Оракулом для популяции North Russian в этнокалькуляторе K27beta
[1,] «North-Russian»                            «0»
[2,] «69.9% Mordovian + 30.1% Vepsa»            «2.1942»
[3,] «79.2% Center-Russian + 20.8% Saami»       «2.5603»
[4,] «23% Karelian + 77% Mordovian»             «2.6758»
[5,] «77.2% Russian + 22.8% Saami»              «2.9311»
[6,] «15.2% Finland + 84.8% Mordovian»          «3.1693»

Не совсем то же самое, поскольку большая часть популяций K27 отсутствует в модели Hellenthal et al, однако варианты (3) и (5) выглядят все-таки схоже.

Finnish
Oroqen (10.5%) Уже упоминавшийся «сибирский» компонент. У финнов проявляется заметно сильнее, чем у северных русских, что закономерно. Возможно, использованы образцы северо-восточных финнов?
Russian (32.8%) Chuvash (1.4%) Родство с «дославянским» компонентом северных русских. С чувашами уже совсем мало общего.
Norwegian (44.4%) Симметрично соседям с востока, финны имеют общих предков и со своими западными соседями. Пропорция очень близка к 50/50.
Lithuanian (5.6%) не вызывает удивления и наличие общих предков с литовцами.
Basque (3.0%) Средиземноморцы-неолитчики добрались до далекого севера в совсем уж небольшом числе.

Lithuanian
Polish (51.7%) Belorussian (38.4%) Russian (8.9%)
Литовцы, наряду с латышами известные как носители модального балто-славянского компонента, проявляют наибольшее родство со своими славянскими соседями.
Daur (0.4%) Oroqen (0.3%) Colombian (0.2%)
Однако обращает на себя внимание и вторая сторона «адмикса» — все тот же «сибирский» компонент.

Не буду разбирать здесь оставшиеся популяции, поскольку процесс занимает достаточно много времени. Кажущиеся на первый взгляд странными адмиксы зачастую либо поддаются разумной интерпретации, либо имеют свои параллели в предковых компонентах этнокалькуляторов на основе Admixture.

Дайджест новостей генетики и ДНК-генеалогии за январь-февраль 2014 года (часть 2)

**

Разработчики pyGenClean разместили полезный инструмент для предварительной подготовки выборки популяций для GWAS и этно-популяционного анализа. С помощью можно значительно автоматизировать относительно сложный процесс нахождения генетических outliers (т.е посторонних образцов выделающихся на фоне гомогенной однородной структуры популяции), а также провести многомерное шкалирования имеющихся популяций.

**

Я закончил проект по изучению структуры аутосомного генофонда грузинских этнографических групп. Ниже приведены выполненные в проекте публикую графики c результатами многомерного скалирования (MDS) и  анализа главных компонент (PCA) в изученной выборке. Еще я понял свою главную ошибку во время работы с предыдущими графиками — она состоит в том, что я раньше не сохранял в R framework данные и историю проделанных над ними операций. R очень гибкая среда для статистического анализа, но в силу большого разнообразия существующих пакетов для визуализации данных для выполнения одних и тех же команд часто возникает путаница с выбором подходящей техники визуализации. Поэтому лучше всего не начинать каждый раз с нуля, а сохранять workflow для последующих экспериментов. 1488015_10202873063857417_243934024_n 1526938_10202873450227076_1155088601_n

**

В русскоязычном секторе Интернета увеличивается число простых людей (и не совсем простых людей, вроде Татьяны Толстой), которые не боятся рассказывать открыто о своих генетических рисках, хотя в силу своего непонимания того что именно означает указанная в отчете risk odd (вероятность риска) , многие их выводы выглядят наивными.
Впрочем, ничего нет нового под Луной. Многие из моих сверхоптимистеских собеседников предполагали, что именно благодаря 23andme у рядового обывателя появилась возможность  наблюдения за своими генотипами (или геномами , под которым мы — summa summarum — понимаем здесь всю совокупность прочитанных генотипов), и даже за динамикой экспрессии свого экзома.
Тем не менее, даже я помню, как задолго до начала моего увлечения генетикой, примерно в 2002 году я видел передачу про исландскую компанию Decodeme по Discovery Channel. После длинного интервью с тогдашним ведущим сотрудником этой компании (К.Стефансон), в котором он рассказал о тотальном (почти 80%) генотипировании всей исландской нации, создатели фильма взяли краткие интервью у простых исландцев. Мне запомнился один исландец-докер, который — не отрываясь от процесса разгрузки траулера с рыбой, — с улыбкой на лице сказал: «Я могу выпивать по 10 чашек кофе в течении одного часа. Cогласно исследованиям ученных из DeCODE Genetics, в гене метаболизма кофеина у меня аллельный вариант, повышаюший скорость метаболизма кофеина».
Вывод — 23andme не были первыми, их заслуга в другом — в том что они вывели персональную геномику (в ее упрощенной форме) на новый, международно доступный уровень.

**
Компания Nanoporetech выпустила на рынок портативное устройство MinION, предназначенное для анализа молекул (в том числе и молекул ДНК), его можно применять для анализа структуры протеина и секвенрования ДНК. Устройство можно подключить к обычному компьютеру через USB-порт.
**

Уважаемый Pavel Bernshtam предложил реалистичную перспективу на стартапы. Кроме всего прочего, между строк замечаний Бернштама можно прочитать имплицитное неявное объяснение феномена значительной молодости самых известных стартаперов (им нечего терять и их руки-головы не связаны-загружены семейными обязанностями прокормки супруги и спиногрызов).
Я стою на перепутье выбора между развитием идеи этно-популяционного ДНК-калькулятора в форме стартапа, либо форме краудсорзинга, либо некоммерческая инструментализация разработки в криминалистике (в виде патента на методику нового вида криминалистической ДНК-экспертизы, которая со временем заменит надоевший всем фбр-овский CODIS):

«Хорошо, если просили про стартапы. Для стартапа нужно несколько вещей. Самое простое — идея. Идея сама по себе не стоит ничего. 0. Самая классная идея — НИЧЕГО. Идея начинает хоть что то стоить (тоже немного) если на ее основе написан бизнес план. Обоснованный бизнес план. Бизнес план, который может убедить. Сколько юзеров придет к вам на сайт в первые полгода? миллион? А почему? Докажите. А сколько зарегестрируется? Почему?
Следущее, что нужно — человек, который может принести инвестиции. Для этого нужно — представительность, бизнес план, знакомства и уйма всего иного. Нужно найти выход на инвесторов (без выхода тоже можно, но разговаривать с тобой будут иначе), нужно что бы тебя порекомендовали, нужно уметь рассказывать и убеждать. Далее — деньги. Скорее всего у Вас не получится сделать прототип, достаточный для получения инвестиции вечером на коленке, параллельно с основной работой. Вам надо будет уволиться и писать код.»

**
Как Вы помните, на Gedmatch.com были размещены разработанные мною этно-популяционные калькуляторы MDLP на платформе DIY Dodecad. Они позволяют довольно-точно определять этническое и популяционное происхождение исходя только из сравнительноого анализа частот полиморфизмов ДНК протестированного человека с частотами полиморфизмов ДНК в референсных популяциях. Несмотря на простоту использования (загрузил свое raw data, нажал на кнопку — получил результат), основные пользователи этого инструмента — американцы — имеют траблз с пониманием и интерпретацией результатов. Вот например, из свежего, присланного мне в январе. Ко мне уже обращаются как к доктору, который должен выдать свой авторитетный этнодиагноз:

» I had my test at 23and me and it has me as 100 European.
My mom says its a lie as my dad was an inuit from Alaska .My kit is ******
Could you please debunk inuit story»

Papa was a rolling stone (c)

«My results are for North-Amerind, (North American Indian) .. I suspect 4 generations back

Chr 1 1.7%
Chr 7 3.3%
Chr 18 2.5%

Is this a definite result for American Indian Heritage?»

На такие письма я вообще больше не отвечаю. Весьма странно что у столь многих американцев в последнее время появился фетиш происхождения от американских индейцев. Раньше это было не так заметно.

**

Повторное ресеквенирование «древнего» генома останков жителя мезолитической Иберии из La Brana 1 (того самого, которого исследовали в позапрошлом году на аутосомы и митохондриальный геном) показало, что этот человек имел очень необычную для Европы Y-хромосомную гаплогруппы — С6. Странности заметны на и уровне фенотипа: согласно анализу комплекса снипов, определяющих на уровне генотипа цвет кожи и глаз, он был темнокожим человеком с голубыми глазами (!).  У древнего европейца, жившего в пещере Ла-Бранья-Аринтеро (La Braña-Arintero, León) на севере Испании примерно 7 тысяч лет назад, были голубые глаза и очень смуглая кожа. Так художник представил себе то, как выглядел житель испанской пещеры 7 тысяч лет назад. (Ниже рисунок, опубликованный в Эль Паис.)

Палеогенетики успешно прочитали ДНК из костей древнего европейца, жившего в одной из пещер на севере Испании примерно 7 тысяч лет назад, и выяснили, что у него были голубые глаза и очень смуглая кожа, говорится в статье, опубликованной в журнале Nature. «Главным сюрпризом для нас стало то, что этот человек обладал типично «африканскими» версиями генов, которые управляют пигментацией кожи, что вероятно делало его очень смуглым или даже темнокожим, хотя мы и не можем точно определить ее тон. Еще более удивительным стало то, что этот «испанец» обладал теми вариациями генов, которые делают глаза европейцев голубыми, что делает этот геном уникальных, так как по всем остальным признакам он происходит из Северной Европы», — заявил Карлес Лалуэса-Фокс из Института эволюционной биологии в Барселоне (Испания). Что касается редкой гаплогруппы (C6, или по мнению некоторых исследователей просто C), то оказывается, что еще в 2013 году несколько любителей-непрофессионалов предсказывали вероятность присутствия С у части жителей палеолитической и мезолитиской Европы — по их мнению, мужское население палеолитической Европы могло принадлежать к линиям — C-V20 (в ISOGG С6), F и IJ.

«Ранние представители современного человека в Европе (EEMH), широко известные как кроманьонцы, мигрировали с Ближнего Востока в Европу несколькими волнами. Задумывашись над тем, какие гаплогруппы Y-ДНК могут быть связаны с ними, и в каком порядке они мигрировали в Европу, я придумал следующую хронологии для верхнего палеолита.

1) Гаплогруппа С6 (или С *, которая развилась в C6 в Европе)

2) Гаплогруппа F

3) Гаплогруппа IJ (которая развилась в Европе в гаплогруппу I) «

Заслуживает внимание и мастерское использование в данном исследовании методов секвенирования нового поколения — в частности, после того как генетики собрали геном древнего европейца из прочитанных мелких сегментов ДНК («ридов») по методу отображения ридов на референсный геном человека,  осталось приличное количество неиспользованных ридов. Генетики использовали «сухой остаток» для проведения метагеномического анализа. Как известно, метагеномика работает с набором всех ДНК находящихся в среде; следовательно генетики сделали удачное предположение о том, что «риды» без привязки к человеческому геному принадлежали геномам бактерии. BLAST-анализ ридов в Генбанке позволил установить те виды бактерий, секвенсы геномов которых были наиболее близки к изучаемым ридам.


В конце января были опубликованы две замечательные статьи на русском языке, посвященные бурно развивающейся области исследований — молекулярной патологии: «Молекулярная патология и роль врача-патологоанатома»  и «Наследственно обусловленный рак молочной железы и яичников«.


The Coop Lab продолжает размещать материалы о статистических рассхождениях в характере наследования генетического материала у ближайших родственников. Традиционно считается, что сибсы (сиблинги) одного пола похожи друг на друга в той или иной степени. Различие в фенотипических чертах объясняются разными факторами окружающей среды воздействующих в разной степени на их развитие. Тем не менее, как было показано в статье The Coop Lab,сибсы различаются также на уровне своего генома, за счет случайности сегрегации и рекомбинации.


Китайские генетики разработали  новый метод генной хирургии (точное геномое редактирование) и успешно применили его на макаках.


Ученные из университета Северной Аризоны «возродили» вирус древней чумы, пандемия которой пришлась на время правения византийского императора Юстиниана (Юстинианова чума). В лаборатории был прочтена последовательность ДНК бактерии-возбудителя чумы, которая содержалась в останках жертв этой пандемии. Очевидно, здесь также применялись методы метагеномики.


В сетевой версии журнала «Наука и жизнь» размещена статья о характере генетической интрогрессии (межвидовым обменом чужеродной генетической изменчивостью) произошедшей между неандертальцами и предками анатомически современного человека много десятков тысяч лет назад, и приведшей к частичной гибридизации двух видов, чьи эволюционные пути разошлись около полумиллиона лет тому назад:
«Оказалось, что практически все неандертальские гены локализованы в Х хромосоме, а значит, передались нам по женской линии. Ученые пришли к выводу, что мальчики, рождавшиеся в результате смешения кровей, были в большинстве своем бесплодны. «Когда неандертальцы и люди скрещивались, это было на краю биологической совместимости, ведь два генома не встречались друг с другом примерно полмиллиона лет», — комментирует результаты исследования один из его авторов Дэвид Рейч, генетик из Медицинской школы Гарварда (США).»

Я еще в 2010 году говорил, что если смешивание с неандертальцами происходило, то скорее всего гены были привнесены от связей между мужчинами homo sapiens sapiens и женщинами-неандертальцами. Не откажу себе в удовольствии процитировать свое сообщение на форуме Молгена.

«Re: Люди носят гены неандертальцев
Ответ #23 : 10 Май 2010, 19:40:25  Самое неубедительное в обеих работах это
1)отбор снипов для анализа (перекрестное сравнение снипов орангутанга, человека и шимпанзе — выбрали те, которые у человека являются, как считается, потомковыми).
2) по отобранным снипами произвели выравнивание (alignment) секвенсов шимпанзе, человека и неандертальца фазирование предкового генотипа общего предка человека, неандертальца и современного человека (т.е говоря проще, реконструировали (предсказали) гипотетический генотип по методу Байесовской апостериорной вероятности)
3) затем разбили фрагменты генома неандертала по снипами по признаку совпадения или несовпадения с предковыми значения гипотетического секвенса общего предка шимпанзе и гомо, на три группы -гомозиготные с предковым значением снипа, гомозиготные с потомковым значением и просто гетерозиготы. Про исключение более половины мутаций (пусть и синонимических), я вообще молчу. Но кто может гарантировать, что предковый генотип реконструирован верно, и, что самое главное — где доказательство того, что у неандертала должно быть именно предковое значение снипа, а не мутировавшее параллельно с человеком.
Наконец, на приведенном выше графике, разброс участков генома совпадающих у человека и неандертальца по X хромосоме, находится в меньшем диапозоне SD (стандартного отклонения), эти участки небольшие, но по структуре более дивергентные.
Из чего следует 2 вывода:
a) основное генное вливание шло через X хромосому и b) поскольку около 2/3 генетической информации X хромосомы аккумулируется в женских линиях, то направление вливания шло через самок неандертальцев и мужчин-сапиенсов, что несколько противроечит картине изображенной в первой статье.»

Любопытно, что при ресеквенировании геномов неандертальцев и секвенировании геномов новых неандертальцев (из пещеры Окладникова) применили новый метод секвенирования. В частности, они секвенировали митохондриальную ДНК из кости неандертальца и отделили ее от ДНК современного человека, что позволило доказать родство между жившими в Сибири и в Европе неандертальцами.Метод определения посторонних наслоений ДНК основан на анализе ее естественных мутаций. Так, у 30–40% образцов, возраст которых насчитывает несколько тысяч лет, цитозин превращается в тимин, а гуанин — в аденин. Ученые разработали систему, моделирующую процессы естественного изменения ДНК и сравнивающую полученный результат с данными образца.

Аналогичная методика была применена и в отношении менее древних образцов ДНК. Насчет мезолитических образцов из работы Лазаридиса, я не читал ту часть сапплемента где описывается техническая сторона опыта. Но в другой работе упомянутого в статье Скоглунда (Skoglund et al .2012) — в неолитическах образцах результаты поссмертной гидролитической деаминации (cytosine —> thymine or guanine —> adenine) были удалены. Но у неандера разумеется из было горадо больше и пришлось придумывать методику реконструкции первоначальных нуклеотидов.Кроме того, в статье Lazardis et.al.2013 (точнее в сапплементе) содержится указание на использование урацил-ДНК-гликосилазы и эндонуклеозы при подготовке библиотек для сиквенирования.Использование этого метода значительно (!) уменьшает включение деаминированных остатков C/G→T/A (здесь подробности).


Уважаемый «любитель» Владимир Таганкин на основе большого эмпирического материала (десятки тысяч гаплотипов) провел серьезное исследование дисперсии значений локусов Y-STR. Это исследование  по своему качеству превосходит многие статьи профессиональных популяционных генетиков.


В статье доктора Линча известный «феномен раздутости нефункциональной части человеческого генома» объясняется сочетанием ряда генетических факторов. Мутации, увеличивающие размер генома (дупликации), с гораздо меньшей вероятностью вредят организму, чем мутации, при которых часть генома теряется (делеции). Поэтому с увеличением частоты мутаций геном начинает непроизвольно расти. То есть причинно-следственная цепочка тут следующая:

малый размер популяции > увеличение генетического дрейфа > нарушение аккуратности репликации генома (увеличение частоты мутаций) > увеличение размера генома.

Как мне кажется, это объяснение можно применить к анализу всех мутаций, в том числе и STR (коротких тандемных потворов).


В январе и начале февраля было опубликовано несколько статей, в которых затрагивается тематика ДНК-криминалистика. Так в ходе проведенного Федеральным Бюро Расследований США аудита национальной базы данных ДНК, было обнаружено 166 ДНК-профиля, которые содержали ошибки. Часть этих ошибок появилась в результате ошибок клерков, другая часть связана с ошибками при интерпретации данных допущенных сотрудниками лабораторий. Проведенная тогда же проверка профилей ДНК в базе данных города Нью-Йорке дала аналогичные результаты. Неприятный факт обнаружения ошибок в STR-профилях ДНК поднимает старые вопрос о необходимости замены существующей системы CODIS. В более ранней работе, в которой рассматривалась роль и место устаревающей, но по-прежнему существующей системы CODIS в системе быстро развивающегося комплекса знаний о геноме человека, авторы сделали интересный вывод: несмотря на то, что маркеры CODIS часто лежат в пределах геномных и генных доменов, связанных с риском развития определенных заболеваний или отвечающих за определенные функции генома, не было найдено никаких  убедительных доказательств того, что «короткие тандемные повторы», используемые в качестве маркеров CODIS, могут помочь установить физические черты человека.  Наконец, в совсем новой работе по ДНК-криминалистике («Recent Advances in Forensic DNA analysis«), наряду с обсуждением сугубо технических моментов сбора и подготовки биологического материала к анализу, затрагивается и вопрос о возможных альтернативах STR (коротких тандемных повторов), т.е того типа маркеров которые лежат в основе системы CODIS. Одной из логичных альтернатив являются однонуклеотидные полиморфизмы (снипы). Одним из преимуществ снипов над STR является тот факт, что в сильнодеградированные фрагменты ДНК могут быть проанализированы только с помощью снипов. Будучи биаллельным маркером, снип может быть включен в ДНК-профиль, однако информативность одичного снипа гораздо ниже информативности STR-локусов, в силу чего  процесс установления личности при работе со смесью разнородных ДНК усложняется. Хотя единчный снип менее информативен ( в силу биаллельности), чем STR, но этот недостаток можно легко избежать за счет увеличения  количества SNP(снип)-маркеров, используемых при анализе. Разный уровень гетерозиготности  является одной из наиболее ценных особенностей снипов. Другой положительной чертой снипов является то, что при определении снипов нет нужды на разделение сегментов по их размеру, что делает мультиплексирование и автоматизации более доступны, чем  в анализе коротких тандемных повторов. Кроме того,  низкая скорость мутации снипов значительно улучшает их стабильность в качестве генетических маркеров.

 

Еще раз о эволюции «динарской клады» гаплогруппы I2a1b и славянизации Балкан

Как известно моим постоянным читателям, я уже на протяжении почти 5 лет пытаюсь опровергнуть устоявшееся в популяционное генетике представление о том, что частотный пик распространения на Балканах гаплотипов так называемой динарской клады гаплогруппы I2a1b можно объяснить  непрерывной генетической приемственностью населения этого региона со времен палеолита. Даже само кодовое название «ветви» — «динарская» — носит условный характер. Вопреки популярной точки зрения,  на самом деле название восходит не к трудам Нордтведту (который его просто популяризировал), а к известной cтарой статье Barac et al.2003. Авторы описали Dinaric Modal Haplotype в его 5-маркерной форме «(DMH: 16–24–11–11–13) by DYS19–390–391–392–393, respectively». Позднее он был расширен до 17, 37,67 и 111 маркеров и обнаружен не только на Балканах, но и по всей Восточной Европе

К сожалению, большинство из моих убедительных аргументов остаются без должного внимания со стороны профильных популяционных генетиков.  На дворе уже 2014 год и что мы видим в свежих работах по популяционной генетике населения Восточной Европы? Собственно говоря, ничего нового. В статье В.С. Панкратова, О.Г. Давыденко «Структура генофондов населения двух регионов Белорусского Полесья» 2013, стр.46 читаем: «Различие частот гаплогруппы I2a2 между популяциями «Вичина» и Западного Полесья не является достоверным, соответственно, она могла попасть в «Вичин» из других регионов Западного Полесья, при этом не происходило событий, приводящих к сильному генетическому дрейфу. Напомним, что для данной гаплогруппы характерна более высокая частота в Полесье, чем в других частях Беларуси, что предположительно является результатом мигра- ции ее носителей из потенциального балканского ледникового рефугиума на территорию юга современной Беларуси. Таким образом, заселение «Вичина» носителями Y-хромосомы I2a2 произошло либо так же, как и заселение других регионов Западного Полесья (в результате миграции с Балкан), либо позже в результате миграции с прилежащих территорий).»  Что характерно — здесь эта гаплогруппа (а речь идет конечно же о печально известной динарской субкладе этой гаплогруппы) названа I2a2 по старой терминологии, а в таблице частот уже по более новой I2a1. Это обстоятельство указывает на то, что статья писалась (или дописывалась) в разные времена. Похоже это общее место всех работ в области популяционой генетики,  так или иначе затрагивающих проблематику балканского палеолитического рефугиума, уже никогда не устранить. И это несмотря на то, что открытие новых снипов и соответствующие изменения в филогенетическом дереве гаплогруппы I2a-P37.2  дают надежные доказательства верности моей первоначальной гипотезы. Вот так, например, выглядит разметка филогенетического древа I2a-P37.2 по состоянию на начало 2014 года.

Еще более глубокая структура субкладов I2a1b приведена в черновой рабочей схеме компании Yfull.

I2_M423_20140203

Несмотря на интуитивно понятную структуру организации информации в филогенетических деревьях (кладограммах), они не могут быть использованы в качестве окончательного аргумента при строгом логическом доказательстве какой бы то ни было гипотезы.
Так уж повелось, что при аргументировании своей позиции в попгенетике надо оперировать языком сухой статистики и математики. Выводы и модели могут быть верными, частично неверными или даже полностью неправильными. Но если они выражены в формально-математическом виде, они имеют полное легитимное право на принятие к обсуждению в ситуации рациональной и конструктивной дискуссии. Поэтому статья (с рабочим названием » ‘Динарская субклада’ I2a1b: маркер славянской экспансии на Балканы?»)  должна  включать в себя, к примеру,  графическое отображение графа филогенетической сети гаплотипов динарской клады, но традиционными методами эту задачу решить крайне сложно. Я наткнулся на интересную альтернативу для тех случаев, когда вместо филогенетической схемы гаплотипов нужно строить гаплотипные сети (haplotype networks), но из-за больших объемов данных построить их в стандартной попгенетической программе Fluxus-Network в течении разумного времени не получается.

Вместо классического, но медленного FN можно использовать бесплатное программное обеспечение Arlequin > HapStar > Graphviz/Gephi/R-Graphviz. Первая попытка визуализации в Gephi:

1526576_10202941657572217_2008628619_n
Поскольку с эстетитческой точки зрения эта попытка была не очень удачной, то я решил повторить эксперимент с визуализацией MST динарского кластера гаплогруппы I2a — на этот раз в цветном исполнении.  В самом центре белоруские гаплотипы, окруженные украинскими гаплотипами. Ветвь Вереничей (Belarus19) в кластере гаплогруппы I2a: Belarus32->Bulgaria68->Poland365->Belarus 19, и очень близко к центру.

1048962_10202961233661607_1211213762_oЗатем я  частично переработал граф сети гаплотипов динарского кластера гаплогруппы I2a1b. Алгоритм Force Atlas 2, хотя и позволяет разглядеть мелкие детали размещения отдельных гаплотипов, — в конечном итоге дает уникальную структуру графа, и эта структура существенным образом отличается от привычной структуры сети гаплотипов в работах попгенетиков. Исходя из этого, я решил ограничиться применением Force Atlas, а затем сгруппировал перекрывающиеся узлы графа в одну группу. Благодаря этому незамысловатому трюку, на выходе я получил гораздо более приемлимый с точки зрения академического стандарта графический вариант. Это, конечно же, не штейнеровское MP-дерево гаплотипов в Fluxus Network, однако и оно дает неплохое представление о характере развития динарского кластера.

Задача: как вы думаете, где находится визуальный центр равновесия графа?

Подсказка: Иногда люди ошибочно полагают, что предковые гаплотипы — это гаплотипы в самом большом кластере. Например, в данном случае — в оранжевом метаузле. Однако это предположение работает только в том случае, если в популяции не было быстрого роста и экспансии. В противном случае может статься так, что носитель маргинального гаплотипа способен, в силу случайных и неслучайных причин вызвать эффект основателя, породив множество потомков. В таких случаях мы можем наблюдать картину характерную для данного графа. И это далеко не единственный случай

1555325_10202973979300240_689832560_n

Еще немного покопался в графе (MST) гаплотипов динарского кластера I2a1b. На полпути зум в Gephi сломался, и процесс «причесывания» начального графа пришлось заканчивать уже в Adobe Illustrator и Adobe Photoshop. Но надеюсь, что теперь-то граф представлен в удобоваримом формате:


1536644_10202976299438242_1824667689_nВ процессе подготовки материала к своей статье о динарской субкладе I2a1b, я сделал график многомерного шкалирования по вычисленной в Арлекине матрице Fst-расстояний между 42 популяционными группировками гаплотипов динарской субклады.

1656113_10203040706128369_1678657762_n

Примечательно что скорректированный коэффициент детерминации R2 в данном случае негативный (что редкость), впрочем этого можно было ожидать так как сам коэффициент детерминации R2 достаточно близок к нулю (R2=0.015), то есть данная модель — разбивка носителей по этногеографическим группам — объясняет 1.5% всей статистической вариативности всей выборки. Кроме того, p-value=1, а это означает, что мы должны принять нулевую гипотезу (отсутствие корреляции). Это близко к полученным значениям AMOVA, согласно которым на генетическое разнообразие между этническими группами приходится только 1% всего генетической разнообразия выборки. 98% приходится на разнообразие между отдельными гаплотипами. Говоря простыми словами, в выборке динариков-I2a1b отсутствует значимая кластеризация по этническому признаку.

Более надежное доказательство вышеозвученного вывода было получено при выполнения теста Мантеля, в котором определялась наличие и надежность корреляции между матрицнй географических расстояний и матрицы попарных Fst между группами популяций. Значения p-value c двухсторонним критерием (two-tailed p value) значительно больше 0.05, что означает  только одного — значимой корреляции не наблюдается, несмотря даже на приличный размер выборки — 774 гаплотипа.

Разумеется, если бы моя статья сопровождалось только схемами и результатами вычислений, то тогда это было бы статья стандартного формата популяционной генетики. Однако, как мне представляется, гораздо интереснее рассмотреть вопрос эволюции и миграции носителей «динарской клады» I2a1b в интердисциплинарном ключе. В этой связи необходимо посмотреть на эту проблему глазами историка, тем более что время экспансии  «динарцев» отлично накладывается на временной интервал экспансии славян на Балканы.

Как я уже отмечал ранее, в журнале Studia Slavica et Balcanica Petropolitana cодержится немало интересных статьей, в которых освещается современное состояние вопроса о так называемой славянизации Балкан во второй половине первого тысячелетия нашей эры.
По непонятной причине, в этом вопросе задают тон те слависты-историки, которые занимаются изучением проблем хорватского этногенеза. По этой причине в журнале представлены сразу 4 альтернативные взгляда на происхождение хорватов, которые представляют собой не столько развитие традиционных конкурирующих теорий автохтонности хорватов (Иван Лучич, Фердо Шишич, Франьо Рачки и пр.) versus миграционной модели (кульминировавшей в дискурссе иллиризма в середине 19 века), сколько новый тренд постмодернистского переосмысления многих традиционных понятий обеих теорий и исторических источников в виде идеологических конструктов и дискурссивных формантов.

  1. Алимов Д. Е. В поисках «племени»: этногенетическая модель «Венской школы» и проблема появления хорватской этничности.
    Алимов отвергает примордиалистский подход к хорватской этничности, в которой далмацкие хорваты виделись осколками первичной хорватской этничности. Термин «хорват» гентилистский, а не этнический: в Аварском каганате этот термин обозначал одну из (много) этно-социальных групп gentes разного происхождения, объединенных не родовыми связями, а принадлежностью к общей воинской группе.Может ли хорватский гентилизм служить свидетельством неславянского характера хорватской этничности или его следует понимать как закономерный социальный продукт миграции со свойственным этому процессу выдвижением на передний
    план — в том числе и в процессах групповой идентификации — воинского дружинного элемента? В свое время Х. Л овмяньский, размышляя над путями формирования так называемых «больших племен» в славянском мире, предположил, что в условиях славянских миграций и колонизации новых пространств закрепить название старого «большого племени» на новом месте, образовав новое «большое племя» со старым названием, могли только хорошо организованные воинские группы [34, Подобным же образом рассуждает и М. Анчич, полагая, что под хорватами и сербами Константина Багрянородного следует разуметь правящие слои соответствующих политий, состоявшие из знатных родов. Во время распада Аварского каганата разные группы хорватов укрылись кто в горах Карпат, кто в Судетах, кто в Восточных Альпах, кто на Динарском нагорье. Поскольку обозначение хорват обозначал лишь принадлежность к определенной социальной группе аварского каганата, то между карпатскими, силезскими, альпийскими и далматскиим славянами нет родства. То есть хорватская идентичность есть продукт трансформации соционима в этноним.
  2. Известная работа Флорина Курты «Создание Славян».
    Если выразить смысл этой работы одним предложением, то автор отрицает самое существование славян до их встречи с византийцев. Само слово славяне и понятие славянства есть продукт византийского имперского дискурса, и первоначально включал в себя не только славян в собственном смысле этого слова, но и германцев, иранцев, фракийцев и так далее.Заключительный раздел труда Ф. Курты суммирует выводы исследования. Особенно важным представляется вывод о том, что раннеславянская этничность не основывалась на языковой общности. (При этом, автор совершенно справедливо замечает, что сам этноним словене появляется гораздо позднее и лишь на периферии славянского ареала.) «Создание славян, — пишет Ф. Курта, — явилось не столько результатом этногенеза, сколько итогом инвенции, воображения и систематизации византийских авторов. … Это была… Самобытность сформированная в тени Юстиниановых крепостей… Имеются существенные основания утверждать, что эта самобытность была значительно более сложной, чем дублет «cклавены — анты» навязанный византийской историографией. … Первое отчетливое утверждение «мы — славяне» происходит из Повести временных лет XII в. Этой летописью завершается процесс создания славян…» (с. 349-350).
  3. Мягкий вариант синтеза «готской теории» и «автохтонтизма» в статьях Мужича. На основании источников, содержащих информацию о переселениях на современную хорватскую территорию, автор приходит к выводу, что именем Sclavi(ni) в принципе назывались полиэтничные переселенцы на Балканах. Суммируя результаты антропологических и генетических исследований, автор заключает, что современные хорваты по преимуществу являются потомками автохтонного населения Балкан. Автор доказывает, что хорватский народ возник как новая этническая общность на Балканах этническим соединением и социальным взаимодействием пришедших с севера воинских контингентов «гото-склавинов» и проживавших здесь различных популяций более многочисленных автохтонов.
  4. Постмодерниcтский-постколониальный этнодискурс австралийского исследователя Дэниела Дзино — книга «Becoming Slav, becoming Croat: identity transformations in post-Roman and early medieval Dalmatia» (Leiden; Boston: Brill, 2010). В книге на методологической платформе постмодернизма и конструктивистского подхода к этничности рассматриваются этносоциальные процессы, протекавшие на территории Далмации (Хорватия) в период поздней античности и раннего Средневековья.

<

p>Попробуем подвести промежуточные выводы этих моделей. Ведущие хорватские историки-слависты, а также некоторые российские «хорватоведы» рассматривают процесс генеза славян в виде некоего подобия черного ящика. Напомню: черный ящик — это система, в которой внешнему наблюдению доступны лишь входные и выходные величины, а ее внутреннее устройство и протекающие в ней процессы не известны. В этом смысле, Аварский кагант действительно хорошо подходит на роль «черного ящика». Большинство исторических сведений об Аварском каганате касается лишь его внешней политики (прежде всего, военных действий). Что касается внутреннего устройства этой кочевой империи, то оно по-прежнему остается terra incognita для историков в силу скудности, фрагментарности и противоречивости имеющихся источников о государственно-административном устройстве этого государства. Поэтому приходится либо интерпролировать имеющиеся сведения о социально-политической структуре других кочевых империй (тюрков, гуннов, монголов), либо просто фантазировать.
Согласно мнению Курты и его сторонников, процесс этногенеза славян протекал следующим образом. Где-то в середине 6 века нашей эры некие ещенеславянские сообщества людей попадают в «черный ящик» Аварского каганата. Спустя несколько поколений «инкубации» славянства из черного ящика Аварского каганата выходит некая, как говорили марксисты, «новая сообщность людей». Эта «новая сообщность», nihilnominus Sclavi («ничтожные именем склавины», как выразился один франкский летописец) внезапно (!) появляется в поле зрения византийцев, «выходя из-за тени построенных Юстинианом на Дунае крепостей» (Ф.Курта). Именно им византийцы и дают имя «славян», имя которых потомки разнесут по всей восточной Европе.

Я конечно же понимаю, что перед хорватскими историками перед самым кануном вступления Хорватии в ЕС, был поставлен политический заказ воскресить старые идеи неславянского происхождения хорватов времен младонационалистического иллирического романтизма в новом, постмодернистском исполнении. Перефразируя вышеупомянутого Д.Дзино, суть этого идеологического заказа можно выразить следующим девизом: «Перестанем быть славянами -станем европейцами!». Но зачем так ненавидеть свои корни, cвое происхождение и свои истоки — это мне непонятно.

Этот конструктивистский подход к вопросу этнической идентичности, согласно которому Аварский каганат выступил в роле катализатора этноформирующей реакции, в результате которой миру была явлена славянская идентичность, мне представляется сомнительным. Здесь уместно вспомнить этническую ситуацию в более поздних империях, например в империи Габсбургов, СССР, ту же Югославию времен Броза Тита. Пример СССР особенно поучителен, особенно если мы учтем тот факт, что СССР существовал примерно столько же лет, сколько и власть Аварского каганата на территории современной Хорватии (не больше 70-80 лет). Хорошо известно, что одной из основной задач национальной политики CCCР было создание новой общности людей — «homines sovetici» («советские люди»). Однако как показала история, в процессе крушения империи (также как и в Югославии) этноцентробежные силы не только не исчезли, но скорее даже усилились. Нет никакого основания полагать, что во времена падения Аварского каганата все могло выглядеть иначе.

При сопоставлени этих моделей мы неизбежно сталкиваемся с закономерным вопросом: а что генетика или ДНК-генеалогия могут прояснить в хитросплетениях исторических фактов?  К счастью, многие историки начинают всерьез интересоваться методами популяционной генетики и ДНК-генетика применительно к вопросам этногенеза и миграции отдельных исторических этносообществ. К несчастью, нейтральные выводы генетики зачастую искажаются или подгоняются историками под те априорные модели, которых эти историки придерживаются. Вот, в свете этой переводной статьи хорвата Ивана Мужича, становится ясно, каким образом происходят злостные манипуляции с интерпретацией данных популяционно-генетического анализа. Этот автор придерживается комбинированной модели происхождения хорват (смешивание автохтонов и готов), поэтому он интерпретирует выкладки популяционной генетики по структуре Y-хромосомного генофонда хорват исключительно в свете предпосылки антропологической и генетической приемственности населения Балкан со времен палеолита.

1743460_10203015436016632_1110433635_n
Такие манипуляции нуждаются в опровержении — и именно эту задачу я считаю главной в своем исследовании.

О чем мне рассказал мой геном — результаты 23andme глазами профессионального генетика

Крайне поучительные выводы можно сделать при прочтении замечательной статьи американского генетика Gregory A. Petsko, в которой автор расскрывает интересную точку зрения на сущность анализа генетических вариантов в 23andme. Статья написана на очень легком языке, и автор сдабривает эту легкость изрядной долей здрового юмора.  Поскольку тема тестирования в 23andme интересна значительному проценту наших читателей, то ниже мы приводим перевод статьи на русский.

» Выходит,  что я не потомок Чингисхана . Я уверен, что это обстоятельство удивляет  вас не меньше, чем  меня. Судя по тому, что мы слышим от людей, которые используют геномику  для отслеживания путей человеческой миграции, огромный процент представителей человеческой расы на самом деле произошли  от Чингисхана. Но только не я.

Это одна из тех вещей, которые я узнал после того как представил образец моей ДНК для геномного анализа однонуклеотидных полиморфизма (SNP ) в одной из компаний, созданных для выполнения тестов для  ‘обычных  людей’ за плату. Мне было любопытно посмотреть , какого рода информацию они предоставляют , и честно говоря, я хотел узнать кое-что о своем собственном геноме. Поэтому следуя инструкциям компании, я плюнул несколько раз в  пластиковый контейнер, пока не набрался необходимый объем слюны , отправил его по почте , и стал ждать результатов . Обнаружат ли у меня аллель, которая обречет меня на  редкую генетическое заболеваний , когда я войду в преклонный возраст?  А что, если мой риск развития сердечных болезней , диабета,  — или любого из тысяч других  недугов терзающих плоть — гораздо выше среднестатистического ? Окажусь ли я потомком Чингисхана ?

Компания 23andme, в которую я направил образец слюны,  выполняет сиквенирование или гибридизацию ДНК не сама , а в отдельной специализированной лаборатории, c которой у 23andme заключен договор . После того, как лаборатория получила мои образцы , мою ДНК экстрагировали из клеток задней стенки щеки в слюне и амплифицировали  с помощью  ПЦР достаточное для стадии генотипирования количество ДНК.  Далее, ДНК разрезали рестрикцией на меньшие, более управляемые фрагменты. Эти фрагменты ДНК затем нанесли на ДНК-чип , который в данном конкретном случае представляет собой небольшую стеклянную пластину с миллионами микроскопических шариков-головок на  поверхности. К каждой головке прикрепляются  ДНК-зонды , комплементарные тем  сайтам человеческого генома , в которых расположены наиболее важные снипы. Для каждого SNP, имеется два ДНК-зонда  соответствующих «нормальной» и «мутировавшей» версии (аллелю) каждого SNP.  Таким образом, гибридизация сайта ДНК с конкретным ДНК -зондом , обнаруживается при помощи флуоресценции, которая,  как и в случае любого другого эксперимента c ДНК-чипом, служит для идентификации аллели .

ДНК-чип, который использует 23andme, включает в себя  550000 снипов,  разбросаных по всему геному. Хотя эти 550 тысяч снипов являются лишь частью из всех находящихся в геноме человека снипов (по разным оценкам, их количество достигает 10 миллионов) , набор этих 550 000 снипов тщательно продуман — сюда входят специально подобраные  тэг-снипы (снипы-метки).  Поскольку  многие снипы характеризуются высоким неравновесным сцеплением  между собой, генотип  многих снипов ​ может часто определяется, исходя из вывленного при тестирования генотипа того SNP , который является «тэгом-меткой» своей группы или LDблока снипов.  Благодаря процедуре использования снипов-меток, можно максимизировать  информацию от каждого фактически проанализированного SNP, сохраняя при этом низкую стоимость самого анализа.

Кроме того,  многие ДНК компании имеют специально подобранные десятки тысяч дополнительных снипов,  ​имеющих высокие диагностические перспективы и подробно изученные в  научной литературе.  Соответствующие этим снипам зонды добавляются в модифицированный ДНК-чип Illumina. Эти снипы включают факторы риска для общих и редких заболеваний человека, а также генетически наследуемые признаки (дальтонизм и так далее) .

Доступ к окончательным данным осуществляется через веб-сайт компании, который включает в себя возможность загрузки всего набор информации по проанализированным SNP-ам . После того, как я получил уведомление о готовности моих результатов,  то, будучи ученым, выполнил самостоятельный  биоинформатический анализ своих данных . Нужно однако признать, что сайт  23andme на самом деле cодержит качественный и интуитивно понятный интерфейс, обеспечивающий клиенту конкретную информацию о конкретных аллелей связанных с наследственными факторами конкретных различных заболеваний, физических черт, и так далее.

Вот некоторые из вещей, которые я  узнал  о себе:

Согласно геномным данным , мой цвет глаз , вероятно,  коричневый ( хорошее предположение ) . Я должен быть лактозотолерантным ( так оно и есть ). Данные моего цитохрома P450 показывают, что я был бы весьма чувствительным к антикоагулянту варфарину , если я когда-либо должен был принимать его (надеюсь, что я никогда это не сделаю — это отвратительный препарат), снип в гене рецептора андрогенов свидетельствует о значительном снижении риска мужского типа облысения ( у меня есть новости для ученных , я слегка полысел на макушке ). По SNP-у в гене рецептора допамина,  в одном немецком исследовании  было установлено, что он связан со снижением эффективности в процессе обучения избежанию ошибок . Согласно одному SNP-у в гене , связанном с метаболизмом инсулина , у меня есть хорошие шансы дожить до 100  лет (то есть, если все ошибки, которые я не научилися избегать, не ухудшат эти шансы ) . Есть также целый список снипов , которые в некоторых исследованиях были связаны с улучшением спортивных результатов (спринтерские способности, скорость реакции и так далее ) . У меня нет ни одного из этих снипов , что вряд ли вызовет удивление у  любого из моих учителей физкультуры .

Вместе с тем, у меня отмечен повышенный , в сравнении  со среднестатистическим , риск  развития ревматоидного артрита и псориаза ( что интересно , потому что мой отец страдал от этого заболевании ). У меня несколько сниженный риск развития целиакии , болезни Крона, сахарного диабетом 1 типа и рака предстательной железы . В любом случае , отклонение от нормы малозначительно — менее чем в два раза , — и не достаточно, чтобы заставить меня рассматривать планы по изменению образа жизни.

Но когда я самостоятельно проанализировал свои данные, один полиморфизм вызвал беспокойство. Так, у меня был обнаружен гуанин (G)  в cнипе rs1799945 , расположенном в гене, кодирующем белок под названием HFE. HFE является протеином мутирующем при наследственном гемохроматозе . Наследственный гемохроматоз,наиболее распространенная форма болезни связанной с перегрузкой организма железом, является аутосомно -рецессивным генетическим заболеванием, которое вынуждает организм поглощать и хранить слишком много железа . Избыток железа сохраняется во всех органах и тканях организме , в том числе поджелудочной железы , печени и кожи. Без лечения , накопления железа могут повредить  органы и ткани. Есть два основных генетических варианта приводящих к этому заболеванию .

Генетический вариант 1 ( C282Y/rs1800562 ) находится в гене HFE. HFE производит мембранный белок , который структурно изморфен I типу белков МНС класса, и ассоциируется с β2 -микроглобулином. Считается, HFE  отвечает за абсорбцию железа в  клетках кишечника, печени и иммунной системы,  регулируя взаимодействие рецептора трансферрина с трансферрином. Замена C282Y нарушает взаимодействие между HFE и его легкой цепью β2 — микроглобулина и предотвращает экспрессию на поверхности клетки. Анализы кристаллической структуры протеина HFE подтверждают то , что было предсказано исходя из изучения его последовательности. Cys282 ( остаток 260 в зрелой форме белка ) участвует в дисульфиднои мосте подобно аналогично протеинам, которые содержатся в  α3 домены I класса MHC . Потеря дисульфида дестабилизирует  уникальную нативную пространственную структуру белка. Второй наиболее распространенный вариант гена  HFE  — это замена гистидина-63 на аспарагиновую кислоту . В кристаллической структуре HFE , His63 ( гистидин-41 в последовательности зрелой формы ) включен в  солянной мост , который в результате мутации разрушается превращаясь в отрицательно заряженный остаток , и тем самым дестабилизируя белок. Таким образом, как и многие другие наследственные заболевания , гемохроматоз является  заболеванием вызванным конформацией (нарушением третичной структуры) белка.

В США  вариант 1 является наболее распространенным. «Нормальная аллель» Cys282 содержит гуанин в обеих нитях,  и встречается примерно у 876 из 1000 человек европейского происхождения . Наиболее распространенные формы наследственных гемохроматозов обнаружены у индивидов гомозиготных по аденина в обеих положениях, это происходит примерно у 4 из 1000 человек европейского происхождения (0,4%) . Тем не менее, пенетрантность является неполной : лишь только от трети  до половины гомозигот показывают повышенный уровень железа и, возможно, менее чем у  10% мужчин (и у от 1 до 2% женщин ) появятся полные клинические симптомы болезни , которые включают в себя боли в суставах , усталость, боль в животе, нарушение функции печени, и проблемы с сердцем . Как показал Эрнест Беутлер, хотя  мутация гемохроматоза и является относительно распространенной , сама болезнь гемохроматоза встречается редко. То есть мутация в гене HFE является необходимым , но не достаточным условием . Задача исследователей гемохроматоза в геномную эпоху, также как и в случае многих заболеваний, состоит в  изучении  других генетических, эпигенетических  и экологических факторов, определяющих, почему только у части гомозигот по C282Y (или H63D ) мутациям развивается  тяжелое заболевание нарушения обмена железа , в то время как большинство его носителей в значительной степени  не имеют даже малейших признаков этого заболевания .

У гетерозиготы в C282Y имеется аденин только в одной цепи и встречается примерно у 120 из 1000 человек европейского происхождения: у гетерозигот практически никогда не возникают клинические симптомы . Гетерозиготы по H63D встречаются гораздо реже , но также маловероятно, что у них появятся клинические симптомы . Как и каждый десятый житель США , я носитель гемохроматоза . Я гетерозигот по H63D .

Теперь, когда я знаю причину, что это дает мне? Не так уж и много, как мне кажется, но я всегда буду помнить о своей гетерозиготности, и если я когда-нибудь у меня появится один из признаков перегрузки железом , я , вероятно, попрошу своего врача , чтобы тот проверил мой уровень железа . Наверное, людям которые заботятся о своем здоровье, такие вещи знать необходимо  .

Но если вы зайдете на сайт компании , в которой вы сделали свой ​​анализ , то увидите, что информация, о которой я писал чуть выше, находится  не на самом видном месте. Все, что отображается на самом видном месте, связано исключительно с генеалогией. Я беседовал с генеральным директором компании, и она подтвердила, к моему удивлению ,  что люди, которые используют услуги 23andme гораздо больше заинтересованы в отслеживании своих корней с генетической точки зрения , чем в отчетах, связанных с генетическими факторами здоровья или физического состояния . На сайте можно найти несколько инструментов для подключения себя к другим людями, которые имеют с вами родство с генетической точки зрения . Другими словами, в настоящее время, основное применение полногеномного анализа SNP-ов сводится к созданию своего рода социальной сети генетических генеалогов .

Моя материнская гаплогруппа T2b2 . Гаплогруппа T возникла около 33000 лет назад на Ближнем Востоке , когда современные люди вышли из Восточной Африки . Ее нынешнее географическое распределение сильно зависит от нескольких миграций из Ближнего Востока в Европу , Индию и Восточной Африке примерно 15000 лет назад. T2 в настоящее время широко распространена в Северной Африке и Европе. Семья моей матери совсем недавно приехала из Италии , так что я предполагаю, что эта информация имеет практический смысл. Вы можете обнаружить на сайте сходство с гаплотипами известных людей: например, если ваша материнская гаплогруппа H4a , то  вы попадаете в одну компанию с  Уорреном Баффетам , одним из самых богатых людей в мире. Вы будете в восторге — и, возможно, не удивитесь — узнав, что единственный известный человек в списке на сайте c той же гаплогруппой, что и я, — это  Джесси  Джеймс, легендарный бандит с Дикого Запада.

Мой отцовской гаплотип I2. Гаплогруппа I2 является наиболее распространенной в Восточной Европе и на средиземноморском острове Сардиния, где она встречается у 40% мужского населения. Как и ее братская гаплогруппа , I1, I2  мигрировала в составе экспансивных миграций  на север в конце ледникового периода около 12 000 лет назад. Но в отличие от I1, которая расширялась от Пиренейского полуострова в северо-западной Европе , градиент  I2 направлен с Балкан в сторону юго-запада России в восточной части континента. Эти выводы также логичны, поскольку семья моего отца была родом из казаков. Если бы моя отцовская гаплогруппа была чрезвычайно распространеной С3 , я был бы потомком  Чингисханом . Увы, не повезло . Если бы это была гаплогруппа Т , я бы разделял  отцовскую линию с великим американским президентом и отцом-основателем, Томаса Джефферсона . Увы, cнова промах. На самом деле, веб-сайт компании не содержит ни одного известного человека с отцовской гаплогруппой I2 ( если не считать меня , конечно же) .

Так что теперь , благодаря моему собственному анализу cнипов личного генома, я знаю , что  вряд ли будет исключительно успешным в спорте; и что я не голубоглазый лысеющий блондин. Ни одно из этих заключений не представляло для меня какую либо то ни было неожиданность. Впрочем, я также узнал, что не происхожу от  Чингисхана. Вот что получилось у меня , и  я полагаю, что это лучше чем не знать ничего.

Еще раз о так называемых генетических алгоритмах

На Habrahabr размещены неплохие вводные материалы в теорию так называемых генетических алгоритмах, о которых мы писали уже не раз, в том числе и при рассмотрении вопросов евгеники.

Здесь будет очень полезен опыт природы.
Оператор скрещивания классического генетического алгоритма по сути своей соответствует мейозу — только в генетическом алгоритме число потомков равно числу предков.
Но в природе также существует и другой тип размножения — митоз и мы также можем приспособить его для использования в генетическом алгоритме.

В качестве основного принципа устанавливаем, что хромосомы с наибольшими значениями функции приспособленности размножаются митозом, а хромосомы с наименьшими значениями функции приспособленности размножаются мейозом.
Ближайшей аналогией подобного механизма является размножение микроорганизмов которые могут использовать как один так и другой пути размножения. Микроорганизмам наиболее приспособленным к окружающей среде выгодно максимально быстро запустить свою репликацию в неизменном виде, наименее приспособленным выгодно запустить рекомбинацию генетического материала для поиска вариантов с большей приспособленностью.

Каждая хромосома, к которой применен оператор митоза, заведомо производит как минимум одного полностью идентичного ей самой потомка.
Помимо этого, чем больше приспособленность хромосомы превышает среднее значение приспособленности по всей популяции, тем больше вероятность того, что хромосома произведет второго потомка.

Хромосомы с меньшей приспособленностью формируют пул для скрещивания между собой. Попарное скрещивание хромосом из пула проводится до тех пор пока не будет достигнута требуемая общая численность популяции (с учетом хромосом уже созданных с помощью оператора митоза). Выбор хромосом для скрещивания производится случайным образом методом рулетки (хромосомам с большей приспособленностью соответствует больший сектор на колесе рулетки). Численность популяции остается постоянной на протяжении всего времени работы генетического алгоритма.

Русскоязычный ликбез — введение в основные понятия геномики

Уважаемый Владимир Гурьянов поделился замечательной ссылкой на статью 2010 года, в которой на хорошом и доступном для понимания русском языке излагаются базовые понятия современной геномной биоинформатики.
Важность этой статьи трудно переоценить по той причине, что при переводе иноязычных статьей на русский язык зачастую приходиться сталкиваться с отсутствие адекватной устоявшейся русскоязычной переводческой базы в столь новой и динамично развивающейся области, каковой и является геномика.  Кроме того, статьи на эту тематику в научно-популяризаторском секторе Рунете можно перечесть по пальцем, а существующую предметная литература либо написана на очень сложном и непонятном для неспециалиста языке, либо не восполняет существующие лакуны. И если прорехи в русскоязычной профессиональной лексике вкупе с устаревшими знаниями с лихвой компенсируются в профильных высших биологических и медицинских ВУЗах РФ живым общением с преподавателями, то ситуация в небольших группах энтузиастов-любителей коммерческого ДНК-тестирования гораздо более плачевна. В отличии от академических деятелей, приходящих к актуальным вопросам ДНК-тестирования через системное образование в области молекулярной биологии и генетики, большинство любителей приходят в генетику благодаря интересу к генеалогии и антропологии. На первых порах все кажется простым, но по мере погружения в суть самого процесса, они сталкиваются со все более сложными понятиями, которые в силу своей непонятности вызывают у новичков только отторжение. Однако именно более вдумчивое изучение этих основ позволяет по новому подойти к анализу своих собственных генетических данных.Именно по этим причинам, подобные статьи заслуживают более пристального внимания. Статья заслуживает внимательного прочтения, особенно в части описывающей технические стороны сиквенирования (прочтения последовательности) генома: в этой части автор весьма сжато, но точно изложил принципы работы разных методов сиквенирования (в том числе, и технологию сиквенирования нового поколения). Но поскольку в задачу этой небольшой заметки не входит реферирование всего содержания статьи, я решил ограничиться только разбором основных понятий, отдельно выделенных автором в словарик.

Словарик

Геном (точнее, ядерный геном) — совокупность всех молекул ДНК ядра клетки (каждая из отдельных молекул ДНК, взаимодействуя с комплексом белков, образует хромосому). Это понятие настолько базовое, что не нуждается в дополнительных комментарий. Отмечу от себя лишь, что в дальнейшем речь пойдет только о ядерном геноме. Кроме него (по 2 копии на клетку), в клетке содержится 100-1000 митохондрий, имеющих собственный геном, и наконец свой небольшой геном имеется в веретене деления  — структуре, возникающая в клетках эукариот в процессе деления ядра. У человека (Homo sapiens) геном состоит из 23 пар хромосом, находящихся в ядре, а также митохондриальной ДНК. Двадцать две аутосомы, две половые хромосомы Х и Y, а также митохондриальная ДНК человека содержат вместе примерно 3,1 млрд пар оснований. Несмотря на то, что геном в «развернутом виде» относится к макроструктурам (в развернутом состоянии его длина составляет примерно один метр), однако благодаря многоуровневой системы уплотнения, он помещается в микроскопические масштабы клетки. Например, в хромосомах молекула ДНК «уплотняется» в результате сложного взаимодействия с белком гистоном.

Секвенирование — определение первичной структуры (последовательности) биополимера. Применительно к ДНК (или РНК), «отсеквенировать» означает «прочесть» молекулу, то есть — установить последовательность образующих её нуклеотидных оснований. Здесь нужно сделать важный смысловой акцент на прочтении, секвенирование это просто прочтение генома, но не его расшифровка. Этот процесс можно сравнить с процессом воспроизведения неизвестной нам письменности, — мы можем в точности скопировать дискретные знаки письма, и воспроизвести их последовательность, но смысл без криптографической расшифровки нам останется неизвестным. В этой метафоре функцию определения первичной структуры биополимера играет роль автоматического определения знаковых единиц письма, роль биоинформатики — криптографии.

Референсный геном — последовательность ДНК в цифровом виде, составленная учеными как общий репрезентативный пример генетического кода того или иного вида. Вопреки расхожему мифу о триумфальной «расшифровке» генома человека, этот геном не только не расшифрован, но даже еще и не собран полностью. Последняя версия сборки GRChg37 (Genome Reference Consortium human genome 37 или в короткой записи b37), которая представляет собой гаплоидный геном с перемежающимися локусами (т. е. изначально сведенные в одну последовательность аллельные варианты могли располагаться на разных хромосомах, поэтому при сравнении между собой разных сборок всегда можно установить не только расхождение в аллельных вариантах локусов или их физической позиции, но и разницу расположения локусов на хромосомах ). Нужно отметить, что в отличии от геномов реальных людей, референсый геном носит «синтетический характер» — он буквально был собран из геномов 13 разных людей. По состоянию на 2010 год, cуммарная длина расшифрованного генома составляла 3 181 354 029 пар оснований, в составе 329 скаффолдов.  По состоянию на 2010 год в данной сборке имелось 357 пропусков (gaps)  с неизвестной последовательностью, по состоянию на начало 2014 года —  200 пропусков. Референсные геномы человека и мыши поддерживаются и совершенствуются Консорциумом Референсного Генома (Genome Reference Consortium, GRC) — группой менее чем 20 ученых из различных геномных научно-исследовательских институтов, включая European Bioinformatics InstituteNational Center for Biotechnology InformationSanger Institute и Washington University in St. Louis.  Референсный геном имеет практическое значение и для лиц, получившихся данные своего SNP-типирования в коммерческих формах — позиции снипов выравнены по одной из существующих сборок референсого генома (например, в 23andme сейчас используется cборка или билд b37).

Однонуклеотидный полиморфизм, «снип» (SNP, ОНП) — в узком смысле, это однонуклеотидное отличие в последовательности геномной ДНК, встречающееся в исследуемой популяции с частотой более 1%.  Среди любителей ДНК-генеалогии этот термин часто применяется для обозначения всех однонуклеотидных полиморфизмам, например к приватным семейным снипам на Y-хромосоме. Однако в строгом смысле этого слова термин ‘полиморфизм’ применим только к тем вариантам которые встречаются с частотой более 1% .

Genome-wide association study (GWAS) — исследование связи генотипа с различными фенотипическими признаками в масштабе всего генома (прежде всего, наследственными заболеваниями). GWAS выявляет отдельные вариации в ДНК, обусловливающие те или иные заболевания или эффект лекарственных препаратов. Причины практически всех болезней имеют наследственную компоненту, передающуюся от родителя ребенку посредством 3 млрд. пар нуклеотидных остатков, составляющих человеческий геном. Расширение знаний об этих наследственных составляющих должно ускорить разработку новых терапевтических стратегий. Определение генетических факторов, влияющих на здоровье, развитие болезней и ответ на лечение, является ключевым для развития медицины нового поколения, которая будет направленно бороться с патологией при минимальном риске для больного. В исследованиях связей генотипа с различными заболеваниями в масштабе генома ученые сравнивают геномы людей, подверженных болезни (cases), с геномами здоровых людей (controls). Такое сравнение позволяет выявить отличия больных и здоровых на генетическом уровне, даже если эти отличия минимальны.

Секвенаторы «нового поколения» — высокопроизводительные секвенаторы ДНК, не использующие метод терминации цепи Сэнгера и капиллярный электрофорез. Принципы работы приборов различаются от производителя к производителю. Производительность таких секвенаторов на несколько порядков превосходит производительность самых мощных капиллярных приборов и достигает сотен млрд. пар оснований за запуск.

Секвенирование «методом дробовика» (shotgun sequencing) — подход, применяемый при анализе множественных протяженных последовательностей ДНК (геномов, метагеномов, экзомов, библиотек кДНК, наборов ампликонов и т. д.), при котором молекулы ДНК фрагментируются случайным образом на более короткие отрезки, которые затем секвенируются. В случае определения последовательности методом Сэнгера необходимо клонировать каждый фрагмент; в случае секвенирования нового поколения эта необходимость отпадает (что устраняет необходимость клонирования и связанный с этим «перекос» в представленности отдельных фрагментов).

«Рид» (от англ. read) — отдельное прочтение фрагмента ДНК (последовательность нуклеотидных остатков). На мой взгляд это наиболее важное понятие из тех, которые помогают понять суть секвенирования.
Согласно удачному примеру на лекциях П.Певзнера, мы можем сравнить человеческий организм с типографской фабрикой, которая печатает одновременно миллионы копий одного текста (точно также как клетки человека содержат миллионы копий ДНК). В этом случае процесс секвенирования в первом приближении можно сравнить с процессом взрыва на типографской фабрике, после которого вместо копий цельного текста остаются миллиарды мелких обрывков. Эти обрывки и есть образное представление совокупности «ридов». Поэтому перед биоинформатиком встает поистине титаническая задача — собрать из этого невообразимого количества фрагментов  первоначальный текст. На языке биоинформатики это называется ассемблированием геномов (рид->контиг->скаффолд->билд). На практике в этом процессе задействованы алгоритмы из теории графов (Hamiltonian path; Eulerian path и так далее).
Untitled

Ресеквенирование — секвенирование фрагментов ДНК, обобщенная последовательность которых уже известна (в общих чертах), с целью обнаружения индивидуальных отличий конкретного образца.

Секвенирование de novo — расшифровка абсолютно неизвестных последовательностей ДНК, например, генома какого-нибудь нового вида.

Контиг (от англ. contig) — набор перекрывающихся последовательностей ДНК-фрагментов, полученных из одного биологического источника (организма, ткани, клетки). Контиги получаются из прочтений фрагментов геномных или суб-геномных библиотек при секвенировании «методом дробовика».

Скаффолд (от англ. scaffold, «строительные леса») — промежуточная неполная структура секвенируемой последовательности, помогающая сборке ее полной версии. По сути, это серия контигов, расположенных в правильном порядке, но необязательно соединенных в одну непрерывную последовательность.

Дайджест новостей генетики и ДНК-генеалогии за январь

В январе, несмотря на рождественские каникулы, ученые порадовали энтузиастов изучения ДНК и генетики целым спектром значимых  (и не очень значимых) новостей.

Молекулярные генетики прочитали последовательность ДНК бактериальной линии, возникшей в Китае 1500 лет назад, которая вызвала пандемию 

Ancient Plague’s DNA Revived From A 1,500-Year-Old Tooth

Коллектив ведущих русскоязычных специалистов по ДНК-генеалогии опубликовал замечательную статью о филогении гаплогруппы Q-M378 — «Филогенетическая структура субклада Q-М378 по данным полного сиквенса Y-хромосомы». Владимир Гурьянов Vladimir Gurianov), Леон Кулль (Leon Kull), Роман Сычёв (Maximus Centurion), Владимир Таганкин (Vladimir Semargl), Вадим Урасин (Vadim Urasin).

Поздравляю Вадима Урасина со второй статьей,  остальных авторов с дебютом
http://rjgg.org/index.php/RJGGRE/article/viewArticle/132

В самом конце месяца новичкам в области любительской популяционной генетики (и ДНК-генеалогии) были предложены 2 полезных инструмента для вычисления времени жизни последнего общего предка выборки носителей Y-хромосомы

Первый инструмент Y-TMRCA для расчета времени жизни последнего общего предка, созданный эфиопом Ehelix.

Второй инструмент —  инструмент для оценки  TMRCA (времени жизни последнего общего мужского предка) методом выборочных пар (МВП) на дереве, построенном методом UPGMA (Метод невзвешенного попарного среднего). Инструмент стал доступен для широкой общественности благодаря усилиям легендарного разработчика базы Semargl — Vladimir Semargl Tаганкина. Ниже приведено краткое описание метода:

Оценка TMRCA методом выборочных пар (МВП) на дереве, построенном методом UPGMA (Метод невзвешенного попарного среднего).

http://www.semargl.me/ru/dna/ydna/tools/build-tree-and-asd-pairs/

Запускаю бета версию. Интерфейс недоработан, но интуитивно понятен. По крайней мере надеюсь на это. Калькулятор предназначен для построения филогенетического дерева близких совпаденцев и отображением его в графическом формате с возрастом каждого узла. Расчет производится с помощью МВП (метода выборочных пар).
Из ограничений:
1) только для 37, 67, 111 маркерных гаплотипов. Версии для 12, 25 маркеров не будет.
2) Пока поставил ограничение в 20 гаплотипов. Гаплотипы сверх этого будут проигнорированы в расчете.
3) Гаплотипы, имеющие нулевое или отсутствующее значение маркера из стандартной панели будут пропущены в расчете. В планах сделать их обработку, путем подставки вместо отсутствующего маркера модального значения выборки.
4) Калькулятор очень чувствителен к многошаговым мутациям и реклохам.
5) Желательно исключать из расчетов известные гаплотипы с гомоплазией к основной части выборки. Снипы в расчет не принимаются.

Сразу скажу, что анализ идет с помощью кластеризации и значительно уступает таким популярным филогенетическим программам, как TNT, Мурка и др. В расчет не берутся значения снипов.
Калькулятор сделан для новичков, которые постоянно задаются вопросом — «когда жил общий предок с тем-то и тем-то», а также в помощь администраторам проектов, для быстрого принятия решения по тому или иному гаплотипу, без ковыряния в громоздких программах.

Данный калькулятор позволяет кроме подсчета ВБОП выявить группы близких гаплотипов и найти устойчивые кластеры.

В поле KITs вводить номера китов, разделенных запятой. Одной строкой.
Поля mrate и generation length можно оставить пустым

 

Философия геномики

….При этом философская идея, которая легла в основу научного исследования космоса, тоже не является простой. Это идея единства мира и вытекающая из нее идея единства микрокосма и макрокосма – то есть идея того, что человек и космос соотносятся не как бесконечно малая часть и бесконечно большое целое, а представляют собой неразрывное органическое единство. Это единство, кото рое невозможно представить с помощью рассудка, и которое требует очень серьезной философской подготовки, чтобы выразить его в логике понятий, с очевидностью обнаруживает себя в практической человеческой деятельности, которая единственная есть действительная основа науки, из которой единственной наука черпает реальные продуктивные проблемы и которая единственная дает средства их разрешения.   Лучшем выражением этой идеи является пункт второй так называемой Изумру́дной Скрижа́ли (лат. tabula smaragdina) — герметического документа, который согласно легенде был оставлен Гермесом Трисмегистом на пластине из изумруда в недрах египетского храма или найденного на могиле Гермеса Аполлонием Тианским (3 до н. э. — 97 н. э.): "То, что находится внизу, соответствует тому, что пребывает вверху; и то, что пребывает вверху, соответствует тому, что находится внизу, чтобы осуществить чудеса единой вещи" Эта, на первый взгляд, простая идея позволяет применять методы, понятия и инструменты исследования макрообъектов в исследовании микрообъектов. Так, при изучении микрообъектов — клеточные культуры в чашке Петри — мы можем пользоваться макрообъектными методами социалогии. При изучении девиантных процессов отдельных групп в макросообществе — социуме людей — представляется возможным применение методов и терминов молекулярной патологии (аналогия девиантности в социалогии и малигнантности в патологии)….