Вторая фаза нового проекта: африканская когорта

В одной из предыдущих записей я упомянул о том, что из 3 начальных когорт образцов «геномов» я провел импутацию азиатской и европейской когорты,  осталась получить результаты по последней — третьей когорты — африканской.

По состоянию на текущий момент,  закончена работа на 18 из 22 хросомом в выборке африканских популяции. Согласно моему прогнозу,  процесс импутации недостающих генотипов по 4 оставшимся хромосомам будет завершен в  самое ближайшее время.

А пока — т.н. «этноплот» или промежуточные результаты анализа главных компонент в пространстве генетического разнообразия африканских этнических групп.

fineStructure анализ популяций северо-восточной Европы: часть 1

Некоторое время тому назад в своем англоязычном блоге я разместил новый график, сделанный на основании анализа главных компонентов  генетического разнообразия в выборке, которая включала в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.

В ходе экспериментального теста в ходе статистической обработки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, которая  участвовала в репродукции или обмене генами в отдаленном прошлом. Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение  составило  22 000.Это близко к значениям Ne рекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных выше данных даже 22 000 для совокупности эффективного размера элементарных популяций — это более, чем достаточно. Например, численность эффективной популяции адыгов-шапсугов составляет по оценке попгенетиков всего 187 индивидов:

Почешхова, Э. А.  Структура миграций и дрейф генов в популяциях адыгов-шапсугов / Э. А. Почешхова // Медицинская генетика : ежемесячный научно-практический журнал. — Том 7,N 1. — Реферирована.  Важной  особенностью генофонда адыгов являются традиционная структура браков и  высокая эндогамия: 96,5% браков заключается в пределах своего этноса.  Одно из племен адыгов — шапсуги подразделено на две географически  изолированные группы. Шапсуги побережья Черного моря (от Туапсе до  Сочи), проживающие в районе наиболее интенсивного заселения пришлыми  народами, заключают 89% браков в пределах своей географической группы,  5% браков — с другими адыгами и лишь 6% браков — с представителями всех  остальных народов России и Закавказья. Шапсуги, переселенные в  Прикубанье (Западная Адыгея) и проживающие среди прочих племен адыгов,  заключают 77% браков в пределах своей географической группы, 21% браков —  с другими адыгами и 1,3% браков — с представителями иных этносов. Для  шапсугских аулов средний индекс эндогамии составил 0,40, гаметный индекс  — 0,7. Для элементарных популяций средний индекс эндогамии составляет  0,65. Малый генетически эффективный размер элементарных популяций  (Ne=187)


Или вот:

При оценке генного дрейфа на основе методов генетической демографии ключевыми параметрами являются эффективная численность Ne (размер, объем) популяции, составляющая примерно 30 % от общей численности, и миграция. Показано (Евсюков и др., 1996), что для коренных народов Сибири средний эффективный размер популяции равен 218, а для Северной Евразии в целом – 200, хотя изменчивость эффективного размера (Ne) популяций различалась на три порядка величин, как и их численность. Небольшая средняя величина Ne позволяет ожидать значительного эффекта генного дрейфа, если ему не противостоит миграция. Генный дрейф реализуется на уровне как популяции в целом, так и субпопуляций. В оригинальных исследованиях сибирских популяций получены следующие значения эффективного размера на уровне поселений(субпопуляций): алеуты Командорских островов – 75 чел. (Рычков, Шереметьева, 1972а, б), азиатские эскимосы и береговые чукчи – 70 и 61 чел. соответственно (Рычков, Шереметьева, 1972в), эвенки Нижней и Подкаменной Тунгуски – 27 чел. (Рычков и др., 1974б), коряки Камчатки – 71 чел. (Шереметьева, Горшков, 1982), северные ханты – 152 чел. (размах значений 98–348) (Пузырев и др., 1987). Эффективный размер сельских популяций Северной Евразии имеет клинальный тип изменчивости, убывая в направлении юго-запад – северо-восток, за исключением локального минимума в Средней Сибири у тунгусоязычных западных эвенков (Евсюков и др., 1996).


Из чего следует, что Ne размером в 22 000 человека или 1000 индивидов на кластер (а всего их выявленно 22 ) — это вполне достаточно для масштабирования частот рекомбинации гаплотипов. Можно прояснить смысл понятия эффективная популяция и другими словами. Во избежании ненужной путаницы необходимо сразу оговорить что понятие эффективной популяции носит сугубо теоретический характер, и в силу этого напрямую не имеет отношения к тому, каков был размер отдельной локальной популяции в определенный отдельно взятый промежуток времени.

Не имеет значения , так как речь идет о тех, кто внес свой вклад в генофонд существующих популяций.Причем эти все «отцы и матери-основатели» могут быть разнесены по времени на тысячелетия.


Собственно говоря, эффективная популяция — это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса  числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955).

Что касается размере эфективно-репродуктивной популяции для исходной популяции современных популяций Евразии, его достаточно легко вычислить исходя из аутосомного разнообразия. Например, соответствующие алгоритмы для вычисления Ne имплементированы в прогамме FineStructure.  По моим расчетам (близким к общепринятым) усредненный для всех хромосом размер эффективной популяции для всех задействованных мной евразийский популяций составил 14 000.

Исходя из общепринятого мнения, согласно которому размер Ne (эффективной популяции) в каждый синхронный период времени составляет примено 33% от общего размера популяции теоретически можно оценить величину популяции в момент времени, когда ее эффективный размер составлял 14 000 (это примерно 40 000).

Если бы мы знали, что все это родоначальники многобразия жили в одно время, тогда можно было бы интерполировать эти сведения для оценки это времени по обычной хронологической шкале. Но нет никаких оснований полагать, что они жили в одно и то же время.

«Effective size» of the population (commonly denoted as Ne in the population genetics literature) from which your dataset was sampled. This parameter scales the recombination rates that IMPUTE2  uses to guide its model of linkage disequilibrium patterns. When most  imputation runs were conducted with reference panels from HapMap  Phase 2, we suggested values of    11418    for imputation from HapMap CEU,    17469    for YRI, and     14269    for CHB+JPT.

Modern imputation analyses typically involve reference panels with  greater ancestral diversity, which can make it hard to determine the  «ideal» -Ne value for a particular study. Fortunately, we have found that imputation accuracy is highly robust to different -Ne values; within each of several human populations, we have obtained nearly identical accuracy levels for values between 10000 and25000. We suggest setting -Ne to 20000 in the majority of modern imputation analyses.

В качестве инструмента я использовал комбинацию нескольких программ из нового пакета биоинформатического программного обеспечения fineStructure/ChromoPainter. Как показали экспериментальные тесты  с использованием этого пакета, оптимизированный алгоритм обнаружения общих по происхождению сегментов в сравниваемых популяциях дает оптимальные результаты по разбивки индивидов на кластеры по признаку геномной близости (в качестве меры этого признака в данном случае я использовал число идентичных по происхождению геномных сегментов:  по полученным векторам признаков для каждого кластера производилось попарное сравнение и сортировка по мере близости в евклидовой метрике).

MDLset1-3 MDLsetMDLset

1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
2. Все литовцы (участники проекта + референсы из статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев 
3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.
4. Ниже находится балканский кластер (румыны, болгары и часть венгров).
5. К этому кластеру примыкают турки и часть армян 
6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов). 
7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.
8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

10. Левее этой группы популяций находится кластер ашкеназов.

11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).*

*—— Примечание


Т
акое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции. То есть все эти баски являются многократными родственниками между собой. Классический генный дрейф, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества shared DNA chunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.Исходя из этого можно сделать вывод о том
1) что баски эта экстремально-эндогенная популяция изолянтов
2) генетическое разнообразие низко, т.к. размер эффективной популяции низок.

 

 

Вы не поняли. 

Каких десятков тысяч предков славян?
По оценке профи, занимающихся анализом полных геномов, эффективный размер популяции генетических предков для современных популяций всей Евразии с трудом достигает 2 десятков тысяч,  причем общий консенсус сдвигается в сторону 15 000.

 

О понятии гаплоблок в генетике

Многие люди, которые прочли мои сообщения на Молгене на тему гаплоблоков, как правило задают мне по прочтению два вопроса.

Первый вопрос — доказано ли наличие нерекомбинатных участков в аутосомной ДНК и Х-ДНК?

Второй вопрос — можно ли считать эти участки гаплоблоками?

Чтобы ответить на оба эти вопроса, необходимо для начала уточнить определение гаплоблока.

Во-первых, понятие гаплоблок не стоит путать с понятием «гаплотип«, так как один гаплоблок может включать в себя несколько гаплотипов. Во-вторых, понятие гаплоблок (или в более распространенном варианте – гаплотипный блок) синонимично понятию блок неравновесия по сцеплению (LD-блок)/блок гаплотипов.

Неравновесное сцепление участков хромосомы означает, что во время мейоза вероятность рекомбинации данных участков чрезвычайно мала и данные участки хромосомы наследуются единым блоком. Благодаря усилиям генетиков в начале этого века была составлены разные варианты генетических карт человеческого генома (карты Rutgers, Decodeme, HapMap) и эти карты позволяют определить блоки неравновесия по сцеплению за счет вычисленной частоты рекомбинации между определенными генетическим маркерами (прежде всего SNP-ами).

Почему скорость рекмбинации неодинакова в разных сегментах аутосомных и X-хромосом?

  Если сравнивать величину генетическую дистанции в сантиморганах между 2 локусами и физическую дистанцию между теми же 2 генетическими локусами, то в ходе исследованиий было показано в среднем по человеческому геному 1сM примерно равен 1 000 000 базовых пар (по другим оценкам, 750 000 базовых пар). Это, образно говоря, есть ни что иное, как средняя температура по больнице. На самом деле, в человеческом геноме есть регионы с быстрой рекомбинацией, средней рекомбинацией и регионы так называемого «позитивного отбора», где рекомбинация практически не происходит (классический пример — геномный регион HLA-MHC на 6 хромосоме). В качестве отступления отмечу, что именно по причине неравномерности скоростей рекомбинации, я считаю, что между величиной дистанции в сентиморганах и генеалогической дистанцией нет прямой корреляции. Хотя, если не учитывать эту неравномерность скоростей, то тогда действительно, чем больше величина сM (т.е чем больше величина рекомбинации) участков половинного или полного совпадения, тем ближе друг к другу сравниваемые индивиды. Потому, чем больше рекомбинация, тем меньше шансов того, что эти участки совпадения (которые, при фазировании, должны образовывать гаплоблоки) будут передоваться в неизмененном состоянии от отцов к детям. К сожалению, cудя по всему, алгоритмы предсказания степени родства по аутосомам в 23andme и FTDNA не учитывают этого этих факторов, что радикально влияет на точность предикта:

 Я думаю, что это классический результат генного дрейфа, обусловленного во-первых изоляцией предковых популяций. Поскольку некоторые популяции в буквальном смысле этого слова, варились в собственном «генетическом пуле»; на протяжении многих столетий (что привело к образованию устойчивых гаплоблоков), алгоритм вычисления степени генетического родства в 23andme (которому, разумеется, ничего неизвестно о генетических особенностях предковых популяций сравниваемых индивидов) воспринимает нашее далекое родство как относительно недавное.

Ответ на вопрос

В силу выше сказанного,  на первый взгляд так называемые нерекомбинатные (или вернее, малорекомбинантные) участки Х-ДНК/аутосомной ДНК можно считать гаплоблоками. Однако подобная точка зренія при более тщательном рассмотрении вызывает ряд проблем. Приведу практический пример.

Несколько лет тому назад небольшая группа активистов с ныне канувшего в  Google-кэш форума dna-forums.org занималась экспериментальными любительскими исследованиями гаплоблоков X-хромосомы. Этот полулюбительский проект поиска X-хромосомных обнаружил несколько десятков гаплоблоков, которые я пытался представить в виде квази-филогенетического дерева.Как я уже говорил, эти участки с ограниченной рекомбинацией также определены в том же проекте ХапМап. И, разумеется, генетики (медицинские и популяционные) уже определили и описали множество устойчивых гаплоблоков. В теме по X-хромосомным филогениям на форуем Молген я уже приводил примеры таких блоков на. Исходя из специфики наследования этой хромосомы, большинство из найденных путем простого визуального сравнения гаплоблоки оказались очень небольшими по размеру. Поэтому вряд ли можно вести речь о какой-то конкретной этнической привязке конкретных гаплоблоков — разве что в плане разделения гаплоблоков по глубокому происхождению на африканские, европейские и азиатские. Истинный возраст совпадающего гаплоблока (или даже интервал) предсказать затруднительно. Кроме того, наличие хотспотов рекомбинации и неравномерная плотность выявленных снипов существенно затрудняет поиск устойчивых гаплоблоков (которые и опредляется в результате фазирования). А неравномерная плотность и что еще хуже отсутствие многих HapMap снипов в чипсетах, используемых FTDNA и 23andme (кстати, чипсет Decodeme — в отличие от чипсетов FTDNA и 23andme- наиболее близок к 1,5-млн чипсету HapMap) приводит к появлению  ложных сегментов. Если не ошибаюсь, Leon Kull, который занимался слияниям наборов снипов FTDNA и 23ия, приводил примеры, когда после слияния данных HIR (выявленные в отдельности по результатам снип-тестирования  FTDNA и в 23ия)  просто «ломались», поскольку внутри участка который воспринимался, к примеру в 23ия, как  непрерывная последовательность региона половинного совпадения (HIR-сегмент) вклинивался снип, нарушавший последовательность.

Другая проблема, связанная с практическим изучением гаплоблоков, носит сугубо методлогический характер. Дело в том, что термин гаплоблок в популяционной генетике заимствован сравнительно недавно и взят из терминологии смежного направления — медицинской генетики. Кстати, по иронии судьбы в медицинской генетике традиционная генеалогия играет зачастую гораздо большую роль, чем в популяционной генетике. Ведь в выборки попгенетиков попадают обычно unrelated individuals, в то время как я видел немало работ по медицинской генетике, где приводятся генеалогические таблицы тестируемых индивидов, страдающих тем или иным недугом. Оно и понятно -одна из целей медгенов как раз и является выявление наследуемых гаплоблоков (или даже просто отдельных аллелей) ассоциируемых с тем или иным заболеванием. Не смотря на это и попгенетики все активнее используют понятие LD-гаплоблок в последних работах. В связи с этим у многих любителей возникает закономерное предположение — если найдены аутосомные “гаплоблоки”,то значит должна быть и аутосомные гаплогруппы (по аналоги с Y-ДНК и мито-ДНК). К сожалению, это не совсем так, — в отличие от древа Y и древа митогаплогрупп, древо гаплоблоков практически никогда не будут иметь филогенетически однозначного решения в плане кладистики. Впрочем, это отдельный вопрос,которого я пока не буду касаться.

Важность гаплоблоков в популяционном анализе.

Когда я начал свой любительский проект по анализу аутосомного ДНК различных популяций и отдельных лиц, то следуя примеру других геномных блоггеров я начал с элментарной обработки данных в незаменимой программе Plink — я занимался нахождением IBS матрицы, расчетами статистических параметров гомозиготности (группировкой по совпадающим сегментам, кластеризацией и так далее), структуризацией и выявлением IBD-сегментов и их кластеризацией. Однако со временем я, так же как и большинство BGA блоггеров, осознал необходимость работы с фазированными данными, — с генотипами приведенными в гаплоидную фазу, то есть с гаплоблоками. Кроме того, в новой парадигме стал использоватся новый рекомбинаторный параметр  (который ранее не учитывался в классическом Admixture-анализе) и структура сцепления снип-маркеров. Основным преимуществом фазированных генотипов является более высокая степень вероятности общего происхождения гаплоблоков, которые в случае с идентичными по происхождению сегментами предполагают единую генеалогию. Техническое определение понятия фазирования генотипа в контексте биоинформатики — это выявление или выведение (инференция) гаплотипной фазы массива генотипных данных. Говоря простым языком, это трансформация мультиаллельных блоков в гаплоблоки (гаплотипы). Преимуществом фазированных генотипов является более высокая степень вероятности общего происхождения гаплоблоков , которые — в силу определения понятия гаплоблок -предполагают единое генеалогическое происхождения Разница очевидна. Например, полгода тому назад я изучал этнические гаплоблоки участка условно-половинного совпадения на 1 хромосоме в данных проекта Eurogenes.  К своему разочарованияю, никаких гаплоблоков среди нефазированных генотипов в этом регионе не обнаружилось. Спустя некоторое время автор проекта Eurogenes -Дэвид Веселовски разослал участникам проекта. По сути, Дэвид приступил тогда к новой фазе анализа, о необходимости которой я говорил ранее -а именно к фазированию диплоидных данных в гаплоблоки и дальнейшее выявление общих по происхождению гаплоблоков. Так вот, новый анализ фазированных генотипов (гаплоблоков) в том же проекте показывал, что у лиц с повышенным процентом “северо-западного европейского компонента” (в том числе и лица из кластер номер 5 в другом проекте Dodecad) — имеют значительное количество гаплоблоков, общих по происхождению с северными русскими, чувашами, алтайцами, тувинцами и монголами. То же самое по хромосоме 3, показаны самые большие совпадающие гаплоблоки. Особенно примечательно большое количество совпадаюших гаплоблков с чувашами,венграми.

PS.

С оттенком плохоскрываемого злорадства, должен отметить, что столь любимая Клесовым и Рожанским лографмическая формула (модифицированная формула превращения) веществ гораздо лучше подходит (хотя и в очень обобщенном виде) для моделирования процесса рекомбинаторного “распада” гаплоблоков в аутосомах. Там действительно, гаплоблоки распадаются с учетом частоты рекомбинации. Поэтому-то тот же гуру биоинформатики Монтгомери Слаткин и вводит логарифмы в формулу для оценки возраста IBD-гаплоблока.

Алгоритмическая задача про ДНК генеалогию

Решил перепостить сообщение уважаемого Павла Б. о алгоритмической задаче про ДНК генеалогию.

как известно, в алгоритмах я не особо силён. я сейчас попытаюсь описать некую задачу, а Вы помогите мне её сформулировать формально и предложить алгоритм решения, ладно?Причем не обязательно оптимальный алгоритм — мы тут не теоремки доказываем :)Сделал человек ДНК тест, получил большой файл с RAW results — со всеми мутациями.Сравниваем его с результатами другого человека — получаем некий набор одинаковых участков ДНК, каждый из которых характеризуется позицией (у каждой мутации есть некий адрес) и длиной.Общие участки ДНК между этими двумя людьми скорее всего принадлежали ДНК их общего предка. Этот общий предок был неизвестно сколько поколений назад, по какой линии и какая у него была фамилия, Y-DNA гаплогруппа и mt-DNA гаплогруппа (Y-DNA гаплогруппа — некое свойство, которое передается только по прямой мужской линии, у женщин его нет, mt-DNA гаплогруппа — свойство передающееся только по прямой женской линии).Если с кем то еще есть среди общих участвков ДНК участки, пересекающиеся с найденными выше пересечениями, можно предположить, что у всех трех есть некий общий предок, которому эти общие участки принадлежат (пока, для простоты мы считаем, что общий предок у двух людей один — т.е. родство только по одной линии, что для ашкеназов вообще то ВСЕГДА неправда).Теперь задача — если есть много таких данных, про многих людей — у кого с кем какие участки ДНК общие, у кого какие фамилия отца, матери, Y-DNA гаплогруппа и mt-DNA гаплогруппа — можно ли попытаться восстановить дерево общих предков?

От себя замечу, что это проблема решается тривиально с помощью любого из алгоритмов фазирования, и визуализация с помощью алгоритмов qpGraph.
Другой вариант (который мне представляется более разумным — это сравнение трех файлов на предмет наличия сегментов, которых мы будем считать общими по происхождению (так называемые IBD сегменты). Но здесь также как и в первом случае понадобится фазирование данных, т.к. в любом случае HIR-сегменты здесь менее информативны. Пример реализации алгоритмов можно подсмотреть в открытом коде типа открытого кода программы Beagle (так поступили например в  23andme) или даже в Plink. Затем можно представить найденные IBD-сегментов в виде попарных матчей. Далее трансформируем матрицу попарных матчей в сеть/network.  Затем находим в сети наиболее оптимальные штейнеровские деревья, и т.д.