Многие люди, которые прочли мои сообщения на Молгене на тему гаплоблоков, как правило задают мне по прочтению два вопроса.
Первый вопрос — доказано ли наличие нерекомбинатных участков в аутосомной ДНК и Х-ДНК?
Второй вопрос — можно ли считать эти участки гаплоблоками?
Чтобы ответить на оба эти вопроса, необходимо для начала уточнить определение гаплоблока.
Во-первых, понятие гаплоблок не стоит путать с понятием «гаплотип«, так как один гаплоблок может включать в себя несколько гаплотипов. Во-вторых, понятие гаплоблок (или в более распространенном варианте – гаплотипный блок) синонимично понятию блок неравновесия по сцеплению (LD-блок)/блок гаплотипов.
Неравновесное сцепление участков хромосомы означает, что во время мейоза вероятность рекомбинации данных участков чрезвычайно мала и данные участки хромосомы наследуются единым блоком. Благодаря усилиям генетиков в начале этого века была составлены разные варианты генетических карт человеческого генома (карты Rutgers, Decodeme, HapMap) и эти карты позволяют определить блоки неравновесия по сцеплению за счет вычисленной частоты рекомбинации между определенными генетическим маркерами (прежде всего SNP-ами).
Почему скорость рекмбинации неодинакова в разных сегментах аутосомных и X-хромосом?
Если сравнивать величину генетическую дистанции в сантиморганах между 2 локусами и физическую дистанцию между теми же 2 генетическими локусами, то в ходе исследованиий было показано в среднем по человеческому геному 1сM примерно равен 1 000 000 базовых пар (по другим оценкам, 750 000 базовых пар). Это, образно говоря, есть ни что иное, как средняя температура по больнице. На самом деле, в человеческом геноме есть регионы с быстрой рекомбинацией, средней рекомбинацией и регионы так называемого «позитивного отбора», где рекомбинация практически не происходит (классический пример — геномный регион HLA-MHC на 6 хромосоме). В качестве отступления отмечу, что именно по причине неравномерности скоростей рекомбинации, я считаю, что между величиной дистанции в сентиморганах и генеалогической дистанцией нет прямой корреляции. Хотя, если не учитывать эту неравномерность скоростей, то тогда действительно, чем больше величина сM (т.е чем больше величина рекомбинации) участков половинного или полного совпадения, тем ближе друг к другу сравниваемые индивиды. Потому, чем больше рекомбинация, тем меньше шансов того, что эти участки совпадения (которые, при фазировании, должны образовывать гаплоблоки) будут передоваться в неизмененном состоянии от отцов к детям. К сожалению, cудя по всему, алгоритмы предсказания степени родства по аутосомам в 23andme и FTDNA не учитывают этого этих факторов, что радикально влияет на точность предикта:
Я думаю, что это классический результат генного дрейфа, обусловленного во-первых изоляцией предковых популяций. Поскольку некоторые популяции в буквальном смысле этого слова, варились в собственном «генетическом пуле»; на протяжении многих столетий (что привело к образованию устойчивых гаплоблоков), алгоритм вычисления степени генетического родства в 23andme (которому, разумеется, ничего неизвестно о генетических особенностях предковых популяций сравниваемых индивидов) воспринимает нашее далекое родство как относительно недавное.
Ответ на вопрос
В силу выше сказанного, на первый взгляд так называемые нерекомбинатные (или вернее, малорекомбинантные) участки Х-ДНК/аутосомной ДНК можно считать гаплоблоками. Однако подобная точка зренія при более тщательном рассмотрении вызывает ряд проблем. Приведу практический пример.
Несколько лет тому назад небольшая группа активистов с ныне канувшего в Google-кэш форума dna-forums.org занималась экспериментальными любительскими исследованиями гаплоблоков X-хромосомы. Этот полулюбительский проект поиска X-хромосомных обнаружил несколько десятков гаплоблоков, которые я пытался представить в виде квази-филогенетического дерева.Как я уже говорил, эти участки с ограниченной рекомбинацией также определены в том же проекте ХапМап. И, разумеется, генетики (медицинские и популяционные) уже определили и описали множество устойчивых гаплоблоков. В теме по X-хромосомным филогениям на форуем Молген я уже приводил примеры таких блоков на. Исходя из специфики наследования этой хромосомы, большинство из найденных путем простого визуального сравнения гаплоблоки оказались очень небольшими по размеру. Поэтому вряд ли можно вести речь о какой-то конкретной этнической привязке конкретных гаплоблоков — разве что в плане разделения гаплоблоков по глубокому происхождению на африканские, европейские и азиатские. Истинный возраст совпадающего гаплоблока (или даже интервал) предсказать затруднительно. Кроме того, наличие хотспотов рекомбинации и неравномерная плотность выявленных снипов существенно затрудняет поиск устойчивых гаплоблоков (которые и опредляется в результате фазирования). А неравномерная плотность и что еще хуже отсутствие многих HapMap снипов в чипсетах, используемых FTDNA и 23andme (кстати, чипсет Decodeme — в отличие от чипсетов FTDNA и 23andme- наиболее близок к 1,5-млн чипсету HapMap) приводит к появлению ложных сегментов. Если не ошибаюсь, Leon Kull, который занимался слияниям наборов снипов FTDNA и 23ия, приводил примеры, когда после слияния данных HIR (выявленные в отдельности по результатам снип-тестирования FTDNA и в 23ия) просто «ломались», поскольку внутри участка который воспринимался, к примеру в 23ия, как непрерывная последовательность региона половинного совпадения (HIR-сегмент) вклинивался снип, нарушавший последовательность.
Другая проблема, связанная с практическим изучением гаплоблоков, носит сугубо методлогический характер. Дело в том, что термин гаплоблок в популяционной генетике заимствован сравнительно недавно и взят из терминологии смежного направления — медицинской генетики. Кстати, по иронии судьбы в медицинской генетике традиционная генеалогия играет зачастую гораздо большую роль, чем в популяционной генетике. Ведь в выборки попгенетиков попадают обычно unrelated individuals, в то время как я видел немало работ по медицинской генетике, где приводятся генеалогические таблицы тестируемых индивидов, страдающих тем или иным недугом. Оно и понятно -одна из целей медгенов как раз и является выявление наследуемых гаплоблоков (или даже просто отдельных аллелей) ассоциируемых с тем или иным заболеванием. Не смотря на это и попгенетики все активнее используют понятие LD-гаплоблок в последних работах. В связи с этим у многих любителей возникает закономерное предположение — если найдены аутосомные “гаплоблоки”,то значит должна быть и аутосомные гаплогруппы (по аналоги с Y-ДНК и мито-ДНК). К сожалению, это не совсем так, — в отличие от древа Y и древа митогаплогрупп, древо гаплоблоков практически никогда не будут иметь филогенетически однозначного решения в плане кладистики. Впрочем, это отдельный вопрос,которого я пока не буду касаться.
Важность гаплоблоков в популяционном анализе.
Когда я начал свой любительский проект по анализу аутосомного ДНК различных популяций и отдельных лиц, то следуя примеру других геномных блоггеров я начал с элментарной обработки данных в незаменимой программе Plink — я занимался нахождением IBS матрицы, расчетами статистических параметров гомозиготности (группировкой по совпадающим сегментам, кластеризацией и так далее), структуризацией и выявлением IBD-сегментов и их кластеризацией. Однако со временем я, так же как и большинство BGA блоггеров, осознал необходимость работы с фазированными данными, — с генотипами приведенными в гаплоидную фазу, то есть с гаплоблоками. Кроме того, в новой парадигме стал использоватся новый рекомбинаторный параметр (который ранее не учитывался в классическом Admixture-анализе) и структура сцепления снип-маркеров. Основным преимуществом фазированных генотипов является более высокая степень вероятности общего происхождения гаплоблоков, которые в случае с идентичными по происхождению сегментами предполагают единую генеалогию. Техническое определение понятия фазирования генотипа в контексте биоинформатики — это выявление или выведение (инференция) гаплотипной фазы массива генотипных данных. Говоря простым языком, это трансформация мультиаллельных блоков в гаплоблоки (гаплотипы). Преимуществом фазированных генотипов является более высокая степень вероятности общего происхождения гаплоблоков , которые — в силу определения понятия гаплоблок -предполагают единое генеалогическое происхождения Разница очевидна. Например, полгода тому назад я изучал этнические гаплоблоки участка условно-половинного совпадения на 1 хромосоме в данных проекта Eurogenes. К своему разочарованияю, никаких гаплоблоков среди нефазированных генотипов в этом регионе не обнаружилось. Спустя некоторое время автор проекта Eurogenes -Дэвид Веселовски разослал участникам проекта. По сути, Дэвид приступил тогда к новой фазе анализа, о необходимости которой я говорил ранее -а именно к фазированию диплоидных данных в гаплоблоки и дальнейшее выявление общих по происхождению гаплоблоков. Так вот, новый анализ фазированных генотипов (гаплоблоков) в том же проекте показывал, что у лиц с повышенным процентом “северо-западного европейского компонента” (в том числе и лица из кластер номер 5 в другом проекте Dodecad) — имеют значительное количество гаплоблоков, общих по происхождению с северными русскими, чувашами, алтайцами, тувинцами и монголами. То же самое по хромосоме 3, показаны самые большие совпадающие гаплоблоки. Особенно примечательно большое количество совпадаюших гаплоблков с чувашами,венграми.
PS.
С оттенком плохоскрываемого злорадства, должен отметить, что столь любимая Клесовым и Рожанским лографмическая формула (модифицированная формула превращения) веществ гораздо лучше подходит (хотя и в очень обобщенном виде) для моделирования процесса рекомбинаторного “распада” гаплоблоков в аутосомах. Там действительно, гаплоблоки распадаются с учетом частоты рекомбинации. Поэтому-то тот же гуру биоинформатики Монтгомери Слаткин и вводит логарифмы в формулу для оценки возраста IBD-гаплоблока.
Для отправки комментария необходимо войти на сайт.