Этногеномика беларусов — часть IV

Анализ структуры аутосомного генофонда популяции беларусов: результаты анализа этнического адмикса.

 

После проведения анализа этно-популяционного адмикса мы получили следущие результаты, обсуждению которых будет посвящена следущая часть нашего исследования. Результаты представляют собой разбивку аллельных частот на 22 кластера, каждый из которых представляет собой гипотетическую предковую популяцию. Поскольку в цели данного небольшого исследования не входит подробный анализ всех популяций, мы ограничимся сравнительном анализом структуры (компонентов) беларусов c географически близкими популяциями, а также с теми популяциями, которые могли входить в исторические контакты с предками современных беларусов:

admix

 

Рисунок 3. Результатыанализа ADMIXTUREK=22

У рассматриваемых здесь европейских популяций наиболее часто представлены следующие компоненты:

North-East-European,Atlantic_Mediterranean_Neolithic,North-European-Mesolithic, West-Asian, Samoedic, Near_East.

Разберем вкратце каждый из них. В ракурсе нашего исследования самым важным компонентом представляется – северо-восточно-европейский компонент North-East-European, он присутствует почти у всех европейцов, и в самой значительной степени — у балтов и славян: литовцы (81,9), латыши (79,5), беларусы (76,4), эстонцы (75,2), поляки (70,2), русские (67- 70,4), украинцы (62,1- 67,1), сорбы (65,9), карелы (60,2), вепсы (62,5), чехи (57,4), северные немцы (54,6), южные- 42,6, у британцев от 46 до 49, норвежцы- 48,1, шведы- (53,7).

Второй по значимости компонент — Atlantic_Mediterranean_Neolithic (юго-западно-европейский или просто западно-европейский неолитический компонент).[1]У восточноевропейцев он выражен в умеренной степени- чехи (27,8), поляки (18,4), украинцы ( от 17 до 21%), беларусы (13%), русские (от 11 у северных до 17,3 у южных), у коми (8,9 %), манси (8,8 %).

Третьй компонент – северо-европейский мезолитический компонент -North-European-Mesolithic[2]: cаамы (76,4 %), финны (от 30,1 до 37,3 %), вепсы (24,1), карелы (23,2), ижорцы (22, 7). Заметен этот компонент и у северных русских (10,5 %), норвежцев (9,8 %), шведов (7,8 %), эстонцев (7,1 %). У беларусов он практически отсутствует (1.1%).

Четвертый компонент – западно-азиатский (кавказский) West Asian[3]. На интересуемой нас территории этот компонент чаще встречается у казанских татар (9,9 %), южных немцев (8,4), украинцев (от 6,6 до 7,7 %), южных русских (6,2%). На западе высок процент у итальянцев (21,5 % у центральных итальянцев), французов (6,7 %), у беларусов (2.2%).

Пятый компонент — уральский Samoedic. Значительно присутствует у селькупов (68,1%), хантов (64,6), ненцы (37,1), манси (30,9 %-), удмурты (29,6), марийцы (27, 8), шорцы (22,0 %), башкиры (21,7%), чуваши и хакассы по 17,6 %, коми- 16,4 %, казанских татар (11,9 %). У западноевропейцев этот компонент практически не встречается, у русских (от 1,0% у центральных до 4,7 % у северных), у карел (1,6%), словаков (1,4%), западных украинцев (1,7 %), беларусы (0.5%).

Шестой компонент – ближневосточный Near_East[4]У южных немцев (3,5), украинцы (от 2,3 у восточных до 3,8 % у западных), чехи (3,0), беларусы (3,4), словаки (3,2), у русских от 1,0 до 1,5%, у литовцев- 1,4%, у поляков- 1,3 %.

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[1]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[1]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[1]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

Анализ разделяемых аутосомных сегментов между популяциями Северо-Восточной Европы.

С целью верификации результатов анализа главных компонентов генетического разнообразия я подготовил новую выборку популяций, которая включает в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.В ходе нового экспериментального теста в ходе статистической обработки общих по генетическому происхождению сегментов хромосом в составе выборки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, т.е размера той популяции которая участвовала в репродукции или обмене генами в некоем отдаленном временном промежутке. Собственно говоря, эффективная популяция – это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955). Новая программа Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение составило 22 000. Это близко к значениям Neрекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных ниже результатов, даже 22 000 для совокупности эффективного размера элементарных популяций – это более, чем достаточно.

 

finest

Рисунок 4. Расположение популяций в пространстве 1 и 3 главных генетических компонентов

 

Изложим ниже некоторые закономерности размещения популяци

 

  1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
  2. Все литовцы (участники проекта + референсы из вышеупомянутой статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев

  3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.

  4. Ниже находится балканский кластер (румыны, болгары и часть венгров).

  5. К этому кластеру примыкают турки и часть армян

  6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов).

  7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.

  8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

  9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

  10. Левее этой группы популяций находится кластер ашкеназов.

  11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

  12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

  13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

  14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

  15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).[5]

 

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[2]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[3]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[4]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

[5]Такое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции.То есть все эти баски являются многократными родственниками между собой т.е., положение басков на графике есть следствие классического генного дрейфа, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества sharedDNAchunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.

Исходя из этого можно сделать вывод о том что баски эта экстремально-эндогенная популяция изолянтов, при этом генетическое разнообразие басков низко, т.к. размер эффективной популяции басков низок.

Реклама

Этногеномика беларусов — часть II

Анализ структуры аутосомного генофонда популяции беларусов: методы, технические параметры и предварительные замечания.

 

В целях сопоставимости выводов данных анализа с приведенными выше выводами профессиональных популяционных генетиков, мы использовали в своем исследовании референтную выборку беларусовиз ДНК-банка Института Генетики Беларуси в том же объеме, в котором она была задействована в исследовании группы ученных под руководством Бехара (модифицированная выборка Генбанка с кодом доступа:GSE21478)[1]. Наряду с референтной группой беларусов (обозначена как Belarusian), мы использовали данные лиц беларуского происхождения из нашего собственного проекта этно-популяционного анализа лиц, предки которых проживали на территории Беларуси минимум 100-150 лет(обозначено как Belarusian_V).

Для проведения сравнительного анализа генофонда популяций нам понадобился референтный набор популяций. Референтный набор популяций в этом калькуляторе был собран в программе PLINK  методом “intersection&thinning” ( дословно “пересечением и истончением”) образцов из различных источников данных:HapMap 3(отфильтрованный набор данных КЕС, YRI, JPT, CHB),1000genomes, Rasmussen et al. (2010), HGDP (кураторская база данных Стэнфордского университета), Metspalu et al. (2011), Yunusbayev et al (2011),Chaubey et al. (2010)и т.д. Кроме того, мыотобралипроизвольным образом по 10 сэмплов (или максимальное количество доступных сэмплов в тех случаях, когда общее число сэмплов в популяции было меньше 10) от каждой европейской страны, представленной в панеле базе данныхPOPRES.Наконец, для того чтобы оценить степень корреляции между современным и древним генетическим разнообразием населения Европы, мытакже включилив выборку образцы древней ДНКЭци(Keller et al. (2012)) , образцы жителей шведского неолита Gök4, Ajv52, Ajv70, Ire8, STE7 (Skoglund et al. (2012))и 2 образца La Braña – останков мезолитических жителей Пиренейского полуострова (Sánchez-Quinto et al.(2012)).

Затем мыдобавили90 образцов – анонимизированных данных — участников моего проекта. После слияния вышеупомянутых наборов данных и истончения набора SNP с помощью особой команды PLINK, мыисключилиSNP-ы с менеечем 0.5% минорных аллелей. Послечего мыотфильтровал дубликаты, лиц с высоким уровнем общих по происхождению идентичных сегментов (IBD). В качестве критерия фильтрации были использованы расчеты IBD в Plink, где IBD представлена как средняя доля аллелей общих между двумя людьми по всем анализируемым локусам. Затем мыудалилииз выборки лиц с высоким коэффициентом предпологаемого родства, коэффициенты родства были вычислены в программном обеспеченииKing).

Для получения более стабильных результатов, мытакже отфильтровалисэмплы с более чем 3 стандартными отклонениями от средних данных по популяции. Поскольку коэффициент родства может быть надежно определен с помощью оценки HWE (ожидания, вытекающего из законаХарди-Вайнберга) между SNP-ами с той же базовой частотой аллелей, то SNP-ы с существенным отклонением (p < 5.5 x10−8) от ожидания Харди-Вайнберга были удалены из объединенного набора данных. После этого мывыделилите SNP-ы, которые присутствовали в чипах Illumina / Affymetrix, и затем произвелифильтрацию снипов на основе расчетов степени неравновесного сцепления (в этом эксперименте мыиспользовалтхромосомное ‘окно’ размером в 50 базовых пар, с шагом 5 базовых пар и пороговым значением уровня сцепления R ^ 2, равным 0,3).

По окончанию этой сложной последовательности операций, мыполучил окончательноый набора данных, который включал в себя 80 751 снипов, 2516 человек и 225 референсных популяций.

 

[1] http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE21478

О понятии гаплоблок в генетике

Многие люди, которые прочли мои сообщения на Молгене на тему гаплоблоков, как правило задают мне по прочтению два вопроса.

Первый вопрос — доказано ли наличие нерекомбинатных участков в аутосомной ДНК и Х-ДНК?

Второй вопрос — можно ли считать эти участки гаплоблоками?

Чтобы ответить на оба эти вопроса, необходимо для начала уточнить определение гаплоблока.

Во-первых, понятие гаплоблок не стоит путать с понятием «гаплотип«, так как один гаплоблок может включать в себя несколько гаплотипов. Во-вторых, понятие гаплоблок (или в более распространенном варианте – гаплотипный блок) синонимично понятию блок неравновесия по сцеплению (LD-блок)/блок гаплотипов.

Неравновесное сцепление участков хромосомы означает, что во время мейоза вероятность рекомбинации данных участков чрезвычайно мала и данные участки хромосомы наследуются единым блоком. Благодаря усилиям генетиков в начале этого века была составлены разные варианты генетических карт человеческого генома (карты Rutgers, Decodeme, HapMap) и эти карты позволяют определить блоки неравновесия по сцеплению за счет вычисленной частоты рекомбинации между определенными генетическим маркерами (прежде всего SNP-ами).

Почему скорость рекмбинации неодинакова в разных сегментах аутосомных и X-хромосом?

  Если сравнивать величину генетическую дистанции в сантиморганах между 2 локусами и физическую дистанцию между теми же 2 генетическими локусами, то в ходе исследованиий было показано в среднем по человеческому геному 1сM примерно равен 1 000 000 базовых пар (по другим оценкам, 750 000 базовых пар). Это, образно говоря, есть ни что иное, как средняя температура по больнице. На самом деле, в человеческом геноме есть регионы с быстрой рекомбинацией, средней рекомбинацией и регионы так называемого «позитивного отбора», где рекомбинация практически не происходит (классический пример — геномный регион HLA-MHC на 6 хромосоме). В качестве отступления отмечу, что именно по причине неравномерности скоростей рекомбинации, я считаю, что между величиной дистанции в сентиморганах и генеалогической дистанцией нет прямой корреляции. Хотя, если не учитывать эту неравномерность скоростей, то тогда действительно, чем больше величина сM (т.е чем больше величина рекомбинации) участков половинного или полного совпадения, тем ближе друг к другу сравниваемые индивиды. Потому, чем больше рекомбинация, тем меньше шансов того, что эти участки совпадения (которые, при фазировании, должны образовывать гаплоблоки) будут передоваться в неизмененном состоянии от отцов к детям. К сожалению, cудя по всему, алгоритмы предсказания степени родства по аутосомам в 23andme и FTDNA не учитывают этого этих факторов, что радикально влияет на точность предикта:

 Я думаю, что это классический результат генного дрейфа, обусловленного во-первых изоляцией предковых популяций. Поскольку некоторые популяции в буквальном смысле этого слова, варились в собственном «генетическом пуле»; на протяжении многих столетий (что привело к образованию устойчивых гаплоблоков), алгоритм вычисления степени генетического родства в 23andme (которому, разумеется, ничего неизвестно о генетических особенностях предковых популяций сравниваемых индивидов) воспринимает нашее далекое родство как относительно недавное.

Ответ на вопрос

В силу выше сказанного,  на первый взгляд так называемые нерекомбинатные (или вернее, малорекомбинантные) участки Х-ДНК/аутосомной ДНК можно считать гаплоблоками. Однако подобная точка зренія при более тщательном рассмотрении вызывает ряд проблем. Приведу практический пример.

Несколько лет тому назад небольшая группа активистов с ныне канувшего в  Google-кэш форума dna-forums.org занималась экспериментальными любительскими исследованиями гаплоблоков X-хромосомы. Этот полулюбительский проект поиска X-хромосомных обнаружил несколько десятков гаплоблоков, которые я пытался представить в виде квази-филогенетического дерева.Как я уже говорил, эти участки с ограниченной рекомбинацией также определены в том же проекте ХапМап. И, разумеется, генетики (медицинские и популяционные) уже определили и описали множество устойчивых гаплоблоков. В теме по X-хромосомным филогениям на форуем Молген я уже приводил примеры таких блоков на. Исходя из специфики наследования этой хромосомы, большинство из найденных путем простого визуального сравнения гаплоблоки оказались очень небольшими по размеру. Поэтому вряд ли можно вести речь о какой-то конкретной этнической привязке конкретных гаплоблоков — разве что в плане разделения гаплоблоков по глубокому происхождению на африканские, европейские и азиатские. Истинный возраст совпадающего гаплоблока (или даже интервал) предсказать затруднительно. Кроме того, наличие хотспотов рекомбинации и неравномерная плотность выявленных снипов существенно затрудняет поиск устойчивых гаплоблоков (которые и опредляется в результате фазирования). А неравномерная плотность и что еще хуже отсутствие многих HapMap снипов в чипсетах, используемых FTDNA и 23andme (кстати, чипсет Decodeme — в отличие от чипсетов FTDNA и 23andme- наиболее близок к 1,5-млн чипсету HapMap) приводит к появлению  ложных сегментов. Если не ошибаюсь, Leon Kull, который занимался слияниям наборов снипов FTDNA и 23ия, приводил примеры, когда после слияния данных HIR (выявленные в отдельности по результатам снип-тестирования  FTDNA и в 23ия)  просто «ломались», поскольку внутри участка который воспринимался, к примеру в 23ия, как  непрерывная последовательность региона половинного совпадения (HIR-сегмент) вклинивался снип, нарушавший последовательность.

Другая проблема, связанная с практическим изучением гаплоблоков, носит сугубо методлогический характер. Дело в том, что термин гаплоблок в популяционной генетике заимствован сравнительно недавно и взят из терминологии смежного направления — медицинской генетики. Кстати, по иронии судьбы в медицинской генетике традиционная генеалогия играет зачастую гораздо большую роль, чем в популяционной генетике. Ведь в выборки попгенетиков попадают обычно unrelated individuals, в то время как я видел немало работ по медицинской генетике, где приводятся генеалогические таблицы тестируемых индивидов, страдающих тем или иным недугом. Оно и понятно -одна из целей медгенов как раз и является выявление наследуемых гаплоблоков (или даже просто отдельных аллелей) ассоциируемых с тем или иным заболеванием. Не смотря на это и попгенетики все активнее используют понятие LD-гаплоблок в последних работах. В связи с этим у многих любителей возникает закономерное предположение — если найдены аутосомные “гаплоблоки”,то значит должна быть и аутосомные гаплогруппы (по аналоги с Y-ДНК и мито-ДНК). К сожалению, это не совсем так, — в отличие от древа Y и древа митогаплогрупп, древо гаплоблоков практически никогда не будут иметь филогенетически однозначного решения в плане кладистики. Впрочем, это отдельный вопрос,которого я пока не буду касаться.

Важность гаплоблоков в популяционном анализе.

Когда я начал свой любительский проект по анализу аутосомного ДНК различных популяций и отдельных лиц, то следуя примеру других геномных блоггеров я начал с элментарной обработки данных в незаменимой программе Plink — я занимался нахождением IBS матрицы, расчетами статистических параметров гомозиготности (группировкой по совпадающим сегментам, кластеризацией и так далее), структуризацией и выявлением IBD-сегментов и их кластеризацией. Однако со временем я, так же как и большинство BGA блоггеров, осознал необходимость работы с фазированными данными, — с генотипами приведенными в гаплоидную фазу, то есть с гаплоблоками. Кроме того, в новой парадигме стал использоватся новый рекомбинаторный параметр  (который ранее не учитывался в классическом Admixture-анализе) и структура сцепления снип-маркеров. Основным преимуществом фазированных генотипов является более высокая степень вероятности общего происхождения гаплоблоков, которые в случае с идентичными по происхождению сегментами предполагают единую генеалогию. Техническое определение понятия фазирования генотипа в контексте биоинформатики — это выявление или выведение (инференция) гаплотипной фазы массива генотипных данных. Говоря простым языком, это трансформация мультиаллельных блоков в гаплоблоки (гаплотипы). Преимуществом фазированных генотипов является более высокая степень вероятности общего происхождения гаплоблоков , которые — в силу определения понятия гаплоблок -предполагают единое генеалогическое происхождения Разница очевидна. Например, полгода тому назад я изучал этнические гаплоблоки участка условно-половинного совпадения на 1 хромосоме в данных проекта Eurogenes.  К своему разочарованияю, никаких гаплоблоков среди нефазированных генотипов в этом регионе не обнаружилось. Спустя некоторое время автор проекта Eurogenes -Дэвид Веселовски разослал участникам проекта. По сути, Дэвид приступил тогда к новой фазе анализа, о необходимости которой я говорил ранее -а именно к фазированию диплоидных данных в гаплоблоки и дальнейшее выявление общих по происхождению гаплоблоков. Так вот, новый анализ фазированных генотипов (гаплоблоков) в том же проекте показывал, что у лиц с повышенным процентом “северо-западного европейского компонента” (в том числе и лица из кластер номер 5 в другом проекте Dodecad) — имеют значительное количество гаплоблоков, общих по происхождению с северными русскими, чувашами, алтайцами, тувинцами и монголами. То же самое по хромосоме 3, показаны самые большие совпадающие гаплоблоки. Особенно примечательно большое количество совпадаюших гаплоблков с чувашами,венграми.

PS.

С оттенком плохоскрываемого злорадства, должен отметить, что столь любимая Клесовым и Рожанским лографмическая формула (модифицированная формула превращения) веществ гораздо лучше подходит (хотя и в очень обобщенном виде) для моделирования процесса рекомбинаторного “распада” гаплоблоков в аутосомах. Там действительно, гаплоблоки распадаются с учетом частоты рекомбинации. Поэтому-то тот же гуру биоинформатики Монтгомери Слаткин и вводит логарифмы в формулу для оценки возраста IBD-гаплоблока.