2014 год — год палеогенетики и эпигенетики

Оглядываясь назад на события и открытия, коими в уходящем 2014 году ознаменовалась область исследований генетики человека, можно смело сказать что уходящий год был годом прорыва в двух принципиально различных направлениях — в палеогенетике, изучающей геномы популяций древних людей прошлого, и  в эпигенетике,  с помощью которой можно прогнозировать будущее (здоровье и качество жизни) отдельных людей.


Палеогенетика

В самом начале 2014 года, на руках немногочисленных исследователей  палеогеномов было менее десятка древних геномов человека, опубликованных в предыдущие года. К концу 2014 года опубликован ряд работ, посвященных попыткам генотипирования останков древних людей — от живших несколько тысячелетий назад до «усть-ишимца» с предположительным возрастом около 45 тысяч лет, неандертальцев и «денисовки». Количество таких расшифровок растет все быстрее, что не может не вызывать оптимизма.  Вторая половина 2014 года особенно примечательна как количеством подобных публикаций, так и числом полных геномных NGS-сиквенсов древних людей, размещенных в публичных репозиториях (банках геномных данных). Так, в сентябре в Nature была опубликована окончательная версия работы Lazaridis et al. 2014  «Ancient human genomes suggest three ancestral populations for present-day Europeans». Работа получила широкое освещение в СМИ, поскольку аналитическая выборка сэмплов в этом исследовании включала значительное количествао заново генотипированных (на чипе Affymetrix HumanOrigin) образцов ДНК из древних палеолитических стоянок Сибири (Афонтова Гора, Малта), представителя древней индейской культуры Кловис и палеоэскимоса Cаккак. В работе был представлен  целый  ряд образцов древней ДНК представителей европейских мезолитических и неолитических культур, опубликованных в более ранних работах 2012-2014 годов: Skoglund et a. 2014 «Genomic Diversity and Admixture Differs for Stone-Age Scandinavian Foragers and Farmers»(шведские земледельцы и охотники собиратели эпохи неолита); Olalde et al. 2014 «Derived immune and ancestral pigmentation alleles in a 7,000-year-old Mesolithic European» (дДНК мезолитического населения Иберийского полуострова) и т.д.

Опубликованные геномы так и остались бы достоянием небольшой группы ученых, и по-прежнему бы использовались бы только для сравнения с абстрактными и анонимизрованных данными референсных популяций человека, если бы усилиями пары любителей (прежде всего усилиям Чандракумара) палеогеномы не были преобразованы в привычные и удобные для популяционного анализа форматы  BAM, VCF и Plink binary, а также в стандартный формат геномных данных от FTDNA. По своей сути, преобразование состояло в сложной процедуре сборки генома из библиотек коротких геномных ридов (в формате sra., в котором эти риды хранятся в репозиториях крупных баз геномных данных). Полученные сборки геномов в формате sam/bam cравниваются с референсным геномом человека, и отличающиеся одиночные нуклеотидные полиморфизмы сохраняются в VCF файл. Здесь нужно помнить о том, что в этой процедуре не учитывался параметр качества сиквенса PHRED score. Традиционно рекомендуется использовать только те базовые пары, PHRED score которых превышает 30, т.е чья точность определения составляет 99.9% (или 1 ошибка на 1000 базовых пар). Кроме того, в этой процедуре разработчик не учел влияние постмортальных изменений ДНК. Cледует помнить, что ДНК, как и любая биомолекула, способна вступать в химические реакции с окружающим миром, тут-то и появляются различные модификации нуклеотидов (особенно по краям фрагментов древней ДНК). Наиболее частая постмортальная мутация — дезаминирование цитозинов (C), приводящая к возникновению урацилов (U) в последовательности древней ДНК, которые при проведении ПЦР многократно копируются «бездушным» ферментом ДНК-полимеразой как тимин (Т). Именно по этой причине, при оценке достоверности снипов в полученных из палеогеномов вариантах особое внимание требуется уделять транзициям C->T и  G->A.  Если при подсчете вариантов окажется, что такие транзиции встречаются чаще ожидаемого, то можно сделать вывод о существенном повреждении палео-ДНК.  И хотя по причине игнорирования этих ограничений, автором было получено большое количество снипов, в некоторых случаях, например при объединении полученных данных NGS c данными генотипирования с помощью классических технологий миркочипов, использование таких данных может существенно уменьшить качество интерпретации.

Тем не менее, благодаря этим усилиям, и не в меньшей степени, благодаря соотрудничеству с порталом Gedmatch и компанией  FTDNA, большинство клиентов ведущих компаний на рынке персональной геномики и генетической генеалогии (таких как 23andme, и FTDNA) могут сравнить свои данные с данными древних геномов либо путем сравнения частото аллелей, либо посегментно сравнивая свои хромосомы с гомологичными хромосомами древних геномов.  Более того, Феликс Чандракумар пошел дальше и разместил 10 наиболее качественных палеогеномов (т.е палеогеномов с наибольшим числом перекрывающихся разными микроматрицами снипов) на FTDNA. Таким образом, с помощью сервиса MyOrigins FTDNA, исследователи могут установить распределение «этно-популяционных составляющих» или «предковых этнопопуляционных компонентов» в этих древних геномов. Нужно помнить, конечно же, что в случае с наиболее древними геномами (геномами неандертальца, усть-ишимца и т.д.) полученное распределение более молодых компонентов (полученных из современных популяций) нельзя интерпретировать буквально.


Эту замечательную функцию дополняют калькуляторы Eurogenes, благодаря которым любой интересующийся человек может посмотреть, какой процент его/ее генома приходится на тот или иной древний геном. Для людей, озабоченных вопросами анонимности, Феликс разработал отдельное десктопное приложение  — калькулятор древней ДНК. Этот калькулятор  показывает, какой процент ДНК (составных сегментов) аутосомной ДНК клиента попадает в каждый из 30 образцов древней ДНК . Другими словами, он показывает  процент общих предков в сравнении современного ДНК и палеоДНК.

Подводя итоги года, можно сказать, что в области изучения древней ДНК все ожидания были оправданы.


Эпигенетика

Под эпигенетикой обычно понимают область знаний о совокупности свойств организма, которые не закодированы непосредственно в геноме, но могут и должны передаваться по наследству.Эпигенетика может быть определена как изучение механизмов контроля активности генов во времени и пространстве в процессе развития сложных организмов. К настоящему времени обнаружены и описаны различные механизмы контроля активности генов, однако в уходящем 2014 году особое внимание ученые уделяли  изучению одного из таких механизмов  — ферментативному (энзиматическому) метилированию самой генетической матрицы, то есть ДНК.

Метилирование — это изменение молекулы ДНК путем присоединения метильной группы (-СH3) к нуклеотиду C, причем необходимо, чтобы за С следовал нуклеотид G. Последовательность нуклеотидов -CG- называется СpG динуклеотидом, или CpG сайтом. Метилирование происходит не во всех клетках одновременно, поэтому говорят о проценте метилирования определенного CpG сайта.метилирование ДНК ощутимо сказывается на её взаимодействии (связывании) с различными белками. Во многих случаях метилирование по цитозиновым остаткам препятствует связыванию специфично реагирующих с ДНК ядерных белков (факторов), которые, собственно, и осуществляют разные генетические процессы, в том числе транскрипцию, репликацию и репарацию.Как известно, метилирование играет важнейшую роль в механизме экспрессии (т.е качественном и количественном проявлени) генотипа в фенотип. оказано, что с изменением профиля метилирования связаны такие заболевания, как различные виды рака, диабет первого и второго рода, шизофрения и т.д. Поэтому важно уметь анализировать профиль метилирования генома, и здесь перед энзимологией расскрываются огромные перспективы. Например, в 2014 году компания «СибЭнзайм» открыла новый фермент, на базе которого разработали новый метод детекции. Он позволяет определять, включен или выключен интересующий вас ген — э то управляющий механизм в организме, именно отключение отдельных генов ученые связывают с развитием рака:

С технической точки зрения, изучение метиляции ДНК происходит с использованием модифицированного варианта ChiPSeq (это комбинированный вариант иммунопреципитации хроматина (ChIP) и высокоэффективного секвенирования ДНК для определения участков связывания ДНК и белков). Не вдаваясь в биолого-химические подробности этого модифицированного метода, его можно кратко описать следующим образом. Каждый CpG сайт измеряется с помощью двух флуоресцентных проб. Флуоресцентный сигнал проб пропорционален соответственно количеству метилированных и неметилированных CpG сайтов в тестируемом образце.  Полученные данные образуют собой профиль метилирования, который удобно сравнивать с различными референсными образцами. Как уже говорилось выше, этот профиль можно использовать не только для медицинских целей (например, для изучения эпигенетических факторов развития различных заболеваний), но и для более общих целей. В недавном исследовании, проведённом специалистами из Калифорнийского университета (UCLA), выявило биологические часы, встроенные в геном человека и оно впервые определило, что внутренние часы в состоянии точно оценить возраст различных человеческих органов, тканей и клеток. Исследователи обратили свое внимание на метилировании – естественном процессе, изменяющем химический состав ДНК. Он изучил 121 набор данных, собранных ранее исследователями, изучавшими метилирование здоровых и раковых тканей человека. Проанализировав информацию по 8000 образцов из 51 типа тканей и клеток со всего тела, исследователи смогли определить, как возраст влияет на уровни метилирования с рождения до 101 года. Он определил, что метилирование работает на 353 участках ДНК, которые изменяются с возрастом. Таким образом, профиль метилирования ДНК представляет собой наиболее надежную метрику для расчетов биологического возраста как отдельных органов, так и всего организма.

Принимая это во внимание, можно сказать что и в последующие года эпигенетику ожидают радужные перспективы.

Реклама

Этногеномика беларусов — часть V

Обсуждение результатов и выводы

 

Как отмечалось в введении к нашей статье, главной задачей нашего исследования являлась проверка двух рабочих гипотез, озвученных в предыдущих исследованиях профессиональных попгенетиков. Во-первых, это гипотеза о присутствии трех основных древних компонентов , которая указывает на возможность общего происхождения славян и балтов. Во-вторых, это утверждение о том, что своеобразие аутосомного генофонда беларусов может быть связанно с вкладом балтского субстрата.

После внимательного изучения результатов нашего исследования,можно сказать, что оба из приведенных выше заключений представляют собой крайне упрощеные варианты сложного процесса формирования аутосомного генофонда беларусов. Хотя мы и не можем предоставить окончательных аргументов в пользу или опровержение каждой из этих версий, мы может предоставить более полное и подробное обозрение структуры аутосомного генофонда. В отличие от трех основых компонентов, упомянутых выше, в нашем исследовании мы выделили шесть основных компонентов, типичных для европейцев в целом. Основу генофонда составляет компонент, который мы обозначили как северо-восточно-европейский компонент. Именно этот компонент выделяет беларусов среди других восточных славян, приближая их к современным балтийским популяциям (у литовцев процент компонента составляет 81,9, у латышей — 79,5%, у беларусов -76,4%, у эстонцев — 75,2%). Примечательно, по мере удаления от территории Беларуси на север в с торону Латвии и Эстонии, увеличивается процент северо-европейского генетического компонента (как мы полагаем, этот компонент доминировал в генофонде доисторических жителей Скандинавии в эпоху до распространения финно-угоров и индо-европейцев). С другой стороны, беларусов и других восточных славян отдаляет от балтов и сближает друг к другу более высокий процент так называемого западно-азиатского или кавказского компонента (любопытно, что в этом случае эта закономерность может свидетельствовать в пользу западно-азиатской теории происхождения индо-европейцев).

Далее, как показывает анализ в программе fineStructure, генофонд беларусов характеризируется высокой степенью генетических контактов как с балтами, так и остальными славянами, а также с рядом финно-угорских популяций (например, c эрзя и мокша). О симметричном характере межпопуляционного обмена свидетельствует симметричное расположение популяции беларусов относительно этих трех групп.

Исходяизвышенаписанного,представляетсялогичнымсделатьвыводотом,чтоосновнойкритическийэтапстановленияаутосомногогенофондапришелсянапериодсмешиванияносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,послечегопредковыйаутосомныйгенофондбеларусовприобрелотносительнуюстабильность.Разумеется,даннаямодельнеисключаетпозднейшиеэпизодысмешиванияпопуляций,ноониоставилименьшийследвструктуреаутосомногогенофондабеларусов.Вэтойсвязивозникаеточевидныйвопрос–вкакойименноисторическийпериодпроизошлосмешениеносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,иктобылиихносителями?
В начале сентября 2012 года известная американская лаборатория популяционной генетики доктора Райха опубликовала альфа-версию программного продуктаADMIXTOOOLS1.0. Альфа-версия была разработана для внутреннего использования, поэтому modusoperandiэтого продукта вряд ли является кристально понятным для стороннего пользователя. Положительным аспектом на мой взгляд является то, что ADMIXTOOLSпакет обеспечивает полную совместимость с форматом другой очень популярной программыEIGENSOFT, которая была разработана в той же лаборатории. Это немаловажное обстоятельство намного упрощает процесс обучения в ADMIXTOOLS.

Вышеупомянутый пакет включает в себя 6 приложений, среди которых я считаю наиболее полезнойqp3Popи утилиты для вычисления частотной характеристики аллелей. Впрочем, я не собираюсь обсуждатьqp3popво всех деталях и в контексте данной заметки достаточно отметить, что эта программа реализует тест three_pop(F_3), подробно описанный в известной статье Рейха и соавт. 2009.

Однако другой имплементированный в пакете метод, – метод rolloff– нуждается в более пристальном внимании. Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатураLD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории, чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения LDв адмиксе напрямую связана с числом поколений, прошедших с момента адмикса, так как cвозрастанием числа поколений увлечивается число рекомбинаций произошедших между двумя отдельными SNP-ами. Проще говоря: Rolloffсоответствует экспоненциальной кривой угасания уровня LDот расстояния, и эта скорость экспоненциального снижения как раз и используется для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.

Этот метод открывает интересные перспективы. Для целей этого анализа, я создал специальный набор SNP-данных, который включает в себя около 750 000 cнипов, частично или полностью в 250 различных популяциях человека. Далее, я разбил популяции 3 * 62 000 трио в следующем виде (X, Y, Z), где X и Y – пара рефренсных групп, а Z – белорусы из коллекцииBehar et al.2010. После этого я провел q3Pop анализ этих трио.

Результаты изложены в нижеприведенной таблице

Indian Polish Belarusian -0.000736 0.000251 -2.935
Polish Indian Belarusian -0.000736 0.000251 -2.935
Karitiana Sardinian Belarusian -0.001278 0.000517 -2.471
Sardinian Karitiana Belarusian -0.001278 0.000517 -2.471
Otzi North_Amerind Belarusian -0.002556 0.001126 -2.271
Cirkassian Polish Belarusian -0.000488 0.000231 -2.113
Polish Cirkassian Belarusian -0.000488 0.000231 -2.113
Pima Otzi Belarusian -0.002727 0.00137 -1.99
Pima Sardinian Belarusian -0.000794 0.000431 -1.843
Sardinian Pima Belarusian -0.000794 0.000431 -1.843
Otzi Surui Belarusian -0.002938 0.001931 -1.522
Surui Otzi Belarusian -0.002938 0.001931 -1.522

 

На первый взгляд, результаты нашего эксперимента с 3qPop, кажется, неплохо согласуются с выводами, содержащимися в работеПаттерсон и др. 2012: “Самый поразительный вывод состоит в обнаружени четкого сигнала адмикса в северной Европе, один из элементов которого связан с предками населения наиболее близкого по своей генетике к баскам и жителям Сардинии, а другой – с предками современного населения северо-восточной Азии и Америки. Этот явный сигнал, вероятно, отражает историю смешивания неолитических мигрантов с коренным населением Европы, что подтверждается недавним генетическим анализом древних костей Швеция и секвенированием полного генома Отци Тирольца”. Что касается собственно белорусов, то источники сигнала смешивания с посторонними популяцими менее ясны и расплывчаты. Как было показано ранее, с точки зрения формального анализа примесей (f3 статистики), белорусы могут быть представлены в виде популяционного микса поляков и индусов / черкессов. Первый компонент смеси может быть связан с носителями культуры шнуровой керамики/боевых топоров и культуры колоковидных кубков; второй, в соответствии с результатами, должен быть общим для индусов и черкесов.

 

Белорусы = ((неолитические культуры Европы) + “носители культуры колоковидных кубков”) + (мезолитическое население Европы) + компонент носителей культуры шнуровой керамики)) + скифо-сарматский тип

 

Для оценки дата события базового адмикса в белорусской популяции, мы использовали в качестве референсных популяций поляков и индусов (Примечание: мы снизили порог генетических дистанции в параметрах Rolloff для снижения уровня шума от более поздних адмиксов).

 

rolloff

Как вы можете видеть, сигнал присутствия адмикса обнаруживается гораздо хуже, и в силу этого, погрешности в оценке временного промежутка высоки:

154,158 + -87,024 поколений назад (или, 4470 + -2523 года до настоящего времени / 2510 – +2523 лет до н.э.).

 

Исходя из этого, мы решили модифицировать Rolloff-анализ генофонда белорусов, используя на этот раз в качестве референсов литовцев и пуштунов. Следуя этому совету, я решил предпринять вторую попытку формального анализа адмикса в двух имеющихся у нас выборках беларусов ( выборка беларусов из статьи Behar et al. 2011), и выборка беларусов, собранная в нашем проекте.Ниже приведены результаты эксперимента с двумя этими группам (в отличие результатов нашей предыдущей попытки, результаты данного эксперимента менее “зашумленные”):

rolloff2

 

Интервал числа поколений, прошедших со времен анализируемого адмикса (105.086+-52.59) или 3069 +- 1525 лет до настоящего времени, что соответствует временном интервалу 2 тыс. до нашей эры – 6 век нашей эры. Принимая во внимание эти выводы, мы можем предположить, что основной аутосомный эпизод смешивания предковых популяций беларусов произошел в течении довольно таки продолжительного времени, охватывающего несколько тысяч лет. В этой связи, вопрос о том, кто именно был носителями северо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента, остается открытым.

Этногеномика беларусов — часть IV

Анализ структуры аутосомного генофонда популяции беларусов: результаты анализа этнического адмикса.

 

После проведения анализа этно-популяционного адмикса мы получили следущие результаты, обсуждению которых будет посвящена следущая часть нашего исследования. Результаты представляют собой разбивку аллельных частот на 22 кластера, каждый из которых представляет собой гипотетическую предковую популяцию. Поскольку в цели данного небольшого исследования не входит подробный анализ всех популяций, мы ограничимся сравнительном анализом структуры (компонентов) беларусов c географически близкими популяциями, а также с теми популяциями, которые могли входить в исторические контакты с предками современных беларусов:

admix

 

Рисунок 3. Результатыанализа ADMIXTUREK=22

У рассматриваемых здесь европейских популяций наиболее часто представлены следующие компоненты:

North-East-European,Atlantic_Mediterranean_Neolithic,North-European-Mesolithic, West-Asian, Samoedic, Near_East.

Разберем вкратце каждый из них. В ракурсе нашего исследования самым важным компонентом представляется – северо-восточно-европейский компонент North-East-European, он присутствует почти у всех европейцов, и в самой значительной степени — у балтов и славян: литовцы (81,9), латыши (79,5), беларусы (76,4), эстонцы (75,2), поляки (70,2), русские (67- 70,4), украинцы (62,1- 67,1), сорбы (65,9), карелы (60,2), вепсы (62,5), чехи (57,4), северные немцы (54,6), южные- 42,6, у британцев от 46 до 49, норвежцы- 48,1, шведы- (53,7).

Второй по значимости компонент — Atlantic_Mediterranean_Neolithic (юго-западно-европейский или просто западно-европейский неолитический компонент).[1]У восточноевропейцев он выражен в умеренной степени- чехи (27,8), поляки (18,4), украинцы ( от 17 до 21%), беларусы (13%), русские (от 11 у северных до 17,3 у южных), у коми (8,9 %), манси (8,8 %).

Третьй компонент – северо-европейский мезолитический компонент -North-European-Mesolithic[2]: cаамы (76,4 %), финны (от 30,1 до 37,3 %), вепсы (24,1), карелы (23,2), ижорцы (22, 7). Заметен этот компонент и у северных русских (10,5 %), норвежцев (9,8 %), шведов (7,8 %), эстонцев (7,1 %). У беларусов он практически отсутствует (1.1%).

Четвертый компонент – западно-азиатский (кавказский) West Asian[3]. На интересуемой нас территории этот компонент чаще встречается у казанских татар (9,9 %), южных немцев (8,4), украинцев (от 6,6 до 7,7 %), южных русских (6,2%). На западе высок процент у итальянцев (21,5 % у центральных итальянцев), французов (6,7 %), у беларусов (2.2%).

Пятый компонент — уральский Samoedic. Значительно присутствует у селькупов (68,1%), хантов (64,6), ненцы (37,1), манси (30,9 %-), удмурты (29,6), марийцы (27, 8), шорцы (22,0 %), башкиры (21,7%), чуваши и хакассы по 17,6 %, коми- 16,4 %, казанских татар (11,9 %). У западноевропейцев этот компонент практически не встречается, у русских (от 1,0% у центральных до 4,7 % у северных), у карел (1,6%), словаков (1,4%), западных украинцев (1,7 %), беларусы (0.5%).

Шестой компонент – ближневосточный Near_East[4]У южных немцев (3,5), украинцы (от 2,3 у восточных до 3,8 % у западных), чехи (3,0), беларусы (3,4), словаки (3,2), у русских от 1,0 до 1,5%, у литовцев- 1,4%, у поляков- 1,3 %.

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[1]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[1]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[1]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

Анализ разделяемых аутосомных сегментов между популяциями Северо-Восточной Европы.

С целью верификации результатов анализа главных компонентов генетического разнообразия я подготовил новую выборку популяций, которая включает в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.В ходе нового экспериментального теста в ходе статистической обработки общих по генетическому происхождению сегментов хромосом в составе выборки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, т.е размера той популяции которая участвовала в репродукции или обмене генами в некоем отдаленном временном промежутке. Собственно говоря, эффективная популяция – это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955). Новая программа Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение составило 22 000. Это близко к значениям Neрекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных ниже результатов, даже 22 000 для совокупности эффективного размера элементарных популяций – это более, чем достаточно.

 

finest

Рисунок 4. Расположение популяций в пространстве 1 и 3 главных генетических компонентов

 

Изложим ниже некоторые закономерности размещения популяци

 

  1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
  2. Все литовцы (участники проекта + референсы из вышеупомянутой статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев

  3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.

  4. Ниже находится балканский кластер (румыны, болгары и часть венгров).

  5. К этому кластеру примыкают турки и часть армян

  6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов).

  7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.

  8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

  9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

  10. Левее этой группы популяций находится кластер ашкеназов.

  11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

  12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

  13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

  14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

  15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).[5]

 

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[2]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[3]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[4]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

[5]Такое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции.То есть все эти баски являются многократными родственниками между собой т.е., положение басков на графике есть следствие классического генного дрейфа, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества sharedDNAchunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.

Исходя из этого можно сделать вывод о том что баски эта экстремально-эндогенная популяция изолянтов, при этом генетическое разнообразие басков низко, т.к. размер эффективной популяции басков низок.

Неандертальские варианты генов метаболизма жиров у современного человека

Реконструированный геном неандертальца, опубликованный несколькими годами ранее, обеспечил исследователями генетических вариантов высших приматов богатым материалом для изучения на годы вперед. Уже при публикации чернового (драфт) варианта реконструированного генома неандертальца (вернее неандертальцев, поскольку при создании референсного генома неандертальца, также как и при реконструкции референсного генома человека, использовались совокупные геномы нескольких особей неандертальцев), было понятно, что сравнительный анализ геномов неандертальца и современного человека прольет свет на многие, ранее неразрешимые, вопросы эволюции человека.

Например, появился ряд работ, в которых были представлены убедительные доказательства того, что определенные генетически детерминированные варианты микроцефалии у людей появились в результате «вливания неандертальских генов». В другой работе авторы пришли к выводу о неандертальском происхождении ряда характерных аллельных вариантов генов гистосовместимости, распространенных в Европе. В новом исследовании, исследователи анализировали статистику представленности неандертальских вариантов генов в человеческой популяции. Доля таких генов у современных людей не-африканского происхождения в среднем составляет около 1–4 процентов генома. Она почти одинакова в разных популяциях за пределами Африки, однако при более тщательном анализе ученые обнаружили, что у европейцев существуют гены, которые как минимум в три раза обогащены именно неандертальскими вариантами.

Большая часть этих генов оказалась связана с метаболизмом жирных кислот, – веществ, которые входят в состав жира и составляют основу клеточных мембран. Статистический анализ говорит о том, что нендертальские варианты генов были предметом отбора, то есть накапливались у европейцев, а значит они давали некоторое эволюционное преимущество своим обладателям.

 

 

 

Лекция Гельфанда о геномике (Постнаука)

    Появились технологии, которые позволяют очень быстро и дешево определять последовательность нуклеотидов в геноме. То, что неправильно называют расшифровкой генома, на самом деле не расшифровка, потому что смысл последовательности мы не понимаем. Но у ДНК в пробирке или в клетке мы можем теперь довольно быстро определить последовательность генома и, соответственно, после этого изучать ее какими-то вычислительными средствами на компьютере. Несколько лет назад в Альпах нашли труп человека — охотника лет сорока, которого убили. У него в лопатке застрял наконечник острия копья. Это детектив пятитысячелетней давности. Было много археологических исследований: обувь и одежда были заморожены в очень хорошем состоянии. Также определили его геном. Потом нашли современных людей в Австрии, которые являются его родственниками (то есть это люди с теми же самыми вариантами). Ясно, что популяция людей, которая жила в Альпах пять тысяч лет назад, никуда не делась. Они внесли свой вклад в геномы современных австрийцев.

Новости от сибирских генетиков

Как сообщают СМИ,  новосибирские учёные научились разрезать ДНК человека с помощью особого фермента

Составлять «экономный» геномный портрет человека научились учёные Новосибирского предприятия SibEnzyme с помощью особого метода подготовки ДНК. Об этом ИТАР-ТАСС в рамках Первого международного форума технологического развития «Технопром» рассказал гендиректор предприятия Евгений Дубинин.

«С помощью современной методики геномного секвенирования можно получить персональный генетический «паспорт». Изучив его, врач заранее выявляет предрасположенность человека к генетическим заболеваниям, возможные способы лечения и наиболее эффективные лекарства. Стоимость создания геномного портрета в настоящее время высока, она не позволяет внедрить эту технологию в массовую медицину», — отметил Дубинин.

Он заявил, что можно вдвое удешевлять этот процесс, заранее расщепляя ДНК с помощью особого фермента. В геноме человека за кодирование информации отвечает только 5-7% его последовательностей. Фермент разрезает ДНК на фрагменты определенной длины в строго определенных местах. Для анализа выбирают только несколько фрагментов, исключив ненужные, и именно эта «ферментная» подготовка ДНК удешевляет исследование. Дубинин подчеркнул, что, несмотря на то что рынок геномного секвенирования находится на начальном этапе формирования, в ближайшее время его ждет интенсивный рост. По оценкам экспертов, его прогнозируемый объём в течение пяти-десяти лет — 100 миллиардов долларов.

В другом сибирского городе — Томске — также находится примечательная лаборатория Томский НИИ медицинской генетики (возглавляемая известным генетиком В.Степановым), одного из ведущих медико-генетических учреждений России. НИИ был основан в 1982 году и является первым специализированным институтом в области медицинской генетики на территории Сибири и Дальнего Востока. Сегодня деятельность института включает осуществление специализированной медико-генетической помощи населению, научные исследования и профессиональное образование в области медицинской генетики.

В лаборатории работает множество замечательных ученных, из которых для ДНК-генеалогии наиболее важен Владимир Харьков.

Har-kov

Благодаря его научному рвению была не только определена структура мужского генофонда многих сибирских народов, но и раскрыта недавняя серия тягчайших преступлений на сексуальной почве (в ходе анализа Y-хромосомы, Владимир установил не только национальность маньяка-насильника, но и место вероятного происхождения/жительства с точностью до села). Ув. Валерий Запорожченко поделился подробностями этой истории, озвученной на одной из последних конференций.

Не так давно к Владимиру Харькову из Томского института медгенетики обратились следователи СК по Новосибирской области. Искали они маньяка насиловавшего девочек-дошкольниц. Насилуя, он никого не убивал, иногда просто мастурбировал на глазах детей, и как правило оставлял на месте преступления биологический материал — сперму. Девочки описали его как описывают кавказцев. Следователи ловили местных выходцев с Кавказа всех подряд, типировали, но тщетно, профили не совпадали. Судебные генетики не справились, пришлось обратиться к эволюционистам. Владимир довольно быстро понял, что владелец спермы не кавказец, а выходец из Бурятии, причем выборки собранные лабораторией позволили точно идентифицировать не только национальность извращенца, но даже определить происхождение мужской линии с точностью до двух соседних районов. Получив ориентировку, следователи первым делом изучили местные «висяки», и обнаружили, что незадолго до первого новосибирского эпизода было несколько преступлений аналогичного почерка в Улан-Удэ. Пришлось перетрясти всю базу прописки — кто из указанных районов ее сменил на новосибирскую в последние годы. И что же, работа была вознаграждена — появился подозреваемый, идеально соответствующий ориентировке. Его тормознули на дороге под видом гибдд. Скрутили. Отпирался. Наперли. Признался! Впрочем, даже если бы не признался, его приперли по образцу ДНК который оказался идентичен полученному из спермы. Кстати, преступник бурят только по отцу, от которого и получил выдавшую его У-хромосому.

Таким образом была еще раз продемонстрирована плодотворность и перспективность изучения игрек-хромосомы в ДНК-криминалистике.

Кроме того, Владимир не чурается общения в Интернете с любителями ДНК-генеалогии, и некоторое время даже участвовал в работе форума Молген.

Новая версия этно-популяционного калькулятора MDLP и соображения по поводу генетического разнообразия человечества

Сравнение снп-теста DNA Tribes и MDLP World-22 Вадима Веренича.

С подачи FenriR я проработал таблицу эталонных популяций 20-компонентного снп-этнокалькулятора DNA Tribes. Структурно он довольно схож с World-22 Вадима Веренича, поэтому логично провести их сравнение. Европа у Вадима (и в большинстве других калькуляторов) разделяется на два основных полюса — Литва (Северо-Восточная Европа) и Сардиния/баски (Атлантика-Средиземноморье). В ДНА Трайбс выделены эти же два компонента как Славик-Балтик и Медитерранеан. Кроме этого, они постарались выделить еще один компонент — Северо-Западную Европу с пиком в Ирландии и на Оркнейских островах. Логично, если они хотят увеличить детализацию теста для людей преимущественно британского происхождения. Компонент получился композитным, на Западе он заменяет в первую очередь Славик-Балтик, на Востоке — Медитерранеан. Поэтому распространение Славик-Балтик среди славян близко к Северо-Восточной Европе World-22 (с поправкой, о которой в разделе про Уралик), среди германских же и романских народов он падает гораздо резче. Аналогично Медитерранеан доминирует на юго-западе Европы — в абсолютных значениях сильнее, чем у Вадима, но быстрее спадает при удалении.
Мне кажется, основные европейские кластеры сделаны резче, чем они на самом деле, это загрубляет результаты. Но в целом распределение по ним выглядит верным.
Следующий компонент — Уралик. Здесь попытались объединить финнов и чувашей, что, на мой взгляд, неверно для Восточной Европы. Оба этих народа очень своеобразны. Видимо, действовали по аналогии с объединением сардинцев и басков и хотели вывести аналогичной кластер для противоположного конца Европы. Что-то в этой идее есть, но финнов тяжело с кем-то объединить. В результате в состав компонента вошли Мезолитическая Северная Европа из World-22 (финский, в более широком смысле общий северо-европейский компонент), Самоедик (уральский-западносибирский компонент), и отщипнули хороший кусок от Балто-Славика. Здесь калькулятор Вадима выглядит гораздо детальнее и точнее.
Далее идет «сибирский» адмикс, который у Вадима Веренича тонким слоем размазан по северо-востоку Европы. У ДНА Трайбс он частью тоже ушел в Уралик, частично виден у северных русских и очень сильно представлен у чувашей (на мой взгляд, слишком сильно). Важный европейский компонент — Кавказ/Западная Азия. В World-22 он распространен по всей Европе в сравнительно небольших количествах. Считается, что это след первых земледельцев из Малой Азии, в свое время распространившихся по Европе, но впоследствии вытесненных/ассимилированных. В ДНА Трайбс распространение Кавказа и Ближнего Востока (Месопотамиан) похоже на вариант Веренича, но тоже проявлено слабее — видимо, часть ушла в резкие европейские компоненты. Резюмируя — каждый калькулятор нацелен на свою аудиторию. Если DNA Tribes в первую очередь концентрируются на Западной Европе, то проект Вадима Веренича дает заметно лучшую детализацию по Европе Восточной.Судя по результатам FenriR (результаты других форумчан опубликованы до последнего изменения методики), уровень шума в DNA Tribes довольно велик — если Mesoamerican 3.0% Indus Valley 2.9% еще можно списать на Север, Сибирь и Поволжье, то West African 2.0% откровенный шум.

Порог генетического разнообразия человечества.

Поскольку калькулятор показал в большинстве случаев свою состоятельность, я решил начать работу над новой версией этно-популяционного ДНК-калькулятора. Однако прежде чем разместить краткий анонс предстоящего реализа, хочется упоминать примечательную работу, вышедшую в журнале Nature пару дней назад. В журнале “Nature” 3 июля 2013 г. опубликована статья «Генетическое разнообразие и популяционная история высших приматов», подписанная 55 генетиками (лидеры группы – Ксавьер Прадо-Мартинес из Института эволюционной биологии в Барселоне и Питер Садмант из университета штата Вашингтон в Сиэтле). Исследование весьма интересно  как антропологам, так и приматологам. Однако нас, с точки зрения генетики, заинтересовал следующий фрагмент исследования:

Авторы изучили 89 млн точечных нуклеотидных полиморфизмов (SNP) у 79 представителей различных подвидов всех шести видов крупных человекообразных обезьян – шимпанзе, горилл и орангутанов, – а также у 9 людей (трех африканцев и шести жителей других континентов).

Внутривидовая генетическая вариабельность у человека не выходит за пределы внутривидовой изменчивости у других высших приматов, а точнее, находится на ее нижней границе. Гетерозиготность оказалась ниже всего у западных шимпанзе, бонобо, восточных горилл (это связано с инбридингом), а также у людей, особенно представителей неафриканских групп. Последнее вызвано постепенной утратой генетической изменчивости после исхода сапиенсов из Африки и их расселения по миру. Наиболее высокая гетерозиготность обнаружена у суматранских орангутанов.

Как мы видим ниже, именно эти вычисления и выводы о уровне гетерозиготности (которая в данном контексте используется  в качестве индикатора вариативности популяций) будут иметь особое значение при интерпретации результатов нашего нового калькулятора.

Собственно, сабж.

Упомянутые в статье о высших приматах особенности генетического разнообразия отчетливо заметны на PCA графике будущего калькулятора MDLP K=23 (Ultimate Edition). Он создан в R с помощью пакета rgl.  Я выбрал первые три главных компонента (эйгенвекторы — 1526.55, 1104.50, 1041). Наиболее низкой степенью гетерозиготности отличаются европейцы, особенно из северной Европы. На графике они смещаются в одну большую группу, в то время как наиболее значительной гетерогеностью характеризуются африканцы из субэкватариальной Африки. Таким образом, исходный дизайн выборок в новом калькуляторе отлично укладывается в общую эволюционно-биологическую парадигму.
Мы рассчитал аллельные частоты примерно 130000 тысяч снипов по референсным популяциям, взятым из академических источников. С целью сохранения совместимости с коммерческими данными, были выбраны только те снипы, которые присутствуют либо в последнем чипсете 23andme, и/либо в последнем чипсете FAmilyFinder от FTDNA.
мы вычислили средние значения каждого из 23 компонентов для всех референсных популяций. Также имеются данные по  кластерному определению каждого из снипов.
Судя по разбивке популяций, они выглядят весьма правдоподобными. Но некоторые кластеры вызвают вопросы. Любопытно, что данные из известной работы Xing, в которые использовались дагестанцы из коллекции уважаемой Kazima Bulayeva, как бы образуют вектор параллельный основному вектору Европа-Азия.Радует что график имеет характерную V- или триангулярную форму. Это признак правильного расхождения популяций.Это треугольник с углами в популяциях CEU,бушменов и южных китайцев, причем генетическое разнообразие азиатов включает в себя разнообразие америндских популяций.

Учитывая все вышеизложенные проблемы, перед тем как делать релиз очередного этно-популяционного ДНК-калькулятора, я решил воспользоваться услугами бета-тестеров. В первую очередь, надеюсь на помощь Александр Бурнашев и Srkz (Сергея Козлова) поскольку они лучше остальных в русскоязычном секторе любителей ДНК-генеалогии понимают принципы работы калькуляторов на основе Додекад DIY.

Я также выполнил предварительные вычисления аллельных частот компонентов в собственных данных  и данных референсных беларусов.

Данные моей мамы:

East-European 38,65
Caucausian 27,98
North-European 12
Indian 9,92
Samoyedic 2,4
Arabic 1,55
West-African 1,26
Polinesian 1,04
… Central-Asian-Caucasian 1,02
Amerindian 0,94
Near-East-Mediterranean 0,84
Papuan-Melanesian 0,78
Austronesian 0,59
East-African 0,4
North-European-Caucausian 0,34
Central-African 0,25
Sino-Tibetan 0,04
North-African 0
South-African 0
Nigerian 0
Indo-Chineese 0
Sub-Saharian 0
West-Mediterranean 0

Мои собственные данные

East-European 36,89
Caucausian 28,87
North-European 11,36
Indian 9,98
Arabic 3,51
Central-Asian-Caucasian 2,37
Samoyedic 1,66
Polinesian 1,27
Amerindian 1,12
… Austronesian 1
Papuan-Melanesian 0,85
West-African 0,44
South-African 0,34
Sino-Tibetan 0,13
East-African 0,12
Near-East-Mediterranean 0,07
Central-African 0,04
North-African 0
North-European-Caucausian 0
Nigerian 0
Indo-Chineese 0
Sub-Saharian 0
West-Mediterranean 0

Данные референсных беларусов:

East-European 41,6645%
Caucausian 26,3905%
Indian 12,1348%
North-European 11,0739%
Near-East-Mediterranean 2,0315%
Indo-Chineese 1,4123%
Austronesian 1,1291%
Samoyedic 1,1257%
West-African 1,0845%
… Polinesian 0,6104%
Nigerian 0,5530%
Arabic 0,4754%
South-African 0,3044%
North-African 0,0010%
North-European-Caucausian 0,0010%
Amerindian 0,0010%
Papuan-Melanesian 0,0010%
East-African 0,0010%
Central-Asian-Caucasian 0,0010%
Central-African 0,0010%
Sino-Tibetan 0,0010%
Sub-Saharian 0,0010%
West-Mediterranean 0,0010%