Книга Животовского о Лысенко

Полистал я скандальную книгу Льва Животовского о Тромфиме Лысенко, вызвавшую бурную негативную реакцию в русскоязычных научных и околонаучных кругах. Честно говоря, в книге уделяется большое внимание вопросам научного вклада Лысенко в далекие от меня (и поэтому не столь интересные области знания) — ботанику, агрономию, cелекционирование и сельское хозяйство. Я не являюсь специалистом не в одной из перечисленных областей, поэтому вряд ли могу смогу озвучить критические замечания в адрес лысенковских представлений о «яровизации» и «фотопериодизме». Достаточно того, что с крайне резкой и порой даже жесткой критикой освещения этих вопросов в книге Животовского выступил целый ряд профессиональных специалистов в области ботанки и молекулярной генетики растений.
Как всем известно, Животовский довольно известен в популяционной генетике своими статьями о микросателлитной изменчивости. Именно он разработал (или точнее развил) аппарат датировки возраста гаплогрупп и расчитал скорости мутации для STR-гаплотипов, и эти скорости долгое время — вплоть до недавнего времени — использовались в качестве стандартных скоростей (молекулярных часов) в статьях ведущих специалистов в области Y-хромосомной изменчивости. По этой причине, Лев Животовский (в качестве «идеального» популяционного генетика) был — и остается — любимым объектом пасквильных сочинений и наветов псевдоученого Клесова. Сами же генетики более сдержаны в оценках уровня познаний Животовского в области классической генетике, признавая при этом значимость разработанного Животовским математико-статистического аппарата для решения определенных задач популяционной генетики. Поэтому для многих книга о Лысенко оказалась неожиданным сюрпризом. Известный российский биоинформатик Гельфанд заявил: «Он не сказал прямой лжи, не сказал и правды – это была полуправда, то есть наихудшая ложь» (Леонид Соловьев «Очарованный принц», второй роман про Ходжу Насреддина). «Книжка Л.А. – пример этой полуправды. … Лев Анатольевич искажает правду, путем применения риторических приемов, в частности, черри-пикинга. Цитаты, которые Л.А. использовал в лекции, очень хорошо выведены из контекста». Другие участники недавней презентации книги были столь же категоричны в своих суждениях.

Было бы ошибочно считать, что книга Животовского о Лысенко это биография. Скорее, она написана в стиле апологии. Автор ставил перед собой задачу реабилитации Лысенко по всем фронтам — как ученого-теоретика, так и ученого-практика. Однако лично меня он не убедил — возможно потому, что я изначально был враждебно настроен к фигуре Лысенко, который для меня является архетипическим образцом псевдоученого. Любопытно, что Лев Анатольевич в своей книге очень поверхностно (несмотря на то что этому вопросу посвящен целый раздел книги — целых 5 страниц! )) ) затрагивает важный аспект деятельности Лысенко как идеолога (а на мой взгляд в его деятельности политико-идеологический аспект является самым главным). Хорошо известно, что «мичуринец» Лысенко (наряду с «биологом» Презентом, а также «марксистскими языковедами» Марром и Мещериновым) входил в число тех, кто был обласкан (по-крайней мере, некоторое время) сталинской властью, и имел значительный административный ресурс в виде репрессивно-карательного аппарата для расправы с инакомыслящими. К сожалению, Лев Анатольевич предпочел осторожно обойти вопрос о влиянии идеологии на научную деятельность Лысенко.

Что касается меня, то меня прежде всего интересовал вопрос о том, можно ли считать Лысенко одним из предтеч триумфа эпигенетики, который мы наблюдаем в наше время. В случае положительного ответа на этот вопрос, можно было бы задаться вопросом — насколько глубоко он понимал и предвидел важность эпигенетики?
Сейчас некоторые деятели заявляют о гениальности Лысенко, открывшего механизмы эпигенетического наследования. При этом лысенковщина объявляется новейшим этапом развития ламаркизма — т.н. неоламаркизма. Якобы Лысенко открыл то, что «запрещалось» генетической теорией 1930–40-х, а именно: прямое влияние среды на проявление гена и наследование этих измене-
ний.

К сожалению, в книге отсутствует какой-либо ответ на эти вопросы. Да, слово «эпигенетика» упоминается в книге примерно десяток раз. В одном месте академик ссылается на работу американских генетиков 1993 года, в которой особенности метода «яровизации» объясняется метилированием генов растений. Затем Лев Животовскиий ссылается на статью 2006 года: «Эпигенетика доказывает, что мы в определенной степени ответственны за целостность нашего генома. Раньше мы думали, что только гены предопределяют то, кем мы станем. Сейчас же мы понимаем: всё, что мы делаем — все, что едим или курим, — может изменить проявление наших генов и генов следующих поколений». К сожалению, Животовский не приводит при этом ссылок на статьи Лысенко, сравнение с которыми позволило бы сделать вывод о том, насколько Лысенко был в действительности близок к подобным представлениям. На стр. 63, Животовский пишет о том, что Лысенко разделял взгляды Ламарка. Однако при этом, опять-таки, не приводиться ссылки на те фрагменты работ Лысенко, в которых Лысенко излагает свое понимание сути ламаркизма. Да, разумеется можно найти некоторые общие места в мичуринской агробиологии (лысенковщине), ламаркизме, эпигенетике. Однако многие догматы лысенковщине являются сугубо специфичными: например, cчиталось путём сознательного изменения условий жизни — «воспитания» — растений и животных человек может получать направленные изменения их наследуемых признаков. Этот идеологически важный момент (созвучный сталинистской идеи «воспитания советского человека») отсутствует в ламаркизме, также как и современных представлениях о эпигенетике.

Строго говоря, эпигенетика не сводится только к одному метилированию (существуют другие модификации прионов, гистонов, а также например, геномный импринтинг). Эпигенетическое влияние работает посредством временного приглушения определённых генов, но не их модифицирования. Углеводородные соединения, приводимые в действие группой метилов, могут подавлять проявление генов. Гистоны сужают и ослабляют ДНК, изменяя их доступность. Бесполезные фенотипы или физические характеристики могут быть временно подавлены, но не так, как предполагал Лысенко. Эпигенетические метки обновляются в следующем поколении, хотя как показывают последние статьи о влиянии голода на экспрессию генов у потомства, иногда эти метки могут переходить и к более отдаленному потомству. К сожалению, массовые исследования эпигенетических факторов начались сравнительно недавно, а возраст выборок у людей (плохих модельных организмов) ограничен 2-3, максимум 4 поколениями. Я думаю, что дальнейшее развитие научного знания в этой области покажет, что внешнее сходство лысенковщины и эпигенетики носит случайный характер.

Реклама

2014 год — год палеогенетики и эпигенетики

Оглядываясь назад на события и открытия, коими в уходящем 2014 году ознаменовалась область исследований генетики человека, можно смело сказать что уходящий год был годом прорыва в двух принципиально различных направлениях — в палеогенетике, изучающей геномы популяций древних людей прошлого, и  в эпигенетике,  с помощью которой можно прогнозировать будущее (здоровье и качество жизни) отдельных людей.


Палеогенетика

В самом начале 2014 года, на руках немногочисленных исследователей  палеогеномов было менее десятка древних геномов человека, опубликованных в предыдущие года. К концу 2014 года опубликован ряд работ, посвященных попыткам генотипирования останков древних людей — от живших несколько тысячелетий назад до «усть-ишимца» с предположительным возрастом около 45 тысяч лет, неандертальцев и «денисовки». Количество таких расшифровок растет все быстрее, что не может не вызывать оптимизма.  Вторая половина 2014 года особенно примечательна как количеством подобных публикаций, так и числом полных геномных NGS-сиквенсов древних людей, размещенных в публичных репозиториях (банках геномных данных). Так, в сентябре в Nature была опубликована окончательная версия работы Lazaridis et al. 2014  «Ancient human genomes suggest three ancestral populations for present-day Europeans». Работа получила широкое освещение в СМИ, поскольку аналитическая выборка сэмплов в этом исследовании включала значительное количествао заново генотипированных (на чипе Affymetrix HumanOrigin) образцов ДНК из древних палеолитических стоянок Сибири (Афонтова Гора, Малта), представителя древней индейской культуры Кловис и палеоэскимоса Cаккак. В работе был представлен  целый  ряд образцов древней ДНК представителей европейских мезолитических и неолитических культур, опубликованных в более ранних работах 2012-2014 годов: Skoglund et a. 2014 «Genomic Diversity and Admixture Differs for Stone-Age Scandinavian Foragers and Farmers»(шведские земледельцы и охотники собиратели эпохи неолита); Olalde et al. 2014 «Derived immune and ancestral pigmentation alleles in a 7,000-year-old Mesolithic European» (дДНК мезолитического населения Иберийского полуострова) и т.д.

Опубликованные геномы так и остались бы достоянием небольшой группы ученых, и по-прежнему бы использовались бы только для сравнения с абстрактными и анонимизрованных данными референсных популяций человека, если бы усилиями пары любителей (прежде всего усилиям Чандракумара) палеогеномы не были преобразованы в привычные и удобные для популяционного анализа форматы  BAM, VCF и Plink binary, а также в стандартный формат геномных данных от FTDNA. По своей сути, преобразование состояло в сложной процедуре сборки генома из библиотек коротких геномных ридов (в формате sra., в котором эти риды хранятся в репозиториях крупных баз геномных данных). Полученные сборки геномов в формате sam/bam cравниваются с референсным геномом человека, и отличающиеся одиночные нуклеотидные полиморфизмы сохраняются в VCF файл. Здесь нужно помнить о том, что в этой процедуре не учитывался параметр качества сиквенса PHRED score. Традиционно рекомендуется использовать только те базовые пары, PHRED score которых превышает 30, т.е чья точность определения составляет 99.9% (или 1 ошибка на 1000 базовых пар). Кроме того, в этой процедуре разработчик не учел влияние постмортальных изменений ДНК. Cледует помнить, что ДНК, как и любая биомолекула, способна вступать в химические реакции с окружающим миром, тут-то и появляются различные модификации нуклеотидов (особенно по краям фрагментов древней ДНК). Наиболее частая постмортальная мутация — дезаминирование цитозинов (C), приводящая к возникновению урацилов (U) в последовательности древней ДНК, которые при проведении ПЦР многократно копируются «бездушным» ферментом ДНК-полимеразой как тимин (Т). Именно по этой причине, при оценке достоверности снипов в полученных из палеогеномов вариантах особое внимание требуется уделять транзициям C->T и  G->A.  Если при подсчете вариантов окажется, что такие транзиции встречаются чаще ожидаемого, то можно сделать вывод о существенном повреждении палео-ДНК.  И хотя по причине игнорирования этих ограничений, автором было получено большое количество снипов, в некоторых случаях, например при объединении полученных данных NGS c данными генотипирования с помощью классических технологий миркочипов, использование таких данных может существенно уменьшить качество интерпретации.

Тем не менее, благодаря этим усилиям, и не в меньшей степени, благодаря соотрудничеству с порталом Gedmatch и компанией  FTDNA, большинство клиентов ведущих компаний на рынке персональной геномики и генетической генеалогии (таких как 23andme, и FTDNA) могут сравнить свои данные с данными древних геномов либо путем сравнения частото аллелей, либо посегментно сравнивая свои хромосомы с гомологичными хромосомами древних геномов.  Более того, Феликс Чандракумар пошел дальше и разместил 10 наиболее качественных палеогеномов (т.е палеогеномов с наибольшим числом перекрывающихся разными микроматрицами снипов) на FTDNA. Таким образом, с помощью сервиса MyOrigins FTDNA, исследователи могут установить распределение «этно-популяционных составляющих» или «предковых этнопопуляционных компонентов» в этих древних геномов. Нужно помнить, конечно же, что в случае с наиболее древними геномами (геномами неандертальца, усть-ишимца и т.д.) полученное распределение более молодых компонентов (полученных из современных популяций) нельзя интерпретировать буквально.


Эту замечательную функцию дополняют калькуляторы Eurogenes, благодаря которым любой интересующийся человек может посмотреть, какой процент его/ее генома приходится на тот или иной древний геном. Для людей, озабоченных вопросами анонимности, Феликс разработал отдельное десктопное приложение  — калькулятор древней ДНК. Этот калькулятор  показывает, какой процент ДНК (составных сегментов) аутосомной ДНК клиента попадает в каждый из 30 образцов древней ДНК . Другими словами, он показывает  процент общих предков в сравнении современного ДНК и палеоДНК.

Подводя итоги года, можно сказать, что в области изучения древней ДНК все ожидания были оправданы.


Эпигенетика

Под эпигенетикой обычно понимают область знаний о совокупности свойств организма, которые не закодированы непосредственно в геноме, но могут и должны передаваться по наследству.Эпигенетика может быть определена как изучение механизмов контроля активности генов во времени и пространстве в процессе развития сложных организмов. К настоящему времени обнаружены и описаны различные механизмы контроля активности генов, однако в уходящем 2014 году особое внимание ученые уделяли  изучению одного из таких механизмов  — ферментативному (энзиматическому) метилированию самой генетической матрицы, то есть ДНК.

Метилирование — это изменение молекулы ДНК путем присоединения метильной группы (-СH3) к нуклеотиду C, причем необходимо, чтобы за С следовал нуклеотид G. Последовательность нуклеотидов -CG- называется СpG динуклеотидом, или CpG сайтом. Метилирование происходит не во всех клетках одновременно, поэтому говорят о проценте метилирования определенного CpG сайта.метилирование ДНК ощутимо сказывается на её взаимодействии (связывании) с различными белками. Во многих случаях метилирование по цитозиновым остаткам препятствует связыванию специфично реагирующих с ДНК ядерных белков (факторов), которые, собственно, и осуществляют разные генетические процессы, в том числе транскрипцию, репликацию и репарацию.Как известно, метилирование играет важнейшую роль в механизме экспрессии (т.е качественном и количественном проявлени) генотипа в фенотип. оказано, что с изменением профиля метилирования связаны такие заболевания, как различные виды рака, диабет первого и второго рода, шизофрения и т.д. Поэтому важно уметь анализировать профиль метилирования генома, и здесь перед энзимологией расскрываются огромные перспективы. Например, в 2014 году компания «СибЭнзайм» открыла новый фермент, на базе которого разработали новый метод детекции. Он позволяет определять, включен или выключен интересующий вас ген — э то управляющий механизм в организме, именно отключение отдельных генов ученые связывают с развитием рака:

С технической точки зрения, изучение метиляции ДНК происходит с использованием модифицированного варианта ChiPSeq (это комбинированный вариант иммунопреципитации хроматина (ChIP) и высокоэффективного секвенирования ДНК для определения участков связывания ДНК и белков). Не вдаваясь в биолого-химические подробности этого модифицированного метода, его можно кратко описать следующим образом. Каждый CpG сайт измеряется с помощью двух флуоресцентных проб. Флуоресцентный сигнал проб пропорционален соответственно количеству метилированных и неметилированных CpG сайтов в тестируемом образце.  Полученные данные образуют собой профиль метилирования, который удобно сравнивать с различными референсными образцами. Как уже говорилось выше, этот профиль можно использовать не только для медицинских целей (например, для изучения эпигенетических факторов развития различных заболеваний), но и для более общих целей. В недавном исследовании, проведённом специалистами из Калифорнийского университета (UCLA), выявило биологические часы, встроенные в геном человека и оно впервые определило, что внутренние часы в состоянии точно оценить возраст различных человеческих органов, тканей и клеток. Исследователи обратили свое внимание на метилировании – естественном процессе, изменяющем химический состав ДНК. Он изучил 121 набор данных, собранных ранее исследователями, изучавшими метилирование здоровых и раковых тканей человека. Проанализировав информацию по 8000 образцов из 51 типа тканей и клеток со всего тела, исследователи смогли определить, как возраст влияет на уровни метилирования с рождения до 101 года. Он определил, что метилирование работает на 353 участках ДНК, которые изменяются с возрастом. Таким образом, профиль метилирования ДНК представляет собой наиболее надежную метрику для расчетов биологического возраста как отдельных органов, так и всего организма.

Принимая это во внимание, можно сказать что и в последующие года эпигенетику ожидают радужные перспективы.

Скрытые возможности клиентских данных 23andme в плане молекулярной диагностики.

Компания 23andme не нуждается в особом представлении читателям этого блога. Вплоть до конца прошлого года компанию занимало существенный сегмент рынка персональной геномики, ориентированного на предоставление  клиентам информации о генетических медицинских рисках (genetic risks) и генетической генеалогии (genetic origin). Информация о медико-генетических рисках содержалась в ряде сервисов портала компании, а также в доступном для скачивания отчета о генетических рисках и, разумеется, в первичных данных генетического отчета, в котором содержались значимые с точки зреемя медико-генетического диагностирования генетические полиморфизмы (SNP).

Всвязи с известными событиями и последующим за ними предписанием USA Food and Drug Administration (FDA) компании 23andme о запрете выпуска на рынок услуг персонального геномического диагностирования своего «медицинского девайза» (т.е интерпретации медико-генетических рисков развития заболеваний), компании пришлось сузить свою сферу деятельности до оказания генетико-генеалогических услуг.

Несмотря на это досадное обстоятельство, сказавшееся нелучшим образом на динамике увеличения клиентской базы компании,  нужно помнить, что все клиенты сохранили доступ к своим первичным данным тестирования (т.е списку снипов с генотипами). И при вдумчивом, творческом подходе любой человек может не только «вытащить» из этих «cырых данных» важную с точки зрения медицины информацию, но и заменить спомощью полученной информацией результаты более традиционных тестов.

Каковы могут быть варианты использования данных 23andmе не в привычных генеалогических целях, а скажем для получения сведений, который могут впоследствии пригодится для молекулярного диагностирования?

Я приведу пару примеров такого использования.

Определение HLA-фенотипа.

На мембране клеток организма присутствуют продукты генов всех локусов, размещенных на обеих нитях 6-й хромосомы.

 

bsl-hla1

 

Это означает, что HLA-гены наследуются по кодоминантному типу, т. е. одну хромосому ребенок наследует от матери, а другую – от отца. Как уже упоминалось, совокупность генов, расположенных на одной хромосоме, составляет гаплотип. Таким образом, у человека два гаплотипа и каждая клетка организма несет на себе диплоидный набор антигенов системы HLA, один из которых кодируется HLA-генами матери, а другой – отца. Исключение составляют половые клетки (яйцеклетка и сперматозоид), каждая из которых содержит в своем ядре только по одному гаплотипу.

Антигены гистосовместимости, выявляемые на клетках конкретного человека, составляют HLA-фенотип. Для его определения необходимо произвести фенотипирование клеток индивида. Как правило, “типируются” лимфоциты периферической крови. До настоящего времени в большинстве лабораторий HLA-A. В, С и DR-антигены определяют при помощи серологических методов, в частности, лимфоцитотоксического теста. тот тест основан на способности анти-НLА-антител в присутствии комплемента разрушать лимфоциты, несущие соответствующие антигенные детерминанты. Гибель клеток демонстрируется при помощи добавления трипанового синего. При этом мертвые поврежденные клетки окрашиваются, и под микроскопом учитывается их количество.

Эти тесты часто требуются в ходе стандартных медицинских процедур обследования во время начала беременности, или для изучения этологии аутоимунных заболеваний. Еще более важно определение гистосовеместимости в транплантологии, где типирование HLA-фенотипа  донора является обязательным условием.

Однако, с приходом новых микроматричных технологий опеределния нуклеотидов ДНК и биоинформатических методов рутинной обработки последовательности человеческих геномов , появился дешевая и относительно простая альтернатива классическим серологическим тестам (которые стоят в интервале от 100 до 500 долларов).

Я не буду останавливаться на принципиальном описании процедур, с помощью которых на основании данных 23andme можно с помощью метода «импутирования» определить HLA-фенотип, так как в прошлом году я уже разместил в этом блоге пошаговую инструкцию для выполнения этой задачи.

Впрочем, уже после того, как  я отписался на эту тему здесь,  в департаменте биостатистики Университета Вашингтона был разработан алгоритм HIBAG который принципиально мало чем отличается от алгоритма HLA*IMP (в обеих алгоритмах используется training model, позволяющая определять фенотип HLA по снипам 23andme).  Входные данные программного решения этого алгоритма (язык R) представляют собой формат Plink. А так как в последней версии Plink была включена нативная поддержка формата 23andme, то преобразовать данные 23andme в бинарный формат Plink не сооставит особого труда. Что касается обработки данных в HIBAG, то примерный порядок выполнения команд выглядит следующим образом:

# Load the published parameter estimates from European ancestry
model.list <- get(load(«European-HLA4.RData»))#########################################################################
# Import your PLINK BED file
#
yourgeno <- hlaBED2Geno(bed.fn=».bed», fam.fn=».fam», bim.fn=».bim»)
summary(yourgeno)

# HLA imputation at HLA-A
hla.id <- «A»
model <- hlaModelFromObj(model.list[[hla.id]])
summary(model)
# HLA allele frequencies
cbind(frequency = model$hla.freq)

# SNPs in the model
head(model$snp.id)
# «rs2523442» «rs9257863» «rs2107191» «rs4713226» «rs1362076» «rs7751705»
head(model$snp.position)
# 29525796 29533563 29542274 29542393 29549148 29549597

# best-guess genotypes and all posterior probabilities
pred.guess <- predict(model, yourgeno, type=»response+prob»)
summary(pred.guess)
pred.guess$value
pred.guess$postprob

 
 

Панель метилирования Яско

В последние 10 лет, крупные генетические исследования выявили сотни генных мутаций, которые возникают чаще у аутичных пациентов, чем в общей популяции. Тем не менее, каждый пациент имеет только одну или несколько из этих мутаций, что затрудняет разработку лекарств против болезни. В настоящее время, изучением генетических факторов аутизма занимается большое количество врачей-генетиков,  одним из них является доктор Эми Яско занимается исследованиями генных мутаций у аутистов. Как показали многочисленные молекулярно-генетические обследования и спектрометрия аминокислот, органических кислот и карнитинов, значительное количество аутистов страдает метаболическими нарушениями.  Есть виды аутизма, вызываемые именно этими генетическими нарушениями обмена вещест.

Доктор Эми Яско разработала тест на панель метиляции Яско — тест этот дорогой, стоит 500 долларов, в этой проверяют что-то около 30 генных полиморфизмов (снипов). Выбор снипов в этой панели мотивирован тем, что эти снипы связаны с  определенными генами на «молекулярно-биохимическом пути метиляции» (methyliation pathway),  т.е генами которые влияют на способность организма выполнять ряд ключевых биохимических функций. Наличие генетических дисбалансовт.е снипов в пути метиляции, будет ограничивать эффективность пути метиляции.

 

Yasko-Methylation-Pathway

 

К счастью клиентов 23andme, чипсет снипов этой компании включает в себя если не все, то большую часть снипов панели Яско.
Один из проектов, возникший всвязи с неудовлетворенной потребностью клиентов в более развернутой и детальной обработке данных 23andme
, Genetic Genie предлагает  условно-бесплатный сервис с помощью которого данные релевантных снипов можно привести к  традиционному виду таблицы с отчетом по панели Яско:

Gene & Variation rsID Alleles Result
COMT V158M rs4680 AA +/+
COMT H62H rs4633 TT +/+
COMT P199P rs769224 GG -/-
VDR Bsm rs1544410 CC -/-
VDR Taq rs731236 __ no call
MAO-A R297R rs6323 TT +/+
ACAT1-02 rs3741049 AG +/-
MTHFR C677T rs1801133 GG -/-
MTHFR 03 P39P rs2066470 AG +/-
MTHFR A1298C rs1801131 GG +/+
MTR A2756G rs1805087 AA -/-
MTRR A66G rs1801394 GG +/+
MTRR H595Y rs10380 CC -/-
MTRR K350A rs162036 AA -/-
MTRR R415T rs2287780 CC -/-
MTRR A664A rs1802059 AG +/-
BHMT-02 rs567754 CC -/-
BHMT-04 rs617219 AA -/-
BHMT-08 rs651852 __ no call
AHCY-01 rs819147 __ no call
AHCY-02 rs819134 __ no call
AHCY-19 rs819171 __ no call
CBS C699T rs234706 GG -/-
CBS A360A rs1801181 __ no call
CBS N212N rs2298758 __ no call
SHMT1 C1420T rs1979277 __ no call

Несмотря на то, что на выходе клиент получает  готовый частный отчет по тесту Яско, медико-биологическая интерпретация результатов не так уж и проста, и требует определенной интеллектуальной сноровки и общегенетической эрудиции в плане понимания того, какую функцию выполняет тот или иной ген. Строго говоря, при грамотной интерпретации этих результатов, можно самостоятельно составить себе диету из витаминов-пищевых добавок, которые позволяет компенсировать обусловленный генетическим дисбалансом дефицит тех или иных энзимов.Примерный образец интерпретации можно посмотреть здесь

 

 

Алгоритм самостоятельного анализа результатов экзомного тестирования

Осенью 2011 года один из флагманов коммерческой персональной геномики, компания 23andme, запустила пилотный проект экзомного тестирования, в котором клиентам предлагался продукт — экзомный тест за 999 американских долларов вместе с интерпретацией результатов.  Тест покрывал примерно 50 млн. базовых пар ДНК, включающих в себя информацию необходмую для синтеза протеинов. К сожалению, пилотный проект быстро закрылся из-за отсутствия интереса и высокой стоимости теста. Тем не менее, некоторые из россиян успели заказать себе этот тест и получить результаты. Но так как авторизированный отчет 23andme с толкованием полученных результатов оказался написанным на сложном для понимания эзотерическом научном языке,  возникла необходимость в дополнительной интерпретации, вернее разжевывании имеющейся интерпретации, то я решил показать, как можно проанализировать экзом самостоятельно с помощью подручных средств.

В качестве примера я использую анонимизированный файл vcf (файл с перечнем геномных вариантов) одного из немногих россиян, заказавших экзомное тестирование в 23andme.

 

Техническое описание исследования.

Для анализа экзома я использовал NGS-библиотеки пакета Bioconductor-R (в среде статистических вычислений R), предназначенного для анализа полногеномных данных. Основной библиотекой, задействованной в анализе была библиотека variantAnnotation.

source(«http://bioconductor.org/biocLite.R&#187;)

library(VariantAnnotation)

Загрузка требуемого пакета: BiocGenerics

Загрузка требуемого пакета: parallel

Присоединяю пакет: ‘BiocGenerics’

Загрузка требуемого пакета: GenomicRanges

Загрузка требуемого пакета: IRanges

Загрузка требуемого пакета: XVector

Загрузка требуемого пакета: Rsamtools

Загрузка требуемого пакета: Biostrings

Присоединяю пакет: ‘VariantAnnotation’

В самом начале я загрузил заархивированный файл x.vcf в память с использованием координат геномного билда hg19 (т.к. VCF был получен из bam-файла, координаты которого были взяты из GRCh37.64, соответствующего hg19):
> vcf <- readVcf(«x.vcf», «hg19»)

> vcf

class: CollapsedVCF

dim: 110651 1

rowData(vcf):

  GRanges with 5 metadata columns: paramRangeID, REF, ALT, QUAL, FILTER

info(vcf):

  DataFrame with 28 columns: AB, AC, AF, AN, BaseQRankSum, DB, DP, DS, Dels,.

geno(header(vcf))

DataFrame with 5 rows and 3 columns

        Number        Type

   <character> <character>

AD           .     Integer

DP           1     Integer

GQ           1       Float

GT           1      String

PL           .     Integer

head(rowData(vcf), 3)

GRanges with 3 ranges and 5 metadata columns:

             seqnames         ranges strand | paramRangeID            REF

                <Rle>      <IRanges>  <Rle> |     <factor> <DNAStringSet>

  rs79585140        1 [14907, 14907]      * |         <NA>              A

  rs75454623        1 [14930, 14930]      * |         <NA>              A

  rs78601809        1 [15211, 15211]      * |         <NA>              T

                            ALT      QUAL      FILTER

             <DNAStringSetList> <numeric> <character>

  rs79585140                  G    494.81  MQFilter40

  rs75454623                  G    718.96  MQFilter40

  rs78601809                  G    125.22  MQFilter40

Затем я определил качество полученных генотипов (эти данные содержаться в колонке GQ секции генотипов vcf). Как видно из приведенных ниже значений, только 52% всех генотипов имеют 99%  степень аккуратности определения, качество остальных 48% вариантов лежит в диапазоне между 0 и 90% процентами. 

> geno(vcf)

List of length 5

names(5): AD DP GQ GT PL

> GQ <-geno(vcf)$GQ

> dim(GQ)

[1] 110651      1

> geno(vcf)

List of length 5

names(5): AD DP GQ GT PL

> GQ <-geno(vcf)$GQ

> dim(GQ)

[1] 110651      1

> fivenum(GQ)

[1]  0.03 33.98 99.00 99.00 99.00

> length(which(GQ==99.00))/length(GQ)

[1] 0.5221552

 hist(GQ[GQ != 0], breaks=seq(0, 100, by=10)

qc

На следующем этапе я опредилил число ранее неизвестных (новельных, то есть отствующих в базе dbSNP) вариантов в файле VCF. Всего вариантов 110651, из них известных 106076 и новельных 4575 (в отчете 23andme 4137). В целях определения качества новельных снипов я создал метрику для оценки качества снипов на основе сопоставления двух параметров – качества глубины покрытия генома и качества генотипирования. Из приведенного ниже графика видно, что примерно 25 % новельных снипов находятся в зоне низкого качества глубины покрытия, и это означает что примерно четверть новельных снипов могут представлять собой артефакт генотипирования:

info(vcf)$DB -> dbsnpsnp

metrics <- data.frame(QUAL=qual(vcf), inDbSNP=dbsnpsnp, RSQ=info(vcf)$QD)

 

qdПосле предварительных статистических тестов, я приступил к определению генов, в которых были обнаружены варианты. В зависимости от своего расположения, варианты могут оказаться в одном из 7 участков: интрон,  кодирующий участок, 5’UTR, 3’UTR, интергенный регион, сплайс-сайт и промоутер.   Для обнаружения положения вариантов, я задействовал библиотеку TxDb.Hsapiens.UCSC.hg19.knownGene.  Сначала я определил положение всех вариантов (cм.  Excel файл exomevariants.xlsx), однако поскольку нас интересует в первую очередь frameshift мутации, то гораздо более информативным является нахождение вариантов в кодирующих участках. Всего таких вариантов в кодирующих участка обнаружено 56035 в 23140 генах, причем 989 из 23140 генов имеет больше одного обнаруженного варианта в кодирующем участке

library(TxDb.Hsapiens.UCSC.hg19.knownGene)

txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene

loc <- locateVariants(rd, txdb, CodingVariants())

table(sapply(splt, function(x) length(unique(x)) > 1))

FALSE  TRUE

22151   989

Далее, я использовал функцию predictCoding, она вычисляет изменения кодирования аминокислот в несинонимичных вариантах. В запросе к базе данных рассматрываются только те участки , которые перекрываются с кодирующей областью. Референсные последовательности извлекаются из BSgenome. Вариант последовательности определяется путем замены, вставки или удаления значения в колонке varAllele в референсной последовательности.  Код аминокислот вычисляются для последовательности кодонов  в тех вариантах, когда длина кратна 3.

library(BSgenome.Hsapiens.UCSC.hg19)

coding <- predictCoding(vcf, txdb, seqSource=Hsapiens)


Затем из полученных 56035 вариантов в кодирующей области я выбрал только те, которые привели к сдвигу рамки чтения (таковых оказалось 412).

coding[mcols(coding)$CONSEQUENCE == «frameshift»]

Благодаря запуску функции predictCoding я отождествил код измененных аминокислот для не-синонимичных вариантов.  Анализируя это подмножество, я задался целью установить, какой физиологический ущерб эти изменения кодируемых аминокислот могут нанести при экспресии в фенотип.  Для этих целей я использовал методы PolyPhen, которые предсказывают последствия замены аминокислот в человеческих протеинах.  PolyPhen использует информарцию о функции последовательностей и структурную информацию, характеризующую замену аминокислоты для прогнозах о структуре и функции белка.

nms <- names(coding)

idx <- mcols(coding)$CONSEQUENCE == «nonsynonymous

nonsyn <- coding[idx]

rsids <- unique(names(nonsyn)[grep(«rs», names(nonsyn), fixed=TRUE)])

library(PolyPhen.Hsapiens.dbSNP131)

pp <- select(PolyPhen.Hsapiens.dbSNP131, keys=rsids,cols=c(«TRAININGSET», «PREDICTION», «PPH2PROB»))

head(pp[!is.na(pp$PREDICTION), ])

Полученные файлы сохранены в Excel файл x.xlsx, и затем подсчитано в каких протеинах наблюдается наибольшое число потенциально вредных frameshift мутаций

Название гена  Число frameshift мутаций

 

NA 2288
uc001lsw.2 44
P20930 34
P22105-3 21
P25940 13
O60732 12
Q5SSG8 10
Q86YZ3 10
Q9NYF8 9
P46013 9
Q5VU43 9
Q14500 9
Q9UMD9 8
O14513 8
A6NKC6 8
uc003ssj.2 7
O95678 7
O15360 7
Q86VF7 7
uc001mdw.3 6
Q9Y289 6
Q8NEZ4 6
Q96C45 6
Q9HD43 6
Q01955 6
Q2KHM9 6
Q701N2 6
P38570 6
P24821 6
P46734 6
Q9Y2K3 5
uc002vwl.2 5
uc002nfb.2 5
uc003nsm.1 5
Q9UNS1 5
Q9NZH6 5
D3DSV6 5
C9IYD7 5
P20853 5
Q14676 5
P38159 5
P35125 5
P35670 5
Q8N6F8 4
Q96Q06 4
uc001bvt.2 4
uc011dxu.1 4
uc004csb.2 4
Q8TE73 4
Q9H2D6 4
uc002yfm.2 4
Q96J66 4
uc002zag.1 4
Q8TB24 4
Q96RN1 4
Q99572 4
Q9C0D2 4
uc002zwe.2 4
Q9ULD2 4
Q8WXH0-2 4
uc003uhx.2 4
O95050 4
O75128 4
P02533 4
A3KMH1 4
Q5HYK9 4
P48634 4
O15069 4
Q8IUA7 4
Q16600 4
P60331 4
Q5D862 4
B7ZBR5 4
Q5KU26 4
Q12802-2 4
A8MTL4 4
P23327 4
Q7Z3S9 4
O75096 4
A1A5D9 4
Q15149 4
P54257-2 4
uc001saw.2 3
Q96PX6 3
Q9BWT7 3
Q9H0J4 3
uc001kgr.1 3
Q9H0U9 3
uc002uln.2 3
Q8TD33 3
Q9BYR5 3
Q9H339 3
Q9Y6R7 3
Q8N808 3
Q96RW7 3
uc003wcz.2 3
uc002fmv.2 3
Q8N865 3
uc002ycq.2 3
Q92954 3
uc003eee.3 3
Q9NQN1 3
Q9UQ84 3
Q9NQT5 3
Q96PX9 3
Q8NC74 3
Q8NGH7 3
uc011lix.1 3
Q8NH40 3
Q9NWH7 3
uc001rks.2 3
Q96EZ4 3
uc001wit.3 3
Q8N436 3
Q8TAX7 3
Q9P126 3
Q99954 3
Q9UI47 3
Q9BRB3 3
Q9UIU6 3
Q9BYQ6 3
Q96JF6 3
uc003kju.2 3
Q96L96 3
Q8N1N5 3
Q96PQ1 3
Q9H4A3 3
uc003zfz.2 3
Q9HCE0 3
uc010ebn.2 3
Q9HCS5 3
Q9NQG7-3 3
Q5JU00 3
Q6ZW33 3
Q6E0U4 3
O60500 3
O94900 3
P56945 3
Q5VIY5 3
P57679 3
Q6PFW2 3
A2I2N5 3
O60269 3
P60369 3
O15016 3
P60371 3
Q5QNZ9 3
P78334 3
Q5VY09 3
O75056 3
Q6NTE8 3
Q02386 3
Q6XYB7-2 3
Q07092 3
Q75N90 3
Q07157 3
P51689 3
Q08170 3
Q4G0N8 3
Q12789 3
P35908 3
C9JIP1 3
C9JLR2 3
Q12889 3
B9EIK7 3
Q13033 3
P11473 3
Q13635 3
Q685J3 3
Q14246 3
Q6H9L7 3
O14617 3
Q6PEW0 3
P27816 3
Q6UWM9 3
Q15051 3
Q6ZS72 3
Q15084 3
P13645 3
P27987 3
P47881 3
Q15345 3
P49747 3
P30926 3
Q17RW2 3
Q02447 3
uc002ckw.2 2
Q9BYQ4 2
uc002xvf.2 2
Q9H1I8 2
uc009zoy.1 2
Q9H1M4 2
uc002npq.1 2
Q92764 2
uc003cbl.3 2
Q92766-2 2
Q8NDY8 2
Q8N568 2
uc001say.2 2
Q9HBR0 2
uc002hwr.2 2
Q9HC10 2
uc002qoi.1 2
Q9HCC9 2
uc002yxk.1 2
Q92956 2
Q9BX84 2
Q9HCH5-8 2
uc003tcj.1 2
Q969J2 2
uc003xza.2 2
Q8NG08 2
uc010neg.1 2
Q9NP71 2
Q96SK3 2
Q9NPR9 2
Q99518 2
Q9NQ92 2
uc002mdk.2 2
uc010ooe.1 2
uc002oyh.1 2
Q96DS6 2
Q8N531 2
Q8NGF6 2
Q9BS92 2
Q9NQW5 2
uc002zwc.1 2
uc010sxc.1 2
uc003cwg.3 2
Q96GX9 2
Q9BYD2 2
Q8N146 2
uc003qtl.2 2
Q9NU22 2
Q8WXA2 2
Q9NV39 2
uc003xio.3 2
Q96JA4 2
Q8WXU2 2
Q9NY99 2
uc010cov.2 2
Q8NGV6 2
uc001sax.2 2
Q9NYQ6 2
uc001sck.2 2
Q96JM2 2
uc001zrt.2 2
Q9NZM3 2
uc002cyd.1 2
Q96KT7 2
uc002frs.1 2
Q9P2F8 2
uc002jjm.3 2
Q9UBK8 2
Q8TD19 2
Q9UGC7 2
uc002oxx.2 2
Q96KV7 2
uc002pdw.2 2
Q8NH01 2
uc002shl.3 2
Q9UK85 2
Q9BQ66 2
Q96LB9 2
Q8TE60 2
Q96LP6 2
uc002yip.1 2
Q96MC2 2
Q9BW66 2
Q9UPR6 2
Q8ND61 2
Q96NY9 2
uc003cpb.3 2
Q9Y237-2 2
uc003dnv.2 2
Q8N3K9 2
uc003gix.2 2
Q8N1A6 2
uc003lwz.2 2
Q8TAX9-3 2
uc003pgu.3 2
uc001aru.2 2
Q8WWF5 2
Q96PY6 2
uc003tpz.2 2
uc001dpq.2 2
uc003vuk.3 2
uc001drv.2 2
uc003wsh.3 2
uc001jrr.3 2
uc003xkm.1 2
Q8NA69 2
Q9GZP7 2
Q96QA5 2
uc009vzo.2 2
Q96RD9 2
uc010azk.1 2
uc001qnn.1 2
Q9H0R5 2
Q8TBZ5 2
Q8WZ92 2
Q8TCU5 2
Q9NRD8 2
Q5T9A4 2
Q6ZRI6 2
B9EGI0 2
O75830 2
Q86VW1 2
C9J2Y8 2
Q658L1 2
C9JF86 2
Q6PEY2 2
P60412 2
Q7RTR8 2
O95153 2
Q8IYM2 2
O95255 2
O60391 2
O95425 2
Q6DT37 2
Q8IZ20-2 2
Q6NXP2-2 2
O95460-2 2
P50226 2
A6NMZ7 2
P54253 2
O95786 2
Q86TB3 2
Q0P670 2
P59827 2
Q0VAR9 2
Q5T6X5 2
Q0VDD8-4 2
O60336 2
O95817 2
O60423-2 2
A6PVS8 2
Q68DN1 2
P04439 2
O60602 2
A8MSH3 2
Q6NV75 2
Q13427 2
Q6P6B7 2
A8MSQ1 2
Q6PXP3 2
Q14028 2
Q6ZMY3 2
Q14031-2 2
Q6ZTY8 2
P15822 2
B9ZVK6 2
P15848 2
Q7Z570 2
P17931 2
Q86UQ0 2
Q14929 2
Q86XA9 2
P20742 2
Q8IYG6 2
A8MT70 2
P60014 2
A8MT77 2
Q5T8R8 2
O14830 2
Q5TZA2 2
Q15643 2
Q5VTH9 2
P23141-2 2
Q5VV43 2
P23280 2
Q5W0A0 2
Q24JP5-2 2
O60443 2
A6ND91 2
Q6BDS2 2
Q2M243 2
A6NE01 2
Q32MH5 2
Q6IMN6 2
Q32P51 2
Q6NUI1 2
Q3L8U1-2 2
Q6NWU0 2
Q499Z3 2
Q6P3X3 2
O15018 2
A6NEL2 2
Q4G0P3 2
O75081 2
Q4LDE5 2
Q6U949 2
Q58DX5 2
P50238 2
Q58EX7 2
Q6ZN79 2
Q5D0E6 2
O75095 2
P25391 2
P54108 2
A9UL12 2
Q70EL2 2
Q5JTH9 2
Q76I76 2
B4E1X0 2
P56545-2 2
Q5JUB6 2
Q7Z6J9 2
O15389 2
Q86TY3 2
O43164 2
A5PLN7 2
B5MDQ5 2
Q86W24 2
Q5T035 2
O75376 2
Q5T036 2
Q8IUX4 2
Q5T0J7 2
Q8IYK2 2
Q5T124 2
Q8IYS4 2
Q5T1M5 2
Q5T6F2 2
Q12955 2
uc003xax.3 1
uc002eax.2 1
uc001dwa.2 1
Q96JL9 1
uc003aka.2 1
Q8N9L9 1
Q9Y2Y8 1
Q96JQ0 1
uc001rig.1 1
Q96KD3 1
Q92889 1
Q8N9R8-2 1
uc003mtg.2 1
Q8N9T8 1
Q96HJ3 1
Q96L50 1
Q9Y623 1
Q8N386 1
uc001law.2 1
Q8NA82 1
uc001whc.2 1
Q96LI9 1
uc002lvh.2 1
Q8NAT2 1
Q93075 1
Q96LW7-2 1
uc003fpa.2 1
Q96LW9 1
uc003sys.2 1
Q96M29 1
uc004bmg.1 1
Q96M89 1
Q9Y2G2 1
Q96M91 1
Q9Y566 1
Q8NC38 1
uc001abz.3 1
Q96MG8 1
uc001hfx.2 1
Q96MK3 1
uc001mty.2 1
Q96MY7 1
uc001stk.2 1
Q96N77 1
uc002aon.2 1
Q8N3D4 1
Q92583 1
Q96P69 1
Q8N323 1
Q96PC2 1
uc002sfp.2 1
Q96PD4 1
Q969T7 1
Q96PE6 1
Q96AQ6 1
Q96PH1 1
uc003hti.2 1
Q96PL5 1
uc003ntp.1 1
Q96PN7 1
uc003vsp.2 1
Q8NCW5 1
uc003yyy.2 1
Q96PQ7 1
uc009wcm.2 1
Q8N196 1
uc010jzk.1 1
Q8NDN9 1
Q8WUP2 1
Q8NDX1 1
Q9Y442 1
Q8NDX9 1
Q9Y5P1 1
Q8N3Y1 1
Q9Y6J0 1
Q96QD9 1
uc001cqe.3 1
Q96QE3 1
uc001fgr.1 1
Q96QI5 1
Q8WW52 1
Q8NDZ6 1
uc001mgt.2 1
Q96RG2 1
uc001qyz.3 1
Q96RL6 1
Q8WXD5 1
Q8NE62 1
uc001urv.2 1
Q96RP7 1
uc001zhi.2 1
Q8NEG0 1
uc002cmq.1 1
Q96S42 1
Q92543 1
Q96SB8 1
uc002iob.2 1
Q8NEQ5 1
uc002mkl.2 1
Q96SN8 1
uc002oqh.1 1
Q96ST8 1
Q92935 1
Q96SZ5 1
uc002unu.2 1
Q96T17 1
Q8N8C0 1
Q99456 1
Q969X1 1
Q8NEV8 1
uc003cna.3 1
Q8N412 1
Q96AY2 1
Q99595 1
Q96BF3 1
Q99678 1
uc003knc.2 1
Q99705 1
uc003nif.3 1
Q99707 1
Q8N910 1
Q99856 1
Q96E39 1
Q8NFD2 1
Q8N960 1
Q8NFT2 1
Q96FX8 1
Q9BQI5 1
uc003zsj.2 1
Q9BR39 1
uc009vnn.1 1
Q9BR77 1
Q96HD9 1
Q8NFV5 1
Q96HP8 1
Q9BRQ8 1
Q8N9H6 1
Q8NFZ6 1
Q9Y2I6 1
Q9BSA9 1
Q9Y2R9 1
Q9BT25 1
Q9Y3N9 1
Q9BU76 1
Q9Y4K0 1
Q9BUV0 1
Q9Y5E3 1
Q9BVL2 1
Q9Y5T5 1
Q9BVP2 1
Q9Y6C9 1
Q8NG04 1
Q9Y6S9-2 1
Q9BWD1 1
uc001bfk.2 1
Q9BWH6 1
Q8WW01 1
Q9BWN1 1
uc001epm.3 1
Q8N434 1
uc001ggg.1 1
Q9BWW9 1
uc001ikw.3 1
Q9BX26 1
Q8N715 1
Q8NG31-2 1
uc001lvm.2 1
Q9BXA9 1
uc001mjv.2 1
Q9BXI2 1
Q8WWU7 1
Q9BXI9-2 1
uc001rdt.2 1
Q9BXL6 1
uc001sah.1 1
Q9BXR5 1
uc001saz.2 1
Q9BXT6 1
uc001ugs.3 1
Q9BXT8 1
uc001vmt.2 1
Q9BXW6 1
uc001wja.2 1
Q9BY07 1
Q8WYQ9 1
Q8NGD2 1
uc002axo.2 1
Q9BYH1 1
uc002dai.3 1
Q9BYJ0 1
uc002flb.2 1
Q8NGD4 1
uc002hjn.2 1
Q8N123 1
uc002hzw.2 1
Q9BYR3 1
Q92610 1
Q8N475 1
uc002mdo.3 1
Q9BZE2 1
uc002nhl.1 1
Q9BZJ0 1
uc002oek.2 1
Q9BZJ3 1
Q92794 1
Q9BZY9 1
uc002pgj.1 1
Q9C000 1
uc002rxt.1 1
Q8NGI3 1
uc002spl.1 1
Q9C0D6 1
uc002vfa.2 1
Q9C0G6 1
uc002wtp.2 1
Q9C0J9 1
Q969S8 1
Q8NGJ0 1
uc002zji.3 1
Q9GZS9 1
uc002zxx.2 1
Q9GZU2 1
uc003cfi.1 1
Q9H063 1
Q96AP0 1
Q9H094 1
uc003dar.2 1
Q8NGK0 1
uc003eny.2 1
Q9H0M4 1
uc003fts.2 1
Q8NGV0 1
uc003gxu.2 1
Q9H0U6 1
uc003jig.2 1
Q8N4B4 1
Q96BJ8-3 1
Q9H190 1
uc003mwv.2 1
Q8NGX0 1
Q96BT3 1
Q9H1L0 1
uc003nzw.2 1
Q8NGY9 1
Q96CB5 1
Q9H1V8 1
Q8N957 1
Q9H201 1
Q96E52 1
Q9H205 1
uc003vvi.2 1
Q9H208 1
Q96F05 1
Q9H222 1
uc003xda.2 1
Q9H2B4 1
Q96GQ7 1
Q8N4T4 1
uc003zjw.2 1
Q9H306 1
uc004aid.2 1
Q8N4W9 1
Q8N9B5 1
Q9H347 1
uc009vxy.2 1
Q9H3S1 1
uc009yor.2 1
Q8NHC8 1
uc009zxk.2 1
Q9H4I0 1
Q96HP0 1
Q9H4M7 1
uc010fxm.1 1
Q9H583 1
uc010lpr.1 1
Q9H5L6 1
Q9Y2F5 1
Q9H6S0 1
Q9Y2H0-1 1
Q9H6Y2 1
Q9Y2K1 1
Q9H720 1
Q9Y2K9 1
Q9H816 1
Q9Y2T7 1
Q9H8X2 1
Q9Y345 1
Q9H9Y2 1
Q9Y3T6 1
Q9HAT1 1
Q9Y485 1
Q9HBF5 1
Q9Y508 1
Q9HBJ7 1
Q9Y585 1
Q9HBL0 1
Q9Y5E6 1
Q9HBM0 1
Q9Y5P3 1
Q8NHL6-3 1
Q9Y5W3 1
Q9HBW9 1
Q9Y644 1
Q8NHY0 1
Q9Y6G9 1
Q8NHY3 1
Q8WV93 1
Q8NI17-2 1
Q9Y6X5 1
Q9HCG8 1
Q8WVE6 1
Q8NI35 1
Q8WVT3 1
Q8N4X5 1
uc001doh.2 1
Q9HCX3 1
Q8WW43 1
Q8N1N2 1
uc001dzr.2 1
Q9NNX1 1
uc001ffh.2 1
Q9NP70 1
uc001fst.1 1
Q8TAZ6 1
uc001hdj.2 1
Q9NPB3 1
uc001hob.3 1
Q9NPB6 1
uc001ioo.2 1
Q9NPG4 1
uc001kal.3 1
Q8TB03 1
uc001koi.2 1
Q8N1N4 1
Q8WWK9 1
Q9NQC3 1
Q8WWQ8 1
Q8TB52 1
uc001mhb.3 1
Q8N5C6 1
uc001mqw.2 1
Q9NQS7 1
uc001nps.2 1
Q8TC84 1
uc001qvk.1 1
Q9NQW1 1
uc001qzt.2 1
Q8TCG1 1
uc001rgh.2 1
Q9NR11-2 1
Q8N7M2 1
Q9NR20 1
Q8WXB1 1
Q9NRC9 1
Q8WXG8 1
uc010otd.1 1
Q8N7Q3 1
Q8TCU4 1
uc001swc.3 1
uc010xwr.1 1
uc001uom.2 1
Q8N5H7 1
uc001usl.3 1
Q8TCY9 1
uc001vwo.1 1
Q9NRY5 1
Q8N7U7 1
Q9NU02 1
uc001wph.3 1
Q8TD07 1
uc001zif.2 1
Q9NV12 1
uc002adi.2 1
Q8N5W8 1
uc002ari.2 1
Q9NVI1 1
Q8N7X4 1
Q9NVL8 1
Q92485 1
Q9NVR5 1
uc002eab.2 1
Q9NVV2 1
uc002elh.2 1
Q8TD31-2 1
Q92535 1
Q9NWN3 1
uc002gov.3 1
Q9NWS6 1
uc002hwb.2 1
Q9NWS9 1
uc002hzv.2 1
Q9NX76 1
uc002ile.3 1
Q8N628 1
uc002jad.2 1
Q9NYA4 1
uc002knr.2 1
Q8TDM6 1
Q92614 1
Q9NYG8 1
uc002mkc.2 1
Q9NYK6 1
Q8N309 1
Q8TDR0-2 1
uc002niv.2 1
Q9NYQ8 1
uc002nrk.3 1
Q9NYR8 1
uc002onr.2 1
Q9NYW5 1
uc002owt.2 1
Q9NZ56 1
uc002oyf.1 1
Q9NZC7 1
Q92932 1
Q8TDV0 1
uc002pjn.2 1
Q8TDX9 1
uc002red.2 1
Q9NZM4 1
uc002sen.3 1
Q9NZP2 1
Q8N884 1
Q9NZP6 1
Q8N8A6 1
Q9NZQ3 1
uc002vcz.2 1
Q9NZQ8 1
uc002vml.2 1
Q9P0L9 1
uc002wgf.1 1
Q9P0W8 1
Q969H9 1
Q8TDY8 1
Q969Q4 1
Q9P1Z2 1
Q969T3 1
Q9P212 1
uc002zcm.2 1
Q9P266 1
uc002zsk.1 1
Q9P272 1
Q96A59-2 1
Q9P275-2 1
uc003afo.2 1
Q9P2A4 1
Q96A84-3 1
Q9P2E9-3 1
uc003cib.2 1
Q8TE59 1
uc003com.2 1
Q9P2X7 1
uc003cqx.2 1
Q9UBC7 1
uc003cxg.2 1
Q8N183 1
Q96AQ9 1
Q9UBS4 1
uc003eev.3 1
Q9UBU2 1
uc003fli.1 1
Q9UDX4 1
uc003frm.2 1
Q9UFP1 1
uc003gco.3 1
Q8TE68 1
uc003gkv.3 1
Q9UGP5 1
uc003hqx.3 1
Q9UH36 1
uc003ian.3 1
Q9UH92 1
Q96BH3 1
Q9UHF4 1
uc003lnj.2 1
Q9UHN6 1
uc003mlz.3 1
Q8N6I1 1
uc003mwa.3 1
Q9UIS9 1
uc003nef.2 1
Q8TEC5 1
uc003nkt.2 1
Q9UJ78 1
uc003ntn.3 1
Q9UJA3 1
uc003nvm.1 1
Q9UJL9 1
uc003ods.2 1
Q9UJW7 1
uc003qtf.2 1
Q8TER0 1
Q96DA0 1
Q9UKB5 1
uc003tbm.2 1
Q9UKP4 1
uc003toq.2 1
Q9UL01 1
uc003tzn.2 1
Q9UL49 1
uc003vrz.2 1
Q9UL52 1
Q96EK5 1
Q8TER5 1
uc003wcr.1 1
Q9ULE4 1
uc003wkp.2 1
Q9ULE6 1
uc003wwm.2 1
Q9ULI1 1
uc003xcu.2 1
Q9ULI3 1
uc003xep.1 1
Q9ULM0 1
Q96G42 1
Q8TEV9 1
uc003yyd.2 1
Q9UMR7 1
Q96GU1 1
Q9UMS0 1
uc003zlr.1 1
Q9UMX9 1
uc004aay.2 1
Q9UNI1 1
uc004atg.3 1
Q9UNK9 1
uc004can.3 1
Q9UNQ0 1
uc004ded.1 1
Q8TEX9 1
uc009vvi.2 1
Q9UPA5 1
Q96HA7 1
Q9UPN6 1
uc009ynk.2 1
Q9UPP2-2 1
uc009zhj.2 1
Q8TF21 1
uc009zwi.2 1
Q9UPV0 1
uc010awk.1 1
Q9UQ35 1
uc010boe.2 1
Q9UQ74 1
uc010eas.2 1
Q8TF76 1
uc010fvs.1 1
Q9UQ90 1
uc010inb.2 1
Q9UQP3 1
uc010ljy.1 1
Q8WTP8 1
Q8N9F8 1
Q8WTV0-2 1
Q8N9H9 1
Q9Y2A4 1
uc010wmr.1 1
Q9NRH2 1
uc010yvx.1 1
Q9NRP7 1
uc011jvp.1 1
Q9NRR1 1
Q8N0W5 1
Q9NRR4 1
Q8IX07 1
Q6P461 1
Q5TCM9 1
P19075 1
P10515 1
P19484 1
Q5JZ73 1
P19878 1
Q66K79 1
P19971 1
Q6W5P4 1
P20138 1
Q86V20 1
P20702 1
O95202 1
C9JN24 1
A6NGG8 1
C9JN71 1
Q5VVP1 1
D3DQK9 1
Q6IQ23 1
P21462 1
P08123 1
A6NMK8 1
Q6ZR62 1
A6NMR0 1
Q7Z5M8-2 1
O00182 1
Q86YD7 1
O00192 1
Q8IYW5 1
P23490 1
Q5JRA6 1
P24071 1
O95521 1
O00253 1
Q5T5J6 1
P24928 1
P02452 1
O00292 1
Q5XUX1-3 1
P25440 1
Q6AZY7 1
P25774 1
P05362 1
O00330 1
Q6PHR2 1
P26378 1
Q6UWT4 1
P26640 1
Q6ZMZ3 1
O00418 1
Q6ZU80 1
O00421 1
A2RUB6 1
P28070 1
Q86T20 1
P28330 1
P13646 1
P30042 1
Q8IVF2 1
P30154-2 1
A6NM10-2 1
O00451 1
Q8IZJ4 1
P31391 1
O95229 1
P31930 1
O95359 1
P32519 1
Q5QGT7 1
P34741 1
Q5SXM8 1
P34820 1
Q5T197 1
P34947 1
Q5T7V8 1
O00566 1
Q5TZ20 1
P35346 1
Q5VUJ5 1
P35372-3 1
P02462 1
P35452 1
Q63HK3 1
P35542 1
Q68DQ2 1
P35556 1
P04264 1
A2RUE3 1
P05107 1
P35789 1
P06133 1
O14610 1
P07197 1
P35968 1
Q6Q4G3 1
P36888 1
Q6UQ28 1
P37108 1
Q6V0I7 1
P37231 1
P08572 1
P38117-2 1
Q6ZNH5 1
A6NNB3 1
P09172 1
O14641 1
P0C0P6 1
P40145 1
P10643 1
P40394 1
Q7Z4N2 1
P42694 1
Q7Z736 1
P42898 1
P12643 1
P43360 1
Q86VI3 1
O14656 1
P14060 1
O14777 1
Q8IUC4 1
O14798 1
Q8IWC1 1
P48357 1
Q8IXT1 1
A2RUQ5 1
Q8IYN0 1
P48681 1
P17693 1
P48736 1
Q587J8 1
O14944 1
Q5CZA4 1
P49917 1
O95236 1
A7MBM2 1
B9A029 1
A8K1K9 1
Q5JVX7 1
P50748 1
Q5M775 1
P50995 1
A6NFJ4 1
P51172-2 1
Q5SXH7-4 1
P51636 1
Q5SYB0 1
P51659 1
A6NII6 1
O15021-3 1
O95900 1
P51801 1
O95988 1
P51858 1
P01011 1
P51957 1
Q5TEA6 1
P51993 1
Q5U5R9 1
P52569-2 1
Q5VTT5 1
O15031 1
P02461 1
A8K8G6 1
Q5VXM1 1
O15205 1
Q5VZR2-2 1
P55103 1
Q5Y7D6 1
P55198 1
Q659C4 1
P56159 1
Q68D06 1
A8K979 1
Q68EA5 1
P56696 1
P04004 1
P56715 1
P04626 1
A8MQT4 1
Q6MZQ0 1
P57071 1
Q6NUQ4 1
O15534 1
Q6NVY1 1
P57727 1
Q6P0N0 1
P57737 1
P06734 1
P58182 1
P07919 1
P59046 1
P07996 1
P59282 1
Q6S9Z5 1
P59533 1
Q6UDR6 1
P59826 1
Q6UWB4 1
O15553 1
Q6UXN2 1
P59910 1
Q6VVB1 1
O43151 1
Q6X4T0 1
A2VDJ0-5 1
Q6ZMT4 1
P60368 1
P08949-2 1
O43187 1
Q6ZQQ6 1
P60370 1
Q6ZRQ5 1
O43314-2 1
Q6ZS82 1
P60411 1
Q6ZUX3 1
O43493-2 1
Q70CQ4 1
P63211 1
Q7KYR7 1
P68363 1
Q7RTV2 1
P78329 1
Q7Z3Y9 1
O43555 1
Q7Z5L4 1
P78364 1
P12109 1
P78396 1
Q7Z7A1 1
P80075 1
Q86TC9 1
P98164 1
P12645 1
Q00056 1
Q86V71 1
Q008S8 1
Q86VY4 1
Q01459 1
Q86WB0 1
Q01658 1
Q86XM0 1
Q01664 1
P15169 1
O43731-2 1
C9JG81 1
O60225 1
Q8IVF5 1
O60243 1
Q8IWE2 1
Q02742 1
Q8IXI1 1
Q02880-2 1
Q8IYD8 1
Q03188 1
P15924 1
Q03405 1
P17036 1
Q03468 1
Q8IYX7 1
Q04671 1
Q8IZF2 1
Q04844 1
A6NM11 1
Q05952 1
O95185 1
Q07075 1
Q58F21 1
A1A4T8-2 1
O95206 1
O60285 1
Q5H9F3 1
Q07283 1
Q5IJ48 1
O60292 1
Q5JSS6 1
Q08397 1
Q5JTV8 1
Q08426 1
O95394 1
Q08999 1
Q5JWR5 1
Q08AF3 1
A1A519 1
Q08AG7 1
Q5M9N0 1
Q09MP3 1
Q5QJE6 1
O60312 1
Q5SQ64 1
Q0P6D6 1
Q5SW96 1
A4D1E9 1
Q5SXM2 1
A4D263 1
Q5SY16 1
Q0ZGT2 1
Q5SZD4 1
Q0ZLH3 1
A6NHR9 1
O60403 1
O95897 1
A4Z6T7 1
Q5T1B0 1
Q12887 1
Q5T2N8 1
A8MV65 1
O95944 1
Q8IZU2 1
Q5T7B8 1
Q8IZY2 1
O95995 1
A0PJX4 1
Q5TAA0 1
A1IGU5 1
Q5TD97 1
Q13084 1
Q5THR3 1
Q13127 1
P01031 1
Q13137 1
P01833 1
Q13233 1
Q5VTJ3 1
Q13316-2 1
P02458 1
O60548 1
Q5VV41 1
Q13470-2 1
Q5VVB8 1
Q13487 1
Q5VW36 1
Q13601 1
Q5VXT5 1
Q13615 1
Q5VYM1 1
B1AH88 1
C9JBG3 1
Q13748 1
Q5XX13-4 1
Q13753 1
Q60I27 1
Q13797 1
P02538 1
Q13946-2 1
Q66K74 1
O60603 1
P02730 1
O60721 1
P02788 1
Q14032 1
Q68DV7 1
Q14112 1
Q6A555-2 1
Q14126 1
Q6B9Z1 1
Q14160-3 1
P04259 1
Q14209 1
C9JDV5 1
Q14210 1
Q6IPM2 1
Q14244 1
Q6L8Q7 1
B1ANC0 1
P04731 1
Q14331 1
Q6NUN0 1
O75023-3 1
Q6NUS8 1
B1APY0 1
Q6NVV3 1
Q14679 1
P05787 1
Q14690 1
Q6NY19-2 1
Q14774 1
P06732 1
B2R6C3 1
Q6P4A8 1
Q14934-3 1
Q6PDB4 1
Q14980 1
P07900-2 1
Q14990 1
Q6PGQ1 1
Q15032 1
Q6PJF5-2 1
B4DQM4 1
Q6Q0C1 1
A6ND48 1
Q6Q759 1
B5B2M5 1
Q6T423 1
O75161 1
Q6UB98 1
O75185 1
Q6UE05 1
Q15652 1
Q6UW78 1
Q16204 1
P08151 1
Q16348 1
Q6UXC1-2 1
B5MDD1 1
Q6UXY1 1
Q16610 1
Q6V1P9 1
Q16762 1
Q6W3E5-2 1
Q16787 1
Q6WQI6 1
Q16790 1
Q6X784 1
Q16828 1
Q6XZB0-2 1
Q17R60 1
P08922 1
O75635 1
Q6ZN28 1
Q18PE1 1
Q6ZNB6 1
Q1EHB4 1
Q6ZP82 1
Q1X8D7 1
Q6ZR52-2 1
O75717 1
P08F94 1
Q2HXU8 1
Q6ZRV2 1
Q2I0M4 1
Q6ZS81 1
A1L443 1
P09871 1
Q2L4Q9 1
Q6ZUB1 1
O75952 1
Q6ZV73 1
Q2M2I5 1
P10321 1
Q2M329 1
P10412 1
Q2M3C7 1
P10523 1
Q2NL98 1
Q7RTR0 1
Q2TAA8 1
Q7RTS3 1
Q2TAL5 1
Q7Z2W4 1
Q2TBF2 1
Q7Z3Y8 1
Q2VIQ3 1
Q7Z407 1
Q2VPA4 1
P12107-2 1
Q2VPK5 1
Q7Z5L7-3 1
Q30201 1
Q7Z5Y6 1
Q32M84 1
Q7Z6L1 1
Q32M92 1
Q7Z745 1
O76014 1
Q86SH2 1
Q32MK0 1
P12270 1
O94769 1
Q86TJ5 1
Q3KPI0 1
Q86U06 1
O94823 1
Q86US8 1
Q3LHN0 1
Q86V48 1
Q3LI76 1
P13284 1
Q3LIE5 1
C9JFW9 1
Q3MJ13 1
Q86VZ4 1
Q3SY84 1
Q86W28 1
Q3YEC7 1
Q86X19 1
Q3ZCM7 1
Q86XL3 1
Q3ZCV2 1
Q86YB8 1
Q3ZCX4 1
Q86YE8-3 1
Q495D7 1
P15313 1
Q495Z4 1
Q8IUN9-2 1
O94850 1
Q8IUX7 1
Q49A88-6 1
Q8IVF4 1
Q49MG5 1
Q8IWA6 1
A1Z1Q3-2 1
Q8IWD5 1
B7ZLS8 1
Q8IWT3 1
Q4G0Z9 1
Q8IX12 1
B8A4U7 1
Q8IXS2 1
Q4VX76-2 1
Q8IY37 1
Q4W5C3 1
Q8IYE1 1
Q4W5G0 1
Q8IYI8 1
Q4ZJI4 1
P17022 1
Q53EZ4 1
Q8IYR2 1
Q53GL7 1
Q8IYU4 1
Q53HC0 1
Q8IYX0 1
Q53QW1 1
Q8IYY4 1
Q53RT3 1
Q8IZC4 1
Q53S99 1
Q8IZF3 1
Q53SF7 1
Q8IZT6 1
Q53T94 1
Q56UN5 1
Q8N0U7 1
Q13007 1
Q13018 1

 

На следующем этапе возникает вопрос — что делать с полученным списком генов с наибольшим числом frameshift мутаций? Можно ли определить характер и уровень функциональных изменений в организме человека? Оказывается, можно. Как упоминалась выше, полученные потенциальные генетические варианты, приведшие к замене кода аминокислот, были сохранены в таблице. Затем я подсчитал, в каких именно протеинах наблюдается наибольшое число потенциально вредных frameshift мутаций, и выделил их в отдельный список. Поскольку это самые интересные (с точки зрения возможных изменений в фенотипе) мутации, то далее я работал только с теми протеинами, в которых наблюдается повышенное количество вредоносных мутаций. Из общего числа я отобрал 35 протеинов с наибольшим количеством мутаций. Отмечу, что ни один из обнаруженных протеинов сам по себе не имеет значимой связи с риском развития заболеваний  интересующего нас спектра. Поэтому вышеприведенный список протеинов был обработан в программе Cytoscape, так как нас интересуют в первую очередь обнаружение функциональных связей с теми протеинами, которые ранее были описаны в литературе как потенциальные факторы развития отдельных расстройств и заболеваний.  Я не буду приводить полученные сетевые графы взаимодействия протеинов, так как они содержат деликатную информацию медицинского характера, поэтому помещенный ниже образец графического отображения в программе Cytoscape взаимодействия протеинов носит сугубо иллюстрирующий характер и взят с сайта програмыы Cytoscape

visualMapping1

Этногеномика беларусов — часть V

Обсуждение результатов и выводы

 

Как отмечалось в введении к нашей статье, главной задачей нашего исследования являлась проверка двух рабочих гипотез, озвученных в предыдущих исследованиях профессиональных попгенетиков. Во-первых, это гипотеза о присутствии трех основных древних компонентов , которая указывает на возможность общего происхождения славян и балтов. Во-вторых, это утверждение о том, что своеобразие аутосомного генофонда беларусов может быть связанно с вкладом балтского субстрата.

После внимательного изучения результатов нашего исследования,можно сказать, что оба из приведенных выше заключений представляют собой крайне упрощеные варианты сложного процесса формирования аутосомного генофонда беларусов. Хотя мы и не можем предоставить окончательных аргументов в пользу или опровержение каждой из этих версий, мы может предоставить более полное и подробное обозрение структуры аутосомного генофонда. В отличие от трех основых компонентов, упомянутых выше, в нашем исследовании мы выделили шесть основных компонентов, типичных для европейцев в целом. Основу генофонда составляет компонент, который мы обозначили как северо-восточно-европейский компонент. Именно этот компонент выделяет беларусов среди других восточных славян, приближая их к современным балтийским популяциям (у литовцев процент компонента составляет 81,9, у латышей — 79,5%, у беларусов -76,4%, у эстонцев — 75,2%). Примечательно, по мере удаления от территории Беларуси на север в с торону Латвии и Эстонии, увеличивается процент северо-европейского генетического компонента (как мы полагаем, этот компонент доминировал в генофонде доисторических жителей Скандинавии в эпоху до распространения финно-угоров и индо-европейцев). С другой стороны, беларусов и других восточных славян отдаляет от балтов и сближает друг к другу более высокий процент так называемого западно-азиатского или кавказского компонента (любопытно, что в этом случае эта закономерность может свидетельствовать в пользу западно-азиатской теории происхождения индо-европейцев).

Далее, как показывает анализ в программе fineStructure, генофонд беларусов характеризируется высокой степенью генетических контактов как с балтами, так и остальными славянами, а также с рядом финно-угорских популяций (например, c эрзя и мокша). О симметричном характере межпопуляционного обмена свидетельствует симметричное расположение популяции беларусов относительно этих трех групп.

Исходяизвышенаписанного,представляетсялогичнымсделатьвыводотом,чтоосновнойкритическийэтапстановленияаутосомногогенофондапришелсянапериодсмешиванияносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,послечегопредковыйаутосомныйгенофондбеларусовприобрелотносительнуюстабильность.Разумеется,даннаямодельнеисключаетпозднейшиеэпизодысмешиванияпопуляций,ноониоставилименьшийследвструктуреаутосомногогенофондабеларусов.Вэтойсвязивозникаеточевидныйвопрос–вкакойименноисторическийпериодпроизошлосмешениеносителейсеверо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента,иктобылиихносителями?
В начале сентября 2012 года известная американская лаборатория популяционной генетики доктора Райха опубликовала альфа-версию программного продуктаADMIXTOOOLS1.0. Альфа-версия была разработана для внутреннего использования, поэтому modusoperandiэтого продукта вряд ли является кристально понятным для стороннего пользователя. Положительным аспектом на мой взгляд является то, что ADMIXTOOLSпакет обеспечивает полную совместимость с форматом другой очень популярной программыEIGENSOFT, которая была разработана в той же лаборатории. Это немаловажное обстоятельство намного упрощает процесс обучения в ADMIXTOOLS.

Вышеупомянутый пакет включает в себя 6 приложений, среди которых я считаю наиболее полезнойqp3Popи утилиты для вычисления частотной характеристики аллелей. Впрочем, я не собираюсь обсуждатьqp3popво всех деталях и в контексте данной заметки достаточно отметить, что эта программа реализует тест three_pop(F_3), подробно описанный в известной статье Рейха и соавт. 2009.

Однако другой имплементированный в пакете метод, – метод rolloff– нуждается в более пристальном внимании. Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатураLD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории, чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения LDв адмиксе напрямую связана с числом поколений, прошедших с момента адмикса, так как cвозрастанием числа поколений увлечивается число рекомбинаций произошедших между двумя отдельными SNP-ами. Проще говоря: Rolloffсоответствует экспоненциальной кривой угасания уровня LDот расстояния, и эта скорость экспоненциального снижения как раз и используется для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.

Этот метод открывает интересные перспективы. Для целей этого анализа, я создал специальный набор SNP-данных, который включает в себя около 750 000 cнипов, частично или полностью в 250 различных популяциях человека. Далее, я разбил популяции 3 * 62 000 трио в следующем виде (X, Y, Z), где X и Y – пара рефренсных групп, а Z – белорусы из коллекцииBehar et al.2010. После этого я провел q3Pop анализ этих трио.

Результаты изложены в нижеприведенной таблице

Indian Polish Belarusian -0.000736 0.000251 -2.935
Polish Indian Belarusian -0.000736 0.000251 -2.935
Karitiana Sardinian Belarusian -0.001278 0.000517 -2.471
Sardinian Karitiana Belarusian -0.001278 0.000517 -2.471
Otzi North_Amerind Belarusian -0.002556 0.001126 -2.271
Cirkassian Polish Belarusian -0.000488 0.000231 -2.113
Polish Cirkassian Belarusian -0.000488 0.000231 -2.113
Pima Otzi Belarusian -0.002727 0.00137 -1.99
Pima Sardinian Belarusian -0.000794 0.000431 -1.843
Sardinian Pima Belarusian -0.000794 0.000431 -1.843
Otzi Surui Belarusian -0.002938 0.001931 -1.522
Surui Otzi Belarusian -0.002938 0.001931 -1.522

 

На первый взгляд, результаты нашего эксперимента с 3qPop, кажется, неплохо согласуются с выводами, содержащимися в работеПаттерсон и др. 2012: “Самый поразительный вывод состоит в обнаружени четкого сигнала адмикса в северной Европе, один из элементов которого связан с предками населения наиболее близкого по своей генетике к баскам и жителям Сардинии, а другой – с предками современного населения северо-восточной Азии и Америки. Этот явный сигнал, вероятно, отражает историю смешивания неолитических мигрантов с коренным населением Европы, что подтверждается недавним генетическим анализом древних костей Швеция и секвенированием полного генома Отци Тирольца”. Что касается собственно белорусов, то источники сигнала смешивания с посторонними популяцими менее ясны и расплывчаты. Как было показано ранее, с точки зрения формального анализа примесей (f3 статистики), белорусы могут быть представлены в виде популяционного микса поляков и индусов / черкессов. Первый компонент смеси может быть связан с носителями культуры шнуровой керамики/боевых топоров и культуры колоковидных кубков; второй, в соответствии с результатами, должен быть общим для индусов и черкесов.

 

Белорусы = ((неолитические культуры Европы) + “носители культуры колоковидных кубков”) + (мезолитическое население Европы) + компонент носителей культуры шнуровой керамики)) + скифо-сарматский тип

 

Для оценки дата события базового адмикса в белорусской популяции, мы использовали в качестве референсных популяций поляков и индусов (Примечание: мы снизили порог генетических дистанции в параметрах Rolloff для снижения уровня шума от более поздних адмиксов).

 

rolloff

Как вы можете видеть, сигнал присутствия адмикса обнаруживается гораздо хуже, и в силу этого, погрешности в оценке временного промежутка высоки:

154,158 + -87,024 поколений назад (или, 4470 + -2523 года до настоящего времени / 2510 – +2523 лет до н.э.).

 

Исходя из этого, мы решили модифицировать Rolloff-анализ генофонда белорусов, используя на этот раз в качестве референсов литовцев и пуштунов. Следуя этому совету, я решил предпринять вторую попытку формального анализа адмикса в двух имеющихся у нас выборках беларусов ( выборка беларусов из статьи Behar et al. 2011), и выборка беларусов, собранная в нашем проекте.Ниже приведены результаты эксперимента с двумя этими группам (в отличие результатов нашей предыдущей попытки, результаты данного эксперимента менее “зашумленные”):

rolloff2

 

Интервал числа поколений, прошедших со времен анализируемого адмикса (105.086+-52.59) или 3069 +- 1525 лет до настоящего времени, что соответствует временном интервалу 2 тыс. до нашей эры – 6 век нашей эры. Принимая во внимание эти выводы, мы можем предположить, что основной аутосомный эпизод смешивания предковых популяций беларусов произошел в течении довольно таки продолжительного времени, охватывающего несколько тысяч лет. В этой связи, вопрос о том, кто именно был носителями северо-восточно-европейскогогенетическогокомпонентасносителямизападно-азиатского(кавказского)генетическогокомпонента, остается открытым.

Этногеномика беларусов — часть III

Анализ этно-популяционного адмикса

 

В ходе следующеего этапа, окончательный набор данных по референсным популяциям (которые я храню в linkage-формате PLINK) был обработан в программеAdmixture. Во время выбора подходящей модели проведения теста на этно-популяционный адмикс, мы столкнулись с крайне трудной задачей: как было показано в профильных научных исследованиях (Pattersonetal.2006) количество маркеров, необходимых для надежной стратификации популяций в анализе обратно пропорциональна генетическому расстоянию (фСТ) между популяциями. Согласно рекомендациям пользователей программы Admixture, считается что примерно 10 000 генетических SNP-маркеров достаточно для выполнения интер-континентальной GWAS-коррекции обособленных популяций (например, уровень дивергенции между африканскими, азиатскими и европейскими популяциями FST> 0.05), в то время как для аналогичной коррекции между внутриконтинентальными популяциями требуется более чем 100000 маркеров (в Европе, например, ФСТ < 0.01). Для повышения точности результатов Admixtureмы решили использовать метод, предложенный Dienekes. Этот метод позволяетпреобразовать частот аллелей в “синтетические” индивиды (см. такжепример Зака Аджмалаиз проекта HarappaDNA). Идея метода довольно проста: сначала необходимо запустить unsupervisedанализ Admixtureс целью вычисления частот аллелей в так называемых предковых компонентов, а затем на основании аллельных частот сгенерировать “фиктивные популяции”. Именно эти фиктивные популяции и индивиды будут использоваться в ходе чистых референсов в ходе последующего анализа этно-популяционного анализа. Впрочем, как и любые другие исследователи, работающий над четким решением проблемы этно-популяционного адмикса, мы были вынуждены считаться с ограничениями этого подхода. Хотя мы отдаем себе отчет в существовании явных методологических подвохов в использовании смоделированных искусственных индивидов для определения адмикса в реальной популяции, мы полагаем что полученные в ходе аллельно-частотного моделирования “фиктивных индивидов” представляют самую лучшую аппроксимацию древних генетических компонентов предпологаемых древних компонентов. В ходе применения простого моделирующего метода, нами были получены значимые результаты в ходе создания нового калькулятора. Сначала мы произвели unsupervisedAdmixture(при значении К = 22, т.е 22 кластера частот аллель или предковых компонентов). По выполнению анализа нами были получены оценки коэффициентов адмикса в каждой из этих 22 аллельных кластеров, а также частоты аллелей для всех SNP-ов в каждой из 22 родовых популяций.

Затем мы использовали мнемонические обозначения для каждого компонента (имена для каждого из компонентов выведены в порядке их появления). Нужно помнить, что обозначения этих компонентов носят скорее мнемонический условный характер:

Pygmy

West-Asian
North-European-Mesolithic
Tibetan
Mesomerican
Arctic-Amerind
South-America_Amerind
Indian
North-Siberean
Atlantic_Mediterranean_Neolithic
Samoedic
Proto-Indo-Iranian
East-Siberean
North-East-European
South-African
North-Amerind
Sub-Saharian
East-South-Asian
Near_East
Melanesian
Paleo-Siberean
Austronesian

Вышеупомянутые частоты аллель, вычисленные в ходе unsupervised(безнадзорного) анализа (AdmixtureK= 22) объединенного набора данных, были затем использованы для симуляции синтетических индивидов, по 10 индивидов на каждую из 22 предковых компонент. Это симуляционное моделирование проводилось с помощью PLINKкоманды -simulateРасстояние между между симулированными «искусствеными» индивидами было визуаилизировано с использованием многомерного масштабирования.

simul

На следущем этапе, я включил группу смоделированных индивидов (220 индивидов) в новую эталонную популяцию. После чего я запустил новый анализ А, на этот раз в полном “поднадзорном” режиме для K= 22, причем полученные в ходе симуляционного моделирования фиктивные популяции фиктивных индивидов использовались в качестве новых референсных эталонных групп. На конвергенцию 22 априорно заданых предковых компонентов было затрачено 31 итераций (3 7773,1 сек) с окончательным loglikelihood: -188032005,430318 (ниже, на следущей странице, приведена таблица значений Fst между расчетными ‘предковыми’ популяциями):

fst dist

Рисунок 1. FST-дистанции между компонентами

 

Приведенная выше матрица Fstдистанций была использована для определения наиболее вероятной топологии NJ-дерева всех 22 предковых компонентов ( примечание: в качестве outgroup-таксона использовался South-Africancomponent).

Этногеномика беларусов — часть II

Анализ структуры аутосомного генофонда популяции беларусов: методы, технические параметры и предварительные замечания.

 

В целях сопоставимости выводов данных анализа с приведенными выше выводами профессиональных популяционных генетиков, мы использовали в своем исследовании референтную выборку беларусовиз ДНК-банка Института Генетики Беларуси в том же объеме, в котором она была задействована в исследовании группы ученных под руководством Бехара (модифицированная выборка Генбанка с кодом доступа:GSE21478)[1]. Наряду с референтной группой беларусов (обозначена как Belarusian), мы использовали данные лиц беларуского происхождения из нашего собственного проекта этно-популяционного анализа лиц, предки которых проживали на территории Беларуси минимум 100-150 лет(обозначено как Belarusian_V).

Для проведения сравнительного анализа генофонда популяций нам понадобился референтный набор популяций. Референтный набор популяций в этом калькуляторе был собран в программе PLINK  методом “intersection&thinning” ( дословно “пересечением и истончением”) образцов из различных источников данных:HapMap 3(отфильтрованный набор данных КЕС, YRI, JPT, CHB),1000genomes, Rasmussen et al. (2010), HGDP (кураторская база данных Стэнфордского университета), Metspalu et al. (2011), Yunusbayev et al (2011),Chaubey et al. (2010)и т.д. Кроме того, мыотобралипроизвольным образом по 10 сэмплов (или максимальное количество доступных сэмплов в тех случаях, когда общее число сэмплов в популяции было меньше 10) от каждой европейской страны, представленной в панеле базе данныхPOPRES.Наконец, для того чтобы оценить степень корреляции между современным и древним генетическим разнообразием населения Европы, мытакже включилив выборку образцы древней ДНКЭци(Keller et al. (2012)) , образцы жителей шведского неолита Gök4, Ajv52, Ajv70, Ire8, STE7 (Skoglund et al. (2012))и 2 образца La Braña – останков мезолитических жителей Пиренейского полуострова (Sánchez-Quinto et al.(2012)).

Затем мыдобавили90 образцов – анонимизированных данных — участников моего проекта. После слияния вышеупомянутых наборов данных и истончения набора SNP с помощью особой команды PLINK, мыисключилиSNP-ы с менеечем 0.5% минорных аллелей. Послечего мыотфильтровал дубликаты, лиц с высоким уровнем общих по происхождению идентичных сегментов (IBD). В качестве критерия фильтрации были использованы расчеты IBD в Plink, где IBD представлена как средняя доля аллелей общих между двумя людьми по всем анализируемым локусам. Затем мыудалилииз выборки лиц с высоким коэффициентом предпологаемого родства, коэффициенты родства были вычислены в программном обеспеченииKing).

Для получения более стабильных результатов, мытакже отфильтровалисэмплы с более чем 3 стандартными отклонениями от средних данных по популяции. Поскольку коэффициент родства может быть надежно определен с помощью оценки HWE (ожидания, вытекающего из законаХарди-Вайнберга) между SNP-ами с той же базовой частотой аллелей, то SNP-ы с существенным отклонением (p < 5.5 x10−8) от ожидания Харди-Вайнберга были удалены из объединенного набора данных. После этого мывыделилите SNP-ы, которые присутствовали в чипах Illumina / Affymetrix, и затем произвелифильтрацию снипов на основе расчетов степени неравновесного сцепления (в этом эксперименте мыиспользовалтхромосомное ‘окно’ размером в 50 базовых пар, с шагом 5 базовых пар и пороговым значением уровня сцепления R ^ 2, равным 0,3).

По окончанию этой сложной последовательности операций, мыполучил окончательноый набора данных, который включал в себя 80 751 снипов, 2516 человек и 225 референсных популяций.

 

[1] http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE21478