PCAdmix: инструмент и методология для оценки происхождения хромосомных сегментов

В марте прошлого года  Сергей Козлов — один из соавторов данного блога, — опубликовал важную с точки зрения методологии генетико-генеалогического анализа заметку о принципах оценки вероятности определения времени жизни последнего общего предка при попарном сравнении аутосомных данных двух или более сравниваемых индивидов.  Действительно, в последние годы среди людей, интересующихся генеалогией, приобрели заметную популярность сервисы, производящие поиск генетических родственников по всем линиям, а не только по прямой мужской и прямой женской. В качестве примера можно привести Family Finder от FTDNA и DNA relatives от 23andMe. Участник получает достаточно длинный список так называемых «совпаденцев» — людей, имеющих с ним один или более участок половинного совпадения (УПС) на аутосомах (неполовых хромосомах). Если участок достаточно длинный (а его длина измеряется в сантиморганидах, обозначающих вероятность разрыва участка при каждой передаче в следующее поколение), то это говорит о наличии общего предка (от которого участок и получен).
Для значительной части клиентов сервисов персональной коммерческой геномики, интересующихся исключительно вопросами своего происхождения, вопрос о достоверном определении времени жизни общих предков имеет первостепенное значение. И вместе с тем, именно проблема с получением четкого ответа на этот краеугольный вопрос служит одной из главных причин недовольства и раздражения клиентов компаний вроде FTDNA или 23andme.

Действительно, изучив длинные сегменты генома, передававшихся от поколения к поколению и встречающиеся у многих людей, можно примерно определить степень и интенсивность предковых связей, берущих начало много тысяч лет назад.  Здравый смысл подсказыает — дальние родственники имеют такие длинные сегменты генома потому, что они унаследовали их от общих предков. У более далеких родственников длина сегментов общих геномов соответственно становится короче, поскольку происходит рекомбинация гомологичных хромосом, в результате чего с каждым следующим поколением происходит перемешивание всей совокупности генов или генотипа. Очевидно, что число и размер совпадающих общих по происхождению сегментов геномов у двоих произвольно взятых лиц из однородной метапопуляции коррелирует с географический дистанцией —  количество общих генетических предков резко уменьшается по мере увеличения географического расстояния.

Однако наряду с  географически близкими (в пределях 50-100 км)  «совпаденцами», нередко в списках «совпаденцев», предоставляемых в 23andme или FTDNA появляются совершенно экзотические «совпаденцы». Например, у финна может появится совпаденец из Италии, а у корейца — из  Великобритании. Совершенно очевидно, что подобные случаи очень сложно объяснить не только простым сопоставлением сведений о географическом происхождении предков, но даже и безотказной в простых случаях  моделью наложения «этнопопуляционного аутосомного фона в виде коротких реликтовых  IBD сегментов».

В этой связи возникает практический вопрос — как интерпретировать подобные случаи, при условии что подобные сегменты представляют собой не «ложно-позитивные», а вполне достоверные совпадения, указываюшие на существование в неопределенный момент прошлого некоего общего предка. И подобные случаи характерны не только для коммерческих «выборок», но и для вполне серьезных научных баз данных, например 1000 Genomes. В частности,  в этой базе данных при сравнении редких снипов у 89 британцев и 97 китайцев были обнаружены три англо-китайские пары с отдаленным генеалогическим родством ( в геноме этих пар были обнаружены идентичные по происхождению фрагменты (IBD сегменты) ДНК,  которые составляют 0,001%, 0,004% и 0,01%  их геномов).

Самое простое решение этой проблемы некоторые из любителей генетической генеалогии пытались найти в обращении к сервисам главного инструмента аутосомной генетической генеалогии  Gedmatch. В частности, как известно, данный сервер содержит онлайн-версии практически всех популярных среди любителей модификаций DIYDodecad калькуляторов. Например, выбрав разработанный мною калькулятор MDLP K23b в режиме Chromosome painting: Paint differences between 2 kits, 1 chromosome   и сравнив характер распределения предковых компонентов на гомологичных хромосомах у двух сравниваемых людей, можно получить примерное представление о географическом ареале, в котором мог жить общий предок этих людей (вероятно, на этот ареал будет указывать доминирующий на совпадающем сегменте компонент). Логика простая. Предположим, например, что мы сравниваем  сегменты хромосомы X в данных индивида A этнического происхождения D c данными индивида В этнического происхождения С. Здесь возможны три варианта

  • С-происхождение предка или предков индивида A
  • D-происхождение предка или предков индивида B
  • Y-происхождение подмножества предков обоих индивидов

Используя эту логику,  можно предположить что если в попарном сравнении  сегмента обозначится хорошо выраженное преобладание (по отношению к средним значениям) компонента, характерного для этнопопуляции С, то следует выбрать первый сценарий; аналогично, если обнаружится избыток компонентов характерных для этнопопуляции D, то следует выбрать второй сценарий; если будет замечено преобладание редких  для этнопопуляций С и D компонентов, то следует остановится на третьем варианте.

 


Пример I.

В этом примере мы будем использовать свои данные и данные женщины, с которой у нас был обнаружен подтвержденный генеалогией общий предок, живший в середине 19 века.  При сравнении наших данных, алгоритм поиска достоверных генеалого-генетических совпадений обнаружил три сегмента с генетической дистанцией > 7 cантиморганов, cостоящих в блочной записи из более чем 700 последовательно совпадающих снипов

Start Location End Location Centimorgans (cM) SNPs
4 32232224 42421625 13.2 1115
7 8295405 13845989 9.8 885
11 36784445 45084878 8.0 881

Самый большой сегмент = 13.2 cM
Общий размер сегментов с сантиморганах > 7 cM = 30.9 cM
Приблизительное число поколений до общего предка  = 4.4

Задетектированные  сегменты хромосом идеографически отображаются при попарном сравнении в цветовой гамме — черный цвет означает несовпадающие сегменты, другие цвета — компонентную привязку к одному из компонентов моего калькулятора MDLP K23b.  Ниже приведены фрагменты идеографического отображения 2 из 3 вышеуказанных совпадающих сегментов на кариограмму 4 и 7 хромосомы.:

M051225_F298455_4_D64088
Сегмент на 4 хромосоме
M051225_F298455_7_BC1A38
Сегмент на 7 хромосоме

Самый значительный сегмент (13.2 сM) на 4 хромосоме имеют хорошо заметную привязку к северо-восточно-европейскому компоненту [зеленый цвет], в исторической перспективе связанному с наследием мезолитического населения этого региона. А вот сегмент на 7 хромосоме имеет более сложную структуру, в которой характерно преобладание кавказского компонента [голубой цвет]. Таким образом можно уверено утверждать, что общий предок (или предки) могли жить в регионе восточной Европы.

К сожалению, данный инструмент сегментного сравнения на  Gedmatch хотя и прост в обращении (в силу интуитивной понятности), однако  далек от совершенства. В первую очередь, на аккуратность определения «генографического»происхождения сегмента влияет отсутствие на сервере  гаплоидных фаз похромосомных данных. В результате, сравнение ведется не по конкретной фазе (т.е по конкретной хромосоме доставшейся ребенку от каждого из родителей), а по диплоидному составному блоку, т.е вместо настоящих IBD мы можем оперировать half-IBD (HBD), которые на слэнге русскоязычных любителей именуются УПС-ами. Во вторых, аккуратность генографического определения  зависит от аккуратности определения предковых компонентов в используемом варианте калькулятора, но это отдельная тема для разговора.


К счастью, парадокс «экзотических» совпаденцев имеет более точное решение с помощью одной из программ, позволяющих определять геногеографическую структуру или «локальное происхождение» совпадающих сегментов.  Можно использовать разные программы, HAPMIX, LAMP , HAPAA, ANCESTRYMAP — так как несмотря на ряд принципиальных отличий, все они используют алгоритмы моделнй скрытых марковских цепей (HMM) и поэтому выдают в целом схожие результаты. К этому же классу программ относится и более новая програма PCAdmix, которую я буду использовать в своем втором примере, в котором я задействую фазированные в BEAGLE генотипы.  В целях разжевывания принципов работы программы, следует вкратце описать рабочий процесс PCAdmix.
PCAdmix являет cобой метод, который оценивает локальное происхождение хромосомных сегментов с помощью анализа главных компонентов (PCA)  фазированных гаплотипов. В самом начале выполняется анализ главных компонентов в 2-3 референсных панелех, необходимых доя построения пространства главных компонентов, например, для хромосомы 22 . Поскольку метод использует фазированные данные, каждая копия хромосомы 22 в референсных панелях рассматривается как отдельная точка в пространстве главных компонентов. Первые две главные компоненты, как правило, представляют собой оси «предкового» расхождения популяций референсных панелей, что хорошо заметно на графиках. Если подобного рассхождения не наблюдается,  то скорее всего в популяциях референсных панелей «маскируется» присутствие неявной популяционной субструктуры. В построенное таким способом пространство главных компонентов в дальнейшем проецируется группа лиц «смешанного» происхождения, и затем определяется значение нагрузки главных компонентов для каждого снипа.  После этого метод переходит к анализу коротких «окон» снипов — для каждого из этих окон вычисляются  вероятности того, что данное окно в гаплотипе человека «смешанного» происхождения происходит от одной из референсных популяций. Вычисленные таким образоом вероятности различных вариантов происхождения каждого окна снипов, используются на заключительном этапе метода в  скрытой моделе Маркова (HММ) для сглаживания шума в определении происхождения «окон» снипов. Таким образом, данная скрытая модель Маркова НММ зависит от значений главных компонентов, доли каждого «компонента происхождения» на заданной хромосоме, а также матрицы перехода, которая, в свою очередь, зависит от числа поколений прошедших с момента смешивания популяций и генетического расстояния (сM) между двумя окнами снипов. В текущей версии метода, рекомбинаторные расстояния и число поколений определяются параметрами.
Конечным результатом рабочего процесса PCAdmix является матрица состяний скрытой модели Маркова, содержащая апостериорную вероятность каждого из возможных вариантов происхождения для данного «окна снипов», и эта вероятность обусловлена остальной частью данных для хромосомы. Важно отметить, что происхождение каждого окна снипов определяется только в том случае если апостериорная вероятность для одного из возможных происхождений > = 0,8. Любое окно, для которого максимальная апостериорная вероятность любого варианта происхождения <0,8, считается «неопределенным».


Пример 2

Данный пример основан на реальном случае, когда ко мне обратился человек, чьи предки происходят из центральных регионов Азии. Смущенный наличием в списке своих совпаденцев в сервисе Relative Finder 23andme  человека с корейскими и японскими корнями, а также  семейными легендами о «восточноазиатской»прабабушке, он попросил меня определить вероятность присутствия японцев в числе своих ближайших (в пределах 5 поколений) предков, опираясь исключительно на аутосомные данные.

В этом эксперименте, я решил скурпулезно следовать инструкциям разработчиков PCAdmix, и для начала произвел фазирование (биоинформатическую реконструкцию гаплотипных фаз аутосомных хромосом) в программе BEAGLE. Данные тестанта (ок 400 тыс. снипов) были фазированы в присутствии 3 контрольных референсных групп популяций — британцев GBR, китайцев CHB и японцев JPT — поскольку эти группы были позднее задействованы мной в качестве 3 референсных панелей. В целях уменьшения количества ошибок, которые неизбежно появляются в результате импутации пропущенных «генотипов» снипов, я использовал только те общие снипы, которые были определены как в аутосомных данных клиента 23andme, так и в трех референсных группах.

Затем фазированные данные тестанта были похромосомно обработаны в рабочих циклах программы PCAdmix. Программа отфильтровала cнипы с низким значением MAF и высоким значением LD, в результате чего число снипов уменьшилось почти вдвое. Оставшиеся снипы были разбиты на «окна снипов», каждое из которых состяло из 20 снипов.  При расчете по всем 22 хромосомах, общее количество полученных таким разбиением «окон» составило 11 997. В конце рабочего цикла (метод главных компонентов + HMM) программа выдала для каждой парной аутосомной хромосомы A и B  файл в формате bed, удобном для отображения дополнительной информации в аннотации генома (номер хромосомы, начало и конец сегмента, наиболее вероятный регион происхождения сегмента, cM, максимальная вероятность и апостериорная вероятность одного из трех вариантов происхождения — JPT, GBR, CHB, непоказана в таблице). В конечном отчете GBR используется как индикатор сегментов не-восточноазиатского происхождения (nEA), JPT — японского происхождения (JPA), CHB — неспецифичных сегментов восточноазиатского происхождения (EA) :

10 111955 468599 GBR 0.004885 0.134147 GBR* 0.636943
10 521723 811876 GBR 0.142147 0.582463 GBR* 0.646868
10 815149 1151723 GBR 0.585829 0.898724 GBR* 0.676252
10 1156487 1335849 GBR 0.901503 1.23673 GBR 0.925059
10 1337709 1449849 GBR 1.24246 1.60705 GBR 0.99999
10 1454864 1510208 GBR 1.61249 1.76798 GBR 0.999506
10 1512546 1623734 GBR 1.77039 2.12653 GBR 0.999647
10 1624900 1669347 GBR 2.13038 2.25357 GBR 0.999778


Выбор формата BED в качестве формата выходных в моем случае также был далеко неслучайным. C помощью одной из библиотеки платформы Bioconductor формат BED легко отображается в кариограмме 22 пар аутосомных хромосом человека (я использовал координаты геномного билда b37). Чтобы было понятно, что именно изображают эти «кариоплоты» (идеографические изображения хромосом), необходимо пояснить, что  «японское происхождение» (JPA) приписывалась 20-сниповому сегменту только в том случае, если апостериорная вероятность японского происхождения данного «окна из 20 снипов» составляла > = 0,8. Любое окно, для которого максимальная апостериорная вероятность любого варианта составляля <0,8, засчитывалось как окно  с «неопределенным» происхождением (UND).Chromosomes A

Chromosomes A

 

Chromosomes B
Chromosomes B

Эксперимент показал, что среди 11997 «окн» число  «окон» не-восточноазиатского (nEA) происхождения (7650) почти в два раза больше чем число «восточноазиатских» сегментов. Происхождение 2750 геномных «окон» снипов невозможно определеить, и только 965 «окна» могут быть определены как «японские по происхождению». Вместе с 617 окнами «китайского» (EA),  восточно-азиатские сегменты составляют меньше, чем 10% генома.
Не менее важно и то обстоятельства, что значительная доля этих сегментов-окон пришлась на низких «консервативные, низкорекомбинантные» области хромосом,  — такие, как  например, теломеры, центромеры и регионы с низкой плотностью снипов: сегменты в таких регионах могут переходить от одного поколения к другому фактически в неизменном виде. Наконец, те же закономерности распределения родословной были отмечены в обеих фазированных наборах аутосомных хромосом, что опровергает версию о недавной «восточноазиатской» примеси со стороны одного из родитедей и скорее  свидетельствует о древнем эпизоде смешивание определенных центрально- и юго-западноазиатских групп с группами восточноазиатского происхождения (например, в ходе монгольских или тюркских нашествий).

Разумеется, как и во многих других моделях анализа, основанных на вероятностях, наше заключение нельзя считать окончательным вердикторм. Вместо этого, лучше сказать, что шансы в пользу существования «недавнего японского предка» против шансов отсутствия такого, составляют 10 к 90. Другими словами, вариант с недавней японской «примесью» нельзя полностью исключить, поскольку вероятность такого сценария  составляет 11%.

 

Реклама

2014 год — год палеогенетики и эпигенетики

Оглядываясь назад на события и открытия, коими в уходящем 2014 году ознаменовалась область исследований генетики человека, можно смело сказать что уходящий год был годом прорыва в двух принципиально различных направлениях — в палеогенетике, изучающей геномы популяций древних людей прошлого, и  в эпигенетике,  с помощью которой можно прогнозировать будущее (здоровье и качество жизни) отдельных людей.


Палеогенетика

В самом начале 2014 года, на руках немногочисленных исследователей  палеогеномов было менее десятка древних геномов человека, опубликованных в предыдущие года. К концу 2014 года опубликован ряд работ, посвященных попыткам генотипирования останков древних людей — от живших несколько тысячелетий назад до «усть-ишимца» с предположительным возрастом около 45 тысяч лет, неандертальцев и «денисовки». Количество таких расшифровок растет все быстрее, что не может не вызывать оптимизма.  Вторая половина 2014 года особенно примечательна как количеством подобных публикаций, так и числом полных геномных NGS-сиквенсов древних людей, размещенных в публичных репозиториях (банках геномных данных). Так, в сентябре в Nature была опубликована окончательная версия работы Lazaridis et al. 2014  «Ancient human genomes suggest three ancestral populations for present-day Europeans». Работа получила широкое освещение в СМИ, поскольку аналитическая выборка сэмплов в этом исследовании включала значительное количествао заново генотипированных (на чипе Affymetrix HumanOrigin) образцов ДНК из древних палеолитических стоянок Сибири (Афонтова Гора, Малта), представителя древней индейской культуры Кловис и палеоэскимоса Cаккак. В работе был представлен  целый  ряд образцов древней ДНК представителей европейских мезолитических и неолитических культур, опубликованных в более ранних работах 2012-2014 годов: Skoglund et a. 2014 «Genomic Diversity and Admixture Differs for Stone-Age Scandinavian Foragers and Farmers»(шведские земледельцы и охотники собиратели эпохи неолита); Olalde et al. 2014 «Derived immune and ancestral pigmentation alleles in a 7,000-year-old Mesolithic European» (дДНК мезолитического населения Иберийского полуострова) и т.д.

Опубликованные геномы так и остались бы достоянием небольшой группы ученых, и по-прежнему бы использовались бы только для сравнения с абстрактными и анонимизрованных данными референсных популяций человека, если бы усилиями пары любителей (прежде всего усилиям Чандракумара) палеогеномы не были преобразованы в привычные и удобные для популяционного анализа форматы  BAM, VCF и Plink binary, а также в стандартный формат геномных данных от FTDNA. По своей сути, преобразование состояло в сложной процедуре сборки генома из библиотек коротких геномных ридов (в формате sra., в котором эти риды хранятся в репозиториях крупных баз геномных данных). Полученные сборки геномов в формате sam/bam cравниваются с референсным геномом человека, и отличающиеся одиночные нуклеотидные полиморфизмы сохраняются в VCF файл. Здесь нужно помнить о том, что в этой процедуре не учитывался параметр качества сиквенса PHRED score. Традиционно рекомендуется использовать только те базовые пары, PHRED score которых превышает 30, т.е чья точность определения составляет 99.9% (или 1 ошибка на 1000 базовых пар). Кроме того, в этой процедуре разработчик не учел влияние постмортальных изменений ДНК. Cледует помнить, что ДНК, как и любая биомолекула, способна вступать в химические реакции с окружающим миром, тут-то и появляются различные модификации нуклеотидов (особенно по краям фрагментов древней ДНК). Наиболее частая постмортальная мутация — дезаминирование цитозинов (C), приводящая к возникновению урацилов (U) в последовательности древней ДНК, которые при проведении ПЦР многократно копируются «бездушным» ферментом ДНК-полимеразой как тимин (Т). Именно по этой причине, при оценке достоверности снипов в полученных из палеогеномов вариантах особое внимание требуется уделять транзициям C->T и  G->A.  Если при подсчете вариантов окажется, что такие транзиции встречаются чаще ожидаемого, то можно сделать вывод о существенном повреждении палео-ДНК.  И хотя по причине игнорирования этих ограничений, автором было получено большое количество снипов, в некоторых случаях, например при объединении полученных данных NGS c данными генотипирования с помощью классических технологий миркочипов, использование таких данных может существенно уменьшить качество интерпретации.

Тем не менее, благодаря этим усилиям, и не в меньшей степени, благодаря соотрудничеству с порталом Gedmatch и компанией  FTDNA, большинство клиентов ведущих компаний на рынке персональной геномики и генетической генеалогии (таких как 23andme, и FTDNA) могут сравнить свои данные с данными древних геномов либо путем сравнения частото аллелей, либо посегментно сравнивая свои хромосомы с гомологичными хромосомами древних геномов.  Более того, Феликс Чандракумар пошел дальше и разместил 10 наиболее качественных палеогеномов (т.е палеогеномов с наибольшим числом перекрывающихся разными микроматрицами снипов) на FTDNA. Таким образом, с помощью сервиса MyOrigins FTDNA, исследователи могут установить распределение «этно-популяционных составляющих» или «предковых этнопопуляционных компонентов» в этих древних геномов. Нужно помнить, конечно же, что в случае с наиболее древними геномами (геномами неандертальца, усть-ишимца и т.д.) полученное распределение более молодых компонентов (полученных из современных популяций) нельзя интерпретировать буквально.


Эту замечательную функцию дополняют калькуляторы Eurogenes, благодаря которым любой интересующийся человек может посмотреть, какой процент его/ее генома приходится на тот или иной древний геном. Для людей, озабоченных вопросами анонимности, Феликс разработал отдельное десктопное приложение  — калькулятор древней ДНК. Этот калькулятор  показывает, какой процент ДНК (составных сегментов) аутосомной ДНК клиента попадает в каждый из 30 образцов древней ДНК . Другими словами, он показывает  процент общих предков в сравнении современного ДНК и палеоДНК.

Подводя итоги года, можно сказать, что в области изучения древней ДНК все ожидания были оправданы.


Эпигенетика

Под эпигенетикой обычно понимают область знаний о совокупности свойств организма, которые не закодированы непосредственно в геноме, но могут и должны передаваться по наследству.Эпигенетика может быть определена как изучение механизмов контроля активности генов во времени и пространстве в процессе развития сложных организмов. К настоящему времени обнаружены и описаны различные механизмы контроля активности генов, однако в уходящем 2014 году особое внимание ученые уделяли  изучению одного из таких механизмов  — ферментативному (энзиматическому) метилированию самой генетической матрицы, то есть ДНК.

Метилирование — это изменение молекулы ДНК путем присоединения метильной группы (-СH3) к нуклеотиду C, причем необходимо, чтобы за С следовал нуклеотид G. Последовательность нуклеотидов -CG- называется СpG динуклеотидом, или CpG сайтом. Метилирование происходит не во всех клетках одновременно, поэтому говорят о проценте метилирования определенного CpG сайта.метилирование ДНК ощутимо сказывается на её взаимодействии (связывании) с различными белками. Во многих случаях метилирование по цитозиновым остаткам препятствует связыванию специфично реагирующих с ДНК ядерных белков (факторов), которые, собственно, и осуществляют разные генетические процессы, в том числе транскрипцию, репликацию и репарацию.Как известно, метилирование играет важнейшую роль в механизме экспрессии (т.е качественном и количественном проявлени) генотипа в фенотип. оказано, что с изменением профиля метилирования связаны такие заболевания, как различные виды рака, диабет первого и второго рода, шизофрения и т.д. Поэтому важно уметь анализировать профиль метилирования генома, и здесь перед энзимологией расскрываются огромные перспективы. Например, в 2014 году компания «СибЭнзайм» открыла новый фермент, на базе которого разработали новый метод детекции. Он позволяет определять, включен или выключен интересующий вас ген — э то управляющий механизм в организме, именно отключение отдельных генов ученые связывают с развитием рака:

С технической точки зрения, изучение метиляции ДНК происходит с использованием модифицированного варианта ChiPSeq (это комбинированный вариант иммунопреципитации хроматина (ChIP) и высокоэффективного секвенирования ДНК для определения участков связывания ДНК и белков). Не вдаваясь в биолого-химические подробности этого модифицированного метода, его можно кратко описать следующим образом. Каждый CpG сайт измеряется с помощью двух флуоресцентных проб. Флуоресцентный сигнал проб пропорционален соответственно количеству метилированных и неметилированных CpG сайтов в тестируемом образце.  Полученные данные образуют собой профиль метилирования, который удобно сравнивать с различными референсными образцами. Как уже говорилось выше, этот профиль можно использовать не только для медицинских целей (например, для изучения эпигенетических факторов развития различных заболеваний), но и для более общих целей. В недавном исследовании, проведённом специалистами из Калифорнийского университета (UCLA), выявило биологические часы, встроенные в геном человека и оно впервые определило, что внутренние часы в состоянии точно оценить возраст различных человеческих органов, тканей и клеток. Исследователи обратили свое внимание на метилировании – естественном процессе, изменяющем химический состав ДНК. Он изучил 121 набор данных, собранных ранее исследователями, изучавшими метилирование здоровых и раковых тканей человека. Проанализировав информацию по 8000 образцов из 51 типа тканей и клеток со всего тела, исследователи смогли определить, как возраст влияет на уровни метилирования с рождения до 101 года. Он определил, что метилирование работает на 353 участках ДНК, которые изменяются с возрастом. Таким образом, профиль метилирования ДНК представляет собой наиболее надежную метрику для расчетов биологического возраста как отдельных органов, так и всего организма.

Принимая это во внимание, можно сказать что и в последующие года эпигенетику ожидают радужные перспективы.

Новая российская компания на рынке персональной геномики

 

В сентябре в Москве открылся один из «сколковских стартапов» -медицинский центр «Атлас», который специализируется на «персонализированной» и «превентивной» медицине. Своим пациентам центр предлагает сначала cделать скрининговый тест http://www.atlas.ru, а потом уже разрабатывать план профилактики и лечения на основе его результатов — выявленных предрасположенностей и рисков возникновения заболеваний, а также генетически обусловленных реакций на лекарства.

Массовой расшифровкой генома в России занялись ещё в 2007 году, поэтому на рынке уже существует несколько похожих компаний. Однако «Атлас» назвал своей целью сделать генотипирование популярным и доступным — примерно так, как это удалось 23andMe, американской компании бывшей жены Сергея Брина Анны Войжитски, в которую Google инвестировала почти 4 миллиона долларов. Популярность 23andMe явно не даёт покоя владельцам «Атласа», поэтому даже домен 23&me.ru они зарегистрировали на себя. Биомедицинский холдинг Atlas основан в 2013 году. Команда Atlas включает в себя специалистов, уже сейчас внедряющих в клиническую практику концепцию персонализированной медицины и работающих на стыке фундаментальной науки и практической медицины.

Нужно сказать, что бизнес-модель «Атласа» действительно построена на основе модели 23andme. Спектр предлагаемых клиентам сервисов персональной геномики также похож на тот, что имеется в 23andme. Вместе с этим, имеется одно принципиальное отличие — в отличии от 23andme, предлагавшей в своем продукте в числе прочего и описание медицинских генетических рисков, продукт «Моя генетика» компании Atlas не просто представляет перечень рисков, но и предполагает консультацию профессионального специалиста по медицинской генетике в медицинском центре Atlas (входящего в состав холдинга).  На мой взгляд, это очень удачный ход. Как известно, в прошлом году у компании 23andme возникли серьезные проблемы с  FDA. Управление по санитарному надзору за качеством пищевых продуктов и медикаментов[3] (англ. Food and Drug Administration, FDA, USFDA) — агентство Министерства здравоохранения и социальных служб США, один из федеральных исполнительных департаментов. Управление занимается контролем качества пищевых продуктов, лекарственных препаратов, косметических средств, табачных изделий и некоторых других категорий товаров, а также осуществляет контроль за соблюдением законодательства и стандартов в этой области. В прошлом году это агентство по жалобе нескольких клиентов инициировало проверки соответствия рынка персональной медицинской генетика законодательству, в результате которой 23andme было предписано временно прекратить включение данных о генетических рисках в свои отчеты. И хотя российским законодательством данная область практически не регулируется, тем не менее включение в продукт услуг профессионального врача-генетика, безусловно, правильный ход, так как позволяет клиенту получить профессиональную консультацию специалиста в довольно специфической и сложной области медцинской генетики.

Лицам, интересующимся генетической генеалогией и своим происхожден, будет интересен раздел, в котором можно посмотреть данные о своих гаплогруппах; проценте генов, доставшихся от неандертальцев; а также разбиение генетических вариантов своего «генома» по компонентам происхождения.  Поскольку я помогал компании Atlas разрабатывать этот раздел (в плане составления описания гаплогрупп и разработки алгоритмов определения компонентов происхождения), то могу поручиться своей репутацией за научную состоятельность выдаваемых результатов.

Процитирую отзыв одного из первых клиентов

«Самая серьёзная и достоверная рубрика — здоровье: в ней связь определённых типов генов с возможным заболеванием подтверждена научными исследованиями, в которых принимало участия более тысячи человек. Здесь риски развития заболеваний сгруппированы в процентах и сравниваются со средним риском по популяции, отображены наследственные заболевания, а также так называемая фармокогенетика, индивидуальная чувствительность к лекарствам (аллергические реакции, побочные эффекты).

Самыми высокими рисками для меня, согласно тесту, являются меланома (0,18 % при среднем риске 0,06 %), системная склеродермия (0,05 % при среднем 0,03 %), сахарный диабет первого типа (0,45 % при среднем 0,13 %), аневризма сосудов головного мозга (2,63 % при среднем 1,8 %), системная красная волчанка (риск 0,08 % при среднем риске 0,05 %), эндометриоз (1,06 % при среднем риске 0,81 %), артериальная гипертензия (42,82 % при среднем риске 40,8 %). Ну и так далее. Кроме того, тест выявил, что я являюсь здоровым носителем варианта гена, связанного с периодической болезнью. Моя же чувствительность к лекарствам оказалась совершенно среднестатистической, ничем не примечательной, поэтому никаких особых побочных эффектов или аллергических реакций тест не выявил.

В рубрике «Питание» мне рекомендовали то, что рекомендуют своим читателям все журналы о здоровом образе жизни, — сбалансированную диету и почему-то не больше 998 килокалорий в день (при норме для взрослого человека, который не занимается спортом, в 1 200). Не рекомендовали есть сладкое и жирное, пить крепкий алкоголь, закусывать его картошкой или заедать рисом, запретили сладкое и жареное. В общем, всё, что можно было бы посоветовать любому россиянину старше 18 лет. У меня заподозрили непереносимость лактозы и запретили молочные продукты, хотя никаких проблем с молоком у меня никогда не было. Несмотря на это, в разделе «Рекомендации» мне посоветовали есть «больше молочных продуктов каждый день» (потом разработчики сказали, что это — баг), потому что молоко «снижает риск развития сахарного диабета», который у меня повышен. Если пить его вместо сладкой газировки, то, наверное, снижает. Но сейчас прогрессивное человечество уже задумывается о том, насколько молоко вообще необходимо взрослому человеку, — связи потребления молока с крепкими костями и восполнением витамина D, о которой говорили раньше, так и не было найдено.

В разделе «Спорт» меня назвали «спринтером» и посоветовали силовые тренировки, поэтому рекомендовали гандбол, регби и плавание и запретили бег, баскетбол, конный спорт и зимние виды спорта. На мой удивлённый вопрос: «Почему запретили бег, который почти всем можно?» — врач-генетик Ирина Жигулина, с которой мы потом общались, ответила, что речь идёт о профессиональном спорте. Профессионального бегуна из меня, по их мнению, не выйдет.

В разделе «Происхождение» меня ждала интерактивная инфографика о том, как мои предки по материнской линии вышли из Восточной Африки 150–180 тысяч лет назад и двинулись в Северную Европу. У меня нет Y-хромосомы, поэтому, что там происходило с отцовской линией, совершенно непонятно. Мои надежды найти успешных родственников так и не оправдались — бегунок остановился на отметке «500 лет назад» и выдал результат, что 50,9 % моего ДНК — от жителей Северной Европы. Жаль, что это совсем не то, что получают, например, покупатели теста 23andMe, которым предоставляют доступ к социальной сети, где можно найти своих родственников. А так хотелось прожить такую историю, как Стэйси и Грета, которые узнали, что они сёстры, благодаря 23andMe!

Больше всего меня удивила информация под заголовком «Личные качества». Тут я узнала, что у меня снижен риск развития никотиновой зависимости, есть предрасположенность к абсолютному слуху, нет риска ранней менопаузы и есть склонность к избеганию вреда. Этот раздел создатели относят к «развлекательной генетике», потому что данные в ней строятся на основе экспериментов с небольшой выборкой испытуемых (меньше 500). Но они меня вовсе не развлекли, а расстроили. Во-первых, выяснилось, что у меня нет предрасположенности к кудрявым волосам: «у вас не выявлен генетический вариант, часто встречающийся у кудрявых людей», хотя я кудрявей, чем многие каракулевые шубы. А во-вторых, у меня «не выявлен вариант гена, встречающийся у большинства творческих людей». В-третьих, я и вовсе интроверт.

Результаты теста заканчиваются рекомендациями пройти консультацию с терапевтом (по поводу риска системной красной волчанки), с эндокринологом (по поводу сахарного диабета) и с дерматологом (склеродермия, меланома), а также ежегодно сдавать анализ крови, делать маммографию, с 40 лет — регулярно ЭКГ. Ещё рекомендовали пить кофе и молоко, витамины, регулярно заниматься спортом и редко загорать»

Алгоритм самостоятельного анализа результатов экзомного тестирования

Осенью 2011 года один из флагманов коммерческой персональной геномики, компания 23andme, запустила пилотный проект экзомного тестирования, в котором клиентам предлагался продукт — экзомный тест за 999 американских долларов вместе с интерпретацией результатов.  Тест покрывал примерно 50 млн. базовых пар ДНК, включающих в себя информацию необходмую для синтеза протеинов. К сожалению, пилотный проект быстро закрылся из-за отсутствия интереса и высокой стоимости теста. Тем не менее, некоторые из россиян успели заказать себе этот тест и получить результаты. Но так как авторизированный отчет 23andme с толкованием полученных результатов оказался написанным на сложном для понимания эзотерическом научном языке,  возникла необходимость в дополнительной интерпретации, вернее разжевывании имеющейся интерпретации, то я решил показать, как можно проанализировать экзом самостоятельно с помощью подручных средств.

В качестве примера я использую анонимизированный файл vcf (файл с перечнем геномных вариантов) одного из немногих россиян, заказавших экзомное тестирование в 23andme.

 

Техническое описание исследования.

Для анализа экзома я использовал NGS-библиотеки пакета Bioconductor-R (в среде статистических вычислений R), предназначенного для анализа полногеномных данных. Основной библиотекой, задействованной в анализе была библиотека variantAnnotation.

source(«http://bioconductor.org/biocLite.R&#187;)

library(VariantAnnotation)

Загрузка требуемого пакета: BiocGenerics

Загрузка требуемого пакета: parallel

Присоединяю пакет: ‘BiocGenerics’

Загрузка требуемого пакета: GenomicRanges

Загрузка требуемого пакета: IRanges

Загрузка требуемого пакета: XVector

Загрузка требуемого пакета: Rsamtools

Загрузка требуемого пакета: Biostrings

Присоединяю пакет: ‘VariantAnnotation’

В самом начале я загрузил заархивированный файл x.vcf в память с использованием координат геномного билда hg19 (т.к. VCF был получен из bam-файла, координаты которого были взяты из GRCh37.64, соответствующего hg19):
> vcf <- readVcf(«x.vcf», «hg19»)

> vcf

class: CollapsedVCF

dim: 110651 1

rowData(vcf):

  GRanges with 5 metadata columns: paramRangeID, REF, ALT, QUAL, FILTER

info(vcf):

  DataFrame with 28 columns: AB, AC, AF, AN, BaseQRankSum, DB, DP, DS, Dels,.

geno(header(vcf))

DataFrame with 5 rows and 3 columns

        Number        Type

   <character> <character>

AD           .     Integer

DP           1     Integer

GQ           1       Float

GT           1      String

PL           .     Integer

head(rowData(vcf), 3)

GRanges with 3 ranges and 5 metadata columns:

             seqnames         ranges strand | paramRangeID            REF

                <Rle>      <IRanges>  <Rle> |     <factor> <DNAStringSet>

  rs79585140        1 [14907, 14907]      * |         <NA>              A

  rs75454623        1 [14930, 14930]      * |         <NA>              A

  rs78601809        1 [15211, 15211]      * |         <NA>              T

                            ALT      QUAL      FILTER

             <DNAStringSetList> <numeric> <character>

  rs79585140                  G    494.81  MQFilter40

  rs75454623                  G    718.96  MQFilter40

  rs78601809                  G    125.22  MQFilter40

Затем я определил качество полученных генотипов (эти данные содержаться в колонке GQ секции генотипов vcf). Как видно из приведенных ниже значений, только 52% всех генотипов имеют 99%  степень аккуратности определения, качество остальных 48% вариантов лежит в диапазоне между 0 и 90% процентами. 

> geno(vcf)

List of length 5

names(5): AD DP GQ GT PL

> GQ <-geno(vcf)$GQ

> dim(GQ)

[1] 110651      1

> geno(vcf)

List of length 5

names(5): AD DP GQ GT PL

> GQ <-geno(vcf)$GQ

> dim(GQ)

[1] 110651      1

> fivenum(GQ)

[1]  0.03 33.98 99.00 99.00 99.00

> length(which(GQ==99.00))/length(GQ)

[1] 0.5221552

 hist(GQ[GQ != 0], breaks=seq(0, 100, by=10)

qc

На следующем этапе я опредилил число ранее неизвестных (новельных, то есть отствующих в базе dbSNP) вариантов в файле VCF. Всего вариантов 110651, из них известных 106076 и новельных 4575 (в отчете 23andme 4137). В целях определения качества новельных снипов я создал метрику для оценки качества снипов на основе сопоставления двух параметров – качества глубины покрытия генома и качества генотипирования. Из приведенного ниже графика видно, что примерно 25 % новельных снипов находятся в зоне низкого качества глубины покрытия, и это означает что примерно четверть новельных снипов могут представлять собой артефакт генотипирования:

info(vcf)$DB -> dbsnpsnp

metrics <- data.frame(QUAL=qual(vcf), inDbSNP=dbsnpsnp, RSQ=info(vcf)$QD)

 

qdПосле предварительных статистических тестов, я приступил к определению генов, в которых были обнаружены варианты. В зависимости от своего расположения, варианты могут оказаться в одном из 7 участков: интрон,  кодирующий участок, 5’UTR, 3’UTR, интергенный регион, сплайс-сайт и промоутер.   Для обнаружения положения вариантов, я задействовал библиотеку TxDb.Hsapiens.UCSC.hg19.knownGene.  Сначала я определил положение всех вариантов (cм.  Excel файл exomevariants.xlsx), однако поскольку нас интересует в первую очередь frameshift мутации, то гораздо более информативным является нахождение вариантов в кодирующих участках. Всего таких вариантов в кодирующих участка обнаружено 56035 в 23140 генах, причем 989 из 23140 генов имеет больше одного обнаруженного варианта в кодирующем участке

library(TxDb.Hsapiens.UCSC.hg19.knownGene)

txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene

loc <- locateVariants(rd, txdb, CodingVariants())

table(sapply(splt, function(x) length(unique(x)) > 1))

FALSE  TRUE

22151   989

Далее, я использовал функцию predictCoding, она вычисляет изменения кодирования аминокислот в несинонимичных вариантах. В запросе к базе данных рассматрываются только те участки , которые перекрываются с кодирующей областью. Референсные последовательности извлекаются из BSgenome. Вариант последовательности определяется путем замены, вставки или удаления значения в колонке varAllele в референсной последовательности.  Код аминокислот вычисляются для последовательности кодонов  в тех вариантах, когда длина кратна 3.

library(BSgenome.Hsapiens.UCSC.hg19)

coding <- predictCoding(vcf, txdb, seqSource=Hsapiens)


Затем из полученных 56035 вариантов в кодирующей области я выбрал только те, которые привели к сдвигу рамки чтения (таковых оказалось 412).

coding[mcols(coding)$CONSEQUENCE == «frameshift»]

Благодаря запуску функции predictCoding я отождествил код измененных аминокислот для не-синонимичных вариантов.  Анализируя это подмножество, я задался целью установить, какой физиологический ущерб эти изменения кодируемых аминокислот могут нанести при экспресии в фенотип.  Для этих целей я использовал методы PolyPhen, которые предсказывают последствия замены аминокислот в человеческих протеинах.  PolyPhen использует информарцию о функции последовательностей и структурную информацию, характеризующую замену аминокислоты для прогнозах о структуре и функции белка.

nms <- names(coding)

idx <- mcols(coding)$CONSEQUENCE == «nonsynonymous

nonsyn <- coding[idx]

rsids <- unique(names(nonsyn)[grep(«rs», names(nonsyn), fixed=TRUE)])

library(PolyPhen.Hsapiens.dbSNP131)

pp <- select(PolyPhen.Hsapiens.dbSNP131, keys=rsids,cols=c(«TRAININGSET», «PREDICTION», «PPH2PROB»))

head(pp[!is.na(pp$PREDICTION), ])

Полученные файлы сохранены в Excel файл x.xlsx, и затем подсчитано в каких протеинах наблюдается наибольшое число потенциально вредных frameshift мутаций

Название гена  Число frameshift мутаций

 

NA 2288
uc001lsw.2 44
P20930 34
P22105-3 21
P25940 13
O60732 12
Q5SSG8 10
Q86YZ3 10
Q9NYF8 9
P46013 9
Q5VU43 9
Q14500 9
Q9UMD9 8
O14513 8
A6NKC6 8
uc003ssj.2 7
O95678 7
O15360 7
Q86VF7 7
uc001mdw.3 6
Q9Y289 6
Q8NEZ4 6
Q96C45 6
Q9HD43 6
Q01955 6
Q2KHM9 6
Q701N2 6
P38570 6
P24821 6
P46734 6
Q9Y2K3 5
uc002vwl.2 5
uc002nfb.2 5
uc003nsm.1 5
Q9UNS1 5
Q9NZH6 5
D3DSV6 5
C9IYD7 5
P20853 5
Q14676 5
P38159 5
P35125 5
P35670 5
Q8N6F8 4
Q96Q06 4
uc001bvt.2 4
uc011dxu.1 4
uc004csb.2 4
Q8TE73 4
Q9H2D6 4
uc002yfm.2 4
Q96J66 4
uc002zag.1 4
Q8TB24 4
Q96RN1 4
Q99572 4
Q9C0D2 4
uc002zwe.2 4
Q9ULD2 4
Q8WXH0-2 4
uc003uhx.2 4
O95050 4
O75128 4
P02533 4
A3KMH1 4
Q5HYK9 4
P48634 4
O15069 4
Q8IUA7 4
Q16600 4
P60331 4
Q5D862 4
B7ZBR5 4
Q5KU26 4
Q12802-2 4
A8MTL4 4
P23327 4
Q7Z3S9 4
O75096 4
A1A5D9 4
Q15149 4
P54257-2 4
uc001saw.2 3
Q96PX6 3
Q9BWT7 3
Q9H0J4 3
uc001kgr.1 3
Q9H0U9 3
uc002uln.2 3
Q8TD33 3
Q9BYR5 3
Q9H339 3
Q9Y6R7 3
Q8N808 3
Q96RW7 3
uc003wcz.2 3
uc002fmv.2 3
Q8N865 3
uc002ycq.2 3
Q92954 3
uc003eee.3 3
Q9NQN1 3
Q9UQ84 3
Q9NQT5 3
Q96PX9 3
Q8NC74 3
Q8NGH7 3
uc011lix.1 3
Q8NH40 3
Q9NWH7 3
uc001rks.2 3
Q96EZ4 3
uc001wit.3 3
Q8N436 3
Q8TAX7 3
Q9P126 3
Q99954 3
Q9UI47 3
Q9BRB3 3
Q9UIU6 3
Q9BYQ6 3
Q96JF6 3
uc003kju.2 3
Q96L96 3
Q8N1N5 3
Q96PQ1 3
Q9H4A3 3
uc003zfz.2 3
Q9HCE0 3
uc010ebn.2 3
Q9HCS5 3
Q9NQG7-3 3
Q5JU00 3
Q6ZW33 3
Q6E0U4 3
O60500 3
O94900 3
P56945 3
Q5VIY5 3
P57679 3
Q6PFW2 3
A2I2N5 3
O60269 3
P60369 3
O15016 3
P60371 3
Q5QNZ9 3
P78334 3
Q5VY09 3
O75056 3
Q6NTE8 3
Q02386 3
Q6XYB7-2 3
Q07092 3
Q75N90 3
Q07157 3
P51689 3
Q08170 3
Q4G0N8 3
Q12789 3
P35908 3
C9JIP1 3
C9JLR2 3
Q12889 3
B9EIK7 3
Q13033 3
P11473 3
Q13635 3
Q685J3 3
Q14246 3
Q6H9L7 3
O14617 3
Q6PEW0 3
P27816 3
Q6UWM9 3
Q15051 3
Q6ZS72 3
Q15084 3
P13645 3
P27987 3
P47881 3
Q15345 3
P49747 3
P30926 3
Q17RW2 3
Q02447 3
uc002ckw.2 2
Q9BYQ4 2
uc002xvf.2 2
Q9H1I8 2
uc009zoy.1 2
Q9H1M4 2
uc002npq.1 2
Q92764 2
uc003cbl.3 2
Q92766-2 2
Q8NDY8 2
Q8N568 2
uc001say.2 2
Q9HBR0 2
uc002hwr.2 2
Q9HC10 2
uc002qoi.1 2
Q9HCC9 2
uc002yxk.1 2
Q92956 2
Q9BX84 2
Q9HCH5-8 2
uc003tcj.1 2
Q969J2 2
uc003xza.2 2
Q8NG08 2
uc010neg.1 2
Q9NP71 2
Q96SK3 2
Q9NPR9 2
Q99518 2
Q9NQ92 2
uc002mdk.2 2
uc010ooe.1 2
uc002oyh.1 2
Q96DS6 2
Q8N531 2
Q8NGF6 2
Q9BS92 2
Q9NQW5 2
uc002zwc.1 2
uc010sxc.1 2
uc003cwg.3 2
Q96GX9 2
Q9BYD2 2
Q8N146 2
uc003qtl.2 2
Q9NU22 2
Q8WXA2 2
Q9NV39 2
uc003xio.3 2
Q96JA4 2
Q8WXU2 2
Q9NY99 2
uc010cov.2 2
Q8NGV6 2
uc001sax.2 2
Q9NYQ6 2
uc001sck.2 2
Q96JM2 2
uc001zrt.2 2
Q9NZM3 2
uc002cyd.1 2
Q96KT7 2
uc002frs.1 2
Q9P2F8 2
uc002jjm.3 2
Q9UBK8 2
Q8TD19 2
Q9UGC7 2
uc002oxx.2 2
Q96KV7 2
uc002pdw.2 2
Q8NH01 2
uc002shl.3 2
Q9UK85 2
Q9BQ66 2
Q96LB9 2
Q8TE60 2
Q96LP6 2
uc002yip.1 2
Q96MC2 2
Q9BW66 2
Q9UPR6 2
Q8ND61 2
Q96NY9 2
uc003cpb.3 2
Q9Y237-2 2
uc003dnv.2 2
Q8N3K9 2
uc003gix.2 2
Q8N1A6 2
uc003lwz.2 2
Q8TAX9-3 2
uc003pgu.3 2
uc001aru.2 2
Q8WWF5 2
Q96PY6 2
uc003tpz.2 2
uc001dpq.2 2
uc003vuk.3 2
uc001drv.2 2
uc003wsh.3 2
uc001jrr.3 2
uc003xkm.1 2
Q8NA69 2
Q9GZP7 2
Q96QA5 2
uc009vzo.2 2
Q96RD9 2
uc010azk.1 2
uc001qnn.1 2
Q9H0R5 2
Q8TBZ5 2
Q8WZ92 2
Q8TCU5 2
Q9NRD8 2
Q5T9A4 2
Q6ZRI6 2
B9EGI0 2
O75830 2
Q86VW1 2
C9J2Y8 2
Q658L1 2
C9JF86 2
Q6PEY2 2
P60412 2
Q7RTR8 2
O95153 2
Q8IYM2 2
O95255 2
O60391 2
O95425 2
Q6DT37 2
Q8IZ20-2 2
Q6NXP2-2 2
O95460-2 2
P50226 2
A6NMZ7 2
P54253 2
O95786 2
Q86TB3 2
Q0P670 2
P59827 2
Q0VAR9 2
Q5T6X5 2
Q0VDD8-4 2
O60336 2
O95817 2
O60423-2 2
A6PVS8 2
Q68DN1 2
P04439 2
O60602 2
A8MSH3 2
Q6NV75 2
Q13427 2
Q6P6B7 2
A8MSQ1 2
Q6PXP3 2
Q14028 2
Q6ZMY3 2
Q14031-2 2
Q6ZTY8 2
P15822 2
B9ZVK6 2
P15848 2
Q7Z570 2
P17931 2
Q86UQ0 2
Q14929 2
Q86XA9 2
P20742 2
Q8IYG6 2
A8MT70 2
P60014 2
A8MT77 2
Q5T8R8 2
O14830 2
Q5TZA2 2
Q15643 2
Q5VTH9 2
P23141-2 2
Q5VV43 2
P23280 2
Q5W0A0 2
Q24JP5-2 2
O60443 2
A6ND91 2
Q6BDS2 2
Q2M243 2
A6NE01 2
Q32MH5 2
Q6IMN6 2
Q32P51 2
Q6NUI1 2
Q3L8U1-2 2
Q6NWU0 2
Q499Z3 2
Q6P3X3 2
O15018 2
A6NEL2 2
Q4G0P3 2
O75081 2
Q4LDE5 2
Q6U949 2
Q58DX5 2
P50238 2
Q58EX7 2
Q6ZN79 2
Q5D0E6 2
O75095 2
P25391 2
P54108 2
A9UL12 2
Q70EL2 2
Q5JTH9 2
Q76I76 2
B4E1X0 2
P56545-2 2
Q5JUB6 2
Q7Z6J9 2
O15389 2
Q86TY3 2
O43164 2
A5PLN7 2
B5MDQ5 2
Q86W24 2
Q5T035 2
O75376 2
Q5T036 2
Q8IUX4 2
Q5T0J7 2
Q8IYK2 2
Q5T124 2
Q8IYS4 2
Q5T1M5 2
Q5T6F2 2
Q12955 2
uc003xax.3 1
uc002eax.2 1
uc001dwa.2 1
Q96JL9 1
uc003aka.2 1
Q8N9L9 1
Q9Y2Y8 1
Q96JQ0 1
uc001rig.1 1
Q96KD3 1
Q92889 1
Q8N9R8-2 1
uc003mtg.2 1
Q8N9T8 1
Q96HJ3 1
Q96L50 1
Q9Y623 1
Q8N386 1
uc001law.2 1
Q8NA82 1
uc001whc.2 1
Q96LI9 1
uc002lvh.2 1
Q8NAT2 1
Q93075 1
Q96LW7-2 1
uc003fpa.2 1
Q96LW9 1
uc003sys.2 1
Q96M29 1
uc004bmg.1 1
Q96M89 1
Q9Y2G2 1
Q96M91 1
Q9Y566 1
Q8NC38 1
uc001abz.3 1
Q96MG8 1
uc001hfx.2 1
Q96MK3 1
uc001mty.2 1
Q96MY7 1
uc001stk.2 1
Q96N77 1
uc002aon.2 1
Q8N3D4 1
Q92583 1
Q96P69 1
Q8N323 1
Q96PC2 1
uc002sfp.2 1
Q96PD4 1
Q969T7 1
Q96PE6 1
Q96AQ6 1
Q96PH1 1
uc003hti.2 1
Q96PL5 1
uc003ntp.1 1
Q96PN7 1
uc003vsp.2 1
Q8NCW5 1
uc003yyy.2 1
Q96PQ7 1
uc009wcm.2 1
Q8N196 1
uc010jzk.1 1
Q8NDN9 1
Q8WUP2 1
Q8NDX1 1
Q9Y442 1
Q8NDX9 1
Q9Y5P1 1
Q8N3Y1 1
Q9Y6J0 1
Q96QD9 1
uc001cqe.3 1
Q96QE3 1
uc001fgr.1 1
Q96QI5 1
Q8WW52 1
Q8NDZ6 1
uc001mgt.2 1
Q96RG2 1
uc001qyz.3 1
Q96RL6 1
Q8WXD5 1
Q8NE62 1
uc001urv.2 1
Q96RP7 1
uc001zhi.2 1
Q8NEG0 1
uc002cmq.1 1
Q96S42 1
Q92543 1
Q96SB8 1
uc002iob.2 1
Q8NEQ5 1
uc002mkl.2 1
Q96SN8 1
uc002oqh.1 1
Q96ST8 1
Q92935 1
Q96SZ5 1
uc002unu.2 1
Q96T17 1
Q8N8C0 1
Q99456 1
Q969X1 1
Q8NEV8 1
uc003cna.3 1
Q8N412 1
Q96AY2 1
Q99595 1
Q96BF3 1
Q99678 1
uc003knc.2 1
Q99705 1
uc003nif.3 1
Q99707 1
Q8N910 1
Q99856 1
Q96E39 1
Q8NFD2 1
Q8N960 1
Q8NFT2 1
Q96FX8 1
Q9BQI5 1
uc003zsj.2 1
Q9BR39 1
uc009vnn.1 1
Q9BR77 1
Q96HD9 1
Q8NFV5 1
Q96HP8 1
Q9BRQ8 1
Q8N9H6 1
Q8NFZ6 1
Q9Y2I6 1
Q9BSA9 1
Q9Y2R9 1
Q9BT25 1
Q9Y3N9 1
Q9BU76 1
Q9Y4K0 1
Q9BUV0 1
Q9Y5E3 1
Q9BVL2 1
Q9Y5T5 1
Q9BVP2 1
Q9Y6C9 1
Q8NG04 1
Q9Y6S9-2 1
Q9BWD1 1
uc001bfk.2 1
Q9BWH6 1
Q8WW01 1
Q9BWN1 1
uc001epm.3 1
Q8N434 1
uc001ggg.1 1
Q9BWW9 1
uc001ikw.3 1
Q9BX26 1
Q8N715 1
Q8NG31-2 1
uc001lvm.2 1
Q9BXA9 1
uc001mjv.2 1
Q9BXI2 1
Q8WWU7 1
Q9BXI9-2 1
uc001rdt.2 1
Q9BXL6 1
uc001sah.1 1
Q9BXR5 1
uc001saz.2 1
Q9BXT6 1
uc001ugs.3 1
Q9BXT8 1
uc001vmt.2 1
Q9BXW6 1
uc001wja.2 1
Q9BY07 1
Q8WYQ9 1
Q8NGD2 1
uc002axo.2 1
Q9BYH1 1
uc002dai.3 1
Q9BYJ0 1
uc002flb.2 1
Q8NGD4 1
uc002hjn.2 1
Q8N123 1
uc002hzw.2 1
Q9BYR3 1
Q92610 1
Q8N475 1
uc002mdo.3 1
Q9BZE2 1
uc002nhl.1 1
Q9BZJ0 1
uc002oek.2 1
Q9BZJ3 1
Q92794 1
Q9BZY9 1
uc002pgj.1 1
Q9C000 1
uc002rxt.1 1
Q8NGI3 1
uc002spl.1 1
Q9C0D6 1
uc002vfa.2 1
Q9C0G6 1
uc002wtp.2 1
Q9C0J9 1
Q969S8 1
Q8NGJ0 1
uc002zji.3 1
Q9GZS9 1
uc002zxx.2 1
Q9GZU2 1
uc003cfi.1 1
Q9H063 1
Q96AP0 1
Q9H094 1
uc003dar.2 1
Q8NGK0 1
uc003eny.2 1
Q9H0M4 1
uc003fts.2 1
Q8NGV0 1
uc003gxu.2 1
Q9H0U6 1
uc003jig.2 1
Q8N4B4 1
Q96BJ8-3 1
Q9H190 1
uc003mwv.2 1
Q8NGX0 1
Q96BT3 1
Q9H1L0 1
uc003nzw.2 1
Q8NGY9 1
Q96CB5 1
Q9H1V8 1
Q8N957 1
Q9H201 1
Q96E52 1
Q9H205 1
uc003vvi.2 1
Q9H208 1
Q96F05 1
Q9H222 1
uc003xda.2 1
Q9H2B4 1
Q96GQ7 1
Q8N4T4 1
uc003zjw.2 1
Q9H306 1
uc004aid.2 1
Q8N4W9 1
Q8N9B5 1
Q9H347 1
uc009vxy.2 1
Q9H3S1 1
uc009yor.2 1
Q8NHC8 1
uc009zxk.2 1
Q9H4I0 1
Q96HP0 1
Q9H4M7 1
uc010fxm.1 1
Q9H583 1
uc010lpr.1 1
Q9H5L6 1
Q9Y2F5 1
Q9H6S0 1
Q9Y2H0-1 1
Q9H6Y2 1
Q9Y2K1 1
Q9H720 1
Q9Y2K9 1
Q9H816 1
Q9Y2T7 1
Q9H8X2 1
Q9Y345 1
Q9H9Y2 1
Q9Y3T6 1
Q9HAT1 1
Q9Y485 1
Q9HBF5 1
Q9Y508 1
Q9HBJ7 1
Q9Y585 1
Q9HBL0 1
Q9Y5E6 1
Q9HBM0 1
Q9Y5P3 1
Q8NHL6-3 1
Q9Y5W3 1
Q9HBW9 1
Q9Y644 1
Q8NHY0 1
Q9Y6G9 1
Q8NHY3 1
Q8WV93 1
Q8NI17-2 1
Q9Y6X5 1
Q9HCG8 1
Q8WVE6 1
Q8NI35 1
Q8WVT3 1
Q8N4X5 1
uc001doh.2 1
Q9HCX3 1
Q8WW43 1
Q8N1N2 1
uc001dzr.2 1
Q9NNX1 1
uc001ffh.2 1
Q9NP70 1
uc001fst.1 1
Q8TAZ6 1
uc001hdj.2 1
Q9NPB3 1
uc001hob.3 1
Q9NPB6 1
uc001ioo.2 1
Q9NPG4 1
uc001kal.3 1
Q8TB03 1
uc001koi.2 1
Q8N1N4 1
Q8WWK9 1
Q9NQC3 1
Q8WWQ8 1
Q8TB52 1
uc001mhb.3 1
Q8N5C6 1
uc001mqw.2 1
Q9NQS7 1
uc001nps.2 1
Q8TC84 1
uc001qvk.1 1
Q9NQW1 1
uc001qzt.2 1
Q8TCG1 1
uc001rgh.2 1
Q9NR11-2 1
Q8N7M2 1
Q9NR20 1
Q8WXB1 1
Q9NRC9 1
Q8WXG8 1
uc010otd.1 1
Q8N7Q3 1
Q8TCU4 1
uc001swc.3 1
uc010xwr.1 1
uc001uom.2 1
Q8N5H7 1
uc001usl.3 1
Q8TCY9 1
uc001vwo.1 1
Q9NRY5 1
Q8N7U7 1
Q9NU02 1
uc001wph.3 1
Q8TD07 1
uc001zif.2 1
Q9NV12 1
uc002adi.2 1
Q8N5W8 1
uc002ari.2 1
Q9NVI1 1
Q8N7X4 1
Q9NVL8 1
Q92485 1
Q9NVR5 1
uc002eab.2 1
Q9NVV2 1
uc002elh.2 1
Q8TD31-2 1
Q92535 1
Q9NWN3 1
uc002gov.3 1
Q9NWS6 1
uc002hwb.2 1
Q9NWS9 1
uc002hzv.2 1
Q9NX76 1
uc002ile.3 1
Q8N628 1
uc002jad.2 1
Q9NYA4 1
uc002knr.2 1
Q8TDM6 1
Q92614 1
Q9NYG8 1
uc002mkc.2 1
Q9NYK6 1
Q8N309 1
Q8TDR0-2 1
uc002niv.2 1
Q9NYQ8 1
uc002nrk.3 1
Q9NYR8 1
uc002onr.2 1
Q9NYW5 1
uc002owt.2 1
Q9NZ56 1
uc002oyf.1 1
Q9NZC7 1
Q92932 1
Q8TDV0 1
uc002pjn.2 1
Q8TDX9 1
uc002red.2 1
Q9NZM4 1
uc002sen.3 1
Q9NZP2 1
Q8N884 1
Q9NZP6 1
Q8N8A6 1
Q9NZQ3 1
uc002vcz.2 1
Q9NZQ8 1
uc002vml.2 1
Q9P0L9 1
uc002wgf.1 1
Q9P0W8 1
Q969H9 1
Q8TDY8 1
Q969Q4 1
Q9P1Z2 1
Q969T3 1
Q9P212 1
uc002zcm.2 1
Q9P266 1
uc002zsk.1 1
Q9P272 1
Q96A59-2 1
Q9P275-2 1
uc003afo.2 1
Q9P2A4 1
Q96A84-3 1
Q9P2E9-3 1
uc003cib.2 1
Q8TE59 1
uc003com.2 1
Q9P2X7 1
uc003cqx.2 1
Q9UBC7 1
uc003cxg.2 1
Q8N183 1
Q96AQ9 1
Q9UBS4 1
uc003eev.3 1
Q9UBU2 1
uc003fli.1 1
Q9UDX4 1
uc003frm.2 1
Q9UFP1 1
uc003gco.3 1
Q8TE68 1
uc003gkv.3 1
Q9UGP5 1
uc003hqx.3 1
Q9UH36 1
uc003ian.3 1
Q9UH92 1
Q96BH3 1
Q9UHF4 1
uc003lnj.2 1
Q9UHN6 1
uc003mlz.3 1
Q8N6I1 1
uc003mwa.3 1
Q9UIS9 1
uc003nef.2 1
Q8TEC5 1
uc003nkt.2 1
Q9UJ78 1
uc003ntn.3 1
Q9UJA3 1
uc003nvm.1 1
Q9UJL9 1
uc003ods.2 1
Q9UJW7 1
uc003qtf.2 1
Q8TER0 1
Q96DA0 1
Q9UKB5 1
uc003tbm.2 1
Q9UKP4 1
uc003toq.2 1
Q9UL01 1
uc003tzn.2 1
Q9UL49 1
uc003vrz.2 1
Q9UL52 1
Q96EK5 1
Q8TER5 1
uc003wcr.1 1
Q9ULE4 1
uc003wkp.2 1
Q9ULE6 1
uc003wwm.2 1
Q9ULI1 1
uc003xcu.2 1
Q9ULI3 1
uc003xep.1 1
Q9ULM0 1
Q96G42 1
Q8TEV9 1
uc003yyd.2 1
Q9UMR7 1
Q96GU1 1
Q9UMS0 1
uc003zlr.1 1
Q9UMX9 1
uc004aay.2 1
Q9UNI1 1
uc004atg.3 1
Q9UNK9 1
uc004can.3 1
Q9UNQ0 1
uc004ded.1 1
Q8TEX9 1
uc009vvi.2 1
Q9UPA5 1
Q96HA7 1
Q9UPN6 1
uc009ynk.2 1
Q9UPP2-2 1
uc009zhj.2 1
Q8TF21 1
uc009zwi.2 1
Q9UPV0 1
uc010awk.1 1
Q9UQ35 1
uc010boe.2 1
Q9UQ74 1
uc010eas.2 1
Q8TF76 1
uc010fvs.1 1
Q9UQ90 1
uc010inb.2 1
Q9UQP3 1
uc010ljy.1 1
Q8WTP8 1
Q8N9F8 1
Q8WTV0-2 1
Q8N9H9 1
Q9Y2A4 1
uc010wmr.1 1
Q9NRH2 1
uc010yvx.1 1
Q9NRP7 1
uc011jvp.1 1
Q9NRR1 1
Q8N0W5 1
Q9NRR4 1
Q8IX07 1
Q6P461 1
Q5TCM9 1
P19075 1
P10515 1
P19484 1
Q5JZ73 1
P19878 1
Q66K79 1
P19971 1
Q6W5P4 1
P20138 1
Q86V20 1
P20702 1
O95202 1
C9JN24 1
A6NGG8 1
C9JN71 1
Q5VVP1 1
D3DQK9 1
Q6IQ23 1
P21462 1
P08123 1
A6NMK8 1
Q6ZR62 1
A6NMR0 1
Q7Z5M8-2 1
O00182 1
Q86YD7 1
O00192 1
Q8IYW5 1
P23490 1
Q5JRA6 1
P24071 1
O95521 1
O00253 1
Q5T5J6 1
P24928 1
P02452 1
O00292 1
Q5XUX1-3 1
P25440 1
Q6AZY7 1
P25774 1
P05362 1
O00330 1
Q6PHR2 1
P26378 1
Q6UWT4 1
P26640 1
Q6ZMZ3 1
O00418 1
Q6ZU80 1
O00421 1
A2RUB6 1
P28070 1
Q86T20 1
P28330 1
P13646 1
P30042 1
Q8IVF2 1
P30154-2 1
A6NM10-2 1
O00451 1
Q8IZJ4 1
P31391 1
O95229 1
P31930 1
O95359 1
P32519 1
Q5QGT7 1
P34741 1
Q5SXM8 1
P34820 1
Q5T197 1
P34947 1
Q5T7V8 1
O00566 1
Q5TZ20 1
P35346 1
Q5VUJ5 1
P35372-3 1
P02462 1
P35452 1
Q63HK3 1
P35542 1
Q68DQ2 1
P35556 1
P04264 1
A2RUE3 1
P05107 1
P35789 1
P06133 1
O14610 1
P07197 1
P35968 1
Q6Q4G3 1
P36888 1
Q6UQ28 1
P37108 1
Q6V0I7 1
P37231 1
P08572 1
P38117-2 1
Q6ZNH5 1
A6NNB3 1
P09172 1
O14641 1
P0C0P6 1
P40145 1
P10643 1
P40394 1
Q7Z4N2 1
P42694 1
Q7Z736 1
P42898 1
P12643 1
P43360 1
Q86VI3 1
O14656 1
P14060 1
O14777 1
Q8IUC4 1
O14798 1
Q8IWC1 1
P48357 1
Q8IXT1 1
A2RUQ5 1
Q8IYN0 1
P48681 1
P17693 1
P48736 1
Q587J8 1
O14944 1
Q5CZA4 1
P49917 1
O95236 1
A7MBM2 1
B9A029 1
A8K1K9 1
Q5JVX7 1
P50748 1
Q5M775 1
P50995 1
A6NFJ4 1
P51172-2 1
Q5SXH7-4 1
P51636 1
Q5SYB0 1
P51659 1
A6NII6 1
O15021-3 1
O95900 1
P51801 1
O95988 1
P51858 1
P01011 1
P51957 1
Q5TEA6 1
P51993 1
Q5U5R9 1
P52569-2 1
Q5VTT5 1
O15031 1
P02461 1
A8K8G6 1
Q5VXM1 1
O15205 1
Q5VZR2-2 1
P55103 1
Q5Y7D6 1
P55198 1
Q659C4 1
P56159 1
Q68D06 1
A8K979 1
Q68EA5 1
P56696 1
P04004 1
P56715 1
P04626 1
A8MQT4 1
Q6MZQ0 1
P57071 1
Q6NUQ4 1
O15534 1
Q6NVY1 1
P57727 1
Q6P0N0 1
P57737 1
P06734 1
P58182 1
P07919 1
P59046 1
P07996 1
P59282 1
Q6S9Z5 1
P59533 1
Q6UDR6 1
P59826 1
Q6UWB4 1
O15553 1
Q6UXN2 1
P59910 1
Q6VVB1 1
O43151 1
Q6X4T0 1
A2VDJ0-5 1
Q6ZMT4 1
P60368 1
P08949-2 1
O43187 1
Q6ZQQ6 1
P60370 1
Q6ZRQ5 1
O43314-2 1
Q6ZS82 1
P60411 1
Q6ZUX3 1
O43493-2 1
Q70CQ4 1
P63211 1
Q7KYR7 1
P68363 1
Q7RTV2 1
P78329 1
Q7Z3Y9 1
O43555 1
Q7Z5L4 1
P78364 1
P12109 1
P78396 1
Q7Z7A1 1
P80075 1
Q86TC9 1
P98164 1
P12645 1
Q00056 1
Q86V71 1
Q008S8 1
Q86VY4 1
Q01459 1
Q86WB0 1
Q01658 1
Q86XM0 1
Q01664 1
P15169 1
O43731-2 1
C9JG81 1
O60225 1
Q8IVF5 1
O60243 1
Q8IWE2 1
Q02742 1
Q8IXI1 1
Q02880-2 1
Q8IYD8 1
Q03188 1
P15924 1
Q03405 1
P17036 1
Q03468 1
Q8IYX7 1
Q04671 1
Q8IZF2 1
Q04844 1
A6NM11 1
Q05952 1
O95185 1
Q07075 1
Q58F21 1
A1A4T8-2 1
O95206 1
O60285 1
Q5H9F3 1
Q07283 1
Q5IJ48 1
O60292 1
Q5JSS6 1
Q08397 1
Q5JTV8 1
Q08426 1
O95394 1
Q08999 1
Q5JWR5 1
Q08AF3 1
A1A519 1
Q08AG7 1
Q5M9N0 1
Q09MP3 1
Q5QJE6 1
O60312 1
Q5SQ64 1
Q0P6D6 1
Q5SW96 1
A4D1E9 1
Q5SXM2 1
A4D263 1
Q5SY16 1
Q0ZGT2 1
Q5SZD4 1
Q0ZLH3 1
A6NHR9 1
O60403 1
O95897 1
A4Z6T7 1
Q5T1B0 1
Q12887 1
Q5T2N8 1
A8MV65 1
O95944 1
Q8IZU2 1
Q5T7B8 1
Q8IZY2 1
O95995 1
A0PJX4 1
Q5TAA0 1
A1IGU5 1
Q5TD97 1
Q13084 1
Q5THR3 1
Q13127 1
P01031 1
Q13137 1
P01833 1
Q13233 1
Q5VTJ3 1
Q13316-2 1
P02458 1
O60548 1
Q5VV41 1
Q13470-2 1
Q5VVB8 1
Q13487 1
Q5VW36 1
Q13601 1
Q5VXT5 1
Q13615 1
Q5VYM1 1
B1AH88 1
C9JBG3 1
Q13748 1
Q5XX13-4 1
Q13753 1
Q60I27 1
Q13797 1
P02538 1
Q13946-2 1
Q66K74 1
O60603 1
P02730 1
O60721 1
P02788 1
Q14032 1
Q68DV7 1
Q14112 1
Q6A555-2 1
Q14126 1
Q6B9Z1 1
Q14160-3 1
P04259 1
Q14209 1
C9JDV5 1
Q14210 1
Q6IPM2 1
Q14244 1
Q6L8Q7 1
B1ANC0 1
P04731 1
Q14331 1
Q6NUN0 1
O75023-3 1
Q6NUS8 1
B1APY0 1
Q6NVV3 1
Q14679 1
P05787 1
Q14690 1
Q6NY19-2 1
Q14774 1
P06732 1
B2R6C3 1
Q6P4A8 1
Q14934-3 1
Q6PDB4 1
Q14980 1
P07900-2 1
Q14990 1
Q6PGQ1 1
Q15032 1
Q6PJF5-2 1
B4DQM4 1
Q6Q0C1 1
A6ND48 1
Q6Q759 1
B5B2M5 1
Q6T423 1
O75161 1
Q6UB98 1
O75185 1
Q6UE05 1
Q15652 1
Q6UW78 1
Q16204 1
P08151 1
Q16348 1
Q6UXC1-2 1
B5MDD1 1
Q6UXY1 1
Q16610 1
Q6V1P9 1
Q16762 1
Q6W3E5-2 1
Q16787 1
Q6WQI6 1
Q16790 1
Q6X784 1
Q16828 1
Q6XZB0-2 1
Q17R60 1
P08922 1
O75635 1
Q6ZN28 1
Q18PE1 1
Q6ZNB6 1
Q1EHB4 1
Q6ZP82 1
Q1X8D7 1
Q6ZR52-2 1
O75717 1
P08F94 1
Q2HXU8 1
Q6ZRV2 1
Q2I0M4 1
Q6ZS81 1
A1L443 1
P09871 1
Q2L4Q9 1
Q6ZUB1 1
O75952 1
Q6ZV73 1
Q2M2I5 1
P10321 1
Q2M329 1
P10412 1
Q2M3C7 1
P10523 1
Q2NL98 1
Q7RTR0 1
Q2TAA8 1
Q7RTS3 1
Q2TAL5 1
Q7Z2W4 1
Q2TBF2 1
Q7Z3Y8 1
Q2VIQ3 1
Q7Z407 1
Q2VPA4 1
P12107-2 1
Q2VPK5 1
Q7Z5L7-3 1
Q30201 1
Q7Z5Y6 1
Q32M84 1
Q7Z6L1 1
Q32M92 1
Q7Z745 1
O76014 1
Q86SH2 1
Q32MK0 1
P12270 1
O94769 1
Q86TJ5 1
Q3KPI0 1
Q86U06 1
O94823 1
Q86US8 1
Q3LHN0 1
Q86V48 1
Q3LI76 1
P13284 1
Q3LIE5 1
C9JFW9 1
Q3MJ13 1
Q86VZ4 1
Q3SY84 1
Q86W28 1
Q3YEC7 1
Q86X19 1
Q3ZCM7 1
Q86XL3 1
Q3ZCV2 1
Q86YB8 1
Q3ZCX4 1
Q86YE8-3 1
Q495D7 1
P15313 1
Q495Z4 1
Q8IUN9-2 1
O94850 1
Q8IUX7 1
Q49A88-6 1
Q8IVF4 1
Q49MG5 1
Q8IWA6 1
A1Z1Q3-2 1
Q8IWD5 1
B7ZLS8 1
Q8IWT3 1
Q4G0Z9 1
Q8IX12 1
B8A4U7 1
Q8IXS2 1
Q4VX76-2 1
Q8IY37 1
Q4W5C3 1
Q8IYE1 1
Q4W5G0 1
Q8IYI8 1
Q4ZJI4 1
P17022 1
Q53EZ4 1
Q8IYR2 1
Q53GL7 1
Q8IYU4 1
Q53HC0 1
Q8IYX0 1
Q53QW1 1
Q8IYY4 1
Q53RT3 1
Q8IZC4 1
Q53S99 1
Q8IZF3 1
Q53SF7 1
Q8IZT6 1
Q53T94 1
Q56UN5 1
Q8N0U7 1
Q13007 1
Q13018 1

 

На следующем этапе возникает вопрос — что делать с полученным списком генов с наибольшим числом frameshift мутаций? Можно ли определить характер и уровень функциональных изменений в организме человека? Оказывается, можно. Как упоминалась выше, полученные потенциальные генетические варианты, приведшие к замене кода аминокислот, были сохранены в таблице. Затем я подсчитал, в каких именно протеинах наблюдается наибольшое число потенциально вредных frameshift мутаций, и выделил их в отдельный список. Поскольку это самые интересные (с точки зрения возможных изменений в фенотипе) мутации, то далее я работал только с теми протеинами, в которых наблюдается повышенное количество вредоносных мутаций. Из общего числа я отобрал 35 протеинов с наибольшим количеством мутаций. Отмечу, что ни один из обнаруженных протеинов сам по себе не имеет значимой связи с риском развития заболеваний  интересующего нас спектра. Поэтому вышеприведенный список протеинов был обработан в программе Cytoscape, так как нас интересуют в первую очередь обнаружение функциональных связей с теми протеинами, которые ранее были описаны в литературе как потенциальные факторы развития отдельных расстройств и заболеваний.  Я не буду приводить полученные сетевые графы взаимодействия протеинов, так как они содержат деликатную информацию медицинского характера, поэтому помещенный ниже образец графического отображения в программе Cytoscape взаимодействия протеинов носит сугубо иллюстрирующий характер и взят с сайта програмыы Cytoscape

visualMapping1

Неандертальские варианты генов метаболизма жиров у современного человека

Реконструированный геном неандертальца, опубликованный несколькими годами ранее, обеспечил исследователями генетических вариантов высших приматов богатым материалом для изучения на годы вперед. Уже при публикации чернового (драфт) варианта реконструированного генома неандертальца (вернее неандертальцев, поскольку при создании референсного генома неандертальца, также как и при реконструкции референсного генома человека, использовались совокупные геномы нескольких особей неандертальцев), было понятно, что сравнительный анализ геномов неандертальца и современного человека прольет свет на многие, ранее неразрешимые, вопросы эволюции человека.

Например, появился ряд работ, в которых были представлены убедительные доказательства того, что определенные генетически детерминированные варианты микроцефалии у людей появились в результате «вливания неандертальских генов». В другой работе авторы пришли к выводу о неандертальском происхождении ряда характерных аллельных вариантов генов гистосовместимости, распространенных в Европе. В новом исследовании, исследователи анализировали статистику представленности неандертальских вариантов генов в человеческой популяции. Доля таких генов у современных людей не-африканского происхождения в среднем составляет около 1–4 процентов генома. Она почти одинакова в разных популяциях за пределами Африки, однако при более тщательном анализе ученые обнаружили, что у европейцев существуют гены, которые как минимум в три раза обогащены именно неандертальскими вариантами.

Большая часть этих генов оказалась связана с метаболизмом жирных кислот, – веществ, которые входят в состав жира и составляют основу клеточных мембран. Статистический анализ говорит о том, что нендертальские варианты генов были предметом отбора, то есть накапливались у европейцев, а значит они давали некоторое эволюционное преимущество своим обладателям.

 

 

 

Происхождение гаплогруппы I2a и путь миграции ее носителей в Европе (часть 2)

Еще в 2010 году я пробывал спроецировать итоги дискуссии о «начале гаплогруппы I» (Молген), а  также возраста гаплогрупп I1,I2a1,I2a2,I2b1,I2b2* (рассчитаные Кеном Нордтведтом)  на археологическую карту Европы эпипалеолита и раннего мезолита.
*——
С 2010 года ISOGG-номенклатура субклад гаплогруппы I поменялась. Я не стал вносить изменения в ранее сделанную карту, однако в целях синхронизации предыдущих своих наработок с современной номенклатурой нужно отметить что I1,I2a1,I2a2,I2b1,I2b2 в современной номенклатуре называются I1,I2a1a,I2a1b,I2a2a,I2a2b.

Карта строилась из предположения о моногаплогрупности Европы в палеолите. Это минимальное допущение — но возможно, что оно методологически
неверно. Во-первых, теоретически в Европе периода палеолита могло быть больше гаплогрупп, а в пределах I -больше «гипотетических субкладов»**.

**————

Данные статьи Lazaridis et al. 2013.  содержат убедительную аргменты в пользу существования в структуре I потерянных I* cубклад. В частности два образца с мезолитической стоянки Motala (Motala 2 и Motala 9) были определены как I*.
Если первое кажется маловероятным (т.к. если гаплогруппа I осталась в Европе, почему не остались другие), то второе заключение о большем разнообразии гаплогруппных субкладов кажется логичным.Тем не менее, ответ можно узнать только после анализа древних Y-ДНК.

Вот что примерно получилось.

Главнывывод, наверное, следущий -наибольшое разнообразие субкладов было в «Атлантидемезолитической Европы» — Доггерланде, на котором, видимо, находился эпицентр круга целого ряда мезолитических культур Маглемозе. Почему именно там? Около 8000 г. до н. э. северное побережье массива суши, Доггерленд, представляло собой береговую линию с лагунами, болотами, приливными берегами и пляжами. Возможно, в эпоху мезолита этатерритория была богатейшей в Европе с точки зрения охоты, добычи птицы и рыболовства ( Vincent Gaffney, «Global Warming and the Lost European Country»;
Patterson, W, «Coastal Catastrophe» (paleoclimate research document), University of Saskatchewan).

Следовательно, принимая во внимание богатство экологических ресурсов, охотники и рыболовы позднего палеолита и мезолита должны были стекаться туда в большем количестве. Доггерланд погрузился под воду в результате гигантского оползня Стурегга (когда от Норвегии откололся кусок побережья объемом 3 000 куб.кум) или вызванного оползнем цунами около 8200 лет назад (6200 г. до н. э.). Это отрезало мезолитические культуры Британских островов и часть популяции субклада I2a2a от континента. Что интересно — по расчетам Нордведта точка коалисценции (схождения генетических линий субклад
I2a2a-Isles***) составляет как раз примерно 8 000 лет до нашего времени.

***___________

В номенклатуре ISOGG I2a1b2. Isles — условное название кластера, представленного главным образом на Британских островах.

Представляю читателю результаты проекции гипотетических ареалов субклад I на карту Европы эпохи финального палеолита и мезолита.

Археологические культуры обозначены следующим образом:

1 — маглемозе (по Г. Кларку); 2 -аренсбургская; 3 — свидерская; 4 — тьонгер; 5 — рёссен; 6 — федермессер; 7 -ларнийская; 8 — обанская; 9 — крезвельская; 10 — фосна; 11 — комса; 12 -суомусярве; 13 — аскола; 14 — кунда; 15 — днепро-деснинская; 16 — верхнедонская;17 — волго-окская; 18 — днепро-донецкая; 19 — астурийская; 20 — раковинных куч устья р. Тахо; 21 — тарденуазская; 22 — советеррская; 23 — микролитические памятники Прованса; 24 — азильская; 25 — эпиграветт; 26 — альпийская; 27 -чешско-тюрингский мезолит; 28 — типичная капсийская; 29 — капсийская и иберо-мавританская; 30 — мезолитические памятники испанского Леванта

Источник (исходник) карты: Археология Западной Европы. Каменный век., Монгайт А.Л.

Субклады I и Европа в эпоху финального палеолита и мезолита
Европа в эпоху финального палеолита и мезолита

Очередные исследования генетических факторов влияющих на возникновение шизофрении и аутизма

Один из ведущих новостных порталов сообщает о том, что международная группа исследователей выявила изменения вариации числа копий генов, связанные с возникновением шизофрении и аутизма. Как сообщается в статье, опубликованной в журнале Nature, удаление или дублирование одного и того же региона на коротком плече хромосомы 15 приводит к противоположным изменениям в сером и белом веществе головного мозга.

http://polit.ru/news/2013/12/19/ps_schizophrenia/

От себя добавлю, что одно из многих уже опубликованных  исследований (и исследований, публикация которых еще только предстоит) в этой области.  Изучение генетических факторов аутизма и шизофрении показывает, что простая модель «один полиморфизм-одно заболевание» здесь просто не работает, тем более процентный вклад генетических факторов наряду с эпигенетическими факторами в развитие этого заболевания неизвестен . Поэтому, несмотря на по-медийному оптимистическое название статьи, не стоит делать далеко идущие выводы о том, что в этих исследованиях можно ставить точку.