Анализ древней ДНК – проблемы, их преодоление и результаты

На портале Генофонд.ру размещен реферат важной статьи, подводящей промежуточные итоги изучения древней ДНК. Я позволю себе удовольствие процитировать себе некоторые места этого замечательного обзора, написанного ув. Надеждой Марковой

Термин «древняя ДНК» возник в научной литературе в 1980-х годах в связи с появлением новой области исследований, которая получила название «молекулярная палеонтология». С развитием сначала методов ДНК-амплификации (полимеразной цепной реакции), а потом методов секвенирования нового поколения эта область получила мощный толчок к развитию и сегодня стала основным средством реконструкции эволюции живых организмов, и в том числе реконструкции истории человека.

Революция в эволюционной генетике

Исследование древней ДНК совершило революцию в эволюционной генетике, так как появилась возможность напрямую исследовать прошлое, законсервированное в «капсуле времени» ДНК, пишут авторы статьи. Работы последних десятилетий показали, что древняя ДНК может сохраняться в костях, зубах, мумифицированных и замороженных тканях, и может быть извлечена из этих древних образцов. Впервые древняя ДНК была извлечена в 1984 г. (Higuchi et al.) из высохшей мышцы вымершего родственника зебры. Но ее анализ целиком зависел от развития технологий, поэтому стал возможен с появлением ДНК-амплификации (метод полимеразно-цепной реакции – ПЦР), и вышел на новый уровень с появлением методов секвенирования нового поколения. На рисунке авторы представили основные вехи в истории изучения древней ДНК.

О методологии исследования палео-ДНК

Методы палеогенетики оказались незаменимы, чтобы разобраться в  ключевых этапах человеческой цивилизации. Например, понять, как именно происходила смена обществ охотников-собирателей на первых земледельцев, как распространялось по Европе сельское хозяйство – имела ли место передача технологий от одних популяций другим или же происходила смена самих популяций («циркуляция идей или людей»). Анализ древней ДНК показал, что между периодами 8 и 5 тысяч лет назад Европа не была генетически однородной: первые земледельцы с Ближнего Востока мигрировали в Западную Европу и  смешивались там с местными охотниками-собирателями. В Восточную Европу около  6-5 тыс. лет назад туда пришли группы людей из Анатолии, которые смешавшись с охотниками-собирателями, дали начало популяциям скотоводов, наиболее успешная из которых известна по ямной культуре.  Полагают, что именно миграции ямников из понто-каспийских степей на запад и на восток около 4,5 тыс. лет назад можно связать с распространением технологий и, возможно, языков индоевропейской семьи.

Древняя ДНК может помочь и в изучении развития признаков, характерных только для Homosapiens, таких как речь, подчеркивают авторы статьи. Изучение генетических вариаций, связанных с языком, дает информацию о том, когда мог возникнуть сложный  язык, присущий человеку. Так, было показано, что определенный вариант гена FOXP2 (именно его в первую очередь связывают с развитием речи)  имелся уже у неандертальцев. Вероятно, считают специалисты, этот вариант возник у общих предков неандертальцев и современного человека.

Древняя ДНК помогает в изучении адаптации человека к разным условиям среды. При анализе древних геномов в них были выявлены сигналы отбора, связанных с изменением диеты, чувствительностью к ультрафиолету  и пр. Так, становится ясно, как распространялись по Европе такие черты, как светлая кожа и толерантность  к лактозе (способность переваривать молоко во взрослом возрасте).

Трудности в изучении палео-ДНК и их преодоление

Одна из основных проблем, с которыми сталкиваются исследователи древней ДНК, это ее деградация, которая неизбежно происходит со временем.  Обычно ДНК из древних образцов сильно фрагментирована, загрязнена микробной ДНК и химически модифицирована. Причем степень деградации  в больше степени зависит от условий, в которых находился древних образец (температура, влажность), чем от его возраста. Последние исследования показали, что теоретический предел возраста образца, из которого можно извлечь ДНК, составляет 1-1,5 млн лет. Авторы описывают методы, которыми можно преодолеть трудности, связанные с особенностями древней ДНК.

Фрагментация ДНК может быть частично преодолена с помощью современных протоколов, позволяющих извлекать и анализировать очень короткие фрагменты, длиной 50-70 нуклеотидов. К тому же, методы секвенирования нового поколения ориентированы на анализ коротких фрагментов, длина которых составляет 50-100 нуклеотидов.

Большую проблему составляет контаминация древней ДНК современной ДНК. Преодолеть ее нужно путем строгого соблюдения протоколов, учитывающих правила сбора образов, обработки рабочих помещений, применение методов ДНК-аутентификации, независимой перепроверки результатов и пр. Развиваются также методы механической и химической деконтаминации – авторы их описывают.

Еще одна важная проблема – посмертное изменение ДНК из-за гидролиза и окисления, вызывающее деаминацию нуклеотидов, которая ведет к ложным результатам ПЦР. Авторы описывают несколько молекулярно-генетических и биоинформатичесих подходов для преодоления этой проблемы, с ними можно ознакомиться в тексте статьи.

Инструменты анализа

С увеличением числа образцов древней ДНК ученые получают возможность исследовать древнюю генетическую изменчивость на популяционном уровне и сравнивать ее с современной. Различные методы (PCA, STRUCTURE, ADMIXTURE, SPAMIX, SPA, ADMIXTOOLS, GPS, LAMP, HAPMIX,  reAdmix, MUTLIMIX, mSpectrum, SABER и др.), которые были разработаны для анализа современных популяций, применяются и к древним популяциям. В комбинации с антропологическими данными и историческими  сведениями они позволяют реконструировать пути миграций, определять состав предков той или иной популяции, выяснять географическое  происхождение гаплотипов.

Эпигенетика и палео-ДНК

Фенотипическое проявление генотипической изменчивости зависит не только от изменчивости тех или иных аллелей в геноме, но и от степени экспрессии генов, а она во многом определяется химическими модификациями, не затрагивающими последовательность нуклеотидов в ДНК, то есть эпигенетическими. Это метилирование ДНК, модификация белков-гистонов, спектр некодирующей РНК. Последние исследования показали, что некоторые эпигенетические модификации сохраняются и postmortem. Так, удалось картировать метилирование генома неандертальцев и денисовцев. Выяснилось, что некоторые гены были более метилированы у древних людей, чем у современных. Анализ метилирования позволяет также определить возраст индивида (как современного – что важно для криминалистики, так и древнего).

Новая российская компания на рынке персональной геномики

 

В сентябре в Москве открылся один из «сколковских стартапов» -медицинский центр «Атлас», который специализируется на «персонализированной» и «превентивной» медицине. Своим пациентам центр предлагает сначала cделать скрининговый тест http://www.atlas.ru, а потом уже разрабатывать план профилактики и лечения на основе его результатов — выявленных предрасположенностей и рисков возникновения заболеваний, а также генетически обусловленных реакций на лекарства.

Массовой расшифровкой генома в России занялись ещё в 2007 году, поэтому на рынке уже существует несколько похожих компаний. Однако «Атлас» назвал своей целью сделать генотипирование популярным и доступным — примерно так, как это удалось 23andMe, американской компании бывшей жены Сергея Брина Анны Войжитски, в которую Google инвестировала почти 4 миллиона долларов. Популярность 23andMe явно не даёт покоя владельцам «Атласа», поэтому даже домен 23&me.ru они зарегистрировали на себя. Биомедицинский холдинг Atlas основан в 2013 году. Команда Atlas включает в себя специалистов, уже сейчас внедряющих в клиническую практику концепцию персонализированной медицины и работающих на стыке фундаментальной науки и практической медицины.

Нужно сказать, что бизнес-модель «Атласа» действительно построена на основе модели 23andme. Спектр предлагаемых клиентам сервисов персональной геномики также похож на тот, что имеется в 23andme. Вместе с этим, имеется одно принципиальное отличие — в отличии от 23andme, предлагавшей в своем продукте в числе прочего и описание медицинских генетических рисков, продукт «Моя генетика» компании Atlas не просто представляет перечень рисков, но и предполагает консультацию профессионального специалиста по медицинской генетике в медицинском центре Atlas (входящего в состав холдинга).  На мой взгляд, это очень удачный ход. Как известно, в прошлом году у компании 23andme возникли серьезные проблемы с  FDA. Управление по санитарному надзору за качеством пищевых продуктов и медикаментов[3] (англ. Food and Drug Administration, FDA, USFDA) — агентство Министерства здравоохранения и социальных служб США, один из федеральных исполнительных департаментов. Управление занимается контролем качества пищевых продуктов, лекарственных препаратов, косметических средств, табачных изделий и некоторых других категорий товаров, а также осуществляет контроль за соблюдением законодательства и стандартов в этой области. В прошлом году это агентство по жалобе нескольких клиентов инициировало проверки соответствия рынка персональной медицинской генетика законодательству, в результате которой 23andme было предписано временно прекратить включение данных о генетических рисках в свои отчеты. И хотя российским законодательством данная область практически не регулируется, тем не менее включение в продукт услуг профессионального врача-генетика, безусловно, правильный ход, так как позволяет клиенту получить профессиональную консультацию специалиста в довольно специфической и сложной области медцинской генетики.

Лицам, интересующимся генетической генеалогией и своим происхожден, будет интересен раздел, в котором можно посмотреть данные о своих гаплогруппах; проценте генов, доставшихся от неандертальцев; а также разбиение генетических вариантов своего «генома» по компонентам происхождения.  Поскольку я помогал компании Atlas разрабатывать этот раздел (в плане составления описания гаплогрупп и разработки алгоритмов определения компонентов происхождения), то могу поручиться своей репутацией за научную состоятельность выдаваемых результатов.

Процитирую отзыв одного из первых клиентов

«Самая серьёзная и достоверная рубрика — здоровье: в ней связь определённых типов генов с возможным заболеванием подтверждена научными исследованиями, в которых принимало участия более тысячи человек. Здесь риски развития заболеваний сгруппированы в процентах и сравниваются со средним риском по популяции, отображены наследственные заболевания, а также так называемая фармокогенетика, индивидуальная чувствительность к лекарствам (аллергические реакции, побочные эффекты).

Самыми высокими рисками для меня, согласно тесту, являются меланома (0,18 % при среднем риске 0,06 %), системная склеродермия (0,05 % при среднем 0,03 %), сахарный диабет первого типа (0,45 % при среднем 0,13 %), аневризма сосудов головного мозга (2,63 % при среднем 1,8 %), системная красная волчанка (риск 0,08 % при среднем риске 0,05 %), эндометриоз (1,06 % при среднем риске 0,81 %), артериальная гипертензия (42,82 % при среднем риске 40,8 %). Ну и так далее. Кроме того, тест выявил, что я являюсь здоровым носителем варианта гена, связанного с периодической болезнью. Моя же чувствительность к лекарствам оказалась совершенно среднестатистической, ничем не примечательной, поэтому никаких особых побочных эффектов или аллергических реакций тест не выявил.

В рубрике «Питание» мне рекомендовали то, что рекомендуют своим читателям все журналы о здоровом образе жизни, — сбалансированную диету и почему-то не больше 998 килокалорий в день (при норме для взрослого человека, который не занимается спортом, в 1 200). Не рекомендовали есть сладкое и жирное, пить крепкий алкоголь, закусывать его картошкой или заедать рисом, запретили сладкое и жареное. В общем, всё, что можно было бы посоветовать любому россиянину старше 18 лет. У меня заподозрили непереносимость лактозы и запретили молочные продукты, хотя никаких проблем с молоком у меня никогда не было. Несмотря на это, в разделе «Рекомендации» мне посоветовали есть «больше молочных продуктов каждый день» (потом разработчики сказали, что это — баг), потому что молоко «снижает риск развития сахарного диабета», который у меня повышен. Если пить его вместо сладкой газировки, то, наверное, снижает. Но сейчас прогрессивное человечество уже задумывается о том, насколько молоко вообще необходимо взрослому человеку, — связи потребления молока с крепкими костями и восполнением витамина D, о которой говорили раньше, так и не было найдено.

В разделе «Спорт» меня назвали «спринтером» и посоветовали силовые тренировки, поэтому рекомендовали гандбол, регби и плавание и запретили бег, баскетбол, конный спорт и зимние виды спорта. На мой удивлённый вопрос: «Почему запретили бег, который почти всем можно?» — врач-генетик Ирина Жигулина, с которой мы потом общались, ответила, что речь идёт о профессиональном спорте. Профессионального бегуна из меня, по их мнению, не выйдет.

В разделе «Происхождение» меня ждала интерактивная инфографика о том, как мои предки по материнской линии вышли из Восточной Африки 150–180 тысяч лет назад и двинулись в Северную Европу. У меня нет Y-хромосомы, поэтому, что там происходило с отцовской линией, совершенно непонятно. Мои надежды найти успешных родственников так и не оправдались — бегунок остановился на отметке «500 лет назад» и выдал результат, что 50,9 % моего ДНК — от жителей Северной Европы. Жаль, что это совсем не то, что получают, например, покупатели теста 23andMe, которым предоставляют доступ к социальной сети, где можно найти своих родственников. А так хотелось прожить такую историю, как Стэйси и Грета, которые узнали, что они сёстры, благодаря 23andMe!

Больше всего меня удивила информация под заголовком «Личные качества». Тут я узнала, что у меня снижен риск развития никотиновой зависимости, есть предрасположенность к абсолютному слуху, нет риска ранней менопаузы и есть склонность к избеганию вреда. Этот раздел создатели относят к «развлекательной генетике», потому что данные в ней строятся на основе экспериментов с небольшой выборкой испытуемых (меньше 500). Но они меня вовсе не развлекли, а расстроили. Во-первых, выяснилось, что у меня нет предрасположенности к кудрявым волосам: «у вас не выявлен генетический вариант, часто встречающийся у кудрявых людей», хотя я кудрявей, чем многие каракулевые шубы. А во-вторых, у меня «не выявлен вариант гена, встречающийся у большинства творческих людей». В-третьих, я и вовсе интроверт.

Результаты теста заканчиваются рекомендациями пройти консультацию с терапевтом (по поводу риска системной красной волчанки), с эндокринологом (по поводу сахарного диабета) и с дерматологом (склеродермия, меланома), а также ежегодно сдавать анализ крови, делать маммографию, с 40 лет — регулярно ЭКГ. Ещё рекомендовали пить кофе и молоко, витамины, регулярно заниматься спортом и редко загорать»

Публикации и работа с палеогеномами

Как я уже отмечал в своих предыдущих записях, за последние годы был опубликован ряд работ, посвященных попыткам генотипирования останков древних людей — от живших несколько тысячелетий назад до «усть-ишимца» с предположительным возрастом около 45 тысяч лет, неандертальцев и «денисовки». Количество таких расшифровок растет все быстрее, что не может не вызывать оптимизма.  Вторая половина 2014 года особенно примечательна как количеством подобных публикаций, так и числом полных геномных NGS-сиквенсов древних людей, размещенных в публичных репозиториях (банках геномных данных). Так, в сентябре в Nature была опубликована окончательная версия работы Lazaridis et al. 2014  «Ancient human genomes suggest three ancestral populations for present-day Europeans». Работа получила широкое освещение в СМИ, поскольку аналитическая выборка сэмплов в этом исследовании включала значительное количествао заново генотипированных (на чипе Affymetrix HumanOrigin) образцов ДНК из древних палеолитических стоянок Сибири (Афонтова Гора, Малта), представителя древней индейской культуры Кловис и палеоэскимоса Cаккак. В работе был представлен  целый  ряд образцов древней ДНК представителей европейских мезолитических и неолитических культур, опубликованных в более ранних работах 2012-2014 годов: Skoglund et a. 2014 «Genomic Diversity and Admixture Differs for Stone-Age Scandinavian Foragers and Farmers»(шведские земледельцы и охотники собиратели эпохи неолита); Olalde et al. 2014 «Derived immune and ancestral pigmentation alleles in a 7,000-year-old Mesolithic European» (дДНК мезолитического населения Иберийского полуострова) и т.д.

В этой связи необходимо также отметить статью Carpenter et al. 2013 «Pulling out the 1%: whole-genome capture for the targeted enrichment of ancient DNA sequencing libraries»в которой целый авторский коллектив представил результаты исследований древних образцов ДНК найденных в захоронениях бронзового века II тыс. д.н.э (Болгария и Дания).  В следующей работе опубликованной в конце октября, Gamba et al. 2014. «Genome flux and stasis in a five millennium transect of European prehistory»,  читателям была представлена хронологическая перспектива на процесс изменения генофонда населения популяций живших на территории  Паннонской равнины на протяжении 5000 лет (с эпохи неолита до конца железного века), проиллюстрированная на примере изучения 13 образцов древней ДНК. Параллельно вместе с этим Wellcome Trust Sanger Institute разместил геномные «риды» геномов древних англосаксов и бриттов (сама статья еще находится в процессе пре-публикации, презентация статьи была представлена на последней конференции AJHG).

Более важные публикации появилась совсем недавно. В частности, таковой публикацией является статья Fu et al. 2014 «Genome sequence of a 45,000-year-old modern human from western Siberia» о  геноме так называемого «усть-ишимца» (возраст останков которого датируются 45 000 д.н.э) и статья Seguin-Orlando et al. 2014 «Genomic structure in Europeans dating back at least 36,200 years», посвященная обсуждению результатов анализа ДНК знаменитого «папусоида»  с палеолитической стоянки Костенки-14.Тело мужчины, жившего 37 тыс. лет назад и найденное в 1954 г. на юго-западе России, оказалось источником старейшей европейской ДНК. Анализ его генома, опубликованный на прошлой неделе, показывает, что большинство разнообразных европейских генетических комбинаций существуют более 30 тыс.лет и пережили последний ледниковый период. Генетики обнаружили что ДНК Костенки-14 является близкородственным по отношению к раннеевропейским охотникам-собирателям, современным европейцам и жителям Сибири.
В то же время другой древний геном, данные о котором были опубликованы несколько недель назад, принадлежащий сорокапятитысячелетнему западному сибиряку, известному как Усть-Ишим, имел родство как с европейцами, так и с азиатами.  Любопытно, что в этой статье подтверждается то о чем я говорил гораздо раньше: процент неандертальских генов у древних евразийцев был выше чем у современных (о чем я упоминал в одной из своих заметок в этом блоге).

Трудами известного геномного блоггера Феликса Чандракумара большинство из них было переведено в простой и доступный формат, аналогичный файлам raw data от FTDNA и 23andMe. В GEDMatch можно поиграть с этнокалькуляторами и даже попытаться сравнить свой геном с геномами древних людей.Для этого следует взять из таблицы (кот. видна, если пройти по ссылке) номера, которыми обозначены древние геномы.

Sample Name Sample Location GEDMatch Sex Y-DNA Mt-DNA Approx. Age by authors My Analysis or Comments
Altai Neanderthal Denisova Cave, Siberia F999902 Female 50,000 years
Denisova Denisova Cave, Siberia F999903 Female 30,000 years
Palaeo-Eskimo Qeqertarsuaq, Greenland F999906 Male Q1a D2a1 4,000 years Palaeo-Eskimo 2000 BC DNA
Clovis-Anzick-1 Montana, North America F999919 Male Q-Z780 D4h3a 12,500 years Matches Living people.
Mal’ta South-Central Siberia F999914 Male R U 24,000 years Matches Living people on X Chromosome.
La Braña-Arintero León, Spain F999915 Male C-V183 U5b2c1 7,000 years Analyzing La Braña-Arintero Ancient DNA
Motala-12 Östergötland, Sweden F999917 Male I-L460 U2e1 7,000 years My Analysis of Motala-12 ancient DNA
LBK Stuttgart, Germany F999916 Female T2c2 7,500 years Matches Living people
Loschbour  Loschbour, Luxembourg F999918 Male I-L460 U5b1a 8,000 years Matches Living people
Ajvide58 Sweden F999924 Male I-CTS772 U4d 5000 years Ajvide58 DNA Analysis
Gökhem2 Sweden F999934 Female H1c 5000 years Gökhem2 Ancient DNA Analysis
Hinxton-2 Cambridgshire, UK F999921 Female H2a2b1 1300 years Hinxton-2 Analysis
Hinxton-3 Cambridgshire, UK F999922 Female K1a4a1a2b 1300 years Hinxton-3 Analysis
Hinxton-4 Cambridgshire, UK F999925 Male R-DF25 H1ag1 2000 years Hinxton-4 has X-Matches with living people
Hinxton-5 Cambridgshire, UK F999926 Female H2a2a1 1300 years Hinxton5 Ancient DNA Analysis
KO1 Tiszaszőlős-Domaháza, Hungary F999931 Male I-L68 R3 5650-5780 cal BC Analysis of Neolithic KO1 genome
NE1 Polgár-Ferenci-hát, Hungary F999937 Female U5b2c 5070-5310 cal BC NE1 Ancient DNA Analysis
NE5 Kompolt-Kigyósér, Hungary F999927 Male C-F3393 J1c 4990-5210 cal BC Ancient Hungarian Genome NE5 Analysis
NE6 Apc-Berekalja I., Hungary F999932 Male C-P255 K1a3a3 4950-5300 cal BC Analysis of Hungarian genome-NE6
NE7 Apc-Berekalja I., Hungary F999928 Male I-L1228 N1a 4360-4490 cal BC Ancient Hungarian genome — NE7
CO1 Apc-Berekalja I., Hungary F999930 Female H 2700-2900 cal BC Analysis of Copper age genome CO1
BR2 Ludas-Varjú-dűlő, Hungary F999933 Male J-M67 K1a1a 1110-1270 cal  BC Ancient BR2 matches living people
IR1 Ludas-Varjú-dűlő, Hungary F999929 Male N-M231 G2a1 830-980 cal BC Ancient Hungarian genome — IR1
Tyrolean Iceman
(ERP001144)
Tisenjoch Pass, Oetztal Alps Male 5300 years Pending
Ust’-Ishim Ust’-Ishim, Siberia F999935 Male K-M526 R 45,000 years Ust’-Ishim matches with living people!
Kostenki14 European Russia F999936 Male C-V199 U2b 38,700-36,200 years Kostenki14 Ancient DNA Analysis
Sample Name Sample Location Sex Y-DNA Mt-DNA Approx. Age by authors
Mezmaiskaya Neanderthal Mezmaiskaya Cave Female 29,000 years
Tianyuan Tianyuan Cave, China R 40,000 years
Afontova Gora-2 South-Central Siberia Male R1? R 17,000 years
Motala-1 Östergötland, Sweden Female U5a1 7,000 years
Motala-9 Östergötland, Sweden Female U5a2 or U5a1f1a1 7,000 years
Motala-6 Östergötland, Sweden Male U5a2d 7,000 years
Motala-2 Östergötland, Sweden Male F-P139 U5e1 7,000 years
Motala-4 Östergötland, Sweden Female U5a2d 7,000 years
Motala-3 Östergötland, Sweden Male I-M258 U2e1 7,000 years
Hinxton-1 Cambridgshire, UK Male R-L151 K1a1b1b 2000 years
Ajvide53 Sweden Female U4d 5000 years
Ajvide59 Sweden Male I-PF3796 U5b2c1 5000 years
Gökhem7 Sweden Female H 5000 years
Ire8 Sweden Male I-CTS6343 U4d 5000 years
StoraFörvar11 Stora Karlsö, Sweden Male I-CTS4077 U5a1f1a 7500 years
Gökhem4 Sweden Male CF-M3690 H 5000 years
Gökhem5 Sweden Female K1e 5000 years
Ajvide52 Sweden Male HIJK-F929 HV0a 5000 years
Ajvide70 Sweden Female U4d 5000 years
NE4 Polgár-Ferenci-hát, Hungary Female J1c 5050-5290 cal BC
NE3 Garadna, Hungary Female X2b 5010-5210 cal BC
BR1 Kompolt-Kigyósér, Hungary Female K1c1 1980-2190 cal BC
KO2 Berettyóújfalu-Morotva-liget, Hungary Female K1 5570-5710 cal BC
NE2 Debrecen Tócópart Erdõalja, Hungary Female HV 5060-5290 cal BC
V2 Vratitsa, Bulgaria Male U2e1’2’3 1500-1100 BC
M4 Borum Eshøj, Denmark Male B2 1350 BC
K8 Krushare, Bulgaria Male R 450-400 BC
NA43 Laguna de los Condores, Peru Male B4b’d’e 1000-1500 AD
AusAboriginal Western Austalian Male F-M235 O1a 100 years
NA41 Laguna de los Condores, Peru Male L3 1000-1500 AD
P192-1 Svilengrad, Bulgaria Male U3b 800-500 BC
T2G2 Stambolovo, Bulgaria Male H1c9a 850-700 BC
NA42 Laguna de los Condores, Peru Male D1 1000-1500 AD
NA50 Laguna de los Condores, Peru B4b’d’e 1000-1500 AD
NA47 Laguna de los Condores, Peru L3 1000-1500 AD
NA40 Laguna de los Condores, Peru L3 1000-1500 AD
NA39 Laguna de los Condores, Peru Male B2 1000-1500 AD
Feld1 Neanderthal Neander Valley, Germany 42,000 years
Sid1253 Neanderthal El Sidron cave, Asturias, Spain 49,000 years
Vi33.16 Neanderthal Vindija cave, Croatia Female 38,310 years
Vi33.25 Neanderthal Vindija cave, Croatia Female
Vi33.26 Neanderthal Vindija cave, Croatia Female 44,450 years

В своем блоге Феликс размещает аналитические отчеты по каждому из проведенных анализов, отчеты включают графическое отображения «состава различных геномных компонентов происхождения» каждого из образцов в калькуляторах Gedmatch (включая мой последний калькулятор K23b), фенотипические признаки (предположительный цвет кожи и глаз), возраст на момент смерти и т.д.
Пытаясь ответить на вопрос,  насколько  правдоподобны (в смысле реального генеалогического родства) результаты совпадения сегментов древних и современных людей, Феликс приводит замечательные вычисления оценки правдоподобия совпадений в геномах современных людей и древних образцов. К сожалению, рассуждения замечательные, но вызывающие определенные вопросы, которые я озвучу в другой заметке.

Так или иначе, поставленная Феликсом на поток и практически полностью автоматизированная работа с древними геномами заслуживает безусловного признания, поскольку в силу разделения труда позволяет другими исследователям-любителям полностью сконцетрировать свое внимание на процессе непосредственного анализа полученных данных, вместо того чтобы тратить свои ресурсы на процесс извлечения снипов из «сырых» геномных данных. Благодаря этому разделению труда,  Давид Веселовский из проекта Eurogenes провел ряд замечательных экспериментов с этими данными (включая PCA, Treemix и вычисление генного дрейфа с помощью f3). В основном выводы этих экспериментов повторят то, что было написано в статьях профильных генетиков, за исключением одного интересного вывода на основании графа Treemix, в котором отображено направление процессов обмена генами между различными древними популяциями:

«В отношении Kostenki14, графики  Treemix  подтверждают один из основных выводов работы Seguin-Orlando et al. 2014, согласно которой  главны компонент образца  Kostenki-14  является базальным «предковым» компонентом более поздних европейцев (Basal_Eurasian). Тем не менее, два последних графика показывают, что этот базальный «компонент» не тот же самый «базальный» компонент в геноме неолитического образца из Штутгарта, связанного с базальным евразийским  компонентом, который был описан  в работе Lazaridis et al. 2013″.

Другой геномный блоггер, Сергей Козлов, использовал те же самые данные палеогеномов (взятые с сайта Ф. Чандракумара) для создания замечательных карт, иллюстрирующих количество и интенсивность общих IBD-сегментов палеогеномов и геномов современных популяций.

Я решил не оставаться в стороне и провел собственный анализ PCA и кластеризации популяций по значениям компонентов генетического разнообразия.

Ниже приведены иллюстрации к моему опыту кластеризации собственного генома с геномами древних жителей Евразии. В качестве входных данных алгоритма ward-кластеризации в программе R, я использовал собственные значения 4 векторов главных компонентов (PC) разнообразия. Эти векторы, в свою очередь, были получены путем вычислений в большом массиве (2024 образца) генетических данных (примерно 110 тысяч снип-полиморфизмов) представителей современных и древних популяций. Мой геном (обозначенный как Vadim) представляет собой набор, полученныq в ходе импутации по датасету Human Origin значения снипов информативных с точки зрения эволюционного происхождения, и используется в качестве контрольной группы.

Для начала график PCA, и положение палеогеномов на этом графике.

10805810_10205228379818844_2683994891484833194_n

В аналитической выборке я задействовал снипы геномов высших и низших приматов (дендрограмма выборка укоренена на геноме мармозетки), древних гоминидов (денисовского человека и неандертальцев). Остальное — как я и упоминал выше — представляет собой совокупность снипов современных и древних популяций.

Благодаря характеру выборки и характеру используемых снипов, я могу взглянуть на свое происхождение с наиболее широкой перспективы, позволяющей проследить индивидуальный эволюционный путь от древнейших людей до наших современников.
Можно сказать, что я проделал самое далекое (из всех предыдущих) генеалогическое путешествие в собственное прошлое. Разумеется, без предыдущего выделения обработки образцов древнего ДНК новейшими биохимическими методами, а также публикации данных — это путешствие длинной в сотни тысяч лет не могло бы просто состоятся. Так что огромное спасибо всем биохимикам, генетикам и биоинформатиков работавшим с образцами древней ДНК.

Полученные мной кластерные дендрограммы вышли очень большого разрешения. В силу этого, имеет смысл изучить топологию, структуры и расположение популяционных групп-кластеров в полномасштабном варианте, иначе могут возникнуть интересные вопросы.

1557253_10205127321932460_4975988878575720296_o 10801887_10205156832150197_5471832914364777784_n (1) 10801887_10205156832150197_5471832914364777784_n 247121_10205156832710211_7030394711716209950_n 1235004_10205156831950192_4536397005560655073_n 1379610_10205156832350202_753531489446222277_n 10411811_10205156831710186_6596784203743263163_n

Поэтому — я подготовил соответствующие файлы PDF и разместил ссылки на эти файлы для удобного просмотра.

tree1

tree2

tree3

tree4

tree5

tree6

tree7

tree8

tree9

tree10

tree11

tree12

tree13

tree14

tree15

tree16

Здесь их опубликовать не представляется возможным, и по этой причине я ограничу себя размещением тех фрагментов трех вариантов кластерных диаграмм, на которых присутствуют древние образцы.
Забегая вперед, можно заметить, что образцы ДНК древних людей (т.е людей современного анатомического типа — homo sapiens sapiens), строго говоря, разбиваются на три органические суперкластера — древних сибириков (или евразийцев), древних европейских охотников-собирателей, и ранних неолитических европейских земледельцев. В основной своей части состав и топология популяционных кластеров стабилен в разных вариантах, наибольшие видоизменения заметны у тех образцов, чье множество снипов имеет меньшее пересечение с общим набором снипов. Отсюда довольно таки тривиальный вывод: чем меньше общее число снипов — тем больше флуктуаций наблюдается в расположении древних образцов внутри ветвей кластерной дендрограммы.

Кластер древних евразийцев наиболее стабилен (т.к. там всего два древних генома Afontova Gora 2 (AG2) и знаменитый мальчик с сибирской стоянки Malta (MA1); причем оба образца взяты из одного источника данных). Из современных популяций к этому кластеру наиболее органично примыкают различные группы населения центральной Азии — от таджиков до гуджаратов, и от калашей до пуштунов.

Кластер древних охотников-собирателей Европы наиболее неустойчив, и это объясняется прежде всего разным числом снипов в образцах, а также тем что сами образцы взяты из разных исследований. Тем не менее тенденция наглядна — древнейшие европейцы (охотники-собиратели мезолита) наиболее близки по своим аутосомным снипам к жителям современной западной и северной Европы — особенно Британских островов, Скандинавии и Балтийского региона. Практически во всех вариантах прибалтийцы близки к древним жителям Швеции (Готланда), а также мезолитическим образцам La Brana, Motala и Loshbour. Последние также близки к финнам, эстонцам и северным русским. Из более поздних и географически удаленных образцов к ним близки древние образцы из Венгрии неолитического периода, бронозового и железного веков (BR1, NE2 и KO1).

Интересно, что в этот же кластер входят как современные популяции западной Европы (британцы, норвежцы, французы и др.), так и современные жители центральной Европы — чехи хорваты и венгры. Является ли это наследием древних времен (гальштатской общности связываемой с древними кельтами) — трудно сказать. Не этим ли объясняется тот факт, что образцы древних англо-саксов и бриттов (обозначенные здесь как Hixton) иногда кластеризируются с (современными!) венграми, хорватами, иногда с современными англичанами из Кента и корнуэлльцами. При этом некоторые из образцов Hixton остаются близки (в смысле схожести генома) к скандинавам, оркнейцам, шотландцам, и даже литовцам.

Мой собственный «геном» (Vadim) также входит в эту группу, причем в разных вариантах он определенно близок одновременно и древним мезолитическим и эпинеолитическим шведам, а также более поздним образцам из Венгрии (киммерийского мальчика IR1, а также самый «балтийский» из всех древних венгерских обрацов — KO1). Интересно что IR1 («аутосомный геном» «киммерийского » мальчика Y-гаплогрупы N1a из захоронения паннонской культуры бронзового века Mezőcsát примерно 900 год до нашей эры) в первых четырех главных компонентах кластеризируется с моим собственным «аутосомным геномом»). Это наверное объясняет почему мой собственный геном дает хорошие комбинации (fit) к комбинации трапезундских турков и древних жителей Балтийского региона.

Как известно, попгенетики готовят к публикации большую статью, в которой подводятся итоги нескольких лет исследования генофонда представителей древних культуры шнуровой керамики* (известной также как культура боевых топоров) и ямной культуры** (другое название — древнеямная культурно-историческая общность). Безусловно, это исследование обещает пролить свет на некоторые темные места генетических связей жителей этих культур с современным населением Восточной Европы (особенно Польши, Украины, Беларуси и юго-западной части России).

Пока все детали исследования неизвестны, однако благодаря настойчивости некоторых энтузиастов генетической генеалогии (Веселовского и пр.) удалось выяснить, например, что генофонд древние образцы представителей Ямной культуры в рамках формальных тестов (f3 и D-статистик) наилучшим образом аппроксимируются как результат смешения древнего мезолитического населения севера Европы (в работе их представляют карельские образцы, очевидно из известных захоронений Палеострова) и населения, близкого к современным закавказским популяциям (лучший результат дали армяне из Еревана).

Признаюсь, эти сведения приободрили меня. Дело в том, что последние несколько недель я занимался изучением эволюции аутосомного генофонда беларусов (и своего тоже) из недавно опубликованного набора лаборатории Райха (это одна из усеченных версии их знаменитого кураторского набора Human Origin Dataset).
Как и раньше, для анализа я использовал инструменты разработанные программистами той же лаборатории (Admixtools), а также Alder — программу написанную на основе открытого кода Admixtools, и оптимизированную под более детальный анализ процесса смешивания различных предковых групп.

Так вот, до получения сведений о предварительных результатах попгенетиков, я был немного смущен полученной картиной. У меня получилось вот что. С точки зрения формальной оценки (f3-статистки, аналога более известной p-статистки) лучшие пары адмикса для беларусов (с отрицательным значением Z) представляли собой либо комбинацию мезолитического населения Европы (Loshbour) и современного населения современной Анатолии и ближнего Востока, либо комбинацию ‘генов’ неолитических жителей Европы (LBK380, а также современных сардинцев) и современных америндских популяций (происходящих, как нам известно, из восточной Сибири).
Вот начало списка значимых пар:

Mixe Sardinian Vadim -11.811
Sardinian Mixe Vadim -11.811
Karitiana Sardinian Vadim -11.757
Sardinian Karitiana Vadim -11.757
Zapotec Sardinian Vadim -11.638
Sardinian Zapotec Vadim -11.638
Loschbour Georgian_Megrels Vadim -11.599
Georgian_Megrels Loschbour Vadim -11.599
Piapoco Sardinian Vadim -11.482
Sardinian Piapoco Vadim -11.482
Loschbour Turkish_Trabzon  Vadim -11.434
Turkish_Trabzon Loschbour Vadim -11.434
Loschbour Assyrian_WGA Vadim -11.395
Assyrian_WGA Loschbour Vadim -11.395
LBK380 Piapoco Vadim -11.354
Piapoco LBK380 Vadim -11.354
Surui Sardinian Vadim -11.346
Sardinian Surui Vadim -11.346
Loschbour Abkhasian Vadim -11.293
Abkhasian Loschbour Vadim -11.293
Bolivian_LaPaz Sardinian Vadim -11.232
Sardinian Bolivian_LaPaz Vadim -11.232
Loschbour Iranian_Jew Vadim -11.231
Iranian_Jew Loschbour Vadim -11.231

Я выбрал около сотни значимых пар и проверил их достоверность «адмикса) с помощью инструментов D-статистки (qpDstat) в попарном сравнении каждой из значимых комбинаций (начало таблицы):

Vadim Italian_Tuscan : Loschbour Palestinian 0.0293 8.141 best
Vadim Iranian : LBK380 GujaratiC_GIH 0.0245 7.319 best
Vadim Motala12 : Druze Sardinian 0.0125 7.285 best
Vadim Loschbour : Palestinian Albanian 0.0146 7.17 best
Vadim Sardinian : GujaratiC_GIH Iranian 0.0121 7.151 best
Vadim Palestinian : Spanish_Pais_Vasco_IBS GujaratiC_GIH 0.0145 7.126 best
Vadim Egyptian_Comas : Basque_Spanish GujaratiC_GIH 0.0137 7.016 best
Vadim Sardinian : Loschbour Egyptian_Comas 0.0251 6.962 best
Vadim Sardinian : Loschbour Tunisian_Jew 0.0251 6.789 best
Vadim Palestinian : Basque_Spanish GujaratiC_GIH 0.013 6.758 best
Vadim Sardinian : Loschbour Palestinian 0.0237 6.69 best
Vadim Basque_Spanish : Balkar Palestinian 0.0076 6.601 best
Vadim GujaratiC_GIH : Tunisian_Jew Egyptian_Comas 0.0094 6.493 best
Vadim Spanish_Pais_Vasco_IBS : Balkar Palestinian 0.0079 6.458 best
Vadim Loschbour : Druze Italian_WestSicilian 0.0135 6.443 best
Vadim Loschbour : Iranian Albanian 0.0159 6.385 best
Vadim Palestinian : Sardinian Iranian 0.0083 6.344 best

Как видно, лучшая достоверность (обмена генами) у тех пар которые представляют собой комбинацию мезолитических популяций (Loshbour и Motala), популяций Кавказа, южной Европы и центральной Азии.

Это особенно хорошо заметно в тесте f4ratio. Вот например сравнение 2 квадропул, три популяции в каждой из которых идентичны (беларусы, кумыки и Losbour), а четвертая популяция отличается (балкарцы vs. Motala). Результат означает что кроме мезолитического компонента Loshbour (из западной Европы), у беларусов наблюдается эксцесс (28+-0.1%) дополнительного источника мезолитических «генов» (типично для балтийских популяций мезолита вроде Motala)

Vadim Kumyk Loschbour Motala12 : Vadim Kumyk Loschbour Balkar 0.285678 0.096194 2.97

Крайне любопытны и результаты проведенного мной в Alder исследования источников «древного» адмикса у беларусов.
Я выбрал только те пары, в которых амплитуда угасания LD в двух гипотетических популяциях-донорах была сопоставима с амплитудой угасания LD в популяции-реципиенте (т.е у беларусов). Интересно, что только две пары (пенджабцы + Motala) и (иракские евреи + чукчи) дали консистентную попарную подгонку кривой угасания LD с незначительным разбросом амплитуды (15-25%). К слову, комбинация Armenian+Motala-merge (примерно идентичная наиболее устойчивой модели адмикса у жителей ямной культуры) тоже присутствует в списке «успешных» комбинаций, однако кривые угасания LD имеют разную скорость угасания (их амплитуда отличается уже на 55% и поэтому они не консистентны, т.е несовместимы) в попарном режиме сравнения

DATA: success_consistent 0.0042 Belarusian Punjabi_Lahore_PJL Motala_merge 4.49 2.76 2.78 15%
DATA: success_consistent 0.0098 Belarusian Iraqi_Jew Chukchi 4.31 2.2 3.01 25%
DATA: success 0.0065 Belarusian Mongola Motala_merge 4.4 2.64 2.78 28%
DATA: success 0.011 Belarusian Yi Papuan 4.29 2.26 4.66 28%
DATA: success 0.00037 Belarusian Lebanese Papuan 4.98 2.69 4.66 38%
DATA: success 0.041 Belarusian Kusunda Motala_merge 3.98 2.61 2.78 41%
DATA: success 0.013 Belarusian Hezhen Motala_merge 4.25 2.17 2.78 49%
DATA: success 0.037 Belarusian Motala_merge Tu 4.01 2.78 3.13 51%
DATA: success 4.20E-06 Belarusian Kalmyk Motala_merge 5.79 2.36 2.78 54%
DATA: success 0.0086 Belarusian She Motala_merge 4.34 2.58 2.78 54%
DATA: success 0.0019 Belarusian Armenian Motala_merge 4.66 2.14 2.78 55%
DATA: success 0.048 Belarusian Daur Motala_merge 3.94 2.11 2.78 56%
DATA: success 0.0042 Belarusian Motala_merge Miao 4.49 2.78 3.5 59%
DATA: success 0.041 Belarusian Oroqen Motala_merge 3.98 2.28 2.78 59%
DATA: success 0.013 Belarusian Thai Motala_merge 4.25 2.13 2.78 65%
DATA: success 0.043 Belarusian Motala_merge Lahu 3.97 2.78 3.56 71%
DATA: success 0.0049 Belarusian Motala_merge Japanese 4.46 2.78 3.53 72%

Примечательно что для пары Belarusian Armenian Motala_merge  Admixtools датирует смешение 114.67+/-20.5 поколений тому назад. А вот датировка адмикса для двух первых пар (последняя колонка это датировка адмикса
Belarusian Punjabi_Lahore_PJL Motala_merge 4.49 2.76 2.78 15% 142.4+/-27.54
Belarusian Iraqi_Jew Chukchi 4.31 2.2 3.01 25% 43.28+/-9.45 То есь самое позднее 3500 лет до нашего времени.Итак, выводы: в эволюционной перспективе, костяк аутосомного генофонда беларусов составляет субстрат мезолитического генетического компонента Европы, к которому примешиваются два потока — один с юга, с наиболее значимым вливанием во времена неолита (земледельцы из Анатолии и ближнего Востока), другой — видимо более поздний (т.к. он отсутствует у ямников) из Сибири.


*Культура боевых топоров, культура шнуровой керамики (нем. Schnurkeramik) — археологическая культура медного и бронзового веков, распространенная на обширных территориях Центральной и Восточной Европы и датированная 3200 г. до н. э./2300 до н. э. — 2300 г. до н. э./1800 г. до н. э. Племена культуры боевых топоров часто считают первыми индоевропейцами на территории Средней Европы
**Я́мная культу́ра (точнее — Древнея́мная культу́рно-истори́ческая о́бщность) — археологическая культура эпохи позднего медного века — раннего бронзового века (3600—2300 до н. э.). Занимала территорию от Южного Приуралья на востоке до Днестра на западе, от Предкавказья на юге до Среднего Поволжья на севере.В рамках ранней версии курганной гипотезы Марии Гимбутас ямная культура связывалась с поздними протоиндоевропейцами.

 

Кластер древних жителей по своей устойчивости занимает промежуточное место между кластерами древних северных евразийцев и западных европейских охотников-собирателей.
В этот кластер, иерархически близкий популяциям Кавказа и ближнего Востока, предсказуемо входят предстаители самых классических популяции южной Европы — от греков и болгар, до басков и сардинцев. Как уже стало обычным, сардинцы кластеризуются с образцом тирольского человека Этци и женщины из линейноленточной культуры («LBK380»). В большинстве вариантов (2 из трех опубликованных) к этой подгруппе примыкают представители древнейших неолитических культур на территории современной Венгрии — CO1, H4, H3, NE5, NE7). Жители бронзового века (на графике они ошибочно обозначены как Europe оказались посередине между раннеевропейскими охотникам-собирателями и земледельцами.

Добавление к выборке древних геномов «усть-ишимца» и «костенковца» позволило пролить свет на некоторые особенности эволюции популяций центральной и восточной части Евразии. В кластерном анализе (вардовская кластеризация) по 4 первым компонентам PCA усть-ишимец у меня получился в одном кластере с киргизами и кажется селькупами. По первым двум компонентам в том варианте рейховского набора популяций, где нет андаманцев Onge — он попадает в один кластер с австралийскими аборигенами.
Думаю, что onge все же ближе, да к тому же во всех калькуляторах у усть-ишимца максимум «генома» приходится на сочетание южно-индийских и юго-восточноазиатских компонентов.  А вот «костенковец» оказывается ближе всего к чувашам и саамам. Что характерно — в предыдущих вариантах, в которых я не использовал костенковца, место костенковца часто занимал AG-2 (Afontova Gora).  Также заметна разница между кластерными схемами PC1-2 и PC-1-2-3-4.В первом случае костенковец в одном кластере с индусами, а во-втором с с чувашами и саамами. Характерно, что восточноевразийские палеогеномы Тяньюань и Усть-Ишим входят в один кластер (их положение не сильно меняется), а MA1 нет.

Скрытые возможности клиентских данных 23andme в плане молекулярной диагностики.

Компания 23andme не нуждается в особом представлении читателям этого блога. Вплоть до конца прошлого года компанию занимало существенный сегмент рынка персональной геномики, ориентированного на предоставление  клиентам информации о генетических медицинских рисках (genetic risks) и генетической генеалогии (genetic origin). Информация о медико-генетических рисках содержалась в ряде сервисов портала компании, а также в доступном для скачивания отчета о генетических рисках и, разумеется, в первичных данных генетического отчета, в котором содержались значимые с точки зреемя медико-генетического диагностирования генетические полиморфизмы (SNP).

Всвязи с известными событиями и последующим за ними предписанием USA Food and Drug Administration (FDA) компании 23andme о запрете выпуска на рынок услуг персонального геномического диагностирования своего «медицинского девайза» (т.е интерпретации медико-генетических рисков развития заболеваний), компании пришлось сузить свою сферу деятельности до оказания генетико-генеалогических услуг.

Несмотря на это досадное обстоятельство, сказавшееся нелучшим образом на динамике увеличения клиентской базы компании,  нужно помнить, что все клиенты сохранили доступ к своим первичным данным тестирования (т.е списку снипов с генотипами). И при вдумчивом, творческом подходе любой человек может не только «вытащить» из этих «cырых данных» важную с точки зрения медицины информацию, но и заменить спомощью полученной информацией результаты более традиционных тестов.

Каковы могут быть варианты использования данных 23andmе не в привычных генеалогических целях, а скажем для получения сведений, который могут впоследствии пригодится для молекулярного диагностирования?

Я приведу пару примеров такого использования.

Определение HLA-фенотипа.

На мембране клеток организма присутствуют продукты генов всех локусов, размещенных на обеих нитях 6-й хромосомы.

 

bsl-hla1

 

Это означает, что HLA-гены наследуются по кодоминантному типу, т. е. одну хромосому ребенок наследует от матери, а другую – от отца. Как уже упоминалось, совокупность генов, расположенных на одной хромосоме, составляет гаплотип. Таким образом, у человека два гаплотипа и каждая клетка организма несет на себе диплоидный набор антигенов системы HLA, один из которых кодируется HLA-генами матери, а другой – отца. Исключение составляют половые клетки (яйцеклетка и сперматозоид), каждая из которых содержит в своем ядре только по одному гаплотипу.

Антигены гистосовместимости, выявляемые на клетках конкретного человека, составляют HLA-фенотип. Для его определения необходимо произвести фенотипирование клеток индивида. Как правило, “типируются” лимфоциты периферической крови. До настоящего времени в большинстве лабораторий HLA-A. В, С и DR-антигены определяют при помощи серологических методов, в частности, лимфоцитотоксического теста. тот тест основан на способности анти-НLА-антител в присутствии комплемента разрушать лимфоциты, несущие соответствующие антигенные детерминанты. Гибель клеток демонстрируется при помощи добавления трипанового синего. При этом мертвые поврежденные клетки окрашиваются, и под микроскопом учитывается их количество.

Эти тесты часто требуются в ходе стандартных медицинских процедур обследования во время начала беременности, или для изучения этологии аутоимунных заболеваний. Еще более важно определение гистосовеместимости в транплантологии, где типирование HLA-фенотипа  донора является обязательным условием.

Однако, с приходом новых микроматричных технологий опеределния нуклеотидов ДНК и биоинформатических методов рутинной обработки последовательности человеческих геномов , появился дешевая и относительно простая альтернатива классическим серологическим тестам (которые стоят в интервале от 100 до 500 долларов).

Я не буду останавливаться на принципиальном описании процедур, с помощью которых на основании данных 23andme можно с помощью метода «импутирования» определить HLA-фенотип, так как в прошлом году я уже разместил в этом блоге пошаговую инструкцию для выполнения этой задачи.

Впрочем, уже после того, как  я отписался на эту тему здесь,  в департаменте биостатистики Университета Вашингтона был разработан алгоритм HIBAG который принципиально мало чем отличается от алгоритма HLA*IMP (в обеих алгоритмах используется training model, позволяющая определять фенотип HLA по снипам 23andme).  Входные данные программного решения этого алгоритма (язык R) представляют собой формат Plink. А так как в последней версии Plink была включена нативная поддержка формата 23andme, то преобразовать данные 23andme в бинарный формат Plink не сооставит особого труда. Что касается обработки данных в HIBAG, то примерный порядок выполнения команд выглядит следующим образом:

# Load the published parameter estimates from European ancestry
model.list <- get(load(«European-HLA4.RData»))#########################################################################
# Import your PLINK BED file
#
yourgeno <- hlaBED2Geno(bed.fn=».bed», fam.fn=».fam», bim.fn=».bim»)
summary(yourgeno)

# HLA imputation at HLA-A
hla.id <- «A»
model <- hlaModelFromObj(model.list[[hla.id]])
summary(model)
# HLA allele frequencies
cbind(frequency = model$hla.freq)

# SNPs in the model
head(model$snp.id)
# «rs2523442» «rs9257863» «rs2107191» «rs4713226» «rs1362076» «rs7751705»
head(model$snp.position)
# 29525796 29533563 29542274 29542393 29549148 29549597

# best-guess genotypes and all posterior probabilities
pred.guess <- predict(model, yourgeno, type=»response+prob»)
summary(pred.guess)
pred.guess$value
pred.guess$postprob

 
 

Панель метилирования Яско

В последние 10 лет, крупные генетические исследования выявили сотни генных мутаций, которые возникают чаще у аутичных пациентов, чем в общей популяции. Тем не менее, каждый пациент имеет только одну или несколько из этих мутаций, что затрудняет разработку лекарств против болезни. В настоящее время, изучением генетических факторов аутизма занимается большое количество врачей-генетиков,  одним из них является доктор Эми Яско занимается исследованиями генных мутаций у аутистов. Как показали многочисленные молекулярно-генетические обследования и спектрометрия аминокислот, органических кислот и карнитинов, значительное количество аутистов страдает метаболическими нарушениями.  Есть виды аутизма, вызываемые именно этими генетическими нарушениями обмена вещест.

Доктор Эми Яско разработала тест на панель метиляции Яско — тест этот дорогой, стоит 500 долларов, в этой проверяют что-то около 30 генных полиморфизмов (снипов). Выбор снипов в этой панели мотивирован тем, что эти снипы связаны с  определенными генами на «молекулярно-биохимическом пути метиляции» (methyliation pathway),  т.е генами которые влияют на способность организма выполнять ряд ключевых биохимических функций. Наличие генетических дисбалансовт.е снипов в пути метиляции, будет ограничивать эффективность пути метиляции.

 

Yasko-Methylation-Pathway

 

К счастью клиентов 23andme, чипсет снипов этой компании включает в себя если не все, то большую часть снипов панели Яско.
Один из проектов, возникший всвязи с неудовлетворенной потребностью клиентов в более развернутой и детальной обработке данных 23andme
, Genetic Genie предлагает  условно-бесплатный сервис с помощью которого данные релевантных снипов можно привести к  традиционному виду таблицы с отчетом по панели Яско:

Gene & Variation rsID Alleles Result
COMT V158M rs4680 AA +/+
COMT H62H rs4633 TT +/+
COMT P199P rs769224 GG -/-
VDR Bsm rs1544410 CC -/-
VDR Taq rs731236 __ no call
MAO-A R297R rs6323 TT +/+
ACAT1-02 rs3741049 AG +/-
MTHFR C677T rs1801133 GG -/-
MTHFR 03 P39P rs2066470 AG +/-
MTHFR A1298C rs1801131 GG +/+
MTR A2756G rs1805087 AA -/-
MTRR A66G rs1801394 GG +/+
MTRR H595Y rs10380 CC -/-
MTRR K350A rs162036 AA -/-
MTRR R415T rs2287780 CC -/-
MTRR A664A rs1802059 AG +/-
BHMT-02 rs567754 CC -/-
BHMT-04 rs617219 AA -/-
BHMT-08 rs651852 __ no call
AHCY-01 rs819147 __ no call
AHCY-02 rs819134 __ no call
AHCY-19 rs819171 __ no call
CBS C699T rs234706 GG -/-
CBS A360A rs1801181 __ no call
CBS N212N rs2298758 __ no call
SHMT1 C1420T rs1979277 __ no call

Несмотря на то, что на выходе клиент получает  готовый частный отчет по тесту Яско, медико-биологическая интерпретация результатов не так уж и проста, и требует определенной интеллектуальной сноровки и общегенетической эрудиции в плане понимания того, какую функцию выполняет тот или иной ген. Строго говоря, при грамотной интерпретации этих результатов, можно самостоятельно составить себе диету из витаминов-пищевых добавок, которые позволяет компенсировать обусловленный генетическим дисбалансом дефицит тех или иных энзимов.Примерный образец интерпретации можно посмотреть здесь

 

 

Методологические заметки к созданию неандертальского калькулятора

Данная заметка представляет собой критический анализ методологических предпосылок создания неандертальского калькулятора, имплементированного в cоответствующем сервисе 23andme (Neanderthal lab). В основу заметки положен перевод технического документа 23andme (white paper), описывающего процесс создания неандертальского калькулятора.

Существует несколько методологических подходов  к созданию неандертальского калькулятора (т.е инструмента для оценки того, сколько процентов ДНК  в геноме анализируемого индивида имеет  неандертальское происхождение).   Есть несколько способов прямой экспериментальной оценки величины процента «неандертальской » ДНК с помощью ресеквенирования ДНК клиента в тех регионах, в которых ученые обнаружили возможные варианты, имеющие предполагаемое неандертальское происхождение. Но в силу технической сложности реализации этих способов и необходимости каждый раз заново производить секвенирование в полном объеме  регионов неандертальского происхождения, нет особой нужды рассматривать их в этой записи. Вместо этого я предлагаю рассмотреть две оставшиеся методики определения вклада неандертальского ДНК.  Хотя оба метода не без своих изъянов, они позволяют существенно снизить влияние неопределенности (ascertainment bias) в оценке вклада неандертальского ДНК, и в принципе,  других приемлемых альтернатив этим методам не существует, так как в противном случае получаемый другими методами (например, Dstatisticsили ABBABABA) разброс оценки величины неандертальского вклада будет в несколько раз отличаться от тех величин, которые получаются на выходе соответствующих программ, используемых в  NationalGeographicGeno и 23andme (обе программы основаны на одном из двух нижеописанных методов).Именно по этой причине, каждая из нижеприведенных методик заслуживает отдельного рассмотрения. 

  1. Метод PCA

На мой личный взгляд, наилучшим  (как в плане аккуратности, так и в плане легкости реализации) методом оценки величины неандертальца в ДНК клиентов является метод главных компонент PCA, так как он представляет собой очень мощный инструмент для представления корреляции данных высокой размерности (порядка миллионов снипов и даже больше) в виде гораздо меньшего, некоррелирующего набора переменных, которые носят название «главные компоненты». Итак, метод главных компонент — это один из способов понижения размерности, состоящий в переходе к новому ортогональному базису, оси которого ориентированы по направлениям максимальной дисперсии набора входных данных (в нашем случае это набор генотипов снипов). Вдоль первой оси нового базиса дисперсия максимальна, вторая ось максимизирует дисперсию при условии ортогональности первой оси, и т.д., последняя ось имеет минимальную дисперсию из всех возможных. Такое преобразование позволяет понижать информацию путем отбрасывания координат, соответствующих направлениям с минимальной дисперсией. Можно отметить, что в основе метода главных компонент лежат следующие допущения: (a) допущение о том, что размерность данных может быть эффективно понижена путем линейного преобразования, и  (b)  допущение о том, что больше всего информации несут те направления, в которых дисперсия входных данных максимальна.

 

На первом этапе анализа необходимо вычислить главные компоненты отображающие дисперсию данных неандертальца по отношению данным современного человека. Для этого необходимо  провести PCA анализ, в который будут включен набор снипов неандертальцев, набор снипов денисовского человека, и набор снипов шимпанзе (Clint). 

Сначала скачиваем полные геномы неандертальца, денисовского человека, и шимпанзе Clint. Затем с помощью программы samtools генерируем для каждого из трех геномов файлы с геномными вариантами (vcf), отфильтровываем из полученных файлы инделы, таким образом чтобы на выходе остались только снипы и проводим аннотацию  снипов с использованием базы данных dbSNP; при аннотации находятся те варианты, которые присутствуют в базе данных и им назначается соответствующий индекс, например rs4213456 (это условный пример). Затем необходимо выбрать из это файла только те cнипы, которые присутствуют в контрольной выборке с референсными популяциями современного человека. Описание примерного порядока выполнения этой задачи можно найти в двух записях в моем блоге (здесь и здесь).

В конечном итоге, по окончанию первого этапа,  мы получаем три файла VCF c аннотированным снипами, которые необходимо соединить в один файл либо в vcftools, либо в Plink. Затем провести анализ PCA с двумя заданными главными компонентами (K2) в самом Plink, либо конвертировать данные в формат Eigenstrat и провести в программе Eigensoft анализ PCA (также с двумя заданными главными компонентами). Последний вариант предпочтителен, так алгоритм Eigensoftдает более точные данные за счет kernel-преобразований данных. В конечном результате проведенного анализа двух основных компонентов должны получится нормированный лист cобственных векторов — эйгенвекторов так называемый лист факторной загрузки –factor loading) для каждого из индивидуальных образцов, входящих в анализируемый набор. Первый главный компонент, PC1 , чьи значения отображаются вдоль первой оси ортогонального  базиса, характеризуется максимальной дисперсией набора снипов входящих данных, эта ось отображает общее генетическое сходство архаичных людей (неандертальца и денисовского человека). Ось второго компонента , PC2 , оптимизирует дисперсию при условии ортогональности первой оси (т.е, PC1), и  отображает генетическое расхождение между неандертальцами и денисовским человеком. 

pca

 

На следующем этапе генотипы клиентыпроецируются на плоскость, образованную двум яосями PC1 и PC2.  Я полагаю, что на этом этапе в самом PCA анализе нет необходимости, вместо этого можно имплементировать метод с использованием высчитанного в первом анализе PCA листа загрузки компонентов (loadings). Подобный подход реализован, например, в программе shellfish. 

В случае успешного выполнения промежуточной задачи на этом этапе, те клиенты, у которых нет неандертальского или денисовского вклада в геном,  должныр авномерно  распределиться в центре графика, то есть внутри условного треугольника, образованного референсными геномами неандертальца,  денисовского человека и шимпанзе.В то время, как клиенты с  неандертальской примесью должны  будут проецироваться ближе к неандертальца .

Как видно из иллюстрации к работе (Reich et al.2011), европейцы и жители Восточной Азии существенно сдвинуты в сторону неандертальцев по сравнению с афро-американцами (как видно из приведенного ниже графика,  расстояние между неандертальским «углом» и положением афроамериканцеввесьма значительно, это следствие неопределенности определения предковых аллелей неандертальца по африканским популяциям, поэтому для коррекции этой дистанции в 23andme высчитали центроид генетического положения африканцев с использование данных проекта 1000G, и расчет дистанции вели от него).

reich

 

На третьем этапе необходимо преобразовать PCAоординаты популяций современных людей в процент неандертальского ДНК,  т.е привести к тому виду, который выдается клиенту на выходе.  Для этих целей каждый клиент проецируется на расчетную «неандертальскую» ось, представляющую собой линию, соединяющий центроид предковой популяции клиента с точкой, координаты которой соответствует положению неандертальца на графике.

  1. Методтеговых (маркерных) снипов— NAIM (Neanderthal Ancestry Informative Markers)

Существует более прямой и простой способ  вычисления неандертальского вклада в геном клиентов. Простота метода обусловлена отсутствием надобности в сравнительно сложных алгоритмах вычисления главных компонентов. Согласно известной публикации драфтовой версии генома неандертальца (Green et al., 2010), в геномах современных людей были обнаружены 13 геномных регионов, которые, как предполагают авторы, имели неандертальское происхождение.  Эти регионы генома  современных людей  были маркированы с помощью маркерных (теговых) снипов – то есть таких снипов, в которых неандертальский вариант часто встречается в современных неафриканских популяциях людей, но отсутствует в коренных африканских популяциях.

В процитированной выше работе был предложен набор  из 180 подобных снипов, которые маркируют эти 13 регионов, предположительного неандертальского происхождения.  Таким образом, простым арифметическим подсчетом у современных людей количества известных неандертальских вариантов этих 180 снипов,  можно было бы определить процент неандертальского вклада в геном современных людей.  Ниже приведена таблица, в которых показаны физические координаты регионов-сегментов (хромосома, начало и конец сегмента – приведены в физических положениях сегмента  в билде 36).
ытзы

Тем не менее, несмотря на простоту метода, он характеризуется целым рядом недостатков, о которых следует упоминуть подробнее:

  1. Во-первых, не существует никаких формальных гарантий того, что эти варианты действительно  имеют неандертальское происхождение.
  2. Во-вторых, даже в том идеальном случае, когда все эти 180 вариантов действительно имеют неандертальское происхождение, они охватывают только 13 геномных регионов, самый длинный из которых представляет собой сегмент длиной всего лишь в 160 000 базовых пар. Эта длина на два порядка величин ниже, чем среднестатистические 2,5% неандертальского вклада в среднестатистическом геноме современного человека неафриканского происхождения . Поэтому простой подсчет числа неандертальских вариантов в маркерных снипах, где встречается будет в 2-3  раза занижать реальный процент неандертальского вклада в клиентском геноме.
  3. В-третьих, существует еще несколько трудных моментов, связанных с практической реализацией этого метода.

3.1.     Списка вышеупомянутых 180 снипов нет в открытом доступе, и так как в оригинальной статье было упомянуто другое количество снипов (166), похоже на то, что это число снипов варьируется в зависимости от использованного чипсета (поэтому и число снипов разное).

3.2.     Технически  эту проблему можно решить следующим образом. Самый простой способ состоит в определении того, какие снипы из используемого компанией чипсета попадают в эти сегменты. Например, берется первый сегмент на хромосоме 1 (начало 168 110 000 – конец 168 220 000, длина в базовых парах – 110 000) и выбираются снипы попадающие в этот регион, и так далее по всем регионам. При этом сначала надо узнать какой билд используется в контрольной выборке популяций современных людей. Если используется build 37, тогда необходимо конвертировать координаты сегментов в более ранний build 36. После того, как будут определены все снипы попадающие в эти 13 сегментов, нужно найти неандертальские варианты этих файлов (это можно сделать в базе данных неандертальских снипов) и составить список, который затем использовать в качестве затравки при сравнении с значениями снипов у современных людей.

3.3.     Другой вариант более сложный, но очевидно более точный. Список снипов найденных в ходе сравнения геномов шимпанзе, 5 референсных популяций современных людей и неандертальца  выгружен на сайте геномного браузера UCSC. Это большой файл (в распакованном виде 363 Mb), общее количество снипов 5 615 438. Формат файла следующий:

971    chr1       50600811             50600812             AA_AAD:0D,1A  0             +             50600811             50600812             0

971    chr1       50603655             50603656             AAD_AA:0D,2A    0             +             50603655             50603656             0

971    chr1       50604033             50604034             AADAA_:0D,1A    0             +             50604033             50604034             0

971    chr1       50605949             50605950             AAA_DA:0D,1A    0             +             50605949             50605950             0
Первая колонка представляет собой номер сегмента чтения, вторая – название хромосомы, вторая и третья – физическое положение снипа, далее идет длинная колонка с указанием характера варианта в  шимпанзе, 4 популяций людей и неандертальца. «A» обозначает предковое значение аллеля, «D» — derived, т.е мутировавшее значение. После двоеточия идет специфическая неандертальская колонка (например, :0D,1A)с указанием того сколько предковых и сколько мутировавших значений снипа обнаружено в исследованных геномах неандертальцев. В данном случае, в первом снипе обнаружено 0D (0 мутировавших) и 1A (1 предковое значение). Трудность задачи состоит в определении только тех снипов, в которых  у неандертальцев нет предковых значений, а встречаются только мутировавшие значения. Эти снипы — кандидаты на неандертальский вклад в человеческий геном. Затем сравнить отфильтрованный список со списком снипов в  контрольной выборке (опять-таки, надо знать какой билд используется, координаты этого списока  приведен по билду 36) и выбрать только те, что имеются в чипсете компании. Далее алгоритм тот же, что и выше – определяется значение снипа у неандертальца и  сравнивается с соответствующим значением у современных людей. Совпадающие у неандертальца и современных людей варианты подсчитываются и определяется конечный процент неандертальского вклада.

 

Эксперимент.

 

Я решил проверить эфективность первого метода (метода PCA) на своей контрольной выборке (2778 образцов современных людей, шимпанзе, денисовского человека и неандертальского человека и 142429 снипа). В качестве рабочей программы я использовал новую версию Plink, которая позволяет использовать в анализе PCA заданные контрольные кластеры, в которые проецируются исследуемые индивиды. В качестве трех контрольных групп я выбрал, следуя рекомендациям авторов обсуждаемого исследования,  геномы шимпанзе, неандертальца из Vindja и денисовского человека. Однако число априорных главных компонентов я намерено изменил,  с 2 на 3 (K3), таким образом на выходе я получил эйгенвекторы трех главных компонентов.  По этой причине, полученный мной график PCA несколько отличается от вышеприведенного графика 23andme (вместо PC1 и PC2 я использовал PC2 и PC3, то есть второй и третьи главные компоненты, более точно описывающие в данном случае сходство/различие геномов архаичных и современных людей).

R Graphics Output
Как видно из наших результатов, все популяции современных людей разместились внутри условного треугольника образованного дисперсией геномов денисовского человека, неандертальца и шимпанзе.
Впрочем, на графике нельзя разглядеть, какие именно популяции сдвигаются в сторону неандертальца, а какие — в сторону денисовского человека (такой сдвиг свидетельствовал бы о наличии адмикса).  Чтобы устранить этот досадный артефакт графика, придется убрать с графика геномы денисовца, неандертальца и шимпанзе (из-за значительной генетической дистанции популяции современных людей сдвигаются в одну кучу).

 

R Graphics Output
R Graphics Output

 

Положение удаленных денисовца, неандертальца и шимпанзе размечено на новом графике буквенными обозначениями — D, N, Chimp. Из человеческих популяций я разметил группы африканских популяций (Africans), и коренных американцев (Native Americans). Европейские и азиатские популяций смещены в одну общую группу, с сильным креном в сторону неандертальца. Судя по всему, мои результаты, в общих чертах, практически не отличаются от результатов исследований Грина и Райха. Как отмечает  Дробышевский: » «денисовские гены», несмотря на свою экзотичность, обнаружились у современных людей. Первоначально они были найдены у папуасов Новой Гвинеи и меланезийцев острова Бугенвиль (Reich et al., 2010), затем – у австралийских аборигенов (Gibbons, 2011), а полнейшее исследование вопроса констатировало наличие их у огромного числа популяций (Reich et al., 2011). Они были выявлены в тридцати трёх популяциях Океании и Юго-Восточной Азии, в том числе у папуасов Новой Гвинеи, австралийских аборигенов (даже больше, чем у папуасов), полинезицев, фиджийцев, восточных индонезийцев с разных островов, филиппинцев и у филиппинских аэта-маманва.»

Что касается неандертальца, то уже с 2010 года известно, что в целом неандертальская ДНК составляет 1-4% генома нынешних людей, живущих за пределами Африки. Авторы двух исследований, опубликованных в среду журналах Science и Nature, выяснили, что чаще всего неандертальская наследственность присутствует в нескольких генах, связанных с выработкой кератина, присутствующего в коже, волосах и ногтях. В этой части генома неандертальские аллели обнаружены у 70% европейцев и 66% азиатов.

Гораздо интереснее те мои результаты, которые отличаются от общепринятых. Так например, довольно неожиданным результатом является наблюдаемое на графике значительное смещение южноамериканских индейцев в сторону денисовского человека, причем это смещение гораздо значительнее смещения папуасов и меланезийцев, у которых были найдены «денисовские гены» в наибольшем количестве. Что это означает, трудно сказать — наличие реального сигнала смешивания в данном случае равновероятен обнаружению статистического артефакта.  Впрочем, если верить работам Скоглунда этот результат может быть правдоподобным — моделирование миграций генов показало, что «денисовские» гены должны встречаться не только в Юго-Восточной Азии, но даже в некоторых группах Южной Америки (Skoglund et Jakobsson, 2011)

Оставим в стороне этот вопрос, который нуждается в более детальном изучении, и передем к расчетам процентной величины вклада неандертальских генов в популяции современных людей. Очевидно, что средняя величина этого вклада по каждой из популяций может дать только приблизительное представление о характере архаичной интрогресси неандертальских генов. Индивидуальный уровень вклада в каждой популяции может иметь большую частотную амплитуду в интервале между 1 и 6% процентами. Тем не менее, представляется возможным апроксимировать эти значения путем умножения собственного вектора (eigenvector) главных компонентов каждого индивида каждой популяции на собственное число линейного преобразования (eigenvalue), и последующим усреднением по популяции.

Ниже приведены эти усредненные значения в процентах (неандертальских генов), в порядке уменьшения. Вызывают сомнения ультра-высокие значения в первых десяти популяциях — скорее всего это результат комплексного воздействия статистических эфектов недостаточной представленности выборки, а также высокой степени гомозиготности, характерной для изолированных популяций (исландцев, албанцев и басков). Довольно высок уровень неандертальского вклада в образцах древних европейцев, хотя это и логично с точки зрения исторической модели адмикса. С другой стороны, средние значения (2-2.7%) неандертальского адмикса в популяциях Восточной Европы выглядят реалистичными. Так, например, по расчетам 23andme у меня уровень «неандертальских генов» составляет 2.67% :

Icelandic 10.50%
Norwegian 9.00%
1_Motala12 8.00%
Spain_BASC 8.00%
Albanian 7.00%
Korean 7.00%
Tiwari 5.11%
1_LBK380 5.00%
1_Loschbour 5.00%
French_South 4.00%
Kashmiri 4.00%
Tubalar 4.00%
Atayal_Coriell 3.60%
Ami_Coriell 3.10%
1_Motala_merge 3.00%
Bolivian 3.00%
Croatian 3.00%
Totonac 2.80%
Qatari 2.71%
Mixed_East_Slav 2.57%
Gujarati 2.43%
Ulchi 2.39%
North-Russian 2.36%
Center-Russian 2.36%
Aonaga 2.33%
British 2.33%
Chenchu 2.33%
East-Belarusian 2.33%
Ukrainian 2.33%
Finn 2.29%
Latvian 2.29%
Mixed_European 2.28%
South-Russian 2.27%
Pole 2.26%
Lithuanian 2.25%
West-Belarusian 2.25%
Belarusian 2.23%
Vepsa 2.23%
Bosnian 2.22%
Cree 2.20%
Georgian_Imereti 2.20%
Polish 2.20%
Orcadian 2.15%
Russian 2.15%
Karelian 2.13%
Welsh 2.12%
Swede 2.11%
Ukranians 2.11%
Greek 2.10%
Lithuanians 2.10%
Gagauz 2.09%
Croat 2.08%
Slovak 2.08%
Estonians 2.08%
Adygei 2.07%
Serb_Serbia 2.07%
Toscani 2.07%
French 2.06%
Komi 2.06%
1_LaBrana 2.00%
Algonquin 2.00%
Avar 2.00%
Azeri_Dagestan 2.00%
Azov_Greek 2.00%
Bashkir 2.00%
Belgian 2.00%
Bulgarians 2.00%
Central-Greek 2.00%
CEU 2.00%
Cirkassian 2.00%
Cochin_Jew 2.00%
Corsican 2.00%
Cretan 2.00%
Croat_BH 2.00%
Don_cossack 2.00%
Eskimo 2.00%
Haida 2.00%
Hungarian 2.00%
Hungarians 2.00%
Inkeri 2.00%
Inkeri-Finn 2.00%
Italian_Abruzzo 2.00%
Kets 2.00%
Kosovar 2.00%
Kryashen 2.00%
Kuban_cossack 2.00%
Lezgin 2.00%
Macedonian 2.00%
Meghawal 2.00%
Mishar 2.00%
Mixed_CEU 2.00%
Mixed_East_European 2.00%
Mixed_German 2.00%
Mixed_Slav 2.00%
Montenegrian 2.00%
Mordovian 2.00%
Mordovians 2.00%
North_Italian 2.00%
Occitan 2.00%
Roma_Bulgarian 2.00%
Roma_Macedonian 2.00%
Romanian_Jew_2 2.00%
Russian_South 2.00%
Saami 2.00%
Selkup 2.00%
Serb_BH 2.00%
Slovenian 2.00%
South_Greek 2.00%
Swedish 2.00%
Tabassaran 2.00%
Tatar_Lithuanian 2.00%
Velama 2.00%
West_Greenland 2.00%
French_Basque 1.95%
Chechens 1.94%
Iberian 1.94%
Chuvash 1.94%
Tatar 1.93%
Balkars 1.92%
German 1.92%
North-Ossetian 1.92%
Hant 1.89%
North_Greek 1.89%
Georgians 1.88%
Lak 1.88%
Abhkasians 1.85%
Sardinian 1.84%
Udmurd 1.84%
Maris 1.82%
Romanians 1.82%
Georgian_Laz 1.80%
Kumyks 1.80%
Lodi 1.80%
Mansi 1.77%
Chukchis 1.75%
Crimean_Tatar 1.75%
Italian_Piedmont 1.75%
Ket 1.75%
Moldavian 1.75%
Vaish 1.75%
Hallaki 1.67%
Lezgins 1.67%
Ossetian 1.67%
Tlingit 1.67%
Greek-Islands 1.63%
Turks 1.63%
Armenians 1.60%
Nogais 1.60%
Selkups 1.60%
Hakas 1.57%
Ashkenazy_Jews 1.56%
Apache 1.50%
Jew_Tat 1.50%
Kabardin 1.50%
Karitiana 1.50%
Kurds 1.50%
Nenets 1.50%
Samaritians 1.50%
Santhal 1.50%
Srivastava 1.50%
Syrian_Jew 1.50%
Tuva 1.50%
Uygur 1.50%
Mexican 1.45%
Italian_Jew 1.40%
Portugese 1.40%
Tajiks 1.40%
Kyrgyzians 1.38%
Roma_Slovenian 1.38%
Altaians 1.36%
Koryaks 1.33%
Pashtun 1.33%
Satnami 1.33%
Sicilian 1.33%
Yakut 1.31%
Cypriots 1.30%
Spaniards 1.30%
Turkmen 1.30%
French_Jew 1.29%
Iraqi_Jews 1.29%
Sephardic_Jews 1.29%
Turkmens 1.29%
Parsi 1.28%
Buryats 1.27%
Pathan 1.27%
Tadjik 1.27%
Athabask 1.25%
Iran_Jew 1.25%
Kurd_Jew 1.25%
Nganassans 1.25%
Nysha 1.25%
Azeri 1.22%
Mixtec 1.22%
Tharu 1.20%
Tunisian_Jew 1.20%
Uzbek 1.20%
Evenkis 1.18%
Kazakhs 1.18%
Roma 1.17%
Tuvinians 1.17%
Druze 1.16%
Karakalpak 1.14%
Mongolians 1.14%
Uzbeks 1.13%
Ojibwa 1.10%
Buryat 1.00%
Cochimi 1.00%
Cucupa 1.00%
Dolgan 1.00%
Dolgans 1.00%
Even 1.00%
Evenk 1.00%
Hazara 1.00%
Huichol 1.00%
Kalash 1.00%
Kalmyk 1.00%
Kamsali 1.00%
Koryak 1.00%
Kumiai 1.00%
Lambadi 1.00%
Luiseno 1.00%
Maya 1.00%
Mongol_Halha 1.00%
Nganassan 1.00%
Oroqen 1.00%
Pima 1.00%
Roma_BH 1.00%
Romanian_Jew_1 1.00%
Romanian_Jew_3 1.00%
Shor 1.00%
Surui 1.00%
Tharus 1.00%
Tsimsian 1.00%
Uyghur 1.00%
Uzbekistan_Jew 1.00%
Uzbekistani_Jews 1.00%
Vysya 1.00%
Yukaghirs 1.00%
Sindhi 0.91%
Hezhen 0.86%
Xibo 0.80%
Navajo 0.78%
Bhil 0.75%
Brahmins_UP 0.75%
Burusho 0.75%
Mongola 0.75%
Naga 0.75%
Iranians 0.71%
Daur 0.67%
Kshatriya 0.67%
Mala 0.67%
Moroccan_Jews 0.67%
Japanese 0.58%
Chinese_Dai 0.53%
Evens 0.50%
Kol 0.50%
Morocco_Jew 0.50%
Mumbai_Jews 0.50%
Scheduled_Caste_UP 0.50%
South_Han 0.50%
Tu 0.50%
North_Han 0.45%
Brahui 0.45%
She 0.44%
Tujia 0.44%
Iraki 0.43%
Naxi 0.43%
Dharkars 0.40%
Han 0.40%
Kanjars 0.40%
Miaozu 0.40%
Velamas 0.38%
Balochi 0.33%
Chenchus 0.33%
Dusadh 0.33%
Hakkipikki 0.33%
Lahu 0.33%
Piramalai_Kallars 0.33%
Yizu 0.33%
Colombian 0.25%
Chamar 0.22%
Syrians 0.22%
Dai 0.20%
Libyan_Jew 0.17%
Makrani 0.08%

Алгоритм самостоятельного анализа результатов экзомного тестирования

Осенью 2011 года один из флагманов коммерческой персональной геномики, компания 23andme, запустила пилотный проект экзомного тестирования, в котором клиентам предлагался продукт — экзомный тест за 999 американских долларов вместе с интерпретацией результатов.  Тест покрывал примерно 50 млн. базовых пар ДНК, включающих в себя информацию необходмую для синтеза протеинов. К сожалению, пилотный проект быстро закрылся из-за отсутствия интереса и высокой стоимости теста. Тем не менее, некоторые из россиян успели заказать себе этот тест и получить результаты. Но так как авторизированный отчет 23andme с толкованием полученных результатов оказался написанным на сложном для понимания эзотерическом научном языке,  возникла необходимость в дополнительной интерпретации, вернее разжевывании имеющейся интерпретации, то я решил показать, как можно проанализировать экзом самостоятельно с помощью подручных средств.

В качестве примера я использую анонимизированный файл vcf (файл с перечнем геномных вариантов) одного из немногих россиян, заказавших экзомное тестирование в 23andme.

 

Техническое описание исследования.

Для анализа экзома я использовал NGS-библиотеки пакета Bioconductor-R (в среде статистических вычислений R), предназначенного для анализа полногеномных данных. Основной библиотекой, задействованной в анализе была библиотека variantAnnotation.

source(«http://bioconductor.org/biocLite.R&#187;)

library(VariantAnnotation)

Загрузка требуемого пакета: BiocGenerics

Загрузка требуемого пакета: parallel

Присоединяю пакет: ‘BiocGenerics’

Загрузка требуемого пакета: GenomicRanges

Загрузка требуемого пакета: IRanges

Загрузка требуемого пакета: XVector

Загрузка требуемого пакета: Rsamtools

Загрузка требуемого пакета: Biostrings

Присоединяю пакет: ‘VariantAnnotation’

В самом начале я загрузил заархивированный файл x.vcf в память с использованием координат геномного билда hg19 (т.к. VCF был получен из bam-файла, координаты которого были взяты из GRCh37.64, соответствующего hg19):
> vcf <- readVcf(«x.vcf», «hg19»)

> vcf

class: CollapsedVCF

dim: 110651 1

rowData(vcf):

  GRanges with 5 metadata columns: paramRangeID, REF, ALT, QUAL, FILTER

info(vcf):

  DataFrame with 28 columns: AB, AC, AF, AN, BaseQRankSum, DB, DP, DS, Dels,.

geno(header(vcf))

DataFrame with 5 rows and 3 columns

        Number        Type

   <character> <character>

AD           .     Integer

DP           1     Integer

GQ           1       Float

GT           1      String

PL           .     Integer

head(rowData(vcf), 3)

GRanges with 3 ranges and 5 metadata columns:

             seqnames         ranges strand | paramRangeID            REF

                <Rle>      <IRanges>  <Rle> |     <factor> <DNAStringSet>

  rs79585140        1 [14907, 14907]      * |         <NA>              A

  rs75454623        1 [14930, 14930]      * |         <NA>              A

  rs78601809        1 [15211, 15211]      * |         <NA>              T

                            ALT      QUAL      FILTER

             <DNAStringSetList> <numeric> <character>

  rs79585140                  G    494.81  MQFilter40

  rs75454623                  G    718.96  MQFilter40

  rs78601809                  G    125.22  MQFilter40

Затем я определил качество полученных генотипов (эти данные содержаться в колонке GQ секции генотипов vcf). Как видно из приведенных ниже значений, только 52% всех генотипов имеют 99%  степень аккуратности определения, качество остальных 48% вариантов лежит в диапазоне между 0 и 90% процентами. 

> geno(vcf)

List of length 5

names(5): AD DP GQ GT PL

> GQ <-geno(vcf)$GQ

> dim(GQ)

[1] 110651      1

> geno(vcf)

List of length 5

names(5): AD DP GQ GT PL

> GQ <-geno(vcf)$GQ

> dim(GQ)

[1] 110651      1

> fivenum(GQ)

[1]  0.03 33.98 99.00 99.00 99.00

> length(which(GQ==99.00))/length(GQ)

[1] 0.5221552

 hist(GQ[GQ != 0], breaks=seq(0, 100, by=10)

qc

На следующем этапе я опредилил число ранее неизвестных (новельных, то есть отствующих в базе dbSNP) вариантов в файле VCF. Всего вариантов 110651, из них известных 106076 и новельных 4575 (в отчете 23andme 4137). В целях определения качества новельных снипов я создал метрику для оценки качества снипов на основе сопоставления двух параметров – качества глубины покрытия генома и качества генотипирования. Из приведенного ниже графика видно, что примерно 25 % новельных снипов находятся в зоне низкого качества глубины покрытия, и это означает что примерно четверть новельных снипов могут представлять собой артефакт генотипирования:

info(vcf)$DB -> dbsnpsnp

metrics <- data.frame(QUAL=qual(vcf), inDbSNP=dbsnpsnp, RSQ=info(vcf)$QD)

 

qdПосле предварительных статистических тестов, я приступил к определению генов, в которых были обнаружены варианты. В зависимости от своего расположения, варианты могут оказаться в одном из 7 участков: интрон,  кодирующий участок, 5’UTR, 3’UTR, интергенный регион, сплайс-сайт и промоутер.   Для обнаружения положения вариантов, я задействовал библиотеку TxDb.Hsapiens.UCSC.hg19.knownGene.  Сначала я определил положение всех вариантов (cм.  Excel файл exomevariants.xlsx), однако поскольку нас интересует в первую очередь frameshift мутации, то гораздо более информативным является нахождение вариантов в кодирующих участках. Всего таких вариантов в кодирующих участка обнаружено 56035 в 23140 генах, причем 989 из 23140 генов имеет больше одного обнаруженного варианта в кодирующем участке

library(TxDb.Hsapiens.UCSC.hg19.knownGene)

txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene

loc <- locateVariants(rd, txdb, CodingVariants())

table(sapply(splt, function(x) length(unique(x)) > 1))

FALSE  TRUE

22151   989

Далее, я использовал функцию predictCoding, она вычисляет изменения кодирования аминокислот в несинонимичных вариантах. В запросе к базе данных рассматрываются только те участки , которые перекрываются с кодирующей областью. Референсные последовательности извлекаются из BSgenome. Вариант последовательности определяется путем замены, вставки или удаления значения в колонке varAllele в референсной последовательности.  Код аминокислот вычисляются для последовательности кодонов  в тех вариантах, когда длина кратна 3.

library(BSgenome.Hsapiens.UCSC.hg19)

coding <- predictCoding(vcf, txdb, seqSource=Hsapiens)


Затем из полученных 56035 вариантов в кодирующей области я выбрал только те, которые привели к сдвигу рамки чтения (таковых оказалось 412).

coding[mcols(coding)$CONSEQUENCE == «frameshift»]

Благодаря запуску функции predictCoding я отождествил код измененных аминокислот для не-синонимичных вариантов.  Анализируя это подмножество, я задался целью установить, какой физиологический ущерб эти изменения кодируемых аминокислот могут нанести при экспресии в фенотип.  Для этих целей я использовал методы PolyPhen, которые предсказывают последствия замены аминокислот в человеческих протеинах.  PolyPhen использует информарцию о функции последовательностей и структурную информацию, характеризующую замену аминокислоты для прогнозах о структуре и функции белка.

nms <- names(coding)

idx <- mcols(coding)$CONSEQUENCE == «nonsynonymous

nonsyn <- coding[idx]

rsids <- unique(names(nonsyn)[grep(«rs», names(nonsyn), fixed=TRUE)])

library(PolyPhen.Hsapiens.dbSNP131)

pp <- select(PolyPhen.Hsapiens.dbSNP131, keys=rsids,cols=c(«TRAININGSET», «PREDICTION», «PPH2PROB»))

head(pp[!is.na(pp$PREDICTION), ])

Полученные файлы сохранены в Excel файл x.xlsx, и затем подсчитано в каких протеинах наблюдается наибольшое число потенциально вредных frameshift мутаций

Название гена  Число frameshift мутаций

 

NA 2288
uc001lsw.2 44
P20930 34
P22105-3 21
P25940 13
O60732 12
Q5SSG8 10
Q86YZ3 10
Q9NYF8 9
P46013 9
Q5VU43 9
Q14500 9
Q9UMD9 8
O14513 8
A6NKC6 8
uc003ssj.2 7
O95678 7
O15360 7
Q86VF7 7
uc001mdw.3 6
Q9Y289 6
Q8NEZ4 6
Q96C45 6
Q9HD43 6
Q01955 6
Q2KHM9 6
Q701N2 6
P38570 6
P24821 6
P46734 6
Q9Y2K3 5
uc002vwl.2 5
uc002nfb.2 5
uc003nsm.1 5
Q9UNS1 5
Q9NZH6 5
D3DSV6 5
C9IYD7 5
P20853 5
Q14676 5
P38159 5
P35125 5
P35670 5
Q8N6F8 4
Q96Q06 4
uc001bvt.2 4
uc011dxu.1 4
uc004csb.2 4
Q8TE73 4
Q9H2D6 4
uc002yfm.2 4
Q96J66 4
uc002zag.1 4
Q8TB24 4
Q96RN1 4
Q99572 4
Q9C0D2 4
uc002zwe.2 4
Q9ULD2 4
Q8WXH0-2 4
uc003uhx.2 4
O95050 4
O75128 4
P02533 4
A3KMH1 4
Q5HYK9 4
P48634 4
O15069 4
Q8IUA7 4
Q16600 4
P60331 4
Q5D862 4
B7ZBR5 4
Q5KU26 4
Q12802-2 4
A8MTL4 4
P23327 4
Q7Z3S9 4
O75096 4
A1A5D9 4
Q15149 4
P54257-2 4
uc001saw.2 3
Q96PX6 3
Q9BWT7 3
Q9H0J4 3
uc001kgr.1 3
Q9H0U9 3
uc002uln.2 3
Q8TD33 3
Q9BYR5 3
Q9H339 3
Q9Y6R7 3
Q8N808 3
Q96RW7 3
uc003wcz.2 3
uc002fmv.2 3
Q8N865 3
uc002ycq.2 3
Q92954 3
uc003eee.3 3
Q9NQN1 3
Q9UQ84 3
Q9NQT5 3
Q96PX9 3
Q8NC74 3
Q8NGH7 3
uc011lix.1 3
Q8NH40 3
Q9NWH7 3
uc001rks.2 3
Q96EZ4 3
uc001wit.3 3
Q8N436 3
Q8TAX7 3
Q9P126 3
Q99954 3
Q9UI47 3
Q9BRB3 3
Q9UIU6 3
Q9BYQ6 3
Q96JF6 3
uc003kju.2 3
Q96L96 3
Q8N1N5 3
Q96PQ1 3
Q9H4A3 3
uc003zfz.2 3
Q9HCE0 3
uc010ebn.2 3
Q9HCS5 3
Q9NQG7-3 3
Q5JU00 3
Q6ZW33 3
Q6E0U4 3
O60500 3
O94900 3
P56945 3
Q5VIY5 3
P57679 3
Q6PFW2 3
A2I2N5 3
O60269 3
P60369 3
O15016 3
P60371 3
Q5QNZ9 3
P78334 3
Q5VY09 3
O75056 3
Q6NTE8 3
Q02386 3
Q6XYB7-2 3
Q07092 3
Q75N90 3
Q07157 3
P51689 3
Q08170 3
Q4G0N8 3
Q12789 3
P35908 3
C9JIP1 3
C9JLR2 3
Q12889 3
B9EIK7 3
Q13033 3
P11473 3
Q13635 3
Q685J3 3
Q14246 3
Q6H9L7 3
O14617 3
Q6PEW0 3
P27816 3
Q6UWM9 3
Q15051 3
Q6ZS72 3
Q15084 3
P13645 3
P27987 3
P47881 3
Q15345 3
P49747 3
P30926 3
Q17RW2 3
Q02447 3
uc002ckw.2 2
Q9BYQ4 2
uc002xvf.2 2
Q9H1I8 2
uc009zoy.1 2
Q9H1M4 2
uc002npq.1 2
Q92764 2
uc003cbl.3 2
Q92766-2 2
Q8NDY8 2
Q8N568 2
uc001say.2 2
Q9HBR0 2
uc002hwr.2 2
Q9HC10 2
uc002qoi.1 2
Q9HCC9 2
uc002yxk.1 2
Q92956 2
Q9BX84 2
Q9HCH5-8 2
uc003tcj.1 2
Q969J2 2
uc003xza.2 2
Q8NG08 2
uc010neg.1 2
Q9NP71 2
Q96SK3 2
Q9NPR9 2
Q99518 2
Q9NQ92 2
uc002mdk.2 2
uc010ooe.1 2
uc002oyh.1 2
Q96DS6 2
Q8N531 2
Q8NGF6 2
Q9BS92 2
Q9NQW5 2
uc002zwc.1 2
uc010sxc.1 2
uc003cwg.3 2
Q96GX9 2
Q9BYD2 2
Q8N146 2
uc003qtl.2 2
Q9NU22 2
Q8WXA2 2
Q9NV39 2
uc003xio.3 2
Q96JA4 2
Q8WXU2 2
Q9NY99 2
uc010cov.2 2
Q8NGV6 2
uc001sax.2 2
Q9NYQ6 2
uc001sck.2 2
Q96JM2 2
uc001zrt.2 2
Q9NZM3 2
uc002cyd.1 2
Q96KT7 2
uc002frs.1 2
Q9P2F8 2
uc002jjm.3 2
Q9UBK8 2
Q8TD19 2
Q9UGC7 2
uc002oxx.2 2
Q96KV7 2
uc002pdw.2 2
Q8NH01 2
uc002shl.3 2
Q9UK85 2
Q9BQ66 2
Q96LB9 2
Q8TE60 2
Q96LP6 2
uc002yip.1 2
Q96MC2 2
Q9BW66 2
Q9UPR6 2
Q8ND61 2
Q96NY9 2
uc003cpb.3 2
Q9Y237-2 2
uc003dnv.2 2
Q8N3K9 2
uc003gix.2 2
Q8N1A6 2
uc003lwz.2 2
Q8TAX9-3 2
uc003pgu.3 2
uc001aru.2 2
Q8WWF5 2
Q96PY6 2
uc003tpz.2 2
uc001dpq.2 2
uc003vuk.3 2
uc001drv.2 2
uc003wsh.3 2
uc001jrr.3 2
uc003xkm.1 2
Q8NA69 2
Q9GZP7 2
Q96QA5 2
uc009vzo.2 2
Q96RD9 2
uc010azk.1 2
uc001qnn.1 2
Q9H0R5 2
Q8TBZ5 2
Q8WZ92 2
Q8TCU5 2
Q9NRD8 2
Q5T9A4 2
Q6ZRI6 2
B9EGI0 2
O75830 2
Q86VW1 2
C9J2Y8 2
Q658L1 2
C9JF86 2
Q6PEY2 2
P60412 2
Q7RTR8 2
O95153 2
Q8IYM2 2
O95255 2
O60391 2
O95425 2
Q6DT37 2
Q8IZ20-2 2
Q6NXP2-2 2
O95460-2 2
P50226 2
A6NMZ7 2
P54253 2
O95786 2
Q86TB3 2
Q0P670 2
P59827 2
Q0VAR9 2
Q5T6X5 2
Q0VDD8-4 2
O60336 2
O95817 2
O60423-2 2
A6PVS8 2
Q68DN1 2
P04439 2
O60602 2
A8MSH3 2
Q6NV75 2
Q13427 2
Q6P6B7 2
A8MSQ1 2
Q6PXP3 2
Q14028 2
Q6ZMY3 2
Q14031-2 2
Q6ZTY8 2
P15822 2
B9ZVK6 2
P15848 2
Q7Z570 2
P17931 2
Q86UQ0 2
Q14929 2
Q86XA9 2
P20742 2
Q8IYG6 2
A8MT70 2
P60014 2
A8MT77 2
Q5T8R8 2
O14830 2
Q5TZA2 2
Q15643 2
Q5VTH9 2
P23141-2 2
Q5VV43 2
P23280 2
Q5W0A0 2
Q24JP5-2 2
O60443 2
A6ND91 2
Q6BDS2 2
Q2M243 2
A6NE01 2
Q32MH5 2
Q6IMN6 2
Q32P51 2
Q6NUI1 2
Q3L8U1-2 2
Q6NWU0 2
Q499Z3 2
Q6P3X3 2
O15018 2
A6NEL2 2
Q4G0P3 2
O75081 2
Q4LDE5 2
Q6U949 2
Q58DX5 2
P50238 2
Q58EX7 2
Q6ZN79 2
Q5D0E6 2
O75095 2
P25391 2
P54108 2
A9UL12 2
Q70EL2 2
Q5JTH9 2
Q76I76 2
B4E1X0 2
P56545-2 2
Q5JUB6 2
Q7Z6J9 2
O15389 2
Q86TY3 2
O43164 2
A5PLN7 2
B5MDQ5 2
Q86W24 2
Q5T035 2
O75376 2
Q5T036 2
Q8IUX4 2
Q5T0J7 2
Q8IYK2 2
Q5T124 2
Q8IYS4 2
Q5T1M5 2
Q5T6F2 2
Q12955 2
uc003xax.3 1
uc002eax.2 1
uc001dwa.2 1
Q96JL9 1
uc003aka.2 1
Q8N9L9 1
Q9Y2Y8 1
Q96JQ0 1
uc001rig.1 1
Q96KD3 1
Q92889 1
Q8N9R8-2 1
uc003mtg.2 1
Q8N9T8 1
Q96HJ3 1
Q96L50 1
Q9Y623 1
Q8N386 1
uc001law.2 1
Q8NA82 1
uc001whc.2 1
Q96LI9 1
uc002lvh.2 1
Q8NAT2 1
Q93075 1
Q96LW7-2 1
uc003fpa.2 1
Q96LW9 1
uc003sys.2 1
Q96M29 1
uc004bmg.1 1
Q96M89 1
Q9Y2G2 1
Q96M91 1
Q9Y566 1
Q8NC38 1
uc001abz.3 1
Q96MG8 1
uc001hfx.2 1
Q96MK3 1
uc001mty.2 1
Q96MY7 1
uc001stk.2 1
Q96N77 1
uc002aon.2 1
Q8N3D4 1
Q92583 1
Q96P69 1
Q8N323 1
Q96PC2 1
uc002sfp.2 1
Q96PD4 1
Q969T7 1
Q96PE6 1
Q96AQ6 1
Q96PH1 1
uc003hti.2 1
Q96PL5 1
uc003ntp.1 1
Q96PN7 1
uc003vsp.2 1
Q8NCW5 1
uc003yyy.2 1
Q96PQ7 1
uc009wcm.2 1
Q8N196 1
uc010jzk.1 1
Q8NDN9 1
Q8WUP2 1
Q8NDX1 1
Q9Y442 1
Q8NDX9 1
Q9Y5P1 1
Q8N3Y1 1
Q9Y6J0 1
Q96QD9 1
uc001cqe.3 1
Q96QE3 1
uc001fgr.1 1
Q96QI5 1
Q8WW52 1
Q8NDZ6 1
uc001mgt.2 1
Q96RG2 1
uc001qyz.3 1
Q96RL6 1
Q8WXD5 1
Q8NE62 1
uc001urv.2 1
Q96RP7 1
uc001zhi.2 1
Q8NEG0 1
uc002cmq.1 1
Q96S42 1
Q92543 1
Q96SB8 1
uc002iob.2 1
Q8NEQ5 1
uc002mkl.2 1
Q96SN8 1
uc002oqh.1 1
Q96ST8 1
Q92935 1
Q96SZ5 1
uc002unu.2 1
Q96T17 1
Q8N8C0 1
Q99456 1
Q969X1 1
Q8NEV8 1
uc003cna.3 1
Q8N412 1
Q96AY2 1
Q99595 1
Q96BF3 1
Q99678 1
uc003knc.2 1
Q99705 1
uc003nif.3 1
Q99707 1
Q8N910 1
Q99856 1
Q96E39 1
Q8NFD2 1
Q8N960 1
Q8NFT2 1
Q96FX8 1
Q9BQI5 1
uc003zsj.2 1
Q9BR39 1
uc009vnn.1 1
Q9BR77 1
Q96HD9 1
Q8NFV5 1
Q96HP8 1
Q9BRQ8 1
Q8N9H6 1
Q8NFZ6 1
Q9Y2I6 1
Q9BSA9 1
Q9Y2R9 1
Q9BT25 1
Q9Y3N9 1
Q9BU76 1
Q9Y4K0 1
Q9BUV0 1
Q9Y5E3 1
Q9BVL2 1
Q9Y5T5 1
Q9BVP2 1
Q9Y6C9 1
Q8NG04 1
Q9Y6S9-2 1
Q9BWD1 1
uc001bfk.2 1
Q9BWH6 1
Q8WW01 1
Q9BWN1 1
uc001epm.3 1
Q8N434 1
uc001ggg.1 1
Q9BWW9 1
uc001ikw.3 1
Q9BX26 1
Q8N715 1
Q8NG31-2 1
uc001lvm.2 1
Q9BXA9 1
uc001mjv.2 1
Q9BXI2 1
Q8WWU7 1
Q9BXI9-2 1
uc001rdt.2 1
Q9BXL6 1
uc001sah.1 1
Q9BXR5 1
uc001saz.2 1
Q9BXT6 1
uc001ugs.3 1
Q9BXT8 1
uc001vmt.2 1
Q9BXW6 1
uc001wja.2 1
Q9BY07 1
Q8WYQ9 1
Q8NGD2 1
uc002axo.2 1
Q9BYH1 1
uc002dai.3 1
Q9BYJ0 1
uc002flb.2 1
Q8NGD4 1
uc002hjn.2 1
Q8N123 1
uc002hzw.2 1
Q9BYR3 1
Q92610 1
Q8N475 1
uc002mdo.3 1
Q9BZE2 1
uc002nhl.1 1
Q9BZJ0 1
uc002oek.2 1
Q9BZJ3 1
Q92794 1
Q9BZY9 1
uc002pgj.1 1
Q9C000 1
uc002rxt.1 1
Q8NGI3 1
uc002spl.1 1
Q9C0D6 1
uc002vfa.2 1
Q9C0G6 1
uc002wtp.2 1
Q9C0J9 1
Q969S8 1
Q8NGJ0 1
uc002zji.3 1
Q9GZS9 1
uc002zxx.2 1
Q9GZU2 1
uc003cfi.1 1
Q9H063 1
Q96AP0 1
Q9H094 1
uc003dar.2 1
Q8NGK0 1
uc003eny.2 1
Q9H0M4 1
uc003fts.2 1
Q8NGV0 1
uc003gxu.2 1
Q9H0U6 1
uc003jig.2 1
Q8N4B4 1
Q96BJ8-3 1
Q9H190 1
uc003mwv.2 1
Q8NGX0 1
Q96BT3 1
Q9H1L0 1
uc003nzw.2 1
Q8NGY9 1
Q96CB5 1
Q9H1V8 1
Q8N957 1
Q9H201 1
Q96E52 1
Q9H205 1
uc003vvi.2 1
Q9H208 1
Q96F05 1
Q9H222 1
uc003xda.2 1
Q9H2B4 1
Q96GQ7 1
Q8N4T4 1
uc003zjw.2 1
Q9H306 1
uc004aid.2 1
Q8N4W9 1
Q8N9B5 1
Q9H347 1
uc009vxy.2 1
Q9H3S1 1
uc009yor.2 1
Q8NHC8 1
uc009zxk.2 1
Q9H4I0 1
Q96HP0 1
Q9H4M7 1
uc010fxm.1 1
Q9H583 1
uc010lpr.1 1
Q9H5L6 1
Q9Y2F5 1
Q9H6S0 1
Q9Y2H0-1 1
Q9H6Y2 1
Q9Y2K1 1
Q9H720 1
Q9Y2K9 1
Q9H816 1
Q9Y2T7 1
Q9H8X2 1
Q9Y345 1
Q9H9Y2 1
Q9Y3T6 1
Q9HAT1 1
Q9Y485 1
Q9HBF5 1
Q9Y508 1
Q9HBJ7 1
Q9Y585 1
Q9HBL0 1
Q9Y5E6 1
Q9HBM0 1
Q9Y5P3 1
Q8NHL6-3 1
Q9Y5W3 1
Q9HBW9 1
Q9Y644 1
Q8NHY0 1
Q9Y6G9 1
Q8NHY3 1
Q8WV93 1
Q8NI17-2 1
Q9Y6X5 1
Q9HCG8 1
Q8WVE6 1
Q8NI35 1
Q8WVT3 1
Q8N4X5 1
uc001doh.2 1
Q9HCX3 1
Q8WW43 1
Q8N1N2 1
uc001dzr.2 1
Q9NNX1 1
uc001ffh.2 1
Q9NP70 1
uc001fst.1 1
Q8TAZ6 1
uc001hdj.2 1
Q9NPB3 1
uc001hob.3 1
Q9NPB6 1
uc001ioo.2 1
Q9NPG4 1
uc001kal.3 1
Q8TB03 1
uc001koi.2 1
Q8N1N4 1
Q8WWK9 1
Q9NQC3 1
Q8WWQ8 1
Q8TB52 1
uc001mhb.3 1
Q8N5C6 1
uc001mqw.2 1
Q9NQS7 1
uc001nps.2 1
Q8TC84 1
uc001qvk.1 1
Q9NQW1 1
uc001qzt.2 1
Q8TCG1 1
uc001rgh.2 1
Q9NR11-2 1
Q8N7M2 1
Q9NR20 1
Q8WXB1 1
Q9NRC9 1
Q8WXG8 1
uc010otd.1 1
Q8N7Q3 1
Q8TCU4 1
uc001swc.3 1
uc010xwr.1 1
uc001uom.2 1
Q8N5H7 1
uc001usl.3 1
Q8TCY9 1
uc001vwo.1 1
Q9NRY5 1
Q8N7U7 1
Q9NU02 1
uc001wph.3 1
Q8TD07 1
uc001zif.2 1
Q9NV12 1
uc002adi.2 1
Q8N5W8 1
uc002ari.2 1
Q9NVI1 1
Q8N7X4 1
Q9NVL8 1
Q92485 1
Q9NVR5 1
uc002eab.2 1
Q9NVV2 1
uc002elh.2 1
Q8TD31-2 1
Q92535 1
Q9NWN3 1
uc002gov.3 1
Q9NWS6 1
uc002hwb.2 1
Q9NWS9 1
uc002hzv.2 1
Q9NX76 1
uc002ile.3 1
Q8N628 1
uc002jad.2 1
Q9NYA4 1
uc002knr.2 1
Q8TDM6 1
Q92614 1
Q9NYG8 1
uc002mkc.2 1
Q9NYK6 1
Q8N309 1
Q8TDR0-2 1
uc002niv.2 1
Q9NYQ8 1
uc002nrk.3 1
Q9NYR8 1
uc002onr.2 1
Q9NYW5 1
uc002owt.2 1
Q9NZ56 1
uc002oyf.1 1
Q9NZC7 1
Q92932 1
Q8TDV0 1
uc002pjn.2 1
Q8TDX9 1
uc002red.2 1
Q9NZM4 1
uc002sen.3 1
Q9NZP2 1
Q8N884 1
Q9NZP6 1
Q8N8A6 1
Q9NZQ3 1
uc002vcz.2 1
Q9NZQ8 1
uc002vml.2 1
Q9P0L9 1
uc002wgf.1 1
Q9P0W8 1
Q969H9 1
Q8TDY8 1
Q969Q4 1
Q9P1Z2 1
Q969T3 1
Q9P212 1
uc002zcm.2 1
Q9P266 1
uc002zsk.1 1
Q9P272 1
Q96A59-2 1
Q9P275-2 1
uc003afo.2 1
Q9P2A4 1
Q96A84-3 1
Q9P2E9-3 1
uc003cib.2 1
Q8TE59 1
uc003com.2 1
Q9P2X7 1
uc003cqx.2 1
Q9UBC7 1
uc003cxg.2 1
Q8N183 1
Q96AQ9 1
Q9UBS4 1
uc003eev.3 1
Q9UBU2 1
uc003fli.1 1
Q9UDX4 1
uc003frm.2 1
Q9UFP1 1
uc003gco.3 1
Q8TE68 1
uc003gkv.3 1
Q9UGP5 1
uc003hqx.3 1
Q9UH36 1
uc003ian.3 1
Q9UH92 1
Q96BH3 1
Q9UHF4 1
uc003lnj.2 1
Q9UHN6 1
uc003mlz.3 1
Q8N6I1 1
uc003mwa.3 1
Q9UIS9 1
uc003nef.2 1
Q8TEC5 1
uc003nkt.2 1
Q9UJ78 1
uc003ntn.3 1
Q9UJA3 1
uc003nvm.1 1
Q9UJL9 1
uc003ods.2 1
Q9UJW7 1
uc003qtf.2 1
Q8TER0 1
Q96DA0 1
Q9UKB5 1
uc003tbm.2 1
Q9UKP4 1
uc003toq.2 1
Q9UL01 1
uc003tzn.2 1
Q9UL49 1
uc003vrz.2 1
Q9UL52 1
Q96EK5 1
Q8TER5 1
uc003wcr.1 1
Q9ULE4 1
uc003wkp.2 1
Q9ULE6 1
uc003wwm.2 1
Q9ULI1 1
uc003xcu.2 1
Q9ULI3 1
uc003xep.1 1
Q9ULM0 1
Q96G42 1
Q8TEV9 1
uc003yyd.2 1
Q9UMR7 1
Q96GU1 1
Q9UMS0 1
uc003zlr.1 1
Q9UMX9 1
uc004aay.2 1
Q9UNI1 1
uc004atg.3 1
Q9UNK9 1
uc004can.3 1
Q9UNQ0 1
uc004ded.1 1
Q8TEX9 1
uc009vvi.2 1
Q9UPA5 1
Q96HA7 1
Q9UPN6 1
uc009ynk.2 1
Q9UPP2-2 1
uc009zhj.2 1
Q8TF21 1
uc009zwi.2 1
Q9UPV0 1
uc010awk.1 1
Q9UQ35 1
uc010boe.2 1
Q9UQ74 1
uc010eas.2 1
Q8TF76 1
uc010fvs.1 1
Q9UQ90 1
uc010inb.2 1
Q9UQP3 1
uc010ljy.1 1
Q8WTP8 1
Q8N9F8 1
Q8WTV0-2 1
Q8N9H9 1
Q9Y2A4 1
uc010wmr.1 1
Q9NRH2 1
uc010yvx.1 1
Q9NRP7 1
uc011jvp.1 1
Q9NRR1 1
Q8N0W5 1
Q9NRR4 1
Q8IX07 1
Q6P461 1
Q5TCM9 1
P19075 1
P10515 1
P19484 1
Q5JZ73 1
P19878 1
Q66K79 1
P19971 1
Q6W5P4 1
P20138 1
Q86V20 1
P20702 1
O95202 1
C9JN24 1
A6NGG8 1
C9JN71 1
Q5VVP1 1
D3DQK9 1
Q6IQ23 1
P21462 1
P08123 1
A6NMK8 1
Q6ZR62 1
A6NMR0 1
Q7Z5M8-2 1
O00182 1
Q86YD7 1
O00192 1
Q8IYW5 1
P23490 1
Q5JRA6 1
P24071 1
O95521 1
O00253 1
Q5T5J6 1
P24928 1
P02452 1
O00292 1
Q5XUX1-3 1
P25440 1
Q6AZY7 1
P25774 1
P05362 1
O00330 1
Q6PHR2 1
P26378 1
Q6UWT4 1
P26640 1
Q6ZMZ3 1
O00418 1
Q6ZU80 1
O00421 1
A2RUB6 1
P28070 1
Q86T20 1
P28330 1
P13646 1
P30042 1
Q8IVF2 1
P30154-2 1
A6NM10-2 1
O00451 1
Q8IZJ4 1
P31391 1
O95229 1
P31930 1
O95359 1
P32519 1
Q5QGT7 1
P34741 1
Q5SXM8 1
P34820 1
Q5T197 1
P34947 1
Q5T7V8 1
O00566 1
Q5TZ20 1
P35346 1
Q5VUJ5 1
P35372-3 1
P02462 1
P35452 1
Q63HK3 1
P35542 1
Q68DQ2 1
P35556 1
P04264 1
A2RUE3 1
P05107 1
P35789 1
P06133 1
O14610 1
P07197 1
P35968 1
Q6Q4G3 1
P36888 1
Q6UQ28 1
P37108 1
Q6V0I7 1
P37231 1
P08572 1
P38117-2 1
Q6ZNH5 1
A6NNB3 1
P09172 1
O14641 1
P0C0P6 1
P40145 1
P10643 1
P40394 1
Q7Z4N2 1
P42694 1
Q7Z736 1
P42898 1
P12643 1
P43360 1
Q86VI3 1
O14656 1
P14060 1
O14777 1
Q8IUC4 1
O14798 1
Q8IWC1 1
P48357 1
Q8IXT1 1
A2RUQ5 1
Q8IYN0 1
P48681 1
P17693 1
P48736 1
Q587J8 1
O14944 1
Q5CZA4 1
P49917 1
O95236 1
A7MBM2 1
B9A029 1
A8K1K9 1
Q5JVX7 1
P50748 1
Q5M775 1
P50995 1
A6NFJ4 1
P51172-2 1
Q5SXH7-4 1
P51636 1
Q5SYB0 1
P51659 1
A6NII6 1
O15021-3 1
O95900 1
P51801 1
O95988 1
P51858 1
P01011 1
P51957 1
Q5TEA6 1
P51993 1
Q5U5R9 1
P52569-2 1
Q5VTT5 1
O15031 1
P02461 1
A8K8G6 1
Q5VXM1 1
O15205 1
Q5VZR2-2 1
P55103 1
Q5Y7D6 1
P55198 1
Q659C4 1
P56159 1
Q68D06 1
A8K979 1
Q68EA5 1
P56696 1
P04004 1
P56715 1
P04626 1
A8MQT4 1
Q6MZQ0 1
P57071 1
Q6NUQ4 1
O15534 1
Q6NVY1 1
P57727 1
Q6P0N0 1
P57737 1
P06734 1
P58182 1
P07919 1
P59046 1
P07996 1
P59282 1
Q6S9Z5 1
P59533 1
Q6UDR6 1
P59826 1
Q6UWB4 1
O15553 1
Q6UXN2 1
P59910 1
Q6VVB1 1
O43151 1
Q6X4T0 1
A2VDJ0-5 1
Q6ZMT4 1
P60368 1
P08949-2 1
O43187 1
Q6ZQQ6 1
P60370 1
Q6ZRQ5 1
O43314-2 1
Q6ZS82 1
P60411 1
Q6ZUX3 1
O43493-2 1
Q70CQ4 1
P63211 1
Q7KYR7 1
P68363 1
Q7RTV2 1
P78329 1
Q7Z3Y9 1
O43555 1
Q7Z5L4 1
P78364 1
P12109 1
P78396 1
Q7Z7A1 1
P80075 1
Q86TC9 1
P98164 1
P12645 1
Q00056 1
Q86V71 1
Q008S8 1
Q86VY4 1
Q01459 1
Q86WB0 1
Q01658 1
Q86XM0 1
Q01664 1
P15169 1
O43731-2 1
C9JG81 1
O60225 1
Q8IVF5 1
O60243 1
Q8IWE2 1
Q02742 1
Q8IXI1 1
Q02880-2 1
Q8IYD8 1
Q03188 1
P15924 1
Q03405 1
P17036 1
Q03468 1
Q8IYX7 1
Q04671 1
Q8IZF2 1
Q04844 1
A6NM11 1
Q05952 1
O95185 1
Q07075 1
Q58F21 1
A1A4T8-2 1
O95206 1
O60285 1
Q5H9F3 1
Q07283 1
Q5IJ48 1
O60292 1
Q5JSS6 1
Q08397 1
Q5JTV8 1
Q08426 1
O95394 1
Q08999 1
Q5JWR5 1
Q08AF3 1
A1A519 1
Q08AG7 1
Q5M9N0 1
Q09MP3 1
Q5QJE6 1
O60312 1
Q5SQ64 1
Q0P6D6 1
Q5SW96 1
A4D1E9 1
Q5SXM2 1
A4D263 1
Q5SY16 1
Q0ZGT2 1
Q5SZD4 1
Q0ZLH3 1
A6NHR9 1
O60403 1
O95897 1
A4Z6T7 1
Q5T1B0 1
Q12887 1
Q5T2N8 1
A8MV65 1
O95944 1
Q8IZU2 1
Q5T7B8 1
Q8IZY2 1
O95995 1
A0PJX4 1
Q5TAA0 1
A1IGU5 1
Q5TD97 1
Q13084 1
Q5THR3 1
Q13127 1
P01031 1
Q13137 1
P01833 1
Q13233 1
Q5VTJ3 1
Q13316-2 1
P02458 1
O60548 1
Q5VV41 1
Q13470-2 1
Q5VVB8 1
Q13487 1
Q5VW36 1
Q13601 1
Q5VXT5 1
Q13615 1
Q5VYM1 1
B1AH88 1
C9JBG3 1
Q13748 1
Q5XX13-4 1
Q13753 1
Q60I27 1
Q13797 1
P02538 1
Q13946-2 1
Q66K74 1
O60603 1
P02730 1
O60721 1
P02788 1
Q14032 1
Q68DV7 1
Q14112 1
Q6A555-2 1
Q14126 1
Q6B9Z1 1
Q14160-3 1
P04259 1
Q14209 1
C9JDV5 1
Q14210 1
Q6IPM2 1
Q14244 1
Q6L8Q7 1
B1ANC0 1
P04731 1
Q14331 1
Q6NUN0 1
O75023-3 1
Q6NUS8 1
B1APY0 1
Q6NVV3 1
Q14679 1
P05787 1
Q14690 1
Q6NY19-2 1
Q14774 1
P06732 1
B2R6C3 1
Q6P4A8 1
Q14934-3 1
Q6PDB4 1
Q14980 1
P07900-2 1
Q14990 1
Q6PGQ1 1
Q15032 1
Q6PJF5-2 1
B4DQM4 1
Q6Q0C1 1
A6ND48 1
Q6Q759 1
B5B2M5 1
Q6T423 1
O75161 1
Q6UB98 1
O75185 1
Q6UE05 1
Q15652 1
Q6UW78 1
Q16204 1
P08151 1
Q16348 1
Q6UXC1-2 1
B5MDD1 1
Q6UXY1 1
Q16610 1
Q6V1P9 1
Q16762 1
Q6W3E5-2 1
Q16787 1
Q6WQI6 1
Q16790 1
Q6X784 1
Q16828 1
Q6XZB0-2 1
Q17R60 1
P08922 1
O75635 1
Q6ZN28 1
Q18PE1 1
Q6ZNB6 1
Q1EHB4 1
Q6ZP82 1
Q1X8D7 1
Q6ZR52-2 1
O75717 1
P08F94 1
Q2HXU8 1
Q6ZRV2 1
Q2I0M4 1
Q6ZS81 1
A1L443 1
P09871 1
Q2L4Q9 1
Q6ZUB1 1
O75952 1
Q6ZV73 1
Q2M2I5 1
P10321 1
Q2M329 1
P10412 1
Q2M3C7 1
P10523 1
Q2NL98 1
Q7RTR0 1
Q2TAA8 1
Q7RTS3 1
Q2TAL5 1
Q7Z2W4 1
Q2TBF2 1
Q7Z3Y8 1
Q2VIQ3 1
Q7Z407 1
Q2VPA4 1
P12107-2 1
Q2VPK5 1
Q7Z5L7-3 1
Q30201 1
Q7Z5Y6 1
Q32M84 1
Q7Z6L1 1
Q32M92 1
Q7Z745 1
O76014 1
Q86SH2 1
Q32MK0 1
P12270 1
O94769 1
Q86TJ5 1
Q3KPI0 1
Q86U06 1
O94823 1
Q86US8 1
Q3LHN0 1
Q86V48 1
Q3LI76 1
P13284 1
Q3LIE5 1
C9JFW9 1
Q3MJ13 1
Q86VZ4 1
Q3SY84 1
Q86W28 1
Q3YEC7 1
Q86X19 1
Q3ZCM7 1
Q86XL3 1
Q3ZCV2 1
Q86YB8 1
Q3ZCX4 1
Q86YE8-3 1
Q495D7 1
P15313 1
Q495Z4 1
Q8IUN9-2 1
O94850 1
Q8IUX7 1
Q49A88-6 1
Q8IVF4 1
Q49MG5 1
Q8IWA6 1
A1Z1Q3-2 1
Q8IWD5 1
B7ZLS8 1
Q8IWT3 1
Q4G0Z9 1
Q8IX12 1
B8A4U7 1
Q8IXS2 1
Q4VX76-2 1
Q8IY37 1
Q4W5C3 1
Q8IYE1 1
Q4W5G0 1
Q8IYI8 1
Q4ZJI4 1
P17022 1
Q53EZ4 1
Q8IYR2 1
Q53GL7 1
Q8IYU4 1
Q53HC0 1
Q8IYX0 1
Q53QW1 1
Q8IYY4 1
Q53RT3 1
Q8IZC4 1
Q53S99 1
Q8IZF3 1
Q53SF7 1
Q8IZT6 1
Q53T94 1
Q56UN5 1
Q8N0U7 1
Q13007 1
Q13018 1

 

На следующем этапе возникает вопрос — что делать с полученным списком генов с наибольшим числом frameshift мутаций? Можно ли определить характер и уровень функциональных изменений в организме человека? Оказывается, можно. Как упоминалась выше, полученные потенциальные генетические варианты, приведшие к замене кода аминокислот, были сохранены в таблице. Затем я подсчитал, в каких именно протеинах наблюдается наибольшое число потенциально вредных frameshift мутаций, и выделил их в отдельный список. Поскольку это самые интересные (с точки зрения возможных изменений в фенотипе) мутации, то далее я работал только с теми протеинами, в которых наблюдается повышенное количество вредоносных мутаций. Из общего числа я отобрал 35 протеинов с наибольшим количеством мутаций. Отмечу, что ни один из обнаруженных протеинов сам по себе не имеет значимой связи с риском развития заболеваний  интересующего нас спектра. Поэтому вышеприведенный список протеинов был обработан в программе Cytoscape, так как нас интересуют в первую очередь обнаружение функциональных связей с теми протеинами, которые ранее были описаны в литературе как потенциальные факторы развития отдельных расстройств и заболеваний.  Я не буду приводить полученные сетевые графы взаимодействия протеинов, так как они содержат деликатную информацию медицинского характера, поэтому помещенный ниже образец графического отображения в программе Cytoscape взаимодействия протеинов носит сугубо иллюстрирующий характер и взят с сайта програмыы Cytoscape

visualMapping1

Этногеномика беларусов — часть III

Анализ этно-популяционного адмикса

 

В ходе следующеего этапа, окончательный набор данных по референсным популяциям (которые я храню в linkage-формате PLINK) был обработан в программеAdmixture. Во время выбора подходящей модели проведения теста на этно-популяционный адмикс, мы столкнулись с крайне трудной задачей: как было показано в профильных научных исследованиях (Pattersonetal.2006) количество маркеров, необходимых для надежной стратификации популяций в анализе обратно пропорциональна генетическому расстоянию (фСТ) между популяциями. Согласно рекомендациям пользователей программы Admixture, считается что примерно 10 000 генетических SNP-маркеров достаточно для выполнения интер-континентальной GWAS-коррекции обособленных популяций (например, уровень дивергенции между африканскими, азиатскими и европейскими популяциями FST> 0.05), в то время как для аналогичной коррекции между внутриконтинентальными популяциями требуется более чем 100000 маркеров (в Европе, например, ФСТ < 0.01). Для повышения точности результатов Admixtureмы решили использовать метод, предложенный Dienekes. Этот метод позволяетпреобразовать частот аллелей в “синтетические” индивиды (см. такжепример Зака Аджмалаиз проекта HarappaDNA). Идея метода довольно проста: сначала необходимо запустить unsupervisedанализ Admixtureс целью вычисления частот аллелей в так называемых предковых компонентов, а затем на основании аллельных частот сгенерировать “фиктивные популяции”. Именно эти фиктивные популяции и индивиды будут использоваться в ходе чистых референсов в ходе последующего анализа этно-популяционного анализа. Впрочем, как и любые другие исследователи, работающий над четким решением проблемы этно-популяционного адмикса, мы были вынуждены считаться с ограничениями этого подхода. Хотя мы отдаем себе отчет в существовании явных методологических подвохов в использовании смоделированных искусственных индивидов для определения адмикса в реальной популяции, мы полагаем что полученные в ходе аллельно-частотного моделирования “фиктивных индивидов” представляют самую лучшую аппроксимацию древних генетических компонентов предпологаемых древних компонентов. В ходе применения простого моделирующего метода, нами были получены значимые результаты в ходе создания нового калькулятора. Сначала мы произвели unsupervisedAdmixture(при значении К = 22, т.е 22 кластера частот аллель или предковых компонентов). По выполнению анализа нами были получены оценки коэффициентов адмикса в каждой из этих 22 аллельных кластеров, а также частоты аллелей для всех SNP-ов в каждой из 22 родовых популяций.

Затем мы использовали мнемонические обозначения для каждого компонента (имена для каждого из компонентов выведены в порядке их появления). Нужно помнить, что обозначения этих компонентов носят скорее мнемонический условный характер:

Pygmy

West-Asian
North-European-Mesolithic
Tibetan
Mesomerican
Arctic-Amerind
South-America_Amerind
Indian
North-Siberean
Atlantic_Mediterranean_Neolithic
Samoedic
Proto-Indo-Iranian
East-Siberean
North-East-European
South-African
North-Amerind
Sub-Saharian
East-South-Asian
Near_East
Melanesian
Paleo-Siberean
Austronesian

Вышеупомянутые частоты аллель, вычисленные в ходе unsupervised(безнадзорного) анализа (AdmixtureK= 22) объединенного набора данных, были затем использованы для симуляции синтетических индивидов, по 10 индивидов на каждую из 22 предковых компонент. Это симуляционное моделирование проводилось с помощью PLINKкоманды -simulateРасстояние между между симулированными «искусствеными» индивидами было визуаилизировано с использованием многомерного масштабирования.

simul

На следущем этапе, я включил группу смоделированных индивидов (220 индивидов) в новую эталонную популяцию. После чего я запустил новый анализ А, на этот раз в полном “поднадзорном” режиме для K= 22, причем полученные в ходе симуляционного моделирования фиктивные популяции фиктивных индивидов использовались в качестве новых референсных эталонных групп. На конвергенцию 22 априорно заданых предковых компонентов было затрачено 31 итераций (3 7773,1 сек) с окончательным loglikelihood: -188032005,430318 (ниже, на следущей странице, приведена таблица значений Fst между расчетными ‘предковыми’ популяциями):

fst dist

Рисунок 1. FST-дистанции между компонентами

 

Приведенная выше матрица Fstдистанций была использована для определения наиболее вероятной топологии NJ-дерева всех 22 предковых компонентов ( примечание: в качестве outgroup-таксона использовался South-Africancomponent).

Этногеномика беларусов — часть II

Анализ структуры аутосомного генофонда популяции беларусов: методы, технические параметры и предварительные замечания.

 

В целях сопоставимости выводов данных анализа с приведенными выше выводами профессиональных популяционных генетиков, мы использовали в своем исследовании референтную выборку беларусовиз ДНК-банка Института Генетики Беларуси в том же объеме, в котором она была задействована в исследовании группы ученных под руководством Бехара (модифицированная выборка Генбанка с кодом доступа:GSE21478)[1]. Наряду с референтной группой беларусов (обозначена как Belarusian), мы использовали данные лиц беларуского происхождения из нашего собственного проекта этно-популяционного анализа лиц, предки которых проживали на территории Беларуси минимум 100-150 лет(обозначено как Belarusian_V).

Для проведения сравнительного анализа генофонда популяций нам понадобился референтный набор популяций. Референтный набор популяций в этом калькуляторе был собран в программе PLINK  методом “intersection&thinning” ( дословно “пересечением и истончением”) образцов из различных источников данных:HapMap 3(отфильтрованный набор данных КЕС, YRI, JPT, CHB),1000genomes, Rasmussen et al. (2010), HGDP (кураторская база данных Стэнфордского университета), Metspalu et al. (2011), Yunusbayev et al (2011),Chaubey et al. (2010)и т.д. Кроме того, мыотобралипроизвольным образом по 10 сэмплов (или максимальное количество доступных сэмплов в тех случаях, когда общее число сэмплов в популяции было меньше 10) от каждой европейской страны, представленной в панеле базе данныхPOPRES.Наконец, для того чтобы оценить степень корреляции между современным и древним генетическим разнообразием населения Европы, мытакже включилив выборку образцы древней ДНКЭци(Keller et al. (2012)) , образцы жителей шведского неолита Gök4, Ajv52, Ajv70, Ire8, STE7 (Skoglund et al. (2012))и 2 образца La Braña – останков мезолитических жителей Пиренейского полуострова (Sánchez-Quinto et al.(2012)).

Затем мыдобавили90 образцов – анонимизированных данных — участников моего проекта. После слияния вышеупомянутых наборов данных и истончения набора SNP с помощью особой команды PLINK, мыисключилиSNP-ы с менеечем 0.5% минорных аллелей. Послечего мыотфильтровал дубликаты, лиц с высоким уровнем общих по происхождению идентичных сегментов (IBD). В качестве критерия фильтрации были использованы расчеты IBD в Plink, где IBD представлена как средняя доля аллелей общих между двумя людьми по всем анализируемым локусам. Затем мыудалилииз выборки лиц с высоким коэффициентом предпологаемого родства, коэффициенты родства были вычислены в программном обеспеченииKing).

Для получения более стабильных результатов, мытакже отфильтровалисэмплы с более чем 3 стандартными отклонениями от средних данных по популяции. Поскольку коэффициент родства может быть надежно определен с помощью оценки HWE (ожидания, вытекающего из законаХарди-Вайнберга) между SNP-ами с той же базовой частотой аллелей, то SNP-ы с существенным отклонением (p < 5.5 x10−8) от ожидания Харди-Вайнберга были удалены из объединенного набора данных. После этого мывыделилите SNP-ы, которые присутствовали в чипах Illumina / Affymetrix, и затем произвелифильтрацию снипов на основе расчетов степени неравновесного сцепления (в этом эксперименте мыиспользовалтхромосомное ‘окно’ размером в 50 базовых пар, с шагом 5 базовых пар и пороговым значением уровня сцепления R ^ 2, равным 0,3).

По окончанию этой сложной последовательности операций, мыполучил окончательноый набора данных, который включал в себя 80 751 снипов, 2516 человек и 225 референсных популяций.

 

[1] http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE21478

Этногеномика беларусов — часть 1

I. Анализ аутосомного генофонда беларусов

Наряду с ставшими уже традиционными методами анализа структуры генофонда популяций по Y-хромосоме и митохондриальном ДНК (о которых мы упоминали выше), в последнее время все большее распространение получают новые и более точные методы анализа генофонда популяций, в основу которых положены данные о частотах аллелей большого числе генетических локусов на неполовых хромосомах. В силу того, что в передаче генетического материала на неполовых (аутосомальных) хромосомах участвуют как мужчины, так женщины, подробный и детальный анализ распространения аллельных вариант способен дать более точную характеристику процессов исторических и эволюционных процессов в отдельно взятой популяции. Кроме того, большая часть человеческого генома сосредоточена в неполовых хромосомах — количество генов (точнее определенных генетических локусов) локализованных на неполовых хромосомах, несоизмеримо выше числа генов в митоДНК и половых хромосмах. Поэтому анализ аутосомных хромосом обладает более высокой степенью информационного разрешения. Выбор типа локусов в нашем исследовании также обусловлен сугубо прагматическими соображениями.
Поскольку существует разные типы генетических маркеров, мы ограничились снипами — точечными мутациями, представляющими собой замену одиночного нуклеотида. Как было показанов других исследованиях, математико-статистические методы исследования распределения аллельных вариантов(генотипов) отдельных снипов характеризуются наивысшой разрешающой способности в плане изучения воздействия всех известных генетических эффектов на историческую демографию популяции.

Перед тем, как перейти к весьма сжатому и краткому описанию результов анализа популяции беларусов по определенному набору типированных снипов,  следует вкратце описать предысторию изучения аутосомных маркеров беларуской популяции. Как уже отмечалось выше, новые методы исследования генофонда популяция с помощью изучения статистических характеристик одиночных нуклеотидных вариантов (SNV/SNP), были введены в популяционной генетике и биоинформатике относительно недавно. В более ранней парадигме, анализ (в том числе, и сравнительный) аутосомной составляющей генофонда состоял в определении набор-панели высокополиморфных и слабо сцепленных между собой аутосомных ДНК маркеров. В то же самое время, насколько нам известно, аналогичный анализ с использованием другого типа маркеров –снипов- до совсем недавнего временине проводился. Например, в исследованиях аутосомных ДНК-маркеров часто использовался стандартный набор CODIS, который первоначально разрабатывался для нужд ДНК-профилирования в криминалистике.В данную систему CODIS входят 16 аутосомных STR локусов и амелогениновый тест на определение половой принадлежностиОднако относительно простота амплификации сателлитной ДНК в формате мультиплексной PCR, и доступность методов статистической обработки с использованием современных статистических подходов, применяемых в популяционной генетике и судебной медицине, привела к тому что эта система часто использовалась в ранних исследованиях генофонда популяций Восточной Европы.

Cамой масштабной работой такого рода( а именно, c использованием классических аутосомных маркеров STR), является совместная статья Балановского и Тегако. В свете нашего исследованияпредставляется нужным отметить наиболее интересующий нас аспект вышеупомянутой работы, а именно сравнительный анализ генофонда беларусов с генофондами других популяций Западной Евразии. Как отмечают авторы, cравнительный анализ генофондов Западной Евразии показал, что «поаутосомным ДНКмаркерам все восточные славяне входят в один кластер Восточной Европы. Однако русские и украинские популяции расположены ближе друг к другу, чем к белорусам… Русские и украинцы оказываются ближе к популяциям Западной и Южной Европы, чем белорусы. К сожалению, по этим маркерам не изучены ближайшие западные и северные соседи белорусов, и в частности, балтские народы. Можно предполагать, что некоторое своеобразие генофонда белорусов связано с вкладом балтского субстрата»[1]
Использованные в работе Балановского и Тегакогенетические данные по генофонду популяций беларусов были взяты из баз данных Института генетики НАН Беларуси, где хранятся базы данных по 35 аутосомным генам, изучаемых, главным образом, в целях медицинской генетики. Однако, как отмечается в статье О.Давыденко и Е. Кушнеревич «Гаплогруппы Y-хромосомы и происхождение национального генофонда», для эволюционных исследований эти маркеры не совсем удобны, так как на частоту и характер распространения аллелей зачастую оказывает влияние жесткий естественный отбор, и поэтому по одним только результатам анализа распределения частот невозможно судить о генетическом родстве разных популяций.[2]

Несмотря на то, что основное внимание в статье Давыденко и Кушнеревич уделяется анализу Y-хромосомных гаплогрупп беларусов, в конце статьи авторы мимоходом упоминают о результатх исследования аутосомного генофонда, проведенного междунродным коллективом под руководством Дорона Бехара[3]:

«В работе израильского ученого Дорона Бехара с соавторами изучались различные популяции евреев и анализировалась генетическая взаимосвязь между ними и их «хозяйскими» популяциями. В большинстве случаев эта связь была незначительной. Белорусская «хозяйская» популяция также исследовалась с использованием именно нашего ДНК-банка, то есть эти данные весьма сопоставимы, поскольку сделаны на одной той же представительной выборке. Ученые сравнивали 100 тыс. однонуклеотидных замен (то есть изучали 100 тыс. точек, разбросанных по всему геному человека). Результаты работы демонстрируют достаточно близкий спектр изменений у белорусов, литовцев и русских и свидетельствуют о присутствии трех основных «древних» компонентов в сопоставимых пропорциях. Это также косвенно указывает на возможность общего происхождения славян и балтов, а также на то, что основы генофонда различных европейских народов заложены еще в доисторическое время.Если сопоставить данные математической лингвистики с данными по геномному анализу, нельзя не увидеть определенного параллелизма не только в дивергентном характере, но и во временных оценках эволюции – как языка, так и генетики. Эти данные также могут свидетельствовать в пользу предположения общности происхождения славян и балтов из некогда единой популяции.»

В приведенной выше цитате мы выделили самую важную часть, в которой авторы высказывают предположение о том, что присутствие трех основных древних компонентов указывает на возможность общего происхождения славян и балтов. Очевидно, что предложенная авторами спорная(на наш взгляд) интерпретация противоречит выводам Балановского и Тегако о том, что своебразие аутосомного генофонда беларусов может быть связано с вкладом балтского субстрата. К сожалению, в обеих статьях авторы не сочли нужным подробно аргументировать свои выводы по столь важному вопросу. Поэтому одной из задач нашего небольшого исследования мы ставим критический разбор обеих утверждений на основане полученных нами данных о структуре аутосомного генофонда беларусов.

 

[1] Балановский О. П., Тегако О. В. Генофонд белорусов по данным о трех типах генетических маркеров — аутосомных, митохондриальных,Y-хромосомы.

[2] Давыденко Олег, Кушнеревич Елена.2011. Гаплогруппы У-хромосом и происхождение национального генофонда. Наука и Инновации.Тайна происхождения белорусов. 9(103),12-15.

 

[3] Behar, Doron.M.2010.The genome-wide structure of the Jewish people.Nature 466, 238–242.

О новых профессиях связанных с генетикой и молекулярной биологией

17 февраля известное российское Агентство стратегических инициатив и Московской школы управления «СКОЛКОВО» разродилось примечательным изданием — атласом новых профессий. Я не буду останавливаться на отдельных моментах этого издания (благо, что он находится в открытом доступе), и процитирую те фрагменты атласа, в которых описываются новые потенциальные области трудовой занятости, так или иначе связанных с генетикой

Генетический консультант. Проводит первичный и плановый генетический анализ в диагностических центрах, обрабатывает данные с диагностических устройств, дает заключение и рекомендации по дальнейшей схеме лечения (выявление наследственных заболеваний, онкомаркеров и т.д.
Сегодня генетические консультации нам известны, преимущественно благодаря компании 23andMe, которая предлагает частным заказчикам генетический анализ генома. Компания любопытна не столько даже тем, что предлагает за разумные деньги целый ворох прелюбопытной информации (посмотреть можно, например, тут) или тем, что основательница компании – супруга Сергея Брина, или тем, что одним из инвесторов в компанию является Юрий Мильнер, совладелец Mail.ru Group. Интересно, что сейчас компания проходит тот путь внешнего сопротивления регулирующих органов, который, вероятно, отражает общую судьбу новых технологий: в ноябре 2013 года FDA (Агентство Минздрава США по надзору за качеством продуктов и медикаментов) предписала 23andMe приостановить продажи тестов, поскольку компания нарушает закон, говоря, что на основе ее тестов можно определить более 250 заболеваний. Как авторитетно говорит агентство, утверждать это можно, только основываясь на медицинских тестах, одобренных FDA. Посмотрим, что будет дальше, но ясно, что запрос на первичный генетический анализ в ближайшее время будет расти, а значит, будут нужны генетические консультанты.

Клинический биоинформатик. В случае нестандартного течения болезни строит модель биохимических процессов болезни, чтобы понять первопричины заболевания (выявляет нарушения на клеточном и субклеточном уровне)
Клиническая биоинформатика на западе также существует не первый год. Сегодня на Западе клиническая биоинформатика (или трансляционная биоинформатика) направлена на то, чтобы по максимуму использовать весь багаж накопленной информации – генетической, биологической и медицинской – может быть применен для того, чтобы разработать персонализированную терапию и траектории лечения пациента. В основе клинической биоинформатики лежит использование IT-методов для анализа фундаментальной биомедицинской и генетической научной информации для применения в клинической медицине. Трансляционная медицина есть и в России, и специалисты прогнозируют появление большого количества рабочих мест в этой области (подробнее можно узнать в рассказе Сергея Румянцева для ПостНауки)