Русскоязычный ликбез — введение в основные понятия геномики

Уважаемый Владимир Гурьянов поделился замечательной ссылкой на статью 2010 года, в которой на хорошом и доступном для понимания русском языке излагаются базовые понятия современной геномной биоинформатики.
Важность этой статьи трудно переоценить по той причине, что при переводе иноязычных статьей на русский язык зачастую приходиться сталкиваться с отсутствие адекватной устоявшейся русскоязычной переводческой базы в столь новой и динамично развивающейся области, каковой и является геномика.  Кроме того, статьи на эту тематику в научно-популяризаторском секторе Рунете можно перечесть по пальцем, а существующую предметная литература либо написана на очень сложном и непонятном для неспециалиста языке, либо не восполняет существующие лакуны. И если прорехи в русскоязычной профессиональной лексике вкупе с устаревшими знаниями с лихвой компенсируются в профильных высших биологических и медицинских ВУЗах РФ живым общением с преподавателями, то ситуация в небольших группах энтузиастов-любителей коммерческого ДНК-тестирования гораздо более плачевна. В отличии от академических деятелей, приходящих к актуальным вопросам ДНК-тестирования через системное образование в области молекулярной биологии и генетики, большинство любителей приходят в генетику благодаря интересу к генеалогии и антропологии. На первых порах все кажется простым, но по мере погружения в суть самого процесса, они сталкиваются со все более сложными понятиями, которые в силу своей непонятности вызывают у новичков только отторжение. Однако именно более вдумчивое изучение этих основ позволяет по новому подойти к анализу своих собственных генетических данных.Именно по этим причинам, подобные статьи заслуживают более пристального внимания. Статья заслуживает внимательного прочтения, особенно в части описывающей технические стороны сиквенирования (прочтения последовательности) генома: в этой части автор весьма сжато, но точно изложил принципы работы разных методов сиквенирования (в том числе, и технологию сиквенирования нового поколения). Но поскольку в задачу этой небольшой заметки не входит реферирование всего содержания статьи, я решил ограничиться только разбором основных понятий, отдельно выделенных автором в словарик.

Словарик

Геном (точнее, ядерный геном) — совокупность всех молекул ДНК ядра клетки (каждая из отдельных молекул ДНК, взаимодействуя с комплексом белков, образует хромосому). Это понятие настолько базовое, что не нуждается в дополнительных комментарий. Отмечу от себя лишь, что в дальнейшем речь пойдет только о ядерном геноме. Кроме него (по 2 копии на клетку), в клетке содержится 100-1000 митохондрий, имеющих собственный геном, и наконец свой небольшой геном имеется в веретене деления  — структуре, возникающая в клетках эукариот в процессе деления ядра. У человека (Homo sapiens) геном состоит из 23 пар хромосом, находящихся в ядре, а также митохондриальной ДНК. Двадцать две аутосомы, две половые хромосомы Х и Y, а также митохондриальная ДНК человека содержат вместе примерно 3,1 млрд пар оснований. Несмотря на то, что геном в «развернутом виде» относится к макроструктурам (в развернутом состоянии его длина составляет примерно один метр), однако благодаря многоуровневой системы уплотнения, он помещается в микроскопические масштабы клетки. Например, в хромосомах молекула ДНК «уплотняется» в результате сложного взаимодействия с белком гистоном.

Секвенирование — определение первичной структуры (последовательности) биополимера. Применительно к ДНК (или РНК), «отсеквенировать» означает «прочесть» молекулу, то есть — установить последовательность образующих её нуклеотидных оснований. Здесь нужно сделать важный смысловой акцент на прочтении, секвенирование это просто прочтение генома, но не его расшифровка. Этот процесс можно сравнить с процессом воспроизведения неизвестной нам письменности, — мы можем в точности скопировать дискретные знаки письма, и воспроизвести их последовательность, но смысл без криптографической расшифровки нам останется неизвестным. В этой метафоре функцию определения первичной структуры биополимера играет роль автоматического определения знаковых единиц письма, роль биоинформатики — криптографии.

Референсный геном — последовательность ДНК в цифровом виде, составленная учеными как общий репрезентативный пример генетического кода того или иного вида. Вопреки расхожему мифу о триумфальной «расшифровке» генома человека, этот геном не только не расшифрован, но даже еще и не собран полностью. Последняя версия сборки GRChg37 (Genome Reference Consortium human genome 37 или в короткой записи b37), которая представляет собой гаплоидный геном с перемежающимися локусами (т. е. изначально сведенные в одну последовательность аллельные варианты могли располагаться на разных хромосомах, поэтому при сравнении между собой разных сборок всегда можно установить не только расхождение в аллельных вариантах локусов или их физической позиции, но и разницу расположения локусов на хромосомах ). Нужно отметить, что в отличии от геномов реальных людей, референсый геном носит «синтетический характер» — он буквально был собран из геномов 13 разных людей. По состоянию на 2010 год, cуммарная длина расшифрованного генома составляла 3 181 354 029 пар оснований, в составе 329 скаффолдов.  По состоянию на 2010 год в данной сборке имелось 357 пропусков (gaps)  с неизвестной последовательностью, по состоянию на начало 2014 года —  200 пропусков. Референсные геномы человека и мыши поддерживаются и совершенствуются Консорциумом Референсного Генома (Genome Reference Consortium, GRC) — группой менее чем 20 ученых из различных геномных научно-исследовательских институтов, включая European Bioinformatics InstituteNational Center for Biotechnology InformationSanger Institute и Washington University in St. Louis.  Референсный геном имеет практическое значение и для лиц, получившихся данные своего SNP-типирования в коммерческих формах — позиции снипов выравнены по одной из существующих сборок референсого генома (например, в 23andme сейчас используется cборка или билд b37).

Однонуклеотидный полиморфизм, «снип» (SNP, ОНП) — в узком смысле, это однонуклеотидное отличие в последовательности геномной ДНК, встречающееся в исследуемой популяции с частотой более 1%.  Среди любителей ДНК-генеалогии этот термин часто применяется для обозначения всех однонуклеотидных полиморфизмам, например к приватным семейным снипам на Y-хромосоме. Однако в строгом смысле этого слова термин ‘полиморфизм’ применим только к тем вариантам которые встречаются с частотой более 1% .

Genome-wide association study (GWAS) — исследование связи генотипа с различными фенотипическими признаками в масштабе всего генома (прежде всего, наследственными заболеваниями). GWAS выявляет отдельные вариации в ДНК, обусловливающие те или иные заболевания или эффект лекарственных препаратов. Причины практически всех болезней имеют наследственную компоненту, передающуюся от родителя ребенку посредством 3 млрд. пар нуклеотидных остатков, составляющих человеческий геном. Расширение знаний об этих наследственных составляющих должно ускорить разработку новых терапевтических стратегий. Определение генетических факторов, влияющих на здоровье, развитие болезней и ответ на лечение, является ключевым для развития медицины нового поколения, которая будет направленно бороться с патологией при минимальном риске для больного. В исследованиях связей генотипа с различными заболеваниями в масштабе генома ученые сравнивают геномы людей, подверженных болезни (cases), с геномами здоровых людей (controls). Такое сравнение позволяет выявить отличия больных и здоровых на генетическом уровне, даже если эти отличия минимальны.

Секвенаторы «нового поколения» — высокопроизводительные секвенаторы ДНК, не использующие метод терминации цепи Сэнгера и капиллярный электрофорез. Принципы работы приборов различаются от производителя к производителю. Производительность таких секвенаторов на несколько порядков превосходит производительность самых мощных капиллярных приборов и достигает сотен млрд. пар оснований за запуск.

Секвенирование «методом дробовика» (shotgun sequencing) — подход, применяемый при анализе множественных протяженных последовательностей ДНК (геномов, метагеномов, экзомов, библиотек кДНК, наборов ампликонов и т. д.), при котором молекулы ДНК фрагментируются случайным образом на более короткие отрезки, которые затем секвенируются. В случае определения последовательности методом Сэнгера необходимо клонировать каждый фрагмент; в случае секвенирования нового поколения эта необходимость отпадает (что устраняет необходимость клонирования и связанный с этим «перекос» в представленности отдельных фрагментов).

«Рид» (от англ. read) — отдельное прочтение фрагмента ДНК (последовательность нуклеотидных остатков). На мой взгляд это наиболее важное понятие из тех, которые помогают понять суть секвенирования.
Согласно удачному примеру на лекциях П.Певзнера, мы можем сравнить человеческий организм с типографской фабрикой, которая печатает одновременно миллионы копий одного текста (точно также как клетки человека содержат миллионы копий ДНК). В этом случае процесс секвенирования в первом приближении можно сравнить с процессом взрыва на типографской фабрике, после которого вместо копий цельного текста остаются миллиарды мелких обрывков. Эти обрывки и есть образное представление совокупности «ридов». Поэтому перед биоинформатиком встает поистине титаническая задача — собрать из этого невообразимого количества фрагментов  первоначальный текст. На языке биоинформатики это называется ассемблированием геномов (рид->контиг->скаффолд->билд). На практике в этом процессе задействованы алгоритмы из теории графов (Hamiltonian path; Eulerian path и так далее).
Untitled

Ресеквенирование — секвенирование фрагментов ДНК, обобщенная последовательность которых уже известна (в общих чертах), с целью обнаружения индивидуальных отличий конкретного образца.

Секвенирование de novo — расшифровка абсолютно неизвестных последовательностей ДНК, например, генома какого-нибудь нового вида.

Контиг (от англ. contig) — набор перекрывающихся последовательностей ДНК-фрагментов, полученных из одного биологического источника (организма, ткани, клетки). Контиги получаются из прочтений фрагментов геномных или суб-геномных библиотек при секвенировании «методом дробовика».

Скаффолд (от англ. scaffold, «строительные леса») — промежуточная неполная структура секвенируемой последовательности, помогающая сборке ее полной версии. По сути, это серия контигов, расположенных в правильном порядке, но необязательно соединенных в одну непрерывную последовательность.

Дилемма Платона в свете генетических алгоритмов

В истории хорошо известно описание демографической политики идеального государства в описании философа Платона. В своей краткой форме, описание можно свести к евгенической программе, формулировка которой содержится в трактате «Государство». На некоторых празднествах невест и женихов будут соединять, как их учат верить, якобы по жребию в таком количестве, которое необходимо для сохранения постоянной численности населения; но на самом деле правители города будут производить манипуляцию с жребиями, исходя из евгенических принципов. Они будут устраивать так, чтобы лучшие производители имели больше всего детей. Все дети будут после рождения отбираться у своих родителей, и будут приняты серьезные меры предосторожности, чтобы родители не знали, которые дети являются их детьми, а дети не должны знать, кто их родители. Детей с физическими недостатками и детей худших родителей «станут скрывать как следует в тайном и неизвестном месте».В конце 20 века биологические идеи, отдаленно напоминающие воззрения Платона, получили свою формальную реализацию в виде так называемых генетических алгоритмов. Краткое описание основных положений теории генетических алгоритмов приведено по материалам сайта «Искусственный интеллект», а также с использованием монографии Панченко «Введение в генетические алгоритмы».

Селекция – это выбор тех хромосом, которые будут участвовать в создании потомков для следующей популяции, т.е. для очередного поколения. Такой выбор производится согласно принципу естественного отбора, по которому наибольшие шансы на участие в создании новых особей имеют хромосомы с наибольшими значениями функции приспособленности. Существуют различные методы селекции.

Рассмотрим их.

Основанный на принципе колеса рулетки (жребии) метод селекции считается для генетических алгоритмов основным методом отбора особей для родительской популяции с целью последующего их преобразования генетическими операторами, такими как скрещивание и мутация. Несмотря на случайный характер процедуры селекции, родительские особи выбираются пропорционально значениям их функций приспособленности: каждой хромосоме сопоставлен сектор колеса рулетки, величина которого устанавливается пропорциональной значению функции приспособленности данной хромосомы, поэтому, чем больше значение функции приспособленности, тем больше сектор на колесе рулетки. Отсюда вытекает, что чем больше сектор на колесе рулетки, тем выше шанс, что будет выбрана именно эта хромосома. Слабая сторона этого метода заключается в том, что особи с очень малым значением функции приспособленности слишком быстро исключаются из популяции, что может привести к преждевременной сходимости генетического алгоритма. Кроме того, особенности алгоритма не исключают варианты, в которых потомство субоптимальных особей достигает оптимума в следующиъ поколениях. В связи с вышесказанным, созданы и используются альтернативные алгоритмы селекции.

Турнирная селекция

При турнирной селекции все особи популяции разбиваются на подгруппы с последующим выбором в каждой из них особи с наилучшей приспособленностью. Различаются два способа такого выбора: детерминированный выбор и случайный выбор. Детерминированный выбор осуществляется с вероятностью, равной             1            , а случайный выбор – с вероятностью, меньшей 1. Подгруппы могут иметь произвольный размер, но чаще всего популяция разделяется на подгруппы по 2-3 особи в каждой.

Турнирный метод пригоден для решения задач как максимизации, так и минимизации функции. Помимо того, он может быть легко распространен на задачи, связанные с многокритериальной оптимизацией, т.е. на случай одновременной оптимизации нескольких функций. В турнирном методе допускается изменение размера подгрупп, на которые подразделяется популяция. Исследования подтверждают, что турнирный метод действует эффективнее, чем метод рулетки.

На рисунке ниже представлена схема, которая иллюстрирует метод турнирной селекции для подгрупп, состоящих из двух особей. Такую схему легко обобщить на подгруппы большего размера.

 

Ранговая селекция

При ранговой селекции особи популяции ранжируются по значениям их функции приспособленности. Это можно представить себе как отсортированный список особей, упорядоченных по направлению от наиболее приспособленных к наименее приспособленным (или наоборот), в котором каждой особи приписывается число, определяющее ее место в списке и называемое рангом. Количество копий каждой особи, введенных в родительскую популяцию, рассчитывается по априорно заданной функции в зависимости от ранга особи. Пример такой функции может быть следующий график.

 

Достоинство рангового метода заключается в возможности его применения как для максимизации, так и для минимизации функции.

Существуют различные варианты алгоритмов селекции. Представленные выше методы (рулетки, турнирный и ранговый) применяются чаще всего, но существуют так называемые особые процедуры селекции: элитарная стратегия и генетический алгоритм с частичной заменой популяции.

Элитарная стратегия заключается в защите наилучших хромосом на последующих итерациях. В классическом генетическом алгоритме самые приспособленные особи не всегда переходят в следующее поколение. Это означает, что новая популяция не всегда содержит хромосому с наибольшим значением функции приспособленности из предыдущей популяции. Элитарная стратегия применяется для предотвращения потери такой особи. Эта особь гарантированно включается в новую популяцию.

Генетический алгоритм с частичной заменой популяции, иначе называемый генетическим алгоритмом с зафиксированным состоянием, характеризуется тем, что часть популяции переходит в следующее поколение без каких-либо изменений. Это означает, что входящие в эту часть хромосомы не подвергаются операциям скрещивания и мутации. Часто в конкретных реализациях алгоритма данного типа на каждой итерации заменяются только одна или две особи вместо скрещивания и мутации в масштабе всей популяции.

 

Три предковые группы европейцев

Получивший широкой резонанс в среде профильных профессиональных популяционных генетиков и простых любителей препринт статьи Lazaridis et al. 2013 содержит огромное количество важных наблюдений и заключений насчет происхождения и эволюции структуры генофонда современных европейцев. Объективности ради стоит отметить, что наверное не менее половины выводов вышеупомянутой статьи были озвучены ранее персональными геномными блоггерами в ходе более ранних самостоятельных экспериментов и анализов древней ДНК.  Но важность статьи Lazaridis et al. 2013, конечно же, в другом. В ней приводятся новые данные ( результаты изучения древнего ДНК) ряда доисторических популяций групп людей Европы. В частности, были приведены результаты изучения древнего ДНК мезолитических европейских охотников-собирателей из Люксембурга, чьи мтДНК были опубликована несколько лет назад; результаты генотипирования неолитического образца ДНК неолитического земледельца из Германии: наконец, препринт статьи содержал данные сразу по  нескольким мезолитическим охотникам-собирателей из Швеции.

По раскладу своих предковых компонентов, люксембургский образец похож на образцы  La Brana (иберийский палеолит). В свою очередь,  ДНК шведов периода мезолита похожа на ДНК шведских неолитических охотников-собирателей. Аналогично, структура предковых компонентов у неолитического земледельца напоминает распределение компонентов у тирольского ледового человека Этци, шведского неолитического земледельца культуры воронковидных кубков и современного населения Сардинии. Недавно опубликованный  верхнепалеолитический образец жителя стоянки Мальта (Прибайкалья), авторы относят к  отдельному генетическому супер-компоненту, который  в статье именуется  «компонентом древнего северо-евразийского населения», Согласно наиболее вероятной из обсуждаемых в статье моделей, носители этого компонента смешались с западными евразийцами  еще до того, как носители мезолитического европейского компонента смешались с неолитическими земледельцами с ближнего Востока.

Как я отмечал ранее, очевидность результатов вряд ли нуждается в отдельных комментариях.  Положение индивидов по степени их сходства (выраженного посредством параметра z D-статистики)  относительно условной оси на одном конце которых находятся южные европейцы, на другом — северные европейцы. Шведские сэмплы древнего ДНК времен мезолита и пост-мезолитической (переходной к неолиту) культуры ямочной керамики Готланда сдвигаются в сторону северных европейцев (представлены референсной популяцией литовцев).  Примечательно, что в ту же стороны сдвигаются и представители иберийско-испанского мезолита (образцы La Brana 1 и La Brana 2).
Образцы древнего ДНК представителей культуры воронковидных кубков, Эци Тирольца закономерно смещаются к другому полюса спектра — южным европейцам (которые представлены сардинцами).

PCA график дает отличное представление о соотношении различных компонентов:

europe

 

 

 

model

Таким образом, костяк европейского генофонда образован за счет сочетания трех компонентов:

мезолитические охотники-собирателей Европы (WHG) + древние северо-евразийские популяции между Уралом, Центральной Азией и Сибирью (AHE) + неолитический компонент (генетически связанный с ближневосточными земледельцами EEF).

 

Поскольку в нашем случае мы имеем три исходных компонента, то любая европейская популяция может быть представлена в виде тримодального распределения этих компонентов. Визуализация этого распределения достигается путем отображения популяций внутри треугольника (каждый из углов которого представляет собой отдельный чистый предковый компонент). Таким образом мы можем отображать не только группы людей (т.е популяции), но и отдельных современных индивидов с генотипированными снипами. При визуальном изучении расположения популяций внутри треугольника, мы можем отметить cмещение спектра разнообразия в сторону предкового компонента неолитических земледельцев (EEF). Это наблюдение еще раз подтверждает насколько важным событием для эволюции и развития европейского генофонда являлась  неолитическая революция. Она принесла с собой не только технологические изменения, но и перемены в генофонде тогдашних европейцев. Однако если быть более точным, то нет никаких сомнений в том что компонент EEF аккумулирует в себя не только генофонд первых европейских земледельцев, но и остаточный момент от смешения этого компонента с представителями четвертого компонента («базальных евразийцев»).

admixture

Выявленные предковые компоненты отличаются значительной дискретностью, и в своем чистом виде практически не перекрываются. Именно по этой причине именно эти компоненты (а не общепринятые ныне в аутосомных исследованиях попгенетиков  этногеографические компоненты) могут использоваться в качестве неколлинеарных факторов в анализе эволюции генофонда отдельных народов.

  1. Компонент западноевропейских охотников-собирателей мезолита ( WHG ): метапопуляция этого компонента включает в себя образец Loschbour (мезолитический Люксембург, 8000 лет до настоящего времени) и два мезолитических образца древнего ДНК людей из пещеры La Brana в Испании. Тем не менее, в настоящий момент своего пика WHG (почти 50%) достигает среди эстонцев и литовцев , на востоке Балтийского региона. В этом смысле эти популяции являются наследниками древнейших жителей мезолита Европы. К этой группе примыкает группа шведских неолитических популяций  (скандинавские охотники-собиратели (SHG ) : эта мета- субпопуляция состоиь из шведских мезолитических и неолитических образцов ДНК из Моталы и Готланда , соответственно. Судя по всему, здесь мы имеем дело с  более восточным вариантом WHG , с небольшой примесью генов от древних северо-евразийских популяций.

Удельная доля компонента WHG в генофонде популяций по мере убывания  (градиент убывания в направлении с северо-запада на юго-восток Европы).

Эстонцы 0,495
Литовцы 0,464
Исландцы 0.456
Беларусы 0,431
Норвежцы 0,428
Испанцы 0,068
Греки 0,058

Мальтийцы 0
Ашкенази 0
Сицилийцы 0

  1. Компонент ранних европейских земледельцев (EEF) : по всей видимости, это гибридный компонент являющийся  результатом смешивания части загадочных «базальных евразийцев» и носителей компонента WHG где-то в Европе, возможно, на Балканах. Метапопуляция EEF в чистом виде представлена у представителя линейно-ленточной керамики  (Штутгарт, Германия), Этци Тирольского человека, и неолитического земледельца культуры воронковидных кубков. В наше время пик это компонента  приходится на Сардинию, Сицилийцев, ашкеназов и жителей Мальты (примерно 80-90%).

Удельная доля компонента EEF в генофонде популяций по мере убывания  (градиент убывания частоты направлен в сторону обратную WHG, т.е с юго-востока Европы на северо-запад, однако градиент выражен гораздо менее четко).

Мальтийцы 0,932
Ашкеназим 0,931
Сицилийцы 0,903
Сардинцы 0,817
Испанцы 0,809
Норвежцы 0,411
Исландцы 0,394
Шотландцы 0,39
Литовцы 0,364
Эстонцы 0,322
3. Компонент древних северо-евразийцев ( ANE ): метапопуляция компонента включает в себя   24000 летний верхне-палеолитический образец охотника-собирателя из южно-центральной Сибири, принадлежащий к Y- ДНК гаплогруппе R *, (MA -1), а также  верхнепалеолитический образец из центральной Сибири (Афонтова Гора -2) ( AG2 ). Этот компонент мог вероятно присутствовать в Южной Скандинавии по крайней мере со времен мезолита, но Западной Европы  достиг уже в конце эпохи неолита. В современной Европе самый высокий процент это компонента наблюдается у эстонцев (на уровне чуть более 18%), и  достигает такого же уровня среди шотландцев.

Эстонцы 0,183
Шотландцы 0,182
Венгры 0,179
Литовцы 0,172
Чехи 0,167
Итальянцы из Бергамо 0,108
Сицилийцы 0,097
Ашкеназим 0,069
Мальтийцы 0,068
Сардинцы 0,008

Сводная таблица по раскладу компонент у отдельных популяций  и их формальной статистической значимости (f3-статистика):

q1is

Эпилог

В апреле и мае 2012 года (задолго до появления статьи Lazaridis et al. 2013), в ходе изучения структуры кластеров компонентов в древних ДНК (чьи SNP-данные были тогда у меня в наличии). В ходе анализа Admixture  K=3 программа дала интересное распределение по современным популяциям и древним образцам. Как видно из географического распространения, кластер-метопапуляции готландских охотников-собирателей/ мезолита и современных саамов в значительной части перекрывается с ареалом современного пика компонентов мезолитических охотников-собирателей. Неолитический (средиземноморский) компонент совпадает с ареалом компонента EEF. Наконец, контуры ареал компонента который я ошибочно обозначил как Corded Ware Indo-European, практически перекрываются контурами ареала ANE (пик которого, как отмечалось выше, приходится на популяции шотландцев и эстонцев).

admixture-3

K3-Admixture

 

.

Происхождение гаплогруппы I2a и путь миграции ее носителей в Европе (часть 2)

Еще в 2010 году я пробывал спроецировать итоги дискуссии о «начале гаплогруппы I» (Молген), а  также возраста гаплогрупп I1,I2a1,I2a2,I2b1,I2b2* (рассчитаные Кеном Нордтведтом)  на археологическую карту Европы эпипалеолита и раннего мезолита.
*——
С 2010 года ISOGG-номенклатура субклад гаплогруппы I поменялась. Я не стал вносить изменения в ранее сделанную карту, однако в целях синхронизации предыдущих своих наработок с современной номенклатурой нужно отметить что I1,I2a1,I2a2,I2b1,I2b2 в современной номенклатуре называются I1,I2a1a,I2a1b,I2a2a,I2a2b.

Карта строилась из предположения о моногаплогрупности Европы в палеолите. Это минимальное допущение — но возможно, что оно методологически
неверно. Во-первых, теоретически в Европе периода палеолита могло быть больше гаплогрупп, а в пределах I -больше «гипотетических субкладов»**.

**————

Данные статьи Lazaridis et al. 2013.  содержат убедительную аргменты в пользу существования в структуре I потерянных I* cубклад. В частности два образца с мезолитической стоянки Motala (Motala 2 и Motala 9) были определены как I*.
Если первое кажется маловероятным (т.к. если гаплогруппа I осталась в Европе, почему не остались другие), то второе заключение о большем разнообразии гаплогруппных субкладов кажется логичным.Тем не менее, ответ можно узнать только после анализа древних Y-ДНК.

Вот что примерно получилось.

Главнывывод, наверное, следущий -наибольшое разнообразие субкладов было в «Атлантидемезолитической Европы» — Доггерланде, на котором, видимо, находился эпицентр круга целого ряда мезолитических культур Маглемозе. Почему именно там? Около 8000 г. до н. э. северное побережье массива суши, Доггерленд, представляло собой береговую линию с лагунами, болотами, приливными берегами и пляжами. Возможно, в эпоху мезолита этатерритория была богатейшей в Европе с точки зрения охоты, добычи птицы и рыболовства ( Vincent Gaffney, «Global Warming and the Lost European Country»;
Patterson, W, «Coastal Catastrophe» (paleoclimate research document), University of Saskatchewan).

Следовательно, принимая во внимание богатство экологических ресурсов, охотники и рыболовы позднего палеолита и мезолита должны были стекаться туда в большем количестве. Доггерланд погрузился под воду в результате гигантского оползня Стурегга (когда от Норвегии откололся кусок побережья объемом 3 000 куб.кум) или вызванного оползнем цунами около 8200 лет назад (6200 г. до н. э.). Это отрезало мезолитические культуры Британских островов и часть популяции субклада I2a2a от континента. Что интересно — по расчетам Нордведта точка коалисценции (схождения генетических линий субклад
I2a2a-Isles***) составляет как раз примерно 8 000 лет до нашего времени.

***___________

В номенклатуре ISOGG I2a1b2. Isles — условное название кластера, представленного главным образом на Британских островах.

Представляю читателю результаты проекции гипотетических ареалов субклад I на карту Европы эпохи финального палеолита и мезолита.

Археологические культуры обозначены следующим образом:

1 — маглемозе (по Г. Кларку); 2 -аренсбургская; 3 — свидерская; 4 — тьонгер; 5 — рёссен; 6 — федермессер; 7 -ларнийская; 8 — обанская; 9 — крезвельская; 10 — фосна; 11 — комса; 12 -суомусярве; 13 — аскола; 14 — кунда; 15 — днепро-деснинская; 16 — верхнедонская;17 — волго-окская; 18 — днепро-донецкая; 19 — астурийская; 20 — раковинных куч устья р. Тахо; 21 — тарденуазская; 22 — советеррская; 23 — микролитические памятники Прованса; 24 — азильская; 25 — эпиграветт; 26 — альпийская; 27 -чешско-тюрингский мезолит; 28 — типичная капсийская; 29 — капсийская и иберо-мавританская; 30 — мезолитические памятники испанского Леванта

Источник (исходник) карты: Археология Западной Европы. Каменный век., Монгайт А.Л.

Субклады I и Европа в эпоху финального палеолита и мезолита
Европа в эпоху финального палеолита и мезолита

О пользе биоинформатики

Известный научно-популяризаторский портал Postнаука разместил интересную лекцию-беседу генетика Константина Северинова и биоинформатика Михаила Гельфанда о том, какие научные задачи помогает решать биоинформатика и как она взаимодействует с «мокрой» биологией.

Genetics and Evolution — приложение для обучения генетике под Iphone

Первые выпускники курса генетики на  Coursera создали полезное приложение для абитуриентов. Приложение позволяет проверять знание базовых понятий генетики, а также включает полезные калькуляторы для определение частот генотипов и пр.

Why Build an App?.

О генетике древних жителей Сибири и многом другом

Несмотря на данное самому себе обещание регулярно обновлять этот блог, по независящим от меня причинам мне пришлось на время отойти в сторону и заняться другими более приоритетными делами на работе и в университете (где, как я надеюсь, мне предстоит защищать докторскую). К несчастью, время вынужденного бездействия пришлось на тот период, когда были опубликованы ряд интересных научных работ как в области популяционной генетики (ряд исследований по Y-хросомомным и митохондриальным группам, а также аутосомам значительного числа народностей), биоинформатики (метод фильтрации ложнопозитивных IBD (идентичных по происхождению) сегментов генома) и других областях. C другой стороны, наблюдается расширение технологических методов и способов генотипирования, предлагаемых коммерческими фирмами конечным пользователям, которых интересуют генетические аспекты своего происхождения и медицинские риски. Все это заслуживает самого пристального внимания, удилить которого у меня сейчас никак не получается.
В силу ограниченности времени и ресурсов, я решил сфокусировать свое внимание на новости касающейся лично меня, вернее, результатов моих исследований. Речь идет о публикации одного из новых геномных блоггеров (кодовое имя — genetiker) под названием K = 26 admixture analysis of Amerindians and Mestizos. В своей  пространной статье и спорных выводах автор приводит целую серию аргументов (от генетики до антропологии) в пользу одной из альтернативных версий, предпологающих европейское происхождение части америндов. Впрочем, важным мне представляется не аргументирование одной из возможных теорий происхождения индейцев и Y-гаплогруппы Q, а упоминание в этом контексте результатов моих исследований в проекте MDLP. Но перед тем как привести здесь цитату из статьи, следует вспомнить и о другом курьезном случае, связанном с обсуждением результатов исследования ДНК останков мальчика из доисторической стоянки палеолита в Мальте (Иркутская область) в блоге Германа Дзибеля. Г-н Дзибель в явной попытке показать свою вхожесть в круги наиболее посвященных популяционных генетиков, сообщил по секрету, что 1) Y-хромосома мальчика принадлежит к гаплогруппе R, а его митохондриальная группа — U; 2) аллельные компоненты генома мальчика условна разделяются на три составные части — западноевразийский, америндский и юго-центрально-азиатский. Как я отмечал ранее, в своем анонсе бета-версии своего этно-популяционного калькулятора MDLP World K27, расклад компонентов в генома древнего населения стоянки Мальта можно представить в виде следующих комбинаций современного населения:

[2,] “33.7% Brahui + 66.3% Udmurd” “21.9804″
[3,] “34.5% Makrani + 65.5% Udmurd” “22.357″
[4,] “34.3% Balochi + 65.7% Udmurd” “22.413″
[5,] “33.3% Sindhi + 66.7% Udmurd” “24.1198″
[6,] “36.5% Burusho + 63.5% Udmurd” “24.211″
[7,] “39.7% Pashtun + 60.3% Udmurd” “24.3389″
[8,] “34.3% Pathan + 65.7% Udmurd” “24.716″
[9,] “32.2% Pakistani + 67.8% Udmurd” “24.753″
[10,] “41.4% Tadjik + 58.6% Udmurd” “24.852

«The MDLP World-22 analysis produced a Cro-Magnon Nordic component (“North-European-Mesolithic”) and an Aryan Nordic component (“North-East-European”). The only people today in which the Cro-Magnon component is modal are Lapps. They have 76.4% of the Cro-Magnon component and 15.5% of the Aryan component.

One of the distinctive characteristics of Cro-Magnon cranial morphology is the short face, as can be seen in the drawing of a Cro-Magnon skull below.The same distinctive short face can be seen in these photographs of Lapps .»

Перевод » В  произведенном в проекте MDLP анализе World-22 был выявлен характерный для кроманьонцев северный компонент (« компонент северо-европейского мезолита ») и арийскйй северный компонент (« северо-восточно-европейский компонент »). Единственная группа людей, которые сегодня наиболее близки к чистым кроманьонцам это саами-лопари. Они имеют 76,4% кроманьонского компонента и 15,5% арийского компонента.

Одной из отличительных характеристик  черепной морфологии  является короткое лицо, как это можно видеть в традиционных изображениях кроманьонских черепов. Tот же самый отличительный признак — короткие лицо — можно часто увидеть и на фотографиях лопарей ».

О вечной репродуктивной жизни и решении экономической проблемы глазами ведущих генетиков

В качестве эпиграфа

— Хорошо, послушай аргументы. Слыхал ли ты легенду о Филемоне и Бавкиде? Так вот, это была самая верная супружеская пара среди людей, и боги даровали им счастье умереть в один день, а после смерти превратили их в дуб и липу. Ромеро собрал все данные о Филемоне и Бавкиде и предложил Справочной просчитать их взаимное соответствие. Угадай, сколько получилось? Восемьдесят семь, на шесть сотых меньше, чем у тебя, чудак! Ты должен петь от радости, а не печалиться!

Герберт Уэллс «Люди как боги».

В этом очерки мы поговорим о интересных перспективах которая открывает нам генетика старения и новые репродуктивные технологии. В качестве примера, обратимся к насущной и злободневной темы касающейся целого спектра проблем, связанных с ЭКО (экстракорпоральным оплодотворением) и суррогатным материнством. Проблема получила свое широкое освещение в средствах массовой информации в связи с недавним благополучным разрешением экстракорпоральным бременем четы А.Пугачевы и Максима Галкина. Очевидно, что речь идет о интересном случае физиологического читерства, то есть обмана определенных процессов природы. Поскольку вопрос о легитном воспроизводстве ооцитов (яйцеклеток) у А.Пугачевой снимается в хотя бы в силу почтенного возраста, то на основании скупых фактов выданных в СМИ можно было предварительно выдвинуть две гипотезы.

Гипотеза A. При зачатии (образовании зиготы) была использована яйцеклетка А.Б, заблаговременно сданная на хранение в репродуктивный репозиторий сильных мира сего. Эта гипотеза, хотя и не столь интересная, косвенно подтверждала мою интуиционистскую догадку о популярности подобных учреждений у известного круга лиц. Но, в отличие от своих предшественников Онанисов и Кеннеди из 70-ых годов прошлого века, замораживавших себя в криокамерах в надежде на свое личное бессмертие, современные представители haute societe замораживают свои герминальные клетки, обеспечивая себя репродуктивным бессмертием. С научной зрения, последнее более разумно, т.к можно становится родителями в любом возрасте — хоть в 60, хоть в 100 лет.

Гипотеза B. Это более интересная гипотеза, но она отсылает к сомнительным с этической и технической точки зрения технологиям, основанных на принципе переноса генов реципиента и внедрения их в (геном) клетки донора. То есть геном донорской клетки был заменен на геном А.Б. Но насколько мне известно такие методики неизвестны, по-крайней мере широкой общественности. Да, технология генных векторов существует давно, но направлены они именно на модификацию отдельных генов, что несоизмеримо проще. Хотя как показали последние эксперименты, она вполне применима к приматам, в том числе и человеку. В настоящее время эффективные методы изменения генома человека находятся на стадии разработки и испытаний на приматах. Долгое время генетическая инженерия обезьян сталкивалась с серьёзными трудностями, однако в 2009 году эксперименты увенчались успехом: в журнале Nature появилась публикация об успешном применении генноинженерных вирусных векторов для исцеления взрослого самца обезьяны от дальтонизма. В этом же году дал потомство первый генетически модифицированный примат (выращенный из модифицированной яйцеклетки) — игрунка обыкновенная.

С этой темой — темой интервенции в цикл развития и угасания репродуктивных функции — связан более широкий круг вопросов касающихся интервенции в сам процесс старения — универсальный биологический процесс угасания и деградации функций (потери функциональности) и систем человеческого тела.  Совсем недавно портал Постнаука разместил интересную лекцию биоинформатика Жаронкова. В этой лекции г-н Жаронков имплицитно, то есть неявным способом, в скрытом подтексте своей (в целом) замечательной лекции указывает на прямую связь между решением проблемы старения человека (возрастного кризиса) и глобального экономического кризиса.  Наряду с чисто техническими аргументами генетики (увеличение продолжительности жизни у немотод и дрожжей в 10-15 раз), биогеронтологии  и медицины, автор приводит чисто экономические аргументы:

Насколько мы знаем, если людям что-то дать, потом этого уже не отнимешь. Такого концепта как пенсия до 1887 года, до того, как Отто фон Бисмарк принес это нововведение, эту финансовую инновацию в общество, не существовало. Никто даже не мог себе представить, что люди когда-либо выйдут на пенсию. В США эта концепция была принята в 1930-х годах. Но за восемьдесят лет люди настолько к этому привыкли, что начали считать, что государство им что-то должно. Любое изменение в текущей структуре они понимают как государственную измену и начинают против этого выходить на улицы, бастовать. Хотя государство этого хочет не просто так — государству это нужно для того, чтобы сбалансировать экономику.

Интересно так же отметить упоминание инновационной технологии интервенции в геном — РНК-интерференция. Это «технология, которая позволяет использовать очень небольшие кусочки ДНК или РНК. В зависимости от того, как их доставлять и упаковывать, что будет с ними дальше происходить, мы сможете снижать экспрессию каких-то определенных генов.»

Аналогичные мысли были озвучены и другим исследователем — биофизиком Петром Федичевым в краткой аннотации лекции про старение дрожжей и безопасности лечения старости

О понятиях ДНК-генеалогии и популяционный генетики (продолжение)

Несколько месяцев тому назад я писал в этом блоге о некоторых основных понятий ДНК-генеалогии и популяционной генетике (нужно помнить о том, что хотя множество терминов ДНК-генеалогии и перекрывается в основной своей части множеством терминов ДНК-генеалогии, все же отношения между двумя типами терминов далеки от строгой семантической эквивалентности, или говоря языком математической логики, от конгруэнции).

К моему удивлению, несмотря на огромные объемы написанного на тему разъяснительного и пояснительного материала, споры и непонимание  продолжают сопровождать даже столь краеугольные понятия, как гаплотип.
Обиднее всего, что объеме или экстенсионале этого ключевого понятия,  продолжают путаться не только новички, но и маститые корифеи ДНК-генеалогии, многие из которых пришли в ДНК-генеалогию задолго до меня.
Например, один из уважаемых мною деятелей пишет:

Гаплотип все-таки характеризует гаплоидные наборы аллелей, т.е. только Y-хромосому, и мтДНК. Аутосомные наборы являются парными, т.е. диплоидными. Термин «диплотип» я не встречал. Скорее, для аутосом уместен термин «диплоидный набор аллелей». Здесь нет разницы, какие аллели рассматриваются: STR-повторы или однонуклеотидные аллели. В отношении гаплотипов я придерживаюсь мнения, что в широком смысле под гаплотипом надо понимать всю совокупность аллелей Y-хромосомы или мтДНК каждого отдельного лица. У каждого человека — свой гаплотип и свой диплоидный набор. Просто из-за сложностей и ограничений в определении всей цепочки, например, Y-хромосомы мы видим только очень маленькую часть всего гаплотипа.

Написанное выше не является точным определением понятия гаплотип.

Как известно из энциклопедии, гаплотип (сокр. от «гаплоидный генотип») совокупность аллелей на локусах одной хромосомы, обычно наследуемых вместе. Если же при кроссинговере комбинация аллелей меняется (что происходит очень редко), говорят о возникновении нового рекомбинантного гаплотипа.  Применение этого термина для описания совокупности аллелей на Y-хромосомы и совокупности аллелей в митохондриальном геноме совершено мотивированно хотя бы уже в силу того, что аллели на локусах нерекомбинантной части Y-хромосомы  и митохондриона наследуются в  гаплоидной форме, то есть только от одного родителя. В то время как генотип определенных (prima facie аутосомных генов) диплоидной особи состоит из двух гаплотипов, расположенных на двух хромосомах, полученных от матери и отца соответственно.

Полагаю, что вышеприведенная информация не нуждается в пояснении, хотя бы уже в силу своей интуитивной ясности и общеизвестности. Гораздо важнее то, что я напишу сейчас. На самом деле, приведенный выше термин «диплоидный набор аллелей» — не совсем удачен, так как вызывает у новичка ложные ассоциации.  С другой стороны, термин-сокращение диплотип ( сокр. от диплоидный генотип) практически не прижился  не только в русскоязычной, но и в англоязычной терминологии. Это подтверждает анализ литературы в Google Books Ngram Viewer.

Untitled 

Вместе с тем не стоит путать понятия «диплоидный генотип (набор аллелей)» с понятием  «генотипом» в собственном смысле этого слова. Ибо диплотип определяется как пара гаплотипов (разумеется, у диплоидного организма каковым и является человек) с известной фазой, в то время как в генотипе фаза неизвестна.


Здесь мы должны вспомнить о понятии фазы в генетике, и о процессе фазирования, о котором я уже неоднократно упоминал в своем блоге.
Вопреки распространенному ложному мнению, фазирование это отнюдь не абстрактно-отвлеченное, лишенное практического биологического смысла, упражнение в математической эквилибристике. Напротив, задача фазирования (или если хотите, установление фазы) генотипа крайне проста — определить какой гаплотип был унаследован от отца, а какой от матери, ибо и мужская гамета-сперматозоид, и женская гамета-яйцеклетка несут гаплоидный набор аллелей или гаплотип. И только при оплодотворении (образовании зиготы) слияние двух гаплотипов образует диплоидный генотип/диплотип (в случае с неполовыми хромосомами).

Разумеется, сразу же встает вопрос, а как практически использовать эти новые знание для определения своего диплотипа на примере данных 23andme, то есть как определить какая часть досталась в виде аутосомного гаплотипа от отца, а какая — от матери.

При ответе на ответ вопрос будет полезно рассмотреть следующие ложное суждение, принадлежащего на этот раз новичку.

«совокупность снипов с 23эндМи» является гаплотипом. Однако это SNP-гаплотип, а не STR-гаплотип. Ценность второго в том, что он имеет большую информационную насыщенность для анализа на более коротких генеалогических дистанциях.

 

Это абсолютно неверное предположение (если только автор не имеет ввиду исключительно Y хромосомные SNP-ы). Если речь идет о всех снипах 23andme, то с автором нельзя согласиться.  Дело в том, что процедура типирования снипов в чипсетах построена таким образом, что по получаемым в виде «совокупности снипов» данным невозможно сказать, какой именно из аллельных вариантов входит в состав материнского, а какой отцовского гаплотипа.  Об этом я уже писал несколько раз в блоге, поэтому не буду повторяться еще раз.  Именно по этой причине, без возможности определить фазу генотипа, нельзя утверждать о том, что данные «совокупности снипов» (выдаваемые клиенту в виде RawData, т.е перечня снипов с аллельными вариантами клиента) представляют собой диплотип. А поскольку диплотип есть пару гаплотипов с известной фазой, то тем паче «совокупность аллелей»от 23andme не может быть гаплотипом

Итак, из сказанного постулируется очевидный вывод о том, что приведенные выше цитаты с умозаключениями как чайника, так и корифея представляются неточными.

Хотя, конечно же, причина сей весьма досадной терминологическая оказии совершенно очевидна.
Терминология ДНК-генеалогия (по крайней мере в том виде, в котором она получила свое развитие в русскоязычных около-научных кругах) существенна упрощена в сравнении с генетикой, и самый термин гаплотип используется в ней только  in sensu strictissimo (в самом узком смысле), применительно только к так называемым Y (хромосомным )-STR гаплотипам. Именно этот тип гаплотип обычно и подразумевают ДНК-генеалоги, говоря о гаплотипе в своем узком кругу.  Но нужно помнить что семантическое поле понятия гораздо шире, и охватывает в себя различные классы референциального употребления. Так, в зависимости от контекста, это понятие  может обозначать не только Y-STR, но и многое другое — от аутосомных STR и митохондриального гаплотипа до целых хромосом и даже генома. Бывают и совсем уникальные варианты применения термина гаплотип, когда он описывают гетерогенную систему генетических маркеров, одна часть которых была определена классическим серологическим способом, а другая — новейшими методами ДНК-диагностирования (наилучший пример таких систем —  HLA гаплотип):

Гены HLA находятся на 6-й хромосоме . Совокупность генов HLA, лежащих на одной хромосоме, называют гаплотипом HLA а на обеих хромосомах — генотипом HLA .

Поскольку наследование гаплотипов HLA подчиняется законам Менделя, вероятность совпадения генотипов HLA у братьев и сестер составляет 25%. Однако следует учитывать, чтокроссинговер (обмен гомологичных хромосом участками во время мейоза) с однопроцентной вероятностью приводит к образованию нового гаплотипа HLA.

Отдельный кластер генов MHC обозначается как «гаплотип» и обычно наследуется весь целиком как отдельный менделевский признак; гены, входящие в его состав, выявляются при кроссинговере. Гены HLA наследуются кодоминантно и передаются потомству двумя блоками — по одному от каждого родителя ( рис. 17.1 ). Такой блок носит название гаплотипа HLA. Частота рекомбинаций внутри гаплотипа HLA составляет около 1%, в материнской хромосоме она несколько выше. Ребенок наследует по два аллеля каждого гена HLA: один из материнского гаплотипа, другой — из отцовского. Если удается выявить лишь одну аллельную форму какого-нибудь антигена HLA, это означает, что носитель гомозиготен по данному аллелю или в типирующем наборе нет сыворотки для определения другой аллельной формы антигена. Гаплотип HLA можно установить лишь при анализе наследования генов HLA в семье.

Еще раз о древней ДНК доисторических жителей Европы

В конце сентября на сервере университета Уппсалы была размещена крайне интересная диссертация шведского ученного Понтуса Скоглунда, имя которого уже несколько раз упоминалась в контексте исследования аутосомного генофонда древнейших жителей Европы, например в моих анализах «геномов» представителей культур ямочной керамики и воронковидных кубков. Хотя работа Скоглунда и  написана на высоком научном уровне, язык ее достаточно прост для понимания (по крайней мере тем, кто занимался практическим анализом аутосомных компонентов древних жителей Европы). С технической стороны, работа Скоглунда интересна прежде всего разработкой особого биоинформатического подхода, позволяющего удалить следы загрязнения древнего ДНК фрагментами ДНК современных людей. Но поскольку метод подробно описан в самой диссертации, мы не будем вдаваться в детали.

С нашей точки зрения гораздо интереснее факт включения в диссертацию результатов анализа древнего ДНК доисторических европейцев. Как справедливо отметили в своих комментариях геномные блоггеры Понтикос и Веселовский,  набор данных по древней ДНК в диссертации намного шире и больше, чем в пилотной статье Скоглунда в журнале Science. Во-первых, включены дополнительные данные по другим останкам шведских неолитических охотников-собирателей — представителей культуры ямочной керамики Готланда (общий код Ajv) и представителей шведской неолитической земледельческой культуры воронковидных кубков (общий код Gok). Во-вторых, в исследование включен еще один интересный образец древнего ДНК, принадлежащего представителю шведского мезолита, чьи останки были обнаружены в пещере Stora Förvar на острове Stora Karlsö в балтийском море. 

Результаты исследования генетической аффиности (схожести) вышеупомянутых образцов древнего ДНК и ДНК современных популяций с помощью разработанной доктором Райхом D-статистики, были сведены в одну показательную таблицу.

skoglund
 Очевидность результатов D-статистики вряд ли нуждается в отдельных комментариях.  Положение индивидов по степени их сходства (выраженного посредством параметра z D-статистики)  относительно условной оси на одном конце которых находятся южные европейцы, на другом — северные европейцы.
Шведские сэмплы древнего ДНК времен мезолита и пост-мезолитической (переходной к неолиту) культуры ямочной керамики Готланда сдвигаются в сторону северных европейцев (представлены референсной популяцией литовцев).  Примечательно, что в ту же стороны сдвигаются и представители иберийско-испанского мезолита (образцы La Brana 1 и La Brana 2).
Образцы древнего ДНК представителей культуры воронковидных кубков, Эци Тирольца закономерно смещаются к другому полюса спектра — южным европейцам (которые представлены сардинцами).

Выводы Скоглунда прекрасно согласуются с более ранними самостоятельными анализами части вышеназванных сэмплов выполненными независимыми геномных блоггеров — прежде всего Диенека, Андерса Полсена и моими собственными (см. ссылку в начале заметки). От себя могу лишь добавить, что в некоторых моих анализах, шведские неолитические образцы оказывались ближе к саамам и латышам, чем к литовцам. Но эти детали вряд ли существенно изменят общую картину.