Русскоязычный ликбез — введение в основные понятия геномики

Уважаемый Владимир Гурьянов поделился замечательной ссылкой на статью 2010 года, в которой на хорошом и доступном для понимания русском языке излагаются базовые понятия современной геномной биоинформатики.
Важность этой статьи трудно переоценить по той причине, что при переводе иноязычных статьей на русский язык зачастую приходиться сталкиваться с отсутствие адекватной устоявшейся русскоязычной переводческой базы в столь новой и динамично развивающейся области, каковой и является геномика.  Кроме того, статьи на эту тематику в научно-популяризаторском секторе Рунете можно перечесть по пальцем, а существующую предметная литература либо написана на очень сложном и непонятном для неспециалиста языке, либо не восполняет существующие лакуны. И если прорехи в русскоязычной профессиональной лексике вкупе с устаревшими знаниями с лихвой компенсируются в профильных высших биологических и медицинских ВУЗах РФ живым общением с преподавателями, то ситуация в небольших группах энтузиастов-любителей коммерческого ДНК-тестирования гораздо более плачевна. В отличии от академических деятелей, приходящих к актуальным вопросам ДНК-тестирования через системное образование в области молекулярной биологии и генетики, большинство любителей приходят в генетику благодаря интересу к генеалогии и антропологии. На первых порах все кажется простым, но по мере погружения в суть самого процесса, они сталкиваются со все более сложными понятиями, которые в силу своей непонятности вызывают у новичков только отторжение. Однако именно более вдумчивое изучение этих основ позволяет по новому подойти к анализу своих собственных генетических данных.Именно по этим причинам, подобные статьи заслуживают более пристального внимания. Статья заслуживает внимательного прочтения, особенно в части описывающей технические стороны сиквенирования (прочтения последовательности) генома: в этой части автор весьма сжато, но точно изложил принципы работы разных методов сиквенирования (в том числе, и технологию сиквенирования нового поколения). Но поскольку в задачу этой небольшой заметки не входит реферирование всего содержания статьи, я решил ограничиться только разбором основных понятий, отдельно выделенных автором в словарик.

Словарик

Геном (точнее, ядерный геном) — совокупность всех молекул ДНК ядра клетки (каждая из отдельных молекул ДНК, взаимодействуя с комплексом белков, образует хромосому). Это понятие настолько базовое, что не нуждается в дополнительных комментарий. Отмечу от себя лишь, что в дальнейшем речь пойдет только о ядерном геноме. Кроме него (по 2 копии на клетку), в клетке содержится 100-1000 митохондрий, имеющих собственный геном, и наконец свой небольшой геном имеется в веретене деления  — структуре, возникающая в клетках эукариот в процессе деления ядра. У человека (Homo sapiens) геном состоит из 23 пар хромосом, находящихся в ядре, а также митохондриальной ДНК. Двадцать две аутосомы, две половые хромосомы Х и Y, а также митохондриальная ДНК человека содержат вместе примерно 3,1 млрд пар оснований. Несмотря на то, что геном в «развернутом виде» относится к макроструктурам (в развернутом состоянии его длина составляет примерно один метр), однако благодаря многоуровневой системы уплотнения, он помещается в микроскопические масштабы клетки. Например, в хромосомах молекула ДНК «уплотняется» в результате сложного взаимодействия с белком гистоном.

Секвенирование — определение первичной структуры (последовательности) биополимера. Применительно к ДНК (или РНК), «отсеквенировать» означает «прочесть» молекулу, то есть — установить последовательность образующих её нуклеотидных оснований. Здесь нужно сделать важный смысловой акцент на прочтении, секвенирование это просто прочтение генома, но не его расшифровка. Этот процесс можно сравнить с процессом воспроизведения неизвестной нам письменности, — мы можем в точности скопировать дискретные знаки письма, и воспроизвести их последовательность, но смысл без криптографической расшифровки нам останется неизвестным. В этой метафоре функцию определения первичной структуры биополимера играет роль автоматического определения знаковых единиц письма, роль биоинформатики — криптографии.

Референсный геном — последовательность ДНК в цифровом виде, составленная учеными как общий репрезентативный пример генетического кода того или иного вида. Вопреки расхожему мифу о триумфальной «расшифровке» генома человека, этот геном не только не расшифрован, но даже еще и не собран полностью. Последняя версия сборки GRChg37 (Genome Reference Consortium human genome 37 или в короткой записи b37), которая представляет собой гаплоидный геном с перемежающимися локусами (т. е. изначально сведенные в одну последовательность аллельные варианты могли располагаться на разных хромосомах, поэтому при сравнении между собой разных сборок всегда можно установить не только расхождение в аллельных вариантах локусов или их физической позиции, но и разницу расположения локусов на хромосомах ). Нужно отметить, что в отличии от геномов реальных людей, референсый геном носит «синтетический характер» — он буквально был собран из геномов 13 разных людей. По состоянию на 2010 год, cуммарная длина расшифрованного генома составляла 3 181 354 029 пар оснований, в составе 329 скаффолдов.  По состоянию на 2010 год в данной сборке имелось 357 пропусков (gaps)  с неизвестной последовательностью, по состоянию на начало 2014 года —  200 пропусков. Референсные геномы человека и мыши поддерживаются и совершенствуются Консорциумом Референсного Генома (Genome Reference Consortium, GRC) — группой менее чем 20 ученых из различных геномных научно-исследовательских институтов, включая European Bioinformatics InstituteNational Center for Biotechnology InformationSanger Institute и Washington University in St. Louis.  Референсный геном имеет практическое значение и для лиц, получившихся данные своего SNP-типирования в коммерческих формах — позиции снипов выравнены по одной из существующих сборок референсого генома (например, в 23andme сейчас используется cборка или билд b37).

Однонуклеотидный полиморфизм, «снип» (SNP, ОНП) — в узком смысле, это однонуклеотидное отличие в последовательности геномной ДНК, встречающееся в исследуемой популяции с частотой более 1%.  Среди любителей ДНК-генеалогии этот термин часто применяется для обозначения всех однонуклеотидных полиморфизмам, например к приватным семейным снипам на Y-хромосоме. Однако в строгом смысле этого слова термин ‘полиморфизм’ применим только к тем вариантам которые встречаются с частотой более 1% .

Genome-wide association study (GWAS) — исследование связи генотипа с различными фенотипическими признаками в масштабе всего генома (прежде всего, наследственными заболеваниями). GWAS выявляет отдельные вариации в ДНК, обусловливающие те или иные заболевания или эффект лекарственных препаратов. Причины практически всех болезней имеют наследственную компоненту, передающуюся от родителя ребенку посредством 3 млрд. пар нуклеотидных остатков, составляющих человеческий геном. Расширение знаний об этих наследственных составляющих должно ускорить разработку новых терапевтических стратегий. Определение генетических факторов, влияющих на здоровье, развитие болезней и ответ на лечение, является ключевым для развития медицины нового поколения, которая будет направленно бороться с патологией при минимальном риске для больного. В исследованиях связей генотипа с различными заболеваниями в масштабе генома ученые сравнивают геномы людей, подверженных болезни (cases), с геномами здоровых людей (controls). Такое сравнение позволяет выявить отличия больных и здоровых на генетическом уровне, даже если эти отличия минимальны.

Секвенаторы «нового поколения» — высокопроизводительные секвенаторы ДНК, не использующие метод терминации цепи Сэнгера и капиллярный электрофорез. Принципы работы приборов различаются от производителя к производителю. Производительность таких секвенаторов на несколько порядков превосходит производительность самых мощных капиллярных приборов и достигает сотен млрд. пар оснований за запуск.

Секвенирование «методом дробовика» (shotgun sequencing) — подход, применяемый при анализе множественных протяженных последовательностей ДНК (геномов, метагеномов, экзомов, библиотек кДНК, наборов ампликонов и т. д.), при котором молекулы ДНК фрагментируются случайным образом на более короткие отрезки, которые затем секвенируются. В случае определения последовательности методом Сэнгера необходимо клонировать каждый фрагмент; в случае секвенирования нового поколения эта необходимость отпадает (что устраняет необходимость клонирования и связанный с этим «перекос» в представленности отдельных фрагментов).

«Рид» (от англ. read) — отдельное прочтение фрагмента ДНК (последовательность нуклеотидных остатков). На мой взгляд это наиболее важное понятие из тех, которые помогают понять суть секвенирования.
Согласно удачному примеру на лекциях П.Певзнера, мы можем сравнить человеческий организм с типографской фабрикой, которая печатает одновременно миллионы копий одного текста (точно также как клетки человека содержат миллионы копий ДНК). В этом случае процесс секвенирования в первом приближении можно сравнить с процессом взрыва на типографской фабрике, после которого вместо копий цельного текста остаются миллиарды мелких обрывков. Эти обрывки и есть образное представление совокупности «ридов». Поэтому перед биоинформатиком встает поистине титаническая задача — собрать из этого невообразимого количества фрагментов  первоначальный текст. На языке биоинформатики это называется ассемблированием геномов (рид->контиг->скаффолд->билд). На практике в этом процессе задействованы алгоритмы из теории графов (Hamiltonian path; Eulerian path и так далее).
Untitled

Ресеквенирование — секвенирование фрагментов ДНК, обобщенная последовательность которых уже известна (в общих чертах), с целью обнаружения индивидуальных отличий конкретного образца.

Секвенирование de novo — расшифровка абсолютно неизвестных последовательностей ДНК, например, генома какого-нибудь нового вида.

Контиг (от англ. contig) — набор перекрывающихся последовательностей ДНК-фрагментов, полученных из одного биологического источника (организма, ткани, клетки). Контиги получаются из прочтений фрагментов геномных или суб-геномных библиотек при секвенировании «методом дробовика».

Скаффолд (от англ. scaffold, «строительные леса») — промежуточная неполная структура секвенируемой последовательности, помогающая сборке ее полной версии. По сути, это серия контигов, расположенных в правильном порядке, но необязательно соединенных в одну непрерывную последовательность.