Словарик
Геном (точнее, ядерный геном) — совокупность всех молекул ДНК ядра клетки (каждая из отдельных молекул ДНК, взаимодействуя с комплексом белков, образует хромосому). Это понятие настолько базовое, что не нуждается в дополнительных комментарий. Отмечу от себя лишь, что в дальнейшем речь пойдет только о ядерном геноме. Кроме него (по 2 копии на клетку), в клетке содержится 100-1000 митохондрий, имеющих собственный геном, и наконец свой небольшой геном имеется в веретене деления — структуре, возникающая в клетках эукариот в процессе деления ядра. У человека (Homo sapiens) геном состоит из 23 пар хромосом, находящихся в ядре, а также митохондриальной ДНК. Двадцать две аутосомы, две половые хромосомы Х и Y, а также митохондриальная ДНК человека содержат вместе примерно 3,1 млрд пар оснований. Несмотря на то, что геном в «развернутом виде» относится к макроструктурам (в развернутом состоянии его длина составляет примерно один метр), однако благодаря многоуровневой системы уплотнения, он помещается в микроскопические масштабы клетки. Например, в хромосомах молекула ДНК «уплотняется» в результате сложного взаимодействия с белком гистоном.
Секвенирование — определение первичной структуры (последовательности) биополимера. Применительно к ДНК (или РНК), «отсеквенировать» означает «прочесть» молекулу, то есть — установить последовательность образующих её нуклеотидных оснований. Здесь нужно сделать важный смысловой акцент на прочтении, секвенирование это просто прочтение генома, но не его расшифровка. Этот процесс можно сравнить с процессом воспроизведения неизвестной нам письменности, — мы можем в точности скопировать дискретные знаки письма, и воспроизвести их последовательность, но смысл без криптографической расшифровки нам останется неизвестным. В этой метафоре функцию определения первичной структуры биополимера играет роль автоматического определения знаковых единиц письма, роль биоинформатики — криптографии.
Референсный геном — последовательность ДНК в цифровом виде, составленная учеными как общий репрезентативный пример генетического кода того или иного вида. Вопреки расхожему мифу о триумфальной «расшифровке» генома человека, этот геном не только не расшифрован, но даже еще и не собран полностью. Последняя версия сборки GRChg37 (Genome Reference Consortium human genome 37 или в короткой записи b37), которая представляет собой гаплоидный геном с перемежающимися локусами (т. е. изначально сведенные в одну последовательность аллельные варианты могли располагаться на разных хромосомах, поэтому при сравнении между собой разных сборок всегда можно установить не только расхождение в аллельных вариантах локусов или их физической позиции, но и разницу расположения локусов на хромосомах ). Нужно отметить, что в отличии от геномов реальных людей, референсый геном носит «синтетический характер» — он буквально был собран из геномов 13 разных людей. По состоянию на 2010 год, cуммарная длина расшифрованного генома составляла 3 181 354 029 пар оснований, в составе 329 скаффолдов. По состоянию на 2010 год в данной сборке имелось 357 пропусков (gaps) с неизвестной последовательностью, по состоянию на начало 2014 года — 200 пропусков. Референсные геномы человека и мыши поддерживаются и совершенствуются Консорциумом Референсного Генома (Genome Reference Consortium, GRC) — группой менее чем 20 ученых из различных геномных научно-исследовательских институтов, включая European Bioinformatics Institute, National Center for Biotechnology Information, Sanger Institute и Washington University in St. Louis. Референсный геном имеет практическое значение и для лиц, получившихся данные своего SNP-типирования в коммерческих формах — позиции снипов выравнены по одной из существующих сборок референсого генома (например, в 23andme сейчас используется cборка или билд b37).
Однонуклеотидный полиморфизм, «снип» (SNP, ОНП) — в узком смысле, это однонуклеотидное отличие в последовательности геномной ДНК, встречающееся в исследуемой популяции с частотой более 1%. Среди любителей ДНК-генеалогии этот термин часто применяется для обозначения всех однонуклеотидных полиморфизмам, например к приватным семейным снипам на Y-хромосоме. Однако в строгом смысле этого слова термин ‘полиморфизм’ применим только к тем вариантам которые встречаются с частотой более 1% .
Genome-wide association study (GWAS) — исследование связи генотипа с различными фенотипическими признаками в масштабе всего генома (прежде всего, наследственными заболеваниями). GWAS выявляет отдельные вариации в ДНК, обусловливающие те или иные заболевания или эффект лекарственных препаратов. Причины практически всех болезней имеют наследственную компоненту, передающуюся от родителя ребенку посредством 3 млрд. пар нуклеотидных остатков, составляющих человеческий геном. Расширение знаний об этих наследственных составляющих должно ускорить разработку новых терапевтических стратегий. Определение генетических факторов, влияющих на здоровье, развитие болезней и ответ на лечение, является ключевым для развития медицины нового поколения, которая будет направленно бороться с патологией при минимальном риске для больного. В исследованиях связей генотипа с различными заболеваниями в масштабе генома ученые сравнивают геномы людей, подверженных болезни (cases), с геномами здоровых людей (controls). Такое сравнение позволяет выявить отличия больных и здоровых на генетическом уровне, даже если эти отличия минимальны.
Секвенаторы «нового поколения» — высокопроизводительные секвенаторы ДНК, не использующие метод терминации цепи Сэнгера и капиллярный электрофорез. Принципы работы приборов различаются от производителя к производителю. Производительность таких секвенаторов на несколько порядков превосходит производительность самых мощных капиллярных приборов и достигает сотен млрд. пар оснований за запуск.
Секвенирование «методом дробовика» (shotgun sequencing) — подход, применяемый при анализе множественных протяженных последовательностей ДНК (геномов, метагеномов, экзомов, библиотек кДНК, наборов ампликонов и т. д.), при котором молекулы ДНК фрагментируются случайным образом на более короткие отрезки, которые затем секвенируются. В случае определения последовательности методом Сэнгера необходимо клонировать каждый фрагмент; в случае секвенирования нового поколения эта необходимость отпадает (что устраняет необходимость клонирования и связанный с этим «перекос» в представленности отдельных фрагментов).
Согласно удачному примеру на лекциях П.Певзнера, мы можем сравнить человеческий организм с типографской фабрикой, которая печатает одновременно миллионы копий одного текста (точно также как клетки человека содержат миллионы копий ДНК). В этом случае процесс секвенирования в первом приближении можно сравнить с процессом взрыва на типографской фабрике, после которого вместо копий цельного текста остаются миллиарды мелких обрывков. Эти обрывки и есть образное представление совокупности «ридов». Поэтому перед биоинформатиком встает поистине титаническая задача — собрать из этого невообразимого количества фрагментов первоначальный текст. На языке биоинформатики это называется ассемблированием геномов (рид->контиг->скаффолд->билд). На практике в этом процессе задействованы алгоритмы из теории графов (Hamiltonian path; Eulerian path и так далее).
Ресеквенирование — секвенирование фрагментов ДНК, обобщенная последовательность которых уже известна (в общих чертах), с целью обнаружения индивидуальных отличий конкретного образца.
Секвенирование de novo — расшифровка абсолютно неизвестных последовательностей ДНК, например, генома какого-нибудь нового вида.
Контиг (от англ. contig) — набор перекрывающихся последовательностей ДНК-фрагментов, полученных из одного биологического источника (организма, ткани, клетки). Контиги получаются из прочтений фрагментов геномных или суб-геномных библиотек при секвенировании «методом дробовика».
Скаффолд (от англ. scaffold, «строительные леса») — промежуточная неполная структура секвенируемой последовательности, помогающая сборке ее полной версии. По сути, это серия контигов, расположенных в правильном порядке, но необязательно соединенных в одну непрерывную последовательность.
Для отправки комментария необходимо войти на сайт.