Алгоритм самостоятельного анализа результатов экзомного тестирования

Осенью 2011 года один из флагманов коммерческой персональной геномики, компания 23andme, запустила пилотный проект экзомного тестирования, в котором клиентам предлагался продукт — экзомный тест за 999 американских долларов вместе с интерпретацией результатов.  Тест покрывал примерно 50 млн. базовых пар ДНК, включающих в себя информацию необходмую для синтеза протеинов. К сожалению, пилотный проект быстро закрылся из-за отсутствия интереса и высокой стоимости теста. Тем не менее, некоторые из россиян успели заказать себе этот тест и получить результаты. Но так как авторизированный отчет 23andme с толкованием полученных результатов оказался написанным на сложном для понимания эзотерическом научном языке,  возникла необходимость в дополнительной интерпретации, вернее разжевывании имеющейся интерпретации, то я решил показать, как можно проанализировать экзом самостоятельно с помощью подручных средств.

В качестве примера я использую анонимизированный файл vcf (файл с перечнем геномных вариантов) одного из немногих россиян, заказавших экзомное тестирование в 23andme.

 

Техническое описание исследования.

Для анализа экзома я использовал NGS-библиотеки пакета Bioconductor-R (в среде статистических вычислений R), предназначенного для анализа полногеномных данных. Основной библиотекой, задействованной в анализе была библиотека variantAnnotation.

source(«http://bioconductor.org/biocLite.R»)

library(VariantAnnotation)

Загрузка требуемого пакета: BiocGenerics

Загрузка требуемого пакета: parallel

Присоединяю пакет: ‘BiocGenerics’

Загрузка требуемого пакета: GenomicRanges

Загрузка требуемого пакета: IRanges

Загрузка требуемого пакета: XVector

Загрузка требуемого пакета: Rsamtools

Загрузка требуемого пакета: Biostrings

Присоединяю пакет: ‘VariantAnnotation’

В самом начале я загрузил заархивированный файл x.vcf в память с использованием координат геномного билда hg19 (т.к. VCF был получен из bam-файла, координаты которого были взяты из GRCh37.64, соответствующего hg19):
> vcf <- readVcf(«x.vcf», «hg19»)

> vcf

class: CollapsedVCF

dim: 110651 1

rowData(vcf):

  GRanges with 5 metadata columns: paramRangeID, REF, ALT, QUAL, FILTER

info(vcf):

  DataFrame with 28 columns: AB, AC, AF, AN, BaseQRankSum, DB, DP, DS, Dels,.

geno(header(vcf))

DataFrame with 5 rows and 3 columns

        Number        Type

   <character> <character>

AD           .     Integer

DP           1     Integer

GQ           1       Float

GT           1      String

PL           .     Integer

head(rowData(vcf), 3)

GRanges with 3 ranges and 5 metadata columns:

             seqnames         ranges strand | paramRangeID            REF

                <Rle>      <IRanges>  <Rle> |     <factor> <DNAStringSet>

  rs79585140        1 [14907, 14907]      * |         <NA>              A

  rs75454623        1 [14930, 14930]      * |         <NA>              A

  rs78601809        1 [15211, 15211]      * |         <NA>              T

                            ALT      QUAL      FILTER

             <DNAStringSetList> <numeric> <character>

  rs79585140                  G    494.81  MQFilter40

  rs75454623                  G    718.96  MQFilter40

  rs78601809                  G    125.22  MQFilter40

Затем я определил качество полученных генотипов (эти данные содержаться в колонке GQ секции генотипов vcf). Как видно из приведенных ниже значений, только 52% всех генотипов имеют 99%  степень аккуратности определения, качество остальных 48% вариантов лежит в диапазоне между 0 и 90% процентами. 

> geno(vcf)

List of length 5

names(5): AD DP GQ GT PL

> GQ <-geno(vcf)$GQ

> dim(GQ)

[1] 110651      1

> geno(vcf)

List of length 5

names(5): AD DP GQ GT PL

> GQ <-geno(vcf)$GQ

> dim(GQ)

[1] 110651      1

> fivenum(GQ)

[1]  0.03 33.98 99.00 99.00 99.00

> length(which(GQ==99.00))/length(GQ)

[1] 0.5221552

 hist(GQ[GQ != 0], breaks=seq(0, 100, by=10)

qc

На следующем этапе я опредилил число ранее неизвестных (новельных, то есть отствующих в базе dbSNP) вариантов в файле VCF. Всего вариантов 110651, из них известных 106076 и новельных 4575 (в отчете 23andme 4137). В целях определения качества новельных снипов я создал метрику для оценки качества снипов на основе сопоставления двух параметров – качества глубины покрытия генома и качества генотипирования. Из приведенного ниже графика видно, что примерно 25 % новельных снипов находятся в зоне низкого качества глубины покрытия, и это означает что примерно четверть новельных снипов могут представлять собой артефакт генотипирования:

info(vcf)$DB -> dbsnpsnp

metrics <- data.frame(QUAL=qual(vcf), inDbSNP=dbsnpsnp, RSQ=info(vcf)$QD)

 

qdПосле предварительных статистических тестов, я приступил к определению генов, в которых были обнаружены варианты. В зависимости от своего расположения, варианты могут оказаться в одном из 7 участков: интрон,  кодирующий участок, 5’UTR, 3’UTR, интергенный регион, сплайс-сайт и промоутер.   Для обнаружения положения вариантов, я задействовал библиотеку TxDb.Hsapiens.UCSC.hg19.knownGene.  Сначала я определил положение всех вариантов (cм.  Excel файл exomevariants.xlsx), однако поскольку нас интересует в первую очередь frameshift мутации, то гораздо более информативным является нахождение вариантов в кодирующих участках. Всего таких вариантов в кодирующих участка обнаружено 56035 в 23140 генах, причем 989 из 23140 генов имеет больше одного обнаруженного варианта в кодирующем участке

library(TxDb.Hsapiens.UCSC.hg19.knownGene)

txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene

loc <- locateVariants(rd, txdb, CodingVariants())

table(sapply(splt, function(x) length(unique(x)) > 1))

FALSE  TRUE

22151   989

Далее, я использовал функцию predictCoding, она вычисляет изменения кодирования аминокислот в несинонимичных вариантах. В запросе к базе данных рассматрываются только те участки , которые перекрываются с кодирующей областью. Референсные последовательности извлекаются из BSgenome. Вариант последовательности определяется путем замены, вставки или удаления значения в колонке varAllele в референсной последовательности.  Код аминокислот вычисляются для последовательности кодонов  в тех вариантах, когда длина кратна 3.

library(BSgenome.Hsapiens.UCSC.hg19)

coding <- predictCoding(vcf, txdb, seqSource=Hsapiens)


Затем из полученных 56035 вариантов в кодирующей области я выбрал только те, которые привели к сдвигу рамки чтения (таковых оказалось 412).

coding[mcols(coding)$CONSEQUENCE == «frameshift»]

Благодаря запуску функции predictCoding я отождествил код измененных аминокислот для не-синонимичных вариантов.  Анализируя это подмножество, я задался целью установить, какой физиологический ущерб эти изменения кодируемых аминокислот могут нанести при экспресии в фенотип.  Для этих целей я использовал методы PolyPhen, которые предсказывают последствия замены аминокислот в человеческих протеинах.  PolyPhen использует информарцию о функции последовательностей и структурную информацию, характеризующую замену аминокислоты для прогнозах о структуре и функции белка.

nms <- names(coding)

idx <- mcols(coding)$CONSEQUENCE == «nonsynonymous

nonsyn <- coding[idx]

rsids <- unique(names(nonsyn)[grep(«rs», names(nonsyn), fixed=TRUE)])

library(PolyPhen.Hsapiens.dbSNP131)

pp <- select(PolyPhen.Hsapiens.dbSNP131, keys=rsids,cols=c(«TRAININGSET», «PREDICTION», «PPH2PROB»))

head(pp[!is.na(pp$PREDICTION), ])

Полученные файлы сохранены в Excel файл x.xlsx, и затем подсчитано в каких протеинах наблюдается наибольшое число потенциально вредных frameshift мутаций

Название гена  Число frameshift мутаций

 

NA 2288
uc001lsw.2 44
P20930 34
P22105-3 21
P25940 13
O60732 12
Q5SSG8 10
Q86YZ3 10
Q9NYF8 9
P46013 9
Q5VU43 9
Q14500 9
Q9UMD9 8
O14513 8
A6NKC6 8
uc003ssj.2 7
O95678 7
O15360 7
Q86VF7 7
uc001mdw.3 6
Q9Y289 6
Q8NEZ4 6
Q96C45 6
Q9HD43 6
Q01955 6
Q2KHM9 6
Q701N2 6
P38570 6
P24821 6
P46734 6
Q9Y2K3 5
uc002vwl.2 5
uc002nfb.2 5
uc003nsm.1 5
Q9UNS1 5
Q9NZH6 5
D3DSV6 5
C9IYD7 5
P20853 5
Q14676 5
P38159 5
P35125 5
P35670 5
Q8N6F8 4
Q96Q06 4
uc001bvt.2 4
uc011dxu.1 4
uc004csb.2 4
Q8TE73 4
Q9H2D6 4
uc002yfm.2 4
Q96J66 4
uc002zag.1 4
Q8TB24 4
Q96RN1 4
Q99572 4
Q9C0D2 4
uc002zwe.2 4
Q9ULD2 4
Q8WXH0-2 4
uc003uhx.2 4
O95050 4
O75128 4
P02533 4
A3KMH1 4
Q5HYK9 4
P48634 4
O15069 4
Q8IUA7 4
Q16600 4
P60331 4
Q5D862 4
B7ZBR5 4
Q5KU26 4
Q12802-2 4
A8MTL4 4
P23327 4
Q7Z3S9 4
O75096 4
A1A5D9 4
Q15149 4
P54257-2 4
uc001saw.2 3
Q96PX6 3
Q9BWT7 3
Q9H0J4 3
uc001kgr.1 3
Q9H0U9 3
uc002uln.2 3
Q8TD33 3
Q9BYR5 3
Q9H339 3
Q9Y6R7 3
Q8N808 3
Q96RW7 3
uc003wcz.2 3
uc002fmv.2 3
Q8N865 3
uc002ycq.2 3
Q92954 3
uc003eee.3 3
Q9NQN1 3
Q9UQ84 3
Q9NQT5 3
Q96PX9 3
Q8NC74 3
Q8NGH7 3
uc011lix.1 3
Q8NH40 3
Q9NWH7 3
uc001rks.2 3
Q96EZ4 3
uc001wit.3 3
Q8N436 3
Q8TAX7 3
Q9P126 3
Q99954 3
Q9UI47 3
Q9BRB3 3
Q9UIU6 3
Q9BYQ6 3
Q96JF6 3
uc003kju.2 3
Q96L96 3
Q8N1N5 3
Q96PQ1 3
Q9H4A3 3
uc003zfz.2 3
Q9HCE0 3
uc010ebn.2 3
Q9HCS5 3
Q9NQG7-3 3
Q5JU00 3
Q6ZW33 3
Q6E0U4 3
O60500 3
O94900 3
P56945 3
Q5VIY5 3
P57679 3
Q6PFW2 3
A2I2N5 3
O60269 3
P60369 3
O15016 3
P60371 3
Q5QNZ9 3
P78334 3
Q5VY09 3
O75056 3
Q6NTE8 3
Q02386 3
Q6XYB7-2 3
Q07092 3
Q75N90 3
Q07157 3
P51689 3
Q08170 3
Q4G0N8 3
Q12789 3
P35908 3
C9JIP1 3
C9JLR2 3
Q12889 3
B9EIK7 3
Q13033 3
P11473 3
Q13635 3
Q685J3 3
Q14246 3
Q6H9L7 3
O14617 3
Q6PEW0 3
P27816 3
Q6UWM9 3
Q15051 3
Q6ZS72 3
Q15084 3
P13645 3
P27987 3
P47881 3
Q15345 3
P49747 3
P30926 3
Q17RW2 3
Q02447 3
uc002ckw.2 2
Q9BYQ4 2
uc002xvf.2 2
Q9H1I8 2
uc009zoy.1 2
Q9H1M4 2
uc002npq.1 2
Q92764 2
uc003cbl.3 2
Q92766-2 2
Q8NDY8 2
Q8N568 2
uc001say.2 2
Q9HBR0 2
uc002hwr.2 2
Q9HC10 2
uc002qoi.1 2
Q9HCC9 2
uc002yxk.1 2
Q92956 2
Q9BX84 2
Q9HCH5-8 2
uc003tcj.1 2
Q969J2 2
uc003xza.2 2
Q8NG08 2
uc010neg.1 2
Q9NP71 2
Q96SK3 2
Q9NPR9 2
Q99518 2
Q9NQ92 2
uc002mdk.2 2
uc010ooe.1 2
uc002oyh.1 2
Q96DS6 2
Q8N531 2
Q8NGF6 2
Q9BS92 2
Q9NQW5 2
uc002zwc.1 2
uc010sxc.1 2
uc003cwg.3 2
Q96GX9 2
Q9BYD2 2
Q8N146 2
uc003qtl.2 2
Q9NU22 2
Q8WXA2 2
Q9NV39 2
uc003xio.3 2
Q96JA4 2
Q8WXU2 2
Q9NY99 2
uc010cov.2 2
Q8NGV6 2
uc001sax.2 2
Q9NYQ6 2
uc001sck.2 2
Q96JM2 2
uc001zrt.2 2
Q9NZM3 2
uc002cyd.1 2
Q96KT7 2
uc002frs.1 2
Q9P2F8 2
uc002jjm.3 2
Q9UBK8 2
Q8TD19 2
Q9UGC7 2
uc002oxx.2 2
Q96KV7 2
uc002pdw.2 2
Q8NH01 2
uc002shl.3 2
Q9UK85 2
Q9BQ66 2
Q96LB9 2
Q8TE60 2
Q96LP6 2
uc002yip.1 2
Q96MC2 2
Q9BW66 2
Q9UPR6 2
Q8ND61 2
Q96NY9 2
uc003cpb.3 2
Q9Y237-2 2
uc003dnv.2 2
Q8N3K9 2
uc003gix.2 2
Q8N1A6 2
uc003lwz.2 2
Q8TAX9-3 2
uc003pgu.3 2
uc001aru.2 2
Q8WWF5 2
Q96PY6 2
uc003tpz.2 2
uc001dpq.2 2
uc003vuk.3 2
uc001drv.2 2
uc003wsh.3 2
uc001jrr.3 2
uc003xkm.1 2
Q8NA69 2
Q9GZP7 2
Q96QA5 2
uc009vzo.2 2
Q96RD9 2
uc010azk.1 2
uc001qnn.1 2
Q9H0R5 2
Q8TBZ5 2
Q8WZ92 2
Q8TCU5 2
Q9NRD8 2
Q5T9A4 2
Q6ZRI6 2
B9EGI0 2
O75830 2
Q86VW1 2
C9J2Y8 2
Q658L1 2
C9JF86 2
Q6PEY2 2
P60412 2
Q7RTR8 2
O95153 2
Q8IYM2 2
O95255 2
O60391 2
O95425 2
Q6DT37 2
Q8IZ20-2 2
Q6NXP2-2 2
O95460-2 2
P50226 2
A6NMZ7 2
P54253 2
O95786 2
Q86TB3 2
Q0P670 2
P59827 2
Q0VAR9 2
Q5T6X5 2
Q0VDD8-4 2
O60336 2
O95817 2
O60423-2 2
A6PVS8 2
Q68DN1 2
P04439 2
O60602 2
A8MSH3 2
Q6NV75 2
Q13427 2
Q6P6B7 2
A8MSQ1 2
Q6PXP3 2
Q14028 2
Q6ZMY3 2
Q14031-2 2
Q6ZTY8 2
P15822 2
B9ZVK6 2
P15848 2
Q7Z570 2
P17931 2
Q86UQ0 2
Q14929 2
Q86XA9 2
P20742 2
Q8IYG6 2
A8MT70 2
P60014 2
A8MT77 2
Q5T8R8 2
O14830 2
Q5TZA2 2
Q15643 2
Q5VTH9 2
P23141-2 2
Q5VV43 2
P23280 2
Q5W0A0 2
Q24JP5-2 2
O60443 2
A6ND91 2
Q6BDS2 2
Q2M243 2
A6NE01 2
Q32MH5 2
Q6IMN6 2
Q32P51 2
Q6NUI1 2
Q3L8U1-2 2
Q6NWU0 2
Q499Z3 2
Q6P3X3 2
O15018 2
A6NEL2 2
Q4G0P3 2
O75081 2
Q4LDE5 2
Q6U949 2
Q58DX5 2
P50238 2
Q58EX7 2
Q6ZN79 2
Q5D0E6 2
O75095 2
P25391 2
P54108 2
A9UL12 2
Q70EL2 2
Q5JTH9 2
Q76I76 2
B4E1X0 2
P56545-2 2
Q5JUB6 2
Q7Z6J9 2
O15389 2
Q86TY3 2
O43164 2
A5PLN7 2
B5MDQ5 2
Q86W24 2
Q5T035 2
O75376 2
Q5T036 2
Q8IUX4 2
Q5T0J7 2
Q8IYK2 2
Q5T124 2
Q8IYS4 2
Q5T1M5 2
Q5T6F2 2
Q12955 2
uc003xax.3 1
uc002eax.2 1
uc001dwa.2 1
Q96JL9 1
uc003aka.2 1
Q8N9L9 1
Q9Y2Y8 1
Q96JQ0 1
uc001rig.1 1
Q96KD3 1
Q92889 1
Q8N9R8-2 1
uc003mtg.2 1
Q8N9T8 1
Q96HJ3 1
Q96L50 1
Q9Y623 1
Q8N386 1
uc001law.2 1
Q8NA82 1
uc001whc.2 1
Q96LI9 1
uc002lvh.2 1
Q8NAT2 1
Q93075 1
Q96LW7-2 1
uc003fpa.2 1
Q96LW9 1
uc003sys.2 1
Q96M29 1
uc004bmg.1 1
Q96M89 1
Q9Y2G2 1
Q96M91 1
Q9Y566 1
Q8NC38 1
uc001abz.3 1
Q96MG8 1
uc001hfx.2 1
Q96MK3 1
uc001mty.2 1
Q96MY7 1
uc001stk.2 1
Q96N77 1
uc002aon.2 1
Q8N3D4 1
Q92583 1
Q96P69 1
Q8N323 1
Q96PC2 1
uc002sfp.2 1
Q96PD4 1
Q969T7 1
Q96PE6 1
Q96AQ6 1
Q96PH1 1
uc003hti.2 1
Q96PL5 1
uc003ntp.1 1
Q96PN7 1
uc003vsp.2 1
Q8NCW5 1
uc003yyy.2 1
Q96PQ7 1
uc009wcm.2 1
Q8N196 1
uc010jzk.1 1
Q8NDN9 1
Q8WUP2 1
Q8NDX1 1
Q9Y442 1
Q8NDX9 1
Q9Y5P1 1
Q8N3Y1 1
Q9Y6J0 1
Q96QD9 1
uc001cqe.3 1
Q96QE3 1
uc001fgr.1 1
Q96QI5 1
Q8WW52 1
Q8NDZ6 1
uc001mgt.2 1
Q96RG2 1
uc001qyz.3 1
Q96RL6 1
Q8WXD5 1
Q8NE62 1
uc001urv.2 1
Q96RP7 1
uc001zhi.2 1
Q8NEG0 1
uc002cmq.1 1
Q96S42 1
Q92543 1
Q96SB8 1
uc002iob.2 1
Q8NEQ5 1
uc002mkl.2 1
Q96SN8 1
uc002oqh.1 1
Q96ST8 1
Q92935 1
Q96SZ5 1
uc002unu.2 1
Q96T17 1
Q8N8C0 1
Q99456 1
Q969X1 1
Q8NEV8 1
uc003cna.3 1
Q8N412 1
Q96AY2 1
Q99595 1
Q96BF3 1
Q99678 1
uc003knc.2 1
Q99705 1
uc003nif.3 1
Q99707 1
Q8N910 1
Q99856 1
Q96E39 1
Q8NFD2 1
Q8N960 1
Q8NFT2 1
Q96FX8 1
Q9BQI5 1
uc003zsj.2 1
Q9BR39 1
uc009vnn.1 1
Q9BR77 1
Q96HD9 1
Q8NFV5 1
Q96HP8 1
Q9BRQ8 1
Q8N9H6 1
Q8NFZ6 1
Q9Y2I6 1
Q9BSA9 1
Q9Y2R9 1
Q9BT25 1
Q9Y3N9 1
Q9BU76 1
Q9Y4K0 1
Q9BUV0 1
Q9Y5E3 1
Q9BVL2 1
Q9Y5T5 1
Q9BVP2 1
Q9Y6C9 1
Q8NG04 1
Q9Y6S9-2 1
Q9BWD1 1
uc001bfk.2 1
Q9BWH6 1
Q8WW01 1
Q9BWN1 1
uc001epm.3 1
Q8N434 1
uc001ggg.1 1
Q9BWW9 1
uc001ikw.3 1
Q9BX26 1
Q8N715 1
Q8NG31-2 1
uc001lvm.2 1
Q9BXA9 1
uc001mjv.2 1
Q9BXI2 1
Q8WWU7 1
Q9BXI9-2 1
uc001rdt.2 1
Q9BXL6 1
uc001sah.1 1
Q9BXR5 1
uc001saz.2 1
Q9BXT6 1
uc001ugs.3 1
Q9BXT8 1
uc001vmt.2 1
Q9BXW6 1
uc001wja.2 1
Q9BY07 1
Q8WYQ9 1
Q8NGD2 1
uc002axo.2 1
Q9BYH1 1
uc002dai.3 1
Q9BYJ0 1
uc002flb.2 1
Q8NGD4 1
uc002hjn.2 1
Q8N123 1
uc002hzw.2 1
Q9BYR3 1
Q92610 1
Q8N475 1
uc002mdo.3 1
Q9BZE2 1
uc002nhl.1 1
Q9BZJ0 1
uc002oek.2 1
Q9BZJ3 1
Q92794 1
Q9BZY9 1
uc002pgj.1 1
Q9C000 1
uc002rxt.1 1
Q8NGI3 1
uc002spl.1 1
Q9C0D6 1
uc002vfa.2 1
Q9C0G6 1
uc002wtp.2 1
Q9C0J9 1
Q969S8 1
Q8NGJ0 1
uc002zji.3 1
Q9GZS9 1
uc002zxx.2 1
Q9GZU2 1
uc003cfi.1 1
Q9H063 1
Q96AP0 1
Q9H094 1
uc003dar.2 1
Q8NGK0 1
uc003eny.2 1
Q9H0M4 1
uc003fts.2 1
Q8NGV0 1
uc003gxu.2 1
Q9H0U6 1
uc003jig.2 1
Q8N4B4 1
Q96BJ8-3 1
Q9H190 1
uc003mwv.2 1
Q8NGX0 1
Q96BT3 1
Q9H1L0 1
uc003nzw.2 1
Q8NGY9 1
Q96CB5 1
Q9H1V8 1
Q8N957 1
Q9H201 1
Q96E52 1
Q9H205 1
uc003vvi.2 1
Q9H208 1
Q96F05 1
Q9H222 1
uc003xda.2 1
Q9H2B4 1
Q96GQ7 1
Q8N4T4 1
uc003zjw.2 1
Q9H306 1
uc004aid.2 1
Q8N4W9 1
Q8N9B5 1
Q9H347 1
uc009vxy.2 1
Q9H3S1 1
uc009yor.2 1
Q8NHC8 1
uc009zxk.2 1
Q9H4I0 1
Q96HP0 1
Q9H4M7 1
uc010fxm.1 1
Q9H583 1
uc010lpr.1 1
Q9H5L6 1
Q9Y2F5 1
Q9H6S0 1
Q9Y2H0-1 1
Q9H6Y2 1
Q9Y2K1 1
Q9H720 1
Q9Y2K9 1
Q9H816 1
Q9Y2T7 1
Q9H8X2 1
Q9Y345 1
Q9H9Y2 1
Q9Y3T6 1
Q9HAT1 1
Q9Y485 1
Q9HBF5 1
Q9Y508 1
Q9HBJ7 1
Q9Y585 1
Q9HBL0 1
Q9Y5E6 1
Q9HBM0 1
Q9Y5P3 1
Q8NHL6-3 1
Q9Y5W3 1
Q9HBW9 1
Q9Y644 1
Q8NHY0 1
Q9Y6G9 1
Q8NHY3 1
Q8WV93 1
Q8NI17-2 1
Q9Y6X5 1
Q9HCG8 1
Q8WVE6 1
Q8NI35 1
Q8WVT3 1
Q8N4X5 1
uc001doh.2 1
Q9HCX3 1
Q8WW43 1
Q8N1N2 1
uc001dzr.2 1
Q9NNX1 1
uc001ffh.2 1
Q9NP70 1
uc001fst.1 1
Q8TAZ6 1
uc001hdj.2 1
Q9NPB3 1
uc001hob.3 1
Q9NPB6 1
uc001ioo.2 1
Q9NPG4 1
uc001kal.3 1
Q8TB03 1
uc001koi.2 1
Q8N1N4 1
Q8WWK9 1
Q9NQC3 1
Q8WWQ8 1
Q8TB52 1
uc001mhb.3 1
Q8N5C6 1
uc001mqw.2 1
Q9NQS7 1
uc001nps.2 1
Q8TC84 1
uc001qvk.1 1
Q9NQW1 1
uc001qzt.2 1
Q8TCG1 1
uc001rgh.2 1
Q9NR11-2 1
Q8N7M2 1
Q9NR20 1
Q8WXB1 1
Q9NRC9 1
Q8WXG8 1
uc010otd.1 1
Q8N7Q3 1
Q8TCU4 1
uc001swc.3 1
uc010xwr.1 1
uc001uom.2 1
Q8N5H7 1
uc001usl.3 1
Q8TCY9 1
uc001vwo.1 1
Q9NRY5 1
Q8N7U7 1
Q9NU02 1
uc001wph.3 1
Q8TD07 1
uc001zif.2 1
Q9NV12 1
uc002adi.2 1
Q8N5W8 1
uc002ari.2 1
Q9NVI1 1
Q8N7X4 1
Q9NVL8 1
Q92485 1
Q9NVR5 1
uc002eab.2 1
Q9NVV2 1
uc002elh.2 1
Q8TD31-2 1
Q92535 1
Q9NWN3 1
uc002gov.3 1
Q9NWS6 1
uc002hwb.2 1
Q9NWS9 1
uc002hzv.2 1
Q9NX76 1
uc002ile.3 1
Q8N628 1
uc002jad.2 1
Q9NYA4 1
uc002knr.2 1
Q8TDM6 1
Q92614 1
Q9NYG8 1
uc002mkc.2 1
Q9NYK6 1
Q8N309 1
Q8TDR0-2 1
uc002niv.2 1
Q9NYQ8 1
uc002nrk.3 1
Q9NYR8 1
uc002onr.2 1
Q9NYW5 1
uc002owt.2 1
Q9NZ56 1
uc002oyf.1 1
Q9NZC7 1
Q92932 1
Q8TDV0 1
uc002pjn.2 1
Q8TDX9 1
uc002red.2 1
Q9NZM4 1
uc002sen.3 1
Q9NZP2 1
Q8N884 1
Q9NZP6 1
Q8N8A6 1
Q9NZQ3 1
uc002vcz.2 1
Q9NZQ8 1
uc002vml.2 1
Q9P0L9 1
uc002wgf.1 1
Q9P0W8 1
Q969H9 1
Q8TDY8 1
Q969Q4 1
Q9P1Z2 1
Q969T3 1
Q9P212 1
uc002zcm.2 1
Q9P266 1
uc002zsk.1 1
Q9P272 1
Q96A59-2 1
Q9P275-2 1
uc003afo.2 1
Q9P2A4 1
Q96A84-3 1
Q9P2E9-3 1
uc003cib.2 1
Q8TE59 1
uc003com.2 1
Q9P2X7 1
uc003cqx.2 1
Q9UBC7 1
uc003cxg.2 1
Q8N183 1
Q96AQ9 1
Q9UBS4 1
uc003eev.3 1
Q9UBU2 1
uc003fli.1 1
Q9UDX4 1
uc003frm.2 1
Q9UFP1 1
uc003gco.3 1
Q8TE68 1
uc003gkv.3 1
Q9UGP5 1
uc003hqx.3 1
Q9UH36 1
uc003ian.3 1
Q9UH92 1
Q96BH3 1
Q9UHF4 1
uc003lnj.2 1
Q9UHN6 1
uc003mlz.3 1
Q8N6I1 1
uc003mwa.3 1
Q9UIS9 1
uc003nef.2 1
Q8TEC5 1
uc003nkt.2 1
Q9UJ78 1
uc003ntn.3 1
Q9UJA3 1
uc003nvm.1 1
Q9UJL9 1
uc003ods.2 1
Q9UJW7 1
uc003qtf.2 1
Q8TER0 1
Q96DA0 1
Q9UKB5 1
uc003tbm.2 1
Q9UKP4 1
uc003toq.2 1
Q9UL01 1
uc003tzn.2 1
Q9UL49 1
uc003vrz.2 1
Q9UL52 1
Q96EK5 1
Q8TER5 1
uc003wcr.1 1
Q9ULE4 1
uc003wkp.2 1
Q9ULE6 1
uc003wwm.2 1
Q9ULI1 1
uc003xcu.2 1
Q9ULI3 1
uc003xep.1 1
Q9ULM0 1
Q96G42 1
Q8TEV9 1
uc003yyd.2 1
Q9UMR7 1
Q96GU1 1
Q9UMS0 1
uc003zlr.1 1
Q9UMX9 1
uc004aay.2 1
Q9UNI1 1
uc004atg.3 1
Q9UNK9 1
uc004can.3 1
Q9UNQ0 1
uc004ded.1 1
Q8TEX9 1
uc009vvi.2 1
Q9UPA5 1
Q96HA7 1
Q9UPN6 1
uc009ynk.2 1
Q9UPP2-2 1
uc009zhj.2 1
Q8TF21 1
uc009zwi.2 1
Q9UPV0 1
uc010awk.1 1
Q9UQ35 1
uc010boe.2 1
Q9UQ74 1
uc010eas.2 1
Q8TF76 1
uc010fvs.1 1
Q9UQ90 1
uc010inb.2 1
Q9UQP3 1
uc010ljy.1 1
Q8WTP8 1
Q8N9F8 1
Q8WTV0-2 1
Q8N9H9 1
Q9Y2A4 1
uc010wmr.1 1
Q9NRH2 1
uc010yvx.1 1
Q9NRP7 1
uc011jvp.1 1
Q9NRR1 1
Q8N0W5 1
Q9NRR4 1
Q8IX07 1
Q6P461 1
Q5TCM9 1
P19075 1
P10515 1
P19484 1
Q5JZ73 1
P19878 1
Q66K79 1
P19971 1
Q6W5P4 1
P20138 1
Q86V20 1
P20702 1
O95202 1
C9JN24 1
A6NGG8 1
C9JN71 1
Q5VVP1 1
D3DQK9 1
Q6IQ23 1
P21462 1
P08123 1
A6NMK8 1
Q6ZR62 1
A6NMR0 1
Q7Z5M8-2 1
O00182 1
Q86YD7 1
O00192 1
Q8IYW5 1
P23490 1
Q5JRA6 1
P24071 1
O95521 1
O00253 1
Q5T5J6 1
P24928 1
P02452 1
O00292 1
Q5XUX1-3 1
P25440 1
Q6AZY7 1
P25774 1
P05362 1
O00330 1
Q6PHR2 1
P26378 1
Q6UWT4 1
P26640 1
Q6ZMZ3 1
O00418 1
Q6ZU80 1
O00421 1
A2RUB6 1
P28070 1
Q86T20 1
P28330 1
P13646 1
P30042 1
Q8IVF2 1
P30154-2 1
A6NM10-2 1
O00451 1
Q8IZJ4 1
P31391 1
O95229 1
P31930 1
O95359 1
P32519 1
Q5QGT7 1
P34741 1
Q5SXM8 1
P34820 1
Q5T197 1
P34947 1
Q5T7V8 1
O00566 1
Q5TZ20 1
P35346 1
Q5VUJ5 1
P35372-3 1
P02462 1
P35452 1
Q63HK3 1
P35542 1
Q68DQ2 1
P35556 1
P04264 1
A2RUE3 1
P05107 1
P35789 1
P06133 1
O14610 1
P07197 1
P35968 1
Q6Q4G3 1
P36888 1
Q6UQ28 1
P37108 1
Q6V0I7 1
P37231 1
P08572 1
P38117-2 1
Q6ZNH5 1
A6NNB3 1
P09172 1
O14641 1
P0C0P6 1
P40145 1
P10643 1
P40394 1
Q7Z4N2 1
P42694 1
Q7Z736 1
P42898 1
P12643 1
P43360 1
Q86VI3 1
O14656 1
P14060 1
O14777 1
Q8IUC4 1
O14798 1
Q8IWC1 1
P48357 1
Q8IXT1 1
A2RUQ5 1
Q8IYN0 1
P48681 1
P17693 1
P48736 1
Q587J8 1
O14944 1
Q5CZA4 1
P49917 1
O95236 1
A7MBM2 1
B9A029 1
A8K1K9 1
Q5JVX7 1
P50748 1
Q5M775 1
P50995 1
A6NFJ4 1
P51172-2 1
Q5SXH7-4 1
P51636 1
Q5SYB0 1
P51659 1
A6NII6 1
O15021-3 1
O95900 1
P51801 1
O95988 1
P51858 1
P01011 1
P51957 1
Q5TEA6 1
P51993 1
Q5U5R9 1
P52569-2 1
Q5VTT5 1
O15031 1
P02461 1
A8K8G6 1
Q5VXM1 1
O15205 1
Q5VZR2-2 1
P55103 1
Q5Y7D6 1
P55198 1
Q659C4 1
P56159 1
Q68D06 1
A8K979 1
Q68EA5 1
P56696 1
P04004 1
P56715 1
P04626 1
A8MQT4 1
Q6MZQ0 1
P57071 1
Q6NUQ4 1
O15534 1
Q6NVY1 1
P57727 1
Q6P0N0 1
P57737 1
P06734 1
P58182 1
P07919 1
P59046 1
P07996 1
P59282 1
Q6S9Z5 1
P59533 1
Q6UDR6 1
P59826 1
Q6UWB4 1
O15553 1
Q6UXN2 1
P59910 1
Q6VVB1 1
O43151 1
Q6X4T0 1
A2VDJ0-5 1
Q6ZMT4 1
P60368 1
P08949-2 1
O43187 1
Q6ZQQ6 1
P60370 1
Q6ZRQ5 1
O43314-2 1
Q6ZS82 1
P60411 1
Q6ZUX3 1
O43493-2 1
Q70CQ4 1
P63211 1
Q7KYR7 1
P68363 1
Q7RTV2 1
P78329 1
Q7Z3Y9 1
O43555 1
Q7Z5L4 1
P78364 1
P12109 1
P78396 1
Q7Z7A1 1
P80075 1
Q86TC9 1
P98164 1
P12645 1
Q00056 1
Q86V71 1
Q008S8 1
Q86VY4 1
Q01459 1
Q86WB0 1
Q01658 1
Q86XM0 1
Q01664 1
P15169 1
O43731-2 1
C9JG81 1
O60225 1
Q8IVF5 1
O60243 1
Q8IWE2 1
Q02742 1
Q8IXI1 1
Q02880-2 1
Q8IYD8 1
Q03188 1
P15924 1
Q03405 1
P17036 1
Q03468 1
Q8IYX7 1
Q04671 1
Q8IZF2 1
Q04844 1
A6NM11 1
Q05952 1
O95185 1
Q07075 1
Q58F21 1
A1A4T8-2 1
O95206 1
O60285 1
Q5H9F3 1
Q07283 1
Q5IJ48 1
O60292 1
Q5JSS6 1
Q08397 1
Q5JTV8 1
Q08426 1
O95394 1
Q08999 1
Q5JWR5 1
Q08AF3 1
A1A519 1
Q08AG7 1
Q5M9N0 1
Q09MP3 1
Q5QJE6 1
O60312 1
Q5SQ64 1
Q0P6D6 1
Q5SW96 1
A4D1E9 1
Q5SXM2 1
A4D263 1
Q5SY16 1
Q0ZGT2 1
Q5SZD4 1
Q0ZLH3 1
A6NHR9 1
O60403 1
O95897 1
A4Z6T7 1
Q5T1B0 1
Q12887 1
Q5T2N8 1
A8MV65 1
O95944 1
Q8IZU2 1
Q5T7B8 1
Q8IZY2 1
O95995 1
A0PJX4 1
Q5TAA0 1
A1IGU5 1
Q5TD97 1
Q13084 1
Q5THR3 1
Q13127 1
P01031 1
Q13137 1
P01833 1
Q13233 1
Q5VTJ3 1
Q13316-2 1
P02458 1
O60548 1
Q5VV41 1
Q13470-2 1
Q5VVB8 1
Q13487 1
Q5VW36 1
Q13601 1
Q5VXT5 1
Q13615 1
Q5VYM1 1
B1AH88 1
C9JBG3 1
Q13748 1
Q5XX13-4 1
Q13753 1
Q60I27 1
Q13797 1
P02538 1
Q13946-2 1
Q66K74 1
O60603 1
P02730 1
O60721 1
P02788 1
Q14032 1
Q68DV7 1
Q14112 1
Q6A555-2 1
Q14126 1
Q6B9Z1 1
Q14160-3 1
P04259 1
Q14209 1
C9JDV5 1
Q14210 1
Q6IPM2 1
Q14244 1
Q6L8Q7 1
B1ANC0 1
P04731 1
Q14331 1
Q6NUN0 1
O75023-3 1
Q6NUS8 1
B1APY0 1
Q6NVV3 1
Q14679 1
P05787 1
Q14690 1
Q6NY19-2 1
Q14774 1
P06732 1
B2R6C3 1
Q6P4A8 1
Q14934-3 1
Q6PDB4 1
Q14980 1
P07900-2 1
Q14990 1
Q6PGQ1 1
Q15032 1
Q6PJF5-2 1
B4DQM4 1
Q6Q0C1 1
A6ND48 1
Q6Q759 1
B5B2M5 1
Q6T423 1
O75161 1
Q6UB98 1
O75185 1
Q6UE05 1
Q15652 1
Q6UW78 1
Q16204 1
P08151 1
Q16348 1
Q6UXC1-2 1
B5MDD1 1
Q6UXY1 1
Q16610 1
Q6V1P9 1
Q16762 1
Q6W3E5-2 1
Q16787 1
Q6WQI6 1
Q16790 1
Q6X784 1
Q16828 1
Q6XZB0-2 1
Q17R60 1
P08922 1
O75635 1
Q6ZN28 1
Q18PE1 1
Q6ZNB6 1
Q1EHB4 1
Q6ZP82 1
Q1X8D7 1
Q6ZR52-2 1
O75717 1
P08F94 1
Q2HXU8 1
Q6ZRV2 1
Q2I0M4 1
Q6ZS81 1
A1L443 1
P09871 1
Q2L4Q9 1
Q6ZUB1 1
O75952 1
Q6ZV73 1
Q2M2I5 1
P10321 1
Q2M329 1
P10412 1
Q2M3C7 1
P10523 1
Q2NL98 1
Q7RTR0 1
Q2TAA8 1
Q7RTS3 1
Q2TAL5 1
Q7Z2W4 1
Q2TBF2 1
Q7Z3Y8 1
Q2VIQ3 1
Q7Z407 1
Q2VPA4 1
P12107-2 1
Q2VPK5 1
Q7Z5L7-3 1
Q30201 1
Q7Z5Y6 1
Q32M84 1
Q7Z6L1 1
Q32M92 1
Q7Z745 1
O76014 1
Q86SH2 1
Q32MK0 1
P12270 1
O94769 1
Q86TJ5 1
Q3KPI0 1
Q86U06 1
O94823 1
Q86US8 1
Q3LHN0 1
Q86V48 1
Q3LI76 1
P13284 1
Q3LIE5 1
C9JFW9 1
Q3MJ13 1
Q86VZ4 1
Q3SY84 1
Q86W28 1
Q3YEC7 1
Q86X19 1
Q3ZCM7 1
Q86XL3 1
Q3ZCV2 1
Q86YB8 1
Q3ZCX4 1
Q86YE8-3 1
Q495D7 1
P15313 1
Q495Z4 1
Q8IUN9-2 1
O94850 1
Q8IUX7 1
Q49A88-6 1
Q8IVF4 1
Q49MG5 1
Q8IWA6 1
A1Z1Q3-2 1
Q8IWD5 1
B7ZLS8 1
Q8IWT3 1
Q4G0Z9 1
Q8IX12 1
B8A4U7 1
Q8IXS2 1
Q4VX76-2 1
Q8IY37 1
Q4W5C3 1
Q8IYE1 1
Q4W5G0 1
Q8IYI8 1
Q4ZJI4 1
P17022 1
Q53EZ4 1
Q8IYR2 1
Q53GL7 1
Q8IYU4 1
Q53HC0 1
Q8IYX0 1
Q53QW1 1
Q8IYY4 1
Q53RT3 1
Q8IZC4 1
Q53S99 1
Q8IZF3 1
Q53SF7 1
Q8IZT6 1
Q53T94 1
Q56UN5 1
Q8N0U7 1
Q13007 1
Q13018 1

 

На следующем этапе возникает вопрос — что делать с полученным списком генов с наибольшим числом frameshift мутаций? Можно ли определить характер и уровень функциональных изменений в организме человека? Оказывается, можно. Как упоминалась выше, полученные потенциальные генетические варианты, приведшие к замене кода аминокислот, были сохранены в таблице. Затем я подсчитал, в каких именно протеинах наблюдается наибольшое число потенциально вредных frameshift мутаций, и выделил их в отдельный список. Поскольку это самые интересные (с точки зрения возможных изменений в фенотипе) мутации, то далее я работал только с теми протеинами, в которых наблюдается повышенное количество вредоносных мутаций. Из общего числа я отобрал 35 протеинов с наибольшим количеством мутаций. Отмечу, что ни один из обнаруженных протеинов сам по себе не имеет значимой связи с риском развития заболеваний  интересующего нас спектра. Поэтому вышеприведенный список протеинов был обработан в программе Cytoscape, так как нас интересуют в первую очередь обнаружение функциональных связей с теми протеинами, которые ранее были описаны в литературе как потенциальные факторы развития отдельных расстройств и заболеваний.  Я не буду приводить полученные сетевые графы взаимодействия протеинов, так как они содержат деликатную информацию медицинского характера, поэтому помещенный ниже образец графического отображения в программе Cytoscape взаимодействия протеинов носит сугубо иллюстрирующий характер и взят с сайта програмыы Cytoscape

visualMapping1

ДНК-тестирование: новый тип теста от Exogen Bio

#DNA_crowdfunding

http://www.indiegogo.com/projects/exogen-bio-how-damaged-is-your-dna

На известной платформе краудфандинга — Indiegogo — появился анонс замечательного проекта компании Exogen Bio. Компания разрабатывает принципиально новый коммерческий вид ДНК-тестирования. Несмотря на присутствие в названии компании слова «экзо», судя по видео-презентации на Indiegogo в задачу компании не входит классическое прочтение (секвенирования) экзома или генома. В одном из кадров показан новенький Synergy Neo HTS Multimode Microplate reader, благодаря чему можно сделать вывод о сути анализа.
Это будет не секвенирование, а так называемый скрининг cостояния ДНК в клетках донорах (кинетика и спектральное сканирование). По результатам скрининга можно получить представление о динамике повреждения ДНК, и сопоставить их с возможными рисками развития молекулярных патологий.
Нужно сказать, что сам метод не является принципиально новым, первоначально он разрабатывался для нужд молекулярной онкологии. Новизна состоит в ином: компания планирует привлечь значительное количество «сitizen scientists», чьи данные помогут провести исследования о связи повреждений структуры ДНК и патологий. Эти исследования помогут развить доступную для врачей лабораторную базу. Таким образом, данные проект продвинет существующие в академических лабораториях технологии ближе к народу, и через пару десятков лет такие анализы будут назначаться врачами в рутинном порядке.

Молекулярная патология

Программные положения

«Традиционная патология занимается морфологическими проявлениями болезней. В дополнение к этому, молекулярная патология включает в себя приборы молекулярной биологии для того, чтобы изолировать и идентифицировать возбудители инфекционных заболеваний, понять роль дифференциальной экспрессии генов в этиологии болезни, предоставить более точные средства для диагностики заболеваний и обеспечить более индивидуализированный подход к терапии.

Многие болезни вызываются наследственными генными мутациями, например, муковисцидоз, мышечная дистрофия и лизосомные болезни накопления (в группу лизосомных болезней накопления (ЛБН) входят 50 — 70 различных редких генетических заболеваний). Другие изменения генов определяют бóльшую предрасположенность организма к заболеваниям, например, раку или болезням сердца.

Ключевыми методами молекулярной патологии для идентификации взаимосвязи между изменениями генов и заболеваниями являются выделение и культивирование клеток, иммуногистохимия, метод FISH и методы лабораторной молекулярной биологии (идентификация генных мутаций, определение профиля экспрессии, анализ белков, блоттинг, микрочипы).

Считается, что развитие злокачественных заболеваний проходит через определенные стадии, такие как гиперплазия, дисплазия, преинвазивный рак, инвазивная карцинома и метастазы, каждая из которых может быть связана с мутациями и изменениями экспрессии подгруппы генов. Лазерная микродиссекция с успехом применяется для выделения отдельных клеток или популяций клеток из ткани (замороженных, зафиксированных срезов тканей и монослоев культур клеток) для последующего генетического анализа, который обеспечивает возможность непосредственного сравнения нуклеиновых кислот клеток на различных стадиях развития болезни.

Влияние изменений генов на функцию белков и на заболевание можно исследовать с помощью различных методов наблюдения. Особенно важными являются такие методы, как наблюдение белок-белковых взаимодействий с помощью метода получения изображений в заданный промежуток времени, микроскопии TIRF и конфокальной флуоресцентной микроскопии, например трехмерный рендеринг и FRET/BRET. Они позволяют проводить пространственный и временной анализ динамических событий, включая, например, рецепторные взаимодействия и другие сигнальные события.»

Еще раз о экзомном тестировании — пример отчета Exome 80x 23andme

Пару дней тому назад в своем блоге я изложил

Но поскольку одна картинка стоит тысячи слов, то с разрешения владельца, я размещаю в блоге пример отчета, выдаваемого клиентам 23andme после прохождения экзомного тестирования.  Как видно по нижеприведенным изображениям, этот отчет носит сугубо отвлеченной характер, а характер излагаемой информации предполагает наличие немалых познаний в современной геномике.

  554597_4120657144542_494648084_n 303382_4120657544552_2124700585_n 252231_4120657784558_1755564213_n 479720_4120658184568_761081981_n 285695_4120658504576_1081385431_n 527651_4120658824584_192594454_n 551743_4120659024589_475852363_n 599435_4120659384598_2023625463_n 527612_4120659544602_1322921037_n 250942_4120659744607_1560066672_n 542556_4120660024614_715032428_n 250944_4120660464625_514191875_n 224935_4120660584628_446354628_n

Новые перспективы коммерческого экзомного тестирования/секвенирования

Поскольку слово «экзом» является совсем свежым заимствованием из английского языка. Наиболее простое определеие: экзом состоит из совокупности экзонов, а экзон — это участок гена (ДНК) эукариот, несущий генетическую информацию, кодирующую синтез продукта гена (белка).  Соответствующие экзонам участки ДНК, в отличие от интронов, полностью представлены в молекуле информационной РНК, кодирующей первичную структуру белка. По мнению некоторых исследователей  соответствуют доменам (структурно автономным областям) в белке и являются первичными генетическими единицами, рекомбинация которых приводит к возникновению в ходе эволюции новых генов и соответственно новых белков. Э. чередуются в структуре гена с другими фрагментами — интронами.
Иными словами, экзом — это совокупность всех участков ДНК, несущих информацию, определяющую экспрессию белка.

Здесь уместно вспомнить недавную видео-лекцию Павла Певзнера «Персональная медицина и ассемблирование геномов: паззл с миллиардом частей» (где-то на мордокніге я давал ссылку). Певзнер, в числе прочего, мимоходом упоминул про недавную работу одного из ведущих сотрудников института Сангера (ведущего центра персональной геномики, одним из исследовательских направлений как раз и является -The 500 Exome Project with collaborators from WTSI, GSK and Lausanne University ).
Речь идет о нашумевшей работе, в котором ученый описывает как на протяжении полугода он в рутинном режиме ежемесячно «проверял экзомы» на предмет анализа экспрессии белков. В ходе работы был не только выявлен целый ряд ранее неизвестных вариантов генов, ответственных за предрасположенность к диабету второго типа, но и произведен анализ динамики белковых изменений.Этот тщательный анализ позволил «излечить» пациентов от диабета.

После того как медиа взбудоражила общественное сознание этой новостью, целая группа коммерческих компаний обратилась к этому, ранее коммерчески неосвоенному типу генотипирования (хотя некоммерческіе исследования ведутся уже не менее десятка лет). Чутко следящая за коньюктурой геномного рынка компания Illumina сразу опустила планку цен на «экзомы» до 200 долларов. Чем не приминула воспользоваться компания 23andme, предлагающая (в качестве посредника, т.к. само типирование проводится в лабах Иллюмины) конечному потребителю продукт по цене 999 долларов.Легкая доступность экзомного тестирования будет иметь свои преимущества, поскольку позволит не только проводить анализ генетических маркеров, определяющие риски, но и анализировать экспрессию белков под воздействием определенных эпигенетических факторов (тип приминяемых медикаментов, питания и т.д.).

Сейчас врачи посылают пациентов на анализ крови, cлюны, мочи и прочих биологических субстанций.Лет этак через 10 врач будет писать в истории болезнии: «Пациенту назначено прохождение годового курса экзомного генотипирования и анализа»

Перед тем как перейти к конкретному примеру, немного сухой теории.

Принципы и платформы экзомного сивенирования

Авторы ряда недавних исследований пытались сравнить коммерческие технологии экзомного секвенирования. Предложенные в течение последних нескольких лет коммерческие платформы секвенирования следующего поколения секвенирования, разработаы с целью секвенирования кодирующей части генома — так называемого экзома. В недавнем исследовании лаборатории Майкла Снайдера (Стэнфорд), авторы сравнили три основных платформы экзомного секвенирования  созданные компаниями Agilent’s SureSelect Human All Exon (50 Mbp), Roche/Nimblegen’s SeqCap EZ v2.0, and Illumina’s TruSeq Exome Enrichment. Платформы сравнивались как между собой, так и с платформой полногеномного сиквенирования  (35x) на примере сиквенирования генома одного и того же человека.

Рис.1. Основные экзомные платформы (Clark и др., Nat Biotech, 2011 год.).

Различия платформ

Для  начала, следует отметить различия между платформами.

Фото: Кларк и др., Nat. Biotech. 2011

Большое количество базовых пар генома (29,45 Мбит), которое (предположительно) составляет «ядро» покрывается всеми  сравниваемыми платформами. В индивидуальном плане, каждая из платформ имеет от 4 до 28 Мбит уникального  «таргетного пространства покрытия». Платформа Agilent лучше подходит для транскриптов Ensembl, в то время как платформа NimbleGen имеет более широкий охват микроРНК.  На приведенной выше диаграмме Венна видно что пересчение множеств покрываемых платморфмами базовых пар генома («таргетное пространство») гораздо больше, чем пересечение каждой из платформ  с множеством таргентного пространства платформы Illumina. Это в первую очередь  объясняется тем, что Illumina в первую очередь нацелена  на секвенирование нетранслируемых областей генома (НТО). Трудно сказать,  является ли это преимуществом платформаы Illumina, или нет. С одной стороны, этот факт, конечно же, представляет определенный интерес исследователям, которые ищут  геномные варианты в регионах НТО. С другой стороны, эта характерная особенность экзомной платформы  Illumina приводит к неизбежному ухудшению качества покрытия генома.  И, действительно, как отмечают авторы отмечают, при секвенировании генома в режиме 50 миллионов 2 × 100 б.п. покрытие генома на платформе Illumina составляет 30x,  для сравнения 60x на платформе Agilent -60x и на платформе NimbleGen — 68x.

Определение таргетной эффективности платформы  и содержание GC

Авторы произвели определение и секвенирование экзома на одном образце — взятом у добровольца европейского происхождения — с использованием всех трех экзомных решений. Каждая экзомная библиотека  получила одну полосу  прочтения (2 × 100 б.п.)  на  Illumina HiSeq 2000 (11-18 Гигобаз в каждой библиотеке).  С помощью программы BWA 99%  полученных геномных «ридов» было отображено на референсную последовательность человеческого генома, примерно 10-15% геномных ридов оказались ПЦР-дубликатами. Затем была вычислена общая таргетная эффективность прочитки  ( при расчете исходили из того, что на каждый экзом приходится примерно 80 миллионов ридов,  и вычисляли процентные доли нуклеотидов покрытых при прочитке 10x, 20x, 30x ). Как пишут авторы исследования: «при всех аналогичных параметров покрытия и числа ридов, платформа NimbleGеn дала более высокий процент опеределения  своих «»таргетных» (целевых) баз, в сравнении с  другими платформами.» Авторы объясняют эффективность платформы использованием высокой плотности перекрывающихся биотинилированных олигов, используемых в платформе NimbleGen для «захвата» экзонов.

Неудивительно, что все платформы продемонстрировали заметное снижение охвата при  повышении и понижении GC целей. Однако, при низкой GC (40% до 20%),  платформа Agilent показал лишь небольшое cнижение глубины прочитки, что, возможно, связано с меньшим числом циклов ПЦР,  и большим числом биолитинированных пробов для захвата РНК, а также с использованием уникальных РНК-пробов.

Обнаружение единичных нуклеотидных вариантов (SNV-ов) и небольших инделов

Как известно, обнаружение небольших вариантов последовательности, особенно SNV-ов, является одной из основных целей секвенирования экзома. Используя нормированные  наборы геномных «ридов» размером в ~ 80 мегабаз, авторы  обнаружили в каждом наборе  экзома SNV-ы  (авторы использовали программное обеспечения GATK). Все три платформы показали высокую степень корреляции между «вызовами»  SNV-ов и высокой плотностью массива генотипов SNP-ов. Как показал эксперимент, референсный аллель имел небольшое преимущество (0.53-0.55) в позициях SNP-ов, и это дает повод утверждать о небольшом отклонении результатов в случае  с ридами, которые содержат геномные варианты. Вместе с тем, не было найденно никаких отклонений в отношении определенных типов субституций.   Как и следовало ожидать, на всех платформах  количество обнаруженных SNV-ов увеличивалось при увеличении охвата генома. Этот рост, однако,  не носил линейный характе; при прочитке 30 миллионов баз,  не было обнаружено более 95% SNV-ов. В общих регионах секвенированных экзомов, платформа NimbleGen  обнаружила большинство SNVs при наименьшем количестве прочтений.

Кроме того, платформа NimbleGen (за счет более эффективного захвата и, следовательно, более глубокого охвата генома) обнаружила большинство инделов  — как в общих регионах экзомов, так и в регионах рефересной последовательности генома. При более низком уровне прочитке, платформа Agilent обнаружила больше инделов в общих регионах экзомов, но при  50 миллионах прочтений, платформа Illumina превзошла Agilent (и, что неудивительно, обнаружила еще много инделов в нетранслируемых регионах). Размер большинства инделов был равне 1 базовой паре, хотя авторы отметили небольшое увеличение размера инделов  до 4-8 базовых пар (что подтверждается путем сравнения генома человека с геномом приматов), а также увеличение за счет отбора против  сдвига рамки мутаций.

Сравнение  результатом экзомного секвенирования с результатами полногеномного секвенирования

Основным достоинством данного исследования можно считать то, что авторы  произвели и  полногеномное секвенирование образца при средней величине покрытия 35х.  Корреляция по гетерозиготным позициям SNP-ов между результатами экзомного секвенирования и полногенмного секвенирования составила 98,5%. Для имитации мультиплексного секвенирования 3 или 6  экзомных библиотек на одну полосу (GAIIx или HiSeq, соответственно), авторы нормировали экзомные продукту  до 50 миллионов  ридов на каждой из платформ. В каждом попарном сравнении продуктов  полногеномного и экзомного секвкенирования, набор данных полногеномного секвенирования был ограничен теми же таргетными регионами, что и сравниваемый экзомный продукт.  Хотя этот шаг  и представляется необходимым для сравнения по методу «подобное к подобному», нужно отметить, что он сводит к минимуму мощь полногеномного секвенирование, которое обеспечивает относительно объективное освещение всех кодирующих областей. Другими словами, это ограничение дает определенное преимущество экзомным продуктам,  поскольку сравниваются только те таргетные регионы, под которые заточена платформа экзомного продукта.

Перекрытие SNV-ов в экзомных продуктах и полно-геномном продукте (Clark и др., Nat Biotech 2011 года.)

Подавляющее большинство SNV-ов в таргетных  регионах было обнаружено как в экзомных, так и в полногеномных регионах, с небольшими различиями. Примечательно, что при попарном сравнении специфические SNV в  экзомных и полногеномных продуктах, ка правило, имеют (1) низкий  доверительный порог, (2) более высокую долю новельных (по отношению к dbSNP) вариантов, и (3) лучшее покрытие в детектирующей платформе. Специфические для полногеномного продукта SNV-ы часто  имеют нулевые риды в экзомных продуктах (вероятно, из-за проблемы с гибридизацией). Напротив, большинство SNV-ов, специфических для экзомных продуктов, было покрыто в полногеномном продукте, хотя их общее число в полногеномном продукте все равно остается ниже, чем в экзомном продукте.

Как становится ясно из вышеприведенного рисунка, число SNV-ов, обнаруженых в экзомных продуктах и полногеномном продукте отлично коррелирует с «»потолком» каждой экзомной платформы. Illumina, которая имеет наибольшее таргетное пространство (особенно в нетранслируемых регионах), имеет наибольшее количество общих SNV-оd.  Число общих SNV-ов в Agilent больше, чем NimbleGen, однако чувствительность NimbleGen в определении истинно-положительных результатов в целевых регионах  гораздо выше, чем на двух других платформах.

Как выбрать экзомную платформу

Авторы приходят к выводу, что все три платформы экзомного секвенирования по-своему  хороши. Выбор платформы, вероятно, зависит от целей, приоритетов и бюджета исследователя. Для малобюджетных проектов, NimbleGen предлагает наиболее эффективное обогащение экзонов (а также микро-РНК). Agilent подходит для охоты за вариантами генома, поскольку обеспечивает более широкий охват, но требует больше  секвенированных данных. Illumina наиболее требовательна в плане секвенированных даннных, но зато обследует нетранслируемые области, могут заинтересовать некоторых исследователей.

Мои собственные практические выводы на основе анализа данных

Летом я освоил навыки анализоа результатов экзомного генотипирования, любезно представленные одним из немногих россиян, участвовавших в пилотном проекте экзомного генотипирования в компании 23andme.

Поскольку слово «экзом» является совсем свежым заимствованием из английского языка. Наиболее простое определеие: экзом состоит из совокупности экзонов, а экзон — это участок гена (ДНК) эукариот, несущий генетическую информацию, кодирующую синтез продукта гена (белка).  Соответствующие экзонам участки ДНК, в отличие от интронов, полностью представлены в молекуле информационной РНК, кодирующей первичную структуру белка. По мнению некоторых исследователей Э. соответствуют доменам (структурно автономным областям) в белке и являются первичными генетическими единицами, рекомбинация которых приводит к возникновению в ходе эволюции новых генов и соответственно новых белков. Э. чередуются в структуре гена с другими фрагментами — интронами.
Иными словами, экзом — это совокупность всех участков ДНК, несущих информацию, определяющую экспрессию белка.

Здесь уместно вспомнить недавную видео-лекцию Павла Певзнера «Персональная медицина и ассемблирование геномов: паззл с миллиардом частей» (где-то на мордокніге я давал ссылку). Певзнер, в числе прочего, мимоходом упоминул про недавную работу одного из ведущих сотрудников института Сангера (ведущего центра персональной геномики, одним из исследовательских направлений как раз и является -The 500 Exome Project with collaborators from WTSI, GSK and Lausanne University ).
Речь идет о нашумевшей работе, в котором ученый описывает как на протяжении полугода он в рутинном режиме ежемесячно «проверял экзомы» на предмет анализа экспрессии белков. В ходе работы был не только выявлен целый ряд ранее неизвестных вариантов генов, ответственных за предрасположенность к диабету второго типа, но и произведен анализ динамики белковых изменений.
Этот тщательный анализ позволил «излечить» пациентов от диабета.
После того как медиа взбудоражила общественное сознание этой новостью, целая группа коммерческих компаний обратилась к этому, ранее коммерчески неосвоенному типу генотипирования (хотя некоммерческіе исследования ведутся уже не менее десятка лет). Чутко следящая за коньюктурой геномного рынка компания Illumina сразу опустила планку цен на «экзомы» до 200 долларов. Чем не приминула воспользоваться компания 23andme, предлагающая (в качестве посредника, т.к. само типирование проводится в лабах Иллюмины) конечному потребителю продукт по цене 999 долларов.

Легкая доступность экзомного тестирования будет иметь свои преимущества, поскольку позволит не только проводить анализ генетических маркеров, определяющие риски, но и анализировать экспрессию белков под воздействием определенных эпигенетических факторов (тип приминяемых медикаментов, питания и т.д.).

Сейчас врачи посылают пациентов на анализ крови, cлюны, мочи и прочих биологических субстанций.
Лет этак через 10 врач будет писать в истории болезнии: «Пациенту назначено прохождение годового курса экзомного генотипирования и анализа»

Как выглядит конечный продукт экзомного тестирования предлагаемый 23andme за 999 зеленых американских рублей?

Это набор из четырех файлов:
1) x.bam
2) x.bai
3) x.pdf
4) x.vcf.

X -это кодовый номер участника. BAM файл являющийся бинарной версией формата SAM (формата множественного выравнивания ДНК по референсному сиквенсу), BAI — индекс контигов в BAM файле. Наконец, VCF — это файл содержащий все «задетектированные» в BAM файле варианты (прежде всего SNPs и INDELs)

Но вернемся к экзомному тестированию.
Cуществует определенная группа лиц, которых больше интересуют вопросы происхождения и генеалогии. Медицинские аспекты, как правило, им неинтересны.

Что интересного могут излечь из экзомных данных ДНК-генеалогии? Не трудно ответить. Большинство ДНК-генеалогов знает принципы наследования ДНК, в первую очередь Y-хромосомы и митохондриального генома (которые наследуются соответственно строго по мужской и женской линии).

После предварительного знакомства со структурой экзомных данных, я должен выделить две основные проблемы, возникающие при работе с указанными выше «однородительскими маркерами».

Первая и основная проблема — это характер экзомного типировния. При экзомном типировании определяются только те снипы и инделы, которые находятся в экзонах. С митохондрионом здесь проблем особых нет — в [человеческом] митогеноме практически все вариативные позиции, являются экзомными, т.е несут генетическую информацию («код» синтеза белка). Поэтому фактически данные экзомного тестирования уже содержат полный сиквенс генома (аналог FGS от FTDNA). Остается только их извлечь. И вот тут появляется другая проблема. Для определения генетических вариантов (т.е различий нуклеотидов в локусах) необходмо провести «выравнивание» анализируемого по референсному сиквенсу. Как известно, в митохондрионе для этих целей используется «классический» сиквенс rCRS (Cambridge Reference Sequence, GenBank:NC_012920.1). Однако в геномных билдах-ассамблеях hg18 и hg19_Chr37, этот референс заменен другим. Поэтому результаты выравнивания митогенома по дефольтным вариантам вышеуказанных билдов дают результаты, сильно отличающиеся от привычного формата.

После замены дефолтного сиквенса на rCRS все получилось. Вот фрагмент из VCF файла, содержащий интересующие нас отличия от rCRS:
#CHROM POS REF ALT
MT 73 A G
MT 195 T C
MT 263 A G
MT 709 G A
MT 750 A G
MT 1438 A G
MT 1888 G A
MT 2141 T C
MT 2706 A G
MT 3106 CN C
MT 4216 T C
MT 4917 A G
MT 5894 A G
MT 7028 C T
MT 8697 G A
MT 8860 A G
MT 9117 T C
MT 10463 T C
MT 11191 C T
MT 11251 A G
MT 11719 G A
MT 11812 A G
MT 12741 C T
MT 13260 T C
MT 13368 G A
MT 13965 T C
MT 13966 A G
MT 14233 A G
MT 14687 A G
MT 14766 C T
MT 14905 G A
MT 15326 A G
MT 15452 C A
MT 15607 A G
MT 15928 G A
MT 16126 T C
MT 16294 C T
MT 16296 C T
MT 16324 T C
MT 16519 T C

Теперь о Y-хромосоме. В отличии от митохондриона, где практически все снипы локализуются в экзонах, больша часть снипов мужской Y-хромосомы лежит в «информационно бесполезных» интроных зонах. Поскольку экзомное тестирование не покрывает интроны, то большинство из известных Y-снипов просто выйдет за рамки теста

Убедился и я в этом на примере реальных данных (это представитель Y хромосомной гаплогруппы R1a1).
samtools view -h x.bam Y > Y.sam
samtools view -h -b -S Y.sam > Y.bam
samtools/samtools mpileup -C 50 -ugf chrY.fa Y.bam | /samtools/bcftools/bcftools view -vcg — > Y.raw.vcf

Данный подход позволил обнаружить у тестанта около сотни генетических полиморфизмов (координаты данные по билду hg19):
Y 4058546 0 A C
Y 4058566 0 ta t
Y 4457069 0 tctctcct tct
Y 6028350 0 A T
Y 8149348 0 G A
Y 8566853 0 GCCC GCCCC
Y 8783761 0 C T
Y 8881927 0 GGTGT GGTGTGT
Y 9198243 0 T A
Y 9304866 0 G A
Y 9368340 0 tg tGNg
Y 9384631 0 A C
Y 9385720 0 CGG CG
Y 9909058 0 T A
Y 9930114 0 C A
Y 9931330 0 T A
Y 9938790 0 C A
Y 9938851 0 A T
Y 9938982 0 T C
Y 9939117 0 T A
Y 9952497 0 A G
Y 9982892 0 G A
Y 9982917 0 C A
Y 10007709 0 C A
Y 10007727 0 G A
Y 10007741 0 G A
Y 10011344 0 A G
Y 10011487 0 A G
Y 10011498 0 G C
Y 10011502 0 A G
Y 10011545 0 T G
Y 10011604 0 C CTT
Y 10011648 0 T G
Y 10011673 0 G A
Y 10011677 0 G A
Y 10011698 0 A G
Y 10011878 0 G A
Y 10011935 0 C CT
Y 10011960 0 T C
Y 10011966 0 ATT AT
Y 10012012 0 T A
Y 10013318 0 A G
Y 10028123 0 C T
Y 10028180 0 A G
Y 10029163 0 A G
Y 10029228 0 G A
Y 10029308 0 A T
Y 10029322 0 T C
Y 10029340 0 T C
Y 10029485 0 G C
Y 10029487 0 T A
Y 10029513 0 A G
Y 10029610 0 G A
Y 10029616 0 G T
Y 10029623 0 C T
Y 10029629 0 A G
Y 10029649 0 C G
Y 10029711 0 A C
Y 10043269 0 C T
Y 13241432 0 G T
Y 13241656 0 G A
Y 13243050 0 C G
Y 13243352 0 G A
Y 13244666 0 C T
Y 13244690 0 A G
Y 13254228 0 C T
Y 13262943 0 ACCC ACC
Y 13263091 0 G A
Y 13263304 0 C T
Y 13263364 0 A G
Y 13263374 0 C G
Y 13266266 0 G A
Y 13266286 0 C T
Y 13266301 0 A G
Y 13266368 0 T G
Y 13266377 0 G C
Y 13266499 0 A G
Y 13266520 0 G T
Y 13266556 0 T G
Y 13266560 0 C T
Y 13266587 0 C G
Y 13268187 0 T C
Y 13268361 0 T C
Y 13268377 0 A G
Y 13268521 0 C T
Y 13307425 0 G T
Y 13307562 0 G A
Y 13309174 0 A T
Y 13309226 0 A C
Y 13309239 0 G C
Y 13309262 0 T C
Y 13309348 0 C T
Y 13311223 0 T A
Y 13311491 0 C T
Y 13311501 0 G A
Y 13312579 0 G A
Y 13312666 0 G C
Y 13312729 0 C T
Y 13312756 0 A G
Y 13312789 0 A G
Y 13332277 0 C T
Y 13357224 0 C T
Y 13370991 0 C A
Y 13445929 0 G C
Y 13445957 0 C G
Y 13463779 0 A C
Y 13463831 0 T A
Y 13463837 0 G A
Y 13463860 0 C G
Y 13465055 0 A G
Y 13470805 0 G A
Y 13470834 0 T C
Y 13470855 0 T G
Y 13470880 0 G A
Y 13470897 0 G A
Y 13475849 0 C T
Y 13476553 0 T C
Y 13478387 0 A T
Y 13478445 0 G C,A
Y 13478569 0 T G
Y 13478583 0 T G
Y 13478613 0 A G
Y 13485671 0 T G
Y 13488312 0 C A
Y 13488330 0 A G
Y 13488337 0 C T
Y 13488370 0 G A
Y 13488395 0 A G
Y 13488410 0 A T
Y 13488429 0 A G
Y 13488601 0 A C
Y 13488621 0 A G
Y 13488946 0 A C
Y 13488952 0 T C
Y 13488972 0 C G,T,A
Y 13488988 0 A G
Y 13488992 0 T C
Y 13489043 0 G A
Y 13489069 0 A C,G
Y 13489077 0 T C
Y 13489206 0 C G
Y 13489220 0 T C
Y 13489234 0 T C
Y 13489255 0 A G
Y 13489292 0 A G
Y 13489300 0 A G
Y 13492264 0 C A
Y 13500410 0 T G
Y 13500424 0 T C
Y 13500443 0 T C
Y 13502048 0 C T
Y 13524378 0 T C
Y 13524752 0 G T
Y 13524761 0 C T
Y 13524873 0 T C
Y 13537129 0 G A
Y 13537569 0 A T
Y 13537581 0 C T
Y 13541022 0 C A
Y 13541053 0 CA CATA
Y 13541068 0 T C
Y 13541199 0 A G
Y 13541232 0 A T
Y 13541288 0 G A
Y 13541293 0 ATTT ATT
Y 13541420 0 A C
Y 13541454 0 T C
Y 13541478 0 G T
Y 13541520 0 C T
Y 13541556 0 A C
Y 13541561 0 T G
Y 13541584 0 C G
Y 13572922 0 A C
Y 13572932 0 T C
Y 13572999 0 A G
Y 13573033 0 A C
Y 13573108 0 G C
Y 13573152 0 C A
Y 13573216 0 G A
Y 13573240 0 C T
Y 13573271 0 G T
Y 13595280 0 T C
Y 13687807 0 T G
Y 13688825 0 C G
Y 13689634 0 T C
Y 13689668 0 C G
Y 13689755 0 G C
Y 13690562 0 C T
Y 13694899 0 G A
Y 13694929 0 G A
Y 13694956 0 C G
Y 13694983 0 T A
Y 13695051 0 T G
Y 13726074 0 T A
Y 13726129 0 C G
Y 13842718 0 G C
Y 14482235 0 C A
Y 14485120 0 G A
Y 14498990 0 C T
Y 14771478 0 A T
Y 14898094 0 A G
Y 14958218 0 C T
Y 15026424 0 A C
Y 15027529 0 T G
Y 15930958 0 ccttcttcctc cCTTCTTCCTCCTcttcttcctc
Y 16751825 0 A G
Y 16832517 0 T C
Y 17231616 0 A G
Y 21154004 0 A C
Y 21154323 0 G A
Y 21154426 0 G A
Y 21154466 0 T A
Y 21208056 0 A G
Y 21208066 0 C G
Y 22260237 0 C T
Y 22510104 0 G A
Y 22510163 0 T A
Y 23473201 0 T A
Y 23800360 0 T G
Y 23805478 0 C A
Y 24008079 0 T A
Y 28582510 0 G C
Y 28582566 0 C G
Y 28582605 0 T C
Y 28582622 0 G A
Y 28582676 0 G A
Y 28582685 0 C A
Y 28582863 0 A G
Y 28582865 0 A G
Y 28582921 0 A G
Y 28582932 0 G A
Y 28583310 0 C T
Y 28583314 0 A G
Y 28583382 0 G C
Y 28583394 0 T C
Y 28583410 0 C G
Y 28583415 0 T C
Y 28583431 0 A T
Y 28583432 0 A G
Y 28583590 0 A C
Y 28586782 0 G A
Y 28586959 0 T C
Y 28587232 0 T C
Y 28689055 0 G T
Y 28709343 0 A G
Y 28780767 0 A C
Y 28780823 0 T A
Y 28780883 0 G A
Y 28815270 0 C A
Y 28815656 0 T C
Y 28816806 0 T C
Y 28816831 0 C T
Y 28816870 0 T G
Y 28816948 0 C G
Y 28817276 0 T G
Y 28817286 0 T G
Y 28817559 0 T G
Y 28817636 0 G A
Y 58856145 0 G C
Y 58883603 0 A T,C
Y 58883784 0 T A
Y 58883834 0 A T
Y 58893627 0 A T
Y 58968939 0 G A
Y 58975896 0 T C
Y 58981639 0 cctccactcca cCTCCActccactcca
Y 58982160 0 G T
Y 58982559 0 A C
Y 58982671 0 tcttccttc tcttc
Y 58985524 0 T G
Y 58996230 0 G A
Y 58996257 0 G T
Y 58999765 0 C T
Y 58999773 0 G A
Y 59001429 0 G A
Y 59001608 0 C T
Y 59001620 0 A C
Y 59001647 0 G A
Y 59001685 0 G C
Y 59001722 0 G A
Y 59001753 0 T C
Y 59001773 0 A C
Y 59001782 0 C A
Y 59001792 0 T C
Y 59001960 0 T A
Y 59002047 0 C G
Y 59002139 0 G T,A
Y 59005179 0 C A
Y 59010280 0 A G
Y 59015256 0 T A
Y 59017005 0 A G
Y 59017181 0 T A
Y 59017206 0 A G
Y 59017378 0 T G
Y 59017384 0 ag aGg
Y 59018341 0 C G
Y 59020728 0 A G
Y 59022718 0 A G
Y 59022723 0 C T
Y 59022734 0 C T
Y 59022768 0 A G
Y 59027525 0 A G
Y 59027700 0 A C
Y 59027882 0 T G
Y 59029728 0 C T

В продолжение о Y-хромосоме. Совершенно ясно, что большинство из снипов, обнаруженных у протестированного ранее не были известны, и поэтому отсутсвуют в официальном списке ISOGG.
C помощью незамысловатой комманды grep -f snps ISOGGsnps я нашел лист известных ISOGG-снипов, которые также присутствуют и в данных тестанта>

L146 R1a M420 rs17250535 21882589 23473201 T->A
L265 R1b1a2 rs9786882 8209348 8149348 A->G
L269 G 13467612 14958218 T->C
M173 R1 P241; Page29 rs2032624 13535818 15026424 A->C
M201 G rs2032636 13536923 15027529 G->T
M379 I2a2a2 rs2032636 13536923..13536924 15027529..15027530 GT->del
M420 R1a L146 rs17250535 21882589 23473201 T->A
P241 R1 M173; Page29 rs2032624 13535818 15026424 A->C
Page7 R1a1a1 rs34297606 13008998 14498990 C->T
Page29 R1 M173; P241 rs2032624 13535818 15026424 A->C
Page83 P rs35361051 13407488 14898094 A->G

Исходя из вышеприведенной таблицы, Y-хромосомная сигнатура тестируемого в классическом ФТДНА-шном виде будет выглядеть следущим образом:

L269-:M201-:M379-:Page83+:L265-:Page29(M173+,P241+):M420+:Page7+.

Из чего еrgo (следует), что тестант принадлежит к группе R1a1a1