биоинформатика | Заметки о генетике

Формальный анализ смешивания предковых популяций: белорусы, часть 2

Опубликовано 29 сентября, 201629 сентября, 2016 автором verenich

Итак, после определения значимых для формального статистического моделирования комбинаций предковых популяций (или вернее, их суррогатов) представляется возможным смоделировать две вещи. Во-первых, необходимое с точки зрения статистики, число «импульсов» или «потоков» смешивания, а во-вторых, пропорции вклада «предковых» групп в генофонд белорусов.

Результаты анализа в программах qp3Pop и qpDstat показали, что в референтной группы белорусов присутствуют сигналы смешивания трех групп — мезолитических охотников-собирателей Европы (WHG), неолитических популяций земледельцев с Ближнего Востока и cибирских охотников-собирателей (чьи потомки в составе индоевропейцев) распространили свои гены по всей Европе.

Но меня больше интересует вопрос оценки величины доли вклада так называемого «базального компонента»(Basal Eurasian):

«четвертый элемент» — тот «базальный» компонент генофонда Европы, который проявился при моделировании истории сложения генофонда Европы в работе [Lazaridis et al., 2014] (см. раздел 8.4, рис 8.20) — предковой евразийской группой, которая внесла свой большой вклад и в геном неолитических земледельцев. Из аналогичной по методам модели, созданной в рассматриваемой работе [Seguin-Orlando et al., 2014], следует (рис. 8.6), что в геном человека из Костенок эти таинственные «базальные евразийцы» внесли не менее важный вклад, чем и верхнепалеолитические западные евразийцы. Также из модели следует, что он имел и общих, хотя и более отдаленных предков с древними северными евразийцами восточного ствола.

В этих целях я решил использовать в качестве суррогата базального евразийского генома геном Mota (древнего жителя Африки), примерно половину генома которого составлял тот самый пресловутый базальный компонент (результат обратных миграций натуфийского населния Ближнего Востока в восточную Африки)

Итак, в начале используем программу qpWave из того же пакета Admixtools

parameter file: qpWave.par


THE INPUT PARAMETERS
##PARAMETER NAME: VALUE

indivname: data.ind

snpname: data.snp

genotypename: data.geno

popleft: left

popright: right

maxrank: 6
qp4wave2 version: 200

left pops: Levant_N Mota WHG EHG

right pops: Han Onge Papuan Kostenki14 Ust_Ishim Siberian_Upper_Paleolithic

0 Levant_N 13 1 Mota 1 2 WHG 2 3 EHG 3 4 Han 33 5 Onge 15 6 Papuan 14 7 Kostenki14 1 8 Ust_Ishim 1 9 Siberian_Upper_Paleolithic 1 jackknife block size: 0.050 snps: 572603 indivs: 84 number of blocks for block jackknife: 719 dof (jackknife): 631.955 numsnps used: 177238 f4info: f4rank: 0 dof: 15 chisq: 574.447 tail: 9.47752373e-113 dofdiff: 0 chisqdiff: 0.000 taildiff: 1

<cf4info:
f4rank: 1 dof: 8 chisq: 115.553 tail: 2.7408605e-21 dofdiff: 7 chisqdiff: 458.894 taildiff: 5.4614954e-95
B:
scale 1.000
Onge -0.475
Papuan -0.521
Kostenki14 0.069
Ust_Ishim -0.746
Siberian_Upper_Paleolithic 1.986
A:
scale 290.851
Mota -0.932
WHG 0.299
EHG 1.429

f4info: f4rank: 2 dof: 3 chisq: 8.502 tail: 0.036691843 dofdiff: 5 chisqdiff: 107.050 taildiff: 1.7204978e-21 B: scale 1.000 1.000 Onge -0.462 -0.050 Papuan -0.522 -0.105 Kostenki14 0.288 2.189 Ust_Ishim -0.733 0.378 Siberian_Upper_Paleolithic 1.973 -0.232 A: scale 286.604 578.115 Mota -0.951 -1.197 WHG 0.385 0.752 EHG 1.396 -1.001

f4info: f4rank: 3 dof: 0 chisq: 0.000 tail: 1 dofdiff: 3 chisqdiff: 8.502 taildiff: 0.036691843 B: scale 1.000 1.000 1.000 Onge -0.400 -0.203 1.065 Papuan -0.459 -0.258 0.882 Kostenki14 0.299 2.175 0.273 Ust_Ishim -0.645 0.116 1.513 Siberian_Upper_Paleolithic 2.031 -0.382 0.850 A: scale 282.949 595.536 1395.824 Mota -0.857 -1.172 0.944 WHG 0.466 0.827 1.449 EHG 1.431 -0.971 0.093

## end of run

Нас интересует статистика f4rank 2, и как видно она убедительна: chisq: 8.502 tail: 0.036691843 dofdiff: 5 chisqdiff: 107.050 taildiff: 1.7204978e-21. То есть, для моделирования референсной популяции достаточно трех «источников» (в f4rank 3, т.е с 4 предковыми популяциями, статистика гораздо хуже: chisq: 0.000 tail: 1 dofdiff: 3 chisqdiff: 8.502 taildiff: 0.036691843 ).

Следующим этапом будет оценка пропорций «адмикса», образованного смешением трех «источников»:

parameter file: qpAdm.par


THE INPUT PARAMETERS
##PARAMETER NAME: VALUE

genotypename: data.geno

snpname: data.snp

indivname: data.ind

popleft: left

popright: right

maxrank: 8
qpAdm version: 200

left pops: Belarusian Mota WHG EHG right pops: Han Onge Papuan Kostenki14 Ust_Ishim Siberian_Upper_Paleolithic 0 Belarusian 25 1 Mota 1 2 WHG 2 3 EHG 3 4 Han 33 5 Onge 15 6 Papuan 14 7 Kostenki14 1 8 Ust_Ishim 1 9 Siberian_Upper_Paleolithic 1 jackknife block size: 0.050 snps: 572603 indivs: 96 number of blocks for block jackknife: 719 dof (jackknife): 628.796 numsnps used: 227599 codimension 1 f4info: f4rank: 2 dof: 3 chisq: 20.724 tail: 0.000120097824 dofdiff: 5 chisqdiff: -20.724 taildiff: 1 B: scale 1.000 1.000 Onge -0.502 0.176 Papuan -0.562 0.218 Kostenki14 0.442 2.074 Ust_Ishim -0.735 0.779 Siberian_Upper_Paleolithic 1.923 -0.110 A: scale 285.645 552.926 Mota -1.490 -0.238 WHG 0.017 1.685 EHG 0.883 -0.324 full rank 1 f4info: f4rank: 3 dof: 0 chisq: 0.000 tail: 1 dofdiff: 3 chisqdiff: 20.724 taildiff: 0.000120097824 B: scale 1.000 1.000 1.000 Onge -0.502 0.178 0.403 Papuan -0.599 0.280 0.995 Kostenki14 0.455 2.029 -0.773 Ust_Ishim -0.773 0.879 1.373 Siberian_Upper_Paleolithic 1.893 0.008 1.168 A: scale 288.199 555.700 1346.772 Mota -1.449 -0.056 0.947 WHG 0.026 1.726 0.141 EHG 0.948 -0.132 1.444 best coefficients: 0.318 0.148 0.534 ssres: 0.000295769 0.000789821 0.000059100 0.001247609 0.001271289 0.335431254 0.895733409 0.067025433 1.414909018 1.441765444
Jackknife mean: 0.316895017 0.150748678 0.532356305 std. errors: 0.035 0.067 0.045 error covariance (* 1000000) 1212 -1838 625 -1838 4506 -2668 625 -2668 2043 fixed pat wt dof chisq tail prob 000 0 3 20.724 0.000120098 0.318 0.148 0.534 001 1 4 125.483 0 -0.088 1.088 0.000 infeasible 010 1 4 25.750 3.55457e-05 0.378 0.000 0.622 100 1 4 102.973 2.28952e-21 0.000 0.702 0.298 011 2 5 336.445 0 1.000 0.000 0.000 101 2 5 127.950 6.47788e-26 0.000 1.000 0.000 110 2 5 184.757 0 0.000 -0.000 1.000 best pat: 000 0.000120098 - - best pat: 010 3.55457e-05 chi(nested): 5.025 p-value for nested model: 0.0249831 best pat: 101 6.47788e-26 chi(nested): 102.201 p-value for nested model: 5.01661e-24


end of run

Итак, лучшими коэффициентам (пропорциями адмикса) являются 0.318 0.148 0.534. То есть референсная популяция белорусов может быть смоделирована как 30 % базального компонента, 15% компонента мезолитических охотников собирателей и 53% компонента жителей степи бронзового века («индоевропейцев»). Очевидно, что большая часть базального компонента попала в Европу вместе неолитическими земледельцами, а оставшаяся часть — была принесена индоевропейцами.

Формальный анализ модели смешивания предковых популяций: белорусы

Опубликовано 29 сентября, 2016 автором verenich

Перед подготовкой релиза новых калькуляторов K16 и K11 на Gedmatch, я решил провести пилотный (пробный) анализ референсной популяции белорусов (в которую входят публичные образцы из базы данных HumanOrigin, EGDP — новой панели референсных геномов Эстонского биоцентра, а также данные белорусов — участников моего проекта MDLP). Основным инструментом формального анализа надежности модели будет известный и популярный пакет Admixtools.
Перед тем, как дать краткое описание первых шагов, хочу отметить трудности работы с Admixtools — в первую очередь, крайнее низкую степень документированности (описания) практических аспектов работы большинства входящих в пакет инструментов. Данное обстоятельство существенным образом снижает темп изучения этого все более популярного пакета (с другой стороны, похоже что лаконичность изложения задумывалась изначально, для отсеивания слабо мотивированных дилетантов-любителей). Второе обстоятельство, затрудняющее использование Admixtools, заключается в необходимости компилировать отдельные компоненты пакета.

Пакет содержит шесть программ

convertf: программа конвертирования форматов
qp3Pop: формальный анализ сигнала "смешивания" в трех популяциях
qpBound: программа, вычисляющая верхнюю и нижнюю границу смешивания в трех популяциях (2 референсные популяции и 1 одна популяция, предположительно образованная за счет смешивания двух референсных популяций) 
qpDstat: формальный анализ "адмикса" в 4 популяциях
qpF4Ratio: программа для определения пропорций адмикса за счет проведения 2 f4-тестов
rolloff:  программа датировки адмикса.

В приницпе, четкого порядка работы с этими программами нет, однако авторы рекомендуют следовать приведенному списку (т.е. начинать с qp3Pop и заканчивать rolloff)

Outgroup-статистика f3 является крайне полезным аналитическим инструментом для понимания взаимных отношений разных популяций: основная задача теста состоит в определении характера этих отношений. Образована ли целевая популяция (target) за счет смешивания двух рефересных популяций, или же популяции представляют собой две простые ветви популяционного дерева человечества (т.е. в образовании таргетной популяций не участвовали референсные популяции)

Статистика f3, так же, как два других вида статистик — f4 и f2 — представляют собой меру корреляции частот аллелей между рассматриваемыми популяциями. Все эти виды статистик были введены в научный оборот попгенетики биоинформатиком Ником Паттерсоном в статье 2012 года.

Статистика f3 используется в двух целях:

в качестве теста сигнала «адмикса» двух популяций-источников (A и B) в «целевой популяции» (С)
для измерения общего разделяемого дрейфа двух тестовых популяций (А и В) по отношению к внешней группе (С).

В этой публикации я приведу пример первого случая использования. Статистика f3 в обоих случаях определяется как произведение разниц частот аллелей между популяции C, А и В, соответственно:

```
F3=<(c-a)(c-b)>
```

Итак, первый случай употребления (для определения сигнала смешивания), белорусы выступают в качестве тестовой популяции, две референсные популяции образованы пермутацией имеющихся у меня популяций

Итак, промежуточные результаты (я выбрал только комбинации с негативным значением Z, свидетельствующие о сигнале смешивания) :

Следующий тип статистики — f4, — реализован в программе qpDstat в виде D-статистки. Это формальный тест адмикса четырех групп (таксонов или популяций), позволяющий определить направления потока вливания генов. Немного теории:

Для любых 4-х популяций (W, X, Y, Z), qpDstat вычисляет D-статистику следующего вида

num = (w — х) (у — z)
den = (w + х — 2wx) (у + z — 2yz)

D = num / den

Результат qpDstat показывает направления вливания генов. Таким образом, для 4 групп (W, X, Y, Z) верно следующее положение:

Если значение Z положительное ( + ), то обмен генами происходил либо между W и Y, либо между X и Z
Если значение Z отрицательное (-), то обмен генами происходил либо между W и Z, либо между X и Y.

Кроме определения направления генного дрейфа, очень важным практическим применением D-статистики служит определения «левых» и «правых» популяций для теста qpAdm (о нем чуть позднее). Так, например, комбинация из двух первых популяций left {L,L} и двух правых популяций {R, R} должна быть выбрана таким образом, чтобы значение Z в D-статистике
a) было неотрицательным, и b) имело высокое абсолютное значения. Я решил последовать совету и сгенерировал 225822 комбинаций из четырех популяций {W,Y,X,Z}, где W — фиксированная первая таргетная популяция «левого» списка, в нашем случае белорусы, Y — одна из имеющихся групп палеогеномов, X и Z — пермутация из 16 «чистых» современных популяций описанных в работе Lazaridis et al. 2016.

Итак, вот результаты (и снова я не привожу полный список, а только те комбинации, которые могут быть использованы для выбора состава «левых» и «правых» популяций. и последующего моделирования в qpAdm):

Размышления над эффективностью алгоритма SPA

Опубликовано 6 сентября, 20169 сентября, 2016 автором verenich

Перед тем, как закрыть тему SPA, я решил поразмышлять о причинах неточности определения географического ареала происхождения с помощью генома. Те, кто воспользовался моей моделью для программы SPA (последняя версия — сентябрь 2016 года), могли убедится в том, что даже при наличии большого количества маркеров, модель не во всех случаях точно определяет ареал происхождения (даже с поправкой на погрешность радиусом в 500 км).
В основу алгоритма SPA положены примерно те же самые предпосылки, что и в случае с классическим анализом главных компонент (PCA)

Первая предпосылка подхода SPA состоит в том, что частота аллели каждого SNP в популяции может быть смоделирована в виде непрерывной двумерной функции на карте. Другими словами, при выборе хромосомы индивидуума из локации с позицией (х, у) на карте, вероятность наблюдения минорного аллеля в SNP j на хромосоме может быть сформулирована в виде функции F (х, у), где Fj является непрерывной функцией, описывающей поведение частоты аллеля в зависимости от географического положения
Затем на основании сказанного делается упрощающее предположение, что эта функция является экземпляром логистической функции

где х представляет собой вектор переменных, указывающих географическое местоположение и а и Ь коэффициенты функции. Авторы понимают каждую из этих функций, как функцию FJ функции наклона градиента частота в SNP J. Эта функция кодирует крутизну склона по норме а, при этом предпологается что смещение параметра b фиксировано. Кроме того, направленность наклона кодируется в значении вектора а. Более подробно, θj = арктангенс (a_j(1) / a_j(2)) могут быть приняты в знчения угла для SNP j, где a_j(1) и a_j(2) являются первым и вторым элементами вектора а.

Поскольку SPA имеет явные географические координаты, подход может быть расширен для систем за пределами обычной картезианской двумерной плоскости координат. В качестве демонстрации этого, авторы программы SPA использовали алгоритм для анализа пространственной структуры населения земного шара, в которой двухмерное отображение на двухмерной плоскости не может точно фиксировать структуру популяции. Таким образом, каждый индивид проецируется на точку земного шара в трехмерном пространстве. Соответственно, авторы использовали трехмерный вектор х (с ограничением || х || равным определенной константе), чтобы представить индивидуальную позицию.

Используя данные (генотипы индивидов из различных популяций из HGDP), авторы обнаружили что пространственная топология расположения индивидов в пространстве SPA мы наблюдали, что сильно напоминала топологию географической карту мира. В частности, люди из того же континента были сгруппированы вместе, а континенты были разделены примерно так, как это следовало бы ожидать из пространственного расположения.

ng-2285-f3

Главная проблема метода состояла в другом. Несмотря на точность топологии взаимного расположения индивидов, на карте SPA сильно искажены расстояния между континентами.

Например, продольный размер континента Евразии составил 92 градусов в SPA-пространстве земного шара, в то время как в пространстве реального земного шара — 150 градусов. Продольное расстояние между Европой и Северной Америкой составило 167 градусов на SPA карте земного шара, в то время как на самом деле оно составляет 90 градусов. Любопытно отметить, что мой опыт работы с этой программы показал, что наибольшую проблему составляют географические координаты долготы, в то время как широты предсказываются довольно точно. То есть по какой-то причине (несимметричность генетических градиентов в направлении север-юг и направлении восток-запад?) пространство SPA очень сильно искажается в продольном измерении (т.е в долготу).
По этой причине, вычисленные географические точки происхождения для европейцев часто оказываются в Атлантическом океана и так далее.

Я решил использовать данные импутированных генотипов для европейских популяций (я занимался их импутацией на протяжении последнего полгода). На этот раз я ограничился только европейскими популяциями. Я сделал два разных набора с разным числом снипов — один с 1 062 376 снипами, которые содержатся в платформах генотиприрования клиентов 23andme и FTDNA, другой — примерно 590 395 снипов. Обе модели можно скачать с Google Drive (здесь и здесь).

Несмотря на тщательный подбор снипов, обе модели продолжают страдать характерным сдвигом географических долгот, а это означает, что данная проблема обусловлена не выборкой генотипов, а самим алгоритмом программы (т.е. улучшение качества выборки или увеличение количества снипов не приводит к повышению точности даже в том случае, если мы используем для тренировки программы на обучающей выборке индивидов с известной географической локацией).

Это хорошо видно на полученных в ходе анализа моих собственных данных географических координатах 2 точек происхождения (одна из них в Гренландии, другая в Средиземном море)

untitled

Разумеется, вряд ли можно говорить о точности подобных вычислений. В ходе размышлений над способом решения проблемы я вспомнил о существовании ортогонального прокрустового анализа.

Я взял две матрицы — одну с географическими координатами (фактически центроиды — географические центры стран) и вторую с предсказанными (в модели 1M cнипов) величинами географических координат тех же самых образцов (с усредненными значениями по этносам), а затем совершил прокрустово преобразование в программе R, получив новую матрицу с преобразованными значениями координат. Ниже виден результат операции (преобразованные усредненные координаты образцов спроецированы вместе с центроидами на карту Европы). И хотя координаты по-прежнему немного сдвинуты относительно истинных, в целом результат уже гораздо лучше (правдоподобнее). rplot14 При проведении прокрустова анализа, кроме Xnew (трансформированной матрицы), мы получили значения матрицы вращения R, s- коэффициент масштабирования и tt — вектор трансляции координат, минимизирующие дистанцию между матрицей предсказанных координат и матрицей географических координат.

Эти значения можно использовать для коррекции значений географических координат, рассчитанных в SPA. Я снова использую свои данные (2 предсказанные точки географического происхождения Xp):

Xt=sRXp + 1tt

При подстановке Xp получаем следующие значения

точка A: 60.245448+-11.059673 северной широты; 21.394898 +- -5.979712 восточной долготы (северо-западная Балтика и Скандинавия)

точка B: 43.000748+-8.801889 северной широты; 20.725216+-52.159598 восточной долготы (юго-восточная Европа, Балканы и Греция).

Анализ древней ДНК – проблемы, их преодоление и результаты

Опубликовано 1 сентября, 20161 сентября, 2016 автором verenich

На портале Генофонд.ру размещен реферат важной статьи, подводящей промежуточные итоги изучения древней ДНК. Я позволю себе удовольствие процитировать себе некоторые места этого замечательного обзора, написанного ув. Надеждой Марковой

Термин «древняя ДНК» возник в научной литературе в 1980-х годах в связи с появлением новой области исследований, которая получила название «молекулярная палеонтология». С развитием сначала методов ДНК-амплификации (полимеразной цепной реакции), а потом методов секвенирования нового поколения эта область получила мощный толчок к развитию и сегодня стала основным средством реконструкции эволюции живых организмов, и в том числе реконструкции истории человека.

Революция в эволюционной генетике

Исследование древней ДНК совершило революцию в эволюционной генетике, так как появилась возможность напрямую исследовать прошлое, законсервированное в «капсуле времени» ДНК, пишут авторы статьи. Работы последних десятилетий показали, что древняя ДНК может сохраняться в костях, зубах, мумифицированных и замороженных тканях, и может быть извлечена из этих древних образцов. Впервые древняя ДНК была извлечена в 1984 г. (Higuchi et al.) из высохшей мышцы вымершего родственника зебры. Но ее анализ целиком зависел от развития технологий, поэтому стал возможен с появлением ДНК-амплификации (метод полимеразно-цепной реакции – ПЦР), и вышел на новый уровень с появлением методов секвенирования нового поколения. На рисунке авторы представили основные вехи в истории изучения древней ДНК.

О методологии исследования палео-ДНК

Методы палеогенетики оказались незаменимы, чтобы разобраться в ключевых этапах человеческой цивилизации. Например, понять, как именно происходила смена обществ охотников-собирателей на первых земледельцев, как распространялось по Европе сельское хозяйство – имела ли место передача технологий от одних популяций другим или же происходила смена самих популяций («циркуляция идей или людей»). Анализ древней ДНК показал, что между периодами 8 и 5 тысяч лет назад Европа не была генетически однородной: первые земледельцы с Ближнего Востока мигрировали в Западную Европу и смешивались там с местными охотниками-собирателями. В Восточную Европу около 6-5 тыс. лет назад туда пришли группы людей из Анатолии, которые смешавшись с охотниками-собирателями, дали начало популяциям скотоводов, наиболее успешная из которых известна по ямной культуре. Полагают, что именно миграции ямников из понто-каспийских степей на запад и на восток около 4,5 тыс. лет назад можно связать с распространением технологий и, возможно, языков индоевропейской семьи.

Древняя ДНК может помочь и в изучении развития признаков, характерных только для Homosapiens, таких как речь, подчеркивают авторы статьи. Изучение генетических вариаций, связанных с языком, дает информацию о том, когда мог возникнуть сложный язык, присущий человеку. Так, было показано, что определенный вариант гена FOXP2 (именно его в первую очередь связывают с развитием речи) имелся уже у неандертальцев. Вероятно, считают специалисты, этот вариант возник у общих предков неандертальцев и современного человека.

Древняя ДНК помогает в изучении адаптации человека к разным условиям среды. При анализе древних геномов в них были выявлены сигналы отбора, связанных с изменением диеты, чувствительностью к ультрафиолету и пр. Так, становится ясно, как распространялись по Европе такие черты, как светлая кожа и толерантность к лактозе (способность переваривать молоко во взрослом возрасте).

Трудности в изучении палео-ДНК и их преодоление

Одна из основных проблем, с которыми сталкиваются исследователи древней ДНК, это ее деградация, которая неизбежно происходит со временем. Обычно ДНК из древних образцов сильно фрагментирована, загрязнена микробной ДНК и химически модифицирована. Причем степень деградации в больше степени зависит от условий, в которых находился древних образец (температура, влажность), чем от его возраста. Последние исследования показали, что теоретический предел возраста образца, из которого можно извлечь ДНК, составляет 1-1,5 млн лет. Авторы описывают методы, которыми можно преодолеть трудности, связанные с особенностями древней ДНК.

Фрагментация ДНК может быть частично преодолена с помощью современных протоколов, позволяющих извлекать и анализировать очень короткие фрагменты, длиной 50-70 нуклеотидов. К тому же, методы секвенирования нового поколения ориентированы на анализ коротких фрагментов, длина которых составляет 50-100 нуклеотидов.

Большую проблему составляет контаминация древней ДНК современной ДНК. Преодолеть ее нужно путем строгого соблюдения протоколов, учитывающих правила сбора образов, обработки рабочих помещений, применение методов ДНК-аутентификации, независимой перепроверки результатов и пр. Развиваются также методы механической и химической деконтаминации – авторы их описывают.

Еще одна важная проблема – посмертное изменение ДНК из-за гидролиза и окисления, вызывающее деаминацию нуклеотидов, которая ведет к ложным результатам ПЦР. Авторы описывают несколько молекулярно-генетических и биоинформатичесих подходов для преодоления этой проблемы, с ними можно ознакомиться в тексте статьи.

Инструменты анализа

С увеличением числа образцов древней ДНК ученые получают возможность исследовать древнюю генетическую изменчивость на популяционном уровне и сравнивать ее с современной. Различные методы (PCA, STRUCTURE, ADMIXTURE, SPAMIX, SPA, ADMIXTOOLS, GPS, LAMP, HAPMIX, reAdmix, MUTLIMIX, mSpectrum, SABER и др.), которые были разработаны для анализа современных популяций, применяются и к древним популяциям. В комбинации с антропологическими данными и историческими сведениями они позволяют реконструировать пути миграций, определять состав предков той или иной популяции, выяснять географическое происхождение гаплотипов.

Эпигенетика и палео-ДНК

Фенотипическое проявление генотипической изменчивости зависит не только от изменчивости тех или иных аллелей в геноме, но и от степени экспрессии генов, а она во многом определяется химическими модификациями, не затрагивающими последовательность нуклеотидов в ДНК, то есть эпигенетическими. Это метилирование ДНК, модификация белков-гистонов, спектр некодирующей РНК. Последние исследования показали, что некоторые эпигенетические модификации сохраняются и postmortem. Так, удалось картировать метилирование генома неандертальцев и денисовцев. Выяснилось, что некоторые гены были более метилированы у древних людей, чем у современных. Анализ метилирования позволяет также определить возраст индивида (как современного – что важно для криминалистики, так и древнего).

SNPweights: использование модели калькулятора K16 для анализа главных компонентов происхождения

Опубликовано 28 августа, 201628 августа, 2016 автором verenich

Ранее я уже отрапортовал о создании двух новых моделей для стандартного этно-популяционного калькулятора, в разработке которых использовались геномы людей, cамостоятельно указавшими свое происхождение (self-reported ancestry).
К сожалению, очень часто субъективная оценка собственного происхождения (указываемого респондентами в опросниках) недостаточно надежна для статистических методов анализа происхождения, поскольку некоторые люди либо сообщают ложные сведения о своей родословной или же просто не знают о своем истинном происхождении. Что еще хуже, — во многих публичных популяционных выборках мы не находим никаких сведений о точном этническом составе людей в выборке . Как многие из вас знают, существует множество способов достаточно точной оценки происхождения индивида на основе данных SNP генотипирования.

Самый простой способ сводится к следующему: сначала исследователь объединяет генотипы из своего исследования с генотипами образцов в референсной панели (например: ~~HapMap~~ или 1000 геномов), затем находит пересечение SNP-ов в каждом наборе данных, а затем запускает программу кластеризации, чтобы увидеть, каким образом образцы исследования группируются с популяциями референсных панелей. В принципе, сам процесс несложный, но требует немало времени

К счастью, в 2014 году лабораторией Alkes была предложена программа которая, по сути, значительно облегчает процесс, выполняя большую часть работу за вас. Программа называется SNPWEIGHTS и можно скачать здесь. Говоря простым языком, программа принимает в качестве входных данных генотипы SNP-ов, самостоятельно находит пересечение генотипов SNP с генотипами в эталонной выборке , рассчитывает веса SNP-ов на основе предварительно настроенных параметров, чтобы построить первую пару главных компонентов (иначе говоря, cобственных векторов), а затем вычисляет процентное значение происхождения индивидуума из каждой предковой популяции (кластера).

Для того, чтобы запустить программу, необходимо убедится в том, что в вашей системе установлен Python, и что ваши данные генотипирования приведены в формате EIGENSTRAT. Краткую инструкции по преобразованию в формат EIGENSTRAT с помощью инструмента convertf можно почитать здесь. Данные аутосомного генотипирования FTDNA или 23andme можно напрямую преобразовать в формат EIGENSTRAT с помощью утилиты aconv от Феликса Чандракумара (либо любого самописного софта).

Затем необходимо загрузить сам пакет SNPWEIGHTS и референтную панель с весами снипов.

Панель весов SNP для популяций Европы и Западной Африки можно скачать здесь.
SNP веса для населения Европы, Западной Африки и Восточной Азии можно скачать здесь.
SNP веса для населения Европы, Западной Африки, Восточной Азии и популяций американских индейцев можно скачать здесь.
SNP веса для популяций северо-западной, юго-восточной части Европы, ашкеназских евреев и можно скачать здесь.

Затем необходимо создать файл параметров par.SNPWEIGHTS с названиями входных файлов EIGENSTRAT, референтной панели, и файл c результатами. Например:

input_geno: data.geno
input_snp: data.snp
input_ind: data.ind
input_pop: CO
output: ancestry.txt

И, наконец, нужно запустиь программу с помощью команды inferancestry.py —par par.SNPWEIGHTS. Для того чтобы программа работала, убедитесь, что inferancestry.info и файл референтной панели находятся в том же каталоге, что и файл inferancestry.py.

Полученные результаты можно использовать для разных целей. Например, можно сгенерировать два информативные графика.

Первый график — обычный график PCA c двумя первыми компонентами (собственными векторами) и наложенный на график процентный расклад компонентов происхождения:

Второй треугольный график, на каждом отрезке которого , представлен процентный вклад одной из трех исконных групп популяции (например: Европы, Африки и Азии, в случае с нашими данными этот пример можно заменить на европейских охотников-собирателей, земледельцев неолита и степных скотоводов эпохи бронзы).

Вот простой код генерирования этих графиков в R. В программе R нет базовых пакетов для построения триангулярных графиков, поэтому нужно будет сначала установить пакет plotrix. Ancestry.txt — это файл полученный на выходе из SNPWEIGHTS:

# EV Plot with Percent Ancestry Overlay data=read.table("ancestry.txt", as.is=T, header=F) names(data) plot(data$EV1, data$EV2, pch=20, col="gray", xlab="EV1", ylab="EV2") text(data$EV1, data$EV2,labels=round(data$EUR,2)100, cex=0.4, offset=0.1, pos=3) text(data$EV1, data$EV2,labels=round(data$AFR,2)100, cex=0.4, offset=0.1, pos=2) text(data$EV1, data$EV2,labels=round(data$ASN,2)*100, cex=0.4, offset=0.1, pos=1) #Triangle Plot data$total=data$EUR+data$AFR+data$ASN # Need to account data$European=data$EUR/data$total # for slight rounding data$African=data$AFR/data$total # in the ancestry data$Asian=data$ASN/data$total # estimation file for data_p=data[c("European","Asian","African")] # triax.plot to work library(plotrix) triax.plot(data_p, pch=20, cc.axes=T, show.grid=T)

Разумеется, размещенные на сайте разработчика референтные панели носят ограниченный характер. Поэтому я решил заполнить пробелы, преобразовав аллельные частоты SNP-ов в 16 предковых компонентах в 16 синтетических «чистых» предковых популяций, каждая из которых состояла из 200 синтетических индивидов («симулянтов») состоящих на 100 процентов из одного компонента происхождения в модели K16). Файл с генотипами 3200 «симулянтов» я использовал для вычисления весов снипов в каждом компоненте. Продвинутые пользователи, желающие протестировать модель K16 до ее публичного релизма, могут скачать полученный файл с весами снипов здесь, а затем, cледуя приведенным выше инструкциям, использовать его в качестве референтной панели (а затем сравнить свои результаты с усредненными результатами разных этнических популяций).

Я протестировал веса снипов в модели K16 (выражаю признательность автору программу Чену за помощь), и обнаружил, что между данными калькулятора и данными SNPWEIGHTS расхождения носят незначительный характер, хотя похоже, что SNPWEIGHTS не так сглаживает минорные компоненты происхождения (что позволяет легче выделить в пространстве главных компонент кластеры):

ALDER анализ происхождения белорусов и поляков

Опубликовано 18 августа, 201618 августа, 2016 автором verenich

В качестве одного из метода проверки надежности импутированных снипов для анализа популяционной истории различных этнических групп, я использовал метод ALDER (он представляет собой более продвинутую версию алгоритма ROLOFF, описанного в известной работе Patterson et al. 2012).

Метод ALDER выявляет нюансы популяционной истории через оценку двух важных параметров: а) рекомбинации — процесса обмена участками между разными молекулами ДНК, который напоминает перемешивание игральных карт в колоде (у человека он обязательно происходит при образовании половых клеток) и б) неравновесия по сцеплению — явления, при котором несколько участков ДНК передаются вместе блоками, которые формируются несколько по-разному в разных популяциях из-за того, что в разных популяциях наследуются разные комбинации сегментов ДНК. Таким образом, метод основан на выявлении специфических для каждой популяции сцепленных участков ДНК и на оценке доли общих сегментов в выборках сравниваемых популяций. При этом метод ALDER на основе оценки неравновесия по сцеплению определяет правдоподобность того, что две выбранные группы являются предковыми по отношению к анализируемым популяциям. Кроме того, метод позволяет также установить время смешения через оценку доли рекомбинаций на поколение.
Как было сказано выше, метод ALDER представляет собой расширенный вариант алгоритма ROLLOFF.Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатура LD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории, чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения LD в адмиксе напрямую связана с числом поколений, прошедших с момента адмикса, так как c возрастанием числа поколений увлечивается число рекомбинаций произошедших между двумя отдельными SNP-ами. Проще говоря: Rolloff соответствует экспоненциальной кривой угасания уровня LD от расстояния, и эта скорость экспоненциального снижения как раз и используется для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.В качестве двух тестовых популяций я использовал две группы — выборку белорусов (данные публичной коллекции эстонского биоцентра, вошедшие позднее в стандартный набор популяций лаборатории Райха, а также данные белорусов, собранные мной в проекте MDLP) и выборку поляков (из публичной коллекции эстонского биоцентра, а также данные поляков из выборки моего проекта MDLP). В 2012 году я уже проводил анализ ROLLOFF белорусов, поэтому было интересно посмотреть, как изменится картина после добавления новых палеогеномов и импутированных (негенотипированных) снипов. Для полноты эксперимента, я также включил данные поляков, чтобы посмотреть, работает ли метод на данных, полученных с помощью других платформ генотипирования (NB:когда я проводил анализ, у меня еще не было данных поляков из кураторской базы данных лаборатории Reich).

В качественных референсных популяций (кандидатов в предковые популяции) я использовал набор из 400 популяций в моей расширенной выборки. Программа работает в три этапа:

На первом этапе определяется статистическая значимость сравнения амплитуд угасания 2-референсной LD(в случае наличия такой значимость программа пишет success)

Cледующие комбинации дали положительный результат

Belarusian	Andronovo.SG	Chukchis
Belarusian	Andronovo.SG	Koryaks
Belarusian	Armenian_Martuni	Karelia_HG
Belarusian	Bashkir	Turkish_Jewish
Belarusian	Nordic_LN.SG	Villabruna
Belarusian	Turkish_Jewish	Uzbek
Belarusian	Anatolia_Neolithic	Brahui
Belarusian	Anatolia_Neolithic	Burusho
Belarusian	Anatolia_Neolithic	Itelmen
Belarusian	Anatolia_Neolithic	Koryak
Belarusian	Anatolia_Neolithic	Mixtec
Belarusian	Anatolia_Neolithic	Pathan
Belarusian	Anatolia_Neolithic	Mala
Belarusian	Anatolia_Neolithic	Turkmen
Belarusian	Anatolia_Neolithic	Uygur
Belarusian	Druze	Selkup
Belarusian	Mala	Syrian
Belarusian	Mixtec	Spain_EN
Belarusian	Anatolia_Neolithic	Brahui
Belarusian	Anatolia_Neolithic	Burusho
Belarusian	Anatolia_Neolithic	Chukchi
Belarusian	Anatolia_Neolithic	Selkup
Belarusian	Anatolia_Neolithic	Sindhi
Belarusian	Anatolia_Neolithic	Uygur
Belarusian	British-Roman	Koryak
Belarusian	British-Roman	Mixtec
Belarusian	Chukchi	Mala
Belarusian	Itelmen	Uzbek_WGA
Belarusian	LBK_EN	Selkup
Belarusian	Selkup	Turkish_Trabzon
Belarusian	Abhkasian	Lahu
Belarusian	Ami_Coriell	Uzbek_WGA
Belarusian	Anatolia_Neolithic	Chukchi
Belarusian	Anatolia_Neolithic	Daur
Anatolia_Neolithic	Han
Anatolia_Neolithic	Han_NChina
Anatolia_Neolithic	Miao
Anatolia_Neolithic	Turkmen
Belarusian	Atayal_Coriell	Uzbek_WGA
Belarusian	British-Roman	Mixtec
Belarusian	Chukchi	Mala
Belarusian	Dai	Greek_Islands
Belarusian	Dai	Uzbek_WGA
Belarusian	Daur	North_Ossetian
Belarusian	Daur	Uzbek_WGA
Belarusian	Eskimo_Chaplin	LBK_EN
Belarusian	Georgian	Lahu
Belarusian	Georgian	Yi
Belarusian	Greek_Islands	Han
Belarusian	Greek_Islands	Miao
Belarusian	Greek_Islands	Mixtec
Belarusian	Greek_Islands	Nganasan
Belarusian	Greek_Islands	Ulchi
Belarusian	Greek_Islands	Xibo
Belarusian	Han	Uzbek_WGA
Belarusian	Han	Yemenite_Jew
Belarusian	Han_NChina	Uzbek_WGA
Belarusian	Han_NChina	Yemenite_Jew
Belarusian	Japanese	Uzbek_WGA
Belarusian	Korean	Uzbek_WGA
Belarusian	Lahu	Turkish_Jew
Belarusian	Lahu	Uzbek_WGA
Belarusian	Lahu	Yemenite_Jew
Belarusian	LBK_EN	Selkup
Belarusian	Miao	Uzbek_WGA
Belarusian	Miao	Yemenite_Jew
Belarusian	Naxi	Uzbek_WGA
Belarusian	Oroqen	Uzbek_WGA
Belarusian	She	Uzbek_WGA
Belarusian	Tu	Uzbek_WGA
Belarusian	Tujia	Uzbek_WGA
Belarusian	Tujia	Yemenite_Jew
Belarusian	Ulchi	Uzbek_WGA
Belarusian	Uzbek_WGA	Xibo
Belarusian	Uzbek_WGA	Yi
Belarusian	Uzbek_WGA	Yukagir_Tundra
Belarusian	Yemenite_Jew	Yi

На втором — cоответствие скоростей угасания LD в попарном сравнении с референсными популяциями (программа выдает предупреждение, если амплитуды угасания LD несовместимы). Как видно, большинство триплетов (таргетная популяция + 2 референса) имеет несовместимые амплитуды угасания LD.

DATA: success (warning: decay rates inconsistent) 0.028 Belarusian Andronovo.SG Chukchis 4.64 2.80 2.11 85% 244.96 +/- 44.45 0.00055485 +/- 0.00011964 262.22 +/- 50.30 0.00029724 +/- 0.00010632 105.99 +/- 50.22 0.00013405 +/- 0.00003707
DATA: success (warning: decay rates inconsistent) 3.8e-05 Belarusian Andronovo.SG Koryaks 5.86 2.80 2.36 85% 241.36 +/- 36.30 0.00059837 +/- 0.00010219 262.22 +/- 50.30 0.00029724 +/- 0.00010632 105.75 +/- 44.80 0.00011083 +/- 0.00002791
DATA: success (warning: decay rates inconsistent) 0.037 Belarusian Armenian_Martuni Karelia_HG 4.58 2.20 3.48 53% 206.14 +/- 39.11 0.00072944 +/- 0.00015918 324.91 +/- 90.64 0.00018302 +/- 0.00008311 189.01 +/- 42.42 0.00043186 +/- 0.00012423
DATA: success (warning: decay rates inconsistent) 0.044 Belarusian Bashkir Turkish_Jewish 4.55 2.70 2.53 83% 121.78 +/- 24.93 0.00009384 +/- 0.00002064 153.64 +/- 48.19 0.00006384 +/- 0.00002366 296.25 +/- 73.05 0.00014988 +/- 0.00005929
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Nordic_LN.SG Villabruna 4.54 2.19 5.01 30% 160.01 +/- 35.24 0.00086280 +/- 0.00018037 139.86 +/- 63.88 0.00033916 +/- 0.00014340 117.88 +/- 23.51 0.00043952 +/- 0.00008295
DATA: success (warning: decay rates inconsistent) 0.0032 Belarusian Turkish_Jewish Uzbek 5.07 2.53 2.35 112% 116.58 +/- 23.00 0.00008493 +/- 0.00001382 296.25 +/- 73.05 0.00014988 +/- 0.00005929 83.46 +/- 35.51 0.00004275 +/- 0.00001721
DATA: success (warning: decay rates inconsistent) 0.0066 Belarusian Anatolia_Neolithic Brahui 4.18 4.42 2.87 37% 63.78 +/- 15.17 0.00000803 +/- 0.00000192 92.46 +/- 19.49 0.00001427 +/- 0.00000323 88.94 +/- 27.82 0.00000775 +/- 0.00000270
DATA: success (warning: decay rates inconsistent) 0.019 Belarusian Anatolia_Neolithic Burusho 3.93 4.42 2.19 47% 93.43 +/- 9.05 0.00001536 +/- 0.00000390 92.46 +/- 19.49 0.00001427 +/- 0.00000323 149.25 +/- 37.02 0.00001357 +/- 0.00000621
DATA: success (warning: decay rates inconsistent) 0.035 Belarusian Anatolia_Neolithic Itelmen 3.79 4.42 2.15 64% 69.11 +/- 15.92 0.00002889 +/- 0.00000762 92.46 +/- 19.49 0.00001427 +/- 0.00000323 134.23 +/- 58.31 0.00003278 +/- 0.00001523
DATA: success (warning: decay rates inconsistent) 0.023 Belarusian Anatolia_Neolithic Koryak 3.90 4.42 2.30 30% 82.94 +/- 21.28 0.00003363 +/- 0.00000828 92.46 +/- 19.49 0.00001427 +/- 0.00000323 111.83 +/- 48.56 0.00002562 +/- 0.00000985
DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.90 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Mixtec 3.87 4.42 2.73 71% 71.36 +/- 14.69 0.00003027 +/- 0.00000782 92.46 +/- 19.49 0.00001427 +/- 0.00000323 149.36 +/- 43.83 0.00002944 +/- 0.00001080
DATA: success (warning: decay rates inconsistent) 0.019 Belarusian Anatolia_Neolithic Pathan 3.93 4.42 2.02 42% 104.78 +/- 14.08 0.00001497 +/- 0.00000380 92.46 +/- 19.49 0.00001427 +/- 0.00000323 141.03 +/- 36.42 0.00001165 +/- 0.00000577
DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success (warning: decay rates inconsistent) 0.026 Belarusian Anatolia_Neolithic Uygur 3.87 4.42 2.54 56% 71.95 +/- 14.95 0.00001528 +/- 0.00000395 92.46 +/- 19.49 0.00001427 +/- 0.00000323 127.39 +/- 37.67 0.00001541 +/- 0.00000606
DATA: success (warning: decay rates inconsistent) 0.02 Belarusian Druze Selkup 3.93 2.02 3.14 73% 51.53 +/- 13.06 0.00001224 +/- 0.00000311 110.46 +/- 43.38 0.00001040 +/- 0.00000516 59.53 +/- 18.98 0.00000945 +/- 0.00000299
DATA: success (warning: decay rates inconsistent) 0.044 Belarusian Mala Syrian 3.73 3.87 2.84 28% 72.39 +/- 19.33 0.00000805 +/- 0.00000216 87.55 +/- 18.75 0.00001071 +/- 0.00000277 96.31 +/- 27.52 0.00000993 +/- 0.00000350
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Mixtec Spain_EN 3.85 2.73 2.67 26% 114.65 +/- 21.37 0.00005462 +/- 0.00001417 149.36 +/- 43.83 0.00002944 +/- 0.00001080 117.07 +/- 30.31 0.00002193 +/- 0.00000820
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Anatolia_Neolithic Brahui 3.70 3.45 2.55 32% 63.07 +/- 15.18 0.00000871 +/- 0.00000235 81.39 +/- 21.48 0.00001207 +/- 0.00000349 87.19 +/- 27.66 0.00000771 +/- 0.00000303
DATA: success (warning: decay rates inconsistent) 0.039 Belarusian Anatolia_Neolithic Burusho 3.74 3.45 2.00 61% 89.47 +/- 10.12 0.00001582 +/- 0.00000423 81.39 +/- 21.48 0.00001207 +/- 0.00000349 152.62 +/- 45.80 0.00001482 +/- 0.00000742
DATA: success (warning: decay rates inconsistent) 0.0013 Belarusian Anatolia_Neolithic Chukchi 4.52 3.45 2.79 35% 77.64 +/- 16.37 0.00003602 +/- 0.00000797 81.39 +/- 21.48 0.00001207 +/- 0.00000349 110.36 +/- 39.54 0.00002861 +/- 0.00000981
DATA: success (warning: decay rates inconsistent) 0.038 Belarusian Anatolia_Neolithic Selkup 3.74 3.45 2.41 38% 55.27 +/- 13.63 0.00002155 +/- 0.00000576 81.39 +/- 21.48 0.00001207 +/- 0.00000349 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Anatolia_Neolithic Sindhi 3.83 3.45 2.68 61% 65.40 +/- 9.12 0.00001072 +/- 0.00000280 81.39 +/- 21.48 0.00001207 +/- 0.00000349 122.70 +/- 32.60 0.00001132 +/- 0.00000423
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.00000250 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Uygur 3.85 3.45 2.16 37% 70.37 +/- 13.51 0.00001582 +/- 0.00000411 81.39 +/- 21.48 0.00001207 +/- 0.00000349 102.34 +/- 33.39 0.00001107 +/- 0.00000512
DATA: success (warning: decay rates inconsistent) 0.021 Belarusian British-Roman Koryak 3.89 2.37 2.28 74% 62.36 +/- 16.01 0.00003903 +/- 0.00000934 52.03 +/- 19.63 0.00002305 +/- 0.00000974 113.23 +/- 49.75 0.00002665 +/- 0.00001027
DATA: success (warning: decay rates inconsistent) 0.0084 Belarusian British-Roman Mixtec 4.11 2.37 2.50 80% 64.78 +/- 15.52 0.00004703 +/- 0.00001145 52.03 +/- 19.63 0.00002305 +/- 0.00000974 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success (warning: decay rates inconsistent) 0.01 Belarusian Chukchi Mala 4.06 2.79 4.06 60% 172.83 +/- 30.55 0.00002691 +/- 0.00000663 110.36 +/- 39.54 0.00002861 +/- 0.00000981 93.18 +/- 21.71 0.00001222 +/- 0.00000301
DATA: success (warning: decay rates inconsistent) 0.047 Belarusian Itelmen Uzbek_WGA 3.69 2.36 2.20 54% 142.22 +/- 27.73 0.00006725 +/- 0.00001821 129.35 +/- 53.29 0.00003152 +/- 0.00001338 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.009 Belarusian LBK_EN Selkup 4.09 2.18 2.41 67% 67.83 +/- 16.58 0.00002655 +/- 0.00000641 115.11 +/- 38.65 0.00001960 +/- 0.00000899 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 0.05 Belarusian Selkup Turkish_Trabzon 3.68 2.41 2.11 32% 56.53 +/- 15.37 0.00001451 +/- 0.00000330 57.06 +/- 20.02 0.00000933 +/- 0.00000386 77.83 +/- 33.34 0.00000751 +/- 0.00000355
DATA: success (warning: decay rates inconsistent) 0.017 Belarusian Abhkasian Lahu 4.21 2.47 2.97 174% 32.04 +/- 6.68 0.00001002 +/- 0.00000238 3.95 +/- 1.60 0.00000098 +/- 0.00000024 57.34 +/- 19.33 0.00001384 +/- 0.00000369
DATA: success (warning: decay rates inconsistent) 0.00018 Belarusian Ami_Coriell Uzbek_WGA 5.15 2.09 2.20 63% 162.32 +/- 22.43 0.00007649 +/- 0.00001486 118.09 +/- 56.57 0.00002688 +/- 0.00001279 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0041 Belarusian Anatolia_Neolithic Chukchi 4.52 3.45 2.79 35% 77.64 +/- 16.37 0.00003602 +/- 0.00000797 81.39 +/- 21.48 0.00001207 +/- 0.00000349 110.36 +/- 39.54 0.00002861 +/- 0.00000981
DATA: success (warning: decay rates inconsistent) 0.025 Belarusian Anatolia_Neolithic Daur 4.12 3.45 2.63 47% 73.39 +/- 17.81 0.00002378 +/- 0.00000569 81.39 +/- 21.48 0.00001207 +/- 0.00000349 118.84 +/- 40.98 0.00002486 +/- 0.00000947
DATA: success 0.05 Belarusian Anatolia_Neolithic Han 3.96 3.45 3.00 17% 79.39 +/- 18.74 0.00002687 +/- 0.00000678 81.39 +/- 21.48 0.00001207 +/- 0.00000349 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.00002310 +/- 0.00000644
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.20 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.00000250 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success (warning: decay rates inconsistent) 0.00046 Belarusian Atayal_Coriell Uzbek_WGA 4.97 2.02 2.20 53% 179.16 +/- 31.95 0.00008213 +/- 0.00001654 130.82 +/- 54.40 0.00002576 +/- 0.00001275 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian British-Roman Mixtec 4.11 2.37 2.50 80% 64.78 +/- 15.52 0.00004703 +/- 0.00001145 52.03 +/- 19.63 0.00002305 +/- 0.00000974 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success (warning: decay rates inconsistent) 0.033 Belarusian Chukchi Mala 4.06 2.79 4.06 60% 172.83 +/- 30.55 0.00002691 +/- 0.00000663 110.36 +/- 39.54 0.00002861 +/- 0.00000981 93.18 +/- 21.71 0.00001222 +/- 0.00000301
DATA: success (warning: decay rates inconsistent) 0.009 Belarusian Dai Greek_Islands 4.35 3.05 2.28 32% 122.32 +/- 24.18 0.00004797 +/- 0.00001103 88.71 +/- 29.04 0.00001846 +/- 0.00000511 102.11 +/- 26.83 0.00001569 +/- 0.00000687
DATA: success (warning: decay rates inconsistent) 0.049 Belarusian Dai Uzbek_WGA 3.97 3.05 2.20 87% 160.47 +/- 30.16 0.00006276 +/- 0.00001582 88.71 +/- 29.04 0.00001846 +/- 0.00000511 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0015 Belarusian Daur North_Ossetian 4.73 2.63 2.09 122% 42.94 +/- 8.92 0.00000724 +/- 0.00000153 118.84 +/- 40.98 0.00002486 +/- 0.00000947 178.58 +/- 51.90 0.00001887 +/- 0.00000901
DATA: success (warning: decay rates inconsistent) 0.047 Belarusian Daur Uzbek_WGA 3.97 2.63 2.20 62% 164.70 +/- 29.83 0.00008292 +/- 0.00002087 118.84 +/- 40.98 0.00002486 +/- 0.00000947 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.00086 Belarusian Eskimo_Chaplin LBK_EN 4.84 2.29 2.18 73% 53.65 +/- 11.08 0.00002657 +/- 0.00000479 63.81 +/- 27.89 0.00001618 +/- 0.00000586 115.11 +/- 38.65 0.00001960 +/- 0.00000899
DATA: success (warning: decay rates inconsistent) 0.027 Belarusian Georgian Lahu 4.10 2.89 2.97 166% 43.55 +/- 10.61 0.00001537 +/- 0.00000311 5.27 +/- 1.82 0.00000079 +/- 0.00000023 57.34 +/- 19.33 0.00001384 +/- 0.00000369
DATA: success (warning: decay rates inconsistent) 0.05 Belarusian Georgian Yi 3.96 2.89 3.26 179% 35.28 +/- 8.91 0.00000897 +/- 0.00000226 5.27 +/- 1.82 0.00000079 +/- 0.00000023 93.65 +/- 25.60 0.00002033 +/- 0.00000624
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3.00 15% 108.92 +/- 26.70 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.50 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.20 2.28 3.37 15% 118.40 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.90 0.00002845 +/- 0.00000805
DATA: success (warning: decay rates inconsistent) 0.042 Belarusian Greek_Islands Xibo 4.00 2.28 2.59 37% 101.05 +/- 22.65 0.00003689 +/- 0.00000922 102.11 +/- 26.83 0.00001569 +/- 0.00000687 70.25 +/- 27.10 0.00001649 +/- 0.00000507
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success (warning: decay rates inconsistent) 1.8e-05 Belarusian Han Uzbek_WGA 5.56 3.00 2.20 83% 145.83 +/- 21.23 0.00006518 +/- 0.00001171 93.68 +/- 31.25 0.00002137 +/- 0.00000623 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.023 Belarusian Han Yemenite_Jew 4.14 3.00 2.19 41% 101.08 +/- 19.78 0.00002665 +/- 0.00000644 93.68 +/- 31.25 0.00002137 +/- 0.00000623 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.00017 Belarusian Han_NChina Uzbek_WGA 5.15 3.58 2.20 76% 147.58 +/- 21.48 0.00006493 +/- 0.00001261 101.71 +/- 28.43 0.00002310 +/- 0.00000644 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.021 Belarusian Han_NChina Yemenite_Jew 4.16 3.58 2.19 47% 88.25 +/- 14.91 0.00002464 +/- 0.00000593 101.71 +/- 28.43 0.00002310 +/- 0.00000644 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.045 Belarusian Japanese Uzbek_WGA 3.99 2.51 2.20 76% 158.76 +/- 32.98 0.00007182 +/- 0.00001802 101.02 +/- 40.27 0.00002259 +/- 0.00000766 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.034 Belarusian Korean Uzbek_WGA 4.05 3.28 2.20 72% 147.50 +/- 22.94 0.00006552 +/- 0.00001618 106.54 +/- 29.46 0.00002451 +/- 0.00000748 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0022 Belarusian Lahu Turkish_Jew 4.65 2.97 3.22 53% 53.69 +/- 9.97 0.00001763 +/- 0.00000379 57.34 +/- 19.33 0.00001384 +/- 0.00000369 92.56 +/- 21.52 0.00000780 +/- 0.00000242
DATA: success (warning: decay rates inconsistent) 7.8e-06 Belarusian Lahu Uzbek_WGA 5.70 2.97 2.20 119% 125.65 +/- 17.75 0.00006183 +/- 0.00001084 57.34 +/- 19.33 0.00001384 +/- 0.00000369 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.028 Belarusian Lahu Yemenite_Jew 4.10 2.97 2.19 85% 73.51 +/- 17.32 0.00002186 +/- 0.00000534 57.34 +/- 19.33 0.00001384 +/- 0.00000369 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.029 Belarusian LBK_EN Selkup 4.09 2.18 2.41 67% 67.83 +/- 16.58 0.00002655 +/- 0.00000641 115.11 +/- 38.65 0.00001960 +/- 0.00000899 57.06 +/- 20.02 0.00000933 +/- 0.00000386
DATA: success (warning: decay rates inconsistent) 3e-05 Belarusian Miao Uzbek_WGA 5.47 3.63 2.20 89% 141.79 +/- 17.01 0.00005964 +/- 0.00001090 86.31 +/- 23.79 0.00001726 +/- 0.00000411 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.012 Belarusian Miao Yemenite_Jew 4.29 3.63 2.19 49% 96.51 +/- 17.73 0.00002466 +/- 0.00000575 86.31 +/- 23.79 0.00001726 +/- 0.00000411 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.036 Belarusian Naxi Uzbek_WGA 4.04 2.35 2.20 87% 150.57 +/- 27.26 0.00006598 +/- 0.00001633 88.34 +/- 37.62 0.00001891 +/- 0.00000714 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.0037 Belarusian Oroqen Uzbek_WGA 4.54 2.50 2.20 75% 159.87 +/- 26.32 0.00007776 +/- 0.00001713 102.18 +/- 40.85 0.00002369 +/- 0.00000834 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.043 Belarusian She Uzbek_WGA 3.99 3.16 2.20 70% 177.32 +/- 34.01 0.00008208 +/- 0.00002055 108.68 +/- 31.62 0.00002238 +/- 0.00000708 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.029 Belarusian Tu Uzbek_WGA 4.09 2.28 2.20 85% 150.44 +/- 31.12 0.00006074 +/- 0.00001485 91.29 +/- 40.04 0.00001929 +/- 0.00000802 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.001 Belarusian Tujia Uzbek_WGA 4.80 2.09 2.20 61% 164.13 +/- 25.59 0.00008133 +/- 0.00001693 120.48 +/- 57.69 0.00002290 +/- 0.00001057 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.00002290 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.00000870
DATA: success (warning: decay rates inconsistent) 0.0053 Belarusian Ulchi Uzbek_WGA 4.47 3.37 2.20 65% 153.49 +/- 25.35 0.00007000 +/- 0.00001567 114.38 +/- 33.90 0.00002845 +/- 0.00000805 225.56 +/- 61.89 0.00007507 +/- 0.00003406
DATA: success (warning: decay rates inconsistent) 0.00055 Belarusian Uzbek_WGA Xibo 4.93 2.20 2.59 105% 129.90 +/- 24.58 0.00005579 +/- 0.00001132 225.56 +/- 61.89 0.00007507 +/- 0.00003406 70.25 +/- 27.10 0.00001649 +/- 0.00000507
DATA: success (warning: decay rates inconsistent) 0.00062 Belarusian Uzbek_WGA Yi 4.91 2.20 3.26 83% 156.22 +/- 22.94 0.00007252 +/- 0.00001478 225.56 +/- 61.89 0.00007507 +/- 0.00003406 93.65 +/- 25.60 0.00002033 +/- 0.00000624
DATA: success (warning: decay rates inconsistent) 0.011 Belarusian Uzbek_WGA Yukagir_Tundra 4.31 2.20 2.55 61% 182.09 +/- 32.35 0.00008497 +/- 0.00001970 225.56 +/- 61.89 0.00007507 +/- 0.00003406 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success (warning: decay rates inconsistent) 0.048 Belarusian Yemenite_Jew Yi 3.97 2.19 3.26 41% 130.87 +/- 22.50 0.00003478 +/- 0.00000876 142.22 +/- 61.15 0.00001902 +/- 0.00000870 93.65 +/- 25.60 0.00002033 +/- 0.00000624

После отсеивания не очень пригодных для дальнейшего анализа триплетов у нас осталась следующие комбинации:

DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.9 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.05 Belarusian Anatolia_Neolithic Han 3.96 3.45 3 17% 79.39 +/- 18.74 0.00002687 +/- 0.00000678 81.39 +/- 21.48 0.00001207 +/- 0.00000349 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.0000231 +/- 0.00000644
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.2 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3 15% 108.92 +/- 26.7 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.5 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.2 2.28 3.37 15% 118.4 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.9 0.00002845 +/- 0.00000805
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.0000229 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.0000087

На третьем этапе программа определяет статистическая значимость комбинации (p-статистику):

P-значение (англ. P-value) — величина, используемая при тестировании статистических гипотез. Фактически это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода). Проверка гипотез с помощью P-значения является альтернативой классической процедуре проверки через критическое значение распределения.

Обычно P-значение равно вероятности того, что случайная величина с данным распределением (распределением тестовой статистики при нулевой гипотезе) примет значение, не меньшее, чем фактическое значение тестовой статистики.

Отберем значения P меньше 0.05

DATA: success 0.00024 Belarusian Anatolia_Neolithic Turkmen 4.88 4.42 2.26 12% 81.66 +/- 10.18 0.00001288 +/- 0.00000264 92.46 +/- 19.49 0.00001427 +/- 0.00000323 85.64 +/- 28.96 0.00000855 +/- 0.00000378
DATA: success 0.00044 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.00052 Belarusian Anatolia_Neolithic Han_NChina 4.94 3.45 3.58 22% 81.48 +/- 14.68 0.00003182 +/- 0.00000644 81.39 +/- 21.48 0.00001207 +/- 0.00000349 101.71 +/- 28.43 0.0000231 +/- 0.00000644
DATA: success 0.0014 Belarusian Anatolia_Neolithic Turkmen 4.74 3.45 3.07 11% 76.01 +/- 10.03 0.00001185 +/- 0.0000025 81.39 +/- 21.48 0.00001207 +/- 0.00000349 72.89 +/- 23.73 0.00000681 +/- 0.00000206
DATA: success 0.0037 Belarusian Greek_Islands Mixtec 4.54 2.28 2.5 24% 95.62 +/- 12.99 0.00003944 +/- 0.00000868 102.11 +/- 26.83 0.00001569 +/- 0.00000687 121.19 +/- 40.18 0.00002185 +/- 0.00000872
DATA: success 0.0061 Belarusian Greek_Islands Yukagir_Tundra 4.44 2.28 2.55 18% 100.12 +/- 22.57 0.00004369 +/- 0.00000882 102.11 +/- 26.83 0.00001569 +/- 0.00000687 119.62 +/- 45.23 0.00002624 +/- 0.00001028
DATA: success 0.014 Belarusian Anatolia_Neolithic Mala 4.01 4.42 3.87 12% 81.9 +/- 17.24 0.00001547 +/- 0.00000385 92.46 +/- 19.49 0.00001427 +/- 0.00000323 87.55 +/- 18.75 0.00001071 +/- 0.00000277
DATA: success 0.018 Belarusian Anatolia_Neolithic Miao 4.2 3.45 3.63 10% 78.02 +/- 16.13 0.00002457 +/- 0.00000585 81.39 +/- 21.48 0.00001207 +/- 0.00000349 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.018 Belarusian Greek_Islands Ulchi 4.2 2.28 3.37 15% 118.4 +/- 24.18 0.00005248 +/- 0.00001249 102.11 +/- 26.83 0.00001569 +/- 0.00000687 114.38 +/- 33.9 0.00002845 +/- 0.00000805
DATA: success 0.022 Belarusian Tujia Yemenite_Jew 4.15 2.09 2.19 18% 118.59 +/- 25.68 0.00002955 +/- 0.00000711 120.48 +/- 57.69 0.0000229 +/- 0.00001057 142.22 +/- 61.15 0.00001902 +/- 0.0000087
DATA: success 0.044 Belarusian Greek_Islands Miao 3.99 2.28 3.63 18% 102.98 +/- 23.71 0.00003805 +/- 0.00000953 102.11 +/- 26.83 0.00001569 +/- 0.00000687 86.31 +/- 23.79 0.00001726 +/- 0.00000411
DATA: success 0.045 Belarusian Greek_Islands Nganasan 3.98 2.28 2.06 5% 96.79 +/- 24.29 0.00003965 +/- 0.00000954 102.11 +/- 26.83 0.00001569 +/- 0.00000687 97.92 +/- 45.95 0.00001669 +/- 0.00000809
DATA: success 0.049 Belarusian Greek_Islands Han 3.96 2.28 3 15% 108.92 +/- 26.7 0.00004292 +/- 0.00001083 102.11 +/- 26.83 0.00001569 +/- 0.00000687 93.68 +/- 31.25 0.00002137 +/- 0.00000623

Получаем следующие пары (с датировкой адмикса в поколениях и годах)

Таргет	Референс 1	Референс 2	Поколения		Погрешность	Года		Погрешность
Belarusian	Anatolia_Neolithic	Turkmen	85.64	+/-	28.96	2483.56	+/-	839.84
Belarusian	Anatolia_Neolithic	Turkmen	72.89	+/-	23.73	2113.81	+/-	688.17
Belarusian	Anatolia_Neolithic	Han_NChina	101.71	+/-	28.43	2949.59	+/-	824.47
Belarusian	Anatolia_Neolithic	Turkmen	72.89	+/-	23.73	2113.81	+/-	688.17
Belarusian	Greek_Islands	Mixtec	121.19	+/-	40.18	3514.51	+/-	1165.22
Belarusian	Greek_Islands	Yukagir_Tundra	119.62	+/-	45.23	3468.98	+/-	1311.67
Belarusian	Anatolia_Neolithic	Mala	87.55	+/-	18.75	2538.95	+/-	543.75
Belarusian	Anatolia_Neolithic	Miao	86.31	+/-	23.79	2502.99	+/-	689.91
Belarusian	Greek_Islands	Ulchi	114.38	+/-	33.9	3317.02	+/-	983.1
Belarusian	Tujia	Yemenite_Jew	142.22	+/-	61.15	4124.38	+/-	1773.35
Belarusian	Greek_Islands	Miao	86.31	+/-	23.79	2502.99	+/-	689.91
Belarusian	Greek_Islands	Nganasan	97.92	+/-	45.95	2839.68	+/-	1332.55
Belarusian	Greek_Islands	Han	93.68	+/-	31.25	2716.72	+/-	906.25
Belarusian	Anatolia_Neolithic	Han	93.68	+/-	31.25	2716.72	+/-	906.25

О чем свидетельствует результаты? Результаты указывают на наличие сигнала смешивания предковых популяций белорусов с неолитическими земледельцами (ближневосточные популяции и популяции ближнего Востока здесь выступают в качестве суррогата неолитических популяций), и с рядом восточноазиатских, сибирских и америндских популяций (здесь они выступают в качестве суррогата сибирского вклада в генофонд восточной Европы) cо средним интервалом смешения примерно 2850 +- 950 лет назад, т.е в период бронзового века.

Ниже приведены графики угасания LD в комбинации Anatolian-Neolithic + Mala

Затем я уменьшил масштаб подгонки (fitting) кривых угасания LD до 0.5 сантиморганид и взял в качестве референса палеогеномы с хорошим покрытием

Эксперимент с Loschbour + Stuttgart оказался неудачным.

Более правдоподобна комбинация андроновцев (Andronovo) и чукчей (дата адмикса — 125+-60 поколений тому назад)

Вторая попытка подгонки референсных популяций Loschbour и Stuttgart в качестве предковых групп оказался более удачным (дата адмикса — приблизительно 445 +- 56 поколений тому назад, времена энеолита)

Адмикс с сибирскими палеопопуляциями (MA1) примерно в два раза «моложе» (258 +- 42 поколения, бронзовый век)

Еще один вариант адмикса между палеолитическими жителями Европы и MA1 (датировка — 393 +- 75 поколений)

Теперь о поляках. К сожалению, результаты оказались гораздо более зашумленными, так как использовались данные генотипирования на платформе Illumina, имеющей меньшее пересечение снипов со снипами платформы Affymetrix HumanOrigins. Несмотря на это, программа ALDER нашла три комбинации, пусть и с несовместимой амплитудой угасания LD.

DATA: success (warning: decay rates inconsistent) 0.011 Pole Eskimo_Sireniki Irish-BA 3.87 2.01 2.53 40% 146.66 +/- 27.30 0.00035747 +/- 0.00009228 161.51 +/- 69.51 0.00013202 +/- 0.00006577 107.56 +/- 33.31 0.00015435 +/- 0.00006109
DATA: success (warning: decay rates inconsistent) 0.0068 Pole Eskimo_Sireniki Remedello_BA.SG 3.99 2.01 2.57 49% 110.88 +/- 21.02 0.00024049 +/- 0.00006022 161.51 +/- 69.51 0.00013202 +/- 0.00006577 182.60 +/- 39.99 0.00014922 +/- 0.00005796
DATA: success (warning: decay rates inconsistent) 0.035 Pole Eskimo_Chaplin Remedello_BA.SG 3.59 2.51 2.57 56% 102.38 +/- 21.46 0.00022199 +/- 0.00006181 126.26 +/- 42.96 0.00009643 +/- 0.00003846 182.60 +/- 39.99 0.00014922 +/- 0.00005796

Здесь тоже виден слабый сигнал адмикса популяций бронзового века из Западной Европы (Remedello и ирландского бронзового века) c америндскими популяциями.

Впрочем, дополнительный анализ в программе ROLLOFF (с уменьшенным масштабом подгонки — fitting) выдал правдоподобные (c низким значением P) варианты. Например, вариант Bichon + Georgian_Kakheti: 151.41 +/-38.18, p= 4.7e-06

Очень хорошим вариантом оказался вариант адмикса Esperstedt_MN-Halberstadt_LBA: (дата адмикса — 163.80 +/- 34.11), p=4.8e-07

Окончание процесса фазирования и импутирования геномов

Опубликовано 18 августа, 201618 августа, 2016 автором verenich

К середине мая этого года я закончил трудоемкий процесс импутации сборной солянки из 9000 публично доступных образцовых представителей 700 различных человеческих популяций, генотипированных в разное время на разных снип-платформах (главным образом — Illumina и Affymetrix)
Строго говоря, я планировал завершить этот этап работы намного раньше, но в ходе выполнения работ возник ряд обстоятельств, помешавших завершить этот этап в срок. Главным из них является смена сервера где я выполнял импутирование геномов. Я начал работать на сервере Мичиганского университета, однако в ходе процесса перешел на аналогичный сервис Института Сэнгера (имени того самого нобелевского лауреата, предложившего первый метод полного сиквенирования генома).
Это решение было продиктовано необходимостью использовать новейшую референсную панель аутосомных гаплотипов — Haplotype Reference Consortium (в нее входит примерно 30 тысяч, а после предстоящего этим летом обновления — свыше 50 тысяч — аутосомных геномов, т.е свыше 60 тыс. гаплотипов). Надо сказать, этнический состав выборки референсных геномов впечатляет, хотя и там по-прежнему наблюдается перекос в сторону европейских популяций. К сожалению, и эта новейшая выборка представлена преимущественно европейцами (поэтому вероятность импутированных генотипов для европейских популяций оказались лучше аналогичных результатов в африканской и азиатской когортах), однако даже с учетом этого обстоятельства ее надежность в определении негенотипированных аллелей снипов выше 1000 Genomes (не говоря уже о HapMap):

1	UK10K	3715	3781	6.5x
2	Sardinia	3445	3514	4x
3	IBD	4478	4478	4x + 2x
4	GoT2D	2710	2974	4x/Exome
5	BRIDGES	2487	4000	6-8x (12x)
6	1000 Genomes	2495	2535	4x/Exome
7	GoNL	748	748	12x
8	AMD	3305	3305	4x
9	HUNT	1023	1254	4x
10	SiSu + Kuusamo	1918	1918	4x
11	INGI-FVG	250	250	4-10x
12	INGI-Val Borbera	225	225	6x
13	MCTFR	1325	1339	10x
14	HELIC	247	2000	4x (1x)
15	ORCADES	398	399	4x
16	inCHIANTI	676	680	7x
17	GECCO	1131	3000	4-6x
18	GPC	697	768	30x
19	Project MinE — NL	935	1250	45x
20	NEPTUNE	403	403	4x
	Totals	32611	38821
22	French-Canadian	2000	5-6X	End 2014
23	Converge	12000	1x	Now
24	UG2G Uganda	2000	4x	2015
25	Arab Genomes	100	30x
26	Ashkenazi	128	CG	Now
27	INGI-Carlantino	94	4x	Now
28	CPROBE	80	80	4x

Cледуя рекомендациям, я получил набор из 9000 образцов, каждый из которых включает в себя набор из 20-30 миллионов снипов. К сожалению, из-за субоптимальности результатов в некоторых выборках (Xing et al , Henn et al. и ряде других), их придется исключить из тех видов анализа, которые требует максимальной точности исходных данных. Импутированные генотипы (выраженные через оцененные вероятности) были трансформированы с помощью программы Plink 1.9 в генотипы, причем выбирались варианты полиморфизмов с вероятностью 0.8 (—hard—call—threshold 0.8)

Для оценки полезности импутированных генотипов для популяционного анализа я использовал метрику nearest в программе Plink (матрица с дистанцией между ближайшими геномами) и кластерограммы IBS (идентичности по генотипам).

Таблица метрики nearest (Z-статистика)

А это кластерограмма с хорошо видно географической локализацией кластеров. Я использовал для кластеризации матрицы IBS несколько разных алгоритмов — наиболее убедительный вариант был получен с помощью алгоритма Ward

Другие варианты топологии кластерограмм в формате NEWICK и TRE можно посмотреть здесь (их можно открыть в любой программе для визуализации филогенетических деревьев).

Таким образом, для некоторых типов анализа в популяционной генетике использование импутированных снипов может сослужить хорошую службу, смягчая (или, наоборот, увеличивая) градиент частот аллелей).

Дополнительные анализы — fastIBD, IBS, анализ главных компонентов — образцов в выборке, только подтверждает это наблюдение:

Но самое лучшее подтверждение надежности импутированных снипов для анализа компонентов происхождения было получено с помощью p-теста Z-статистики во время оценки правильности определенной топологии дерева компонентов (с допущением фактора смешивания предковых компонентов). Для этой цели я использовал стандартный инструмент — программу TreeMix. Я использовал только те снипы, которые встречаются в моей контрольной выборке (референсов каждого из компонента) с частотой выше 99 процентов. Как видно из нижеприведенного графика, компоненты выбраны правильно, а топология определяется практически безошибочно, несмотря даже на малое количество снипов (6 тысяч). Правильно определились и направления потоков генов, дрейфов генов (указаны стрелками). Тут в принципе мало нового — большинство этих эпизодов уже были описаны в отдельных работах генетиков. Так, виден поток генов от «денисовского» человека к усть-ишимцу, от которого в свою очередь идет поток генов к австралоидным популяциями. То есть денисовская примесь у папуасов могла достаться от сибирских популяциях близких к «усть-ишимцу». Виден также вклад ANE/EHG в геном североамериканцев -в интервале 10-15 процентов.

Принципально новым является лишь определенный программой дрейф генов в направлении от африканцев Khoisan к североафриканцами (в качестве референса которых взяты египтяне, бедуины и алжирцы). Скорее всего, это и есть тот самый пресловутый сигнал «египтского выхода» человечества из Африки, о котором недавно писалось в новейшей статье, а сам компонент -идентичен пресловутому Basal-Eurasian component

В начале июля в связи с публикацией препринта о генофонде древних ближневосточных земледельцев решился все таки подписать заявление на имя Давида Рейха и Иосифа Лазаридис с ходатайством о доступе к полной версии их выборки (она включает много новых интересных для меня популяций — например, около сотни новых образцов шотландцев, шетландцев, ирландцев из разных областей Ирландии, немцев, сорбов и поляков из восточной и западной Польши).

Г-н Лазаридис был весьма любезен и буквально на следующий день после получения подписанного заявления предоставил мне доступ к этим данным. Я займусь их плотным изучением чуть позже. А пока любопытно посмотреть результаты пилотного Admixture анализа 5900 публичных доступных образцов. В качестве проверки надежности своего нового метода изучения древних и современных популяций людей, я провел 4 параллельных анализа Admixture c разным дефолтным значением предковых популяций (K).

Разумеется, в нашем случае число компонентов K заведомо больше 3, авторы статьи эмпирически показали что меньший разброс значений был получен при K=11. Поэтому я исходил из этой цифры, назначив три разных значения K — 10,11,13.
В первом варианте я использовал т.н unsupervised режим Admixture, т.е. программа должна была сама угадать и реконструировать частоты аллелей снипов в 10 реконструируемых предковых «компонентах» популяций.

Как и ожидалась, таковыми оказались африканский (пик у пигмеев и бушменов), америндский (пик у эксимосов и американских индейцев), сибирский (пиковые значение у нганасанов), южно-индийский компонент (пик в народностях Paniya и Mala), австрало-меланизийский, южно-восточноазиатский, три западно-евразийских компонента — 2 компонента западноевроп ейских и кавказских охотников-собирателей и неолитический; и наконец ближневосточный.

Разумеется, за исключением трех компонентов с пиками в древних геномах, данное распределение отражает cовременное распределение предковых компонентов.

Пришлось вручную выделять из ближневосточного компонента популяцию базальных европейцев (в качестве основы я взял геномы натуфийцев, т.е ближневосточный компонент — Levant_N — может быть разложен на два отдельных предковых компонента — неолитический и мезолитический «натуфийский»), а затем сгенерировать гипотетическую популяцию из 20 образцов состоящих на 100 процентов из натуфийского компонента. Именно этот компонент был включен в модель K11 под названием Levant_Mesolithic ( или Natufian). Этот компонент не стоит путать с компонентом Basal-Eurasian в калькуляторе Eurogenes K7 Basal-rich, так в в моей модели K11 основная часть базального компонента ушла в неолитические компоненты (т.е Natufian=Basal-Rich — Neolithic)

Гораздо сложнее ситуация обстояла с разделением компонента кавказских охотников-собирателей, которые наряду с американскими аборигенами несут в своем геноме значительные доли компонента древних северо-евразийцев. По этому причине очень сложно, например, разделить восточных охотников-собирателей (из мезолитических культур Карелии и Самары) и синхронным им кавказских охотников-собирателей.
Из-за присутствия компонента древних северо-евразийцев в их геноме, в Admixture компонент древних кавказцев увеличивается только за счет компонент восточных охотников-собирателей — и наоборот. Правда, можно попытаться выделить отдельный мезолитический компонент населения горного Загроса (Иран).

В случае успеха древние геномы жителей мезолитической Грузии можно будет представить как 20% компонента степных охотников-собирателей + 80% местного мезолитического субстрата.

Публикации и работа с палеогеномами

Опубликовано 21 ноября, 2014 автором verenich

Как я уже отмечал в своих предыдущих записях, за последние годы был опубликован ряд работ, посвященных попыткам генотипирования останков древних людей — от живших несколько тысячелетий назад до «усть-ишимца» с предположительным возрастом около 45 тысяч лет, неандертальцев и «денисовки». Количество таких расшифровок растет все быстрее, что не может не вызывать оптимизма. Вторая половина 2014 года особенно примечательна как количеством подобных публикаций, так и числом полных геномных NGS-сиквенсов древних людей, размещенных в публичных репозиториях (банках геномных данных). Так, в сентябре в Nature была опубликована окончательная версия работы Lazaridis et al. 2014 «Ancient human genomes suggest three ancestral populations for present-day Europeans». Работа получила широкое освещение в СМИ, поскольку аналитическая выборка сэмплов в этом исследовании включала значительное количествао заново генотипированных (на чипе Affymetrix HumanOrigin) образцов ДНК из древних палеолитических стоянок Сибири (Афонтова Гора, Малта), представителя древней индейской культуры Кловис и палеоэскимоса Cаккак. В работе был представлен целый ряд образцов древней ДНК представителей европейских мезолитических и неолитических культур, опубликованных в более ранних работах 2012-2014 годов: Skoglund et a. 2014 «Genomic Diversity and Admixture Differs for Stone-Age Scandinavian Foragers and Farmers»(шведские земледельцы и охотники собиратели эпохи неолита); Olalde et al. 2014 «Derived immune and ancestral pigmentation alleles in a 7,000-year-old Mesolithic European» (дДНК мезолитического населения Иберийского полуострова) и т.д.

В этой связи необходимо также отметить статью Carpenter et al. 2013 «Pulling out the 1%: whole-genome capture for the targeted enrichment of ancient DNA sequencing libraries», в которой целый авторский коллектив представил результаты исследований древних образцов ДНК найденных в захоронениях бронзового века II тыс. д.н.э (Болгария и Дания). В следующей работе опубликованной в конце октября, Gamba et al. 2014. «Genome flux and stasis in a five millennium transect of European prehistory», читателям была представлена хронологическая перспектива на процесс изменения генофонда населения популяций живших на территории Паннонской равнины на протяжении 5000 лет (с эпохи неолита до конца железного века), проиллюстрированная на примере изучения 13 образцов древней ДНК. Параллельно вместе с этим Wellcome Trust Sanger Institute разместил геномные «риды» геномов древних англосаксов и бриттов (сама статья еще находится в процессе пре-публикации, презентация статьи была представлена на последней конференции AJHG).

Более важные публикации появилась совсем недавно. В частности, таковой публикацией является статья Fu et al. 2014 «Genome sequence of a 45,000-year-old modern human from western Siberia» о геноме так называемого «усть-ишимца» (возраст останков которого датируются 45 000 д.н.э) и статья Seguin-Orlando et al. 2014 «Genomic structure in Europeans dating back at least 36,200 years», посвященная обсуждению результатов анализа ДНК знаменитого «папусоида» с палеолитической стоянки Костенки-14.Тело мужчины, жившего 37 тыс. лет назад и найденное в 1954 г. на юго-западе России, оказалось источником старейшей европейской ДНК. Анализ его генома, опубликованный на прошлой неделе, показывает, что большинство разнообразных европейских генетических комбинаций существуют более 30 тыс.лет и пережили последний ледниковый период. Генетики обнаружили что ДНК Костенки-14 является близкородственным по отношению к раннеевропейским охотникам-собирателям, современным европейцам и жителям Сибири.
В то же время другой древний геном, данные о котором были опубликованы несколько недель назад, принадлежащий сорокапятитысячелетнему западному сибиряку, известному как Усть-Ишим, имел родство как с европейцами, так и с азиатами. Любопытно, что в этой статье подтверждается то о чем я говорил гораздо раньше: процент неандертальских генов у древних евразийцев был выше чем у современных (о чем я упоминал в одной из своих заметок в этом блоге).

Трудами известного геномного блоггера Феликса Чандракумара большинство из них было переведено в простой и доступный формат, аналогичный файлам raw data от FTDNA и 23andMe. В GEDMatch можно поиграть с этнокалькуляторами и даже попытаться сравнить свой геном с геномами древних людей.Для этого следует взять из таблицы (кот. видна, если пройти по ссылке) номера, которыми обозначены древние геномы.

Sample Name	Sample Location	GEDMatch	Sex	Y-DNA	Mt-DNA	Approx. Age by authors	My Analysis or Comments
Altai Neanderthal	Denisova Cave, Siberia	F999902	Female			50,000 years
Denisova	Denisova Cave, Siberia	F999903	Female			30,000 years
Palaeo-Eskimo	Qeqertarsuaq, Greenland	F999906	Male	Q1a	D2a1	4,000 years	Palaeo-Eskimo 2000 BC DNA
Clovis-Anzick-1	Montana, North America	F999919	Male	Q-Z780	D4h3a	12,500 years	Matches Living people.
Mal’ta	South-Central Siberia	F999914	Male	R	U	24,000 years	Matches Living people on X Chromosome.
La Braña-Arintero	León, Spain	F999915	Male	C-V183	U5b2c1	7,000 years	Analyzing La Braña-Arintero Ancient DNA
Motala-12	Östergötland, Sweden	F999917	Male	I-L460	U2e1	7,000 years	My Analysis of Motala-12 ancient DNA
LBK	Stuttgart, Germany	F999916	Female		T2c2	7,500 years	Matches Living people
Loschbour	Loschbour, Luxembourg	F999918	Male	I-L460	U5b1a	8,000 years	Matches Living people
Ajvide58	Sweden	F999924	Male	I-CTS772	U4d	5000 years	Ajvide58 DNA Analysis
Gökhem2	Sweden	F999934	Female		H1c	5000 years	Gökhem2 Ancient DNA Analysis
Hinxton-2	Cambridgshire, UK	F999921	Female		H2a2b1	1300 years	Hinxton-2 Analysis
Hinxton-3	Cambridgshire, UK	F999922	Female		K1a4a1a2b	1300 years	Hinxton-3 Analysis
Hinxton-4	Cambridgshire, UK	F999925	Male	R-DF25	H1ag1	2000 years	Hinxton-4 has X-Matches with living people
Hinxton-5	Cambridgshire, UK	F999926	Female		H2a2a1	1300 years	Hinxton5 Ancient DNA Analysis
KO1	Tiszaszőlős-Domaháza, Hungary	F999931	Male	I-L68	R3	5650-5780 cal BC	Analysis of Neolithic KO1 genome
NE1	Polgár-Ferenci-hát, Hungary	F999937	Female		U5b2c	5070-5310 cal BC	NE1 Ancient DNA Analysis
NE5	Kompolt-Kigyósér, Hungary	F999927	Male	C-F3393	J1c	4990-5210 cal BC	Ancient Hungarian Genome NE5 Analysis
NE6	Apc-Berekalja I., Hungary	F999932	Male	C-P255	K1a3a3	4950-5300 cal BC	Analysis of Hungarian genome-NE6
NE7	Apc-Berekalja I., Hungary	F999928	Male	I-L1228	N1a	4360-4490 cal BC	Ancient Hungarian genome — NE7
CO1	Apc-Berekalja I., Hungary	F999930	Female		H	2700-2900 cal BC	Analysis of Copper age genome CO1
BR2	Ludas-Varjú-dűlő, Hungary	F999933	Male	J-M67	K1a1a	1110-1270 cal BC	Ancient BR2 matches living people
IR1	Ludas-Varjú-dűlő, Hungary	F999929	Male	N-M231	G2a1	830-980 cal BC	Ancient Hungarian genome — IR1
Tyrolean Iceman (ERP001144)	Tisenjoch Pass, Oetztal Alps		Male			5300 years	Pending
Ust’-Ishim	Ust’-Ishim, Siberia	F999935	Male	K-M526	R	45,000 years	Ust’-Ishim matches with living people!
Kostenki14	European Russia	F999936	Male	C-V199	U2b	38,700-36,200 years	Kostenki14 Ancient DNA Analysis

Sample Name	Sample Location	Sex	Y-DNA	Mt-DNA	Approx. Age by authors
Mezmaiskaya Neanderthal	Mezmaiskaya Cave	Female			29,000 years
Tianyuan	Tianyuan Cave, China			R	40,000 years
Afontova Gora-2	South-Central Siberia	Male	R1?	R	17,000 years
Motala-1	Östergötland, Sweden	Female		U5a1	7,000 years
Motala-9	Östergötland, Sweden	Female		U5a2 or U5a1f1a1	7,000 years
Motala-6	Östergötland, Sweden	Male		U5a2d	7,000 years
Motala-2	Östergötland, Sweden	Male	F-P139	U5e1	7,000 years
Motala-4	Östergötland, Sweden	Female		U5a2d	7,000 years
Motala-3	Östergötland, Sweden	Male	I-M258	U2e1	7,000 years
Hinxton-1	Cambridgshire, UK	Male	R-L151	K1a1b1b	2000 years
Ajvide53	Sweden	Female		U4d	5000 years
Ajvide59	Sweden	Male	I-PF3796	U5b2c1	5000 years
Gökhem7	Sweden	Female		H	5000 years
Ire8	Sweden	Male	I-CTS6343	U4d	5000 years
StoraFörvar11	Stora Karlsö, Sweden	Male	I-CTS4077	U5a1f1a	7500 years
Gökhem4	Sweden	Male	CF-M3690	H	5000 years
Gökhem5	Sweden	Female		K1e	5000 years
Ajvide52	Sweden	Male	HIJK-F929	HV0a	5000 years
Ajvide70	Sweden	Female		U4d	5000 years
NE4	Polgár-Ferenci-hát, Hungary	Female		J1c	5050-5290 cal BC
NE3	Garadna, Hungary	Female		X2b	5010-5210 cal BC
BR1	Kompolt-Kigyósér, Hungary	Female		K1c1	1980-2190 cal BC
KO2	Berettyóújfalu-Morotva-liget, Hungary	Female		K1	5570-5710 cal BC
NE2	Debrecen Tócópart Erdõalja, Hungary	Female		HV	5060-5290 cal BC
V2	Vratitsa, Bulgaria	Male		U2e1’2’3	1500-1100 BC
M4	Borum Eshøj, Denmark	Male		B2	1350 BC
K8	Krushare, Bulgaria	Male		R	450-400 BC
NA43	Laguna de los Condores, Peru	Male		B4b’d’e	1000-1500 AD
AusAboriginal	Western Austalian	Male	F-M235	O1a	100 years
NA41	Laguna de los Condores, Peru	Male		L3	1000-1500 AD
P192-1	Svilengrad, Bulgaria	Male		U3b	800-500 BC
T2G2	Stambolovo, Bulgaria	Male		H1c9a	850-700 BC
NA42	Laguna de los Condores, Peru	Male		D1	1000-1500 AD
NA50	Laguna de los Condores, Peru			B4b’d’e	1000-1500 AD
NA47	Laguna de los Condores, Peru			L3	1000-1500 AD
NA40	Laguna de los Condores, Peru			L3	1000-1500 AD
NA39	Laguna de los Condores, Peru	Male		B2	1000-1500 AD
Feld1 Neanderthal	Neander Valley, Germany				42,000 years
Sid1253 Neanderthal	El Sidron cave, Asturias, Spain				49,000 years
Vi33.16 Neanderthal	Vindija cave, Croatia	Female			38,310 years
Vi33.25 Neanderthal	Vindija cave, Croatia	Female
Vi33.26 Neanderthal	Vindija cave, Croatia	Female			44,450 years

В своем блоге Феликс размещает аналитические отчеты по каждому из проведенных анализов, отчеты включают графическое отображения «состава различных геномных компонентов происхождения» каждого из образцов в калькуляторах Gedmatch (включая мой последний калькулятор K23b), фенотипические признаки (предположительный цвет кожи и глаз), возраст на момент смерти и т.д.
Пытаясь ответить на вопрос, насколько правдоподобны (в смысле реального генеалогического родства) результаты совпадения сегментов древних и современных людей, Феликс приводит замечательные вычисления оценки правдоподобия совпадений в геномах современных людей и древних образцов. К сожалению, рассуждения замечательные, но вызывающие определенные вопросы, которые я озвучу в другой заметке.

Так или иначе, поставленная Феликсом на поток и практически полностью автоматизированная работа с древними геномами заслуживает безусловного признания, поскольку в силу разделения труда позволяет другими исследователям-любителям полностью сконцетрировать свое внимание на процессе непосредственного анализа полученных данных, вместо того чтобы тратить свои ресурсы на процесс извлечения снипов из «сырых» геномных данных. Благодаря этому разделению труда, Давид Веселовский из проекта Eurogenes провел ряд замечательных экспериментов с этими данными (включая PCA, Treemix и вычисление генного дрейфа с помощью f3). В основном выводы этих экспериментов повторят то, что было написано в статьях профильных генетиков, за исключением одного интересного вывода на основании графа Treemix, в котором отображено направление процессов обмена генами между различными древними популяциями:

«В отношении Kostenki14, графики Treemix подтверждают один из основных выводов работы Seguin-Orlando et al. 2014, согласно которой главны компонент образца Kostenki-14 является базальным «предковым» компонентом более поздних европейцев (Basal_Eurasian). Тем не менее, два последних графика показывают, что этот базальный «компонент» не тот же самый «базальный» компонент в геноме неолитического образца из Штутгарта, связанного с базальным евразийским компонентом, который был описан в работе Lazaridis et al. 2013″.

Другой геномный блоггер, Сергей Козлов, использовал те же самые данные палеогеномов (взятые с сайта Ф. Чандракумара) для создания замечательных карт, иллюстрирующих количество и интенсивность общих IBD-сегментов палеогеномов и геномов современных популяций.

Я решил не оставаться в стороне и провел собственный анализ PCA и кластеризации популяций по значениям компонентов генетического разнообразия.

Ниже приведены иллюстрации к моему опыту кластеризации собственного генома с геномами древних жителей Евразии. В качестве входных данных алгоритма ward-кластеризации в программе R, я использовал собственные значения 4 векторов главных компонентов (PC) разнообразия. Эти векторы, в свою очередь, были получены путем вычислений в большом массиве (2024 образца) генетических данных (примерно 110 тысяч снип-полиморфизмов) представителей современных и древних популяций. Мой геном (обозначенный как Vadim) представляет собой набор, полученныq в ходе импутации по датасету Human Origin значения снипов информативных с точки зрения эволюционного происхождения, и используется в качестве контрольной группы.

Для начала график PCA, и положение палеогеномов на этом графике.

В аналитической выборке я задействовал снипы геномов высших и низших приматов (дендрограмма выборка укоренена на геноме мармозетки), древних гоминидов (денисовского человека и неандертальцев). Остальное — как я и упоминал выше — представляет собой совокупность снипов современных и древних популяций.

Благодаря характеру выборки и характеру используемых снипов, я могу взглянуть на свое происхождение с наиболее широкой перспективы, позволяющей проследить индивидуальный эволюционный путь от древнейших людей до наших современников.
Можно сказать, что я проделал самое далекое (из всех предыдущих) генеалогическое путешествие в собственное прошлое. Разумеется, без предыдущего выделения обработки образцов древнего ДНК новейшими биохимическими методами, а также публикации данных — это путешствие длинной в сотни тысяч лет не могло бы просто состоятся. Так что огромное спасибо всем биохимикам, генетикам и биоинформатиков работавшим с образцами древней ДНК.

Полученные мной кластерные дендрограммы вышли очень большого разрешения. В силу этого, имеет смысл изучить топологию, структуры и расположение популяционных групп-кластеров в полномасштабном варианте, иначе могут возникнуть интересные вопросы.

Поэтому — я подготовил соответствующие файлы PDF и разместил ссылки на эти файлы для удобного просмотра.

Здесь их опубликовать не представляется возможным, и по этой причине я ограничу себя размещением тех фрагментов трех вариантов кластерных диаграмм, на которых присутствуют древние образцы.
Забегая вперед, можно заметить, что образцы ДНК древних людей (т.е людей современного анатомического типа — homo sapiens sapiens), строго говоря, разбиваются на три органические суперкластера — древних сибириков (или евразийцев), древних европейских охотников-собирателей, и ранних неолитических европейских земледельцев. В основной своей части состав и топология популяционных кластеров стабилен в разных вариантах, наибольшие видоизменения заметны у тех образцов, чье множество снипов имеет меньшее пересечение с общим набором снипов. Отсюда довольно таки тривиальный вывод: чем меньше общее число снипов — тем больше флуктуаций наблюдается в расположении древних образцов внутри ветвей кластерной дендрограммы.

Кластер древних евразийцев наиболее стабилен (т.к. там всего два древних генома Afontova Gora 2 (AG2) и знаменитый мальчик с сибирской стоянки Malta (MA1); причем оба образца взяты из одного источника данных). Из современных популяций к этому кластеру наиболее органично примыкают различные группы населения центральной Азии — от таджиков до гуджаратов, и от калашей до пуштунов.

Кластер древних охотников-собирателей Европы наиболее неустойчив, и это объясняется прежде всего разным числом снипов в образцах, а также тем что сами образцы взяты из разных исследований. Тем не менее тенденция наглядна — древнейшие европейцы (охотники-собиратели мезолита) наиболее близки по своим аутосомным снипам к жителям современной западной и северной Европы — особенно Британских островов, Скандинавии и Балтийского региона. Практически во всех вариантах прибалтийцы близки к древним жителям Швеции (Готланда), а также мезолитическим образцам La Brana, Motala и Loshbour. Последние также близки к финнам, эстонцам и северным русским. Из более поздних и географически удаленных образцов к ним близки древние образцы из Венгрии неолитического периода, бронозового и железного веков (BR1, NE2 и KO1).

Интересно, что в этот же кластер входят как современные популяции западной Европы (британцы, норвежцы, французы и др.), так и современные жители центральной Европы — чехи хорваты и венгры. Является ли это наследием древних времен (гальштатской общности связываемой с древними кельтами) — трудно сказать. Не этим ли объясняется тот факт, что образцы древних англо-саксов и бриттов (обозначенные здесь как Hixton) иногда кластеризируются с (современными!) венграми, хорватами, иногда с современными англичанами из Кента и корнуэлльцами. При этом некоторые из образцов Hixton остаются близки (в смысле схожести генома) к скандинавам, оркнейцам, шотландцам, и даже литовцам.

Мой собственный «геном» (Vadim) также входит в эту группу, причем в разных вариантах он определенно близок одновременно и древним мезолитическим и эпинеолитическим шведам, а также более поздним образцам из Венгрии (киммерийского мальчика IR1, а также самый «балтийский» из всех древних венгерских обрацов — KO1). Интересно что IR1 («аутосомный геном» «киммерийского » мальчика Y-гаплогрупы N1a из захоронения паннонской культуры бронзового века Mezőcsát примерно 900 год до нашей эры) в первых четырех главных компонентах кластеризируется с моим собственным «аутосомным геномом»). Это наверное объясняет почему мой собственный геном дает хорошие комбинации (fit) к комбинации трапезундских турков и древних жителей Балтийского региона.

Как известно, попгенетики готовят к публикации большую статью, в которой подводятся итоги нескольких лет исследования генофонда представителей древних культуры шнуровой керамики* (известной также как культура боевых топоров) и ямной культуры** (другое название — древнеямная культурно-историческая общность). Безусловно, это исследование обещает пролить свет на некоторые темные места генетических связей жителей этих культур с современным населением Восточной Европы (особенно Польши, Украины, Беларуси и юго-западной части России).

Пока все детали исследования неизвестны, однако благодаря настойчивости некоторых энтузиастов генетической генеалогии (Веселовского и пр.) удалось выяснить, например, что генофонд древние образцы представителей Ямной культуры в рамках формальных тестов (f3 и D-статистик) наилучшим образом аппроксимируются как результат смешения древнего мезолитического населения севера Европы (в работе их представляют карельские образцы, очевидно из известных захоронений Палеострова) и населения, близкого к современным закавказским популяциям (лучший результат дали армяне из Еревана).

Признаюсь, эти сведения приободрили меня. Дело в том, что последние несколько недель я занимался изучением эволюции аутосомного генофонда беларусов (и своего тоже) из недавно опубликованного набора лаборатории Райха (это одна из усеченных версии их знаменитого кураторского набора Human Origin Dataset).
Как и раньше, для анализа я использовал инструменты разработанные программистами той же лаборатории (Admixtools), а также Alder — программу написанную на основе открытого кода Admixtools, и оптимизированную под более детальный анализ процесса смешивания различных предковых групп.

Так вот, до получения сведений о предварительных результатах попгенетиков, я был немного смущен полученной картиной. У меня получилось вот что. С точки зрения формальной оценки (f3-статистки, аналога более известной p-статистки) лучшие пары адмикса для беларусов (с отрицательным значением Z) представляли собой либо комбинацию мезолитического населения Европы (Loshbour) и современного населения современной Анатолии и ближнего Востока, либо комбинацию ‘генов’ неолитических жителей Европы (LBK380, а также современных сардинцев) и современных америндских популяций (происходящих, как нам известно, из восточной Сибири).
Вот начало списка значимых пар:

Mixe Sardinian Vadim -11.811
Sardinian Mixe Vadim -11.811
Karitiana Sardinian Vadim -11.757
Sardinian Karitiana Vadim -11.757
Zapotec Sardinian Vadim -11.638
Sardinian Zapotec Vadim -11.638
Loschbour Georgian_Megrels Vadim -11.599
Georgian_Megrels Loschbour Vadim -11.599
Piapoco Sardinian Vadim -11.482
Sardinian Piapoco Vadim -11.482
Loschbour Turkish_Trabzon Vadim -11.434
Turkish_Trabzon Loschbour Vadim -11.434
Loschbour Assyrian_WGA Vadim -11.395
Assyrian_WGA Loschbour Vadim -11.395
LBK380 Piapoco Vadim -11.354
Piapoco LBK380 Vadim -11.354
Surui Sardinian Vadim -11.346
Sardinian Surui Vadim -11.346
Loschbour Abkhasian Vadim -11.293
Abkhasian Loschbour Vadim -11.293
Bolivian_LaPaz Sardinian Vadim -11.232
Sardinian Bolivian_LaPaz Vadim -11.232
Loschbour Iranian_Jew Vadim -11.231
Iranian_Jew Loschbour Vadim -11.231

Я выбрал около сотни значимых пар и проверил их достоверность «адмикса) с помощью инструментов D-статистки (qpDstat) в попарном сравнении каждой из значимых комбинаций (начало таблицы):

Vadim Italian_Tuscan : Loschbour Palestinian 0.0293 8.141 best
Vadim Iranian : LBK380 GujaratiC_GIH 0.0245 7.319 best
Vadim Motala12 : Druze Sardinian 0.0125 7.285 best
Vadim Loschbour : Palestinian Albanian 0.0146 7.17 best
Vadim Sardinian : GujaratiC_GIH Iranian 0.0121 7.151 best
Vadim Palestinian : Spanish_Pais_Vasco_IBS GujaratiC_GIH 0.0145 7.126 best
Vadim Egyptian_Comas : Basque_Spanish GujaratiC_GIH 0.0137 7.016 best
Vadim Sardinian : Loschbour Egyptian_Comas 0.0251 6.962 best
Vadim Sardinian : Loschbour Tunisian_Jew 0.0251 6.789 best
Vadim Palestinian : Basque_Spanish GujaratiC_GIH 0.013 6.758 best
Vadim Sardinian : Loschbour Palestinian 0.0237 6.69 best
Vadim Basque_Spanish : Balkar Palestinian 0.0076 6.601 best
Vadim GujaratiC_GIH : Tunisian_Jew Egyptian_Comas 0.0094 6.493 best
Vadim Spanish_Pais_Vasco_IBS : Balkar Palestinian 0.0079 6.458 best
Vadim Loschbour : Druze Italian_WestSicilian 0.0135 6.443 best
Vadim Loschbour : Iranian Albanian 0.0159 6.385 best
Vadim Palestinian : Sardinian Iranian 0.0083 6.344 best

Как видно, лучшая достоверность (обмена генами) у тех пар которые представляют собой комбинацию мезолитических популяций (Loshbour и Motala), популяций Кавказа, южной Европы и центральной Азии.

Это особенно хорошо заметно в тесте f4ratio. Вот например сравнение 2 квадропул, три популяции в каждой из которых идентичны (беларусы, кумыки и Losbour), а четвертая популяция отличается (балкарцы vs. Motala). Результат означает что кроме мезолитического компонента Loshbour (из западной Европы), у беларусов наблюдается эксцесс (28+-0.1%) дополнительного источника мезолитических «генов» (типично для балтийских популяций мезолита вроде Motala)

Vadim Kumyk Loschbour Motala12 : Vadim Kumyk Loschbour Balkar 0.285678 0.096194 2.97

Крайне любопытны и результаты проведенного мной в Alder исследования источников «древного» адмикса у беларусов.
Я выбрал только те пары, в которых амплитуда угасания LD в двух гипотетических популяциях-донорах была сопоставима с амплитудой угасания LD в популяции-реципиенте (т.е у беларусов). Интересно, что только две пары (пенджабцы + Motala) и (иракские евреи + чукчи) дали консистентную попарную подгонку кривой угасания LD с незначительным разбросом амплитуды (15-25%). К слову, комбинация Armenian+Motala-merge (примерно идентичная наиболее устойчивой модели адмикса у жителей ямной культуры) тоже присутствует в списке «успешных» комбинаций, однако кривые угасания LD имеют разную скорость угасания (их амплитуда отличается уже на 55% и поэтому они не консистентны, т.е несовместимы) в попарном режиме сравнения

DATA: success_consistent 0.0042 Belarusian Punjabi_Lahore_PJL Motala_merge 4.49 2.76 2.78 15%
DATA: success_consistent 0.0098 Belarusian Iraqi_Jew Chukchi 4.31 2.2 3.01 25%
DATA: success 0.0065 Belarusian Mongola Motala_merge 4.4 2.64 2.78 28%
DATA: success 0.011 Belarusian Yi Papuan 4.29 2.26 4.66 28%
DATA: success 0.00037 Belarusian Lebanese Papuan 4.98 2.69 4.66 38%
DATA: success 0.041 Belarusian Kusunda Motala_merge 3.98 2.61 2.78 41%
DATA: success 0.013 Belarusian Hezhen Motala_merge 4.25 2.17 2.78 49%
DATA: success 0.037 Belarusian Motala_merge Tu 4.01 2.78 3.13 51%
DATA: success 4.20E-06 Belarusian Kalmyk Motala_merge 5.79 2.36 2.78 54%
DATA: success 0.0086 Belarusian She Motala_merge 4.34 2.58 2.78 54%
DATA: success 0.0019 Belarusian Armenian Motala_merge 4.66 2.14 2.78 55%
DATA: success 0.048 Belarusian Daur Motala_merge 3.94 2.11 2.78 56%
DATA: success 0.0042 Belarusian Motala_merge Miao 4.49 2.78 3.5 59%
DATA: success 0.041 Belarusian Oroqen Motala_merge 3.98 2.28 2.78 59%
DATA: success 0.013 Belarusian Thai Motala_merge 4.25 2.13 2.78 65%
DATA: success 0.043 Belarusian Motala_merge Lahu 3.97 2.78 3.56 71%
DATA: success 0.0049 Belarusian Motala_merge Japanese 4.46 2.78 3.53 72%

Примечательно что для пары Belarusian Armenian Motala_merge Admixtools датирует смешение 114.67+/-20.5 поколений тому назад. А вот датировка адмикса для двух первых пар (последняя колонка это датировка адмикса
Belarusian Punjabi_Lahore_PJL Motala_merge 4.49 2.76 2.78 15% 142.4+/-27.54
Belarusian Iraqi_Jew Chukchi 4.31 2.2 3.01 25% 43.28+/-9.45 То есь самое позднее 3500 лет до нашего времени.Итак, выводы: в эволюционной перспективе, костяк аутосомного генофонда беларусов составляет субстрат мезолитического генетического компонента Европы, к которому примешиваются два потока — один с юга, с наиболее значимым вливанием во времена неолита (земледельцы из Анатолии и ближнего Востока), другой — видимо более поздний (т.к. он отсутствует у ямников) из Сибири.

*Культура боевых топоров, культура шнуровой керамики (нем. Schnurkeramik) — археологическая культура медного и бронзового веков, распространенная на обширных территориях Центральной и Восточной Европы и датированная 3200 г. до н. э./2300 до н. э. — 2300 г. до н. э./1800 г. до н. э. Племена культуры боевых топоров часто считают первыми индоевропейцами на территории Средней Европы
**Я́мная культу́ра (точнее — Древнея́мная культу́рно-истори́ческая о́бщность) — археологическая культура эпохи позднего медного века — раннего бронзового века (3600—2300 до н. э.). Занимала территорию от Южного Приуралья на востоке до Днестра на западе, от Предкавказья на юге до Среднего Поволжья на севере.В рамках ранней версии курганной гипотезы Марии Гимбутас ямная культура связывалась с поздними протоиндоевропейцами.

Кластер древних жителей по своей устойчивости занимает промежуточное место между кластерами древних северных евразийцев и западных европейских охотников-собирателей.
В этот кластер, иерархически близкий популяциям Кавказа и ближнего Востока, предсказуемо входят предстаители самых классических популяции южной Европы — от греков и болгар, до басков и сардинцев. Как уже стало обычным, сардинцы кластеризуются с образцом тирольского человека Этци и женщины из линейноленточной культуры («LBK380»). В большинстве вариантов (2 из трех опубликованных) к этой подгруппе примыкают представители древнейших неолитических культур на территории современной Венгрии — CO1, H4, H3, NE5, NE7). Жители бронзового века (на графике они ошибочно обозначены как Europe оказались посередине между раннеевропейскими охотникам-собирателями и земледельцами.

Добавление к выборке древних геномов «усть-ишимца» и «костенковца» позволило пролить свет на некоторые особенности эволюции популяций центральной и восточной части Евразии. В кластерном анализе (вардовская кластеризация) по 4 первым компонентам PCA усть-ишимец у меня получился в одном кластере с киргизами и кажется селькупами. По первым двум компонентам в том варианте рейховского набора популяций, где нет андаманцев Onge — он попадает в один кластер с австралийскими аборигенами.
Думаю, что onge все же ближе, да к тому же во всех калькуляторах у усть-ишимца максимум «генома» приходится на сочетание южно-индийских и юго-восточноазиатских компонентов. А вот «костенковец» оказывается ближе всего к чувашам и саамам. Что характерно — в предыдущих вариантах, в которых я не использовал костенковца, место костенковца часто занимал AG-2 (Afontova Gora). Также заметна разница между кластерными схемами PC1-2 и PC-1-2-3-4.В первом случае костенковец в одном кластере с индусами, а во-втором с с чувашами и саамами. Характерно, что восточноевразийские палеогеномы Тяньюань и Усть-Ишим входят в один кластер (их положение не сильно меняется), а MA1 нет.

Скрытые возможности клиентских данных 23andme в плане молекулярной диагностики.

Опубликовано 16 августа, 2014 автором verenich

Компания 23andme не нуждается в особом представлении читателям этого блога. Вплоть до конца прошлого года компанию занимало существенный сегмент рынка персональной геномики, ориентированного на предоставление клиентам информации о генетических медицинских рисках (genetic risks) и генетической генеалогии (genetic origin). Информация о медико-генетических рисках содержалась в ряде сервисов портала компании, а также в доступном для скачивания отчета о генетических рисках и, разумеется, в первичных данных генетического отчета, в котором содержались значимые с точки зреемя медико-генетического диагностирования генетические полиморфизмы (SNP).

Всвязи с известными событиями и последующим за ними предписанием USA Food and Drug Administration (FDA) компании 23andme о запрете выпуска на рынок услуг персонального геномического диагностирования своего «медицинского девайза» (т.е интерпретации медико-генетических рисков развития заболеваний), компании пришлось сузить свою сферу деятельности до оказания генетико-генеалогических услуг.

Несмотря на это досадное обстоятельство, сказавшееся нелучшим образом на динамике увеличения клиентской базы компании, нужно помнить, что все клиенты сохранили доступ к своим первичным данным тестирования (т.е списку снипов с генотипами). И при вдумчивом, творческом подходе любой человек может не только «вытащить» из этих «cырых данных» важную с точки зрения медицины информацию, но и заменить спомощью полученной информацией результаты более традиционных тестов.

Каковы могут быть варианты использования данных 23andmе не в привычных генеалогических целях, а скажем для получения сведений, который могут впоследствии пригодится для молекулярного диагностирования?

Я приведу пару примеров такого использования.

Определение HLA-фенотипа.

На мембране клеток организма присутствуют продукты генов всех локусов, размещенных на обеих нитях 6-й хромосомы.

Это означает, что HLA-гены наследуются по кодоминантному типу, т. е. одну хромосому ребенок наследует от матери, а другую – от отца. Как уже упоминалось, совокупность генов, расположенных на одной хромосоме, составляет гаплотип. Таким образом, у человека два гаплотипа и каждая клетка организма несет на себе диплоидный набор антигенов системы HLA, один из которых кодируется HLA-генами матери, а другой – отца. Исключение составляют половые клетки (яйцеклетка и сперматозоид), каждая из которых содержит в своем ядре только по одному гаплотипу.

Антигены гистосовместимости, выявляемые на клетках конкретного человека, составляют HLA-фенотип. Для его определения необходимо произвести фенотипирование клеток индивида. Как правило, “типируются” лимфоциты периферической крови. До настоящего времени в большинстве лабораторий HLA-A. В, С и DR-антигены определяют при помощи серологических методов, в частности, лимфоцитотоксического теста. тот тест основан на способности анти-НLА-антител в присутствии комплемента разрушать лимфоциты, несущие соответствующие антигенные детерминанты. Гибель клеток демонстрируется при помощи добавления трипанового синего. При этом мертвые поврежденные клетки окрашиваются, и под микроскопом учитывается их количество.

Эти тесты часто требуются в ходе стандартных медицинских процедур обследования во время начала беременности, или для изучения этологии аутоимунных заболеваний. Еще более важно определение гистосовеместимости в транплантологии, где типирование HLA-фенотипа донора является обязательным условием.

Однако, с приходом новых микроматричных технологий опеределния нуклеотидов ДНК и биоинформатических методов рутинной обработки последовательности человеческих геномов , появился дешевая и относительно простая альтернатива классическим серологическим тестам (которые стоят в интервале от 100 до 500 долларов).

Я не буду останавливаться на принципиальном описании процедур, с помощью которых на основании данных 23andme можно с помощью метода «импутирования» определить HLA-фенотип, так как в прошлом году я уже разместил в этом блоге пошаговую инструкцию для выполнения этой задачи.

Впрочем, уже после того, как я отписался на эту тему здесь, в департаменте биостатистики Университета Вашингтона был разработан алгоритм HIBAG который принципиально мало чем отличается от алгоритма HLA*IMP (в обеих алгоритмах используется training model, позволяющая определять фенотип HLA по снипам 23andme). Входные данные программного решения этого алгоритма (язык R) представляют собой формат Plink. А так как в последней версии Plink была включена нативная поддержка формата 23andme, то преобразовать данные 23andme в бинарный формат Plink не сооставит особого труда. Что касается обработки данных в HIBAG, то примерный порядок выполнения команд выглядит следующим образом:

# Load the published parameter estimates from European ancestry
model.list <- get(load(«European-HLA4.RData»))#########################################################################
# Import your PLINK BED file
#
yourgeno <- hlaBED2Geno(bed.fn=».bed», fam.fn=».fam», bim.fn=».bim»)
summary(yourgeno)

# HLA imputation at HLA-A
hla.id <- «A»
model <- hlaModelFromObj(model.list[[hla.id]])
summary(model)
# HLA allele frequencies
cbind(frequency = model$hla.freq)

# SNPs in the model
head(model$snp.id)
# «rs2523442» «rs9257863» «rs2107191» «rs4713226» «rs1362076» «rs7751705»
head(model$snp.position)
# 29525796 29533563 29542274 29542393 29549148 29549597

# best-guess genotypes and all posterior probabilities
pred.guess <- predict(model, yourgeno, type=»response+prob»)
summary(pred.guess)
pred.guess$value
pred.guess$postprob

Панель метилирования Яско

В последние 10 лет, крупные генетические исследования выявили сотни генных мутаций, которые возникают чаще у аутичных пациентов, чем в общей популяции. Тем не менее, каждый пациент имеет только одну или несколько из этих мутаций, что затрудняет разработку лекарств против болезни. В настоящее время, изучением генетических факторов аутизма занимается большое количество врачей-генетиков, одним из них является доктор Эми Яско занимается исследованиями генных мутаций у аутистов. Как показали многочисленные молекулярно-генетические обследования и спектрометрия аминокислот, органических кислот и карнитинов, значительное количество аутистов страдает метаболическими нарушениями. Есть виды аутизма, вызываемые именно этими генетическими нарушениями обмена вещест.

Доктор Эми Яско разработала тест на панель метиляции Яско — тест этот дорогой, стоит 500 долларов, в этой проверяют что-то около 30 генных полиморфизмов (снипов). Выбор снипов в этой панели мотивирован тем, что эти снипы связаны с определенными генами на «молекулярно-биохимическом пути метиляции» (methyliation pathway), т.е генами которые влияют на способность организма выполнять ряд ключевых биохимических функций. Наличие генетических дисбалансов, т.е снипов в пути метиляции, будет ограничивать эффективность пути метиляции.

К счастью клиентов 23andme, чипсет снипов этой компании включает в себя если не все, то большую часть снипов панели Яско.
Один из проектов, возникший всвязи с неудовлетворенной потребностью клиентов в более развернутой и детальной обработке данных 23andme, Genetic Genie предлагает условно-бесплатный сервис с помощью которого данные релевантных снипов можно привести к традиционному виду таблицы с отчетом по панели Яско:

Gene & Variation	rsID	Alleles	Result
COMT V158M	rs4680	AA	+/+
COMT H62H	rs4633	TT	+/+
COMT P199P	rs769224	GG	-/-
VDR Bsm	rs1544410	CC	-/-
VDR Taq	rs731236	__	no call
MAO-A R297R	rs6323	TT	+/+
ACAT1-02	rs3741049	AG	+/-
MTHFR C677T	rs1801133	GG	-/-
MTHFR 03 P39P	rs2066470	AG	+/-
MTHFR A1298C	rs1801131	GG	+/+
MTR A2756G	rs1805087	AA	-/-
MTRR A66G	rs1801394	GG	+/+
MTRR H595Y	rs10380	CC	-/-
MTRR K350A	rs162036	AA	-/-
MTRR R415T	rs2287780	CC	-/-
MTRR A664A	rs1802059	AG	+/-
BHMT-02	rs567754	CC	-/-
BHMT-04	rs617219	AA	-/-
BHMT-08	rs651852	__	no call
AHCY-01	rs819147	__	no call
AHCY-02	rs819134	__	no call
AHCY-19	rs819171	__	no call
CBS C699T	rs234706	GG	-/-
CBS A360A	rs1801181	__	no call
CBS N212N	rs2298758	__	no call
SHMT1 C1420T	rs1979277	__	no call

Несмотря на то, что на выходе клиент получает готовый частный отчет по тесту Яско, медико-биологическая интерпретация результатов не так уж и проста, и требует определенной интеллектуальной сноровки и общегенетической эрудиции в плане понимания того, какую функцию выполняет тот или иной ген. Строго говоря, при грамотной интерпретации этих результатов, можно самостоятельно составить себе диету из витаминов-пищевых добавок, которые позволяет компенсировать обусловленный генетическим дисбалансом дефицит тех или иных энзимов.Примерный образец интерпретации можно посмотреть здесь

Алгоритм самостоятельного анализа результатов экзомного тестирования

Опубликовано 10 июля, 201410 июля, 2014 автором verenich

Осенью 2011 года один из флагманов коммерческой персональной геномики, компания 23andme, запустила пилотный проект экзомного тестирования, в котором клиентам предлагался продукт — экзомный тест за 999 американских долларов вместе с интерпретацией результатов. Тест покрывал примерно 50 млн. базовых пар ДНК, включающих в себя информацию необходмую для синтеза протеинов. К сожалению, пилотный проект быстро закрылся из-за отсутствия интереса и высокой стоимости теста. Тем не менее, некоторые из россиян успели заказать себе этот тест и получить результаты. Но так как авторизированный отчет 23andme с толкованием полученных результатов оказался написанным на сложном для понимания эзотерическом научном языке, возникла необходимость в дополнительной интерпретации, вернее разжевывании имеющейся интерпретации, то я решил показать, как можно проанализировать экзом самостоятельно с помощью подручных средств.

В качестве примера я использую анонимизированный файл vcf (файл с перечнем геномных вариантов) одного из немногих россиян, заказавших экзомное тестирование в 23andme.

Техническое описание исследования.

Для анализа экзома я использовал NGS-библиотеки пакета Bioconductor-R (в среде статистических вычислений R), предназначенного для анализа полногеномных данных. Основной библиотекой, задействованной в анализе была библиотека variantAnnotation.

source(«http://bioconductor.org/biocLite.R»)

library(VariantAnnotation)

Загрузка требуемого пакета: BiocGenerics

Загрузка требуемого пакета: parallel

Присоединяю пакет: ‘BiocGenerics’

Загрузка требуемого пакета: GenomicRanges

Загрузка требуемого пакета: IRanges

Загрузка требуемого пакета: XVector

Загрузка требуемого пакета: Rsamtools

Загрузка требуемого пакета: Biostrings

Присоединяю пакет: ‘VariantAnnotation’

В самом начале я загрузил заархивированный файл x.vcf в память с использованием координат геномного билда hg19 (т.к. VCF был получен из bam-файла, координаты которого были взяты из GRCh37.64, соответствующего hg19):
> vcf <- readVcf(«x.vcf», «hg19»)

> vcf

class: CollapsedVCF

dim: 110651 1

rowData(vcf):

GRanges with 5 metadata columns: paramRangeID, REF, ALT, QUAL, FILTER

info(vcf):

DataFrame with 28 columns: AB, AC, AF, AN, BaseQRankSum, DB, DP, DS, Dels,.

geno(header(vcf))

DataFrame with 5 rows and 3 columns

Number Type

<character> <character>

AD . Integer

DP 1 Integer

GQ 1 Float

GT 1 String

PL . Integer

head(rowData(vcf), 3)

GRanges with 3 ranges and 5 metadata columns:

seqnames ranges strand | paramRangeID REF

<Rle> <IRanges> <Rle> | <factor> <DNAStringSet>

rs79585140 1 [14907, 14907] * | <NA> A

rs75454623 1 [14930, 14930] * | <NA> A

rs78601809 1 [15211, 15211] * | <NA> T

ALT QUAL FILTER

<DNAStringSetList> <numeric> <character>

rs79585140 G 494.81 MQFilter40

rs75454623 G 718.96 MQFilter40

rs78601809 G 125.22 MQFilter40

Затем я определил качество полученных генотипов (эти данные содержаться в колонке GQ секции генотипов vcf). Как видно из приведенных ниже значений, только 52% всех генотипов имеют 99% степень аккуратности определения, качество остальных 48% вариантов лежит в диапазоне между 0 и 90% процентами.

> geno(vcf)

List of length 5

names(5): AD DP GQ GT PL

> GQ <-geno(vcf)$GQ

> dim(GQ)

[1] 110651 1

> geno(vcf)

List of length 5

names(5): AD DP GQ GT PL

> GQ <-geno(vcf)$GQ

> dim(GQ)

[1] 110651 1

> fivenum(GQ)

[1] 0.03 33.98 99.00 99.00 99.00

> length(which(GQ==99.00))/length(GQ)

[1] 0.5221552

hist(GQ[GQ != 0], breaks=seq(0, 100, by=10)

На следующем этапе я опредилил число ранее неизвестных (новельных, то есть отствующих в базе dbSNP) вариантов в файле VCF. Всего вариантов 110651, из них известных 106076 и новельных 4575 (в отчете 23andme 4137). В целях определения качества новельных снипов я создал метрику для оценки качества снипов на основе сопоставления двух параметров – качества глубины покрытия генома и качества генотипирования. Из приведенного ниже графика видно, что примерно 25 % новельных снипов находятся в зоне низкого качества глубины покрытия, и это означает что примерно четверть новельных снипов могут представлять собой артефакт генотипирования:

info(vcf)$DB -> dbsnpsnp

metrics <- data.frame(QUAL=qual(vcf), inDbSNP=dbsnpsnp, RSQ=info(vcf)$QD)

После предварительных статистических тестов, я приступил к определению генов, в которых были обнаружены варианты. В зависимости от своего расположения, варианты могут оказаться в одном из 7 участков: интрон, кодирующий участок, 5’UTR, 3’UTR, интергенный регион, сплайс-сайт и промоутер. Для обнаружения положения вариантов, я задействовал библиотеку TxDb.Hsapiens.UCSC.hg19.knownGene. Сначала я определил положение всех вариантов (cм. Excel файл exomevariants.xlsx), однако поскольку нас интересует в первую очередь frameshift мутации, то гораздо более информативным является нахождение вариантов в кодирующих участках. Всего таких вариантов в кодирующих участка обнаружено 56035 в 23140 генах, причем 989 из 23140 генов имеет больше одного обнаруженного варианта в кодирующем участке

library(TxDb.Hsapiens.UCSC.hg19.knownGene)

txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene

loc <- locateVariants(rd, txdb, CodingVariants())

table(sapply(splt, function(x) length(unique(x)) > 1))

FALSE TRUE

22151 989

Далее, я использовал функцию predictCoding, она вычисляет изменения кодирования аминокислот в несинонимичных вариантах. В запросе к базе данных рассматрываются только те участки , которые перекрываются с кодирующей областью. Референсные последовательности извлекаются из BSgenome. Вариант последовательности определяется путем замены, вставки или удаления значения в колонке varAllele в референсной последовательности. Код аминокислот вычисляются для последовательности кодонов в тех вариантах, когда длина кратна 3.

library(BSgenome.Hsapiens.UCSC.hg19)

coding <- predictCoding(vcf, txdb, seqSource=Hsapiens)

Затем из полученных 56035 вариантов в кодирующей области я выбрал только те, которые привели к сдвигу рамки чтения (таковых оказалось 412).

coding[mcols(coding)$CONSEQUENCE == «frameshift»]

Благодаря запуску функции predictCoding я отождествил код измененных аминокислот для не-синонимичных вариантов. Анализируя это подмножество, я задался целью установить, какой физиологический ущерб эти изменения кодируемых аминокислот могут нанести при экспресии в фенотип. Для этих целей я использовал методы PolyPhen, которые предсказывают последствия замены аминокислот в человеческих протеинах. PolyPhen использует информарцию о функции последовательностей и структурную информацию, характеризующую замену аминокислоты для прогнозах о структуре и функции белка.

nms <- names(coding)

idx <- mcols(coding)$CONSEQUENCE == «nonsynonymous

nonsyn <- coding[idx]

rsids <- unique(names(nonsyn)[grep(«rs», names(nonsyn), fixed=TRUE)])

library(PolyPhen.Hsapiens.dbSNP131)

pp <- select(PolyPhen.Hsapiens.dbSNP131, keys=rsids,cols=c(«TRAININGSET», «PREDICTION», «PPH2PROB»))

head(pp[!is.na(pp$PREDICTION), ])

Полученные файлы сохранены в Excel файл x.xlsx, и затем подсчитано в каких протеинах наблюдается наибольшое число потенциально вредных frameshift мутаций

Название гена Число frameshift мутаций

NA	2288
uc001lsw.2	44
P20930	34
P22105-3	21
P25940	13
O60732	12
Q5SSG8	10
Q86YZ3	10
Q9NYF8	9
P46013	9
Q5VU43	9
Q14500	9
Q9UMD9	8
O14513	8
A6NKC6	8
uc003ssj.2	7
O95678	7
O15360	7
Q86VF7	7
uc001mdw.3	6
Q9Y289	6
Q8NEZ4	6
Q96C45	6
Q9HD43	6
Q01955	6
Q2KHM9	6
Q701N2	6
P38570	6
P24821	6
P46734	6
Q9Y2K3	5
uc002vwl.2	5
uc002nfb.2	5
uc003nsm.1	5
Q9UNS1	5
Q9NZH6	5
D3DSV6	5
C9IYD7	5
P20853	5
Q14676	5
P38159	5
P35125	5
P35670	5
Q8N6F8	4
Q96Q06	4
uc001bvt.2	4
uc011dxu.1	4
uc004csb.2	4
Q8TE73	4
Q9H2D6	4
uc002yfm.2	4
Q96J66	4
uc002zag.1	4
Q8TB24	4
Q96RN1	4
Q99572	4
Q9C0D2	4
uc002zwe.2	4
Q9ULD2	4
Q8WXH0-2	4
uc003uhx.2	4
O95050	4
O75128	4
P02533	4
A3KMH1	4
Q5HYK9	4
P48634	4
O15069	4
Q8IUA7	4
Q16600	4
P60331	4
Q5D862	4
B7ZBR5	4
Q5KU26	4
Q12802-2	4
A8MTL4	4
P23327	4
Q7Z3S9	4
O75096	4
A1A5D9	4
Q15149	4
P54257-2	4
uc001saw.2	3
Q96PX6	3
Q9BWT7	3
Q9H0J4	3
uc001kgr.1	3
Q9H0U9	3
uc002uln.2	3
Q8TD33	3
Q9BYR5	3
Q9H339	3
Q9Y6R7	3
Q8N808	3
Q96RW7	3
uc003wcz.2	3
uc002fmv.2	3
Q8N865	3
uc002ycq.2	3
Q92954	3
uc003eee.3	3
Q9NQN1	3
Q9UQ84	3
Q9NQT5	3
Q96PX9	3
Q8NC74	3
Q8NGH7	3
uc011lix.1	3
Q8NH40	3
Q9NWH7	3
uc001rks.2	3
Q96EZ4	3
uc001wit.3	3
Q8N436	3
Q8TAX7	3
Q9P126	3
Q99954	3
Q9UI47	3
Q9BRB3	3
Q9UIU6	3
Q9BYQ6	3
Q96JF6	3
uc003kju.2	3
Q96L96	3
Q8N1N5	3
Q96PQ1	3
Q9H4A3	3
uc003zfz.2	3
Q9HCE0	3
uc010ebn.2	3
Q9HCS5	3
Q9NQG7-3	3
Q5JU00	3
Q6ZW33	3
Q6E0U4	3
O60500	3
O94900	3
P56945	3
Q5VIY5	3
P57679	3
Q6PFW2	3
A2I2N5	3
O60269	3
P60369	3
O15016	3
P60371	3
Q5QNZ9	3
P78334	3
Q5VY09	3
O75056	3
Q6NTE8	3
Q02386	3
Q6XYB7-2	3
Q07092	3
Q75N90	3
Q07157	3
P51689	3
Q08170	3
Q4G0N8	3
Q12789	3
P35908	3
C9JIP1	3
C9JLR2	3
Q12889	3
B9EIK7	3
Q13033	3
P11473	3
Q13635	3
Q685J3	3
Q14246	3
Q6H9L7	3
O14617	3
Q6PEW0	3
P27816	3
Q6UWM9	3
Q15051	3
Q6ZS72	3
Q15084	3
P13645	3
P27987	3
P47881	3
Q15345	3
P49747	3
P30926	3
Q17RW2	3
Q02447	3
uc002ckw.2	2
Q9BYQ4	2
uc002xvf.2	2
Q9H1I8	2
uc009zoy.1	2
Q9H1M4	2
uc002npq.1	2
Q92764	2
uc003cbl.3	2
Q92766-2	2
Q8NDY8	2
Q8N568	2
uc001say.2	2
Q9HBR0	2
uc002hwr.2	2
Q9HC10	2
uc002qoi.1	2
Q9HCC9	2
uc002yxk.1	2
Q92956	2
Q9BX84	2
Q9HCH5-8	2
uc003tcj.1	2
Q969J2	2
uc003xza.2	2
Q8NG08	2
uc010neg.1	2
Q9NP71	2
Q96SK3	2
Q9NPR9	2
Q99518	2
Q9NQ92	2
uc002mdk.2	2
uc010ooe.1	2
uc002oyh.1	2
Q96DS6	2
Q8N531	2
Q8NGF6	2
Q9BS92	2
Q9NQW5	2
uc002zwc.1	2
uc010sxc.1	2
uc003cwg.3	2
Q96GX9	2
Q9BYD2	2
Q8N146	2
uc003qtl.2	2
Q9NU22	2
Q8WXA2	2
Q9NV39	2
uc003xio.3	2
Q96JA4	2
Q8WXU2	2
Q9NY99	2
uc010cov.2	2
Q8NGV6	2
uc001sax.2	2
Q9NYQ6	2
uc001sck.2	2
Q96JM2	2
uc001zrt.2	2
Q9NZM3	2
uc002cyd.1	2
Q96KT7	2
uc002frs.1	2
Q9P2F8	2
uc002jjm.3	2
Q9UBK8	2
Q8TD19	2
Q9UGC7	2
uc002oxx.2	2
Q96KV7	2
uc002pdw.2	2
Q8NH01	2
uc002shl.3	2
Q9UK85	2
Q9BQ66	2
Q96LB9	2
Q8TE60	2
Q96LP6	2
uc002yip.1	2
Q96MC2	2
Q9BW66	2
Q9UPR6	2
Q8ND61	2
Q96NY9	2
uc003cpb.3	2
Q9Y237-2	2
uc003dnv.2	2
Q8N3K9	2
uc003gix.2	2
Q8N1A6	2
uc003lwz.2	2
Q8TAX9-3	2
uc003pgu.3	2
uc001aru.2	2
Q8WWF5	2
Q96PY6	2
uc003tpz.2	2
uc001dpq.2	2
uc003vuk.3	2
uc001drv.2	2
uc003wsh.3	2
uc001jrr.3	2
uc003xkm.1	2
Q8NA69	2
Q9GZP7	2
Q96QA5	2
uc009vzo.2	2
Q96RD9	2
uc010azk.1	2
uc001qnn.1	2
Q9H0R5	2
Q8TBZ5	2
Q8WZ92	2
Q8TCU5	2
Q9NRD8	2
Q5T9A4	2
Q6ZRI6	2
B9EGI0	2
O75830	2
Q86VW1	2
C9J2Y8	2
Q658L1	2
C9JF86	2
Q6PEY2	2
P60412	2
Q7RTR8	2
O95153	2
Q8IYM2	2
O95255	2
O60391	2
O95425	2
Q6DT37	2
Q8IZ20-2	2
Q6NXP2-2	2
O95460-2	2
P50226	2
A6NMZ7	2
P54253	2
O95786	2
Q86TB3	2
Q0P670	2
P59827	2
Q0VAR9	2
Q5T6X5	2
Q0VDD8-4	2
O60336	2
O95817	2
O60423-2	2
A6PVS8	2
Q68DN1	2
P04439	2
O60602	2
A8MSH3	2
Q6NV75	2
Q13427	2
Q6P6B7	2
A8MSQ1	2
Q6PXP3	2
Q14028	2
Q6ZMY3	2
Q14031-2	2
Q6ZTY8	2
P15822	2
B9ZVK6	2
P15848	2
Q7Z570	2
P17931	2
Q86UQ0	2
Q14929	2
Q86XA9	2
P20742	2
Q8IYG6	2
A8MT70	2
P60014	2
A8MT77	2
Q5T8R8	2
O14830	2
Q5TZA2	2
Q15643	2
Q5VTH9	2
P23141-2	2
Q5VV43	2
P23280	2
Q5W0A0	2
Q24JP5-2	2
O60443	2
A6ND91	2
Q6BDS2	2
Q2M243	2
A6NE01	2
Q32MH5	2
Q6IMN6	2
Q32P51	2
Q6NUI1	2
Q3L8U1-2	2
Q6NWU0	2
Q499Z3	2
Q6P3X3	2
O15018	2
A6NEL2	2
Q4G0P3	2
O75081	2
Q4LDE5	2
Q6U949	2
Q58DX5	2
P50238	2
Q58EX7	2
Q6ZN79	2
Q5D0E6	2
O75095	2
P25391	2
P54108	2
A9UL12	2
Q70EL2	2
Q5JTH9	2
Q76I76	2
B4E1X0	2
P56545-2	2
Q5JUB6	2
Q7Z6J9	2
O15389	2
Q86TY3	2
O43164	2
A5PLN7	2
B5MDQ5	2
Q86W24	2
Q5T035	2
O75376	2
Q5T036	2
Q8IUX4	2
Q5T0J7	2
Q8IYK2	2
Q5T124	2
Q8IYS4	2
Q5T1M5	2
Q5T6F2	2
Q12955	2
uc003xax.3	1
uc002eax.2	1
uc001dwa.2	1
Q96JL9	1
uc003aka.2	1
Q8N9L9	1
Q9Y2Y8	1
Q96JQ0	1
uc001rig.1	1
Q96KD3	1
Q92889	1
Q8N9R8-2	1
uc003mtg.2	1
Q8N9T8	1
Q96HJ3	1
Q96L50	1
Q9Y623	1
Q8N386	1
uc001law.2	1
Q8NA82	1
uc001whc.2	1
Q96LI9	1
uc002lvh.2	1
Q8NAT2	1
Q93075	1
Q96LW7-2	1
uc003fpa.2	1
Q96LW9	1
uc003sys.2	1
Q96M29	1
uc004bmg.1	1
Q96M89	1
Q9Y2G2	1
Q96M91	1
Q9Y566	1
Q8NC38	1
uc001abz.3	1
Q96MG8	1
uc001hfx.2	1
Q96MK3	1
uc001mty.2	1
Q96MY7	1
uc001stk.2	1
Q96N77	1
uc002aon.2	1
Q8N3D4	1
Q92583	1
Q96P69	1
Q8N323	1
Q96PC2	1
uc002sfp.2	1
Q96PD4	1
Q969T7	1
Q96PE6	1
Q96AQ6	1
Q96PH1	1
uc003hti.2	1
Q96PL5	1
uc003ntp.1	1
Q96PN7	1
uc003vsp.2	1
Q8NCW5	1
uc003yyy.2	1
Q96PQ7	1
uc009wcm.2	1
Q8N196	1
uc010jzk.1	1
Q8NDN9	1
Q8WUP2	1
Q8NDX1	1
Q9Y442	1
Q8NDX9	1
Q9Y5P1	1
Q8N3Y1	1
Q9Y6J0	1
Q96QD9	1
uc001cqe.3	1
Q96QE3	1
uc001fgr.1	1
Q96QI5	1
Q8WW52	1
Q8NDZ6	1
uc001mgt.2	1
Q96RG2	1
uc001qyz.3	1
Q96RL6	1
Q8WXD5	1
Q8NE62	1
uc001urv.2	1
Q96RP7	1
uc001zhi.2	1
Q8NEG0	1
uc002cmq.1	1
Q96S42	1
Q92543	1
Q96SB8	1
uc002iob.2	1
Q8NEQ5	1
uc002mkl.2	1
Q96SN8	1
uc002oqh.1	1
Q96ST8	1
Q92935	1
Q96SZ5	1
uc002unu.2	1
Q96T17	1
Q8N8C0	1
Q99456	1
Q969X1	1
Q8NEV8	1
uc003cna.3	1
Q8N412	1
Q96AY2	1
Q99595	1
Q96BF3	1
Q99678	1
uc003knc.2	1
Q99705	1
uc003nif.3	1
Q99707	1
Q8N910	1
Q99856	1
Q96E39	1
Q8NFD2	1
Q8N960	1
Q8NFT2	1
Q96FX8	1
Q9BQI5	1
uc003zsj.2	1
Q9BR39	1
uc009vnn.1	1
Q9BR77	1
Q96HD9	1
Q8NFV5	1
Q96HP8	1
Q9BRQ8	1
Q8N9H6	1
Q8NFZ6	1
Q9Y2I6	1
Q9BSA9	1
Q9Y2R9	1
Q9BT25	1
Q9Y3N9	1
Q9BU76	1
Q9Y4K0	1
Q9BUV0	1
Q9Y5E3	1
Q9BVL2	1
Q9Y5T5	1
Q9BVP2	1
Q9Y6C9	1
Q8NG04	1
Q9Y6S9-2	1
Q9BWD1	1
uc001bfk.2	1
Q9BWH6	1
Q8WW01	1
Q9BWN1	1
uc001epm.3	1
Q8N434	1
uc001ggg.1	1
Q9BWW9	1
uc001ikw.3	1
Q9BX26	1
Q8N715	1
Q8NG31-2	1
uc001lvm.2	1
Q9BXA9	1
uc001mjv.2	1
Q9BXI2	1
Q8WWU7	1
Q9BXI9-2	1
uc001rdt.2	1
Q9BXL6	1
uc001sah.1	1
Q9BXR5	1
uc001saz.2	1
Q9BXT6	1
uc001ugs.3	1
Q9BXT8	1
uc001vmt.2	1
Q9BXW6	1
uc001wja.2	1
Q9BY07	1
Q8WYQ9	1
Q8NGD2	1
uc002axo.2	1
Q9BYH1	1
uc002dai.3	1
Q9BYJ0	1
uc002flb.2	1
Q8NGD4	1
uc002hjn.2	1
Q8N123	1
uc002hzw.2	1
Q9BYR3	1
Q92610	1
Q8N475	1
uc002mdo.3	1
Q9BZE2	1
uc002nhl.1	1
Q9BZJ0	1
uc002oek.2	1
Q9BZJ3	1
Q92794	1
Q9BZY9	1
uc002pgj.1	1
Q9C000	1
uc002rxt.1	1
Q8NGI3	1
uc002spl.1	1
Q9C0D6	1
uc002vfa.2	1
Q9C0G6	1
uc002wtp.2	1
Q9C0J9	1
Q969S8	1
Q8NGJ0	1
uc002zji.3	1
Q9GZS9	1
uc002zxx.2	1
Q9GZU2	1
uc003cfi.1	1
Q9H063	1
Q96AP0	1
Q9H094	1
uc003dar.2	1
Q8NGK0	1
uc003eny.2	1
Q9H0M4	1
uc003fts.2	1
Q8NGV0	1
uc003gxu.2	1
Q9H0U6	1
uc003jig.2	1
Q8N4B4	1
Q96BJ8-3	1
Q9H190	1
uc003mwv.2	1
Q8NGX0	1
Q96BT3	1
Q9H1L0	1
uc003nzw.2	1
Q8NGY9	1
Q96CB5	1
Q9H1V8	1
Q8N957	1
Q9H201	1
Q96E52	1
Q9H205	1
uc003vvi.2	1
Q9H208	1
Q96F05	1
Q9H222	1
uc003xda.2	1
Q9H2B4	1
Q96GQ7	1
Q8N4T4	1
uc003zjw.2	1
Q9H306	1
uc004aid.2	1
Q8N4W9	1
Q8N9B5	1
Q9H347	1
uc009vxy.2	1
Q9H3S1	1
uc009yor.2	1
Q8NHC8	1
uc009zxk.2	1
Q9H4I0	1
Q96HP0	1
Q9H4M7	1
uc010fxm.1	1
Q9H583	1
uc010lpr.1	1
Q9H5L6	1
Q9Y2F5	1
Q9H6S0	1
Q9Y2H0-1	1
Q9H6Y2	1
Q9Y2K1	1
Q9H720	1
Q9Y2K9	1
Q9H816	1
Q9Y2T7	1
Q9H8X2	1
Q9Y345	1
Q9H9Y2	1
Q9Y3T6	1
Q9HAT1	1
Q9Y485	1
Q9HBF5	1
Q9Y508	1
Q9HBJ7	1
Q9Y585	1
Q9HBL0	1
Q9Y5E6	1
Q9HBM0	1
Q9Y5P3	1
Q8NHL6-3	1
Q9Y5W3	1
Q9HBW9	1
Q9Y644	1
Q8NHY0	1
Q9Y6G9	1
Q8NHY3	1
Q8WV93	1
Q8NI17-2	1
Q9Y6X5	1
Q9HCG8	1
Q8WVE6	1
Q8NI35	1
Q8WVT3	1
Q8N4X5	1
uc001doh.2	1
Q9HCX3	1
Q8WW43	1
Q8N1N2	1
uc001dzr.2	1
Q9NNX1	1
uc001ffh.2	1
Q9NP70	1
uc001fst.1	1
Q8TAZ6	1
uc001hdj.2	1
Q9NPB3	1
uc001hob.3	1
Q9NPB6	1
uc001ioo.2	1
Q9NPG4	1
uc001kal.3	1
Q8TB03	1
uc001koi.2	1
Q8N1N4	1
Q8WWK9	1
Q9NQC3	1
Q8WWQ8	1
Q8TB52	1
uc001mhb.3	1
Q8N5C6	1
uc001mqw.2	1
Q9NQS7	1
uc001nps.2	1
Q8TC84	1
uc001qvk.1	1
Q9NQW1	1
uc001qzt.2	1
Q8TCG1	1
uc001rgh.2	1
Q9NR11-2	1
Q8N7M2	1
Q9NR20	1
Q8WXB1	1
Q9NRC9	1
Q8WXG8	1
uc010otd.1	1
Q8N7Q3	1
Q8TCU4	1
uc001swc.3	1
uc010xwr.1	1
uc001uom.2	1
Q8N5H7	1
uc001usl.3	1
Q8TCY9	1
uc001vwo.1	1
Q9NRY5	1
Q8N7U7	1
Q9NU02	1
uc001wph.3	1
Q8TD07	1
uc001zif.2	1
Q9NV12	1
uc002adi.2	1
Q8N5W8	1
uc002ari.2	1
Q9NVI1	1
Q8N7X4	1
Q9NVL8	1
Q92485	1
Q9NVR5	1
uc002eab.2	1
Q9NVV2	1
uc002elh.2	1
Q8TD31-2	1
Q92535	1
Q9NWN3	1
uc002gov.3	1
Q9NWS6	1
uc002hwb.2	1
Q9NWS9	1
uc002hzv.2	1
Q9NX76	1
uc002ile.3	1
Q8N628	1
uc002jad.2	1
Q9NYA4	1
uc002knr.2	1
Q8TDM6	1
Q92614	1
Q9NYG8	1
uc002mkc.2	1
Q9NYK6	1
Q8N309	1
Q8TDR0-2	1
uc002niv.2	1
Q9NYQ8	1
uc002nrk.3	1
Q9NYR8	1
uc002onr.2	1
Q9NYW5	1
uc002owt.2	1
Q9NZ56	1
uc002oyf.1	1
Q9NZC7	1
Q92932	1
Q8TDV0	1
uc002pjn.2	1
Q8TDX9	1
uc002red.2	1
Q9NZM4	1
uc002sen.3	1
Q9NZP2	1
Q8N884	1
Q9NZP6	1
Q8N8A6	1
Q9NZQ3	1
uc002vcz.2	1
Q9NZQ8	1
uc002vml.2	1
Q9P0L9	1
uc002wgf.1	1
Q9P0W8	1
Q969H9	1
Q8TDY8	1
Q969Q4	1
Q9P1Z2	1
Q969T3	1
Q9P212	1
uc002zcm.2	1
Q9P266	1
uc002zsk.1	1
Q9P272	1
Q96A59-2	1
Q9P275-2	1
uc003afo.2	1
Q9P2A4	1
Q96A84-3	1
Q9P2E9-3	1
uc003cib.2	1
Q8TE59	1
uc003com.2	1
Q9P2X7	1
uc003cqx.2	1
Q9UBC7	1
uc003cxg.2	1
Q8N183	1
Q96AQ9	1
Q9UBS4	1
uc003eev.3	1
Q9UBU2	1
uc003fli.1	1
Q9UDX4	1
uc003frm.2	1
Q9UFP1	1
uc003gco.3	1
Q8TE68	1
uc003gkv.3	1
Q9UGP5	1
uc003hqx.3	1
Q9UH36	1
uc003ian.3	1
Q9UH92	1
Q96BH3	1
Q9UHF4	1
uc003lnj.2	1
Q9UHN6	1
uc003mlz.3	1
Q8N6I1	1
uc003mwa.3	1
Q9UIS9	1
uc003nef.2	1
Q8TEC5	1
uc003nkt.2	1
Q9UJ78	1
uc003ntn.3	1
Q9UJA3	1
uc003nvm.1	1
Q9UJL9	1
uc003ods.2	1
Q9UJW7	1
uc003qtf.2	1
Q8TER0	1
Q96DA0	1
Q9UKB5	1
uc003tbm.2	1
Q9UKP4	1
uc003toq.2	1
Q9UL01	1
uc003tzn.2	1
Q9UL49	1
uc003vrz.2	1
Q9UL52	1
Q96EK5	1
Q8TER5	1
uc003wcr.1	1
Q9ULE4	1
uc003wkp.2	1
Q9ULE6	1
uc003wwm.2	1
Q9ULI1	1
uc003xcu.2	1
Q9ULI3	1
uc003xep.1	1
Q9ULM0	1
Q96G42	1
Q8TEV9	1
uc003yyd.2	1
Q9UMR7	1
Q96GU1	1
Q9UMS0	1
uc003zlr.1	1
Q9UMX9	1
uc004aay.2	1
Q9UNI1	1
uc004atg.3	1
Q9UNK9	1
uc004can.3	1
Q9UNQ0	1
uc004ded.1	1
Q8TEX9	1
uc009vvi.2	1
Q9UPA5	1
Q96HA7	1
Q9UPN6	1
uc009ynk.2	1
Q9UPP2-2	1
uc009zhj.2	1
Q8TF21	1
uc009zwi.2	1
Q9UPV0	1
uc010awk.1	1
Q9UQ35	1
uc010boe.2	1
Q9UQ74	1
uc010eas.2	1
Q8TF76	1
uc010fvs.1	1
Q9UQ90	1
uc010inb.2	1
Q9UQP3	1
uc010ljy.1	1
Q8WTP8	1
Q8N9F8	1
Q8WTV0-2	1
Q8N9H9	1
Q9Y2A4	1
uc010wmr.1	1
Q9NRH2	1
uc010yvx.1	1
Q9NRP7	1
uc011jvp.1	1
Q9NRR1	1
Q8N0W5	1
Q9NRR4	1
Q8IX07	1
Q6P461	1
Q5TCM9	1
P19075	1
P10515	1
P19484	1
Q5JZ73	1
P19878	1
Q66K79	1
P19971	1
Q6W5P4	1
P20138	1
Q86V20	1
P20702	1
O95202	1
C9JN24	1
A6NGG8	1
C9JN71	1
Q5VVP1	1
D3DQK9	1
Q6IQ23	1
P21462	1
P08123	1
A6NMK8	1
Q6ZR62	1
A6NMR0	1
Q7Z5M8-2	1
O00182	1
Q86YD7	1
O00192	1
Q8IYW5	1
P23490	1
Q5JRA6	1
P24071	1
O95521	1
O00253	1
Q5T5J6	1
P24928	1
P02452	1
O00292	1
Q5XUX1-3	1
P25440	1
Q6AZY7	1
P25774	1
P05362	1
O00330	1
Q6PHR2	1
P26378	1
Q6UWT4	1
P26640	1
Q6ZMZ3	1
O00418	1
Q6ZU80	1
O00421	1
A2RUB6	1
P28070	1
Q86T20	1
P28330	1
P13646	1
P30042	1
Q8IVF2	1
P30154-2	1
A6NM10-2	1
O00451	1
Q8IZJ4	1
P31391	1
O95229	1
P31930	1
O95359	1
P32519	1
Q5QGT7	1
P34741	1
Q5SXM8	1
P34820	1
Q5T197	1
P34947	1
Q5T7V8	1
O00566	1
Q5TZ20	1
P35346	1
Q5VUJ5	1
P35372-3	1
P02462	1
P35452	1
Q63HK3	1
P35542	1
Q68DQ2	1
P35556	1
P04264	1
A2RUE3	1
P05107	1
P35789	1
P06133	1
O14610	1
P07197	1
P35968	1
Q6Q4G3	1
P36888	1
Q6UQ28	1
P37108	1
Q6V0I7	1
P37231	1
P08572	1
P38117-2	1
Q6ZNH5	1
A6NNB3	1
P09172	1
O14641	1
P0C0P6	1
P40145	1
P10643	1
P40394	1
Q7Z4N2	1
P42694	1
Q7Z736	1
P42898	1
P12643	1
P43360	1
Q86VI3	1
O14656	1
P14060	1
O14777	1
Q8IUC4	1
O14798	1
Q8IWC1	1
P48357	1
Q8IXT1	1
A2RUQ5	1
Q8IYN0	1
P48681	1
P17693	1
P48736	1
Q587J8	1
O14944	1
Q5CZA4	1
P49917	1
O95236	1
A7MBM2	1
B9A029	1
A8K1K9	1
Q5JVX7	1
P50748	1
Q5M775	1
P50995	1
A6NFJ4	1
P51172-2	1
Q5SXH7-4	1
P51636	1
Q5SYB0	1
P51659	1
A6NII6	1
O15021-3	1
O95900	1
P51801	1
O95988	1
P51858	1
P01011	1
P51957	1
Q5TEA6	1
P51993	1
Q5U5R9	1
P52569-2	1
Q5VTT5	1
O15031	1
P02461	1
A8K8G6	1
Q5VXM1	1
O15205	1
Q5VZR2-2	1
P55103	1
Q5Y7D6	1
P55198	1
Q659C4	1
P56159	1
Q68D06	1
A8K979	1
Q68EA5	1
P56696	1
P04004	1
P56715	1
P04626	1
A8MQT4	1
Q6MZQ0	1
P57071	1
Q6NUQ4	1
O15534	1
Q6NVY1	1
P57727	1
Q6P0N0	1
P57737	1
P06734	1
P58182	1
P07919	1
P59046	1
P07996	1
P59282	1
Q6S9Z5	1
P59533	1
Q6UDR6	1
P59826	1
Q6UWB4	1
O15553	1
Q6UXN2	1
P59910	1
Q6VVB1	1
O43151	1
Q6X4T0	1
A2VDJ0-5	1
Q6ZMT4	1
P60368	1
P08949-2	1
O43187	1
Q6ZQQ6	1
P60370	1
Q6ZRQ5	1
O43314-2	1
Q6ZS82	1
P60411	1
Q6ZUX3	1
O43493-2	1
Q70CQ4	1
P63211	1
Q7KYR7	1
P68363	1
Q7RTV2	1
P78329	1
Q7Z3Y9	1
O43555	1
Q7Z5L4	1
P78364	1
P12109	1
P78396	1
Q7Z7A1	1
P80075	1
Q86TC9	1
P98164	1
P12645	1
Q00056	1
Q86V71	1
Q008S8	1
Q86VY4	1
Q01459	1
Q86WB0	1
Q01658	1
Q86XM0	1
Q01664	1
P15169	1
O43731-2	1
C9JG81	1
O60225	1
Q8IVF5	1
O60243	1
Q8IWE2	1
Q02742	1
Q8IXI1	1
Q02880-2	1
Q8IYD8	1
Q03188	1
P15924	1
Q03405	1
P17036	1
Q03468	1
Q8IYX7	1
Q04671	1
Q8IZF2	1
Q04844	1
A6NM11	1
Q05952	1
O95185	1
Q07075	1
Q58F21	1
A1A4T8-2	1
O95206	1
O60285	1
Q5H9F3	1
Q07283	1
Q5IJ48	1
O60292	1
Q5JSS6	1
Q08397	1
Q5JTV8	1
Q08426	1
O95394	1
Q08999	1
Q5JWR5	1
Q08AF3	1
A1A519	1
Q08AG7	1
Q5M9N0	1
Q09MP3	1
Q5QJE6	1
O60312	1
Q5SQ64	1
Q0P6D6	1
Q5SW96	1
A4D1E9	1
Q5SXM2	1
A4D263	1
Q5SY16	1
Q0ZGT2	1
Q5SZD4	1
Q0ZLH3	1
A6NHR9	1
O60403	1
O95897	1
A4Z6T7	1
Q5T1B0	1
Q12887	1
Q5T2N8	1
A8MV65	1
O95944	1
Q8IZU2	1
Q5T7B8	1
Q8IZY2	1
O95995	1
A0PJX4	1
Q5TAA0	1
A1IGU5	1
Q5TD97	1
Q13084	1
Q5THR3	1
Q13127	1
P01031	1
Q13137	1
P01833	1
Q13233	1
Q5VTJ3	1
Q13316-2	1
P02458	1
O60548	1
Q5VV41	1
Q13470-2	1
Q5VVB8	1
Q13487	1
Q5VW36	1
Q13601	1
Q5VXT5	1
Q13615	1
Q5VYM1	1
B1AH88	1
C9JBG3	1
Q13748	1
Q5XX13-4	1
Q13753	1
Q60I27	1
Q13797	1
P02538	1
Q13946-2	1
Q66K74	1
O60603	1
P02730	1
O60721	1
P02788	1
Q14032	1
Q68DV7	1
Q14112	1
Q6A555-2	1
Q14126	1
Q6B9Z1	1
Q14160-3	1
P04259	1
Q14209	1
C9JDV5	1
Q14210	1
Q6IPM2	1
Q14244	1
Q6L8Q7	1
B1ANC0	1
P04731	1
Q14331	1
Q6NUN0	1
O75023-3	1
Q6NUS8	1
B1APY0	1
Q6NVV3	1
Q14679	1
P05787	1
Q14690	1
Q6NY19-2	1
Q14774	1
P06732	1
B2R6C3	1
Q6P4A8	1
Q14934-3	1
Q6PDB4	1
Q14980	1
P07900-2	1
Q14990	1
Q6PGQ1	1
Q15032	1
Q6PJF5-2	1
B4DQM4	1
Q6Q0C1	1
A6ND48	1
Q6Q759	1
B5B2M5	1
Q6T423	1
O75161	1
Q6UB98	1
O75185	1
Q6UE05	1
Q15652	1
Q6UW78	1
Q16204	1
P08151	1
Q16348	1
Q6UXC1-2	1
B5MDD1	1
Q6UXY1	1
Q16610	1
Q6V1P9	1
Q16762	1
Q6W3E5-2	1
Q16787	1
Q6WQI6	1
Q16790	1
Q6X784	1
Q16828	1
Q6XZB0-2	1
Q17R60	1
P08922	1
O75635	1
Q6ZN28	1
Q18PE1	1
Q6ZNB6	1
Q1EHB4	1
Q6ZP82	1
Q1X8D7	1
Q6ZR52-2	1
O75717	1
P08F94	1
Q2HXU8	1
Q6ZRV2	1
Q2I0M4	1
Q6ZS81	1
A1L443	1
P09871	1
Q2L4Q9	1
Q6ZUB1	1
O75952	1
Q6ZV73	1
Q2M2I5	1
P10321	1
Q2M329	1
P10412	1
Q2M3C7	1
P10523	1
Q2NL98	1
Q7RTR0	1
Q2TAA8	1
Q7RTS3	1
Q2TAL5	1
Q7Z2W4	1
Q2TBF2	1
Q7Z3Y8	1
Q2VIQ3	1
Q7Z407	1
Q2VPA4	1
P12107-2	1
Q2VPK5	1
Q7Z5L7-3	1
Q30201	1
Q7Z5Y6	1
Q32M84	1
Q7Z6L1	1
Q32M92	1
Q7Z745	1
O76014	1
Q86SH2	1
Q32MK0	1
P12270	1
O94769	1
Q86TJ5	1
Q3KPI0	1
Q86U06	1
O94823	1
Q86US8	1
Q3LHN0	1
Q86V48	1
Q3LI76	1
P13284	1
Q3LIE5	1
C9JFW9	1
Q3MJ13	1
Q86VZ4	1
Q3SY84	1
Q86W28	1
Q3YEC7	1
Q86X19	1
Q3ZCM7	1
Q86XL3	1
Q3ZCV2	1
Q86YB8	1
Q3ZCX4	1
Q86YE8-3	1
Q495D7	1
P15313	1
Q495Z4	1
Q8IUN9-2	1
O94850	1
Q8IUX7	1
Q49A88-6	1
Q8IVF4	1
Q49MG5	1
Q8IWA6	1
A1Z1Q3-2	1
Q8IWD5	1
B7ZLS8	1
Q8IWT3	1
Q4G0Z9	1
Q8IX12	1
B8A4U7	1
Q8IXS2	1
Q4VX76-2	1
Q8IY37	1
Q4W5C3	1
Q8IYE1	1
Q4W5G0	1
Q8IYI8	1
Q4ZJI4	1
P17022	1
Q53EZ4	1
Q8IYR2	1
Q53GL7	1
Q8IYU4	1
Q53HC0	1
Q8IYX0	1
Q53QW1	1
Q8IYY4	1
Q53RT3	1
Q8IZC4	1
Q53S99	1
Q8IZF3	1
Q53SF7	1
Q8IZT6	1
Q53T94	1
Q56UN5	1
Q8N0U7	1
Q13007	1
Q13018	1

На следующем этапе возникает вопрос — что делать с полученным списком генов с наибольшим числом frameshift мутаций? Можно ли определить характер и уровень функциональных изменений в организме человека? Оказывается, можно. Как упоминалась выше, полученные потенциальные генетические варианты, приведшие к замене кода аминокислот, были сохранены в таблице. Затем я подсчитал, в каких именно протеинах наблюдается наибольшое число потенциально вредных frameshift мутаций, и выделил их в отдельный список. Поскольку это самые интересные (с точки зрения возможных изменений в фенотипе) мутации, то далее я работал только с теми протеинами, в которых наблюдается повышенное количество вредоносных мутаций. Из общего числа я отобрал 35 протеинов с наибольшим количеством мутаций. Отмечу, что ни один из обнаруженных протеинов сам по себе не имеет значимой связи с риском развития заболеваний интересующего нас спектра. Поэтому вышеприведенный список протеинов был обработан в программе Cytoscape, так как нас интересуют в первую очередь обнаружение функциональных связей с теми протеинами, которые ранее были описаны в литературе как потенциальные факторы развития отдельных расстройств и заболеваний. Я не буду приводить полученные сетевые графы взаимодействия протеинов, так как они содержат деликатную информацию медицинского характера, поэтому помещенный ниже образец графического отображения в программе Cytoscape взаимодействия протеинов носит сугубо иллюстрирующий характер и взят с сайта програмыы Cytoscape

Май 2024
Пн	Вт	Ср	Чт	Пт	Сб	Вс
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31