IBD сегменты | Заметки о генетике

Окончание процесса фазирования и импутирования геномов

Опубликовано 18 августа, 201618 августа, 2016 автором verenich

К середине мая этого года я закончил трудоемкий процесс импутации сборной солянки из 9000 публично доступных образцовых представителей 700 различных человеческих популяций, генотипированных в разное время на разных снип-платформах (главным образом — Illumina и Affymetrix)
Строго говоря, я планировал завершить этот этап работы намного раньше, но в ходе выполнения работ возник ряд обстоятельств, помешавших завершить этот этап в срок. Главным из них является смена сервера где я выполнял импутирование геномов. Я начал работать на сервере Мичиганского университета, однако в ходе процесса перешел на аналогичный сервис Института Сэнгера (имени того самого нобелевского лауреата, предложившего первый метод полного сиквенирования генома).
Это решение было продиктовано необходимостью использовать новейшую референсную панель аутосомных гаплотипов — Haplotype Reference Consortium (в нее входит примерно 30 тысяч, а после предстоящего этим летом обновления — свыше 50 тысяч — аутосомных геномов, т.е свыше 60 тыс. гаплотипов). Надо сказать, этнический состав выборки референсных геномов впечатляет, хотя и там по-прежнему наблюдается перекос в сторону европейских популяций. К сожалению, и эта новейшая выборка представлена преимущественно европейцами (поэтому вероятность импутированных генотипов для европейских популяций оказались лучше аналогичных результатов в африканской и азиатской когортах), однако даже с учетом этого обстоятельства ее надежность в определении негенотипированных аллелей снипов выше 1000 Genomes (не говоря уже о HapMap):

1	UK10K	3715	3781	6.5x
2	Sardinia	3445	3514	4x
3	IBD	4478	4478	4x + 2x
4	GoT2D	2710	2974	4x/Exome
5	BRIDGES	2487	4000	6-8x (12x)
6	1000 Genomes	2495	2535	4x/Exome
7	GoNL	748	748	12x
8	AMD	3305	3305	4x
9	HUNT	1023	1254	4x
10	SiSu + Kuusamo	1918	1918	4x
11	INGI-FVG	250	250	4-10x
12	INGI-Val Borbera	225	225	6x
13	MCTFR	1325	1339	10x
14	HELIC	247	2000	4x (1x)
15	ORCADES	398	399	4x
16	inCHIANTI	676	680	7x
17	GECCO	1131	3000	4-6x
18	GPC	697	768	30x
19	Project MinE — NL	935	1250	45x
20	NEPTUNE	403	403	4x
	Totals	32611	38821
22	French-Canadian	2000	5-6X	End 2014
23	Converge	12000	1x	Now
24	UG2G Uganda	2000	4x	2015
25	Arab Genomes	100	30x
26	Ashkenazi	128	CG	Now
27	INGI-Carlantino	94	4x	Now
28	CPROBE	80	80	4x

Cледуя рекомендациям, я получил набор из 9000 образцов, каждый из которых включает в себя набор из 20-30 миллионов снипов. К сожалению, из-за субоптимальности результатов в некоторых выборках (Xing et al , Henn et al. и ряде других), их придется исключить из тех видов анализа, которые требует максимальной точности исходных данных. Импутированные генотипы (выраженные через оцененные вероятности) были трансформированы с помощью программы Plink 1.9 в генотипы, причем выбирались варианты полиморфизмов с вероятностью 0.8 (—hard—call—threshold 0.8)

Для оценки полезности импутированных генотипов для популяционного анализа я использовал метрику nearest в программе Plink (матрица с дистанцией между ближайшими геномами) и кластерограммы IBS (идентичности по генотипам).

Таблица метрики nearest (Z-статистика)

А это кластерограмма с хорошо видно географической локализацией кластеров. Я использовал для кластеризации матрицы IBS несколько разных алгоритмов — наиболее убедительный вариант был получен с помощью алгоритма Ward

Другие варианты топологии кластерограмм в формате NEWICK и TRE можно посмотреть здесь (их можно открыть в любой программе для визуализации филогенетических деревьев).

Таким образом, для некоторых типов анализа в популяционной генетике использование импутированных снипов может сослужить хорошую службу, смягчая (или, наоборот, увеличивая) градиент частот аллелей).

Дополнительные анализы — fastIBD, IBS, анализ главных компонентов — образцов в выборке, только подтверждает это наблюдение:

Но самое лучшее подтверждение надежности импутированных снипов для анализа компонентов происхождения было получено с помощью p-теста Z-статистики во время оценки правильности определенной топологии дерева компонентов (с допущением фактора смешивания предковых компонентов). Для этой цели я использовал стандартный инструмент — программу TreeMix. Я использовал только те снипы, которые встречаются в моей контрольной выборке (референсов каждого из компонента) с частотой выше 99 процентов. Как видно из нижеприведенного графика, компоненты выбраны правильно, а топология определяется практически безошибочно, несмотря даже на малое количество снипов (6 тысяч). Правильно определились и направления потоков генов, дрейфов генов (указаны стрелками). Тут в принципе мало нового — большинство этих эпизодов уже были описаны в отдельных работах генетиков. Так, виден поток генов от «денисовского» человека к усть-ишимцу, от которого в свою очередь идет поток генов к австралоидным популяциями. То есть денисовская примесь у папуасов могла достаться от сибирских популяциях близких к «усть-ишимцу». Виден также вклад ANE/EHG в геном североамериканцев -в интервале 10-15 процентов.

Принципально новым является лишь определенный программой дрейф генов в направлении от африканцев Khoisan к североафриканцами (в качестве референса которых взяты египтяне, бедуины и алжирцы). Скорее всего, это и есть тот самый пресловутый сигнал «египтского выхода» человечества из Африки, о котором недавно писалось в новейшей статье, а сам компонент -идентичен пресловутому Basal-Eurasian component

В начале июля в связи с публикацией препринта о генофонде древних ближневосточных земледельцев решился все таки подписать заявление на имя Давида Рейха и Иосифа Лазаридис с ходатайством о доступе к полной версии их выборки (она включает много новых интересных для меня популяций — например, около сотни новых образцов шотландцев, шетландцев, ирландцев из разных областей Ирландии, немцев, сорбов и поляков из восточной и западной Польши).

Г-н Лазаридис был весьма любезен и буквально на следующий день после получения подписанного заявления предоставил мне доступ к этим данным. Я займусь их плотным изучением чуть позже. А пока любопытно посмотреть результаты пилотного Admixture анализа 5900 публичных доступных образцов. В качестве проверки надежности своего нового метода изучения древних и современных популяций людей, я провел 4 параллельных анализа Admixture c разным дефолтным значением предковых популяций (K).

Разумеется, в нашем случае число компонентов K заведомо больше 3, авторы статьи эмпирически показали что меньший разброс значений был получен при K=11. Поэтому я исходил из этой цифры, назначив три разных значения K — 10,11,13.
В первом варианте я использовал т.н unsupervised режим Admixture, т.е. программа должна была сама угадать и реконструировать частоты аллелей снипов в 10 реконструируемых предковых «компонентах» популяций.

Как и ожидалась, таковыми оказались африканский (пик у пигмеев и бушменов), америндский (пик у эксимосов и американских индейцев), сибирский (пиковые значение у нганасанов), южно-индийский компонент (пик в народностях Paniya и Mala), австрало-меланизийский, южно-восточноазиатский, три западно-евразийских компонента — 2 компонента западноевроп ейских и кавказских охотников-собирателей и неолитический; и наконец ближневосточный.

Разумеется, за исключением трех компонентов с пиками в древних геномах, данное распределение отражает cовременное распределение предковых компонентов.

Пришлось вручную выделять из ближневосточного компонента популяцию базальных европейцев (в качестве основы я взял геномы натуфийцев, т.е ближневосточный компонент — Levant_N — может быть разложен на два отдельных предковых компонента — неолитический и мезолитический «натуфийский»), а затем сгенерировать гипотетическую популяцию из 20 образцов состоящих на 100 процентов из натуфийского компонента. Именно этот компонент был включен в модель K11 под названием Levant_Mesolithic ( или Natufian). Этот компонент не стоит путать с компонентом Basal-Eurasian в калькуляторе Eurogenes K7 Basal-rich, так в в моей модели K11 основная часть базального компонента ушла в неолитические компоненты (т.е Natufian=Basal-Rich — Neolithic)

Гораздо сложнее ситуация обстояла с разделением компонента кавказских охотников-собирателей, которые наряду с американскими аборигенами несут в своем геноме значительные доли компонента древних северо-евразийцев. По этому причине очень сложно, например, разделить восточных охотников-собирателей (из мезолитических культур Карелии и Самары) и синхронным им кавказских охотников-собирателей.
Из-за присутствия компонента древних северо-евразийцев в их геноме, в Admixture компонент древних кавказцев увеличивается только за счет компонент восточных охотников-собирателей — и наоборот. Правда, можно попытаться выделить отдельный мезолитический компонент населения горного Загроса (Иран).

В случае успеха древние геномы жителей мезолитической Грузии можно будет представить как 20% компонента степных охотников-собирателей + 80% местного мезолитического субстрата.

Еще раз о палеогеномах европейцев (к работе Haak et. al. 2015)

Опубликовано 7 апреля, 2015 автором verenich

Еще когда появились первые анонсы препринта статьи Haak et al. 2015, можно было сделать интуитивные предположения о том, что использованные в работе образцы палеогеномов будут всесторонне изучены не только авторами статьи, но и многочисленными любителями, причем ожидаемая степень детализации полученной картины генетического разнообразия будет предположительно выше именно у последних (т.е всевозможных геномнных блоггеров).

Так оно и вышло. Давид Веселовский из Eurogenes провел целый ряд экспериментов с объединенным базовым набром «геномов» современных популяций и так называемых древних геномов. В частности, в одном из своих анализов он задействовал новую программу qpAdm из последней версии пакета Admixtools, и в ходе пробного моделирования геномов представителей ямной культуры из самарской культуры был наилучшая аппроксимация (fit, подгонка) была получена в комбинации 51.4% генома охотников-собирателей Самары и 48.6 современных грузин (STD 0,032, chisq 3,890, р-value 2.20661e-22). Образцы палеогеномов представителей шнуровой керамики могут быть в свою очередь смоделированы как 73% геномов ямников + 27% палеогеномов Esperstedt_MN (STD 0,060, chisq 2,621, р-value 9.74968e-06).

Это интересный результат, главным образом потому данные лингвистики позволяют предположить, что ранние индоевропейцы — по-видимому, кочевники ямной культуры или их предки — были в тесном контакте с прото-картвельскими популяциями. Похожий результат был получен авторами статьи (у которых представители ямной культуры выступали как 50% -50% смесь геномов карельских охотников-собирателей и армян), а также в моих экспериментах, в которых геномы современных белорусов были представлены гибридной моделью современных геномов армян и палегеномов шведских охотников-собирателей Motala.

Впрочем, я согласен с Веселовским — главная проблема с подобными ретроспективными анализами заключается в том, что про причине отсутствия большого количества достоверных древних палеогеномов, популяционные генетики часто вынуждены моделировать древние популяции посредством комбинаций современных популяций. Как отмечает Веселовский, в генофонде современных грузин присутствует (по его оценке) 20% так называемого ANE-компонента, который, вероятно, прибыл на Кавказ из Евразийской степи. Если это так, то алгоритм qpAdm может переоценить «кавказский» компонент в геномах ямников, по крайней мере, на 10%.

В другом своем анализе Веселовский уделил особое внимание проблеме происхождения одного из основных компонентов в геноме древних ямников. Так например, анализ Admixture в Haak et al. 2015 включает в себя ряд интригующих компонентов с К = 16 до К = 20, которые, как правило составляют более 40% от генетической структуры потенциально прото-индо-европейских геномов ямников. Веселовский выделил компонент сигнализирующий этот тип «адмикса» и подробно изучил его. Заслуживает внимание тот факт, что компонент достигает своего пика на Кавказе и в горах Гиндукуша, и в целом показывает сильную корреляцию с регионами относительно высокой частоты связанных с палеогеномом MA1 компонентами происхождения (ANE). С другой стороны, другой компонент ямников достигает пиковых значений у ранних европейских фермеров (EEF), у которых отсутствует компоент ANE.

Выделенные Веселовским 3 основные компоненты-составляющие геномов ямников были преобразованы в синтетические популяции (центрально-азиатская, европейская и неолитическая европейская), которые в свою очередь использовались в качестве подмножества для вычисления векторов загрузки (loadings) в PCA анализе полного набора современных популяций.

https://drive.google.com/file/d/0B9o3EYTdM8lQak82NFVYSUJfWGc/preview

Очевидно, более детальный расклад и анализ вклада различных компонентов геномов палеоевропейцев в геном современных жителей Европы можно найти в подробном анализе Сергея Козлова «Палеоевропейцы из работы Haak et al, 2015 в свете анализа на IBD-сегменты«.

Как я уже упоминал ранее, мой опыт с «выведением» предкового аутосомного компонента индоевропейцев (обозначенного в статье Lazaridis et al. 2013 сокращением ANE) полностью удался. Поскольку всем очевидно, что этот компонент родственен «североиндийскому предковому компоненту» (ANI — обозначение из статьи Reich et al. 2009 и Moorjani et al 2011) о структуре генофонда индийских этнических групп), я взял 10 индийских этнических групп, имеющихся в кураторском наборе лаборатории Райха и проанализировал эту выборку в Admixture на пропорции вхождения их геномов в 2 априорно заданные кластеры. Первый кластер ANE был априорно задан 40 синтетическим индивидами, сгенерированными в программе Plink на основании расчитанных ранее частот аллелей «чистого» компонента ANE. В качестве дополнительного контрольного образца я использовал геном Malta1, т.к. он содержит в себе наивысшее содержание компонента ANE. Второй кластер был задан 4 индивидами Onge (одна из аборигенных народностей Андаманских островов). Как неоднократно указывалось в литературе, именно жители Андаманских островов являются самыми «чистыми» носителями т.н «южно-индийского» предкового компонента ASI (на континенте чистых носителей этого «компонента» не осталось, в том числе и среди популяций дравидов, ведда и мунда). После нескольких экспериментов по эвристическому методу проб и ошибок, я получил более или менее приемлимое разделение индивидов на 2 кластера, а затем вычислил частоты аллелей в каждом из этих кластеров. Любопытно, что в ходе опыта, удалось не только выделить компонент ANI, но и добиться неплохого уровня дискримнации между компонентом ANI, ANE, и благодаря этому, оба компонента могут быть включены в мой следующий этно-популяционный калькулятор.

Надежность компонентов я проверил на собственных данных. В рабочей модели калькулятора K14 удельное распределение этно-генографических компонентов моего генома выглядит следующим образом:

68.75% — европейский мезолитический компонент
13.12% — северо-евразийский компонент ANE
10.23% — европейский неолитический компонент
4% — ANI (северо-индийский предковый компонент)
1.6% — кавказский компонент
1.2% — алтайский компонент
0.2% — сибирский компонент

Затем я использовал 120 древних образцов аутосомной ДНК человека (начиная с верхнего палеолита до бронзового и железного веков) из последней работы и проработал их в бета-версии своего этно-популяционного калькулятора K14. Я надеялся выделить компонент ANE из ANI, но из таблицы видно, что это фактически один и тот же компонент

Когда я закончу полномерную импутацию всего набора данных от лаборатории Райха, я займусь проведением аналогичных экспериментов. А пока — примерно месяц назад я сообщил о начале первого этапа своего нового проекта. Согласно первоначальному замыслу, на первый этап — фазирование и импутация данных выборок из статей Haak et al .2015 (preprint) и Lazaridis et al. 2014 — я отводил месяц. Так оно и получилось.

В качестве затравки для импутирования я использовал набор 424329 снипов на 22 аутосомных хромосамх. Набор состоял из снипов, прошедших стандратный геномный контроль качества. Фазирование и импутация снипов я проводил с помощью пайплайна Molgenis.

По окончанию этого вычислительно-емкого процесса, мною был получен набор из примерно 5 миллионов снипов; после отсева не входящих в панели Illumina снипов у меня осталось 913841 снипов.

Ниже приведена похромосомная статистика снипов до и после импутации данных.
Как видно, на всех хромосомах (за исключением 19 и 20) количество снипов увеличилось примерно в два раза.

Для оценки качества импутации я сравнил импутированные генотипы своих данных с известными данными из своих сырых данных (снипы с иллюминовского чипсета 23andme) на предмет конкорданса (соответствия).
Оказалось, что у 6.5% импутированных генотипов оба варианта не совпадали с генотипам в rawdata от 23andme, у 17.33% — не совпадал один из двух вариантов. Таким образом, качество импутации составляет примерно 76.18%, что неплохо, учитывая что среднее значение качества импутации в программе IMPUTE v2 + SHAPEIT составляет примерно 69%.

Chromosome Pre-imputation Post-imputation Percentage of imputed snps

1 36638 88155 41.56
2 40140 90003 44.60
3 33218 62030 53.55
4 23594 54462 43.32
5 19731 55284 35.69
6 27979 56485 49.53
7 22804 49172 46.38
8 23072 48756 47.32
9 19369 42438 45.64
10 25340 49666 51.02
11 23145 46434 49.84
12 16967 45668 37.15
13 14998 35626 42.10
14 15529 36429 42.63
15 14663 27844 52.66
16 15034 33806 44.47
17 7799 24949 31.26
18 11697 27709 42.21
19 7102 17715 40.09
20 12654 5054 -39.94
21 6495 2572 -39.60
22 6361 13584 46.83
424329 913841 36.74

Для проверки полезности полученного набора (объединенного набора «реальных» и импутированных снипов), я соединил его с 112 образцами человеческих палеогеномов из новой статьи Haak et al. 2015. Полученный таким образом набор я проанализировал методом выделения главных компонент, первые две из которых я впоследствии использовал для построения графика главных компонент. Как мне кажется, получилось красиво и правдоподобно.

Через неделю работы в GoogleCloud, получил результаты второго цикла обработки (импутации и фазировки) палеогеномов. Напомню, задачей ставилось увеличение числа снипов палеогеномов до уровня, позволяющего проводить исследования с привлечением сторонних данных по современным человеческим популяциям (т.е не только по тем популяциям, которые включены в кураторский набор лаборатории Рейха, но и другим наборам, генотипированным на платформе Illumina; и что самое главное — с привлечением данных конкретных пользователей 23andme и FTDNA).

И если результатами первой части я был вполне доволен, то этого нельзя сказать о второй части. Теперь я понимаю, что ошибка содержалась в самом дизайне цикла второй части, в которой для импутации и фазирования использовались только реальные и «симуляционные» палеогеномы. В результате, хотя импутация и улучшила взаимное позиционирование палеогеномов в пространстве главных компонент генетического разнообразия, однако при слиянии импутированного в автономном режиме набора палеогеномов с набор полученным в первой части проекта, получилась картина. в которой палеогеномы образуют как бы параллельную субструктуру по отношению к современным популяциям.
Данное обстоятельство объясняется тем, что у древних геномов людей больше общего разнообразия между собой, чем с геномами современных людей (у которых в результате многочисленных генетических дрейфов и бутылочных горлышек большая часть разнообразия была потеряна). По этому причине, при независимой импутации древних геномов их сходство между собой только усилилось, а дистанция с современными популяциями увеличилась. Примечательно при этом, что пропорции вилкообразного разделения генетического разнообразия такие же, как и у современных людей.

На графике PCA эта ситуация прослеживается особенно хорошо, где отчетиливо видно наложение этих двух V-вилок друг на друга (см. нижний график)

Это означает одно — работу над проектом надо продолжить

LAMP: инструмент для анализа «локального происхождения» геномных сегментов

Опубликовано 25 января, 2015 автором verenich

В этом посте мы продолжим обсуждение существующих методик и инструментов анализа т.н «локального происхождения» отдельных сегментов хромосом в человеческом геноме (под локальным происхождением здесь подразумевается предпологаемое географическое происхождение дискретного сегмента одной их двух парных аутосомных хромосом в геноме человека).

Ранее эта тема поднималась в описании программы SupportMix, а также в сжатом изложении методологии оценки происхождения хромосомных сегментов (инструмент PCAdmix). Данная заметка будет посвящена третьему инструменту — LAMP (Local Ancestry in adMixed Populations) (Sankararaman et al.2008).

Очевидно, что алгоритмы определения локального происхождения отдельных сегментов человеческих хромосом могут дать неплохие результаты при комбинированном использовании программ PLINK /ADMIXTUIRE/LAMP: например, комбинация этих программ позволяет довольно точно определить не только стратификацию отдельных этно-популяционных групп, но также и уровень «адмикса» у отдельных людей. Поскольку одна из задач нашего проекта MDLP состояла в определении практических и теоретических преимуществ и/или ограничений конкретных методологий биоинформатического анализа полных генома, я провел эксперимент, позволяющий прояснить ряд ограничений, которые значительно уменьшают уровень достоверности результатов субструктуры аутосомного генофонда населения Европы.

В качестве инструмента контроля качества комбинированного набора данных (аутосомных SNP-ов 22 хромосом) я использовал Plink, с помощью которого я выбрал для последующего анализа только качественные снипы (99% генотиприрования), частоты минорных аллелей которых превышают 1%.

Поскольку этно-популяционный фон неравновесного линикиджа марекеров (LD) может существенным образом влиять на основные компоненты субструктуры популяции, я исключил из выборки маркеры, характеризующиеся статистически значимым уровнем LD (с коэффициентом попарной корреляции r2 Пирсона > 0,4) в «скользящем окне» из 100 снипов с пошаговым сдвигом на 10 снипов. Кроме этого, я также использовал другие методы Plink для получения однородной выборки — например, кластеризации на основе IBS для обнаружения пары индивидов (outliers) с уровнем «родства», значительно более высоким, чем у пары выбранных случайным образом индивидов в однородной популяции. Под более высоким родством здесь понимается резко отклоняющиеся значения (более 3 стандартных отклонений) парных значнений IBS по отношению к остальной части выбаки, а также случаи с высоким значения PIHAT (более 0,05) и высокой степень инбридинга (гомозиготности*). Индивиды с подобными аномальными значениями («выбросы») были удалены из «обучающего» подмножества нашей выборки .

—
* В программе Plink степень инбридинга определяется через вероятностную функцию гомозиготности.

homozyg — Стратификация образцев в соответствии с уровнями гомозиготности. Вдоль оси Х отображена общая сумма гомозиготных сегментов в килобазах; вдоль Y-оси — средний размер гомозиготных сегментов в килобазах

homozyg2 — Уровни индивидуальной гомозиготности в выбороке: вдоль ости X отложено количество сегментов NSEG. Общая длина гомозиготных сегментов отображается осью Y

По окончанию описанных выше процедур фильтрации снипов и удаления «выбросов», окончательный набор данных представлял собой набор данных из 90 455 снипов и 317 человек (289 мужчин, 82 женщин). Эти данные были использованы в последующем анализе.

Прежде всего, мы использовали программу ADMIXTURE (Alexandre, Novembre, Lange 2009), в которой реализована модель оценки максимального правдоподобия (ML), т.е алгоритм кластеризации и оценки структуры популяции в наборе генетических данных (снипов).

В целях сохранения совместимости с MDLP калькулятором, я остановился на модели, в которой выборка представлена в виде комбинации 7 предковых компонентов (K=7). Индивидуальные значения процентной составляющей каждого компонента в индивидуальном геноме (матрица Q), была визуализированы в R (ниже приведен график с результатами участников проекта MDLP, полный список доступен в этой таблице).

Полученные предковые компоненты (K=7) я обозначил следующими названиями (с сопутствующей цветовой легендой)**:

Транс-кавказский — красный
Балканском / средиземноморском -желтый
Северо-кавказский -зеленый
Западно-европейский
Алтайский — светло-голубой
Балто-славянский — темно-синий
Прибалтийско-финский / Северо-европейский -фиолетовый

**Как обычно, названия компонентов условны и предназначены для мнемонических целей: исследователи должны быть осторожными при интерполяции предполагаемых компонентов в анализе этнической истории популяций.

На следующем этапе, я разбил все 371 индивидуальных «геномов» выборки на 22 фрагмента (каждый из которой соответствует аутосомной хромосоме) и затем использовал программное обеспечение Admixture для оценки структуры популяционного вклада в каждую из 22 хромосом. После этого я использовал пайплайн для перевода формата Plink в формат BEAGLE и последующего поэтапного преобразования фазированных данных BEAGLE обратно Plink формат.

Я предположил, что все образцы в моей выборке (представленной образцами VID) проекта MDLP возникли в в результате смешивание 7 отдельных предковых групп населения. Данное предположение означает, что «чистые» референсные группы населения тесно связаны с истинными предковыми популяциями. Исходя из этого предположения мы снова задействовали программное обеспечение Admixture, на этот раз с целью определения предковых компонентов в фазированном наборе данных из отдельных неполовых (аутосомных) хромосом.

Только после этой процедуры я смог использовать программу LAMP для определения уровня адмикса у отдельных индивидов. На практике, определение индивидуального уровня адмикса означает применение любой из указанных выше процедур, в которй используется либо модель «локус-специфического происхождения» (в случае, если предковые группы популяции априори неизвестны), либо модель «локус-специфического происхождения» гибридного населения. Затем полученные значения локус-специфического происхождения» отдельных сегментов в индивидуальном геноме усреднеяются и получаются значения долей адмикса в индивидуальном геноме.

Я расчитал в программном обеспечении Plink частоты аллелей (в стратифицированных по этническим признакам кластерах), и добавил в файл фиксированные частоты рекомбинации (определяются отдельно для каждой из 22 хромосом). Для моделирования динамического процесса смешивания предковых компонентов, я использовал различное количество поколений G ( 5, 10,25 поколений), предполагая 3 хронологически разных варианта, в которых при K = 7 предковые популяции A1, …, Ak, перемешивались в течение G = 5,10,25 поколений.

Результаты экспериментов для каждой из хромосом размещены в отдельные таблицы Excel, каждый из файлов Excel включает в себя следующие разделы:

1) результаты Admixture для фазированных генотипов хромосомы (Chr * -phased)
2) результаты Admixture для нефазированных генотипов хромосомы (Chr * -unphased)
3) результаты LAMP для G = 5 (Chr * -lamp-GEN5)
4) результаты LAMP для G = 10 (Chr * -lamp-GEN5)
5) результаты LAMP для G = 25 (Chr * -lamp-GEN5)

Образец этих выходных данных можно посмотреть в файле Excel с результатами анализа хромосомы 1 (Chr1).

PCAdmix: инструмент и методология для оценки происхождения хромосомных сегментов

Опубликовано 15 января, 201515 января, 2015 автором verenich

В марте прошлого года Сергей Козлов — один из соавторов данного блога, — опубликовал важную с точки зрения методологии генетико-генеалогического анализа заметку о принципах оценки вероятности определения времени жизни последнего общего предка при попарном сравнении аутосомных данных двух или более сравниваемых индивидов. Действительно, в последние годы среди людей, интересующихся генеалогией, приобрели заметную популярность сервисы, производящие поиск генетических родственников по всем линиям, а не только по прямой мужской и прямой женской. В качестве примера можно привести Family Finder от FTDNA и DNA relatives от 23andMe. Участник получает достаточно длинный список так называемых «совпаденцев» — людей, имеющих с ним один или более участок половинного совпадения (УПС) на аутосомах (неполовых хромосомах). Если участок достаточно длинный (а его длина измеряется в сантиморганидах, обозначающих вероятность разрыва участка при каждой передаче в следующее поколение), то это говорит о наличии общего предка (от которого участок и получен).
Для значительной части клиентов сервисов персональной коммерческой геномики, интересующихся исключительно вопросами своего происхождения, вопрос о достоверном определении времени жизни общих предков имеет первостепенное значение. И вместе с тем, именно проблема с получением четкого ответа на этот краеугольный вопрос служит одной из главных причин недовольства и раздражения клиентов компаний вроде FTDNA или 23andme.

Действительно, изучив длинные сегменты генома, передававшихся от поколения к поколению и встречающиеся у многих людей, можно примерно определить степень и интенсивность предковых связей, берущих начало много тысяч лет назад. Здравый смысл подсказыает — дальние родственники имеют такие длинные сегменты генома потому, что они унаследовали их от общих предков. У более далеких родственников длина сегментов общих геномов соответственно становится короче, поскольку происходит рекомбинация гомологичных хромосом, в результате чего с каждым следующим поколением происходит перемешивание всей совокупности генов или генотипа. Очевидно, что число и размер совпадающих общих по происхождению сегментов геномов у двоих произвольно взятых лиц из однородной метапопуляции коррелирует с географический дистанцией — количество общих генетических предков резко уменьшается по мере увеличения географического расстояния.

Однако наряду с географически близкими (в пределях 50-100 км) «совпаденцами», нередко в списках «совпаденцев», предоставляемых в 23andme или FTDNA появляются совершенно экзотические «совпаденцы». Например, у финна может появится совпаденец из Италии, а у корейца — из Великобритании. Совершенно очевидно, что подобные случаи очень сложно объяснить не только простым сопоставлением сведений о географическом происхождении предков, но даже и безотказной в простых случаях моделью наложения «этнопопуляционного аутосомного фона в виде коротких реликтовых IBD сегментов».

В этой связи возникает практический вопрос — как интерпретировать подобные случаи, при условии что подобные сегменты представляют собой не «ложно-позитивные», а вполне достоверные совпадения, указываюшие на существование в неопределенный момент прошлого некоего общего предка. И подобные случаи характерны не только для коммерческих «выборок», но и для вполне серьезных научных баз данных, например 1000 Genomes. В частности, в этой базе данных при сравнении редких снипов у 89 британцев и 97 китайцев были обнаружены три англо-китайские пары с отдаленным генеалогическим родством ( в геноме этих пар были обнаружены идентичные по происхождению фрагменты (IBD сегменты) ДНК, которые составляют 0,001%, 0,004% и 0,01% их геномов).

Самое простое решение этой проблемы некоторые из любителей генетической генеалогии пытались найти в обращении к сервисам главного инструмента аутосомной генетической генеалогии Gedmatch. В частности, как известно, данный сервер содержит онлайн-версии практически всех популярных среди любителей модификаций DIYDodecad калькуляторов. Например, выбрав разработанный мною калькулятор MDLP K23b в режиме Chromosome painting: Paint differences between 2 kits, 1 chromosome и сравнив характер распределения предковых компонентов на гомологичных хромосомах у двух сравниваемых людей, можно получить примерное представление о географическом ареале, в котором мог жить общий предок этих людей (вероятно, на этот ареал будет указывать доминирующий на совпадающем сегменте компонент). Логика простая. Предположим, например, что мы сравниваем сегменты хромосомы X в данных индивида A этнического происхождения D c данными индивида В этнического происхождения С. Здесь возможны три варианта

С-происхождение предка или предков индивида A
D-происхождение предка или предков индивида B
Y-происхождение подмножества предков обоих индивидов

Используя эту логику, можно предположить что если в попарном сравнении сегмента обозначится хорошо выраженное преобладание (по отношению к средним значениям) компонента, характерного для этнопопуляции С, то следует выбрать первый сценарий; аналогично, если обнаружится избыток компонентов характерных для этнопопуляции D, то следует выбрать второй сценарий; если будет замечено преобладание редких для этнопопуляций С и D компонентов, то следует остановится на третьем варианте.

Пример I.

В этом примере мы будем использовать свои данные и данные женщины, с которой у нас был обнаружен подтвержденный генеалогией общий предок, живший в середине 19 века. При сравнении наших данных, алгоритм поиска достоверных генеалого-генетических совпадений обнаружил три сегмента с генетической дистанцией > 7 cантиморганов, cостоящих в блочной записи из более чем 700 последовательно совпадающих снипов

	Start Location	End Location	Centimorgans (cM)	SNPs
4	32232224	42421625	13.2	1115
7	8295405	13845989	9.8	885
11	36784445	45084878	8.0	881

Самый большой сегмент = 13.2 cM
Общий размер сегментов с сантиморганах > 7 cM = 30.9 cM
Приблизительное число поколений до общего предка = 4.4

Задетектированные сегменты хромосом идеографически отображаются при попарном сравнении в цветовой гамме — черный цвет означает несовпадающие сегменты, другие цвета — компонентную привязку к одному из компонентов моего калькулятора MDLP K23b. Ниже приведены фрагменты идеографического отображения 2 из 3 вышеуказанных совпадающих сегментов на кариограмму 4 и 7 хромосомы.:

M051225_F298455_4_D64088 — Сегмент на 4 хромосоме

M051225_F298455_7_BC1A38 — Сегмент на 7 хромосоме

Самый значительный сегмент (13.2 сM) на 4 хромосоме имеют хорошо заметную привязку к северо-восточно-европейскому компоненту [зеленый цвет], в исторической перспективе связанному с наследием мезолитического населения этого региона. А вот сегмент на 7 хромосоме имеет более сложную структуру, в которой характерно преобладание кавказского компонента [голубой цвет]. Таким образом можно уверено утверждать, что общий предок (или предки) могли жить в регионе восточной Европы.

К сожалению, данный инструмент сегментного сравнения на Gedmatch хотя и прост в обращении (в силу интуитивной понятности), однако далек от совершенства. В первую очередь, на аккуратность определения «генографического»происхождения сегмента влияет отсутствие на сервере гаплоидных фаз похромосомных данных. В результате, сравнение ведется не по конкретной фазе (т.е по конкретной хромосоме доставшейся ребенку от каждого из родителей), а по диплоидному составному блоку, т.е вместо настоящих IBD мы можем оперировать half-IBD (HBD), которые на слэнге русскоязычных любителей именуются УПС-ами. Во вторых, аккуратность генографического определения зависит от аккуратности определения предковых компонентов в используемом варианте калькулятора, но это отдельная тема для разговора.

К счастью, парадокс «экзотических» совпаденцев имеет более точное решение с помощью одной из программ, позволяющих определять геногеографическую структуру или «локальное происхождение» совпадающих сегментов. Можно использовать разные программы, HAPMIX, LAMP , HAPAA, ANCESTRYMAP — так как несмотря на ряд принципиальных отличий, все они используют алгоритмы моделнй скрытых марковских цепей (HMM) и поэтому выдают в целом схожие результаты. К этому же классу программ относится и более новая програма PCAdmix, которую я буду использовать в своем втором примере, в котором я задействую фазированные в BEAGLE генотипы. В целях разжевывания принципов работы программы, следует вкратце описать рабочий процесс PCAdmix.
PCAdmix являет cобой метод, который оценивает локальное происхождение хромосомных сегментов с помощью анализа главных компонентов (PCA) фазированных гаплотипов. В самом начале выполняется анализ главных компонентов в 2-3 референсных панелех, необходимых доя построения пространства главных компонентов, например, для хромосомы 22 . Поскольку метод использует фазированные данные, каждая копия хромосомы 22 в референсных панелях рассматривается как отдельная точка в пространстве главных компонентов. Первые две главные компоненты, как правило, представляют собой оси «предкового» расхождения популяций референсных панелей, что хорошо заметно на графиках. Если подобного рассхождения не наблюдается, то скорее всего в популяциях референсных панелей «маскируется» присутствие неявной популяционной субструктуры. В построенное таким способом пространство главных компонентов в дальнейшем проецируется группа лиц «смешанного» происхождения, и затем определяется значение нагрузки главных компонентов для каждого снипа. После этого метод переходит к анализу коротких «окон» снипов — для каждого из этих окон вычисляются вероятности того, что данное окно в гаплотипе человека «смешанного» происхождения происходит от одной из референсных популяций. Вычисленные таким образоом вероятности различных вариантов происхождения каждого окна снипов, используются на заключительном этапе метода в скрытой моделе Маркова (HММ) для сглаживания шума в определении происхождения «окон» снипов. Таким образом, данная скрытая модель Маркова НММ зависит от значений главных компонентов, доли каждого «компонента происхождения» на заданной хромосоме, а также матрицы перехода, которая, в свою очередь, зависит от числа поколений прошедших с момента смешивания популяций и генетического расстояния (сM) между двумя окнами снипов. В текущей версии метода, рекомбинаторные расстояния и число поколений определяются параметрами.
Конечным результатом рабочего процесса PCAdmix является матрица состяний скрытой модели Маркова, содержащая апостериорную вероятность каждого из возможных вариантов происхождения для данного «окна снипов», и эта вероятность обусловлена остальной частью данных для хромосомы. Важно отметить, что происхождение каждого окна снипов определяется только в том случае если апостериорная вероятность для одного из возможных происхождений > = 0,8. Любое окно, для которого максимальная апостериорная вероятность любого варианта происхождения <0,8, считается «неопределенным».

Пример 2

Данный пример основан на реальном случае, когда ко мне обратился человек, чьи предки происходят из центральных регионов Азии. Смущенный наличием в списке своих совпаденцев в сервисе Relative Finder 23andme человека с корейскими и японскими корнями, а также семейными легендами о «восточноазиатской»прабабушке, он попросил меня определить вероятность присутствия японцев в числе своих ближайших (в пределах 5 поколений) предков, опираясь исключительно на аутосомные данные.

В этом эксперименте, я решил скурпулезно следовать инструкциям разработчиков PCAdmix, и для начала произвел фазирование (биоинформатическую реконструкцию гаплотипных фаз аутосомных хромосом) в программе BEAGLE. Данные тестанта (ок 400 тыс. снипов) были фазированы в присутствии 3 контрольных референсных групп популяций — британцев GBR, китайцев CHB и японцев JPT — поскольку эти группы были позднее задействованы мной в качестве 3 референсных панелей. В целях уменьшения количества ошибок, которые неизбежно появляются в результате импутации пропущенных «генотипов» снипов, я использовал только те общие снипы, которые были определены как в аутосомных данных клиента 23andme, так и в трех референсных группах.

Затем фазированные данные тестанта были похромосомно обработаны в рабочих циклах программы PCAdmix. Программа отфильтровала cнипы с низким значением MAF и высоким значением LD, в результате чего число снипов уменьшилось почти вдвое. Оставшиеся снипы были разбиты на «окна снипов», каждое из которых состяло из 20 снипов. При расчете по всем 22 хромосомах, общее количество полученных таким разбиением «окон» составило 11 997. В конце рабочего цикла (метод главных компонентов + HMM) программа выдала для каждой парной аутосомной хромосомы A и B файл в формате bed, удобном для отображения дополнительной информации в аннотации генома (номер хромосомы, начало и конец сегмента, наиболее вероятный регион происхождения сегмента, cM, максимальная вероятность и апостериорная вероятность одного из трех вариантов происхождения — JPT, GBR, CHB, непоказана в таблице). В конечном отчете GBR используется как индикатор сегментов не-восточноазиатского происхождения (nEA), JPT — японского происхождения (JPA), CHB — неспецифичных сегментов восточноазиатского происхождения (EA) :

10	111955	468599	GBR	0.004885	0.134147	GBR*	0.636943
10	521723	811876	GBR	0.142147	0.582463	GBR*	0.646868
10	815149	1151723	GBR	0.585829	0.898724	GBR*	0.676252
10	1156487	1335849	GBR	0.901503	1.23673	GBR	0.925059
10	1337709	1449849	GBR	1.24246	1.60705	GBR	0.99999
10	1454864	1510208	GBR	1.61249	1.76798	GBR	0.999506
10	1512546	1623734	GBR	1.77039	2.12653	GBR	0.999647
10	1624900	1669347	GBR	2.13038	2.25357	GBR	0.999778

Выбор формата BED в качестве формата выходных в моем случае также был далеко неслучайным. C помощью одной из библиотеки платформы Bioconductor формат BED легко отображается в кариограмме 22 пар аутосомных хромосом человека (я использовал координаты геномного билда b37). Чтобы было понятно, что именно изображают эти «кариоплоты» (идеографические изображения хромосом), необходимо пояснить, что «японское происхождение» (JPA) приписывалась 20-сниповому сегменту только в том случае, если апостериорная вероятность японского происхождения данного «окна из 20 снипов» составляла > = 0,8. Любое окно, для которого максимальная апостериорная вероятность любого варианта составляля <0,8, засчитывалось как окно с «неопределенным» происхождением (UND). Chromosomes A

Chromosomes A

Эксперимент показал, что среди 11997 «окн» число «окон» не-восточноазиатского (nEA) происхождения (7650) почти в два раза больше чем число «восточноазиатских» сегментов. Происхождение 2750 геномных «окон» снипов невозможно определеить, и только 965 «окна» могут быть определены как «японские по происхождению». Вместе с 617 окнами «китайского» (EA), восточно-азиатские сегменты составляют меньше, чем 10% генома.
Не менее важно и то обстоятельства, что значительная доля этих сегментов-окон пришлась на низких «консервативные, низкорекомбинантные» области хромосом, — такие, как например, теломеры, центромеры и регионы с низкой плотностью снипов: сегменты в таких регионах могут переходить от одного поколения к другому фактически в неизменном виде. Наконец, те же закономерности распределения родословной были отмечены в обеих фазированных наборах аутосомных хромосом, что опровергает версию о недавной «восточноазиатской» примеси со стороны одного из родитедей и скорее свидетельствует о древнем эпизоде смешивание определенных центрально- и юго-западноазиатских групп с группами восточноазиатского происхождения (например, в ходе монгольских или тюркских нашествий).

Разумеется, как и во многих других моделях анализа, основанных на вероятностях, наше заключение нельзя считать окончательным вердикторм. Вместо этого, лучше сказать, что шансы в пользу существования «недавнего японского предка» против шансов отсутствия такого, составляют 10 к 90. Другими словами, вариант с недавней японской «примесью» нельзя полностью исключить, поскольку вероятность такого сценария составляет 11%.

Генетические следы экспансии тюркоязычных номадов в Евразии

Опубликовано 5 августа, 2014 автором verenich

В самом конце июля, на известном ресурсе bioRxiv наконец-то появился препринт давно ожидаемой статьи тартуских генетиков в составе Баязита Юнусбаева, Майта Метспалу и др., предметом исследования которой является важный вопрос, — оставили ли многочисленные волны экспансии и миграций древних тюрков в структуре генофонда тюркоязычных народов? Следует отметить, что Баязит Юнусбаев и ранее занимался изучением вопроса характера, состава и происхождения генетических компонентов ряда современных тюркских популяций, однако ареал исследований и используемые методы в его предыдущих исследованиях носили ограниченный характер. Свежая работа коллектива тартуских генетиков замечательна уже тем, что в ней было уделено серьезное мнение разработке точного статистико-математического аппарата для определения статистически достоверных геномных cигналов свидетельствующих о определенном характере, направленности и экстенсивности демографических процессов в среде предков современных тюркских популяций.
Наверное, именно по этим причинам работа над подготовкой данных и текста публикации велась довольно долго, не менее 3-4 лет, при том что средний цикл проведений таких исследований на уже готовых генетических данных составляет максимум год-полтора.
Существенным отличием от других подобных работ последнего времени является и заметно явное смещение акцента исследования со ставших уже традционными методов анализа генетических компонентов (кластеров аллельных частот, которые более или менее коррелируют с географией расселения человеческих популяций), таких как PCA, Admixture) на анализ так называемых IBD сегментов и блогов, имеющих общее генетическое происхождение. Как недавно показал на убедительных примерах ув. Сергей Козлов, зачастую правильно распланированный и тщательно выверенный анализ IBD дает более точную, в сравнении с Admixture, генетическую картину происхождения человека. Этот метод основан на метрике IBD и принципиально отличается от Admixture. У него есть свои преимущества, часто он дает лучшую прорисовку кластеров предковых популяций, построенных на основе матрицы разделяемых общих сегментов. Есть и свои недостатки — которые объясняются консервативным характером сохранения некоторых участков. Я бы рекомендовал удалить такие сегменты из анализа — в первую очередь большой мультимаркерный гаплотип региона MHC-HLA на 6 хромосоме, а также ряд участков с высоким уровнем LD. Это значительно улучшит результатЭто наблюдение особенно применимо к относительно гомогенным, однородным популяциям северо-восточной Европы.

Возвращаясь к обсуждаемой статье, можно сказать, что краеугольным рабочим методом в этой статье является расширенный fastIBD анализ большого количества геномных образцов представителей практически всех тюркских народов. В работе присутствуют и более привычные результаты Admixture и PCA анализов структуры генофонда тюркских популяций; однако, на мой личный взгляд, они менее важны в силу тривиальности результатов и легкой повторяемости эксперимента.

Выводы авторов, вынесенные в абстракт статьи, вряд ли вызовут сомнение в своей правильности у большинства историков:

1) Большинство тюркских народов изученых в данной статье, (за исключением тюрков Центральной Азии), генетически напоминают своих географических соседей, что хорошо согласуются с моделью языковой экспансии, в которой тюркские языки — как языки доминирующей элиты -распространялись кочевой элитой.

2) 2) Западные тюркские народы в выборке Западной Евразии характеризуются эксцессом длинных хромосомных сегментов, которые идентичны по своему происхождению (IBD) с большей частью населения современной Южной Сибири и Монголии (SSM), т.е в той области, где историки отмечают концетрацию серию ранних тюркских и не -тюркских степных политических объединений. При всем этом, наблюдаемый избыток длинных общих по генеалогическому происхождению IBD сегментов (> 1 сентиморгана) между популяциями из региона Южной Сибирии и Монголии и тюркских народов всей Западной Евразии была статистически значимой.
Untitled
3) Примененные в исследовании методы датировки событий генетического смешения групп популяций (метод ALDER и SPCO) показали у тюрских народов присутствие сигнала смешивания различных предковых группы в интервале между ~ 9-17-ыми векми нашей эры. Несмотря на принципиальную разницу между этими методами, они дали идентичные результаты, что придает дополнительную надежность вычисленному интервалу И этот интервал перекрывается интервалом тюркских миграций с 5-го по 16 века.

Примечание 1. Мой комментарий

Как я уже отмечал выше, несмотря на всю тривиальность результатов, эту публикацию Юнусбаева et al. 2014 следует отнести к важным работам, поскольку впервые методы оценки времени слияния популяция — ALDER и SPCO были использованы для анализа популяций без явного намека на смешения, расширявшихся в уже историческое время. Ранее эти методы использовались либо при изучении древних доисторических процессов (например, смешивания неолитического и мезолитического населения Европы). либо с использованием классических «смешанных» популяций (мозабитов, пуэрто-риканцев, карибцев и так далее).
В этой связи, заслуживает внимание результаты ALDER для группы тюркских популяций Центральной Азиии (Table 3 в сапплементе к статье), в третьей колонке которой показана датировка событий «смешивания» в поколениях (которые пересчитаны в 4 колонке на года), и это событие приходится на интервал между 13 и 14 веками нашей эры, то есть во времена Золотой Орды :

Kazakhs	Italians (North Italy)	Tujia	23.72±1.61	1288±48	0.00039184±0.00002155
Kyrgyz	Orcadians	Japanese	22.02±1.00	1339±30	0.00035833±0.00001271
Uzbeks	Italians (North Italy)	Tujia	22.07±1.47	1338±44	0.00036534±0.00001432
Karakalpaks	Italians (North Italy)	Naxi	22.69±1.89	1319±57	0.00044112±0.00001912

Однако не все просто. Еще в ноябре 2012 года при обсуждении характерных особенностей митохондриальных гаплогрупп жителей Евразии (в статье Клио дер Саркиссян), я решил проверить, насколько эта модель гаплоидной вариативности находит свое подтверждение в анализе диплоидных аутосомных маркеров.

Для этих целей я использовал программу ALDER: Admixture-induced Linkage Disequilibrium for Evolutionary Relationships, специально разработанную для формального обнаружения в анализируемой популяции сигнала смешивания двух и более исходных популяций.В качестве эксперимента я выбрал две современные популяции — казахов и узбеков.

Как видно, полученные мной результаты оказались очень похожи на результаты из более поздней статьи Юнусбаева et al. 2014

Из полученных результатов были отобраны только те успешные результаты, которые прошли формальные критерии отбора (статистический значимый уровень экспонентного угасания неравновесного сцепления маркеров(LD curve is significant) и наличие двухсторонней корреляции между кривыми угасания неравновесного сцепления маркеров в обеих референсных популяциях(decay rates are consistent)).

Результаты по узбекам

DATA: success 3.7e-18 Uzbek Italian-Center Mongol 9.54 9.15 5.18 13% 22.94 +/- 2.41 0.00024041 +/- 0.00001438 23.78 +/- 2.60 0.00006319 +/- 0.00000406 26.14 +/- 5.05 0.00006772 +/- 0.00000894
DATA: success 5.8e-33 Uzbek Sicilian Kyrgyz 12.59 8.51 4.94 19% 23.50 +/- 1.87 0.00015817 +/- 0.00001067 25.77 +/- 3.03 0.00005899 +/- 0.00000443 28.44 +/- 5.76 0.00003069 +/- 0.00000506
DATA: success 6.9e-25 Uzbek Sicilian Mongol 11.03 8.51 5.18 7% 24.49 +/- 2.22 0.00024382 +/- 0.00001210 25.77 +/- 3.03 0.00005899 +/- 0.00000443 26.14 +/- 5.05 0.00006772 +/- 0.00000894
DATA: success 4e-23 Uzbek Sicilian Kalmyk 10.66 8.51 5.56 16% 24.46 +/- 2.29 0.00022326 +/- 0.00001473 25.77 +/- 3.03 0.00005899 +/- 0.00000443 28.67 +/- 5.16 0.00006591 +/- 0.00000891
DATA: success 0.00077 Uzbek Sicilian Nogai 5.12 8.51 2.26 10% 23.79 +/- 4.56 0.00001986 +/- 0.00000388 25.77 +/- 3.03 0.00005899 +/- 0.00000443 23.24 +/- 10.27 0.00001138 +/- 0.00000317
DATA: success 9.8e-21 Uzbek Sardinian Kyrgyz 10.14 9.82 4.94 17% 23.96 +/- 2.36 0.00016455 +/- 0.00001038 27.67 +/- 2.82 0.00007013 +/- 0.00000589 28.44 +/- 5.76 0.00003069 +/- 0.00000506
DATA: success 2e-20 Uzbek Sardinian Mongol 10.07 9.82 5.18 10% 25.15 +/- 2.50 0.00025559 +/- 0.00001310 27.67 +/- 2.82 0.00007013 +/- 0.00000589 26.14 +/- 5.05 0.00006772 +/- 0.00000894
DATA: success 6e-13 Uzbek Sardinian Kalmyk 8.20 9.82 5.56 19% 23.64 +/- 2.88 0.00022058 +/- 0.00001440 27.67 +/- 2.82 0.00007013 +/- 0.00000589 28.67 +/- 5.16 0.00006591 +/- 0.00000891
DATA: success 0.00011 Uzbek Sardinian Nogai 5.48 9.82 2.26 17% 24.99 +/- 4.56 0.00002279 +/- 0.00000367 27.67 +/- 2.82 0.00007013 +/- 0.00000589 23.24 +/- 10.27 0.00001138 +/- 0.00000317
DATA: success 1.5e-28 Uzbek German Kyrgyz 11.77 9.19 4.94 25% 22.14 +/- 1.88 0.00012893 +/- 0.00000925 24.85 +/- 2.70 0.00004544 +/- 0.00000443 28.44 +/- 5.76 0.00003069 +/- 0.00000506
DATA: success 6.9e-21 Uzbek German Mongol 10.17 9.19 5.18 7% 24.40 +/- 2.40 0.00021733 +/- 0.00001182 24.85 +/- 2.70 0.00004544 +/- 0.00000443 26.14 +/- 5.05 0.00006772 +/- 0.00000894
DATA: success 2.8e-16 Uzbek German Kalmyk 9.08 9.19 5.56 22% 23.04 +/- 2.54 0.00018456 +/- 0.00001210 24.85 +/- 2.70 0.00004544 +/- 0.00000443 28.67 +/- 5.16 0.00006591 +/- 0.00000891

Результаты казахов:

DATA: success 4.7e-17 Kazakh Italian-Center Kalmyk 9.27 7.06 2.63 17% 22.06 +/- 2.38 0.00022347 +/- 0.00001893 25.42 +/- 3.60 0.00012981 +/- 0.00001327 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 3.5e-18 Kazakh German Kalmyk 9.54 6.39 2.63 18% 21.71 +/- 2.27 0.00021450 +/- 0.00001602 23.54 +/- 3.68 0.00012169 +/- 0.00001026 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 2.6e-23 Kazakh Russian_Center Kalmyk 10.70 6.64 2.63 17% 22.19 +/- 2.07 0.00023388 +/- 0.00001645 21.86 +/- 3.29 0.00012520 +/- 0.00001320 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 2.1e-22 Kazakh Russian_South Kalmyk 10.50 7.12 2.63 25% 20.31 +/- 1.93 0.00021745 +/- 0.00001580 20.82 +/- 2.93 0.00012386 +/- 0.00001116 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 0.019 Kazakh Slovakian Mari 4.48 8.09 3.45 17% 17.26 +/- 3.86 0.00002773 +/- 0.00000574 19.08 +/- 2.36 0.00011870 +/- 0.00001088 16.06 +/- 4.65 0.00003481 +/- 0.00000667
DATA: success 1.6e-29 Kazakh Ukrainian Kalmyk 11.95 6.93 2.63 23% 20.58 +/- 1.41 0.00021665 +/- 0.00001813 20.75 +/- 3.00 0.00011940 +/- 0.00001005 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 1.5e-14 Kazakh Ukrainian-East Kalmyk 8.63 5.90 2.63 23% 20.58 +/- 2.38 0.00022215 +/- 0.00001803 21.97 +/- 3.72 0.00012517 +/- 0.00001419 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 0.0014 Kazakh CEU_V Nogai 5.02 5.49 3.30 17% 20.84 +/- 4.16 0.00001984 +/- 0.00000315 19.20 +/- 3.50 0.00012065 +/- 0.00001375 17.52 +/- 5.31 0.00004319 +/- 0.00000772
DATA: success 0.00025 Kazakh British Mari 5.33 6.99 3.45 24% 20.42 +/- 3.83 0.00003281 +/- 0.00000478 19.18 +/- 2.74 0.00012196 +/- 0.00001159 16.06 +/- 4.65 0.00003481 +/- 0.00000667
DATA: success 0.0064 Kazakh British Nogai 4.71 6.99 3.30 18% 21.09 +/- 4.48 0.00002087 +/- 0.00000321 19.18 +/- 2.74 0.00012196 +/- 0.00001159 17.52 +/- 5.31 0.00004319 +/- 0.00000772
DATA: success 5.8e-22 Kazakh Orcadian Kalmyk 10.41 6.62 2.63 23% 20.59 +/- 1.98 0.00023474 +/- 0.00001737 21.83 +/- 3.30 0.00013779 +/- 0.00001201 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 0.004 Kazakh Bulgarian Nogai 4.80 6.98 3.30 21% 21.66 +/- 4.51 0.00001853 +/- 0.00000339 21.33 +/- 3.06 0.00012336 +/- 0.00001168 17.52 +/- 5.31 0.00004319 +/- 0.00000772
DATA: success 3.1e-19 Kazakh Karelian Kalmyk 9.79 5.77 2.63 21% 21.05 +/- 2.15 0.00019192 +/- 0.00001302 21.12 +/- 3.66 0.00009774 +/- 0.00001073 26.05 +/- 8.19 0.00002219 +/- 0.00000844
DATA: success 0.011 Kazakh Mari Bosnian 4.60 3.45 6.44 16% 17.56 +/- 3.82 0.00003003 +/- 0.00000554 16.06 +/- 4.65 0.00003481 +/- 0.00000667 18.79 +/- 2.92 0.00012259 +/- 0.00001136
DATA: success 0.0057 Kazakh Mari Greek_Azov 4.73 3.45 9.00 21% 16.97 +/- 3.59 0.00002322 +/- 0.00000431 16.06 +/- 4.65 0.00003481 +/- 0.00000667 19.87 +/- 2.21 0.00010948 +/- 0.00000811
DATA: success 5.2e-33 Kazakh Chuvash Kalmyk 12.60 5.88 2.63 14% 24.10 +/- 1.91 0.00014440 +/- 0.00000896 22.75 +/- 3.87 0.00005482 +/- 0.00000595 26.05 +/- 8.19 0.00002219 +/- 0.00000844

Результаты говорят сами за себя. Как и в большинстве случаев с центральноазиатскими популяциями, один из компонентов адмикса у узбекв и казахов представлен монголоидным популяциями, наиболее близкими к современным монголам, киргизам и калмыкам. В контексте обсуждаемой работы о древнем митоДНК, этот компонент можно обозначать как «восточноевразийский». Другой компонент у узбеков представлен популяциями близкими по частотам аллелей к современным западноевропейским популяциям (таким как немцы, cардинцы, сицилийцы и прочие). Кроме того в результатах анализа угасания admixture-LD казахов присутствует хорошо заметный сигнал адмикса с предками современных чувашей, марийцев и карел. Этот феномен, опять-таки в контексте парадигмы исследования древнего ДНК, можно объяснить с помощью грубой аппроксимации: как было убедительно показано в работе Дерсаркиссян, митоДНК древние скифы из ареала современной Кубани и нижнего Поволжья напоминают ряд современных поволжских популяций, а также карелов. Это же касается и сигнала о смешивании с предками более отдаленных европейских популяций (британцев, скандинавов и так далее). В свете аутосомного анализа вынужден согласится с одним из ключевых выводов Дерсаркиссян, согласно которому западноевропейские аллели были привнесены в степени Казахстана и Алтай при посредничестве популяций скифов и сарматов.

Стоит еще отметить, что у узбеков в отличие от казахов поток европейских аллелей имеет несколько иной источник, и скорее всего связан с распространением в Центральной Азии носителей «неолитических средиземнорских аллелей».

Подводя итоги, необходимо сказачть, что определенные трудности представляет интерпретация датировки европейского адмикса у казахов и узбеков. Поскольку этот адмикс датируется примерно одинаковым интервалом 30-25 поколений до нашего времени, что примерно соответсвует периоду завоевательных походов монголов. Однако, представляется трудно допустимым, что европеидное население казахской степи могло сохранится в значительном количестве вплоть до эпохи монголов, или что земледельческое население Средней Азии — сарты — было в генетическом плане европеоидно. Лично я склоняюсь к следущей интерпретации: смешивание европейского и восточноазиатского компонента произошло намного ранее монгольской эпохи, заниженная дата этого события есть прямое следствие последущего эфекта дрейфа генов и фиксации части аллелей.

Примечание 2. Комментарий профессионального историка

Хорошая работа. Но это — еще самое начало пути. Пока идет процесс верификации используемых методов. Очень важно, что результаты в целом совпали с тем, что говорят исторические источники. Для генетиков это хорошо, но для историков — тривиально. Действительный интерес появится, когда станет возможно давать такие ответы, которые историки своими методами добыть не могут. А этого пока нет.
Я на заре своей научной карьеры аналогичные выводы получил, используя всего один интегрированный фенотипический признак — индекс уплощенности лицевого скелета. По трудозатратам это было несопоставимо. Да, теперь эти выводы обоснованы гораздо надежнее. Но хочется гораздо большего.

Этногеномика беларусов — часть IV

Опубликовано 27 апреля, 2014 автором verenich

Анализ структуры аутосомного генофонда популяции беларусов: результаты анализа этнического адмикса.

После проведения анализа этно-популяционного адмикса мы получили следущие результаты, обсуждению которых будет посвящена следущая часть нашего исследования. Результаты представляют собой разбивку аллельных частот на 22 кластера, каждый из которых представляет собой гипотетическую предковую популяцию. Поскольку в цели данного небольшого исследования не входит подробный анализ всех популяций, мы ограничимся сравнительном анализом структуры (компонентов) беларусов c географически близкими популяциями, а также с теми популяциями, которые могли входить в исторические контакты с предками современных беларусов:

Рисунок 3. Результатыанализа ADMIXTUREK=22

У рассматриваемых здесь европейских популяций наиболее часто представлены следующие компоненты:

North-East-European,Atlantic_Mediterranean_Neolithic,North-European-Mesolithic, West-Asian, Samoedic, Near_East.

Разберем вкратце каждый из них. В ракурсе нашего исследования самым важным компонентом представляется – северо-восточно-европейский компонент North-East-European, он присутствует почти у всех европейцов, и в самой значительной степени — у балтов и славян: литовцы (81,9), латыши (79,5), беларусы (76,4), эстонцы (75,2), поляки (70,2), русские (67- 70,4), украинцы (62,1- 67,1), сорбы (65,9), карелы (60,2), вепсы (62,5), чехи (57,4), северные немцы (54,6), южные- 42,6, у британцев от 46 до 49, норвежцы- 48,1, шведы- (53,7).

Второй по значимости компонент — Atlantic_Mediterranean_Neolithic (юго-западно-европейский или просто западно-европейский неолитический компонент).[1]У восточноевропейцев он выражен в умеренной степени- чехи (27,8), поляки (18,4), украинцы ( от 17 до 21%), беларусы (13%), русские (от 11 у северных до 17,3 у южных), у коми (8,9 %), манси (8,8 %).

Третьй компонент – северо-европейский мезолитический компонент -North-European-Mesolithic[2]: cаамы (76,4 %), финны (от 30,1 до 37,3 %), вепсы (24,1), карелы (23,2), ижорцы (22, 7). Заметен этот компонент и у северных русских (10,5 %), норвежцев (9,8 %), шведов (7,8 %), эстонцев (7,1 %). У беларусов он практически отсутствует (1.1%).

Четвертый компонент – западно-азиатский (кавказский) West Asian[3]. На интересуемой нас территории этот компонент чаще встречается у казанских татар (9,9 %), южных немцев (8,4), украинцев (от 6,6 до 7,7 %), южных русских (6,2%). На западе высок процент у итальянцев (21,5 % у центральных итальянцев), французов (6,7 %), у беларусов (2.2%).

Пятый компонент — уральский Samoedic. Значительно присутствует у селькупов (68,1%), хантов (64,6), ненцы (37,1), манси (30,9 %-), удмурты (29,6), марийцы (27, 8), шорцы (22,0 %), башкиры (21,7%), чуваши и хакассы по 17,6 %, коми- 16,4 %, казанских татар (11,9 %). У западноевропейцев этот компонент практически не встречается, у русских (от 1,0% у центральных до 4,7 % у северных), у карел (1,6%), словаков (1,4%), западных украинцев (1,7 %), беларусы (0.5%).

Шестой компонент – ближневосточный Near_East[4]У южных немцев (3,5), украинцы (от 2,3 у восточных до 3,8 % у западных), чехи (3,0), беларусы (3,4), словаки (3,2), у русских от 1,0 до 1,5%, у литовцев- 1,4%, у поляков- 1,3 %.

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[1]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[1]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[1]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

Анализ разделяемых аутосомных сегментов между популяциями Северо-Восточной Европы.

С целью верификации результатов анализа главных компонентов генетического разнообразия я подготовил новую выборку популяций, которая включает в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.В ходе нового экспериментального теста в ходе статистической обработки общих по генетическому происхождению сегментов хромосом в составе выборки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, т.е размера той популяции которая участвовала в репродукции или обмене генами в некоем отдаленном временном промежутке. Собственно говоря, эффективная популяция – это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955). Новая программа Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение составило 22 000. Это близко к значениям Neрекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных ниже результатов, даже 22 000 для совокупности эффективного размера элементарных популяций – это более, чем достаточно.

Рисунок 4. Расположение популяций в пространстве 1 и 3 главных генетических компонентов

Изложим ниже некоторые закономерности размещения популяци

Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
Все литовцы (участники проекта + референсы из вышеупомянутой статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев
Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.
Ниже находится балканский кластер (румыны, болгары и часть венгров).
К этому кластеру примыкают турки и часть армян
В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов).
Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.
Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.
Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).
Левее этой группы популяций находится кластер ашкеназов.
Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.
Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.
Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)
Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей
Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).[5]

[2]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[3]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[4]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

[5]Такое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции.То есть все эти баски являются многократными родственниками между собой т.е., положение басков на графике есть следствие классического генного дрейфа, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества sharedDNAchunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.

Исходя из этого можно сделать вывод о том что баски эта экстремально-эндогенная популяция изолянтов, при этом генетическое разнообразие басков низко, т.к. размер эффективной популяции басков низок.

Этногеномика беларусов — часть II

Опубликовано 27 апреля, 201427 апреля, 2014 автором verenich

Анализ структуры аутосомного генофонда популяции беларусов: методы, технические параметры и предварительные замечания.

В целях сопоставимости выводов данных анализа с приведенными выше выводами профессиональных популяционных генетиков, мы использовали в своем исследовании референтную выборку беларусовиз ДНК-банка Института Генетики Беларуси в том же объеме, в котором она была задействована в исследовании группы ученных под руководством Бехара (модифицированная выборка Генбанка с кодом доступа:GSE21478)[1]. Наряду с референтной группой беларусов (обозначена как Belarusian), мы использовали данные лиц беларуского происхождения из нашего собственного проекта этно-популяционного анализа лиц, предки которых проживали на территории Беларуси минимум 100-150 лет(обозначено как Belarusian_V).

Для проведения сравнительного анализа генофонда популяций нам понадобился референтный набор популяций. Референтный набор популяций в этом калькуляторе был собран в программе PLINK методом “intersection&thinning” ( дословно “пересечением и истончением”) образцов из различных источников данных:HapMap 3(отфильтрованный набор данных КЕС, YRI, JPT, CHB),1000genomes, Rasmussen et al. (2010), HGDP (кураторская база данных Стэнфордского университета), Metspalu et al. (2011), Yunusbayev et al (2011),Chaubey et al. (2010)и т.д. Кроме того, мыотобралипроизвольным образом по 10 сэмплов (или максимальное количество доступных сэмплов в тех случаях, когда общее число сэмплов в популяции было меньше 10) от каждой европейской страны, представленной в панеле базе данныхPOPRES.Наконец, для того чтобы оценить степень корреляции между современным и древним генетическим разнообразием населения Европы, мытакже включилив выборку образцы древней ДНКЭци(Keller et al. (2012)) , образцы жителей шведского неолита Gök4, Ajv52, Ajv70, Ire8, STE7 (Skoglund et al. (2012))и 2 образца La Braña – останков мезолитических жителей Пиренейского полуострова (Sánchez-Quinto et al.(2012)).

Затем мыдобавили90 образцов – анонимизированных данных — участников моего проекта. После слияния вышеупомянутых наборов данных и истончения набора SNP с помощью особой команды PLINK, мыисключилиSNP-ы с менеечем 0.5% минорных аллелей. Послечего мыотфильтровал дубликаты, лиц с высоким уровнем общих по происхождению идентичных сегментов (IBD). В качестве критерия фильтрации были использованы расчеты IBD в Plink, где IBD представлена как средняя доля аллелей общих между двумя людьми по всем анализируемым локусам. Затем мыудалилииз выборки лиц с высоким коэффициентом предпологаемого родства, коэффициенты родства были вычислены в программном обеспеченииKing).

Для получения более стабильных результатов, мытакже отфильтровалисэмплы с более чем 3 стандартными отклонениями от средних данных по популяции. Поскольку коэффициент родства может быть надежно определен с помощью оценки HWE (ожидания, вытекающего из законаХарди-Вайнберга) между SNP-ами с той же базовой частотой аллелей, то SNP-ы с существенным отклонением (p < 5.5 x10⁻⁸) от ожидания Харди-Вайнберга были удалены из объединенного набора данных. После этого мывыделилите SNP-ы, которые присутствовали в чипах Illumina / Affymetrix, и затем произвелифильтрацию снипов на основе расчетов степени неравновесного сцепления (в этом эксперименте мыиспользовалтхромосомное ‘окно’ размером в 50 базовых пар, с шагом 5 базовых пар и пороговым значением уровня сцепления R ^ 2, равным 0,3).

По окончанию этой сложной последовательности операций, мыполучил окончательноый набора данных, который включал в себя 80 751 снипов, 2516 человек и 225 референсных популяций.

[1] http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE21478

О генетике древних жителей Сибири и многом другом

Опубликовано 19 ноября, 201320 ноября, 2013 автором verenich

Несмотря на данное самому себе обещание регулярно обновлять этот блог, по независящим от меня причинам мне пришлось на время отойти в сторону и заняться другими более приоритетными делами на работе и в университете (где, как я надеюсь, мне предстоит защищать докторскую). К несчастью, время вынужденного бездействия пришлось на тот период, когда были опубликованы ряд интересных научных работ как в области популяционной генетики (ряд исследований по Y-хросомомным и митохондриальным группам, а также аутосомам значительного числа народностей), биоинформатики (метод фильтрации ложнопозитивных IBD (идентичных по происхождению) сегментов генома) и других областях. C другой стороны, наблюдается расширение технологических методов и способов генотипирования, предлагаемых коммерческими фирмами конечным пользователям, которых интересуют генетические аспекты своего происхождения и медицинские риски. Все это заслуживает самого пристального внимания, удилить которого у меня сейчас никак не получается.
В силу ограниченности времени и ресурсов, я решил сфокусировать свое внимание на новости касающейся лично меня, вернее, результатов моих исследований. Речь идет о публикации одного из новых геномных блоггеров (кодовое имя — genetiker) под названием K = 26 admixture analysis of Amerindians and Mestizos. В своей пространной статье и спорных выводах автор приводит целую серию аргументов (от генетики до антропологии) в пользу одной из альтернативных версий, предпологающих европейское происхождение части америндов. Впрочем, важным мне представляется не аргументирование одной из возможных теорий происхождения индейцев и Y-гаплогруппы Q, а упоминание в этом контексте результатов моих исследований в проекте MDLP. Но перед тем как привести здесь цитату из статьи, следует вспомнить и о другом курьезном случае, связанном с обсуждением результатов исследования ДНК останков мальчика из доисторической стоянки палеолита в Мальте (Иркутская область) в блоге Германа Дзибеля. Г-н Дзибель в явной попытке показать свою вхожесть в круги наиболее посвященных популяционных генетиков, сообщил по секрету, что 1) Y-хромосома мальчика принадлежит к гаплогруппе R, а его митохондриальная группа — U; 2) аллельные компоненты генома мальчика условна разделяются на три составные части — западноевразийский, америндский и юго-центрально-азиатский. Как я отмечал ранее, в своем анонсе бета-версии своего этно-популяционного калькулятора MDLP World K27, расклад компонентов в генома древнего населения стоянки Мальта можно представить в виде следующих комбинаций современного населения:

[2,] “33.7% Brahui + 66.3% Udmurd” “21.9804″
[3,] “34.5% Makrani + 65.5% Udmurd” “22.357″
[4,] “34.3% Balochi + 65.7% Udmurd” “22.413″
[5,] “33.3% Sindhi + 66.7% Udmurd” “24.1198″
[6,] “36.5% Burusho + 63.5% Udmurd” “24.211″
[7,] “39.7% Pashtun + 60.3% Udmurd” “24.3389″
[8,] “34.3% Pathan + 65.7% Udmurd” “24.716″
[9,] “32.2% Pakistani + 67.8% Udmurd” “24.753″
[10,] “41.4% Tadjik + 58.6% Udmurd” “24.852

«The MDLP World-22 analysis produced a Cro-Magnon Nordic component (“North-European-Mesolithic”) and an Aryan Nordic component (“North-East-European”). The only people today in which the Cro-Magnon component is modal are Lapps. They have 76.4% of the Cro-Magnon component and 15.5% of the Aryan component.

One of the distinctive characteristics of Cro-Magnon cranial morphology is the short face, as can be seen in the drawing of a Cro-Magnon skull below.The same distinctive short face can be seen in these photographs of Lapps .»

Перевод » В произведенном в проекте MDLP анализе World-22 был выявлен характерный для кроманьонцев северный компонент (« компонент северо-европейского мезолита ») и арийскйй северный компонент (« северо-восточно-европейский компонент »). Единственная группа людей, которые сегодня наиболее близки к чистым кроманьонцам это саами-лопари. Они имеют 76,4% кроманьонского компонента и 15,5% арийского компонента.

Одной из отличительных характеристик черепной морфологии является короткое лицо, как это можно видеть в традиционных изображениях кроманьонских черепов. Tот же самый отличительный признак — короткие лицо — можно часто увидеть и на фотографиях лопарей ».

Инструменты и программы в генетической генеалогии

Опубликовано 20 августа, 201324 августа, 2013 автором verenich

Этой заметкой мы открываем новую серию записей, в которых мы будем давать краткое описание существующих инструментов генетического генеалога.

Поговорим в начале о самых простых и самых новых инструментах.

GUI-wrapper этно-популяционного калькулятора DIY Dodecad.

Ссылка на сайт разработчика.

Многие люди жалуются на проблемы с пониманием принципов работы с калькуляторами Dienekes Dodecad, особенно что касается обработки файлов в программной среде R. Благодаря неистощимой креативности программистов-любителей генетической генеалогии был написан wrapper (на основе платформы Microsoft.NET), позволяющий работать с калькуляторам без использования R.
Запустите исполняемое приложение exe и перетащите свой файл с генотипами от 23andme/FTDNA в окно приложения.

Отработав все циклы, программа выведет в окно приложения таблицу с процентным соотношением компонентов в исследуемом индивидуальном наборе генотипов.

Chromosomal Segment Painter

Программа для раскрашивания предковых хромосомных сегментов

http://blog.kittycooper.com/2013/08/chromosome-mapping-tool-released/

Концепт этот онлайнового приложения похож на стандартный инструмент Family Inheritance в 23andme, с той лишь разницой, что в отличие от 23andme, количество цветов в палитре индивидуализации сегментов гораздо выше, и в принципе неограниченно.

Эта программа требует на входе файла CSV наличие определенных заголовок, столбцов, содержания, перечисленных, с учетом регистра и в любом порядке. Первоначально этот инструмент был задуман для изображения общих по происхождению ДНК сегментов в геномах лиц, чье родство было заведомо известно, а не для поиска перекрывающихся ДНК-сегментов нескольких групп неизвестных родственников.

В принципе, программа будет работать в обеих случаях. Последняя версия программы будет работать с загруженными из DNAgedcom файлами CSV или с любым файлом CSV, содержающий отформартированный особым образом список людей и сегментов.

Рекомендуемый порядок работы с программой:
1) сначала нужно скачать CSV файл c координатами совпадающих сегментов с 23andme или FTDNA

2) осортировать в файле Excel крупные сегменты, и сохранить его как CSV,

3) затем запустить его в преобразователь, чтобы увидеть двадцатку ваших лучших совпадений.

Будущая версия будет иметь более широкую функциональность для отображения нескольких неизвестных родственников ДНК, которые разделяют перекрывающиеся сегменты ДНК с вами. Причем если в настоящее время отображаются только две линий, то в будующем таких линий будет больше.

Чтобы лучше понять концепцию отображения сегементов хромосмоы, прочитайте статью вики на сайте ISOGG про отображение.

Новая работа по геному неандертальцев и денисовцев.

Опубликовано 2 августа, 20132 августа, 2013 автором verenich

В июле этого года в журнале Gene появилась замечательная работа Neanderthal and Denisova genetic affinities with contemporary humans:
Introgression versus common ancestral polymorphisms/Robert K. Lowery, Gabriel Uribe , Eric B. Jimenez , Mark A. Weiss, Kristian J. Herrera,
Maria Regueiro, Rene J. Herrera. Gene . Особого внимания в этой работе заслуживает постановка вопроса в исследовании вопроса о схожести геномов денисовцев и неандертальцев с современными человеческими популяциями. В этой связи я позволю себе удовольствие процитировать краткий реферат этой статьи в изложении профессионального русскоязычного генетика Людмилы Р.:

Авторы решали вопрос — являются ли те 1-4% генетического сходства между
архаичными гоминидами и современными людьми результатом имевшего место смешивания или общего наследственного полиморфизма, который сохранился в человеческой популяции?
Авторы сравнили 5 млн.SNPs (финальный набор 37,758 SNPs) ныне живущих людей (n=827 из 11 популяций) и архаичных гоминид. Они разделили снипы на 4 группы, которые, логично предположить, происходили в разные отрезки времени –
NdDa –у неандертальцев –derived (мутировавшие) и ancestral (предковые) – у денисовцев,
NaDd — у неандертальцев – ancestral и derived у денисовцев,
NdDd — derived у неандертальцев и денисовцев,
NaDa – ancestral у неандертальцев и денисовцев.
Ancestral и derived снипы определялись по сравнению с шимпанзе.
Ранее предполагалось, что не-Африканские популяции содержат 1-4% генома, доставшегося им от неандертальцев, в отличие от популяций Sub-Saharan-Africans, за счет того, что было смешивание с неандертальцами после выхода человека из Африки. По этому сценарию, все потомки древней человеческой популяции должны содержать равное количество неандертальской ДНК. При этом отличия Sub-Saharan-Africans и non- Sub-Saharan-Africans приписываются gene flow от неандертальцев. Но то, что какой-то SNP у человека, найден у неандертальцев, но не найден у шимпанзе, не означает, что он появился у неандертальца. Такая мутация могла произойти от времени разделения линий шимпанзе и гоминид ( 4-7 млн.лет назад) до времени разделения ветвей человека и неандертальца (400-800 тыс.лет назад). Т.е. выявленные общие SNPs у человека и неандертальцев могут означать их общий предковый полиморфизм.
Авторы не отказываются от “выхода человека из Африки”, но предполагают, что региональные различия в Африке внутри общей предковой популяции были уже на ранних стадиях, и люди, которые мигрировали из Африки, могли представлять собой субпопуляции с более высоким сродством с неандертальцами или денисовцами.
11 популяций, которые участвовали в сравнении:
Abbreviation n Region Populations included
a 123 Sub-Saharan Africa Yoruba, Mandenka, San, Bantu,
Biaka Pygmy, Mbuti Pygmy
b 41 Northern Africa Ethiopians, Egypt, Morocco
c 68 Caucasus Georgia, Armenians, Lezgins, Adygei
e 124 Europe Lithuanian, Belorussian, Romanian,
Cypriot, Hungarian, Basque, Russian,
Spanish, Chuvash
m 33 Melanesian Papuan, Bouganville
n 31 Amerindian Pima, Piapoco, Curripaco, Mayan
s 67 South Central Asia Paniya, Kannadi, Sakilli, Kalash, Uygur,
Barusho, Balochi
r 35 SouthWest Asia Iranian, Uzbekistan
d 30 South East Asia Yizu, Cambodian, Lahu, Malayan
t 34 North East Asia Yakut, Mongolian, Daur
z 241 Near-East Jordan, Samaritan, Syrian, Druze,
Bedouin, Mozabite, Palestinian,
Turkey, Lebanon, Saudi, Yemen
В работе использовали методы популяционной генетики — Principal component (PC) и Structure analyses, D-statistics. Авторы делают выводы, что присутствие 3,6 % неандертальских генов в европейских геномах более похоже на полиморфизм нашего общего предка, чем на результат спаривания видов. % общих генов уменьшается с продвижением на восток в Евразию. Предполагаемая примесь у меланезийцев денисовских генов может также свидетельствовать об их общем предке.

Примечательно, что задолго до публикации этой интересной статьи, к аналогичным выводам пришли любители — антрополог Джон Хоукз (анализ интрогрессии геномов в выборке 1000genomes) и уже ставший живой легендой геномный блогер Диенек Понтикос ( пост о вопросе наличия неандертальский/денисовский адмикса) . Эти выводы противоречат широко растиражированному в масс-медиа выводу о том что «неандертальцы занимались сексом с предками современных людей, за исключением африканцев из региона Суб-Сахары». Этот фривольный медиа-мем возник на основании вольной интерпретации серьезного исследования коллектива под руководством Сванте Паабо. Позже появилось еще одно исследование «The Shaping of Modern Human Immune Systems by Multiregional Admixture with Archaic Human», в котором было показано, что вклад денисовца в евразийские гены оказался более скромным, однако его доля, как выяснилось, достигает 6% у современных меланезийцев и населения Новой Гвинеи. Соответственно, в средства массовой информация прошла очередная ‘сексуальная’ новость — оказывается, «cпособность успешно противостоять евразийским микробам мы обрели благодаря бракам с неандертальцами и денисовцами». Причем никто из журналистов, похоже не вникал в технические особенности этих работ, в которых ascertainment (установление) снипов производилось по субсахарской популяции бушменов.

Обсуждаемая здесь новая статья позволяет взглянуть на эту проблему под другим углом, c использованием новых методов попгенетики анализ адмикса, главных компонентов разнообразия и D-статистики. При интерпретации авторы обосновано отмечают ряд недостатков растиражированной в масс-медиа версии о сексе с архаичными гомининами:

Существуют два возможных сценария генезис снипов, которые обнаружены у неандертальцев, денисовских людей и современных людей: 1) они возникли у общих предков всех трех групп или 2) снипы могут являться следствием обмена генами между эти тремя группами.

Результаты D-статистических анализов демонстрируют более высокое присутствие NdDd (derived у неандертальцев и денисовцев) аллелей в Африке к югу от Сахары относительно всех евразийцев и населения Северной Африки. Конечно, сочетание этих двух сценариев может объяснить происхождение подмножества снипов в наборе NdDd подмножество. В модели европейской примеси (адмикса), у африканцев Субсахары должно быть меньше NdDd аллелей, чем у евразийцев и населения Северной Африки. Исходя из этого, высокий процент NdDd аллелей в субсахарских популяциях является решающим аргументом в пользу происхождения этих аллелей от древних гоминид, а не в пользу версии смешивания с архаичными людими. Кроме того, к югу от Сахары доля 3 из 5 NdDd компонентов адмикса , включает в себя примерно 30% от общего числа снипов в NdDd (1 компонент, 6 и 10 на рис. 10), что предполагает общее происхождение предков, а не трехстороннее смешивание для снипов, включенных в панель NdDd . Дополнительным аргументов в пользу сценария общего предкового полиморфизма является расположение снипов NdDd неандертальцев и Денисова NdDd в пространстве первого главного компонента разнообразия PC1 (рис. 5) рядом с субафриканскими популяциями. Этот результат является неожиданным, учитывая, что генотипы NdDd состоят только из деривативных (derived) аллелей. Интересно, что снипы NdDd демонстрируют сопоставимые характеристики D-статистики в популяциях меланезийцев и африканцев Субсахары. Обе группы — меланезийцы и субсахарские африканцы — генерируют более высокие показатели D-статистики на основании снипов NdDd основана D-статистики, — примерно на 0,7% выше, чем у выходцев из Северной Африки и на 1,5% выше, чем у жителей Северо-Восточной Азии (табл. 2;. Рис 11). Кроме того, если мы предположим, что смешивание между тремя группами (предками современных людей, неандертальцами и денисовцами) является важным источником снипов NdDd , то можно было бы ожидать более высокую степень генетического обмена между европейцами и меланезийцами, однако, во всех наших анализах Structure, ни один такой обмен не наблюдается.

Эксперимент

С целью проверки выводов этого исследования я провел дополнительное исследование этого вопроса с использованием большого количества современных популяций (более трехста популяций), большего числа снипов (примерно 300 000 снипов) и альтернативных методов — программы Admixture и MDS (мультидименсионального скалирования).

Результаты нашего анализа замечательно согласуются с результатами в обсуждаемой статье. Например, на графике PCA (в пространстве двух первых главных компонентов генетического разнообразия), неандертальцы и денисовцы оказываются в окружении трех субсахарских популяций — гумуз, ари из Восточной Африки и лемба из южной Африки.

Результаты Admixture также мало чем отличаются от результатов аналогичного анализа Structure в работе профессиональных попгенетиков. Снипы неандертальцев и денисовского человека (взятые из кураторского набора данных лаборатории Райха (SNP ascertainment panel)) образуют особый компонент вместе со снипами субсахарских популяций бушменов, коса и сандаве.

Denisova	Denisova	99,98%
Neander	Vindija	99,98%
San	HGDP00991	99,98%
San	HGDP01032	99,98%
San	HGDP01036	99,98%
San	SA36	99,98%
San	SA34	99,98%
San	SA52	99,98%
San	SA19	99,98%
San	HGDP00988	99,54%
San	HGDP01029	99,19%
San	HGDP00992	98,47%
San	SA53	97,53%
San	SA47	93,98%
San	SA41	93,28%
San	SA22	92,13%
San	SA32	91,10%
Neander	Clint	90,75%
San	SA48	89,58%
San	SA30	89,40%
San	SA55	88,93%
San	SA35	88,18%
San	SA61	85,45%
San	SA50	83,92%
San	SA29	81,14%
San	SA04	78,20%
San	SA37	74,40%
San	SA56	74,34%
San	SA38	74,17%
San	SA21	70,00%
San	SA06	69,85%
San	SA28	61,13%
San	SA03	57,39%
San	SA40	56,62%
San	SA49	54,89%
San	SA45	47,39%
San	SA58	43,01%
San	SA39	41,33%
San	SA59	34,80%
Bantu	HGDP01030	33,37%
Xhosa	XH4	26,85%
Xhosa	XH20	25,99%
Xhosa	XH14	24,78%
Bantu	HGDP00993	23,99%
Bantu	HGDP00994	23,02%
Bantu	HGDP01034	21,48%
San	SA25	21,28%
Bantu	HGDP01033	15,40%
Sandawe	HG43	14,20%
Sandawe	HG60	14,04%
Sandawe	HG40	13,77%
Sandawe	HG35	13,56%
Sandawe	HG44	13,51%
Sandawe	HG56	13,37%
Sandawe	HG46	13,26%
Sandawe	HG41	13,25%
Sandawe	HG66	13,18%
Sandawe	HG47	13,09%
Sandawe	HG49	12,93%
Sandawe	HG67	12,75%
Sandawe	HG55	12,63%
Sandawe	HG45	12,43%
Sandawe	HG63	12,14%
Aricultivator	Aricultivator11	12,13%
Ariblacksmith	Ariblacksmith2	12,13%
Sandawe	HG42	12,10%
Ariblacksmith	Ariblacksmith3	11,92%
Sandawe	HG38	11,85%
Ariblacksmith	Ariblacksmith7	11,83%
Sandawe	HG53	11,76%
Ariblacksmith	Ariblacksmith6	11,70%
Aricultivator	Aricultivator2	11,67%
AricultivatorIbd	Aricultivator23Ibd	11,54%
Ariblacksmith	Ariblacksmith10	11,49%
Ariblacksmith	Ariblacksmith8	11,48%
Aricultivator	Aricultivator17	11,46%
Aricultivator	Aricultivator4	11,42%
AricultivatorIbd	Aricultivator24Ibd	11,28%
Sandawe	HG48	11,22%
Aricultivator	Aricultivator15	11,18%

Более любопытные результаты получены при применении рекомендованного Диенеком Понтикосом метода Mclust, метода который позволяет за счет редуцирования числа измерений набора статистических данных избавиться от шума и проблем, связанных с различием в составе использованных выборок. Как видно, из приведенной ниже таблицы набор снипов неандертальцев и денисовцев кластеризуется не только с африканскими популяциями, но и с меланезийцами, и даже инбридинговыми популяциями индейцев из южной Америки, популяциями с хорошо заметным эффектом генного дрейфа

Neander	Clint	100,00%
Denisova	Denisova	100,00%
Neander	Vindija	100,00%


Papuan	HGDP00542	100,0000%
Papuan	HGDP00554	100,0000%
NAN_Melanesian	HGDP00662	100,0000%
NAN_Melanesian	HGDP01027	100,0000%
Papuan	HGDP00543	100,0000%
Papuan	HGDP00555	100,0000%
NAN_Melanesian	HGDP00663	100,0000%
Papuan	HGDP00544	100,0000%
Papuan	HGDP00556	100,0000%
NAN_Melanesian	HGDP00664	100,0000%
Papuan	HGDP00545	100,0000%
NAN_Melanesian	HGDP00490	100,0000%
NAN_Melanesian	HGDP00787	100,0000%
Papuan	HGDP00546	100,0000%
NAN_Melanesian	HGDP00491	100,0000%
NAN_Melanesian	HGDP00788	100,0000%
Papuan	HGDP00547	100,0000%
NAN_Melanesian	HGDP00655	100,0000%
NAN_Melanesian	HGDP00789	100,0000%
Papuan	HGDP00548	100,0000%
NAN_Melanesian	HGDP00656	100,0000%
NAN_Melanesian	HGDP00823	100,0000%
Pima	HGDP01048	100,0000%
Papuan	HGDP00541	100,0000%
Papuan	HGDP00553	100,0000%
NAN_Melanesian	HGDP00661	100,0000%
NAN_Melanesian	HGDP00979	100,0000%
Karitiana	HGDP00998	100,0000%
Karitiana	HGDP01011	100,0000%
Surui	HGDP00833	100,0000%
Surui	HGDP00846	100,0000%
Karitiana	HGDP01010	100,0000%
Surui	HGDP00832	100,0000%
Surui	HGDP00845	100,0000%
Papuan	HGDP00550	100,0000%
NAN_Melanesian	HGDP00658	100,0000%
NAN_Melanesian	HGDP00825	100,0000%
Karitiana	HGDP00999	100,0000%
Karitiana	HGDP01012	100,0000%
Surui	HGDP00834	100,0000%
Surui	HGDP00847	100,0000%
Papuan	HGDP00540	100,0000%
Papuan	HGDP00552	100,0000%
NAN_Melanesian	HGDP00978	100,0000%
Karitiana	HGDP01000	100,0000%
Karitiana	HGDP01013	100,0000%
Surui	HGDP00835	100,0000%
Surui	HGDP00848	100,0000%
Karitiana	HGDP01001	100,0000%
Karitiana	HGDP01014	100,0000%
Surui	HGDP00837	100,0000%
Surui	HGDP00849	100,0000%
Karitiana	HGDP01003	100,0000%
Karitiana	HGDP01015	100,0000%
Surui	HGDP00838	100,0000%
Surui	HGDP00850	100,0000%
Karitiana	HGDP01004	100,0000%
Karitiana	HGDP01016	100,0000%
Surui	HGDP00839	100,0000%
Surui	HGDP00851	100,0000%
Surui	HGDP00843	100,0000%
Pima	HGDP01050	100,0000%
Karitiana	HGDP01005	100,0000%
Karitiana	HGDP01017	100,0000%
Surui	HGDP00840	100,0000%
Surui	HGDP00852	100,0000%
Karitiana	HGDP01006	100,0000%
Karitiana	HGDP01018	100,0000%
Surui	HGDP00841	100,0000%
Karitiana	HGDP00996	100,0000%
Karitiana	HGDP01008	100,0000%
Papuan	HGDP00551	100,0000%
Karitiana	HGDP00995	100,0000%
Karitiana	HGDP01007	100,0000%
Karitiana	HGDP01019	100,0000%
Surui	HGDP00842	100,0000%
Karitiana	HGDP00997	100,0000%
Surui	HGDP00830	100,0000%
Surui	HGDP00844	100,0000%
NAN_Melanesian	HGDP00657	100,0000%
NAN_Melanesian	HGDP00824	100,0000%
Papuan	HGDP00549	100,0000%
Hadza	BAR01	100,0000%
Hadza	BAR04	100,0000%
Hadza	BAR07	100,0000%
Hadza	BAR08	100,0000%
Hadza	BAR10	100,0000%
Hadza	BAR11	100,0000%
Hadza	BAR13	100,0000%
Hadza	END08	100,0000%
Hadza	END09	100,0000%

Май 2024
Пн	Вт	Ср	Чт	Пт	Сб	Вс
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31