Мое интервью в подкасте Eхидно и Утконос

В 25 выпуске популярного интернет-подкаста Ехидно и Утконос я участвовал в обсуждении интересующих широкую публику аспектов генетики и генетического тестирования

 

Первые палеогеномы человека из Ирландии

Известный ресурс Генофонд.ру опубликовал неплохой русскоязычный разбор новой статьи, в которой приведены результаты изучения древних ирландских палеогеномов. Я ограничусь несколькими комментариями, которые касаются непосредственно анализа аутосомной части этих палеогеномов.

Анализ главных компонент (РСА) четырех древних ирландских геномов в сравнении с 78 другими древними геномами и 677 геномами современных популяций показал, что неолитический ирландский геном (Ballynahatty) попал в кластер с другими неолитическими европейскими геномами, а геномы бронзового века (Irish Bronze Age, Rathlin, 3,2,1) – в кластер геномов бронзового века Центральной и Северной Европы.

Анализ главных компонент древних ирландских геномов – неолитического (Ballynahatty) и бронзового века (Irish Bronze Age, Rathlin, 3,2,1), 78 других древних геномов и 677 геномов современных популяций Европы (на основе 354 212 SNP-маркеров).

Анализ главных компонент древних ирландских геномов – неолитического (Ballynahatty) и бронзового века (Irish Bronze Age, Rathlin, 3,2,1), 78 других древних геномов и 677 геномов современных популяций Европы (на основе 354 212 SNP-маркеров).

Анализ по методу ADMIXTURE (при заданном числе предковых популяций К=11) во всех древних геномах Ирландии выявляет большую долю компонента охотников-собирателей (красный цвет) и также большую долю компонента неолитических земледельцев (оранжевый цвет). В геномах бронзового века появляется и степной компонент (голубой цвет). Три ирландских генома бронзового века по предковому спектру сходны с одновременными им континентальными геномами.

Спектр предковых компонентов ADMIXTURE (при К=11). Ирландские геномы (неолитический и бронзового века) обозначены зелеными метками.

Спектр предковых компонентов ADMIXTURE (при К=11).
Ирландские геномы (неолитический и бронзового века) обозначены зелеными метками.

Проанализировав геномы древних жителей Ирландии, ученые пришли к выводу, что предки современных ирландцев происходили из Восточной и Южной Европы.

Генетики из дублинского Тринити-колледжа вместе с археологами университета Квинс в Белфасте исследовали скелет крестьянки, относящийся к периоду неолита.Возраст хорошо сохранившихся останков оценивается в 5200 лет. Захоронение было обнаружено в 1855 году неподалеку от Белфаста. По словам ученых, геном женщины имеет много общего с геномом современных жителей Испании и Сардинии.
Предки крестьянки, в свою очередь, как полагают исследователи, пришли в Европу с Ближнего Востока, где в свое время появилось первое земледелие. Помимо этого, в распоряжении команды ученых оказались останки троих мужчин с острова Ратлин, живших в бронзовом веке примерно 4200 лет назад. Геном этих мужчин отличался от генома крестьянки – треть структуры ДНК свидетельствует о том, что их предки происходили из понтийских степей Причерноморья, расположенных на территории современных России и Украины.

Я решил проверить их выводы и самостоятельно собрал описанные 4 генома из имеющихся в открытом доступе fastq-файлов  (ENA — Европейский Архив Нуклеотидов), а затем проанализировал геномы в своей новой модели этно-популяционного калькулятора.
Итак, для начала геном неолитической «фермерши» из Белфата. Результаты согласуются с выводами ирландских генетиков. Примерно 45% генома носит неолитическое происхождение (фермеры с Ближнего Востока), 17% — от кавказских охотников собирателей времен палеолита, и 16% от охотников-собирателей западной Европы. Что самое важное — так это практически полное отсутствие степного компонента EHG (восточных охотников-собирателей), 1.14 процентов скорее всего появилось либо в результате ошибок определения генотипов при сборке генома, либо в результате посмертных изменений ДНК.

Neolithic 44.65
Caucasian-HG 17.09
WHG-UHG 16.17
Subsaharian 5.82
NorthAfrican 5.43
Ancestor 3.2
SouthEastAsian 2.92
EastAfrican 1.78
EHG 1.14
Australian 0.95
NearEast 0.43
Siberian 0.34
Amerindian 0.09
Arctic 0.01
ANI 0
Oceanic 0

Далее останки первого мужчины RM217 из захоронений бронзового века на острове Ратлин. Степной EHG у него уже присутствует в значимых долях, и вместе с компонентом западноевропейских охотников-собирателей составляет примерно треть генома, а вместе с родственным североиндийским компонентом ANI — почти половину генома. Caucasian-HG остался примерно таким же, как и у неолитической крестьянки, а главное отличие — в уменьшении неолитического компонента.

WHG-UHG 27.32
Neolithic 18.3
EHG 17.16
Caucasian-HG 13.16
ANI 7.98
Subsaharian 5.56
Ancestor 4.16
Amerindian 3.38
Oceanic 1.28
Siberian 0.86
EastAfrican 0.8
Australian 0.03
Arctic 0
NearEast 0
NorthAfrican 0
SouthEastAsian 0

Результаты двух других мужчин RSK1 и RSK2 с того же Ратлина характеризуются схожим распределением компонентов — с той лишь разницей, что из-за худшего качества прочтения этоих геномов, амплитуда частот более резкая (результат «зашумленности» прочтений геномов).

WHG-UHG 28.82
Neolithic 24.7
EHG 18.55
Caucasian-HG 13.45
Amerindian 3.48
ANI 3.2
Subsaharian 2.22
Siberian 2.03
NearEast 1.36
Ancestor 0.77
Australian 0.73
Oceanic 0.64
SouthEastAsian 0.05
Arctic 0
EastAfrican 0
NorthAfrican 0

Эпигенетика Y-хромосомы человека

О генетике (в том числе и о популяционной генетике)  Y-хромосомы написано немало статей — теперь пришла очередь эпигенетики. Полгода тому назад я постулировал наличие в Y-хромосоме гаплогруппно-специфичных сайтов метиляции, влияющих на экспрессию специфически мужских генов. Данная гипотеза позволила мне решить старую диллему — с одной стороны малая генетическая информативность Y-хромосомы (мало генов), c другой стороны слабая корреляция между поведением и гаплогруппой. И вот пару дней назад, китайские исследователи опубликовали статью на эту тему. Перефразируя расхожое, можно сказать: «О чем бы вы не подумали, китайцы уже написали про это статью».

Что поделать — таков закон больших чисел.

«According to the human reference sequence (hg19), the tested sites on the Y chromosome were distributed on 11 regions: TSS1500 (-1500 bp from the nearest TSS), TSS200 (-200 bp from the nearest TSS), 5’UTR, EXON1 (1st exon of genes), 3’UTR, Gene Body, CpG islands, NSHORE(-2 kb region flanking the CpG island), SSHORE (+2 kb region flanking the CpG island),NSHELF (-4 to -2 kb region flanking the CpG island), and SSHELF (+2 to +4 kb region flank-ing the CpG island) (S3 Table). The mean methylation level of all tested sites within eachregion was taken as this region’s methylation index.We found that the variation in gene body region was greater than in other regions by calcu-lating the standard deviation of each region among all samples (Fig 5A). Further, we assessed the overall methylation pattern of 53 tested genes. Result showed that the methylation patternof two genes was haplogroup O3a2b-specific (LOC100101116,TTTY1)(Fig 5C). However, wedid not find such a haplogroup-specific variation on the other 10 functional regions (Fig 5Band 5D,S5 Fig).Fig 5. The methylation pattern of functional regions on the Y chromosome.A) Box plots showing thestandard deviation of methylation level within each region. The median line indicates the average methylationlevel, the edges represent the 25th/75th percentile, and the whiskers represent the 2.5th/97.5th percentile. B−D). Heat map showing the methylation levels of 38 detected TSS1500 regions (B), 53 gene body regions(C), and 55 CpG island regions (D)»

 

Fig 5. The methylation pattern of functional regions on the Y chromosome. A) Box plots showing the standard deviation of methylation level within each region. The median line indicates the average methylation level, the edges represent the 25th/75th percentile, and the whiskers represent the 2.5th/97.5th percentile. B − D). Heat map showing the methylation levels of 38 detected TSS1500 regions (B), 53 gene body regions (C), and 55 CpG island regions (D). 

Я пролистал статью китайских генетиков про консервативность эпигенетичских паттернов на Y-хромосоме. К сожалению, авторы ограничиваются только важными для юго-восточной Азии ветвями гаплогруппы O2 и O3 (особо выделяются когорты потомков разных императоров), а интересно было бы сравнить эпигенетические паттерны у носителей этой гаплогруппы с таковыми у других евразийских, американских и африканских гаплогрупп и изучить животрепещущие вопросы:

  1.  Дает ли преимущество разница в профилях метиляции ДНК Y-хромосом?
  2. Если дает, то какого рода c учетом мужской специфики? Возможные варианты: разница в фертильности спермы, отличия в уровне выработки тестостерона — и влияние на сопутствующие мужские признаки телесной конституции и поведения?
  3.  Помогает ли понимание разницы метилирования ДНК мужской половой хромосоомы объяснить разницу в физических, гендерных, функциональных, эмоциональных и интеллектуальных чертах мужчин разных гаплогрупп?

Вот о чем надо было рассуждать, а не о эволюционной консервативности метиляции Y-хромосомы. Это и так понятно любому думающему человеку.

Программное обеспечение для работы с деградировавшей ДНК

Как известно, в последних работах опубликованных в 2015 году и посвященных анализу палеогеномов (древних геномов ископаемых останков) человека, авторы представили новую программу mapDamage2, созданную исследовательской группой Орландо в лаборатории Датского Института Геогенетики (Копенгаген).

Что это за программа и чем оправдано использование этой программы в лучших практиках (best practices) анализа палеогеномов?

mapDamage 2 представляет собой вычислительный фреймворк написанный на языках Python и R. Этот фреймворк позволяет отслеживать и измерять степень посмертного повреждения ДНК в сиквенсах древних ДНК в ридах, полученных на платформах секвенирования нового поколения. Как общеизвестно, обычно после смерти организма ДНК расщепляется эндогенными нуклеазами. Этого не происходит, если нуклеазы оказываются быстро разрушены или инактивированы, например, вследствие обезвоживания останков, низких температур или большой концентрации соли. Даже в этом случае ДНК со временем повреждается в результате случайного гидролиза или окисления. К гидролитическим повреждениям относятся разрушение фосфатного остова цепи, депуринизация (соответствующая позиция остается без азотистого основания) и дезаминирование.
Чаще всего происходит дезаминирование цитозина в урацил, метилированный цитозин (5-метил-цитозин) дезаминируется в тимин; реже аденин превращается в гипоксантин, который комплементарен цитозину, а не тимину, что ведет к неправильному прочтению при секвенировании. То есть в наших ридах за счет подобных «ложно-позитивных» срабатываний, в нормальном распределении снип-мутаций изменится отношение транзиций C>T и G>A к трансверсиям. Транзиция — одно пуриновое основание замещается на другое (аденин на гуанин или наоборот), либо происходит аналогичная замена пиримидиновых оснований (тимин с цитозином).

Таким образом, предполагаемые дезаминированные позиции легко определить с помощью относительного простого алгоритма вычисления байесовских апостериорных вероятностей.

Сразу возникает вопрос: существуют ли методы уменьшения количества ложно-позитивных ридов, и таким образом повысить степень достоверности определения настоящих нуклеотидов в каждой из рассматриваемых базовых пар генома. В пакете mapDamage эта задача решается путем рекалибровки (снижения) значения так называемого PHRED score — меры «качества» прочитанной последовательности — в предполагаемых дезаминированных ридах.

Я решил проверить работоспособность программы на новых ирландских палеогеномах, — но к сожалению, возник ряд технических проблем (The Bayesian statistics program failed to finish), которые будет необходимо решить. В первом приближении кажется, что проблема вызвана несовместимостью пакетa ggplot2 и новой версии R, но я не уверен в этом.

Started with the command: mapDamage -i RSK2-A2.realign.bam -r ../hg19_new.fa —rescale
additional results_RSK2-A2.realign/Length_plot.pdf generated
Performing Bayesian estimates
Starting grid search, starting from random values
Adjusting the proposal variance iteration 1
Adjusting the proposal variance iteration 2
Adjusting the proposal variance iteration 3
Adjusting the proposal variance iteration 4
Adjusting the proposal variance iteration 5
Adjusting the proposal variance iteration 6
Adjusting the proposal variance iteration 7
Adjusting the proposal variance iteration 8
Adjusting the proposal variance iteration 9
Adjusting the proposal variance iteration 10
Done burning, starting the iterations
Done with the iterations, finishing up
Writing and plotting to files
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
The following from values were not present in x: col, color, pch, cex, lty, lwd, srt, adj, bg, fg, min, max
Error in postPredCheck(dat, mcmcOut) : could not find function «ggtitle»
Calls: source -> withVisible -> eval -> eval -> postPredCheck
5: postPredCheck(dat, mcmcOut)
4: eval(expr, envir, enclos)
3: eval(ei, envir)
2: withVisible(eval(ei, envir))
1: source(paste(path_to_mapDamage_stats, «main.R», sep = «»))
The Bayesian statistics program failed to finish

Новая книга Олега Балановского

Присоединяюсь к поздравлениям Олега Балановского по случаю выпуска долгожданной  и важной книги

обложка

Балановский О.П. Генофонд Европы. М.: Тов-во научн. изданий КМК.2015. 354 с.

Монография посвящена генофонду народонаселения Европы – исследованию его пространственной изменчивости и его истории. В книге проанализированы как собственные данные автора, так и литературные: созданные базы данных включили более 130 тысяч образцов по мтДНК и более 140 тысяч – по Y-хромосоме. Параллельное изучение генофонда Европы по маркерам Y-хромосомы, мтДНК и полногеномным панелям обеспечило синтез результатов этих трех генетических систем. Такой синтез актуален не только для генетиков, но и для смежных наук – антропологии, археологии, лингвистики, истории, все активнее включающих данные генетики в комплексные исследования этногенеза. В книге рассмотрены и данные по древней ДНК, позволяющие – эпоха за эпохой – проследить историю генофонда Европы. А совместный анализ количественных лингвистических и генетических данных выявляет непростую связь языков и генофондов. Особую актуальность для российской науки имеют исследования славянских и северокавказских народов, которым посвящены отдельные главы.

 

Книга Животовского о Лысенко

Полистал я скандальную книгу Льва Животовского о Тромфиме Лысенко, вызвавшую бурную негативную реакцию в русскоязычных научных и околонаучных кругах. Честно говоря, в книге уделяется большое внимание вопросам научного вклада Лысенко в далекие от меня (и поэтому не столь интересные области знания) — ботанику, агрономию, cелекционирование и сельское хозяйство. Я не являюсь специалистом не в одной из перечисленных областей, поэтому вряд ли могу смогу озвучить критические замечания в адрес лысенковских представлений о «яровизации» и «фотопериодизме». Достаточно того, что с крайне резкой и порой даже жесткой критикой освещения этих вопросов в книге Животовского выступил целый ряд профессиональных специалистов в области ботанки и молекулярной генетики растений.
Как всем известно, Животовский довольно известен в популяционной генетике своими статьями о микросателлитной изменчивости. Именно он разработал (или точнее развил) аппарат датировки возраста гаплогрупп и расчитал скорости мутации для STR-гаплотипов, и эти скорости долгое время — вплоть до недавнего времени — использовались в качестве стандартных скоростей (молекулярных часов) в статьях ведущих специалистов в области Y-хромосомной изменчивости. По этой причине, Лев Животовский (в качестве «идеального» популяционного генетика) был — и остается — любимым объектом пасквильных сочинений и наветов псевдоученого Клесова. Сами же генетики более сдержаны в оценках уровня познаний Животовского в области классической генетике, признавая при этом значимость разработанного Животовским математико-статистического аппарата для решения определенных задач популяционной генетики. Поэтому для многих книга о Лысенко оказалась неожиданным сюрпризом. Известный российский биоинформатик Гельфанд заявил: «Он не сказал прямой лжи, не сказал и правды – это была полуправда, то есть наихудшая ложь» (Леонид Соловьев «Очарованный принц», второй роман про Ходжу Насреддина). «Книжка Л.А. – пример этой полуправды. … Лев Анатольевич искажает правду, путем применения риторических приемов, в частности, черри-пикинга. Цитаты, которые Л.А. использовал в лекции, очень хорошо выведены из контекста». Другие участники недавней презентации книги были столь же категоричны в своих суждениях.

Было бы ошибочно считать, что книга Животовского о Лысенко это биография. Скорее, она написана в стиле апологии. Автор ставил перед собой задачу реабилитации Лысенко по всем фронтам — как ученого-теоретика, так и ученого-практика. Однако лично меня он не убедил — возможно потому, что я изначально был враждебно настроен к фигуре Лысенко, который для меня является архетипическим образцом псевдоученого. Любопытно, что Лев Анатольевич в своей книге очень поверхностно (несмотря на то что этому вопросу посвящен целый раздел книги — целых 5 страниц! )) ) затрагивает важный аспект деятельности Лысенко как идеолога (а на мой взгляд в его деятельности политико-идеологический аспект является самым главным). Хорошо известно, что «мичуринец» Лысенко (наряду с «биологом» Презентом, а также «марксистскими языковедами» Марром и Мещериновым) входил в число тех, кто был обласкан (по-крайней мере, некоторое время) сталинской властью, и имел значительный административный ресурс в виде репрессивно-карательного аппарата для расправы с инакомыслящими. К сожалению, Лев Анатольевич предпочел осторожно обойти вопрос о влиянии идеологии на научную деятельность Лысенко.

Что касается меня, то меня прежде всего интересовал вопрос о том, можно ли считать Лысенко одним из предтеч триумфа эпигенетики, который мы наблюдаем в наше время. В случае положительного ответа на этот вопрос, можно было бы задаться вопросом — насколько глубоко он понимал и предвидел важность эпигенетики?
Сейчас некоторые деятели заявляют о гениальности Лысенко, открывшего механизмы эпигенетического наследования. При этом лысенковщина объявляется новейшим этапом развития ламаркизма — т.н. неоламаркизма. Якобы Лысенко открыл то, что «запрещалось» генетической теорией 1930–40-х, а именно: прямое влияние среды на проявление гена и наследование этих измене-
ний.

К сожалению, в книге отсутствует какой-либо ответ на эти вопросы. Да, слово «эпигенетика» упоминается в книге примерно десяток раз. В одном месте академик ссылается на работу американских генетиков 1993 года, в которой особенности метода «яровизации» объясняется метилированием генов растений. Затем Лев Животовскиий ссылается на статью 2006 года: «Эпигенетика доказывает, что мы в определенной степени ответственны за целостность нашего генома. Раньше мы думали, что только гены предопределяют то, кем мы станем. Сейчас же мы понимаем: всё, что мы делаем — все, что едим или курим, — может изменить проявление наших генов и генов следующих поколений». К сожалению, Животовский не приводит при этом ссылок на статьи Лысенко, сравнение с которыми позволило бы сделать вывод о том, насколько Лысенко был в действительности близок к подобным представлениям. На стр. 63, Животовский пишет о том, что Лысенко разделял взгляды Ламарка. Однако при этом, опять-таки, не приводиться ссылки на те фрагменты работ Лысенко, в которых Лысенко излагает свое понимание сути ламаркизма. Да, разумеется можно найти некоторые общие места в мичуринской агробиологии (лысенковщине), ламаркизме, эпигенетике. Однако многие догматы лысенковщине являются сугубо специфичными: например, cчиталось путём сознательного изменения условий жизни — «воспитания» — растений и животных человек может получать направленные изменения их наследуемых признаков. Этот идеологически важный момент (созвучный сталинистской идеи «воспитания советского человека») отсутствует в ламаркизме, также как и современных представлениях о эпигенетике.

Строго говоря, эпигенетика не сводится только к одному метилированию (существуют другие модификации прионов, гистонов, а также например, геномный импринтинг). Эпигенетическое влияние работает посредством временного приглушения определённых генов, но не их модифицирования. Углеводородные соединения, приводимые в действие группой метилов, могут подавлять проявление генов. Гистоны сужают и ослабляют ДНК, изменяя их доступность. Бесполезные фенотипы или физические характеристики могут быть временно подавлены, но не так, как предполагал Лысенко. Эпигенетические метки обновляются в следующем поколении, хотя как показывают последние статьи о влиянии голода на экспрессию генов у потомства, иногда эти метки могут переходить и к более отдаленному потомству. К сожалению, массовые исследования эпигенетических факторов начались сравнительно недавно, а возраст выборок у людей (плохих модельных организмов) ограничен 2-3, максимум 4 поколениями. Я думаю, что дальнейшее развитие научного знания в этой области покажет, что внешнее сходство лысенковщины и эпигенетики носит случайный характер.