Константа скорости SNP мутаций Y-хромосомы по данным полного секвенирования

Появилась долгожданая статья  о «скоростях мутирования снипов в cпецифически мужской, нерекомбинантной части Y хромосомы», написанная в соавторстве коллективом разработчиков средств анализа NGS-данных полных сикенсов Y-хромосомы Yfull и двумя видными теоретиками ДНК-генеалогии. Хотя ни один из авторов не является профессиональным генетиком или биологом, уровень статьи, также как и описанный в статье метод вполне соответствуют профессиональным стандартом в этих областях.

Абстракт

Накопление данных тестирования BigY, FGC, с одной стороны, публикация сиквенсов Y-хромосомы древних образцов Anzick-1, Ust-Ishim, K14, с другой, дает возможность оценить среднюю скорость однонуклеотидных (SNP) мутаций.Авторы разработали собственный метод отбора истинных мутаций в современных и древних образцах и несколькими способами определили с высокой точностью константу скорости SNP мутаций

 

Метод отбора реальных мутаций, разрабтанный в настоящем исследовании, позволяет полностью устранить из анализа ложные варианты. Описание метода содержится в разделе «Материалы и методы». Метод основан на отборе X-degenerate последовательностей. Для этого авторами был применен критерий отбора однонуклеотидных полиморфизмов combBED, созданный на основе координат (в системе hg19) начала и конца участков Y-хромосомы, внутрь которых должны попадать отбираемые производные варианты. В Таблице 1 Приложения к настоящей статье указано расположение 857 «хороших» участков Y-хромосомы общей длиной 8 473 821 bp. Калибровка скорости SNP мутаций была проведена для этих участков, совокупность которых в дальнейшем будет именоваться «областью combBED».

 

Для калибровки средней скорости SNP мутаций были использованы данные полного секвенирования Y-хромосомы приватных образцов, сделанные в коммерческих лабораториях FTDNA и Full Genome Corp. Образцы были предоставлены группой YFull с соблюдением требований конфиденциальности персональных данных, на основании разрешений частных лиц об использовании их данных в научных исследованиях.
Данные об Y-хромосоме древних образцов были взяты из открытых источников научных статей: Anzick-1 — Rasmussen et al. (2014), Усть-Ишимский человек — Fu et al. (2014), К14 — Seguin-Orlando et al. (2014). Разработанный авторами настоящей работы метод отбора позволяет с высокой эффек-
тивностью исключать из рассмотрения ложные варианты с производными аллелями. Отбор кандидатур для выявления истинных му-
таций происходил в следующей последовательности критериев:

  1. Критерий Reg. Различные варианты производных, то есть отличающихся от референсной последовательности аллелей, выявлялись по BAM файлам. Анализируемые участки нуклеотидных последовательностей Y-хромосомы имеют общую длину 13-15 Mbp для теста BigY и около 23 Mbp для теста FGC. Кратность чтения (покрытие) одного сайта – от 1Х до 8000Х. Среднее покрытие коммерческих образцов – около 60Х. Из этой совокупности кандидатур отбирались только такие, координаты которых попадали внутрь участков, ограниченных областью combBED. Область combBED была сконструирована авторами для отбора X-degenerate участков. Границы combBED участков образованы путем взаимного пересечения BED файла из работы Poznik et al. (2013) общей длиной 10.45 Mbp и обобщенного BED файла BigY (11.38 Mbp), опубликованного в BigY White Paper (2014). В результате образовались 857 непрерывных участков Y-хромосомы общей длиной 8 473 821 bp.

2.Критерий Indel. Исключались варианты инсерций и делеций (инделов), а также кратных нуклеотидных мутаций (более одной по-зиции с производными аллелями, MNP).

3.Критерий Locs. В некоторых случаях одни и те же кандидатуры выявляются в образцах из разных гаплогрупп, из разных субкладов. Одна из причин – отличие аллеля референсной последовательности, составленной в основном по данным гаплогрупп R1b и G, от фактически наблюдаемого пред-
кового аллеля. Другая причина – ошибки маппирования. Эмпирическим путем было выявлено, что в случае, если один и тот же вариант был обнаружен не менее, чем в шести локализациях, то соответствующая кандидатура однонуклеотидного полиморфизма может быть исключена из рассмотрения по указанным выше причинам. Под локализацией понимается группа образцов из базы данных YFull (2900 образцов на февраль 2015 года), принадлежащих одному субкладу и имеющих производный аллель изучаемой кандидатуры.
Этот критерий достаточно мягкий, но весьма эффективный.
4. Критерий Reads. Исключаются кандидатуры с общим числом прочтений менее трех раз, т.е. с одним или двумя ридами.
5. Критерий Qual. Качество определяется стандартным образом, как средневзвешенное от показателя качества прочтений в одной и той же позиции, где правильные значения берутся с плюсом, а ошибочные значения с минусом. Отбор проходили кандидатуры с качеством 90% и более, кандидатуры с каче- ством менее 90% отклонялись.
6. Критерий Post mortal. Применяется только в отношении древних образцов: исключаются постмортальные повреждения в ДНК, выражающиеся в замене следующих пар оснований: C→T и G→A (Briggs et al.,2007). Для современных образцов критерий
не применяется.

  1. Критерий Single SNP. Из-за технических особенностей применяемой программы обработки часть кандидатур с двойной мутацией (Double Nucleotide Polymorphisms) проходила критерий Indel. Программа интерпретировала двукратный нуклеотидный полиморфизм как две SNP мутации в соседних позициях. Этот вспомогательный критерий позволяет отклонять оба варианта.
  2. Критерий Trash. Исключаются кандидатуры, вызывающие подозрение в том, что это ошибка выравнивания или чтения. В основ-
    ном, это мутации в палиндромных участках и участках, имеющих копии на других участках Y-хромосомы.

Результаты

Разработанный авторами метод отбора кандидатур в снипы из BAM файлов индивидуальных образцов позволяет с высокой эффективностью отбирать реальные SNP мутации и отклонять различные ложные варианты.
Использование четырех независимых калибровок, ранжирование их по степени достоверности и надежности позволили получить модельно независимую оценку константы скорости SNP мутаций в год на п.н.о., 95% CI:

0.82*10-9  (95%: 0.7-0.94 * 10-9)

Произведенная оценка скорости мутаций совместно с накопленной в группе YFull базой данных коммерческих образцов BigY и FGC позволяют оценить время заселения Америки человеком в 14.8 тыс. лет назад, Австралии – в 49.2 тыс. лет назад.