Константа скорости SNP мутаций Y-хромосомы по данным полного секвенирования

Появилась долгожданая статья  о «скоростях мутирования снипов в cпецифически мужской, нерекомбинантной части Y хромосомы», написанная в соавторстве коллективом разработчиков средств анализа NGS-данных полных сикенсов Y-хромосомы Yfull и двумя видными теоретиками ДНК-генеалогии. Хотя ни один из авторов не является профессиональным генетиком или биологом, уровень статьи, также как и описанный в статье метод вполне соответствуют профессиональным стандартом в этих областях.

Абстракт

Накопление данных тестирования BigY, FGC, с одной стороны, публикация сиквенсов Y-хромосомы древних образцов Anzick-1, Ust-Ishim, K14, с другой, дает возможность оценить среднюю скорость однонуклеотидных (SNP) мутаций.Авторы разработали собственный метод отбора истинных мутаций в современных и древних образцах и несколькими способами определили с высокой точностью константу скорости SNP мутаций

 

Метод отбора реальных мутаций, разрабтанный в настоящем исследовании, позволяет полностью устранить из анализа ложные варианты. Описание метода содержится в разделе «Материалы и методы». Метод основан на отборе X-degenerate последовательностей. Для этого авторами был применен критерий отбора однонуклеотидных полиморфизмов combBED, созданный на основе координат (в системе hg19) начала и конца участков Y-хромосомы, внутрь которых должны попадать отбираемые производные варианты. В Таблице 1 Приложения к настоящей статье указано расположение 857 «хороших» участков Y-хромосомы общей длиной 8 473 821 bp. Калибровка скорости SNP мутаций была проведена для этих участков, совокупность которых в дальнейшем будет именоваться «областью combBED».

 

Для калибровки средней скорости SNP мутаций были использованы данные полного секвенирования Y-хромосомы приватных образцов, сделанные в коммерческих лабораториях FTDNA и Full Genome Corp. Образцы были предоставлены группой YFull с соблюдением требований конфиденциальности персональных данных, на основании разрешений частных лиц об использовании их данных в научных исследованиях.
Данные об Y-хромосоме древних образцов были взяты из открытых источников научных статей: Anzick-1 — Rasmussen et al. (2014), Усть-Ишимский человек — Fu et al. (2014), К14 — Seguin-Orlando et al. (2014). Разработанный авторами настоящей работы метод отбора позволяет с высокой эффек-
тивностью исключать из рассмотрения ложные варианты с производными аллелями. Отбор кандидатур для выявления истинных му-
таций происходил в следующей последовательности критериев:

  1. Критерий Reg. Различные варианты производных, то есть отличающихся от референсной последовательности аллелей, выявлялись по BAM файлам. Анализируемые участки нуклеотидных последовательностей Y-хромосомы имеют общую длину 13-15 Mbp для теста BigY и около 23 Mbp для теста FGC. Кратность чтения (покрытие) одного сайта – от 1Х до 8000Х. Среднее покрытие коммерческих образцов – около 60Х. Из этой совокупности кандидатур отбирались только такие, координаты которых попадали внутрь участков, ограниченных областью combBED. Область combBED была сконструирована авторами для отбора X-degenerate участков. Границы combBED участков образованы путем взаимного пересечения BED файла из работы Poznik et al. (2013) общей длиной 10.45 Mbp и обобщенного BED файла BigY (11.38 Mbp), опубликованного в BigY White Paper (2014). В результате образовались 857 непрерывных участков Y-хромосомы общей длиной 8 473 821 bp.

2.Критерий Indel. Исключались варианты инсерций и делеций (инделов), а также кратных нуклеотидных мутаций (более одной по-зиции с производными аллелями, MNP).

3.Критерий Locs. В некоторых случаях одни и те же кандидатуры выявляются в образцах из разных гаплогрупп, из разных субкладов. Одна из причин – отличие аллеля референсной последовательности, составленной в основном по данным гаплогрупп R1b и G, от фактически наблюдаемого пред-
кового аллеля. Другая причина – ошибки маппирования. Эмпирическим путем было выявлено, что в случае, если один и тот же вариант был обнаружен не менее, чем в шести локализациях, то соответствующая кандидатура однонуклеотидного полиморфизма может быть исключена из рассмотрения по указанным выше причинам. Под локализацией понимается группа образцов из базы данных YFull (2900 образцов на февраль 2015 года), принадлежащих одному субкладу и имеющих производный аллель изучаемой кандидатуры.
Этот критерий достаточно мягкий, но весьма эффективный.
4. Критерий Reads. Исключаются кандидатуры с общим числом прочтений менее трех раз, т.е. с одним или двумя ридами.
5. Критерий Qual. Качество определяется стандартным образом, как средневзвешенное от показателя качества прочтений в одной и той же позиции, где правильные значения берутся с плюсом, а ошибочные значения с минусом. Отбор проходили кандидатуры с качеством 90% и более, кандидатуры с каче- ством менее 90% отклонялись.
6. Критерий Post mortal. Применяется только в отношении древних образцов: исключаются постмортальные повреждения в ДНК, выражающиеся в замене следующих пар оснований: C→T и G→A (Briggs et al.,2007). Для современных образцов критерий
не применяется.

  1. Критерий Single SNP. Из-за технических особенностей применяемой программы обработки часть кандидатур с двойной мутацией (Double Nucleotide Polymorphisms) проходила критерий Indel. Программа интерпретировала двукратный нуклеотидный полиморфизм как две SNP мутации в соседних позициях. Этот вспомогательный критерий позволяет отклонять оба варианта.
  2. Критерий Trash. Исключаются кандидатуры, вызывающие подозрение в том, что это ошибка выравнивания или чтения. В основ-
    ном, это мутации в палиндромных участках и участках, имеющих копии на других участках Y-хромосомы.

Результаты

Разработанный авторами метод отбора кандидатур в снипы из BAM файлов индивидуальных образцов позволяет с высокой эффективностью отбирать реальные SNP мутации и отклонять различные ложные варианты.
Использование четырех независимых калибровок, ранжирование их по степени достоверности и надежности позволили получить модельно независимую оценку константы скорости SNP мутаций в год на п.н.о., 95% CI:

0.82*10-9  (95%: 0.7-0.94 * 10-9)

Произведенная оценка скорости мутаций совместно с накопленной в группе YFull базой данных коммерческих образцов BigY и FGC позволяют оценить время заселения Америки человеком в 14.8 тыс. лет назад, Австралии – в 49.2 тыс. лет назад.

 

Реклама

Константа скорости SNP мутаций Y-хромосомы по данным полного секвенирования: Один комментарий

  1. Может Вам будет полезно следующее наблюдение: у американских индейцев присутствуют только 2 Y-DNA гаплогруппы. Обе обнаруживаются как в Южной, так и в Северной Америке. Но одна из них очень апстримная (С), а другая очень даунстримная (Q). Промежуточных гаплогрупп (К и пр.) нет. Если не рассматривать возможность 2 миграций в Америку, то надо предполагать, что дрейф или селекция привели к исчезновению всех промежуточных линиджей в Америке. Американские популяции обладают самым низким эфф размером популяции в мире ( из всех современных популяций они по этому и другим показателям наиболее близки неандертальцам и денисовцам), что способствует сильному дрейфу. В то же время эффективность позитивной селекции в мелких популяциях низкая. Еще надо, как кажется, рассматривать возможность того, что сильно дивергентные африканские гаплогруппы А00 и А (или даже А00, А и В) попали к ним из досапиенсного гоминидного субстрата, а хомо сапиенс сапиенс принес в Африку только гаплогруппу Е. Сам факт того, что эти древние гаплогруппы сохранились, а не выдрейфовали, свидетельствует о том, что смешение генов в Африке произошло сравнительно недавно (лет 50-40,000 назад). Смешение двух дивергентных популяций приводит к увеличению аллельного разнообразия и усилению селективного пресса в популяции реципиента. (Продублировано на русском молгене.)

Добавить комментарий

Please log in using one of these methods to post your comment:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s