fineStructure анализ популяций северо-восточной Европы: часть 1

Некоторое время тому назад в своем англоязычном блоге я разместил новый график, сделанный на основании анализа главных компонентов  генетического разнообразия в выборке, которая включала в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.

В ходе экспериментального теста в ходе статистической обработки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, которая  участвовала в репродукции или обмене генами в отдаленном прошлом. Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение  составило  22 000.Это близко к значениям Ne рекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных выше данных даже 22 000 для совокупности эффективного размера элементарных популяций — это более, чем достаточно. Например, численность эффективной популяции адыгов-шапсугов составляет по оценке попгенетиков всего 187 индивидов:

Почешхова, Э. А.  Структура миграций и дрейф генов в популяциях адыгов-шапсугов / Э. А. Почешхова // Медицинская генетика : ежемесячный научно-практический журнал. — Том 7,N 1. — Реферирована.  Важной  особенностью генофонда адыгов являются традиционная структура браков и  высокая эндогамия: 96,5% браков заключается в пределах своего этноса.  Одно из племен адыгов — шапсуги подразделено на две географически  изолированные группы. Шапсуги побережья Черного моря (от Туапсе до  Сочи), проживающие в районе наиболее интенсивного заселения пришлыми  народами, заключают 89% браков в пределах своей географической группы,  5% браков — с другими адыгами и лишь 6% браков — с представителями всех  остальных народов России и Закавказья. Шапсуги, переселенные в  Прикубанье (Западная Адыгея) и проживающие среди прочих племен адыгов,  заключают 77% браков в пределах своей географической группы, 21% браков —  с другими адыгами и 1,3% браков — с представителями иных этносов. Для  шапсугских аулов средний индекс эндогамии составил 0,40, гаметный индекс  — 0,7. Для элементарных популяций средний индекс эндогамии составляет  0,65. Малый генетически эффективный размер элементарных популяций  (Ne=187)


Или вот:

При оценке генного дрейфа на основе методов генетической демографии ключевыми параметрами являются эффективная численность Ne (размер, объем) популяции, составляющая примерно 30 % от общей численности, и миграция. Показано (Евсюков и др., 1996), что для коренных народов Сибири средний эффективный размер популяции равен 218, а для Северной Евразии в целом – 200, хотя изменчивость эффективного размера (Ne) популяций различалась на три порядка величин, как и их численность. Небольшая средняя величина Ne позволяет ожидать значительного эффекта генного дрейфа, если ему не противостоит миграция. Генный дрейф реализуется на уровне как популяции в целом, так и субпопуляций. В оригинальных исследованиях сибирских популяций получены следующие значения эффективного размера на уровне поселений(субпопуляций): алеуты Командорских островов – 75 чел. (Рычков, Шереметьева, 1972а, б), азиатские эскимосы и береговые чукчи – 70 и 61 чел. соответственно (Рычков, Шереметьева, 1972в), эвенки Нижней и Подкаменной Тунгуски – 27 чел. (Рычков и др., 1974б), коряки Камчатки – 71 чел. (Шереметьева, Горшков, 1982), северные ханты – 152 чел. (размах значений 98–348) (Пузырев и др., 1987). Эффективный размер сельских популяций Северной Евразии имеет клинальный тип изменчивости, убывая в направлении юго-запад – северо-восток, за исключением локального минимума в Средней Сибири у тунгусоязычных западных эвенков (Евсюков и др., 1996).


Из чего следует, что Ne размером в 22 000 человека или 1000 индивидов на кластер (а всего их выявленно 22 ) — это вполне достаточно для масштабирования частот рекомбинации гаплотипов. Можно прояснить смысл понятия эффективная популяция и другими словами. Во избежании ненужной путаницы необходимо сразу оговорить что понятие эффективной популяции носит сугубо теоретический характер, и в силу этого напрямую не имеет отношения к тому, каков был размер отдельной локальной популяции в определенный отдельно взятый промежуток времени.

Не имеет значения , так как речь идет о тех, кто внес свой вклад в генофонд существующих популяций.Причем эти все «отцы и матери-основатели» могут быть разнесены по времени на тысячелетия.


Собственно говоря, эффективная популяция — это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса  числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955).

Что касается размере эфективно-репродуктивной популяции для исходной популяции современных популяций Евразии, его достаточно легко вычислить исходя из аутосомного разнообразия. Например, соответствующие алгоритмы для вычисления Ne имплементированы в прогамме FineStructure.  По моим расчетам (близким к общепринятым) усредненный для всех хромосом размер эффективной популяции для всех задействованных мной евразийский популяций составил 14 000.

Исходя из общепринятого мнения, согласно которому размер Ne (эффективной популяции) в каждый синхронный период времени составляет примено 33% от общего размера популяции теоретически можно оценить величину популяции в момент времени, когда ее эффективный размер составлял 14 000 (это примерно 40 000).

Если бы мы знали, что все это родоначальники многобразия жили в одно время, тогда можно было бы интерполировать эти сведения для оценки это времени по обычной хронологической шкале. Но нет никаких оснований полагать, что они жили в одно и то же время.

«Effective size» of the population (commonly denoted as Ne in the population genetics literature) from which your dataset was sampled. This parameter scales the recombination rates that IMPUTE2  uses to guide its model of linkage disequilibrium patterns. When most  imputation runs were conducted with reference panels from HapMap  Phase 2, we suggested values of    11418    for imputation from HapMap CEU,    17469    for YRI, and     14269    for CHB+JPT.

Modern imputation analyses typically involve reference panels with  greater ancestral diversity, which can make it hard to determine the  «ideal» -Ne value for a particular study. Fortunately, we have found that imputation accuracy is highly robust to different -Ne values; within each of several human populations, we have obtained nearly identical accuracy levels for values between 10000 and25000. We suggest setting -Ne to 20000 in the majority of modern imputation analyses.

В качестве инструмента я использовал комбинацию нескольких программ из нового пакета биоинформатического программного обеспечения fineStructure/ChromoPainter. Как показали экспериментальные тесты  с использованием этого пакета, оптимизированный алгоритм обнаружения общих по происхождению сегментов в сравниваемых популяциях дает оптимальные результаты по разбивки индивидов на кластеры по признаку геномной близости (в качестве меры этого признака в данном случае я использовал число идентичных по происхождению геномных сегментов:  по полученным векторам признаков для каждого кластера производилось попарное сравнение и сортировка по мере близости в евклидовой метрике).

MDLset1-3 MDLsetMDLset

1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
2. Все литовцы (участники проекта + референсы из статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев 
3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.
4. Ниже находится балканский кластер (румыны, болгары и часть венгров).
5. К этому кластеру примыкают турки и часть армян 
6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов). 
7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.
8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

10. Левее этой группы популяций находится кластер ашкеназов.

11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).*

*—— Примечание


Т
акое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции. То есть все эти баски являются многократными родственниками между собой. Классический генный дрейф, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества shared DNA chunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.Исходя из этого можно сделать вывод о том
1) что баски эта экстремально-эндогенная популяция изолянтов
2) генетическое разнообразие низко, т.к. размер эффективной популяции низок.

 

 

Вы не поняли. 

Каких десятков тысяч предков славян?
По оценке профи, занимающихся анализом полных геномов, эффективный размер популяции генетических предков для современных популяций всей Евразии с трудом достигает 2 десятков тысяч,  причем общий консенсус сдвигается в сторону 15 000.

 

Advertisements

Добавить комментарий

Please log in using one of these methods to post your comment:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s