Хочу выразит публично огромную признательность ув. Александру Бурнашеву за проделанную работу над новым приложением, использующием в качестве входных данных аллельные частоты компонентов, определенных у различных человеческих популяций с помощью моего калькулятора и калькуляторов Диенека и Веселовского.
Cкажу честно — я уже не надеялся увидеть в российском секторе интересующихся ДНК-генеалогией и генетикой вдумчимвых и предприимчивых новичков, способных к тщательному и глубокому анализу данных, а также умеющих реализовать все это в виде программного обеспечения. К cожалению, большинство любителей и полупрофессионалов в это узкой сфере не отличаются особым стремлением к инновациям, погрязнув в простых арифметических упражнениях.

Поэтому новое детище Александра заслуживает особого внимания. Речь идет о EtnoGraph (Версия 093: http://db.tt/5w7sxGOM). На правах рекламы дам краткое изложение принципов со слов автора, тем более что это касается и моего детища World-22 MDLP:
«Делает PCA и рисует PCA плоты.
При загрузке данных выборки генерирует файл с результатами PCA (для тех, кому он интересен).В архив добавлены файлы данных калькуляторов с использованием точки (а не запятой) как разделителя целой и дробной частей — для тех, у кого такие настройки системы.

##########

Добавлена возможность «скрывать» достаточно удаленные точки (расстояние вычисляется по всем осям, а не только по отображаемым). Уровень «скрытия» можно плавно менять.
Добавлена возможность вместо своих персональных данных использовать данные какой-либо выборки. Удобно при анализе различных народов.»

«Выдаваемый плот — это проекция точки в 21-мерном пространстве (суть PCA — построить такую метрику, чтобы все векторы были ортогональными) на 2-мерную плоскость. Если взять другие оси, то, скажем чехи все равно будут рядом со словаками, а вот лумби (которые попадают между ними при выборе пары PCA1 и PCA3) окажутся далеко. Кстати, этноплот 23иЯ похожим образом устроен (при разных масштабах выбираются разные оси).

Да и у Макдональда белорусы возле ирландцев.
Степень информативности каждой оси можно посмотреть в генерируемом файлике (столбец EIGENVALUES)
По сути у нас все оси информативны, но некоторые больше, некоторые меньше. Видимо, это специфика самого калькулятора.

Взяв за базис малоинформативные оси, получим на плоте тесную «кучу» популяций и несколько «выбросов». Информация о специфических качествах последних как раз и содержится в малоинформативных осях.

Поигрался с разными калькуляторами. Интересные результаты.

У MDLP-W22 есть 3 наиболее информативных оси и 18 менее. Например, 4-я ось — специфическая австралийско-меланезийско-пигмейская.

У J-Testa 11 осей средней информативности и целых 3 (вместо одной) полностью вырожденных. У EU-Testa 2 вырожденных. Думаю, это говорит о том, что результаты этих калькуляторов избыточны. Видимо, значение Ashkenazi и еще какое-то одно (общее у обоих тестов Поляко) генерируются на основании других.»

Популяризация [персональной] геномики

Многим читателям и подписчикам моего блога хорошо известно, что русскоязычные СМИ уделяют очень мало внимания освещению достижений современной генетики, не говоря уже о грамотной популяризации. В результате, потребитель масс-медиа получает искаженную информацию о генетике из уст профанаторов и шарлатанов от науки (например, А.Клесова). Сказанное еще в большей степени касается и персональной геномики.

На фоне этой удручающей тенденции хочется отметить позитивную инициативу портала Постнаука, взявшим на себя задачу по геномному ликбезу. Осенью этого года на портале было размещено несколько интересных интервью с ведущими российскими специалистами в этой области:

Заметка о генетике аутосомного генофонда белорусов. Часть II.

Диэнек Понтикос внес предложение использовать при Rolloff-анализе генофонда белорусов  в качестве референсов литовцев и пуштунов. Следуя этому совету, я решил предпринять вторую попытку формального анализа адмикса в двух имеющихся у меня выборках белорусов  (эталонный выборка белорусов из статьи  Behar et al. 2011), и выборка белорусов, собраннаяя в нашем проекте.

Ниже приведены результаты эксперимента  с двумя этими группам (и в отличие результатов моей предыдущей попытки, результаты данного эксперимента менее «зашумленные»):


valid snps: 746877
group 0 Lithuanian
group 1 Pathan
number admixed: 13 number of references: 2
numsnps: 746877  numindivs: 55
starting main loop. numsnps: 158101

Summary of fit:

Formula: wcorr ~ (C + A * exp(-m * dist/100))

Parameters:
   Estimate Std. Error t value Pr(>|t|)   
C 2.332e-04  3.029e-04   0.770  0.44165   
A 3.306e-02  1.227e-02   2.695  0.00728 **
m 1.169e+02  3.851e+01   3.037  0.00252 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.006508 on 493 degrees of freedom

Number of iterations to convergence: 0 
Achieved convergence tolerance: 9.103e-06 

mean (generations):  116.9416

Интервал числа поколений, прошедших со времен анализируемого адмикса ( jackknife (generations)   105.086+-52.59) или 3069 +- 1525 лет до настоящего времени, что соответствует временном интервалу 1 тыс. до нашей эры — 6 век нашей эры.

Заметка о генетических контактах белорусов. Часть I

В начале сентября этого года известная американская лаборатория популяционной генетики доктора Райха опубликовала альфа-версию программного продукта ADMIXTOOOLS 1.0. Альфа-версия была разработана для внутреннего использования, поэтому modus operandi этого продукта вряд ли является кристально понятным для стороннего пользователя. Положительным аспектом  на мой взгляд является то, что ADMIXTOOLS пакет обеспечивает полную совместимость с форматом другой очень популярной программы EIGENSOFT, которая была разработана в той же лаборатории. Это немаловажное обстоятельство намного упрощает процесс обучения в ADMIXTOOLS .

Вышеупомянутый пакет включает  в себя 6 приложений, среди которых я считаю наиболее полезной qp3Pop и утилиты для вычисления частотной характеристики аллелей. Впрочем, я не собираюсь обсуждать qp3pop во всех деталях и в контексте данной заметки достаточно отметить, что эта программа реализует тест three_pop (F_3), подробно описанный в известной статье  Рейха и соавт. 2009.

Однако другой имплементированный в пакете метод, — метод rolloff — нуждается в более пристальном внимании. Этот метод позволяет производить математическую оценку как времени, так как и уровня адмикса. Оценка производится на основании анализа неравновесия по сцеплению между SNP-ами. Тут необходимо вспомнить стандартное определение неравновесия по сцеплению.Неравновесием по сцеплению (часто используется английская аббревиатура LD) называется неслучайная связь между двумя аллелями, в силу которой определенные комбинации аллелей встречаются наиболее часть. В теории,  чем дальше друг от друга находятся SNP-ы ,тем меньше будет уровень LD. Темп угасания снижения  LD в адмиксе напрямую связана с числом поколений, прошедших с момента адмикса,  так как c возрастанием числа поколений увлечивается число рекомбинаций произошедших между  двумя отдельными SNP-ами. Проще говоря: Rolloff соответствует экспоненциальной кривой угасания уровня LD от расстояния, и эта скорость экспоненциального снижения как раз и используется  для оценки числа поколений, так и уровня адмикса в анализируемой популяии. Учитывая, что одно поколение примерно равно 29 лет, можно преобразовать число поколений в года.

Этот фокус открывает интересные перспективы.

Анализ в Admixtools

Для целей этого анализа, я создал специальный набор SNP-данных, который включает в себя около 750 000 cнипов, частично или полностью в 250 различных популяциях человека. Далее, я разбил популяции 3 * 62 000 трио в следующем виде (X, Y, Z), где X и Y — пара рефренсных групп, а Z — белорусы из коллекции Behar et al.2010. После этого я провел q3Pop анализ этих трио.

Результаты изложены в нижеприведенной таблице

Indian Polish Belarusian -0.000736 0.000251 -2.935
Polish Indian Belarusian -0.000736 0.000251 -2.935
Karitiana Sardinian Belarusian -0.001278 0.000517 -2.471
Sardinian Karitiana Belarusian -0.001278 0.000517 -2.471
Otzi North_Amerind Belarusian -0.002556 0.001126 -2.271
Cirkassian Polish Belarusian -0.000488 0.000231 -2.113
Polish Cirkassian Belarusian -0.000488 0.000231 -2.113
Pima Otzi Belarusian -0.002727 0.00137 -1.99
Pima Sardinian Belarusian -0.000794 0.000431 -1.843
Sardinian Pima Belarusian -0.000794 0.000431 -1.843
Otzi Surui Belarusian -0.002938 0.001931 -1.522
Surui Otzi Belarusian -0.002938 0.001931 -1.522
Обсуждение

На первый взгляд, результаты моего эксперимента с 3qPop, кажется, неплохо согласуются с выводами, содержащимися в работе Паттерсон и др. 2012: «Самый поразительный вывод состоит в обнаружени четкого сигнала адмикса в северной Европе, один из элементов которого связан с предками населения наиболее близкого по своей генетике к баскам и жителям Сардинии, а другой — с предками современного населения северо-восточной Азии и Америки. Этот явный сигнал, вероятно, отражает историю смешивания неолитических мигрантов  с коренным населением Европы, что подтверждается недавним генетическим анализом древних костей Швеция и секвенированием полного генома Отци Тирольца».

Что касается собственно белорусов, то источники сигнала смешивания с посторонними популяцими менее ясны и расплывчаты.
Как было показано ранее, с точки зрения формального анализа примесей (f3 статистики), белорусы могут быть представлены в виде популяционного микса поляков и индусов / черкессов. Первый компонент смеси может быть связан с носителями культуры шнуровой керамики/боевых топоров и культуры колоковидных кубков;  второй, в соответствии с результатами, должен быть общим для  индусов и черкесов. Из учебников истории я узнал, что территория современной Карачаево-Черкесии была населена в 1-го тысячелетия н.э. на аланами — группой сарматских племен, кочевых скотоводов 1-го тысячелетия нашей эры, который говорили на восточно-иранском язык, — языке, который происходит от скифо-сарматских и которой в свою очередь превратился в современный осетинском. Как принято считать, последней предковой популяцией современных  потомков алан и современных индейцев могла быть скифо-сарматской метапопуляция.

Таким образом, мы можем переписать формулу генетических контактов предков белорусов в следующем порядке

Белорусы = ((неолитические культуры Европы) + «носители культуры колоковидных кубков») + (мезолитическое население Европы) + компонент носителей культуры шнуровой керамики)) + скифо-сарматский тип

Датировка времени генетических контактов

Для оценки дата  события базового адмикса в белорусской популяции, я использовал в качестве референсных популяций поляков и индусов (Примечание: я снизил порог генетических дистанции в параметрах Rolloff  для снижения уровня шума от более поздних адмиксов).

Как вы можете видеть, сигнал присутствия адмикса обнаруживается гораздо хуже, и в силу этого, погрешности в оценке временного промежутка высоки:

154,158 + -87,024 поколений назад (или, 4470 + -2523 года до настоящего времени / 2510 — +2523 лет до н.э.).

Основы геномики для чайников или как читать результаты аутосомного тестирования

Начну несколько издалека — с современного дизайна биочипов панелей снипов. Нужно вспомнить, что в своей основе биочипы-платформы, используемые в целях коммерческого тестирования в 23ия и ФТДНА представляют собой модифицированные варианты стандартных платформ Иллюмина (23ия) и Аффиметрикс (если я не ошибаюсь, биочип ФТДНА разработан на основе этой платформы). Дизайн обеих платформ разрабатывался из целей, далеких от задач ДНК-генеалогии, или скажем, ДНК-криминалистики (хотя авторы концепции SNP-генотипирования и предполагали смежные задачи, — например, установление личности индивида). Перед разработчиками дизайна биочипов и новых методов снип-генотипирования ставилась четкая задача — разработать платморфму снип-тестирования, совместимую с  двумя основными методами медицинской генетики
Это метод выявления QTL (выявление участков ДНК, сцепленных с генами, обуславливающими тот или иной фенотипический признак), а также метода генетической ассоциации генетического сцепления или неравновесного сцепления генов ,  когда генетические (фенотипические) признаки двух групп  сравниваются напрямую с ДНК-сиквенсами представителей этой группы.

Поскольку снипы обычно представляют собой (за исключением редких аллелей  с частотой двух аллей) вариацию двух аллелей, т.е различаются всего на один олигонуклеотид, то существенной особеностью сиквенсирования на биочипах является проблема оптимизировании недостаточной гибридзации проб, а также потенциальная возможность того, что таргетная ДНК может гибридизировать несовпадающие снипы. Эта особенность приводит к тому, что результаты генотипирования на биочипах  довольно часто дают болшой процент менделевских ошибок, т.е тех случаев когда у ребенка присутстовал аллель, который он не мог унаследовать от родителей (за исключением редкого явления дисомии). Те, кто пользовались утилитой Дэвида Пайка или посылали свои данные Леону (napobo3), могли сами убедиться в этом на примере сравнения своих данных с данными родителей.

Это был первый тип инструментальных погрешностей, вносящих неопределенность в оценку близости или дальности родства. Он связан собственно с процессом гибридизации ДНК. Второй тип инструментальных погрешностей связан собственно с процессом генотипирования индивидуального ДНК. Для генотипирования на платформе Иллюмины испольузется программа GenCall, который по байесовской вероятности определяет кластер, к которому относиться тот или иной локус анализируемого ДНК. Многие из тех форумчан, кто работал со своими данными от 23ия, наверняка видел т.н «no-call» генотипы (-) в raw data. «No-call» означает, что программа не смогла определить генотип (или вернее, кластер к которому относиться анализируемый локус ДНК).

Наличие этих «пустых» генотипов также вносит свою лепту в увеличение т.н инструментальных погрешностей.

Забудем на время о существенных инструментальных погрешностях и перейдем к тому, как 23ия представляет генотипы rs-локусов. Если Вы скачаете файл с генотипами, то там достаточно стандартное обозначение — сначало идет название локуса; затем хромосома, на которой находится локус, физическая дистанция, и наконец — две последние колонки (в NRY и митохондрионе — одна) с генотипом. Генотип содержит следущие обозначения -олигонуклеотиды A,G,C,T, делеции (D), инсерции (I) и no-calls (-).

В качестве примера

Цитировать

rs759691   3   10502762   CC
rs7619994   3   10502775   AA
rs808933   3   10503910   CC
rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs9873870   3   10514482   CT
rs6442176   3   10520676   CT
rs4234497   3   10528419   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   —

Генотип здесь определяется по локусам, по-этому невозможно сказать, какой именно аллель достался от матери, а какой -от отца.

Неверно полагать, что нижеприведенный вариант (жирным обозначены аллели унаследованные, например, от матери) единственно возможный

Цитировать

rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   —

Варианты возможное менделевское наследование аллелей включает в себя все возможные с точки зрения комбинаторики варианты.

Например, вот такой вариант

Цитировать

rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   —

Или  такой

Цитировать

rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   —

Казалось бы достаточно протестировать одного из родителей, и Вы сможите реконструировать «цепочку снипов» (по сути гаплотип), доставшийся Вам от этого родителя. Однако существует такое явление, как дисомия. Однородительская дисомия, то есть наследование обеих копий целой хромосомы или ее части от одного родителя (при отсутствии соответствующего генетического материала от другого родителя), является исключением из менделевских принципов наследования.
Однородительская дисомия была описана при муковисцидозе , когда оба мутантных аллеля наследовались от одного родителя. В таких случаях дисомия имитирует аутосомно-рецессивное наследование.

Это —третий тип погрешностей, на этот раз биологического характера

Таким образом, все вышеназванные погрешности биологического, биохимически-инструментального и чисто инструментального характера, приводят исследователей к необходимости фазирования биаллельных сегментов пар хромосом.

Дальше -про фазирование.

Наверное, перед тем как не мудрствуя лукаво приступить к пояснению фазирования данных 23ия, нужно еще раз вкратце напомнить, по какому алгоритму идет предсказание степени родства в 23ия.

На этот раз, буду краток (с).

Алгоритм 23ия выведен исключительно путем компьютерног моделирования. Бралось некоторое количество генотипных данных реально протестированных в 23ия людей. Эти данные искуственно скрещивались с учетом некоего усредненной величины параметра рекомбинации на один мейоз (или, как у нас принято выражаться, генеалогического поколения), тем самым появились искуственные «геномы» (назовем их так для простоты).
Затем по методу MCMC моделировалась искусственная генеалогия потомков «гибридных геномов» (что-то вроде семьи Менделя), т.е случайным образом (по методу Монте-Карло) генерировалась некая марковская цепь генеалогических поколений (последовательность поколений, в которой последующее состояние зависит только от настоящего состояния и не зависит «от генеалогического прошлого») разной длины — 4,5,8, 11 и т.д поколений.  «»Геномы» всех гибридных геномов сравнивались на предмет а) % общего ДНК b) генетической дистанции сегментов IBD (HIR, или как у нас принято УПСов) выраженной в сM (сентиморганах) и с) количества снипов в этих сегментов.

По этим параметрам (а,b,c) УПСЫ разбивались на кластеры в зависимости от дистанции генома-потомка от генома-предка. Затем произвели своего рода метафорическую процедуры «сверку попаданий сегментов»  в интервалы смоделированного родства. Именно таким образом, с помощью моделирования, создатели алгоритма RF получили пороговые количества снипов и генетической дистанции (в сМ) как для всего диапозона RF, так и для каждого интервала родства (например, 3d-10th cousins).

Эти три параметра и используются в RF для оценки удаленности генетического родства или генеалогической дистанции.

Я не буду останавливаться здесь на подробной критике алгоритма. Скажу только, что несмотря на всю привлекательность дизайна MCMC-алгоритма RF , его главный недостаток -это

1)допущение случайного характера «скрещивания» (пардон за вульгаризм) среди некой метапопуляции,
2)независимость характера скрещивания от предыдущего типа скрещивания,
3) пренебрежение гомозиготностью и т.д.

Не говоря уже об использовании некой усредненной величины рекомбинации и игнорирование естестественного отбора, приводящего к тому, что многие участки хромосом  из-за сильного генетического сцепления остаются в нерекомбинантном состоянии на протяжении веков.

Каждый генеалог знает, что матримониальная стратегия (говоря простым биологическим языком, структура скрещивания) генеалогических групп  не носит случайный характер. Выбор партнеров был обусловлен происхождением, классовой принадлежностью, патрилокальностью, а также религиозными, политическими и идеологическим запретами.

Каждый генеалог и социальный антрополог знает, что структура брачных связей в кланновых и патриархальных обществах в-основном обусловлена структурой предыдущих брачных связей (вспомните хотя бы т.н. брачные обыски, в ходе которых проверялось,не состояли ли брачующиеся в родстве). Конечно же были и исключения, но они статистически пренебрежимы.

Каждый генетик знает, что в оседлых популяциях постепенно возрастает гомозиготность, что ведет к увеличении однородности и генетической близости индивидов внутри популяции.

Каждый генетик знает, что величина рекомбинации очень сильно варируется -в 10 и 100 раз — в зависимости от участка хромосом

Каждый генетик знает, что в оседлых популяциях постепенность возрастает гомозиготность (что есть логичное последствие инбридинга), что ведет к увеличении однородности и генетической близости индивидов внутри популяции.

Каждый генетик знает, что существуют геномные регионы — например MHC, со столь сильным сцеплением, обусловленным отбором, что эти участки могут оставаться идентичными у двух индивидов, даже если их общий предок жил тысячелетие назад

Итак, что имеем в сухом остатке:

1) наличие трех типов «инструментальных» погрешностей в данных генотипов от 23ия
2) сухую абстрактность метода оценки степени родства в алгоритме РФ от 23ия

К этому можно добавить очевидное наличие сегментов УПС с совпаденцами, увеличивающихся в размере при поколенном переходе от родителей к детям, хотя по логике, они должны постепенно затухать, уменьшаясь в размерах. Самое наличие таких сегментов — великолепная иллюстрация кумулятивного действия эфектов возрастания гомозиготности и увеличания фонового уровня «скрытого родства» (на профессиональном слэнге генетиков -«hidden relatedness» ).

Это наводит на очевидную мысль, что указание (в РФ алгоритме анализирующем нефазированные данные) на 5-6-юродную степень родства пуштуна и скажем, литовца может с абсолютно одинаковой степенью вероятности (50% на 50%) означать как наличие «афганского» следа в родословной литовца (или литовского следа — у пуштуна), так и очень далекое родство, близкое к случайному совпадению.

Можно ли строить гипотезы на столь шаткой почве? Вряд ли.

На самом деле сам процесс фазирования генотипов подразумевает выявление (с высокой апостериорной вероятностью) гаплотипной фазы с учетом именно семейных данных. Обычно в генетических штудиях — как популяционных (реже),так и медгенетических (намного чаще) — работают с трио (генотипы матери-отца-ребенка). Но именно коммерческое генотипирование открывает более широкое поле деятельности для фазирования — получения более-менее однозначного гаплотипа с более-менее однозначной генеалогией.

По моим скромным наблюдениям, некоторые клиенты 23ия протестировали уже целые кланы своих родственников по 10-20 человек (отцов, матерей, братьев, сестер, племянников, дедов, бабок, детей, двоюродных, троюродных и т.д человек). Фазирование генотипных данных больших семейст позволило бы создать, выражаясь программистским языком, уникальную семейную библиотеку гаплотипов с четкой ДНК-генеалогической структурой наследования. По мере увеличения таких семейных библиотек и все большему охвату масс, можно было бы сравнивать эти гаплотипы уже на уровне семейств/кланов и выстраивать наиболее вероятные с точки зрения ДНК-генеалогии филогенетические кластеры.

Пока же все остается на интуитивно-гадательном уровне.

«Генеалогические» и «случайные» совпадения сегментов хромосом

Периодически на разных форумах (в том числе и на этом) подымается на повестку дня вопрос о том, являются ли сегменты полуидентичного совпадения (НIR) сравниваемых хромосом общими сегментами в смысле общности генеалогического происхождения, — или же эти наличие HIRs (УПСы) является случайным.

Для удобства изложения заменю понятие HIR (УПС) на более общепринятые в науке понятие IBD (сегмент, идентичный по происхождению) и понятие IBS (сегмент, идентичный по сходству). Последний в слэнге молгеновцев именуется лжеупсом.

Существуют ли статистические методы для определения характера совпадающего сегмента? Можно ли определить, какой сегмент достался от общего предка, а какой -продукт случайного совпадения?

Оказывается,теоретически можно. В любопытной статье «Shared genomic segment analysis. Mapping disease predisposition genes in extended pedigrees using SNP genotype assays» было показано, что независимое от популяционного «шума» распределение сегментов IBD  соответствует Пуассоновскому распределению со средним значением:


Авторы статьи провели любопытный анализ эмпирического распределения IBD сегментов у 8 генеалогически родственных лиц и сравнили его с распределением IBS, сгенерированных случайным образом.

Соотношение проиллюстрировано графиком: сплошная линия соответствует распределению сегментов IBS, точечная линия распределению сегментов IBD. Пунктирная линия -смеси распределений сегментов ложнопозитивных совпадений IBS и истинно генеалогических IBD.

Благодаря новой фиче сайта Gedmatch (c) J.Olson (за что ему низкий поклон лично от меня), позволяющей сравнивать отдельные «геномы» (в данном со всей базой (660 геномов) в мастшабах сегментов «размером» более 1,5 и 10 сМ, я смог проверить выводы авторов на более объемном материале (совокупный размер совпадающих сегментов дан также в сентиморганах сМ).

Я построил гистограммы  (на график обозначена синим цветом) частоты распределения идентичных сегментов того или иного размера, а также график куммулятивного распределения частот (красная линия).

Чуть позже прокомментирую результаты.

Начну с аутосомных хромосом.

Начну с самого простого графика распределения максимальных совпадающих  сегментов.
Простого в том смысле, что здесь показано распределение не суммы сегментов, а единичных сегментов наибольшего размера.

Являются ли единичные сегменты общими по происхождению, или же это случайное совпадение?

Визуально гистограмма распределения крупнейших сегментов близка к виду пуассоновского распределения (теоретически это можно проверить тестом Холмогорова-Смирнова, но я его не проводил). Поэтому можно предположить правильность выводов авторов статьи, упомянутой в первом посте темы

Каковы эмпирические свойства данного распределения?
Пик «колокола» распределения приходится на сегменты размером 5.424 сM (красный столбик гистограммы), что, видимо, неслучайно. Напомню, что 5.5 сM -это нижнее пороговое значение, при которых  алгоритм 23andme квалифицирует сегмент как «генеалогический» (IBD), а его обладатель — как «генетический кузен» в базе данных Relative Finder. Обычное обладатели таких общих сегментов (5.5 сM) не высвечиваются в списке RF-кузенов вплоть до тех пор, пока Вы не зашарите свой геном с ними.
Любопытна линия кумулятивного распределения, отсекающая примерно 60% таких сегментов. Интуитивно можно предположить, что примерно  60% таких единичных сегментов размером 5-5.5 сM не являются генеалогическими сегментами в плане наличия недавнего общего предка.

Этот вывод неплохо согласуется с мнением Энн Тернер, которая считает, что примерно 2/3 являются случайными совпадениями (IBS -idemtical by state).
Любопытна кривая кумулятивного пуассоновского распределения крупнеших сегментов. В левой своей части она визуально похожа на крутую сплошную линию распределения IBS («ложных сегментов») из процитированной статьи. Начиная примерно с единичных сегментов размером 7-8 сM, линия визуально приобретает характер прерывистой линии распределения с кумулятивным процентом 90-100% (из той же статьи). По мнению авторов статьи, подобное распределение общих сегментов характерно для тех случаев, когда распределение «случайных» IBS совпадений на кладывается на распределение «генеалогических» IBD сегментов.

Наблюдаемая картина неплохо согласуется с дефолтным порогом «генеалогических совпадений» в 23andme (7 cM), при котором «генетические кузены» (с сегментами => 7сM)  показываются в списке кузенов по умолчанию. Хотя по эмпирическим данным этот слегка смещен в сторону 9 сM.

Следущий график должен быть интересен как тем, кто проходил мульти-снип тестирование в 23ия, так и клиентам FTDNA, тестировавшимся в FamilyFinder.

Здесь показано распределение суммы идентичных сегментов, каждый из которых больше 10 сM.
Левая часть графика представляет собой «нулевую» линию вплоть до 10 сM, что логично, ибо согласно условиям, минимальный размер идентичных сегментов должен быть равен 10 сM. Далее хвост кумулятивного распределения плавно возрастает в интервале между 20 сМ -30 сМ, после чего приближается к 100% (подобно пунктурной линии из обсуждаемой статьи).
На основании наблюдаемой картины можно сделать предположение, что при наличии общей суммы идентичных сегментов, выраженной в сМ и большей чем 20 сМ, и  минимальном размере каждого отдельного сегмента 10 сМ, каждый из них с высокой степенью вероятности является идентичным по происхождению (генеалогии) сегментом.

Редактировать сообщение

Третий график будет особенно интересен клиентам FamilyFinder-FTDNA, т.к. там считают общую сумму сМ, в том числе и для сегментов, каждый из которых больше 5 сM.

Визуально правая часть гистограммы распределения сегментов > 5 cM наиболее похоже на логнорма?льное распределе?ние, что в принципе понятно, т.к. если случайная величина имеет логнормальное распределение, то её логарифм имеет нормальное распределение.

Ненулевой пик гистограммы приходится на интервал сегментов между 7-8 сM, т.к эта часть гистограммы описывается пуассоновским распределением, и в этом случае сегменты представленны не суммой, а единичным идентичным сегментом размером в 7 — 8 сM.

Линия кумулятивного распределения носит характер линии IBS распределения примерно до интервала сегментов размером 30-35 сегментов, что означает, что кроме единичных сегментов, большинство совокупных сегментов состоят из множества IBS сегментов. Признаки смешенного распределения IBS+IBD сегментов начинаются с интервала 35 сМ. Это означает, что при общей сумме сегментов (> 5 cM ), равной 35 сМ минимум один совпадающий сегмент будет общим по происхождению.

 

В принципе эти выводы подтверждают выводы из приведенной статьи

Expected distributions of IBD chromosomal segments between pairs of
individuals. 
(A) The process underlying the pattern of IBD segments. Two homologous
autosomal chromosomes are shown for two parents, each colored differently. Meiosis and
recombination occurs and two sibling offspring inherit recombinant chromosomes (just
one crossover per homologous pair for each meiosis event is depicted, marked by an ‘X’).
For some segments of the chromosome in question, the siblings share a stretch that was
inherited from one of the four parental chromosomes. The three IBD segments are
identifiable as regions that share the same color (boxed and marked at right by black
bars). The siblings mate with unrelated individuals and the offspring each inherit an
unrelated chromosome (tan or gray) and one that is a recombinant patchwork of the
grandparental chromosomes. These first cousins share one segment IBD at this
chromosome (red, boxed). 


(B) The number of segments that a pair of individuals shares
IBD, across all chromosomes, is approximately Poisson distributed with a mean that
depends on the degree of relationship d between the individuals (d = 2, 4, 6, 8,
corresponding to siblings through third cousins). 

(C) The lengths of the IBD segments are
approximately exponentially distributed, with mean length depending on the relationship
between individuals (theoretical distributions shown for d = 2d, 4th, 6th, 8th cousins).

 

 

 

 

Новое обновление интерфейса Ancestral_Compositon в 23 и эксперимент с SupportMix

Вступление

Эта заметка будет посвящена взаимосвязанным понятиям «chromosome painting» и адмикс. Современная генетика и персональная геномика на протяжении последних 2-5 лет, уделили большое внимание этим  понятиям под рубрикой «определения происхождения отдельных геномных сегментов».

В 2011 году я провел пару экспериментов с  программного обеспечения  Lamp в своем проекте MDLP(см. Experimental test III: (De)constructing ancestry with LAMP  и Experimental test: estimating ancestries at each locus in a population of admixed individuals (LAMP))). Хотя эксперименты и увенчались определенным успехом, я не был полностью удовлетворен результатами и решил отложить эксперименты с chromosome_painting на будущее. При этом я отметил для себя принципиальное различие между алгоритмами стратификации населения, реализованными в LAMP и программе ADMIXTURE.

Я уже обсуждал различия между LAMP и ADMIXTURE, но в целях иллюстрации идеи моего научного эксперимента, необходимо еще раз обратиться к моим предыдущим объяснениям :

1) Программное обеспечение Admixture реализует модель на основе подхода к оценке коэффициентов происхождения в качестве параметров статистических моделей. Важно также добавить, что модель подхода ADMIXTURE  основана на глобальной парадигме происхождения (т.е. целью анализа в программах ADMIXTURE / STRUCTURE  является оценка удельной доли генетического наследия каждой из предковых K-популяций, причем эта доля рассматривается как усредненная  по всему геному отдельно взятого индивида).

2) Программное обеспечение LAMP построено на эффективном динамическом алгоритме программирования Winpop, который исследует конкретное происхождение каждого из генетических локусов. В ходе выполнения рабочего цикла программы, анализируемый геном разбивается на перекрывающиеся сегменты-смежные «окна SNP» хромосом определенного генеалогического происхождения, причем степень вероятности модели оптимизируется в каждом из этих окон. Конечная цель — обнаружение границ дискретного хромосомного блока и назначение ему конкретного генографического происхождения.
Я понимаю, что проблема задана уже самой постановкой вопроса определения происхождения хромосомных сегментов. Мой опыт показывает, что методы, основанные на установлении конкретных локусных генеалогии, как правило, очень точны в деконволюции генотипных данных. Как уже было показано ранее, эти методы —  в сравнении с  более популярными статистическими методами, лучше справляются с задачей  за счет введения в модель более двух «предковых» популяций, а также за счет  моделирования путей рекомбинации между предковыми сегментов.

В июне 2012 года,  Jason Mezey Lab (Cornell University) выпустила SupportMix -ПО с  алгоритмом машинного обучения для определения предкового происхождения геномных сегментов при анализе отдельных лиц из популяций с недавней или древней историей «cмешения популяций». Что касается точности программного обеспечения, то согласно утверждению авторов,  SupportMix обеспечивает надежный инструментарий для точной и надежной оценки генографического происхождения предков. Как представляется, такой анализ будет иметь решающее значение для точного назначения предковых компонентов во многих из известных смешанных групп населения по всему миру; причем некоторые могут иметь совершено неожиданное происхождение,  ранее  неизвестное из антропологических и исторических исследований. Экспериментальные исследования показали, что точность реконструкции родословной по генетическим данным была ниже для близкородственных групп популяций, но выше, чем при использовании методов LAMP-АНC, которые, как был показано ранее, превосходят другие методы деконволюции происхождения.

Это слишком оптимистичный вывод повлиял на мою выбор между LAMP-АНС и SupportMix в пользу последнего. Честно говоря, я не первый геномный блоггер, который решил использовать Supportmix — в июле 2012 года Polako из проекта Eurogenes осуществил анализ  финнских геномов с использованием программы SupportMix. Я решил повторить этот эксперимент. Тем не менее, имеется существенная разница между анализом Polako и моим экспериментом. В то время как анализ Polako ограничивался использованием современных популяций в качетсве  «предполагаемых популяций-доноров», конечной целью моего проекта была имитация результатов долгожданного предстоящего обновления Ancestry Painting 23andMe (в начале декабря это приложение наконец-то обновилось, и теперь  предлогает более подробные результаты, основанные на приблизительно 20 мировых регионов, составленных как на основании генетических данных клиентов, так и ​​академических референсных групп. С этой целью, я использовал фиктивный набор из 22 моделируемых предполагаемых предковых популяций, симулированных в программе Plink на ччастотах аллелей 22 компонентов в моем калькуляторе World-22.

Эксперимент

SupportMix требует, по крайней мере, три входные файла. Один файл для каждой из предполагаемых предковых популяцій и один файл, содержащий генетическую информацию лиц смешенного требования. Генотипы  должны быть приведены в гаплоидную фазу. Каждая популяция должно быть представлено двумя файлами в форматах транпонированного Plink: TPED и TFAM.

В эксперименте я использовал 80 тысяч  генетических маркеров (80751 SNP), которые были предварительно похромосомно отфазированы с использованием дефолтных настроек в  программном обеспечении BEAGLE. В то время как оригинальный формат Plink не задает эксплицитный порядок аллелей в файле, SupportMix работает с фазированным данными, в которых порядок аллелей имеет решающее значение. Помятуя об этом, я преобразовал  отфазированные в BEAGLE данные непосредственно в TPED формате Plink, минуя тем самым предварительную обработку в Plink. После этого  я воспользовался  UNIX утилитами для обработки текста, чтобы извлечь генотипы из предковых популяций  в соответствующие подмножества (‘референсы’) и разделить выборку проект MDLP  (93 человек) на 9 подгрупп.

Наконец, я интерполировал генетическую дистанцию и положение каждого SNP вдоль хромосомы с использованием генетических карт Rutgers.
При запуске рабочего цикла SupportMix был использован конфигурационный файл с настройками по умолчанию: (window_size = 400, generations_from_admixture_event = 6).

После поэтапных запусков, был получен набор из «хромосомных мозаик» для всех 22 пар хромосом каждого из участников проекта.
Чтобы сделать сравнение с Ancestry Composition oт 23andme более наглядным, я путем нехитрых манипуляций в программе GIMP сообрал свой графический аналого Ancestry Composition, но на этот раз с использованием данных от SupportMix:

Хромосомная мозаика по данным от SupportMix.

Сравнение кастомной хромосомной мозаики с новой диаграммой Ancestry Composition/23andme

Как я уже упоминал выше, в начале декабря сего года, лаборатория 23andme благополучно разрешилась новым интерфейсом «хромосомной мозаики». Он выглядит примерно следущим образом (в режиме Speculative Estimates/ Vadim Verenich’s populations):

ac

Следует признать, что прямое сравнение двух графов — моего кастомного и нового графа от 23andme — вряд ли возможно, т.к мой граф более детальный и компоненты сгруппированы не по современному географическому признаку (как в 23andme), а по степени близости предковых популяций (компонентов).  Кроме того заметно, что степень детализации в 23andme ниже (за счет редукции мелких сегментов), поэтому многие участки сегментов, которые 23andme определяет как «балканские» оказываются на поверку состояющими из атлантическо-средиземноморского или ближневосточного компонента.  Северо-европейский компонент у  23andme частично перекрывается с мезолитическим-северо-европейским и северо-восточно-европейским компонентом в MDLP. И так далее.

Для лиц русского происхождения самой досадной промашкой следует признать отсутствие в 23andme специфических сибирских компонентов. Многие русские люди, особенно из северных и восточных регионов РФ имеет значительный процент сибирских генов. Неспоспособность Ancestry Сomposition уловить сигнал их присутствия должна критическим образом сказаться на результатах.

Анализ аутосомного генофонда балтийских этносов: эстонцев, латышей, литовцев. Часть III

Перейдем теперь к литовцам.
Как представляется нам, результаты эксперимента с двумя литовскими популяциями (литовцы Lithuanians из референсной панели в работе Behar et al.2011; Lithuanians_V — участники проекта MDLP с литовскими корнями) также укладываются в общее консенсуальное представление о генетической частоте или «однообразии» балтийских популяций.

I
В случае с академической референсной популяцией литовцев, полученные на выходе результаты анализа ALDer явным образом свидетельствуют в пользу вышеозвученной концепции.  Тест на однореференсную корреляцию угасания генетического сцепления между литовцами и каждой из референсных популяций в отдельности выдал следущие результаты:

Pre-test: Does Lithuanian have a 1-ref weighted LD curve with…
Italian-Center:  NO (z = 0.00)
Sicilian:  NO (z = 0.00)
Sardinian:  NO (z = 0.49)
German:  NO (z = 0.00)
        Lithuanian_V:  NO (cannot pre-test: long-range LD)
Latvian:  NO (z = 0.00)
Belarusian:  NO (z = 0.00)
Swedish:  NO (z = 0.00)
            Polish_V:  NO (cannot pre-test: long-range LD)
           Russian_V:  NO (cannot pre-test: long-range LD)
      Russian_Center:  NO (cannot pre-test: long-range LD)
           Latvian_V: YES (z = 2.44)
Inkeri:  NO (z = 0.00)
Russian_South:  NO (z = 0.00)
Ukrainian_V:  NO (z = 0.00)
Slovakian:  NO (z = 0.00)
Czech:  NO (z = 0.00)
Sorb:  NO (z = 0.00)
            Estonian:  NO (cannot pre-test: long-range LD)
Ukrainian:  NO (z = 1.42)
        Belarusian_V:  NO (cannot pre-test: long-range LD)
Ukrainian-East:  NO (z = 0.00)
Ukrainian-West:  NO (z = 0.00)
Mordovian:  NO (z = 0.00)
CEU:  NO (z = 0.00)
CEU_V:  NO (cannot pre-test: long-range LD)
British:  NO (z = 0.00)
French:  NO (z = 0.00)
Orcadian:  NO (z = 0.00)
German-South:  NO (z = 0.00)
German-North:  NO (z = 0.00)
            German_V:  NO (cannot pre-test: long-range LD)
Bulgarian:  NO (cannot pre-test: long-range LD)
Finnish-North:  NO (z = 0.00)
          Cirkassian: YES (z = 2.34)
     Russian_cossack:  NO (cannot pre-test: long-range LD)
               Saami:  NO (cannot pre-test: long-range LD)
Udmurd:  NO (z = 0.00)
Komi:  NO (z = 0.00)
Karelian:  NO (z = 0.00)
Vepsa:  NO (z = 0.00)
Mari:  NO (z = 0.00)
Bashkir:  NO (z = 0.00)
              Nenets:  NO (cannot pre-test: long-range LD)
Hant:  NO (z = 0.00)
Chuvash:  NO (z = 0.00)
Mansi:  NO (z = 0.00)
Finnish-South:  NO (z = 0.00)
Polish:  NO (z = 0.00)
Gagauz:  NO (z = 0.00)
Moldavian:  NO (z = 0.00)
             Romania:  NO (cannot pre-test: long-range LD)
Bosnian:  NO (z = 0.00)
Adygei:  NO (z = 1.09)
Croatian:  NO (z = 1.03)
Serbian:  NO (z = 0.57)
Slovenian:  NO (z = 0.00)
Montenegrin:  NO (z = 0.00)
Macedonian:  NO (z = 0.00)
Kosovar:  NO (z = 0.00)
Austrian:  NO (z = 0.00)
Greek_Azov:  NO (z = 0.00)
Greek_Center:  NO (z = 1.08)
Greek_North:  NO (z = 0.00)
Greek_South:  NO (z = 0.00)
Tatar_Crim:  NO (cannot pre-test: long-range LD)
               Azeri:  NO (cannot pre-test: long-range LD)
              Tadjik:  NO (cannot pre-test: long-range LD)
Kyrgyz:  NO (z = 0.00)
Kazakh:  NO (z = 0.00)
Georgian:  NO (z = 0.00)
Georgian_Imereti:  NO (z = 0.00)
Georgian_Laz:  NO (z = 0.01)
NorthOssetian:  NO (z = 0.00)
Armenian:  NO (z = 0.00)
Kumyk:  NO (z = 0.00)
Chechen:  NO (z = 0.00)
Turk:  NO (z = 0.00)
             Turkmen:  NO (cannot pre-test: long-range LD)
Uzbek:  NO (z = 0.00)
Mongol:  NO (z = 0.00)
          Karakalpak:  NO (cannot pre-test: long-range LD)
Lak:  NO (z = 0.00)
Balkarian:  NO (z = 0.00)
Lezgin:  NO (z = 0.71)
           Abhkasian:  NO (cannot pre-test: long-range LD)
Kalmyk:  NO (z = 1.94)
Syrian:  NO (z = 0.00)
Kurd:  NO (z = 0.00)
Tabassaran:  NO (z = 0.95)
Hakas:  NO (z = 0.00)
Altaic:  NO (z = 0.00)
Tatar_Kryashen:  NO (z = 0.00)
Tartar_Mishar: YES (z = 2.79)
Parsi:  NO (z = 0.00)
Avar:  NO (z = 0.00)
Nogai:  NO (z = 0.00)
Italian-North:  NO (z = 0.00)
           Hungarian:  NO (cannot pre-test: long-range LD)

Пре-тест не сработал в значительной части комбинации референсных популяций из-за высокого значения генетического сцепления локусов на больших генетических дистанциях. Из всего списка популяций только две популяции показали положительные результаты — это Cirkassian (черкесы), татары-мишари и Latvian_V (латыши проекта MDL).

Все три теста на присутствие двухреференсной корреляции экспоненциального угасания кривой генетического сцепления оказались статистически незначимыми, а скорости угасания генетического сцепления в двух референсных популяциях — несопоставимыми между собой.

Для наглядности, привожу подробные результаты этих тестов:


*** Admixture test summary ***

Weighted LD curves are fit starting at 0.5 cM

Does Lithuanian have a 2-ref weighted LD curve with Latvian_V and Cirkassian?
2-ref decay z-score:    3.55
2-ref amp_exp z-score:  3.93
NO: curve is not significant

Do 2-ref and 1-ref curves have consistent decay rates?
1-ref Latvian_V — 2-ref z-score:                    1.74   ( 95%)
1-ref Cirkassian — 2-ref z-score:                   0.37   ( 19%)
1-ref Cirkassian — 1-ref Latvian_V z-score:        -1.50   (-80%)
WARNING: decay rates are inconsistent

Test FAILS (z=3.55, p=0.97) for Lithuanian with {Latvian_V, Cirkassian} weights
note: p-value is multiplied by 2556 for multiple-hypothesis correction

DATA:    failure (warning: decay rates inconsistent)    0.97    Lithuanian    Latvian_V    Cirkassian    3.55    2.44    2.34    95%    78.52 +/- 22.09    0.00028164 +/- 0.00007158    219.82 +/- 66.29    0.00040365 +/- 0.00016525    94.59 +/- 40.39    0.00009331 +/- 0.00003691

*** Admixture test summary ***

Weighted LD curves are fit starting at 0.5 cM

Does Lithuanian have a 2-ref weighted LD curve with Latvian_V and Tartar_Mishar?
   2-ref decay z-score:    1.83
   2-ref amp_exp z-score:  1.95
                                  NO: curve is not significant

Do 2-ref and 1-ref curves have consistent decay rates?
   1-ref Latvian_V — 2-ref z-score:                    1.37   ( 75%)
   1-ref Tartar_Misha — 2-ref z-score:                 2.81   (108%)
   1-ref Tartar_Misha — 1-ref Latvian_V z-score:       1.47   ( 41%)
                                  WARNING: decay rates are inconsistent

Test FAILS (z=1.83, p=1.7e+02) for Lithuanian with {Latvian_V, Tartar_Mishar} weights
  note: p-value is multiplied by 2556 for multiple-hypothesis correction

DATA:    failure (warning: decay rates inconsistent)    1.7e+02    Lithuanian    Latvian_V    Tartar_Mishar    1.83    2.44    2.79    108%    99.98 +/- 54.54    0.00034952 +/- 0.00017910    219.82 +/- 66.29    0.00040365 +/- 0.00016525    332.64 +/- 55.74    0.00101889 +/- 0.00036487

 *** Admixture test summary ***

Weighted LD curves are fit starting at 0.5 cM

Does Lithuanian have a 2-ref weighted LD curve with Cirkassian and Tartar_Mishar?
   2-ref decay z-score:    2.86
   2-ref amp_exp z-score:  3.21
                                  NO: curve is not significant

Do 2-ref and 1-ref curves have consistent decay rates?
   1-ref Cirkassian — 2-ref z-score:                   0.18   ( 10%)
   1-ref Tartar_Misha — 2-ref z-score:                 4.24   (118%)
   1-ref Tartar_Misha — 1-ref Cirkassian z-score:      3.18   (111%)
                                  WARNING: decay rates are inconsistent

Test FAILS (z=2.86, p=11) for Lithuanian with {Cirkassian, Tartar_Mishar} weights
  note: p-value is multiplied by 2556 for multiple-hypothesis correction

DATA:    failure (warning: decay rates inconsistent)    11    Lithuanian    Cirkassian    Tartar_Mishar    2.86    2.34    2.79    118%    85.68 +/- 29.92    0.00034317 +/- 0.00010688    94.59 +/- 40.39    0.00009331 +/- 0.00003691    332.64 +/- 55.74    0.00101889 +/- 0.00036487

Поскольку результаты теста неудачные,  мы не видим особого смысла дискутировать на предмет определения даты адмикса предковых популяций литовцев. Достаточно лишь отметить, что это событие относилось к достаточно древним временам (бронзовый век или даже неолит).
II

В отношении второй группы литовцев — участников проекта MDLP,  ситуация более оптимистична.

При изучении результов анализа этой группы в ALDer, мы отобрали единственный результат, который формально отвечал всем критериям отбора:

DATA:    success    0.023    Lithuanian_V    Latvian_V    Mongol    4.44    4.00    4.37    18%    78.34 +/- 11.50    0.00021502 +/- 0.00004838    84.69 +/- 21.16    0.00016508 +/- 0.00003618    71.00 +/- 16.26    0.00009300 +/- 0.00002053

Итак, эта вариант адмикса где истинные популяции исторического адмикса в этногенезе литовцев наиболее похожи на современных латышей и современных монголов. Так как адмикс со стороны латышей древнее (84.69 +/- 21.16  поколений тому назад), чем адмикс со стороны «монголоидов» ( 71.00 +/- 16.26 ), протолатышей следует признать субстратной основой в генофонде литовцев, монголоидную примесь — адстратом.

В принципе, в этом открытии нет ничего нового, ибо еще представители классической антропологической краниологии указывали на присутствие в черепах предков современных балтов незначительного смягченного монголоидного влияния: «некоторые монголоидные черты имеют и часть балтийских народов, особенно на северо-востоке Латвии. Они являются результатом смешения древних балтийских и финно-угорских племен, тем более что граница между ними в средневековье проходила по низовьям реки Даугава (Западная Двина).»  Датировка события этого адмикса согласно вычислениям в ALDer лежит в достаточно широком временном интервале (VII-I век до нашей эры), который охватывает весь древнейший период железного века в Прибалтике. Скорее всего тогда и начался процесс смешивания финно-угорских и балтийских популяций.

В дополнение к традиционному объясянению  появления монголоидности в ходе смешивания с финно-угорскими народами, представляется возможным рассмотреть альтернативные версии смешивания популяций.