LAMP: инструмент для анализа «локального происхождения» геномных сегментов

В этом посте мы продолжим обсуждение существующих методик и инструментов анализа т.н «локального происхождения» отдельных сегментов хромосом в человеческом геноме (под локальным происхождением здесь подразумевается предпологаемое географическое происхождение дискретного сегмента одной их двух парных аутосомных хромосом в геноме человека).

Ранее эта тема поднималась в описании программы SupportMix, а также в сжатом изложении методологии оценки происхождения хромосомных сегментов (инструмент PCAdmix).  Данная заметка будет посвящена третьему инструменту — LAMP (Local Ancestry in adMixed Populations) (Sankararaman et al.2008).

Очевидно, что алгоритмы определения локального происхождения отдельных сегментов человеческих хромосом могут дать неплохие результаты при комбинированном использовании программ PLINK /ADMIXTUIRE/LAMP: например, комбинация этих программ позволяет довольно точно определить не только стратификацию отдельных этно-популяционных групп,  но также и уровень «адмикса» у отдельных людей. Поскольку одна из задач нашего проекта MDLP состояла в определении практических и теоретических преимуществ и/или ограничений конкретных методологий биоинформатического анализа полных генома, я провел эксперимент, позволяющий прояснить ряд ограничений, которые значительно уменьшают уровень достоверности результатов  субструктуры аутосомного генофонда населения Европы.

В качестве инструмента контроля качества комбинированного набора данных (аутосомных SNP-ов 22 хромосом) я использовал Plink, с помощью которого я выбрал для последующего анализа только качественные снипы (99% генотиприрования),  частоты минорных аллелей которых превышают 1%.

Поскольку этно-популяционный фон неравновесного линикиджа марекеров (LD) может существенным образом влиять на основные компоненты субструктуры популяции, я исключил из выборки маркеры, характеризующиеся статистически значимым уровнем LD (с коэффициентом попарной корреляции r2 Пирсона > 0,4) в «скользящем окне» из 100 снипов  с пошаговым сдвигом на 10 снипов. Кроме этого, я также использовал  другие методы Plink для получения однородной выборки  — например, кластеризации на основе IBS для обнаружения пары индивидов (outliers) с  уровнем «родства», значительно более высоким, чем у пары выбранных случайным образом индивидов в однородной популяции.  Под более высоким родством здесь понимается  резко отклоняющиеся значения (более 3 стандартных отклонений) парных значнений IBS по отношению к остальной части выбаки, а также случаи с высоким значения PIHAT (более 0,05) и  высокой степень инбридинга (гомозиготности*). Индивиды с подобными аномальными значениями («выбросы») были удалены из  «обучающего» подмножества нашей выборки .


* В программе Plink степень инбридинга определяется через вероятностную функцию гомозиготности.

 

homozyg
Стратификация образцев в соответствии с уровнями гомозиготности. Вдоль оси Х отображена общая сумма гомозиготных сегментов в килобазах; вдоль Y-оси — средний размер гомозиготных сегментов в килобазах

 

 

homozyg2
Уровни индивидуальной гомозиготности в выбороке: вдоль ости X отложено количество сегментов NSEG. Общая длина гомозиготных сегментов отображается осью Y

 

По окончанию описанных выше процедур фильтрации снипов и удаления «выбросов», окончательный набор данных представлял собой набор данных из 90 455 снипов и 317 человек (289 мужчин, 82 женщин). Эти данные были использованы в последующем анализе.

Прежде всего, мы использовали программу ADMIXTURE (Alexandre, Novembre, Lange 2009), в которой реализована модель оценки максимального правдоподобия (ML), т.е алгоритм кластеризации и оценки структуры популяции в наборе генетических данных (снипов).

В целях сохранения совместимости с MDLP калькулятором, я остановился  на модели, в которой выборка представлена в виде комбинации 7 предковых компонентов (K=7).  Индивидуальные значения процентной составляющей каждого компонента в индивидуальном геноме (матрица Q), была визуализированы в R (ниже приведен график с результатами участников проекта MDLP, полный список  доступен в этой таблице).

Результаты K=7

Полученные предковые компоненты (K=7) я обозначил следующими названиями (с сопутствующей цветовой легендой)**:

  • Транс-кавказский — красный
  • Балканском / средиземноморском -желтый
  • Северо-кавказский -зеленый
  • Западно-европейский
  • Алтайский — светло-голубой
  • Балто-славянский — темно-синий
  • Прибалтийско-финский / Северо-европейский -фиолетовый

**Как обычно, названия компонентов условны и  предназначены для мнемонических целей:  исследователи должны быть осторожными при интерполяции предполагаемых компонентов в анализе этнической истории популяций.

 

 

 

 

MDLP v4 components

 

 

 

На следующем этапе, я разбил все 371 индивидуальных «геномов» выборки на 22 фрагмента (каждый из которой соответствует аутосомной хромосоме) и затем использовал  программное обеспечение Admixture для оценки структуры популяционного вклада в каждую из 22 хромосом. После этого я использовал пайплайн для перевода формата Plink  в формат BEAGLE и последующего поэтапного преобразования фазированных данных BEAGLE обратно Plink формат.

Я предположил, что все образцы в моей выборке (представленной образцами VID)  проекта MDLP возникли в в результате смешивание 7 отдельных предковых групп населения. Данное предположение означает, что «чистые» референсные группы населения тесно связаны с истинными предковыми популяциями. Исходя из этого предположения мы снова задействовали программное обеспечение Admixture,  на этот раз с целью определения предковых компонентов в фазированном наборе данных из отдельных неполовых (аутосомных) хромосом.

Только после этой процедуры я смог использовать программу LAMP для определения уровня адмикса у отдельных индивидов. На практике, определение индивидуального уровня адмикса  означает применение любой из указанных выше процедур, в которй используется либо модель «локус-специфического происхождения» (в случае, если предковые группы популяции априори  неизвестны), либо модель «локус-специфического происхождения» гибридного населения.  Затем полученные значения  локус-специфического происхождения» отдельных сегментов в индивидуальном геноме усреднеяются и   получаются значения долей адмикса в индивидуальном геноме.

Я  расчитал в программном обеспечении Plink частоты аллелей (в стратифицированных по этническим признакам кластерах), и добавил в файл фиксированные частоты рекомбинации (определяются отдельно для каждой из 22 хромосом). Для моделирования динамического процесса смешивания предковых компонентов, я использовал различное количество поколений G ( 5, 10,25 поколений),  предполагая 3 хронологически разных варианта, в которых при  K = 7  предковые популяции A1, …, Ak,  перемешивались в течение G = 5,10,25 поколений.

Результаты экспериментов для каждой из хромосом размещены в отдельные таблицы Excel, каждый из файлов Excel включает в себя следующие разделы:

1) результаты Admixture для фазированных генотипов хромосомы (Chr * -phased)
2) результаты Admixture для нефазированных генотипов хромосомы (Chr * -unphased)
3) результаты LAMP для G = 5 (Chr * -lamp-GEN5)
4) результаты LAMP для G = 10 (Chr * -lamp-GEN5)
5) результаты LAMP для G = 25 (Chr * -lamp-GEN5)

Образец этих выходных данных можно посмотреть в файле Excel с результатами анализа хромосомы 1 (Chr1).

Новое обновление интерфейса Ancestral_Compositon в 23 и эксперимент с SupportMix

Вступление

Эта заметка будет посвящена взаимосвязанным понятиям «chromosome painting» и адмикс. Современная генетика и персональная геномика на протяжении последних 2-5 лет, уделили большое внимание этим  понятиям под рубрикой «определения происхождения отдельных геномных сегментов».

В 2011 году я провел пару экспериментов с  программного обеспечения  Lamp в своем проекте MDLP(см. Experimental test III: (De)constructing ancestry with LAMP  и Experimental test: estimating ancestries at each locus in a population of admixed individuals (LAMP))). Хотя эксперименты и увенчались определенным успехом, я не был полностью удовлетворен результатами и решил отложить эксперименты с chromosome_painting на будущее. При этом я отметил для себя принципиальное различие между алгоритмами стратификации населения, реализованными в LAMP и программе ADMIXTURE.

Я уже обсуждал различия между LAMP и ADMIXTURE, но в целях иллюстрации идеи моего научного эксперимента, необходимо еще раз обратиться к моим предыдущим объяснениям :

1) Программное обеспечение Admixture реализует модель на основе подхода к оценке коэффициентов происхождения в качестве параметров статистических моделей. Важно также добавить, что модель подхода ADMIXTURE  основана на глобальной парадигме происхождения (т.е. целью анализа в программах ADMIXTURE / STRUCTURE  является оценка удельной доли генетического наследия каждой из предковых K-популяций, причем эта доля рассматривается как усредненная  по всему геному отдельно взятого индивида).

2) Программное обеспечение LAMP построено на эффективном динамическом алгоритме программирования Winpop, который исследует конкретное происхождение каждого из генетических локусов. В ходе выполнения рабочего цикла программы, анализируемый геном разбивается на перекрывающиеся сегменты-смежные «окна SNP» хромосом определенного генеалогического происхождения, причем степень вероятности модели оптимизируется в каждом из этих окон. Конечная цель — обнаружение границ дискретного хромосомного блока и назначение ему конкретного генографического происхождения.
Я понимаю, что проблема задана уже самой постановкой вопроса определения происхождения хромосомных сегментов. Мой опыт показывает, что методы, основанные на установлении конкретных локусных генеалогии, как правило, очень точны в деконволюции генотипных данных. Как уже было показано ранее, эти методы —  в сравнении с  более популярными статистическими методами, лучше справляются с задачей  за счет введения в модель более двух «предковых» популяций, а также за счет  моделирования путей рекомбинации между предковыми сегментов.

В июне 2012 года,  Jason Mezey Lab (Cornell University) выпустила SupportMix -ПО с  алгоритмом машинного обучения для определения предкового происхождения геномных сегментов при анализе отдельных лиц из популяций с недавней или древней историей «cмешения популяций». Что касается точности программного обеспечения, то согласно утверждению авторов,  SupportMix обеспечивает надежный инструментарий для точной и надежной оценки генографического происхождения предков. Как представляется, такой анализ будет иметь решающее значение для точного назначения предковых компонентов во многих из известных смешанных групп населения по всему миру; причем некоторые могут иметь совершено неожиданное происхождение,  ранее  неизвестное из антропологических и исторических исследований. Экспериментальные исследования показали, что точность реконструкции родословной по генетическим данным была ниже для близкородственных групп популяций, но выше, чем при использовании методов LAMP-АНC, которые, как был показано ранее, превосходят другие методы деконволюции происхождения.

Это слишком оптимистичный вывод повлиял на мою выбор между LAMP-АНС и SupportMix в пользу последнего. Честно говоря, я не первый геномный блоггер, который решил использовать Supportmix — в июле 2012 года Polako из проекта Eurogenes осуществил анализ  финнских геномов с использованием программы SupportMix. Я решил повторить этот эксперимент. Тем не менее, имеется существенная разница между анализом Polako и моим экспериментом. В то время как анализ Polako ограничивался использованием современных популяций в качетсве  «предполагаемых популяций-доноров», конечной целью моего проекта была имитация результатов долгожданного предстоящего обновления Ancestry Painting 23andMe (в начале декабря это приложение наконец-то обновилось, и теперь  предлогает более подробные результаты, основанные на приблизительно 20 мировых регионов, составленных как на основании генетических данных клиентов, так и ​​академических референсных групп. С этой целью, я использовал фиктивный набор из 22 моделируемых предполагаемых предковых популяций, симулированных в программе Plink на ччастотах аллелей 22 компонентов в моем калькуляторе World-22.

Эксперимент

SupportMix требует, по крайней мере, три входные файла. Один файл для каждой из предполагаемых предковых популяцій и один файл, содержащий генетическую информацию лиц смешенного требования. Генотипы  должны быть приведены в гаплоидную фазу. Каждая популяция должно быть представлено двумя файлами в форматах транпонированного Plink: TPED и TFAM.

В эксперименте я использовал 80 тысяч  генетических маркеров (80751 SNP), которые были предварительно похромосомно отфазированы с использованием дефолтных настроек в  программном обеспечении BEAGLE. В то время как оригинальный формат Plink не задает эксплицитный порядок аллелей в файле, SupportMix работает с фазированным данными, в которых порядок аллелей имеет решающее значение. Помятуя об этом, я преобразовал  отфазированные в BEAGLE данные непосредственно в TPED формате Plink, минуя тем самым предварительную обработку в Plink. После этого  я воспользовался  UNIX утилитами для обработки текста, чтобы извлечь генотипы из предковых популяций  в соответствующие подмножества (‘референсы’) и разделить выборку проект MDLP  (93 человек) на 9 подгрупп.

Наконец, я интерполировал генетическую дистанцию и положение каждого SNP вдоль хромосомы с использованием генетических карт Rutgers.
При запуске рабочего цикла SupportMix был использован конфигурационный файл с настройками по умолчанию: (window_size = 400, generations_from_admixture_event = 6).

После поэтапных запусков, был получен набор из «хромосомных мозаик» для всех 22 пар хромосом каждого из участников проекта.
Чтобы сделать сравнение с Ancestry Composition oт 23andme более наглядным, я путем нехитрых манипуляций в программе GIMP сообрал свой графический аналого Ancestry Composition, но на этот раз с использованием данных от SupportMix:

Хромосомная мозаика по данным от SupportMix.

Сравнение кастомной хромосомной мозаики с новой диаграммой Ancestry Composition/23andme

Как я уже упоминал выше, в начале декабря сего года, лаборатория 23andme благополучно разрешилась новым интерфейсом «хромосомной мозаики». Он выглядит примерно следущим образом (в режиме Speculative Estimates/ Vadim Verenich’s populations):

ac

Следует признать, что прямое сравнение двух графов — моего кастомного и нового графа от 23andme — вряд ли возможно, т.к мой граф более детальный и компоненты сгруппированы не по современному географическому признаку (как в 23andme), а по степени близости предковых популяций (компонентов).  Кроме того заметно, что степень детализации в 23andme ниже (за счет редукции мелких сегментов), поэтому многие участки сегментов, которые 23andme определяет как «балканские» оказываются на поверку состояющими из атлантическо-средиземноморского или ближневосточного компонента.  Северо-европейский компонент у  23andme частично перекрывается с мезолитическим-северо-европейским и северо-восточно-европейским компонентом в MDLP. И так далее.

Для лиц русского происхождения самой досадной промашкой следует признать отсутствие в 23andme специфических сибирских компонентов. Многие русские люди, особенно из северных и восточных регионов РФ имеет значительный процент сибирских генов. Неспоспособность Ancestry Сomposition уловить сигнал их присутствия должна критическим образом сказаться на результатах.