SNPweights: использование модели калькулятора K16 для анализа главных компонентов происхождения

Ранее я уже отрапортовал о создании двух новых моделей для стандартного этно-популяционного калькулятора, в разработке которых использовались геномы людей, cамостоятельно указавшими свое происхождение (self-reported ancestry).
К сожалению, очень часто субъективная оценка собственного происхождения (указываемого респондентами в опросниках) недостаточно надежна для статистических методов анализа происхождения, поскольку некоторые люди либо сообщают ложные сведения о своей родословной или же просто не знают о своем истинном происхождении. Что еще хуже, — во многих публичных популяционных выборках мы не находим никаких  сведений о точном этническом составе людей в выборке . Как многие из вас знают,  существует множество способов достаточно точной оценки происхождения индивида на основе данных SNP генотипирования.

Самый простой способ сводится к следующему: сначала исследователь объединяет генотипы из своего исследования с генотипами образцов в референсной панели (например: HapMap или 1000 геномов),  затем находит пересечение SNP-ов в каждом наборе данных, а затем запускает программу кластеризации, чтобы увидеть, каким образом образцы исследования группируются с популяциями референсных панелей.  В принципе,  сам процесс несложный, но требует немало времени

К счастью, в 2014 году лабораторией Alkes была предложена программа которая, по сути, значительно облегчает процесс, выполняя большую часть работу за вас. Программа называется SNPWEIGHTS и можно скачать здесь.  Говоря простым языком, программа принимает  в качестве входных данных генотипы SNP-ов, самостоятельно находит пересечение генотипов SNP с генотипами в эталонной выборке , рассчитывает веса SNP-ов на основе предварительно настроенных параметров, чтобы построить первую пару главных компонентов (иначе говоря,  cобственных векторов), а затем вычисляет процентное значение происхождения индивидуума из каждой предковой популяции (кластера).

Для того, чтобы запустить программу, необходимо убедится в том, что в вашей системе установлен Python, и что ваши данные генотипирования приведены в формате EIGENSTRAT. Краткую инструкции по преобразованию в формат EIGENSTRAT с помощью инструмента convertf можно почитать здесь.  Данные аутосомного генотипирования FTDNA или 23andme можно напрямую преобразовать в формат EIGENSTRAT с помощью утилиты aconv от Феликса Чандракумара (либо любого самописного софта).

Затем необходимо загрузить сам пакет SNPWEIGHTS и референтную панель с весами снипов.

  • Панель весов SNP для популяций Европы и Западной Африки можно скачать здесь.
  • SNP веса для населения Европы, Западной Африки и  Восточной Азии можно скачать здесь.
  • SNP веса для населения Европы, Западной Африки, Восточной Азии и популяций американских индейцев можно скачать здесь.
  • SNP веса для популяций северо-западной, юго-восточной части Европы, ашкеназских евреев и можно скачать здесь.

Затем необходимо создать файл параметров par.SNPWEIGHTS с названиями входных файлов EIGENSTRAT, референтной панели, и файл c результатами. Например:

input_geno: data.geno
input_snp: data.snp
input_ind: data.ind
input_pop: CO
output: ancestry.txt

И, наконец, нужно запустиь программу с помощью команды inferancestry.py —par par.SNPWEIGHTS. Для того чтобы программа работала, убедитесь, что inferancestry.info и  файл референтной панели  находятся в том же каталоге, что и файл inferancestry.py.

Полученные результаты можно использовать для разных целей. Например,  можно сгенерировать два информативные графика.

Первый график — обычный график PCA c двумя первыми компонентами (собственными векторами) и наложенный на график процентный расклад компонентов происхождения:

Второй треугольный график, на каждом отрезке которого , представлен процентный вклад одной из трех исконных групп популяции (например: Европы, Африки и Азии, в случае с нашими данными этот пример можно заменить на европейских охотников-собирателей, земледельцев неолита и степных скотоводов эпохи бронзы).

Вот простой код генерирования этих графиков в R. В программе R нет базовых пакетов для построения триангулярных графиков, поэтому  нужно будет сначала установить пакет plotrix. Ancestry.txt  — это файл полученный на выходе из SNPWEIGHTS:

# EV Plot with Percent Ancestry Overlay
data=read.table("ancestry.txt", as.is=T, header=F)
names(data)
plot(data$EV1, data$EV2, pch=20, col="gray", xlab="EV1", ylab="EV2")
text(data$EV1, data$EV2,labels=round(data$EUR,2)100, cex=0.4, offset=0.1, pos=3)
text(data$EV1, data$EV2,labels=round(data$AFR,2)
100, cex=0.4, offset=0.1, pos=2)
text(data$EV1, data$EV2,labels=round(data$ASN,2)*100, cex=0.4, offset=0.1, pos=1)
#Triangle Plot
data$total=data$EUR+data$AFR+data$ASN # Need to account
data$European=data$EUR/data$total # for slight rounding
data$African=data$AFR/data$total # in the ancestry
data$Asian=data$ASN/data$total # estimation file for
data_p=data[c("European","Asian","African")] # triax.plot to work
library(plotrix)
triax.plot(data_p, pch=20, cc.axes=T, show.grid=T)

 

Разумеется, размещенные на сайте разработчика референтные панели носят ограниченный характер. Поэтому я решил заполнить пробелы, преобразовав аллельные частоты SNP-ов в 16 предковых компонентах в 16 синтетических «чистых» предковых популяций, каждая из которых состояла из 200 синтетических индивидов («симулянтов») состоящих на 100 процентов из одного компонента происхождения в модели K16). Файл с генотипами 3200 «симулянтов» я использовал для вычисления весов снипов в каждом компоненте. Продвинутые пользователи, желающие протестировать модель K16 до ее публичного релизма, могут скачать полученный файл с весами снипов  здесь, а затем, cледуя приведенным выше инструкциям, использовать его в качестве референтной панели (а затем сравнить свои результаты с усредненными результатами разных этнических популяций).

Я протестировал веса снипов в модели K16 (выражаю признательность автору программу Чену за помощь), и обнаружил, что между данными калькулятора и данными SNPWEIGHTS расхождения носят незначительный характер, хотя похоже, что SNPWEIGHTS не так сглаживает минорные компоненты происхождения (что позволяет легче выделить в пространстве главных компонент кластеры):

test (1)

LAMP: инструмент для анализа «локального происхождения» геномных сегментов

В этом посте мы продолжим обсуждение существующих методик и инструментов анализа т.н «локального происхождения» отдельных сегментов хромосом в человеческом геноме (под локальным происхождением здесь подразумевается предпологаемое географическое происхождение дискретного сегмента одной их двух парных аутосомных хромосом в геноме человека).

Ранее эта тема поднималась в описании программы SupportMix, а также в сжатом изложении методологии оценки происхождения хромосомных сегментов (инструмент PCAdmix).  Данная заметка будет посвящена третьему инструменту — LAMP (Local Ancestry in adMixed Populations) (Sankararaman et al.2008).

Очевидно, что алгоритмы определения локального происхождения отдельных сегментов человеческих хромосом могут дать неплохие результаты при комбинированном использовании программ PLINK /ADMIXTUIRE/LAMP: например, комбинация этих программ позволяет довольно точно определить не только стратификацию отдельных этно-популяционных групп,  но также и уровень «адмикса» у отдельных людей. Поскольку одна из задач нашего проекта MDLP состояла в определении практических и теоретических преимуществ и/или ограничений конкретных методологий биоинформатического анализа полных генома, я провел эксперимент, позволяющий прояснить ряд ограничений, которые значительно уменьшают уровень достоверности результатов  субструктуры аутосомного генофонда населения Европы.

В качестве инструмента контроля качества комбинированного набора данных (аутосомных SNP-ов 22 хромосом) я использовал Plink, с помощью которого я выбрал для последующего анализа только качественные снипы (99% генотиприрования),  частоты минорных аллелей которых превышают 1%.

Поскольку этно-популяционный фон неравновесного линикиджа марекеров (LD) может существенным образом влиять на основные компоненты субструктуры популяции, я исключил из выборки маркеры, характеризующиеся статистически значимым уровнем LD (с коэффициентом попарной корреляции r2 Пирсона > 0,4) в «скользящем окне» из 100 снипов  с пошаговым сдвигом на 10 снипов. Кроме этого, я также использовал  другие методы Plink для получения однородной выборки  — например, кластеризации на основе IBS для обнаружения пары индивидов (outliers) с  уровнем «родства», значительно более высоким, чем у пары выбранных случайным образом индивидов в однородной популяции.  Под более высоким родством здесь понимается  резко отклоняющиеся значения (более 3 стандартных отклонений) парных значнений IBS по отношению к остальной части выбаки, а также случаи с высоким значения PIHAT (более 0,05) и  высокой степень инбридинга (гомозиготности*). Индивиды с подобными аномальными значениями («выбросы») были удалены из  «обучающего» подмножества нашей выборки .


* В программе Plink степень инбридинга определяется через вероятностную функцию гомозиготности.

 

homozyg
Стратификация образцев в соответствии с уровнями гомозиготности. Вдоль оси Х отображена общая сумма гомозиготных сегментов в килобазах; вдоль Y-оси — средний размер гомозиготных сегментов в килобазах

 

 

homozyg2
Уровни индивидуальной гомозиготности в выбороке: вдоль ости X отложено количество сегментов NSEG. Общая длина гомозиготных сегментов отображается осью Y

 

По окончанию описанных выше процедур фильтрации снипов и удаления «выбросов», окончательный набор данных представлял собой набор данных из 90 455 снипов и 317 человек (289 мужчин, 82 женщин). Эти данные были использованы в последующем анализе.

Прежде всего, мы использовали программу ADMIXTURE (Alexandre, Novembre, Lange 2009), в которой реализована модель оценки максимального правдоподобия (ML), т.е алгоритм кластеризации и оценки структуры популяции в наборе генетических данных (снипов).

В целях сохранения совместимости с MDLP калькулятором, я остановился  на модели, в которой выборка представлена в виде комбинации 7 предковых компонентов (K=7).  Индивидуальные значения процентной составляющей каждого компонента в индивидуальном геноме (матрица Q), была визуализированы в R (ниже приведен график с результатами участников проекта MDLP, полный список  доступен в этой таблице).

Результаты K=7

Полученные предковые компоненты (K=7) я обозначил следующими названиями (с сопутствующей цветовой легендой)**:

  • Транс-кавказский — красный
  • Балканском / средиземноморском -желтый
  • Северо-кавказский -зеленый
  • Западно-европейский
  • Алтайский — светло-голубой
  • Балто-славянский — темно-синий
  • Прибалтийско-финский / Северо-европейский -фиолетовый

**Как обычно, названия компонентов условны и  предназначены для мнемонических целей:  исследователи должны быть осторожными при интерполяции предполагаемых компонентов в анализе этнической истории популяций.

 

 

 

 

MDLP v4 components

 

 

 

На следующем этапе, я разбил все 371 индивидуальных «геномов» выборки на 22 фрагмента (каждый из которой соответствует аутосомной хромосоме) и затем использовал  программное обеспечение Admixture для оценки структуры популяционного вклада в каждую из 22 хромосом. После этого я использовал пайплайн для перевода формата Plink  в формат BEAGLE и последующего поэтапного преобразования фазированных данных BEAGLE обратно Plink формат.

Я предположил, что все образцы в моей выборке (представленной образцами VID)  проекта MDLP возникли в в результате смешивание 7 отдельных предковых групп населения. Данное предположение означает, что «чистые» референсные группы населения тесно связаны с истинными предковыми популяциями. Исходя из этого предположения мы снова задействовали программное обеспечение Admixture,  на этот раз с целью определения предковых компонентов в фазированном наборе данных из отдельных неполовых (аутосомных) хромосом.

Только после этой процедуры я смог использовать программу LAMP для определения уровня адмикса у отдельных индивидов. На практике, определение индивидуального уровня адмикса  означает применение любой из указанных выше процедур, в которй используется либо модель «локус-специфического происхождения» (в случае, если предковые группы популяции априори  неизвестны), либо модель «локус-специфического происхождения» гибридного населения.  Затем полученные значения  локус-специфического происхождения» отдельных сегментов в индивидуальном геноме усреднеяются и   получаются значения долей адмикса в индивидуальном геноме.

Я  расчитал в программном обеспечении Plink частоты аллелей (в стратифицированных по этническим признакам кластерах), и добавил в файл фиксированные частоты рекомбинации (определяются отдельно для каждой из 22 хромосом). Для моделирования динамического процесса смешивания предковых компонентов, я использовал различное количество поколений G ( 5, 10,25 поколений),  предполагая 3 хронологически разных варианта, в которых при  K = 7  предковые популяции A1, …, Ak,  перемешивались в течение G = 5,10,25 поколений.

Результаты экспериментов для каждой из хромосом размещены в отдельные таблицы Excel, каждый из файлов Excel включает в себя следующие разделы:

1) результаты Admixture для фазированных генотипов хромосомы (Chr * -phased)
2) результаты Admixture для нефазированных генотипов хромосомы (Chr * -unphased)
3) результаты LAMP для G = 5 (Chr * -lamp-GEN5)
4) результаты LAMP для G = 10 (Chr * -lamp-GEN5)
5) результаты LAMP для G = 25 (Chr * -lamp-GEN5)

Образец этих выходных данных можно посмотреть в файле Excel с результатами анализа хромосомы 1 (Chr1).

Этногеномика беларусов — часть IV

Анализ структуры аутосомного генофонда популяции беларусов: результаты анализа этнического адмикса.

 

После проведения анализа этно-популяционного адмикса мы получили следущие результаты, обсуждению которых будет посвящена следущая часть нашего исследования. Результаты представляют собой разбивку аллельных частот на 22 кластера, каждый из которых представляет собой гипотетическую предковую популяцию. Поскольку в цели данного небольшого исследования не входит подробный анализ всех популяций, мы ограничимся сравнительном анализом структуры (компонентов) беларусов c географически близкими популяциями, а также с теми популяциями, которые могли входить в исторические контакты с предками современных беларусов:

admix

 

Рисунок 3. Результатыанализа ADMIXTUREK=22

У рассматриваемых здесь европейских популяций наиболее часто представлены следующие компоненты:

North-East-European,Atlantic_Mediterranean_Neolithic,North-European-Mesolithic, West-Asian, Samoedic, Near_East.

Разберем вкратце каждый из них. В ракурсе нашего исследования самым важным компонентом представляется – северо-восточно-европейский компонент North-East-European, он присутствует почти у всех европейцов, и в самой значительной степени — у балтов и славян: литовцы (81,9), латыши (79,5), беларусы (76,4), эстонцы (75,2), поляки (70,2), русские (67- 70,4), украинцы (62,1- 67,1), сорбы (65,9), карелы (60,2), вепсы (62,5), чехи (57,4), северные немцы (54,6), южные- 42,6, у британцев от 46 до 49, норвежцы- 48,1, шведы- (53,7).

Второй по значимости компонент — Atlantic_Mediterranean_Neolithic (юго-западно-европейский или просто западно-европейский неолитический компонент).[1]У восточноевропейцев он выражен в умеренной степени- чехи (27,8), поляки (18,4), украинцы ( от 17 до 21%), беларусы (13%), русские (от 11 у северных до 17,3 у южных), у коми (8,9 %), манси (8,8 %).

Третьй компонент – северо-европейский мезолитический компонент -North-European-Mesolithic[2]: cаамы (76,4 %), финны (от 30,1 до 37,3 %), вепсы (24,1), карелы (23,2), ижорцы (22, 7). Заметен этот компонент и у северных русских (10,5 %), норвежцев (9,8 %), шведов (7,8 %), эстонцев (7,1 %). У беларусов он практически отсутствует (1.1%).

Четвертый компонент – западно-азиатский (кавказский) West Asian[3]. На интересуемой нас территории этот компонент чаще встречается у казанских татар (9,9 %), южных немцев (8,4), украинцев (от 6,6 до 7,7 %), южных русских (6,2%). На западе высок процент у итальянцев (21,5 % у центральных итальянцев), французов (6,7 %), у беларусов (2.2%).

Пятый компонент — уральский Samoedic. Значительно присутствует у селькупов (68,1%), хантов (64,6), ненцы (37,1), манси (30,9 %-), удмурты (29,6), марийцы (27, 8), шорцы (22,0 %), башкиры (21,7%), чуваши и хакассы по 17,6 %, коми- 16,4 %, казанских татар (11,9 %). У западноевропейцев этот компонент практически не встречается, у русских (от 1,0% у центральных до 4,7 % у северных), у карел (1,6%), словаков (1,4%), западных украинцев (1,7 %), беларусы (0.5%).

Шестой компонент – ближневосточный Near_East[4]У южных немцев (3,5), украинцы (от 2,3 у восточных до 3,8 % у западных), чехи (3,0), беларусы (3,4), словаки (3,2), у русских от 1,0 до 1,5%, у литовцев- 1,4%, у поляков- 1,3 %.

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[1]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[1]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[1]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

Анализ разделяемых аутосомных сегментов между популяциями Северо-Восточной Европы.

С целью верификации результатов анализа главных компонентов генетического разнообразия я подготовил новую выборку популяций, которая включает в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.В ходе нового экспериментального теста в ходе статистической обработки общих по генетическому происхождению сегментов хромосом в составе выборки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, т.е размера той популяции которая участвовала в репродукции или обмене генами в некоем отдаленном временном промежутке. Собственно говоря, эффективная популяция – это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955). Новая программа Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение составило 22 000. Это близко к значениям Neрекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных ниже результатов, даже 22 000 для совокупности эффективного размера элементарных популяций – это более, чем достаточно.

 

finest

Рисунок 4. Расположение популяций в пространстве 1 и 3 главных генетических компонентов

 

Изложим ниже некоторые закономерности размещения популяци

 

  1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
  2. Все литовцы (участники проекта + референсы из вышеупомянутой статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев

  3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.

  4. Ниже находится балканский кластер (румыны, болгары и часть венгров).

  5. К этому кластеру примыкают турки и часть армян

  6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов).

  7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.

  8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

  9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

  10. Левее этой группы популяций находится кластер ашкеназов.

  11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

  12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

  13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

  14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

  15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).[5]

 

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[2]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[3]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[4]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

[5]Такое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции.То есть все эти баски являются многократными родственниками между собой т.е., положение басков на графике есть следствие классического генного дрейфа, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества sharedDNAchunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.

Исходя из этого можно сделать вывод о том что баски эта экстремально-эндогенная популяция изолянтов, при этом генетическое разнообразие басков низко, т.к. размер эффективной популяции басков низок.

Этногеномика беларусов — часть III

Анализ этно-популяционного адмикса

 

В ходе следующеего этапа, окончательный набор данных по референсным популяциям (которые я храню в linkage-формате PLINK) был обработан в программеAdmixture. Во время выбора подходящей модели проведения теста на этно-популяционный адмикс, мы столкнулись с крайне трудной задачей: как было показано в профильных научных исследованиях (Pattersonetal.2006) количество маркеров, необходимых для надежной стратификации популяций в анализе обратно пропорциональна генетическому расстоянию (фСТ) между популяциями. Согласно рекомендациям пользователей программы Admixture, считается что примерно 10 000 генетических SNP-маркеров достаточно для выполнения интер-континентальной GWAS-коррекции обособленных популяций (например, уровень дивергенции между африканскими, азиатскими и европейскими популяциями FST> 0.05), в то время как для аналогичной коррекции между внутриконтинентальными популяциями требуется более чем 100000 маркеров (в Европе, например, ФСТ < 0.01). Для повышения точности результатов Admixtureмы решили использовать метод, предложенный Dienekes. Этот метод позволяетпреобразовать частот аллелей в “синтетические” индивиды (см. такжепример Зака Аджмалаиз проекта HarappaDNA). Идея метода довольно проста: сначала необходимо запустить unsupervisedанализ Admixtureс целью вычисления частот аллелей в так называемых предковых компонентов, а затем на основании аллельных частот сгенерировать “фиктивные популяции”. Именно эти фиктивные популяции и индивиды будут использоваться в ходе чистых референсов в ходе последующего анализа этно-популяционного анализа. Впрочем, как и любые другие исследователи, работающий над четким решением проблемы этно-популяционного адмикса, мы были вынуждены считаться с ограничениями этого подхода. Хотя мы отдаем себе отчет в существовании явных методологических подвохов в использовании смоделированных искусственных индивидов для определения адмикса в реальной популяции, мы полагаем что полученные в ходе аллельно-частотного моделирования “фиктивных индивидов” представляют самую лучшую аппроксимацию древних генетических компонентов предпологаемых древних компонентов. В ходе применения простого моделирующего метода, нами были получены значимые результаты в ходе создания нового калькулятора. Сначала мы произвели unsupervisedAdmixture(при значении К = 22, т.е 22 кластера частот аллель или предковых компонентов). По выполнению анализа нами были получены оценки коэффициентов адмикса в каждой из этих 22 аллельных кластеров, а также частоты аллелей для всех SNP-ов в каждой из 22 родовых популяций.

Затем мы использовали мнемонические обозначения для каждого компонента (имена для каждого из компонентов выведены в порядке их появления). Нужно помнить, что обозначения этих компонентов носят скорее мнемонический условный характер:

Pygmy

West-Asian
North-European-Mesolithic
Tibetan
Mesomerican
Arctic-Amerind
South-America_Amerind
Indian
North-Siberean
Atlantic_Mediterranean_Neolithic
Samoedic
Proto-Indo-Iranian
East-Siberean
North-East-European
South-African
North-Amerind
Sub-Saharian
East-South-Asian
Near_East
Melanesian
Paleo-Siberean
Austronesian

Вышеупомянутые частоты аллель, вычисленные в ходе unsupervised(безнадзорного) анализа (AdmixtureK= 22) объединенного набора данных, были затем использованы для симуляции синтетических индивидов, по 10 индивидов на каждую из 22 предковых компонент. Это симуляционное моделирование проводилось с помощью PLINKкоманды -simulateРасстояние между между симулированными «искусствеными» индивидами было визуаилизировано с использованием многомерного масштабирования.

simul

На следущем этапе, я включил группу смоделированных индивидов (220 индивидов) в новую эталонную популяцию. После чего я запустил новый анализ А, на этот раз в полном “поднадзорном” режиме для K= 22, причем полученные в ходе симуляционного моделирования фиктивные популяции фиктивных индивидов использовались в качестве новых референсных эталонных групп. На конвергенцию 22 априорно заданых предковых компонентов было затрачено 31 итераций (3 7773,1 сек) с окончательным loglikelihood: -188032005,430318 (ниже, на следущей странице, приведена таблица значений Fst между расчетными ‘предковыми’ популяциями):

fst dist

Рисунок 1. FST-дистанции между компонентами

 

Приведенная выше матрица Fstдистанций была использована для определения наиболее вероятной топологии NJ-дерева всех 22 предковых компонентов ( примечание: в качестве outgroup-таксона использовался South-Africancomponent).

Этногеномика беларусов — часть II

Анализ структуры аутосомного генофонда популяции беларусов: методы, технические параметры и предварительные замечания.

 

В целях сопоставимости выводов данных анализа с приведенными выше выводами профессиональных популяционных генетиков, мы использовали в своем исследовании референтную выборку беларусовиз ДНК-банка Института Генетики Беларуси в том же объеме, в котором она была задействована в исследовании группы ученных под руководством Бехара (модифицированная выборка Генбанка с кодом доступа:GSE21478)[1]. Наряду с референтной группой беларусов (обозначена как Belarusian), мы использовали данные лиц беларуского происхождения из нашего собственного проекта этно-популяционного анализа лиц, предки которых проживали на территории Беларуси минимум 100-150 лет(обозначено как Belarusian_V).

Для проведения сравнительного анализа генофонда популяций нам понадобился референтный набор популяций. Референтный набор популяций в этом калькуляторе был собран в программе PLINK  методом “intersection&thinning” ( дословно “пересечением и истончением”) образцов из различных источников данных:HapMap 3(отфильтрованный набор данных КЕС, YRI, JPT, CHB),1000genomes, Rasmussen et al. (2010), HGDP (кураторская база данных Стэнфордского университета), Metspalu et al. (2011), Yunusbayev et al (2011),Chaubey et al. (2010)и т.д. Кроме того, мыотобралипроизвольным образом по 10 сэмплов (или максимальное количество доступных сэмплов в тех случаях, когда общее число сэмплов в популяции было меньше 10) от каждой европейской страны, представленной в панеле базе данныхPOPRES.Наконец, для того чтобы оценить степень корреляции между современным и древним генетическим разнообразием населения Европы, мытакже включилив выборку образцы древней ДНКЭци(Keller et al. (2012)) , образцы жителей шведского неолита Gök4, Ajv52, Ajv70, Ire8, STE7 (Skoglund et al. (2012))и 2 образца La Braña – останков мезолитических жителей Пиренейского полуострова (Sánchez-Quinto et al.(2012)).

Затем мыдобавили90 образцов – анонимизированных данных — участников моего проекта. После слияния вышеупомянутых наборов данных и истончения набора SNP с помощью особой команды PLINK, мыисключилиSNP-ы с менеечем 0.5% минорных аллелей. Послечего мыотфильтровал дубликаты, лиц с высоким уровнем общих по происхождению идентичных сегментов (IBD). В качестве критерия фильтрации были использованы расчеты IBD в Plink, где IBD представлена как средняя доля аллелей общих между двумя людьми по всем анализируемым локусам. Затем мыудалилииз выборки лиц с высоким коэффициентом предпологаемого родства, коэффициенты родства были вычислены в программном обеспеченииKing).

Для получения более стабильных результатов, мытакже отфильтровалисэмплы с более чем 3 стандартными отклонениями от средних данных по популяции. Поскольку коэффициент родства может быть надежно определен с помощью оценки HWE (ожидания, вытекающего из законаХарди-Вайнберга) между SNP-ами с той же базовой частотой аллелей, то SNP-ы с существенным отклонением (p < 5.5 x10−8) от ожидания Харди-Вайнберга были удалены из объединенного набора данных. После этого мывыделилите SNP-ы, которые присутствовали в чипах Illumina / Affymetrix, и затем произвелифильтрацию снипов на основе расчетов степени неравновесного сцепления (в этом эксперименте мыиспользовалтхромосомное ‘окно’ размером в 50 базовых пар, с шагом 5 базовых пар и пороговым значением уровня сцепления R ^ 2, равным 0,3).

По окончанию этой сложной последовательности операций, мыполучил окончательноый набора данных, который включал в себя 80 751 снипов, 2516 человек и 225 референсных популяций.

 

[1] http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE21478

Перспективы изучения линкаджа в плане определения генеалогической наследственности в изолированных популяциях (заметки доктора К.Булаевой)

По просьбе уважаемой К.Булаевой, я произвел анализ линкаджа в отдельном регионе 6 хромосомы в одной популяционной выборке (какая именно это была выборка, я точно не могу сказать).

Kazima Bulayeva:

Привет Вадим, LD? а admixture ? Мы же как договорились -результаты вместе смотрим ваши и мои -решаем их совместную публикацию. О моих линкадже я говорила. Что LD показало? По идее более узкий регион? Но этот метод-ассоциативный, а у меня нет выборки здоровых….не соображу что может дать этот метод нам. Расскажите плиз что получилось и далее детально обсудим, идет?

Vadim Viarenič-Stachowski: Просто Вы ничего не говорили про admixture

Vadim Viarenič-Stachowski: А сейчас я обработал Ваши данные в программе Haploview.

Kazima Bulayeva: Вадим, я же почти не знаю этот метод. То, что я знаю -это когда изучают в популяциях -можно определить степень геномной гетерогенности в популяции и даже у каждого члена.

Vadim Viarenič-Stachowski: Ее отличие — она позволяет показать блоки с высоким сцеплением наглядно.
http://www.broadinstitute.org/scientific-community/science/programs/medical-and-population-genetics/haploview/screenshots-0

Vadim Viarenič-Stachowski: То есть выявить блоки LD или гаплоблоки

Kazima Bulayeva: Я думаю как раз сейчас -что может дать LD по снипам в хр 6 в дополнении к линкадже? Прежде всего, линкадже я делала на основе STR сканированных по 10 сМ по всему геному каждого…но как понимаете -это too spread. LD может уловить тоньше локус такого сцепления…единственно —как нам сравнить с нормой? Может быть HapMap для контроля?

Vadim Viarenič-Stachowski: Ok, но для вычисления геномной гетерогенности нужны GWAS-данные. Одной хромосомы маловато будет.

Kazima Bulayeva: по популяциям? Да, согласна

Vadim Viarenič-Stachowski: Так Вам нужны результаты анализа в Haploview?

Kazima Bulayeva: Блок 1 -какие снипы включает?

Vadim Viarenič-Stachowski: Я напримре видел такие вот треугольные плоты в презентациях Степанова

Vadim Viarenič-Stachowski: В графике все подписано

Vadim Viarenič-Stachowski: с обозначением снипа в rs-формате.

Kazima Bulayeva: снипы какие-то другие названия…rs….по идее должны быть ?

Vadim Viarenič-Stachowski: Так ведь это не мой график )), а в качестве примера с сайта программы на Broad Instutute )

Vadim Viarenič-Stachowski: Я справшивал другое — Вам нужны графики такого формата?

Kazima Bulayeva: Нет. Давайте сформулируем задачу: у нас есть данные из 4-этнически разных изолятов с высоким сцеплением с SCZ в 6p21. В сцепленном регионе локализовано около 25 генов…много генов-большой отрезок генома -около 10 сМ т.к STRs/ Что позволят определить снипы? Не все эже 25 генов связаны -а какие-то 1-2 гена из общего числа. Поэтому снипы и LD могут помочь выявить из числа 25 те именно гены которые сцеплены с заболеванием. Согласен с задачей?

Kazima Bulayeva: мне кажется логично поставленный вопрос. и LD вполне адекватный инструмент даже без контроля, т.к. мы его используем как 2-й этап углубления в мезанизм установленного в родословных сцепления

Kazima Bulayeva: permutation p -недостоверен нигде?

Kazima Bulayeva: Вадим, далее: если ы ЛД мы установили внутри сцепленного с STRs региона блоки снипов у больных-мы можем проверить функциональную роль снипов-типа интрон или экзон и в каких генах…т.е. выявляем конкретные гены и геномнын механизмы

Vadim Viarenič-Stachowski: Разумно.

Vadim Viarenič-Stachowski: Хорошо, я перешлю Вам выходные данные из своего анализа, а потом подумаем каких применить и что ценного можно извлечь.

Kazima Bulayeva: статическая достоверность есть у блоков ? Всего 3 блока выявляются? и наверняка мы сможем определить их цитобанды и гены в блоках? Еще-я сделал CNV и LOH в этой же хромосоме. Мы сможем посмотреть эти блоки в LD на предмет указанный аберраций

Kazima Bulayeva: по-моему должно что-то быть выявлено интересное с добавлением LD по снипам—

Vadim Viarenič-Stachowski: Вот и ладненько. Сегодня или завтра перешлю.

Kazima Bulayeva: Вадим, а вы в Stanley Center работаете?

Kazima Bulayeva: там по писихиатрической генетике работы давно проводятся….Не смогли бы узнать-есть ли у них возможность для типирования снипов? у меня есть ДНК из родословных с психопатологией и с STRs

За кулисами: как создавался этно-популяционный калькулятор World-22

Летом 2011 года я создал целый рядсобственных модификаций получившего широкую известность калькулятора DIY Dodecad гениального грека Диенека Понтикоса. К моему приятному удивлению, за прошедшее время калькулятором успело воспользоваться несколько тысяч людей, некоторые из которых даже выложили свои результаты в Интернете.  Разумеется, многие также разместили и свои собственные интерпретации полученных результатов. Некоторые из приведенных в комментариях интерпретации выделялись (в хорошем смысле этого слова) высоким академическим уровнем, но мне попадались и такие комментарии, при чтении которых становилось понятно, что авторы не только не понимают принципов и сути парадигмы анализа, предложенного Понтикосом, но и — что гораздо хуже — выдавали свои фантазии за действительности. Особенно часто мне попадались подобные фантастические рассуждения в русскоязычном секторе Интернета.Пример такого невежества можно найти в рассуждениях само-провозглашенного академика ДНК-генеалогии Анатолия  Клесова:

Но и в этом случае различия все равно будут между русскими и монголами. Качественно и как-то полуколичественно его можно рассматривать, но не в виде профанации, как это делает Понтикос. Более того, это рассмотрение – если правильно – надо проводить не на выбранных маленьких фрагментах, а действительно по всему геному. На маленьких фрагментах будут вылезать отдельные особенности – то присущие в основном, например, гаплогруппам Y-I2 и мтДНК-Н, то кому-то еще. И это еще будет зависеть от разрешения, которые и обозначают индексами К=4, К=8 и другими. То есть берут маленький фрагмент генома, да еще с малым (или бóльшим) разрешением, стягивают в точку, и все равно получают в целом ерунду. Но для коммерции годится. Годятся для коммерции и вот такие, в частности, «открытия» того же Понтикоса: Перевод: Интересно то, что европейская популяция показывает присутствие американских индейцев, что показывает и f-статистика, и она же показывает присутствие компонента с Сардинией. Как видим, Понтикос уже забыл, что названия им придуманы как попало, и уже придает им абсолютные значения. Про Сардинию Понтикос уже вошел в состояние экзальтации. Он придает Сардинии некую пра-европейскую значимость, на основании, конечно, этой ерунды с «геномом», который анализирует как хочет. Пример – он трубил по всему свету, что Отци, «ледовый человек», имел геном «Сардинии». Однако только что опубликована статья о том, что Отци – никакая не Сардиния, а типичная Центральная Европа. Ну, и что делать будем? Понтикос, с его страстным желанием сенсаций, каждый раз наступает на одни и те же грабли. Впрочем, фарс продолжается. Теперь тем же занялся некто российский Веренич, а именно тоже насчитывает «польскую компоненту», пользуясь подходом своего гуру-Понтикоса.

Принимая во внимание вышесказанное, я решил просветить русскоязычную общественность относительно каким образом создавалось один из вышеупомянутых калькуляторов-модификаций (а именно World22, поскольку я считаю ее самой удачной модификацией). Тем более что в ходе многочисленных экспериментов было убедительно показано, что результаты моего калькулятора являются наиболее точными для выходцев из Восточной Европы.  В просветительских целях я перевел одно  из сообщений своего англоязычного блока на русский язык.  Надеюсь, что по прочтению этого текста, у читателя сложится более полное представление о принципах этно-популяционного анализа с помощью DIY калькуляторов.

Предварительные замечания

Как вы возможно знаете, MDLP блог не обновлялся с февраля 2012 года.  Полгода тому назад я пообещал себе, что я не буду писать новые сообщения на MDLP блоге до те пор пока я не напишу краткую научный отчет о проделенной работе. Так как приоритеты завершения научной работы были важнее рутиного обновления блога,  то  в связи с нехваткой времени, я был не в состоянии продолжать обновление блога на регулярной основе, в связи с нехваткой времени, я должен был внести изменения в свой исследовательский график. Поэтому я решил воздерживался от размещения новых данных на блоге в течение нескольких месяцев, фокусируясь на более важных вопросах. Несмотря на все ограничения, я продолжал втайне работать  на проектом MDLP, сбором необходимых данных и выполением различных ‘геномных’ экспериментов в целях достижения своей конечной цели. Однако с течением времени, некоторые результаты секретных экспериментов с новыми полногеномными популяционными выборками и инструментами в конечном итоге просочились в Интернет,  порождая огромный интерес к моему проекту. После выпуска новой версии моей собственной модификации DIYDodecad калькулятор на сайте Gedmatch.com, я был буквально завален письмами пользователями сервиса Gedmatch.com.
Тогда я осознал свою основную стратегическую ошибку, которая заключалась в  отсутствии подробной документации к выпущенными мной данными и результатам анализа, и почувствовал себя обязанным разместить более подробные разъяснения. Очевидно, я начну новую серию публикацию в своем блоге,  которая будет тесным образом связанна с теми аспектами моей работы, которая наиболее интересует общественность, то есть с калькулятором MDLP World22.

Основы отбора референсных популяций калькулятора MDLP World22.

Референсный набор  популяций в этом калькуляторе был собран в программе PLINK   методом «intersection&thinning» ( дословно «пересечением и истончением») образцов из различных источников данных: HapMap 3 (отфильтрованный набор данных КЕС, YRI, JPT, CHB), 1000genomes,   Rasmussen et al. (2010),   HGDP (кураторская база данных Стэнфордского университета), Metspalu et al. (2011),  Yunusbayev et al (2011), Chaubey et al. (2010) и т.д.
Кроме того, я отобрал произвольным образом по 10 сэмплов (или максимальное количество доступных сэмплов в тех случаях, когда общее число сэмплов в популяции было меньше 10) от каждой европейской страны, представленной в панеле базе данных POPRES. Наконец, для того чтобы оценить степень корреляции между современным и древним генетическим разнообразием населения Европы, я также включил в выборку образцы древней ДНК Эци (Keller et al. (2012)) ,  образцы житлей шведского неолита Gök4, Ajv52, Ajv70, Ire8, STE7 ( Skoglund et al. (2012)) и 2 образца La Braña  — останков мезолитических жителей Пиренейского полуострова (Sánchez-Quinto et al.(2012)).
Затем я добавил 90 образцов — анонимизированных данных — участников моего проекта. После слияния вышеупомянутых наборов данных и истончения набора SNP с  помощью особой команды PLINK, я исключил SNP-ы с  более чем 1% минорных аллелей. После чего я отфильтровал дубликаты, лиц с высоким уровнем общих по происхождению идентичных сегментов (IBD). В качестве критерия фильтрации  были использованы расчеты IBD в Plink, где IBD представлена как средняя доля аллелей общих между двумя людьми по всем анализируемым локусам.  Затем я удалил из выборки лиц с  высоким коэффициентом предпологаемого родства (коэффициенты родства были вычислены в программном обеспечении King). Для получения более стабильных результатов, я также отфильтровал сэмплы с более чем 3 стандартными отклонениями от средних данных  по популяции. Поскольку коэффициент родства может быть надежно определен с помощью оценки HWE (ожидания, вытекающего из закона Харди-Вайнберга) между SNP-ами с той же базовой частотой аллелей, то SNP-ы с существенным отклонением (p < 5.5 x10−8) от  ожидания Харди-Вайнберга были удалены из объединенного набора данных. После этого я выделил те SNP-ы, которые присутствовали в чипах Illumina / Affymetrix, и затем произвел фильтрацию снипов на основе расчетов степени неравновесного сцепления  (в этой я использовал хромосомное ‘окно’ размером в 50 базовых пар, с шагом 5 базовых пар и пороговым значением уровня сцепления R ^ 2, равным 0,3).
По окончанию этой сложной последовательности операций, я получил окончательноый набора данных, который включал в себя 80 751 снипов,  2516 человек и 225  референсных популяций.

Анализ этно-популяционного адмикс

 В ходе следующенго этапа, окончательный набор данных по референсным популяциям (которые я храню в linkage-формате PLINK) был обработан в программе Admixture.  Во время выбора подходящей модели проведения теста на этно-популяционный адмикс, я столкнулся с крайне трудной задачей: как было показано в профильных научных исследованиях (Patterson et al.2006) количество маркеров, необходимых для надежной стратификации популяций в анализе обратно пропорциональна генетическому расстоянию (фСТ) между популяциями. Согласно рекомендациям пользователей программы Admixture, считается что примерно 10 000 генетических SNP-маркеров достаточно для выполнения интер-континентальной GWAS -коррекции обособленных популяций (например, уровень дивергенции между африканскими, азиатскими и европейскими популяциями  FST > 0.05), в то время как для аналогичной коррекции между внутриконтинентальными популяциями требуется более чем 100000 маркеров (в Европе, например, ФСТ < 0.01). Для повышения точности результатов Admixture я решил использовать метод, предложенный Dienekes. Этот метод позволяет преобразовать частот аллелей в «синтетические» индивиды (см. также пример Зака Аджмала из проекта HarappaDNA). Идея метода довольно проста: сначала необходимо запустить unsupervised анализ Admixture с целью вычисления частот аллелей в так называемых предковых компонентов, а затем на основании аллельных частот сгенерировать «фиктивные популяции».  Именно эти фиктивные популяции и индивиды будут использоваться в ходе чистых референсов в ходе последующего анализа этно-популяционного анализа.
Впрочем, как и любой другой исследователь, работающий над четким решением проблемы этно-популяционного адмикса, я вынужден считаться с ограничениями этого подхода. Хотя я и отдаю себе отчет в существовании явных методологических подвохов в использовании смоделированных искусственных индивидов для определения адмикса в реальной популяции, я все же скорее склонен согласиться с Понтикосом, которые считаeт полученных в ходе  аллельно-частотного моделирования «фиктивных индивидов» лучшей аппроксимацией древних генетических компонентов мирового народонаселения.Как бы то не было, моделирующий подход, предложенный Диенеком и Заком, сослужил свою хорошую службу, поскольку были мной были получены  значимые результаты в ходе создания нового калькулятора. Сначала я произвел unsupervised Admixture (при значении К = 22, т.е 22 кластера частот аллель или предковых компонентов). По выполнению анализа нами были получены оценки коэффициентов адмикса в каждой из этих 22 аллельных кластеров, а также частоты аллелей для всех SNP-ов в каждой из 22 родовых популяций.
Затем я использовал мнемонические обозначения для каждого компонента (имена для каждого из компонентов выведены в  порядке их появления). Нужно помнить, что обозначения этих компонентов носят скорее мнемонический условный характер:
Pygmy
West-Asian
North-European-Mesolithic
Tibetan
Mesomerican
Arctic-Amerind
South-America_Amerind
Indian
North-Siberean
Atlantic_Mediterranean_Neolithic
Samoedic
Proto-Indo-Iranian
East-Siberean
North-East-European
South-African
North-Amerind
Sub-Saharian
East-South-Asian
Near_East
Melanesian
Paleo-Siberean
Austronesian
Вышеупомянутые частоты аллель, вычисленные в ходе unsupervised (безнадзорного) анализа (Admixture K = 22) объединенного набора данных, были затем использованы для симуляции синтетических индивидов, по 10 индивидов на каждую из 22 предковых компонент.  Это симуляционное моделирование проводилось с помощью PLINK команды -simulate Когда моделирование было закончено, я сделал визуализацию расстояния между симулированными индивидами с использованием многомерного масштабирования.
На следущем этапе, я включил группу смоделированных индивидов (220 индивидов) в новую эталонную популяцию. После чего я запустил новый анализ А, на этот раз в полном «поднадзорном» режиме для K = 22, причем полученные в ходе симуляционного моделирования фиктивные популяции фиктивных индивидов использовались в качестве новых референсных эталонных групп.  На конвергенцию 22 априорно заданых предковых компонентов было затрачено  31 итераций (3 7773,1 сек) с окончательным loglikelihood: -188032005,430318 (ниже приведена таблица значений Fst  между расчетными ‘предковыми’ популяциями):
Приведенная выше матрица  Fst дистанций  была использована для определения наиболее вероятной топологии NJ-дерева всех 22 предковых компонентов ( примечание: в качестве outgroup-таксона использовался South-African component). Индивидуальные результаты ‘поднадзорного’ анализа этно-популяционных миксов (в формате Excel) для участников проекта были загружены на GoogleDrive.

MDLP World22 DIYcalculator

Выходные файлы «поднадзорного» анализа  Admixture K=22 (средние значения коэффициентов адмикса в референсных популяциях и значения Fst) были использованы для разработки новой версии DIYcalculator MDLP, который более известен под кодовым названием «World22» (онлайн версия доступна разделе Admixture-утилит на сервисе Gedmatch в рамках проекта MDLP). Как я уже упоминал выше, MDLP DIYcalculator работает на коде Dodecad DIY calculator (c) Dienekes Pontikos.
В свою очередь,  реализованная на сервисе  Gedmatch модификация DIYcalculator ‘World22’ комбинирована с  Oracle ‘World22’ MDLP, который также работает на коде Диенека и Зака Аджмала ​​(Хараппа/DodecadOracle). Программа «Oracle» работает в двух режимах. В режиме single population программа определяет ближайщие (к анализируемому геному) референсные популяции калькулятора Word22. В смешанном режиме, Oracle рассматривает все пары населения, и для каждой из пар вычисляет минимальное Fst-взвешенное расстояние между парой и анализируемым геномом, а также  коэффициенты сходства.
Предковые популяции (т.е. полученные в ходе симуляционное моделирования популяции — см. выше) обозначены в результатах Oracle суффиксом anc, в то время реальные современные и древние популяции обозначены суффиксом der.
Если у Вас возникли проблемы с пониманием/интерпретацией результатов Oracle и DIYcalculcator,  то я настоятельно рекомендую обратится к соответствующим темам в блогах  Dodecad и НаrappaWorld . Я полагаю, что не имеет особого практического смысла заново изобретать велосипед и слово в слово повторять то, что уже было написано более компетентными в этом вопросе людьми.

Что представляют собой компоненты MDLP World-22?

Один из наиболее частых вопросов, которые задают мне пользователи калькулятора, напрямую касается практической интерпретации референсных популяций и предковых компонентов в моих калькуляторах K = 12 и World-22 анализов в виду. Чуть выше по тексту я уже привел часть ответа на этот вопрос , но — как гласит старинная китайская пословица — одна картинка стоит десять тысяч слов. Вот почему я решил визуализировать компоненты на поверхности земного шара путем отображения коэффициентов адмикса. Избегая излишних премудростей, я воспользовался готовым рецептом Франсуа Оливье, который предложал  использовать графическую библиотеку статистического программного обеспечения R для отображения пространственной интерполяции  коэффициентов адмикса (Q матрица) в двух измерениях (где пространственные координаты записываются как географические долгота и широта).  Благодаря этому решению, мне удалось создать по 2 контурные карты на каждый из предковых компонентов.Pygmy (модальный компонент в  популяциях африканских пигмеев Biaka и Mbuti)

West-Asian (бимодальный компонет с пиком на Кавказе и юго-восточной части Ирана, приблизительно идентичен компонентам Caucasian/Gedrosia Диенека Понтикоса)
North-European-Mesolithic (локальный архаичный компонент с пиком в популяции древних европейских жителей Иберийского полуострова La_Brana и современной популяции саамов).
Tibetan (Indo-Burmese) component (Гималаи-Тибет)
Mesomerican (главный генетический компонент  у мезоамериканских америндов)

 

North-Amerind (нативный компонент северо-американских америндов)

South-Amerind (нативный компонент южно-американских индейцев)
  Atlantic-Mediterranean-Neolithic (доминируюший компонент  в западной и юго-западной Европе)

Контурные карты прочих компонентов можно скачать здесь.

Практические рекомендации по работе с данными древней ДНК — часть 2

В предыдущем посте я разместил  первую часть примерных рекомендации по работе с данными древней ДНК с практическим примером.  После выполнения всех описанных в туториале операций, в конечном результате мы получили файл в формате Plink.

Как и было обещано ранее, сегодня мы покажем как соединять данные древней ДНК с изоморфными данными современных популяций. Поскольку основная часть работы будет вестись в программе Plink,  для понимания нижеизложенного материала необходимо понимать основные команды этой  программы.

Подготовительные операции.

Для начала объединим полученные в предыдущей части ped-файлы в  общий набор данных. Задача выполняется тривиальной командой —bmerge —make-recode.

Затем добавляем в набор данных подготовленные ранее файлы, содержащие в себе данные о снип-вариантах, обнаруженных в аутосомных хромосомах «тирольского человек Этци». Мимоходом отмечу, что оные данные были извлечены из генома Этци благодаря использованию несколько иной программы (GATK) и методологии, поэтому я не использовал их в предыдущей части туториала.

 

----------------------------------------------------------@
| PLINK! | v1.07 | 10/Aug/2009 |
|----------------------------------------------------------|
| (C) 2009 Shaun Purcell, GNU General Public License, v2 |
|----------------------------------------------------------|
| For documentation, citation & bug-report instructions: |
| http://pngu.mgh.harvard.edu/purcell/plink/ |
@----------------------------------------------------------@
Skipping web check... [ --noweb ] 
Writing this text to log file [ lastreference.log ]
Analysis started: Wed Apr 10 16:37:28 2013
Options in effect:
 --noweb
 --bfile lastreference
 --bmerge Otzi2.bed Otzi2.bim Otzi2.fam
 --make-bed
 --out lastreference
Reading map (extended format) from [ lastreference.bim ] 
424693 markers to be included from [ lastreference.bim ]
Reading pedigree information from [ lastreference.fam ] 
2618 individuals read from [ lastreference.fam ] 
0 individuals with nonmissing phenotypes
Assuming a disease phenotype (1=unaff, 2=aff, 0=miss)
Missing phenotype value is also -9
0 cases, 0 controls and 2618 missing
1388 males, 759 females, and 471 of unspecified sex
Warning, found 471 individuals with ambiguous sex codes
Writing list of these individuals to [ lastreference.nosex ]
Reading genotype bitfile from [ lastreference.bed ] 
Detected that binary PED file is v1.00 SNP-major mode
Using merge mode 1 : consensus call (default)
138056 markers to be merged from [ Otzi2.bim ]
Of these, 0 are new, 138056 already exist in current data
1 individuals merged from [ Otzi2.fam ] 
Of these, 1 were new, 0 were already in current data
Detected that binary PED file is v1.00 SNP-major mode
0 individuals with nonmissing phenotypes
Assuming a disease phenotype (1=unaff, 2=aff, 0=miss)
Missing phenotype value is also -9
0 cases and 0 controls
Before frequency and genotyping pruning, there are 424693 SNPs
2619 founders and 0 non-founders found
197 SNPs with no founder genotypes observed
Warning, MAF set to 0 for these SNPs (see --nonfounders)
Writing list of these SNPs to [ lastreference.nof ]
Total genotyping rate in remaining individuals is 0.587873
0 SNPs failed missingness test ( GENO > 1 )
0 SNPs failed frequency test ( MAF < 0 )
After frequency and genotyping pruning, there are 424693 SNPs
After filtering, 0 cases, 0 controls and 2619 missing
After filtering, 1388 males, 759 females, and 472 of unspecified sex
Writing pedigree information to [ lastreference.fam ] 
Writing map (extended format) information to [ lastreference.bim ] 
Writing genotype bitfile to [ lastreference.bed ] 
Using (default) SNP-major mode
Analysis finished: Wed Apr 10 16:40:14 2013

Решение проблемы совместимости данных, хранящихся в разных геномных билдах (сборках).

Одной из cамых болезненных проблем, c которыми сталкивается исследователь геномного разнообразия, является проблема совместимости геномных билдов (или сборок).  Определенные затруднения вызваны тем, что данные по разным популяциям могут быть приведены в разных билдах. Более ранние выборки были представлены в NCBI билде hg/b36, однако в последнее время все больше новых данных поставляется в новом NCBI билде b37. Во-многом это объясняется успехом проекта 1000 геномов, в котором как раз и используются мэппинг (генетических и физических позиций) NCBI билда b37. Наверное, по этой же причине коммерческие компании типа 23andme и FTDNA также сменили версию билда на b37.

Мы также столкнулись с аналогичной проблемой, поскольку снип-данные были извлечены из древней ДНК  с использованием более старого билда.  При решении этой проблемы мы руководились советами авторов Enigma Cookbook 1000 Genomes Imputation.

В практическом плане имеется целый ряд различий между двумя сборками. Были выявлены три основных типа проблем в build36, которые решены в build37:

● были найдены  SNP-ы встречающиеся два раза под разными rs-индексами
● обнаружено несколько SNP-ов, отображенных на неверной хромосому
● были найдены многочисленные SNP-ы c неверными физическими координатами (но на верной
хромосомы)
Для преобразования данных из сборки build36 в сборку build37  нам необходимо переназначить SNP-позиции
позиций, перечисленных в 1KGP, используя следующий код.  Существует небольшое количество полиморфизмов (около 312) в референсной панели 1000 геномов (1KGP), которые отображаются на БОЛЕЕ чем одной хромосоме, поэтому перед тем как продолжить, нам необходимо отбросить эти снипы.

Референсная панель (data for 41 million markers, of which ~23 million are monomorphic in Caucasians) скачивается следущей последовательностью команд:

mkdir 1KGPref
cd 1KGPref
wget "http://enigma.loni.ucla.edu/wp-content/uploads/2012/07/
v3.20101123.ENIGMA2.EUR.20120719.vcf.tgz"
wget "http://enigma.loni.ucla.edu/wp-content/uploads/2012/07/
v3.20101123.ENIGMA2.EUR.20120719.extras.tgz"
tar -zxvf v3.20101123.ENIGMA2.EUR.20120719.vcf.tgz
tar -zxvf v3.20101123.ENIGMA2.EUR.20120719.extras.tgz

 

Следующий код загружает генетическую карту панели 1KGP и создает список, который будет использоваться для фильтрации генотипированных данных перед фазированием:

## For the following commands in green use the clean “lastQC2” files
if you had to remove duplicate markers
#Join the genotyped bim file with the reference allele lists
##reformat the lastQC.bim file
awk '{print $2,$1,$3,$4,$5,$6}' lastQC.bim > tempQC.bim
##Join the two files
awk 'NR==FNR{s=$1;a[s]=$0;next} a[$1]{print $0 " "a[$1]}' tempQC.bim
1kgp.alleles > merged.alleles
## selects SNPS showing different alleles in the two files
awk '{ if ($2!=$8 && $2!=$9) print $1}' merged.alleles > flip.list
plink --bfile lastQC --extract 1kgp.snps --update-map 1kgp.chr --
update-chr --flip flip.list --make-bed --out temp --noweb
plink --bfile temp --update-map 1kgp.bp --geno 0.05 --mind 0.05 --
make-bed --out lastQCb37 --noweb
wc -l lastQCb37.bim
## Make list of males and females for writing out the X chromosome
awk '{ if($5==1) print $1, $2}' lastQCb37.fam > male.list
awk '{ if($5==2) print $1, $2}' lastQCb37.fam > female.list
##Check that your dataset is properly split by gender by opening
male.list and female.list in a text editor. Also check that total
numbers make sense.
wc -l female.list
wc -l male.list
@----------------------------------------------------------@
| PLINK! | v1.07 | 10/Aug/2009 |
|----------------------------------------------------------|
| (C) 2009 Shaun Purcell, GNU General Public License, v2 |
|----------------------------------------------------------|
| For documentation, citation & bug-report instructions: |
| http://pngu.mgh.harvard.edu/purcell/plink/ |
@----------------------------------------------------------@
Skipping web check... [ --noweb ] 
Writing this text to log file [ lastQCb37.log ]
Analysis started: Wed Apr 3 02:09:06 2013
Options in effect:
 --bfile temp
 --update-map 1kgp.bp
 --out lastQCb37
 --noweb
 --make-bed
Reading map (extended format) from [ temp.bim ] 
1032625 markers to be included from [ temp.bim ]
Reading pedigree information from [ temp.fam ] 
3606 individuals read from [ temp.fam ] 
4 individuals with nonmissing phenotypes
Assuming a disease phenotype (1=unaff, 2=aff, 0=miss)
Missing phenotype value is also -9
0 cases, 4 controls and 3602 missing
1741 males, 975 females, and 890 of unspecified sex
Warning, found 890 individuals with ambiguous sex codes
Writing list of these individuals to [ lastQCb37.nosex ]
Reading genotype bitfile from [ temp.bed ] 
Detected that binary PED file is v1.00 SNP-major mode
Reading new physical positions from [ 1kgp.bp ]
1032625 SNP positions read and updated
0 in data but not in [ 1kgp.bp ]
11797154 in [ 1kgp.bp ] but not in data
*** Implicit order changed from re-mapping ***
Before frequency and genotyping pruning, there are 1032625 SNPs
3606 founders and 0 non-founders found
273 heterozygous haploid genotypes; set to missing
Writing list of heterozygous haploid genotypes to [ lastQCb37.hh ]
Total genotyping rate in remaining individuals is 0.309747
0 SNPs failed missingness test ( GENO > 1 )
0 SNPs failed frequency test ( MAF < 0 )
After frequency and genotyping pruning, there are 1032625 SNPs
After filtering, 0 cases, 4 controls and 3602 missing
After filtering, 1741 males, 975 females, and 890 of unspecified sex
Writing pedigree information to [ lastQCb37.fam ] 
Writing map (extended format) information to [ lastQCb37.bim ] 
Writing genotype bitfile to [ lastQCb37.bed ] 
Using (default) SNP-major mode
Analysis finished: Wed Apr 3 02:13:38 2013

Теперь, когда координаты и странды ДНК приведены в порядок, мы можем соединять данные древней ДНК с нашей главной референсной панелью.

В следующей части мы покажем конкретные результаты сравнения древней и современной ДНК.
 

В продолжении темы о найденным мною «гене Фейсбука»

Открыл на форуме 23andme тему, посвященную новооткрытому «гену Фейсбука» https://www.23andme.com/you/community/thread/14241/ Просьба к тем, кто имеет аккаунт в 23andme подержать своим участием

One of the biggest failures of the GWAS methodology is that is designed to detect the effects of causative genetic loci where the rarer allele still has a reasonable frequency in the population (greater than 5%). If there are genetic loci influencing the trait where the rare allele has a frequency under 5%, or even under 1%, the GWAS technique is unlikely to be able to detect these loci.

The latest addition to Gedmatch «Rare SNP search» was very helpful in circumventing the problem described above. Having found some rare alleles in Gedmatch databse, i have mentioned an interesting SNP in SLC6A3 gene: rs28363168 (chr5:1447389 A C). The A-genotype of this SNP is very rare (0.6121%), but seems to have an impact on the storage and release of dopamine. The gene SLC6A3 regulates the production of dopamine transporter, a membrane-spanning protein that pumps the neurotransmitter dopamine out of the synapse back into cytosol. From the previous studies we know that SLC6A3 gene is said to have «genetic associations» with the various cognitive and attention disorders (i.e., schizophrenia, depression, alcohol consumption. More interesting, however, is that polimorphisms in that gene increase the odds of having ADHD (Attention deficit hyperactivity disorder). The recent research has shown thta the use of social networking sites can cause personality and brain disorders in children, such as the inability to have real conversations, limited attention spans, a need for instant gratification, Attention-Deficit Hyperactivity Disorder (ADHD), and self-centered personalities.
That’s why i’ve dubbed the SLC6A3 gene «the Facebook gene».

rs28363168 is tested by 23andme. I’d like you post your rs28363168 genotype here. Any comments or questions are also highly appreciated

Удалось связаться с носителем сверхредкого гомозиготного варианта AA в снипе rs28363168 (который, как я и говорил ранее, может быть связан с повышенным риском развития ADHD).

В приватной беседе выяснилось, что несмотря на свой AA-вариант снипа, диагнога ADHD у этого индивида X (и его родственников) нет, хотя и присутствуют некоторые симптомы. Зато многие члены этого семейства страдают биполярным аффирмативным расстойством, а некоторые синдромом Аспергера. Это вполне объяснимо, так как вышеупомянутый снип находится в гене, «кодирующем» протеин-транспортер допамина. На эту тему есть хорошое исследование J Psychopharmacol. 2011 Jul;25(7):934-43. Epub 2011 Mar 18. Increased risk-taking behavior in dopamine transporter knockdown mice: further support for a mouse model of mania.

Reduced functioning of the dopamine transporter (DAT) has been linked to bipolar disorder (BD). Mice with reduced DAT functioning (knockdown, KD) exhibit a behavioral profile in the mouse Behavioral Pattern Monitor (BPM) consistent with patients with BD mania in the human BPM. Patients with BD also exhibit increased risk taking, which can be quantified using the Iowa Gambling Task (IGT). We hypothesized that DAT KD mice would exhibit increased risk-taking behavior in a novel mouse version of the IGT. DAT KD and wildtype (WT) littermates were trained in the mouse IGT. In session 1, KD mice initially made riskier choices, but later performed comparably to WT mice. Once trained to stable choice performance, DAT KD mice continued to exhibit a trend to choose the riskier options more than WT mice. Finally, we confirmed that these DAT KD mice also exhibited an exploratory profile in the BPM consistent with patients with BD mania, where risky choice behavior modestly correlated with specific exploration. These data demonstrate that DAT KD mice chose the riskier options more than WT mice, providing further support for the use of DAT KD mice as a model of BD mania.

Поскольку в ходе дискуссии был упомянут синдром Аспергера, то стоит подробнее остановиться на его описании. Люди с синдромом Аспергера часто выделяются весьма педантичной манерой разговора, использованием более формального и структурированного языка, чем того заслуживает ситуация. Пятилетний ребёнок с этим синдромом может регулярно говорить на языке, который бы подошёл университетскому учебнику, особенно в своей области интересов. Язык Аспергера, несмотря на старомодные слова и выражения, грамматически правилен.

Развитие речи у ребёнка бывает исключительно ранним, развиваясь медленно из-за типичной для аспергеров привязанности к структуре и неизменённости жизненных норм, или наоборот несколько поздним по сравнению с братьями и сёстрами, после чего развивается очень быстро, так что в возрасте 5-6 лет речь в любом случае выглядит как правильная, педантичная, не по годам развитая и чрезмерно похожая на взрослую. Часто ребёнок, запомнивший речевые штампы, может выглядеть понимающим разговор. Однако для него трудно или полностью невозможно быть настоящим собеседником. Специалисты по нарушениям речи обычно называют этот тип проблем термином семантическое прагматическое нарушение, означающим, что, несмотря на нормальные или хорошо выраженные навыки речи, существует неспособность использования языка для коммуникации в условиях реальной жизни. Тональность голоса может быть нарушенной (слишком сильный, сиплый, чрезмерно низкий), темп речи увеличенным или заниженным. Слова часто произносятся излишне ровно и монотонно.

Другим распространённым (хотя и не универсальным) симптомом является буквальное понимание. Эттвуд приводит пример девочки с синдромом Аспергера, которой однажды позвонили и спросили «Павел рядом?». Хотя требуемый Павел присутствовал в доме, его не было в комнате, и, оглянувшись, чтобы убедиться в этом, она ответила «нет» и повесила трубку. Звонящему человеку пришлось перезвонить и объяснить ей, что он хотел, чтобы она нашла Павла и попросила его взять трубку (Attwood, 78).

Люди с синдромом Аспергера не воспринимают те неписанные социальные законы, которые мы усваиваем по опыту. Это как раз те люди, которые, как в известном анекдоте, на вопрос «Как дела?» начинают действительно рассказывать, как у них дела. Либо, наоборот, зная, что ответ на вопрос для собеседника может показаться слишком длинным — молчат. А если им сказать «Звони в любое время», могут позвонить в три часа ночи с чистой совестью. Полное неумение понимать намеки и «читать между строк» осложняет отношения с окружающими, но необходимо помнить, что оборотная сторона этого — честность и прямолинейность. Многие люди с синдромом Аспергера вообще не умеют лгать, и опасаться интриг с их стороны тоже не приходится.

Многие люди с синдромом Аспергера также используют слова очень специфически, включая в речь свежепридуманные слова или скомбинированные из знаний разговорного языка с корнями древних, от которых он произошёл, а также необычные сочетания слов. Они могут развить редкий дар к юмору (особенно каламбуры; игра слов; строфы, в которых смысл приведён в жертву рифме; сатира) или написанию книг. (Другой потенциальный источник юмора появляется, когда они понимают, что их буквальные интерпретации забавляют окружающих.) Некоторые настолько хорошо владеют письменной речью, что удовлетворяют критериям гиперлексии (способность понимать письменную речь выше нормы, а способность понимать устную речь — ниже нормы).Возможные причины и происхождение синдрома Аспергера — это горячо обсуждаемая и спорная тема. Мнение большинства, на сегодня, состоит в том, что причины синдрома Аспергера — те же, что и у аутизма. Некоторые, однако, с этим не согласны, и аргументируют, что к синдрому Аспергера и аутизму приводят разные вещи. Всё это происходит на фоне продолжающихся более широких дебатов относительно того, является ли синдром Аспергера и другие состояния (такие как расстройство с дефицитом внимания и гиперактивностью — СДВГ (ADHD)) частью так называемого аутистического спектра.

Среди многих конкурирующих теорий относительно причины аутизма (и, следовательно, как многие уверены — синдрома Аспергера) — теория недосвязанности, разработанная исследователями познавания университета Carnegie Mellon и университета Питсбурга, теория предельного мужского мозга Симона Барон-Коэна (Simon Baron-Cohen), теория пред-работающего аутизма, теория социальной конструкции и генетика.

Возвращаясь к найденной мной ассоции полиморфизма (снипа) rs28363168 c cиндромом ADHD («ген Фейсбука»), необходимо упоминуть один красноречивый факт. К дискуссии на форумах 23andme (по приведенной выше ссылке) подключилась одна из форумных активисток little_bit, которая живо интересуется проблематикой аутизма (ASD/ADHD). Причина ее интереса к аутизму очевидна: ее сыну был поставлен диагноз ADHD/ASD и сейчас он проходит медикаментозный курс лечения лекарствами Strattera, Ritalin и Adderall. ) Так вот у ее сына в снипе rs28363168 тот же геноти АC, что и у меня. Этот гетерозиготный генотип встречается крайне редок, что  подтвердилось в ходе  статистического анализа  публичных данных, опубликованных известным порталом openSNP.
Причем при составлении генотипов ее муж (который также тестирован в 23andme) и сына cтановится очевидно, что сын унаследовал редкую аллель A от отца. Что еще интересней, муж, хотя и не был диагностирован синдромом Аспергера/ADHD в детстве, имеет все очевидные признаки этих расстройств )). Ну и генотип у него соответственно AC ).
Так что выводы моего исследования, как говорится, попали в яблочко:

When I put together my son’s rare snp analysis, rs28363168 in the SLC6A3 gene was probably my most exciting finds. I’m not going to say «smoking gun» quite yet, but close. My son got the rare A allele from his father who is diagnosed with ADHD, and successfully on meds for it. Most interestingly, he got it from his father, who is very classically ADHD/Asperger’s though not officially diagnosed due to his age. He is 81 and they just didn’t do those diagnosis’s back then. If you observe my father-in-laws life, as well as his father, the ADHD symptoms were very evident and unmistakable.My son is most similar to my father-in-law, such that he has the strong ADHD symptoms as well as Asperger’s, whereas my husband is not Asperger’s. I have diagnosed autistic relatives, and several suspected cases so it may just be a luck-of-the draw thing such that both my son and father-in-law got ADHD from their father’s side and ASD from their mother’s side?Anyway, here’s the snp at opensnp — one of the two AC’s has haunted the ASD/ADHD threads here with me for a long time, so yet one more piece of the puzzle. I know that he and my son both share the MAOA 3 repeat warrior version, which being on the X they get from their mother’s. MAO-A is an enzyme that degrades amine neurotransmitters, such as dopamine, norepinephrine, and serotonin and it’s prevalence is around 30% in Europeans. It makes me wonder if there could be a synergistic correlation between the variant and this snp, perhaps as a modifier to more severe ADHD or Aspergers? I know with my father-in-law, husband, and son…my husband has the least severe, and most easily treated case.

Интересно проанализировать распространение генотипов rs28363168 в метапопуляции европейцев.Данные взяты из базы данных dBSNP NCBI
Частоты генотипов CC, AC, AA вычисленны исходя из чисто «европейской» панели HapMap-CEU

Forward strand/ reverse strand %
GG/CC 93,8%
GT/AC 6,2%
TT/AA —

Alleles

G/C 96,9%
T/A 3,5%

Генотип GT/AC имеет частоту распространения 6,2%. Это примерно соответствует частоте распространенности ADHD в европейской популяции. Cм. нижеприведенные ссылки в статье «The size and burden of mental disorders and other disorders of the brain in Europe 2010», в которой частота встречаемости  ADHD  в европейских популяциях оценивается в 5%: «шn this study, 1 in 20 (5%) are thought to have ADHD but diagnosis rates vary depending:-Teachers reporting 18%-Parent reporting 8%-Self reporting 4%-Both parent and self 2%». Похожие выводы можно найти и в другом исследовании:

Males, of course, are much more likely to receive a diagnosis and age factors in as well. ADHD symptoms are estimated at 9.5-16.1% prevalence, but like ASD, it could be a spectrum, with many on the lesser end of the spectrum remaining undiagnosed due to coping skills.

Новая парадигма поиска геномных ассоциаций

Некоторое время назад благодаря помощи неутомимого Джона Олсона из Gedmatch, мы обнаружили «ген Фейсбука» .
Но, наверное стоит уточнить детали.Строго говоря, из-за спектра нарциссических проявлений этот «ген» (а вернее полиморфизм в гене) следовало бы обозначить как «Twitter gene», но название «Facebook gene» мне нравится «более лучше» (с)
Немного о методике поиска (поскольку она несколько отличается от привычных GWAS-методов анализа генетического сцепления/линкаджа и ассоциаций). Джон имплементировал на своем сервере поисковик редких генетических вариантов («Rare SNP search») в своей базе данных, которая уже содержит «геномы» несколько десятков тысяч людей.
Поисковик выдал список из примерно 1000 редких генотипов, представленных в возрастающем (по чистоте генотипа в выборке) порядке — от меньшего к большему. Поскольку дизайн поисковика позволяет определить аллель по которой ведется расчет чистоты, а также посмотреть список людей, у которых присутствет этот редкий аллель, то не составило провести мини-GWAS на предемет ассоциаций с заболеваниями и фенотипическими признаками.

Одним из таких снипов оказался rs28363168, расположенный на 1447389 (в геномных координатах b37) 5 хросомомы в регионе гена SLC6A3. Этот снип имеет два аллельных варианта — C и A, причем А очень редкий генотип (частота в выборке не превышает 0.612%).
У меня этот снип представлен в гетерозиготном виде, т.е. AC. Cнип же этот, находясь в гене SLC6A3 имеет ряд уже ранее описанных в литературе ассоциаций -в частности,
ADHD, schizophrenia, depression, alcohol consumption. ADHD весьма примечателен.
Это синдром дефицита внимания и гиперактивности (сокращённо СДВГ; англ. AttentionDeficit/Hyperactivity Disorder (ADHD)) — неврологическо-поведенческое расстройство развития, начинающееся в детском возрасте.
Проявляется такими симптомами, как трудности концентрации внимания, гиперактивность и плохо управляемая импульсивность. Как показали последние исследования американские ученные, многие из активных посетителей социальных сетей страдают о СДВГа 🙂

Посмотрев список лиц, указанных в таблице с тем же редким генотипом А, к удивлению заметил, что в списке много людей, известных своей гиперактивностью в РАЗНЫХ социальных сетях и на РАЗНЫХ антропологических форумах.
Ergo, можно признать, что РЕДКИЙ генотип А rs28363168 может быть связан с риском развития клинических форм ADHD/СДВГ. Это связь убедительна если вспомнить о том, что ген SLC6A3
(в котором находится снип) кодирует протеин допаминового транспортера, т.е того протеина который «проталкивает» нейротрансмитер допаминов из синапса в цитозоль.

Вывод: новая модель  поиска геномных ассоциаций с риском заболеваний за счет включения в анализ большого массива данных за счет добровольного участия граждан (participating citizens) представляется наиболее перспективного подхода, так как позволяет минимизировать затраты на генотипирование.  Проекты типа OpenSnp.org позволяют концентрировать большой объем данных по большим выборкам с комбинированными данными о фенотипах/генотипах участников. После определенной обработки и группировки, эти анонимизированные данные представляются профессиональным генетикам, специализирующимся в области геномной медицины для последующего использования в научных работах.