Этногеномика беларусов — часть IV

Анализ структуры аутосомного генофонда популяции беларусов: результаты анализа этнического адмикса.

 

После проведения анализа этно-популяционного адмикса мы получили следущие результаты, обсуждению которых будет посвящена следущая часть нашего исследования. Результаты представляют собой разбивку аллельных частот на 22 кластера, каждый из которых представляет собой гипотетическую предковую популяцию. Поскольку в цели данного небольшого исследования не входит подробный анализ всех популяций, мы ограничимся сравнительном анализом структуры (компонентов) беларусов c географически близкими популяциями, а также с теми популяциями, которые могли входить в исторические контакты с предками современных беларусов:

admix

 

Рисунок 3. Результатыанализа ADMIXTUREK=22

У рассматриваемых здесь европейских популяций наиболее часто представлены следующие компоненты:

North-East-European,Atlantic_Mediterranean_Neolithic,North-European-Mesolithic, West-Asian, Samoedic, Near_East.

Разберем вкратце каждый из них. В ракурсе нашего исследования самым важным компонентом представляется – северо-восточно-европейский компонент North-East-European, он присутствует почти у всех европейцов, и в самой значительной степени — у балтов и славян: литовцы (81,9), латыши (79,5), беларусы (76,4), эстонцы (75,2), поляки (70,2), русские (67- 70,4), украинцы (62,1- 67,1), сорбы (65,9), карелы (60,2), вепсы (62,5), чехи (57,4), северные немцы (54,6), южные- 42,6, у британцев от 46 до 49, норвежцы- 48,1, шведы- (53,7).

Второй по значимости компонент — Atlantic_Mediterranean_Neolithic (юго-западно-европейский или просто западно-европейский неолитический компонент).[1]У восточноевропейцев он выражен в умеренной степени- чехи (27,8), поляки (18,4), украинцы ( от 17 до 21%), беларусы (13%), русские (от 11 у северных до 17,3 у южных), у коми (8,9 %), манси (8,8 %).

Третьй компонент – северо-европейский мезолитический компонент -North-European-Mesolithic[2]: cаамы (76,4 %), финны (от 30,1 до 37,3 %), вепсы (24,1), карелы (23,2), ижорцы (22, 7). Заметен этот компонент и у северных русских (10,5 %), норвежцев (9,8 %), шведов (7,8 %), эстонцев (7,1 %). У беларусов он практически отсутствует (1.1%).

Четвертый компонент – западно-азиатский (кавказский) West Asian[3]. На интересуемой нас территории этот компонент чаще встречается у казанских татар (9,9 %), южных немцев (8,4), украинцев (от 6,6 до 7,7 %), южных русских (6,2%). На западе высок процент у итальянцев (21,5 % у центральных итальянцев), французов (6,7 %), у беларусов (2.2%).

Пятый компонент — уральский Samoedic. Значительно присутствует у селькупов (68,1%), хантов (64,6), ненцы (37,1), манси (30,9 %-), удмурты (29,6), марийцы (27, 8), шорцы (22,0 %), башкиры (21,7%), чуваши и хакассы по 17,6 %, коми- 16,4 %, казанских татар (11,9 %). У западноевропейцев этот компонент практически не встречается, у русских (от 1,0% у центральных до 4,7 % у северных), у карел (1,6%), словаков (1,4%), западных украинцев (1,7 %), беларусы (0.5%).

Шестой компонент – ближневосточный Near_East[4]У южных немцев (3,5), украинцы (от 2,3 у восточных до 3,8 % у западных), чехи (3,0), беларусы (3,4), словаки (3,2), у русских от 1,0 до 1,5%, у литовцев- 1,4%, у поляков- 1,3 %.

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[1]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[1]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[1]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

Анализ разделяемых аутосомных сегментов между популяциями Северо-Восточной Европы.

С целью верификации результатов анализа главных компонентов генетического разнообразия я подготовил новую выборку популяций, которая включает в себя ряд референсных евразийских популяций и анализируемую группу участников моего проекта MDLP. В совокупности, выборка включала в себя 900 индивидов, каждый из которых был типирован по 350 000 снипам.В ходе нового экспериментального теста в ходе статистической обработки общих по генетическому происхождению сегментов хромосом в составе выборки было выделенно 15 групп кластеров генетически близких популяций Как нам представляется, ключевым моментом для понимания принципов этого анализа, а также результатов, является понятие эффективной популяции или эффективный размер (Ne) популяции, т.е размера той популяции которая участвовала в репродукции или обмене генами в некоем отдаленном временном промежутке. Собственно говоря, эффективная популяция – это даже не число уникальных предков, а математическая абстракция разброса гамет, размер которого оценивается исходя из разброса числа гамет относительного к гамет, передаваемых родителям репродуктивного возраста следующему поколению. Он отличается от репродуктивоного объема Nr в той мере, в какой существует неравный вклад лиц родительского поколения в генофонд следующего поколения. Это создает разброс значений числа гамет к, того родителя относительно числа гамет к, передаваемых родителям следующему поколению (Wright, 1931, Li Ch. Ch., 1955). Новая программа Chromopainter позволяет оценить этот размер, исходя из числа наблюдаемых рекомбинаторных гаплотипов и значений LD. Когда я производил оценку этого размера, то для каждой из 22 неполовых хромосом он получился разный, однако среднеарифметическое значение составило 22 000. Это близко к значениям Neрекомендованным к использованию профессионалами (например, авторами программы IMPUTE V2). Как видно из приведенных ниже результатов, даже 22 000 для совокупности эффективного размера элементарных популяций – это более, чем достаточно.

 

finest

Рисунок 4. Расположение популяций в пространстве 1 и 3 главных генетических компонентов

 

Изложим ниже некоторые закономерности размещения популяци

 

  1. Финны оказались ближе к русским и поволжским финно-угорам (эрзя и мокша)
  2. Все литовцы (участники проекта + референсы из вышеупомянутой статьи Бехара) и часть референсных белорусов образовали отдельный кластер, тесно примыкающий к кластеру белорусов, поляков, украинцев

  3. Следущим кластером является центрально-европейский кластер, представленный главным образом венграми, хорватами, а также частью немцев.

  4. Ниже находится балканский кластер (румыны, болгары и часть венгров).

  5. К этому кластеру примыкают турки и часть армян

  6. В центре плота находятся западноевропейцы из моего проекта (французы, немцы, бельгийцы и жители британских островов).

  7. Выше находятся два оркнейских кластера, в которых находится и часть скандинавских сэмплов.

  8. Еще левее находится кластер образованный референсными северо-итальянцами и тосканцами.

  9. Ниже находятся армяне и слево итало-иберийский кластер (часть итальянцев и испанцы).

  10. Левее этой группы популяций находится кластер ашкеназов.

  11. Наконец, самый крайний слева кластер представлен изолированной популяцией сардинцев.

  12. Ниже итало-иберийского и армянского кластеров расположен целый ряд кавказский кластеров. Это прежде всего адыгейцы и абхазцы, затем северные осетины.

  13. Вышеназванные кластеры частично перекрывают кластер ногайцев (что свидетельствует о наличии генетического обмена между северокавказскими популяциями и ногайцами)

  14. Кластер ногайцев плавно переходит в кластер узбеков, который в свою очередь примыкает к изолированному кластеру чувашей

  15. Наконец самым изолированным кластером является кластер французских басков (в нижнем левом углу плота).[5]

 

[1]Больше всего у сардинцев (68,1 %), басков (59,2 %), иберийцев (48,8), корсиканцев (47,8), португальцев (46,6), северных итальянцев (44,3), французов (43,5 %). Данный компонент достаточно выражен у всех западноевропейцев- более 30 %

[2]Название связано с тем, что этот компонент достигает значительных частот в древней ДНК жителей мезолитической Иберии, неолитических жителей Швеции и современном ДНК жителей Фенноскандии

[3]Наибольший процент на Западном Кавказе- абхазы (64, 9%), имеретинцы (63,7), лазы (56,6), аварцы (56,8), лезгины (55,4).

[4]Евреи Йемена (60,9 %), Сауд. аравия (59,5), бедуины (56,7), евреи Эфиопии (52,5), египтяне (43,8).В Европе oтносительно много у итальянцев (центр- 17,4), португальцев (11,9).

 

[5]Такое поведение на плоте объясняется только изолированным положением популяции и небольшим числом эффективной популяции.То есть все эти баски являются многократными родственниками между собой т.е., положение басков на графике есть следствие классического генного дрейфа, который можно наблюдать на карте.На самом деле положение басков на данном плоте не может ни подтвердить, ни опровергнуть гипотезу о континуитете баскской популяции , т.к PCA-координаты (eigenvalues и eigenvectors) вычислялись в Chromopainter исходя из количества sharedDNAchunks между популяциями-донорами и популяциями-рецепиентами.То есть баски изоляты в том смысле, что уровень обмена ДНК между ними и другими популяцими ничтожен.

Исходя из этого можно сделать вывод о том что баски эта экстремально-эндогенная популяция изолянтов, при этом генетическое разнообразие басков низко, т.к. размер эффективной популяции басков низок.

Об особенностях наследования X-хромосомы: функциональная избыточность гена ITM2A приводит к низкому росту

В феврале этого года в журнале Plos Genetics была опубликованна статья «Chromosome X-Wide Association Study Identifies Loci for Fasting Insulin and Height and Evidence for Incomplete Dosage Compensation» , в которой содержится исследования влияние феномена «неполной компенсации дозы генов»* X-хромосомы на рост регуляцию инсулина в организме человека. Удивительно, но число работ по генетике X-хромосомы, несмотря на свою важность в развитии ряда болезней обусловленных наличием Х-сцепленного рецессивного гена на X-хромосома,  гораздо меньше аналогичных работ по аутосомах. С одной стороны, известно около 300 генов, локализованных в хромосоме X, вызывающих наследственные болезни (гены, локализованные в хромосоме X, называют X-сцепленными). К ним относятся гены гемофилии А, миопатии Дюшенна, Х-сцепленного ихтиоза, пигментной дистрофии сетчатки, ангидротической формы эктодермальной дисплазии, синдрома ломкой хромосомы X с умственной отсталостью, гидроцефалии, синдромов Коффина — Лоури, Пейна, Опитца, одной из форм мукополисахаридоза, X-сцепленной невральной амиотрофии, недостаточности глюко-зо-6-фосфатдегидрогеназы и многих других заболеваний.

С другой стороны, к настоящему времени ученым известны сотни генов, связанных с чертами внешности, однако при их изучении Х-хромосома, как правило, оставалась за бортом. Я могу объяснить этот феномен только тем, что в открытых источниках данных (по наиболее известным референсным популяциям) содержится крайне мало генотипов X-хромосомы . Именно по этой технической причине, X-хромосома не используется в  этно-популяционных калькуляторах на Gedmatch.com.

Суть исследования, проведенного исследователи из Хельсинкского университета сводится к  выяснению  генетических причин отличий в здоровье мужчин и женщин. Прежде чем мы перейдем к краткому изложению материала, напомним, что у человека пол гетерогаметен. Женщины имеют во всех клетках две хромосомы X, а мужчины — одну X и одну У хромосомы. Хромосома Y не гомологична хромосоме X, в ней содержится небольшое число генов. Мужчины являются гемизиготами по хромосоме X и всем содержащимся в ней генам. Наследование половых хромосом происходит как наследование простых менделевских признаков ( см. нижеприведенную решетку Пеннета):

Из таблицы видно, что при случайном объединении гамет должно образовываться равное количество зигот женского и мужского пола. (Источник: MedUniver.com)

 

В исследовании, результаты которого авторы описали в журнале PLOS Genetics , они нашли ген ITM2A, расположенный на Х-хромосоме, варианты которого определяют больший или меньший рост. Это объясняется тем, что ген участвует в развитии хрящевой ткани. Чем дольше развивается хрящевая ткань, тем человек вырастает более высоким.

Вариант гена, который приводит к его усиленной работе, как показали ученые, сопровождается низкорослостью. Это довольно интересное заключение, особенно если принять во внимание бытовавшее ранее мнение о том, что иногда как раз добавочная Х-хромосома является причиной высокого роста девушек. Данное исследования опровергает это мнение, о чем упоминается в интервью исследователей средствам СМИ:

Двойная доза Х-хромосомных генов у женщин может вызывать проблемы в течение развития, — объясняет профессор Сэмюли Рипатти, руководитель исследования. — Чтобы избежать этого, в женских клетках действует механизм, который заставляет вторую Х-хромосому замолчать. Но рядом с геном ITM2A мы нашли участок, который позволяет этому гену избежать подавления работы. Когда мы его нашли, это нас особенно вдохновило».

Это позволяет Х-хромосомному гену ITM2A продолжать в женских клетках работать в двойном объеме, а женщины из-за этого перестают расти.

 

 


*Механизм регуляции экспрессии генов, сцепленных с полом; при механизме определения пола XX-XY у самок К.д. связана с инактивацией одной из Х-хромосом X-inactivation (при полисомии polysomy по Х-хромосоме — всех Х-хромосом кроме одной), образующей интерфазное тельце Барра (sex chromatin); к К.д. относят и более сложные внутригеномные взаимоотношния, связанные с регуляционно-репрессорными механизмами (см. autosomal dosage compensation).

За кулисами: как создавался этно-популяционный калькулятор World-22

Летом 2011 года я создал целый рядсобственных модификаций получившего широкую известность калькулятора DIY Dodecad гениального грека Диенека Понтикоса. К моему приятному удивлению, за прошедшее время калькулятором успело воспользоваться несколько тысяч людей, некоторые из которых даже выложили свои результаты в Интернете.  Разумеется, многие также разместили и свои собственные интерпретации полученных результатов. Некоторые из приведенных в комментариях интерпретации выделялись (в хорошем смысле этого слова) высоким академическим уровнем, но мне попадались и такие комментарии, при чтении которых становилось понятно, что авторы не только не понимают принципов и сути парадигмы анализа, предложенного Понтикосом, но и — что гораздо хуже — выдавали свои фантазии за действительности. Особенно часто мне попадались подобные фантастические рассуждения в русскоязычном секторе Интернета.Пример такого невежества можно найти в рассуждениях само-провозглашенного академика ДНК-генеалогии Анатолия  Клесова:

Но и в этом случае различия все равно будут между русскими и монголами. Качественно и как-то полуколичественно его можно рассматривать, но не в виде профанации, как это делает Понтикос. Более того, это рассмотрение – если правильно – надо проводить не на выбранных маленьких фрагментах, а действительно по всему геному. На маленьких фрагментах будут вылезать отдельные особенности – то присущие в основном, например, гаплогруппам Y-I2 и мтДНК-Н, то кому-то еще. И это еще будет зависеть от разрешения, которые и обозначают индексами К=4, К=8 и другими. То есть берут маленький фрагмент генома, да еще с малым (или бóльшим) разрешением, стягивают в точку, и все равно получают в целом ерунду. Но для коммерции годится. Годятся для коммерции и вот такие, в частности, «открытия» того же Понтикоса: Перевод: Интересно то, что европейская популяция показывает присутствие американских индейцев, что показывает и f-статистика, и она же показывает присутствие компонента с Сардинией. Как видим, Понтикос уже забыл, что названия им придуманы как попало, и уже придает им абсолютные значения. Про Сардинию Понтикос уже вошел в состояние экзальтации. Он придает Сардинии некую пра-европейскую значимость, на основании, конечно, этой ерунды с «геномом», который анализирует как хочет. Пример – он трубил по всему свету, что Отци, «ледовый человек», имел геном «Сардинии». Однако только что опубликована статья о том, что Отци – никакая не Сардиния, а типичная Центральная Европа. Ну, и что делать будем? Понтикос, с его страстным желанием сенсаций, каждый раз наступает на одни и те же грабли. Впрочем, фарс продолжается. Теперь тем же занялся некто российский Веренич, а именно тоже насчитывает «польскую компоненту», пользуясь подходом своего гуру-Понтикоса.

Принимая во внимание вышесказанное, я решил просветить русскоязычную общественность относительно каким образом создавалось один из вышеупомянутых калькуляторов-модификаций (а именно World22, поскольку я считаю ее самой удачной модификацией). Тем более что в ходе многочисленных экспериментов было убедительно показано, что результаты моего калькулятора являются наиболее точными для выходцев из Восточной Европы.  В просветительских целях я перевел одно  из сообщений своего англоязычного блока на русский язык.  Надеюсь, что по прочтению этого текста, у читателя сложится более полное представление о принципах этно-популяционного анализа с помощью DIY калькуляторов.

Предварительные замечания

Как вы возможно знаете, MDLP блог не обновлялся с февраля 2012 года.  Полгода тому назад я пообещал себе, что я не буду писать новые сообщения на MDLP блоге до те пор пока я не напишу краткую научный отчет о проделенной работе. Так как приоритеты завершения научной работы были важнее рутиного обновления блога,  то  в связи с нехваткой времени, я был не в состоянии продолжать обновление блога на регулярной основе, в связи с нехваткой времени, я должен был внести изменения в свой исследовательский график. Поэтому я решил воздерживался от размещения новых данных на блоге в течение нескольких месяцев, фокусируясь на более важных вопросах. Несмотря на все ограничения, я продолжал втайне работать  на проектом MDLP, сбором необходимых данных и выполением различных ‘геномных’ экспериментов в целях достижения своей конечной цели. Однако с течением времени, некоторые результаты секретных экспериментов с новыми полногеномными популяционными выборками и инструментами в конечном итоге просочились в Интернет,  порождая огромный интерес к моему проекту. После выпуска новой версии моей собственной модификации DIYDodecad калькулятор на сайте Gedmatch.com, я был буквально завален письмами пользователями сервиса Gedmatch.com.
Тогда я осознал свою основную стратегическую ошибку, которая заключалась в  отсутствии подробной документации к выпущенными мной данными и результатам анализа, и почувствовал себя обязанным разместить более подробные разъяснения. Очевидно, я начну новую серию публикацию в своем блоге,  которая будет тесным образом связанна с теми аспектами моей работы, которая наиболее интересует общественность, то есть с калькулятором MDLP World22.

Основы отбора референсных популяций калькулятора MDLP World22.

Референсный набор  популяций в этом калькуляторе был собран в программе PLINK   методом «intersection&thinning» ( дословно «пересечением и истончением») образцов из различных источников данных: HapMap 3 (отфильтрованный набор данных КЕС, YRI, JPT, CHB), 1000genomes,   Rasmussen et al. (2010),   HGDP (кураторская база данных Стэнфордского университета), Metspalu et al. (2011),  Yunusbayev et al (2011), Chaubey et al. (2010) и т.д.
Кроме того, я отобрал произвольным образом по 10 сэмплов (или максимальное количество доступных сэмплов в тех случаях, когда общее число сэмплов в популяции было меньше 10) от каждой европейской страны, представленной в панеле базе данных POPRES. Наконец, для того чтобы оценить степень корреляции между современным и древним генетическим разнообразием населения Европы, я также включил в выборку образцы древней ДНК Эци (Keller et al. (2012)) ,  образцы житлей шведского неолита Gök4, Ajv52, Ajv70, Ire8, STE7 ( Skoglund et al. (2012)) и 2 образца La Braña  — останков мезолитических жителей Пиренейского полуострова (Sánchez-Quinto et al.(2012)).
Затем я добавил 90 образцов — анонимизированных данных — участников моего проекта. После слияния вышеупомянутых наборов данных и истончения набора SNP с  помощью особой команды PLINK, я исключил SNP-ы с  более чем 1% минорных аллелей. После чего я отфильтровал дубликаты, лиц с высоким уровнем общих по происхождению идентичных сегментов (IBD). В качестве критерия фильтрации  были использованы расчеты IBD в Plink, где IBD представлена как средняя доля аллелей общих между двумя людьми по всем анализируемым локусам.  Затем я удалил из выборки лиц с  высоким коэффициентом предпологаемого родства (коэффициенты родства были вычислены в программном обеспечении King). Для получения более стабильных результатов, я также отфильтровал сэмплы с более чем 3 стандартными отклонениями от средних данных  по популяции. Поскольку коэффициент родства может быть надежно определен с помощью оценки HWE (ожидания, вытекающего из закона Харди-Вайнберга) между SNP-ами с той же базовой частотой аллелей, то SNP-ы с существенным отклонением (p < 5.5 x10−8) от  ожидания Харди-Вайнберга были удалены из объединенного набора данных. После этого я выделил те SNP-ы, которые присутствовали в чипах Illumina / Affymetrix, и затем произвел фильтрацию снипов на основе расчетов степени неравновесного сцепления  (в этой я использовал хромосомное ‘окно’ размером в 50 базовых пар, с шагом 5 базовых пар и пороговым значением уровня сцепления R ^ 2, равным 0,3).
По окончанию этой сложной последовательности операций, я получил окончательноый набора данных, который включал в себя 80 751 снипов,  2516 человек и 225  референсных популяций.

Анализ этно-популяционного адмикс

 В ходе следующенго этапа, окончательный набор данных по референсным популяциям (которые я храню в linkage-формате PLINK) был обработан в программе Admixture.  Во время выбора подходящей модели проведения теста на этно-популяционный адмикс, я столкнулся с крайне трудной задачей: как было показано в профильных научных исследованиях (Patterson et al.2006) количество маркеров, необходимых для надежной стратификации популяций в анализе обратно пропорциональна генетическому расстоянию (фСТ) между популяциями. Согласно рекомендациям пользователей программы Admixture, считается что примерно 10 000 генетических SNP-маркеров достаточно для выполнения интер-континентальной GWAS -коррекции обособленных популяций (например, уровень дивергенции между африканскими, азиатскими и европейскими популяциями  FST > 0.05), в то время как для аналогичной коррекции между внутриконтинентальными популяциями требуется более чем 100000 маркеров (в Европе, например, ФСТ < 0.01). Для повышения точности результатов Admixture я решил использовать метод, предложенный Dienekes. Этот метод позволяет преобразовать частот аллелей в «синтетические» индивиды (см. также пример Зака Аджмала из проекта HarappaDNA). Идея метода довольно проста: сначала необходимо запустить unsupervised анализ Admixture с целью вычисления частот аллелей в так называемых предковых компонентов, а затем на основании аллельных частот сгенерировать «фиктивные популяции».  Именно эти фиктивные популяции и индивиды будут использоваться в ходе чистых референсов в ходе последующего анализа этно-популяционного анализа.
Впрочем, как и любой другой исследователь, работающий над четким решением проблемы этно-популяционного адмикса, я вынужден считаться с ограничениями этого подхода. Хотя я и отдаю себе отчет в существовании явных методологических подвохов в использовании смоделированных искусственных индивидов для определения адмикса в реальной популяции, я все же скорее склонен согласиться с Понтикосом, которые считаeт полученных в ходе  аллельно-частотного моделирования «фиктивных индивидов» лучшей аппроксимацией древних генетических компонентов мирового народонаселения.Как бы то не было, моделирующий подход, предложенный Диенеком и Заком, сослужил свою хорошую службу, поскольку были мной были получены  значимые результаты в ходе создания нового калькулятора. Сначала я произвел unsupervised Admixture (при значении К = 22, т.е 22 кластера частот аллель или предковых компонентов). По выполнению анализа нами были получены оценки коэффициентов адмикса в каждой из этих 22 аллельных кластеров, а также частоты аллелей для всех SNP-ов в каждой из 22 родовых популяций.
Затем я использовал мнемонические обозначения для каждого компонента (имена для каждого из компонентов выведены в  порядке их появления). Нужно помнить, что обозначения этих компонентов носят скорее мнемонический условный характер:
Pygmy
West-Asian
North-European-Mesolithic
Tibetan
Mesomerican
Arctic-Amerind
South-America_Amerind
Indian
North-Siberean
Atlantic_Mediterranean_Neolithic
Samoedic
Proto-Indo-Iranian
East-Siberean
North-East-European
South-African
North-Amerind
Sub-Saharian
East-South-Asian
Near_East
Melanesian
Paleo-Siberean
Austronesian
Вышеупомянутые частоты аллель, вычисленные в ходе unsupervised (безнадзорного) анализа (Admixture K = 22) объединенного набора данных, были затем использованы для симуляции синтетических индивидов, по 10 индивидов на каждую из 22 предковых компонент.  Это симуляционное моделирование проводилось с помощью PLINK команды -simulate Когда моделирование было закончено, я сделал визуализацию расстояния между симулированными индивидами с использованием многомерного масштабирования.
На следущем этапе, я включил группу смоделированных индивидов (220 индивидов) в новую эталонную популяцию. После чего я запустил новый анализ А, на этот раз в полном «поднадзорном» режиме для K = 22, причем полученные в ходе симуляционного моделирования фиктивные популяции фиктивных индивидов использовались в качестве новых референсных эталонных групп.  На конвергенцию 22 априорно заданых предковых компонентов было затрачено  31 итераций (3 7773,1 сек) с окончательным loglikelihood: -188032005,430318 (ниже приведена таблица значений Fst  между расчетными ‘предковыми’ популяциями):
Приведенная выше матрица  Fst дистанций  была использована для определения наиболее вероятной топологии NJ-дерева всех 22 предковых компонентов ( примечание: в качестве outgroup-таксона использовался South-African component). Индивидуальные результаты ‘поднадзорного’ анализа этно-популяционных миксов (в формате Excel) для участников проекта были загружены на GoogleDrive.

MDLP World22 DIYcalculator

Выходные файлы «поднадзорного» анализа  Admixture K=22 (средние значения коэффициентов адмикса в референсных популяциях и значения Fst) были использованы для разработки новой версии DIYcalculator MDLP, который более известен под кодовым названием «World22» (онлайн версия доступна разделе Admixture-утилит на сервисе Gedmatch в рамках проекта MDLP). Как я уже упоминал выше, MDLP DIYcalculator работает на коде Dodecad DIY calculator (c) Dienekes Pontikos.
В свою очередь,  реализованная на сервисе  Gedmatch модификация DIYcalculator ‘World22’ комбинирована с  Oracle ‘World22’ MDLP, который также работает на коде Диенека и Зака Аджмала ​​(Хараппа/DodecadOracle). Программа «Oracle» работает в двух режимах. В режиме single population программа определяет ближайщие (к анализируемому геному) референсные популяции калькулятора Word22. В смешанном режиме, Oracle рассматривает все пары населения, и для каждой из пар вычисляет минимальное Fst-взвешенное расстояние между парой и анализируемым геномом, а также  коэффициенты сходства.
Предковые популяции (т.е. полученные в ходе симуляционное моделирования популяции — см. выше) обозначены в результатах Oracle суффиксом anc, в то время реальные современные и древние популяции обозначены суффиксом der.
Если у Вас возникли проблемы с пониманием/интерпретацией результатов Oracle и DIYcalculcator,  то я настоятельно рекомендую обратится к соответствующим темам в блогах  Dodecad и НаrappaWorld . Я полагаю, что не имеет особого практического смысла заново изобретать велосипед и слово в слово повторять то, что уже было написано более компетентными в этом вопросе людьми.

Что представляют собой компоненты MDLP World-22?

Один из наиболее частых вопросов, которые задают мне пользователи калькулятора, напрямую касается практической интерпретации референсных популяций и предковых компонентов в моих калькуляторах K = 12 и World-22 анализов в виду. Чуть выше по тексту я уже привел часть ответа на этот вопрос , но — как гласит старинная китайская пословица — одна картинка стоит десять тысяч слов. Вот почему я решил визуализировать компоненты на поверхности земного шара путем отображения коэффициентов адмикса. Избегая излишних премудростей, я воспользовался готовым рецептом Франсуа Оливье, который предложал  использовать графическую библиотеку статистического программного обеспечения R для отображения пространственной интерполяции  коэффициентов адмикса (Q матрица) в двух измерениях (где пространственные координаты записываются как географические долгота и широта).  Благодаря этому решению, мне удалось создать по 2 контурные карты на каждый из предковых компонентов.Pygmy (модальный компонент в  популяциях африканских пигмеев Biaka и Mbuti)

West-Asian (бимодальный компонет с пиком на Кавказе и юго-восточной части Ирана, приблизительно идентичен компонентам Caucasian/Gedrosia Диенека Понтикоса)
North-European-Mesolithic (локальный архаичный компонент с пиком в популяции древних европейских жителей Иберийского полуострова La_Brana и современной популяции саамов).
Tibetan (Indo-Burmese) component (Гималаи-Тибет)
Mesomerican (главный генетический компонент  у мезоамериканских америндов)

 

North-Amerind (нативный компонент северо-американских америндов)

South-Amerind (нативный компонент южно-американских индейцев)
  Atlantic-Mediterranean-Neolithic (доминируюший компонент  в западной и юго-западной Европе)

Контурные карты прочих компонентов можно скачать здесь.

В продолжении темы о найденным мною «гене Фейсбука»

Открыл на форуме 23andme тему, посвященную новооткрытому «гену Фейсбука» https://www.23andme.com/you/community/thread/14241/ Просьба к тем, кто имеет аккаунт в 23andme подержать своим участием

One of the biggest failures of the GWAS methodology is that is designed to detect the effects of causative genetic loci where the rarer allele still has a reasonable frequency in the population (greater than 5%). If there are genetic loci influencing the trait where the rare allele has a frequency under 5%, or even under 1%, the GWAS technique is unlikely to be able to detect these loci.

The latest addition to Gedmatch «Rare SNP search» was very helpful in circumventing the problem described above. Having found some rare alleles in Gedmatch databse, i have mentioned an interesting SNP in SLC6A3 gene: rs28363168 (chr5:1447389 A C). The A-genotype of this SNP is very rare (0.6121%), but seems to have an impact on the storage and release of dopamine. The gene SLC6A3 regulates the production of dopamine transporter, a membrane-spanning protein that pumps the neurotransmitter dopamine out of the synapse back into cytosol. From the previous studies we know that SLC6A3 gene is said to have «genetic associations» with the various cognitive and attention disorders (i.e., schizophrenia, depression, alcohol consumption. More interesting, however, is that polimorphisms in that gene increase the odds of having ADHD (Attention deficit hyperactivity disorder). The recent research has shown thta the use of social networking sites can cause personality and brain disorders in children, such as the inability to have real conversations, limited attention spans, a need for instant gratification, Attention-Deficit Hyperactivity Disorder (ADHD), and self-centered personalities.
That’s why i’ve dubbed the SLC6A3 gene «the Facebook gene».

rs28363168 is tested by 23andme. I’d like you post your rs28363168 genotype here. Any comments or questions are also highly appreciated

Удалось связаться с носителем сверхредкого гомозиготного варианта AA в снипе rs28363168 (который, как я и говорил ранее, может быть связан с повышенным риском развития ADHD).

В приватной беседе выяснилось, что несмотря на свой AA-вариант снипа, диагнога ADHD у этого индивида X (и его родственников) нет, хотя и присутствуют некоторые симптомы. Зато многие члены этого семейства страдают биполярным аффирмативным расстойством, а некоторые синдромом Аспергера. Это вполне объяснимо, так как вышеупомянутый снип находится в гене, «кодирующем» протеин-транспортер допамина. На эту тему есть хорошое исследование J Psychopharmacol. 2011 Jul;25(7):934-43. Epub 2011 Mar 18. Increased risk-taking behavior in dopamine transporter knockdown mice: further support for a mouse model of mania.

Reduced functioning of the dopamine transporter (DAT) has been linked to bipolar disorder (BD). Mice with reduced DAT functioning (knockdown, KD) exhibit a behavioral profile in the mouse Behavioral Pattern Monitor (BPM) consistent with patients with BD mania in the human BPM. Patients with BD also exhibit increased risk taking, which can be quantified using the Iowa Gambling Task (IGT). We hypothesized that DAT KD mice would exhibit increased risk-taking behavior in a novel mouse version of the IGT. DAT KD and wildtype (WT) littermates were trained in the mouse IGT. In session 1, KD mice initially made riskier choices, but later performed comparably to WT mice. Once trained to stable choice performance, DAT KD mice continued to exhibit a trend to choose the riskier options more than WT mice. Finally, we confirmed that these DAT KD mice also exhibited an exploratory profile in the BPM consistent with patients with BD mania, where risky choice behavior modestly correlated with specific exploration. These data demonstrate that DAT KD mice chose the riskier options more than WT mice, providing further support for the use of DAT KD mice as a model of BD mania.

Поскольку в ходе дискуссии был упомянут синдром Аспергера, то стоит подробнее остановиться на его описании. Люди с синдромом Аспергера часто выделяются весьма педантичной манерой разговора, использованием более формального и структурированного языка, чем того заслуживает ситуация. Пятилетний ребёнок с этим синдромом может регулярно говорить на языке, который бы подошёл университетскому учебнику, особенно в своей области интересов. Язык Аспергера, несмотря на старомодные слова и выражения, грамматически правилен.

Развитие речи у ребёнка бывает исключительно ранним, развиваясь медленно из-за типичной для аспергеров привязанности к структуре и неизменённости жизненных норм, или наоборот несколько поздним по сравнению с братьями и сёстрами, после чего развивается очень быстро, так что в возрасте 5-6 лет речь в любом случае выглядит как правильная, педантичная, не по годам развитая и чрезмерно похожая на взрослую. Часто ребёнок, запомнивший речевые штампы, может выглядеть понимающим разговор. Однако для него трудно или полностью невозможно быть настоящим собеседником. Специалисты по нарушениям речи обычно называют этот тип проблем термином семантическое прагматическое нарушение, означающим, что, несмотря на нормальные или хорошо выраженные навыки речи, существует неспособность использования языка для коммуникации в условиях реальной жизни. Тональность голоса может быть нарушенной (слишком сильный, сиплый, чрезмерно низкий), темп речи увеличенным или заниженным. Слова часто произносятся излишне ровно и монотонно.

Другим распространённым (хотя и не универсальным) симптомом является буквальное понимание. Эттвуд приводит пример девочки с синдромом Аспергера, которой однажды позвонили и спросили «Павел рядом?». Хотя требуемый Павел присутствовал в доме, его не было в комнате, и, оглянувшись, чтобы убедиться в этом, она ответила «нет» и повесила трубку. Звонящему человеку пришлось перезвонить и объяснить ей, что он хотел, чтобы она нашла Павла и попросила его взять трубку (Attwood, 78).

Люди с синдромом Аспергера не воспринимают те неписанные социальные законы, которые мы усваиваем по опыту. Это как раз те люди, которые, как в известном анекдоте, на вопрос «Как дела?» начинают действительно рассказывать, как у них дела. Либо, наоборот, зная, что ответ на вопрос для собеседника может показаться слишком длинным — молчат. А если им сказать «Звони в любое время», могут позвонить в три часа ночи с чистой совестью. Полное неумение понимать намеки и «читать между строк» осложняет отношения с окружающими, но необходимо помнить, что оборотная сторона этого — честность и прямолинейность. Многие люди с синдромом Аспергера вообще не умеют лгать, и опасаться интриг с их стороны тоже не приходится.

Многие люди с синдромом Аспергера также используют слова очень специфически, включая в речь свежепридуманные слова или скомбинированные из знаний разговорного языка с корнями древних, от которых он произошёл, а также необычные сочетания слов. Они могут развить редкий дар к юмору (особенно каламбуры; игра слов; строфы, в которых смысл приведён в жертву рифме; сатира) или написанию книг. (Другой потенциальный источник юмора появляется, когда они понимают, что их буквальные интерпретации забавляют окружающих.) Некоторые настолько хорошо владеют письменной речью, что удовлетворяют критериям гиперлексии (способность понимать письменную речь выше нормы, а способность понимать устную речь — ниже нормы).Возможные причины и происхождение синдрома Аспергера — это горячо обсуждаемая и спорная тема. Мнение большинства, на сегодня, состоит в том, что причины синдрома Аспергера — те же, что и у аутизма. Некоторые, однако, с этим не согласны, и аргументируют, что к синдрому Аспергера и аутизму приводят разные вещи. Всё это происходит на фоне продолжающихся более широких дебатов относительно того, является ли синдром Аспергера и другие состояния (такие как расстройство с дефицитом внимания и гиперактивностью — СДВГ (ADHD)) частью так называемого аутистического спектра.

Среди многих конкурирующих теорий относительно причины аутизма (и, следовательно, как многие уверены — синдрома Аспергера) — теория недосвязанности, разработанная исследователями познавания университета Carnegie Mellon и университета Питсбурга, теория предельного мужского мозга Симона Барон-Коэна (Simon Baron-Cohen), теория пред-работающего аутизма, теория социальной конструкции и генетика.

Возвращаясь к найденной мной ассоции полиморфизма (снипа) rs28363168 c cиндромом ADHD («ген Фейсбука»), необходимо упоминуть один красноречивый факт. К дискуссии на форумах 23andme (по приведенной выше ссылке) подключилась одна из форумных активисток little_bit, которая живо интересуется проблематикой аутизма (ASD/ADHD). Причина ее интереса к аутизму очевидна: ее сыну был поставлен диагноз ADHD/ASD и сейчас он проходит медикаментозный курс лечения лекарствами Strattera, Ritalin и Adderall. ) Так вот у ее сына в снипе rs28363168 тот же геноти АC, что и у меня. Этот гетерозиготный генотип встречается крайне редок, что  подтвердилось в ходе  статистического анализа  публичных данных, опубликованных известным порталом openSNP.
Причем при составлении генотипов ее муж (который также тестирован в 23andme) и сына cтановится очевидно, что сын унаследовал редкую аллель A от отца. Что еще интересней, муж, хотя и не был диагностирован синдромом Аспергера/ADHD в детстве, имеет все очевидные признаки этих расстройств )). Ну и генотип у него соответственно AC ).
Так что выводы моего исследования, как говорится, попали в яблочко:

When I put together my son’s rare snp analysis, rs28363168 in the SLC6A3 gene was probably my most exciting finds. I’m not going to say «smoking gun» quite yet, but close. My son got the rare A allele from his father who is diagnosed with ADHD, and successfully on meds for it. Most interestingly, he got it from his father, who is very classically ADHD/Asperger’s though not officially diagnosed due to his age. He is 81 and they just didn’t do those diagnosis’s back then. If you observe my father-in-laws life, as well as his father, the ADHD symptoms were very evident and unmistakable.My son is most similar to my father-in-law, such that he has the strong ADHD symptoms as well as Asperger’s, whereas my husband is not Asperger’s. I have diagnosed autistic relatives, and several suspected cases so it may just be a luck-of-the draw thing such that both my son and father-in-law got ADHD from their father’s side and ASD from their mother’s side?Anyway, here’s the snp at opensnp — one of the two AC’s has haunted the ASD/ADHD threads here with me for a long time, so yet one more piece of the puzzle. I know that he and my son both share the MAOA 3 repeat warrior version, which being on the X they get from their mother’s. MAO-A is an enzyme that degrades amine neurotransmitters, such as dopamine, norepinephrine, and serotonin and it’s prevalence is around 30% in Europeans. It makes me wonder if there could be a synergistic correlation between the variant and this snp, perhaps as a modifier to more severe ADHD or Aspergers? I know with my father-in-law, husband, and son…my husband has the least severe, and most easily treated case.

Интересно проанализировать распространение генотипов rs28363168 в метапопуляции европейцев.Данные взяты из базы данных dBSNP NCBI
Частоты генотипов CC, AC, AA вычисленны исходя из чисто «европейской» панели HapMap-CEU

Forward strand/ reverse strand %
GG/CC 93,8%
GT/AC 6,2%
TT/AA —

Alleles

G/C 96,9%
T/A 3,5%

Генотип GT/AC имеет частоту распространения 6,2%. Это примерно соответствует частоте распространенности ADHD в европейской популяции. Cм. нижеприведенные ссылки в статье «The size and burden of mental disorders and other disorders of the brain in Europe 2010», в которой частота встречаемости  ADHD  в европейских популяциях оценивается в 5%: «шn this study, 1 in 20 (5%) are thought to have ADHD but diagnosis rates vary depending:-Teachers reporting 18%-Parent reporting 8%-Self reporting 4%-Both parent and self 2%». Похожие выводы можно найти и в другом исследовании:

Males, of course, are much more likely to receive a diagnosis and age factors in as well. ADHD symptoms are estimated at 9.5-16.1% prevalence, but like ASD, it could be a spectrum, with many on the lesser end of the spectrum remaining undiagnosed due to coping skills.