Применение метода главных компонент в селекционных исследованиях

Отбор при проведении скрещиваний, оценка сортов или исходного материала всегда включает сравнение образцов по нескольким признакам. Возникает ряд вопросов, которые селекционер задает себе в таком случае: как я могу одновременно сравнивать урожайность, сроки цветения и засухоустойчивость? Как я могу сделать какие-то выводы из всех этих переменных? Что нужно сделать, чтобы исследовать связи между признаками и правильно визуализировать сходство между исследуемыми образцами?

Вы наверняка слышали о методе главных компонент (Principal Component Analysis, PCA). Эта статья коротко расскажет о возможностях метода и о том, как он будет полезен при принятии правильных решений по результатам проведенных опытов.

Задачи метода главных компонент

PCA — чрезвычайно мощный статистический инструмент для обобщения информации, и очень полезный, когда необходимо обработать и интерпретировать большой объем количественных данных (в случаях, когда речь идет о работе с n-образцами, наблюдаемыми по p-количественным переменным).

Формы визуализации PCA для агрономических данных обычно представляют собой облако точек или в виде круга корреляций между переменными.

Ниже представлен пример использования PCA в контексте скрининга перспективных коммерческих сортов сахарного тростника (Рис. 1). В опыте участвовали 5 сортов сахарного тростника и один контрольный образец. Для каждого образца были собраны данные по пяти признакам: урожайность, выход сахара, содержание сахарина, чувствительность к головне и стеблевому мотыльку.

На графике представлена визуализация данных, которые показывают – есть ли существенные различия между испытанными сортами или все образцы, в целом, одинаковые по показателям для всех пяти признаков.

Рис. 1. Скрининг перспективных коммерческих сортов сахарного тростника

Для этого был проведен PCA с двумя главными компонентами, чтобы представить все 5 переменных (признаков) только в двух проекциях. По горизонтали главный компонент 1 объединил собой урожайность, содержание сахарина и выход сахара; по вертикали второй компонент отображает чувствительность сортов к головне и стеблевой мотыльку. Одни только эти два компонента обобщают более 85% информации, объясняющих различия между образцами (дисперсия):

PC 1: 54,08% общей дисперсии (насыщенность сахарином r = 0,77, урожайность r = 0,95 и выход сахара r = 0,99).

PC 2: 27,15% общей дисперсии (головня r = 0,66 и стеблевой мотылек, % r = 0,78).

На рисунке 1 выделяются четыре группы сортов: контрольный образец NCo376 вверху справа, демонстрирующий хорошие агротехнические качества, но очень чувствительный к болезням. Затем две группы с низкой урожайностью: SP70-1143 с высокой чувствительностью к заболеваниям и группа из 2-х других сортов более устойчивых к болезням. И последняя группа состоит из двух наиболее интересных сортов FR80674 и B47258 с высоким содержанием сахарозы, высоким выходом сахара, хорошей урожайностью, при этом они устойчивые к стеблевому мотыльку и головне.

Алгоритм PCA выполняет над матрицей переменных различные операции (центрирование данных-редукцию, диагонализацию корреляционной матрицы, извлечение собственных значений и собственных векторов и т. д. ), чтобы объединить исходные данные определенным образом и получить уменьшение числа переменных. По сути, речь идет о создании новой, более экономной системы координат, в которой описывать данные проще. А новые переменные и будут являться главными компонентами (principal components, PCs). Таким образом, вы можете объяснить как можно большую генетическую изменчивость (дисперсию) с помощью как можно меньшего количества компонентов (PCs).

PCA работает только с количественными переменными, такими как урожайность, высота растения, содержание белка и др., с ним невозможно исследовать, например, качественную устойчивость к биотическим и абиотическим факторам. Все это числовые переменные: числа, проценты или числа, а не признаки, которые оцениваются «да / нет».

Кроме того, если данные не имеют необходимой структуры, то нельзя уменьшить количество «направлений» для анализа, как показано на рисунке 2.

Рис. 2. Трехмерные данные

Главные компоненты, как набор данных, имеют определенную структуру и представляют направления, в которых данные имеют максимальную дисперсию, а также направления, в которых данные наиболее разбросаны.

Главный недостаток метода главных компонент, особенно при работе с данными больших размерностей, заключается в том, что главные компоненты представляют собой линейные комбинации всех входных переменных. Поэтому результаты могут быть очень чувствительны к наличию в данных даже нескольких нетипичных наблюдений. Когда, например, у вас есть данные о линиях с наибольшей дисперсией (то есть, их значения сильно отличаются от значения других образцов в исследовании), PCA будет в значительной степени искажать интерпретацию анализов, включающих общее распределение. Без соблюдения ряда обязательных требований в отношении структуры данных такой подход с может привести к результатам, вводящим в заблуждение.

Так обстоит дело, например, с урожайностью, которая зависит от ряда других признаков, таких как кустистость, количество зерен в колосе и масса 1000 зерен. Урожайность — это переменная большой размерности, поскольку она зависит от других признаков, перечисленных выше. Из-за наличия таких связей и коррелированного отбора, эволюционный ответ любого фенотипического признака может быть правильно понят только в контексте других признаков.

Ограничения метода главных компонент связаны с тем, что это метод проекции, и что потеря информации, вызванная проекцией, может привести к ошибочным интерпретациям.

Следующий шаг – анализ множественных соответствий

Статистические модели, которые позволяют пойти дальше в анализе агрономических данных, позволяют учитывать следующие элементы: непротиворечивость данных, наличие в испытании «исключительных» образцов и связи (корреляции) между p-переменными.

Анализ множественных соответствий (Multiple Correspondence Analysis, MCA), в отличие от PCA, можно использовать с качественными переменными. Компоненты MCA преобразуют качественные переменные в числовые и часто используются для анализа данных опросов, чтобы определить группы респондентов со схожим профилем в ответах на вопросы и наличие связей между категориями переменных.

Рис. 3. Пример визуализации результатов анализа множественных соответствий. График множественного анализа соответствия эталонных растений генетической группы какао на основе морфологических признаков. а) Традиционная классификация; b) Генетические группы, описанные в статье Motamayor et al. (2008). Цветные эллипсы обозначают 90-процентный уровень достоверности для проанализированных растений разных групп. Оси указывают процент общей дисперсии, полученный первыми двумя главными компонентами. Расстояние между образцами показывает меру их сходства (или различия): на графике близки образцы с похожим профилем, то же самое касается переменных.

Первое преимущество MCA заключается в возможности работы с бинарными переменными. Бинарная (двоичная) переменная — это элемент, который может принимать только два значения, обозначаемых 1 и 0. Второе преимущество— преобразование качественных переменных в числовые для других анализов, требующих числовых переменных.

«Анализ множественных соответствий — это факторный метод, подходящий для данных, в которых набор образцов описывается набором качественных переменных».

Смешанные линейные модели для MET в селекции растений

Смешанные линейные модели используются для оценки генотипов в различных условиях окружающей среды, чтобы идентифицировать генотипы с превосходными характеристиками во всех локациях и /или наборах условий, таких как абиотические или биотические стрессы.

Как приступить к отбору лучших сортов, используя данные испытаний в нескольких локациях, основываясь на смешанных моделях факторного анализа? Рисунки 4а и 4b помогут ответить на этот вопрос.

Рис. 4а. Дифференциальная реакция сортов на окружающую среду

Рисунок 4а может быть интерпретирован в следующим образом: на нем представлены наложенные графики латентной регрессии (latent regression) для двух сортов – V6 (синий цвет) и V1 (оранжевый). Наклоны сплошных линий определены EBLUPs (эмпирический индекс, который позволяет сделать вывод о практической ценности конкретного образца) оценок сортов для первого фактора. Незаштрихованные кружки представляют собой общий показатель производительности для каждого сорта, а именно – значение на линии регрессии при среднем значении предполагаемых нагрузок (estimated loadings) для первого фактора (вертикальная пунктирная линия).

Как определить корреляцию между различными параметрами для разных локаций при использовании линейной смешанной модели? Давайте рассмотрим пример с этим исследованием, проведенным Маркосом Малосетти, который оценил производительность генотипов в различных средах с помощью смешанной линейной модели.

Рис. 4b. График корреляции между урожайностью (тонн га-1) и датой колошения (дней после 1 января) в каждой из 10 локаций на основе наблюдаемых значений генотипа по сравнению с корреляцией на основе расчетных значений генотипа из модели QTL. Такое сравнение может быть очень полезно при анализе селекционных испытаний сортов сельскохозяйственных культур.

Смешанные линейные модели являются инструментом принятия решений для управления рисками или ограничениями, связанными с окружающей средой, будь то биотические (насекомые-вредители, болезни) или абиотические (засуха, наводнения, кислотность почвы и др).

Значение статистических инструментов в агрономических исследованиях

Точный статистический анализ данных позволяет быть уверенным в достоверности результатов на протяжении всего эксперимента. Вы знаете выражение «корреляция не является причинно-следственной связью»: может возникнуть соблазн делать поспешные выводы на основе предвзятых выборок, неадекватного метода анализа или ошибочных данных… Но статистические инструменты специализированного программного обеспечения для сельскохозяйственных исследований работают таким образом, что бы вы могли положиться на результаты отбора и тестирования на протяжение всех ключевых этапов селекционной работы:

  • Выбор наиболее подходящего дизайна эксперимента
  • Определение самых эффективных линии с помощью GCA
  • Поиск лучших родителей для будущих скрещиваний с SCA
  • Оценка реакции окружающей среды с помощью матрицы GxE
  • Сравнение урожайности в различных вариантах с помощью дисперсионного анализа и полного набора статистических расчетов
  • Исследование данных с помощью интерактивных графиков для ACP, точечных диаграмм, блочных диаграмм и гистограмм
  • Характеристика передачи признаков с визуализацией родословной
Рис. 5. Пример динамического графика PCA в программе RnDExperience®

Сочетание аналитических инструментов с эффективным инструментом управления данными и планированием ресурсов НИОКР является ключом к успеху ваших агрономических кампаний. Благодаря своим продуктам и услугам компания Doriane ведет исследователей к их целям!

Перевод материала из блога компании Doriane: https://www.doriane.com/blog/pca-statistics-agronomy

Источники:

Prof. Dr. Ir. Romain Lucas GLELE KAKAÏ is Lab Director of the Laboratory of Biomathematics and forestry estimations of University of Abomey-Calavi.

Erwann Lagabrielle (2007). Planning of biodiversity conservation and territorial modeling on Reunion Island. Geography. University of La Réunion, France.

Lande R. Quantitative genetic analysis of multivariate evolution, applied to brain-body size allometry. Evolution. 1979;33:402–416

Lynch M, Walsh B. Genetics and analysis of quantitative traits. Sinauer Associates; Sunderland, MA: 1998

Alaye H. Magloire Firmin OTEYAMI, Agronomist, Geneticist-breeder in Benin, author of this article

Abdi, Hervé & Williams, Lynne. (2010). Principal Component Analysis. Wiley Interdisciplinary Reviews: Computational Statistics. 2. 433 – 459. 10.1002/wics.101.

Bidot Martínez, I., Valdés de la Cruz, M., Riera Nelson, M. et al. Morphological characterization of traditional cacao (Theobroma cacao L.) plants in Cuba. Genet Resour Crop Evol 64, 73–99 (2017). https://doi.org/10.1007/s10722-015-0333-4

Рисунк 1: Kouamé, Didier & Pene, Crépin & Zouzou, Michel. (2018). Evaluating varietal resistance of Sugarcane to the Tropical African Cane borer (Eldana saccharina Walker) in Ivory Coast.

Рисунок 4b: Malosetti M, Voltas J, Romagosa I, Ullrich SE, van Eeuwijk FA (2004) Mixed models including environmental covariables for studying QTL by environment interaction. Euphytica 137: 139-145

Рисунок 5: © Doriane SAS