Статистические инструменты в селекции растений

Конспект по мотивам вебинара компании Doriane “Agronomy statistics with with a smile”.

«Существуют три вида лжи: ложь, наглая ложь и статистика» – этой крылатой фразой, которую приписывают премьер-министру Великобритании Бенджамину Дизраэли, принято оспаривать репутацию статистики, как бы намекая на то, что статистикой можно манипулировать или доказать с ее помощью любую теорию.

В интернете можно встретить график ложной корреляции между количеством людей, утонувших при падении в бассейн и количеством фильмов, в которых снялся Николас Кейдж. Конечно, эти события никак не связаны, но этот пример демонстрирует, что корреляция не объясняет наличие причинно-следственных связей.

Существует достаточно много факторов, влияющих на результаты исследования и приводящих к выводам, которые могут ввести в заблуждение:

  • Необъективная выборка
  • Чрезмерное обобщение (результаты, полученные на одной популяции, могут быть не применимы к другой популяции)
  • Ложные причинно-следственные связи
  • Манипуляции с данными (вбросы, пропущенные данные, ненормальность данных – оказывают значительный эффект на результат статистического анализа)

Это серьезные проблемы в большинстве проводимых статистических анализов.

Но статистика может и спасти ваши опыты!

Принципы статистического анализа:

Коммуникация. Выражение полученных результатов в числах (измеримых величинах). Это гораздо эффективнее, чем описывать свой результат в терминах «больше, чем..”.

Достоверность. Валидация научных исследований. Использование статистики требует постановки гипотез, фиксации дизайна эксперимента, методов и структуры базы данных.

Конвергенция истины. Сходится на принципах, законах и взаимосвязи данных.

Ниже рассмотрим некоторые статистические инструменты, которые могут быть полезны селекционеру

Подбор родительских линий с ОКС / СКС (GCA / SCA)

Концепция комбинационной способности: идентификация лучших линий и линий, которые могут быть использованы в качестве родительских в будущих скрещиваниях.

Лучшие линии отбираются, основываясь на результатах опытов в нескольких локациях (МЕТ) с последующим статистическим анализом. Для селекционера этот шаг является одним из критических и сложных во всем селекционном процессе. К счастью, инструменты общей и специфической комбинационной способности могут помочь в принятии этих решений.

Комбинационная способность определяется как способность родительских линий комбинироваться друг с другом в процессе гибридизации таким образом, что желательные гены или признаки передадутся их потомству.

Общая комбинационная способность (GCA / OKC) – среднее значение инбредной линии полученное на основании ее «поведения» в скрещивании с другими линиями, в то время как специфическая комбинационная способность (SCA / СКС) – значение линии в конкретном скрещивании.

AGCAA + M

ASAAxB= XAB – M – AGCA – AGCB

Со статистической точки зрения GCA – главный эффект, а SCA – эффект взаимодействия.

Две главных цели использования этого инструмента:

  • Идентификация лучших линий
  • Отбор линий, которые могут быть использованы в качестве родительских в будущих скрещиваниях

Но нельзя забывать, что GCA и SCA – это относительные значения, которые зависят от конкретного набора инбредных линий, включенных в тестирование в гибридных комбинациях.

GCA и SCA комплементарны и используют разные эффекты:

GCASCA
– Аддитивные эффекты между генами (высокая GCA указывает на наличие аддитивных эффектов между генами)
– Наследуемость в узком смысле (Narrow Sense Heritability)
– Гомозиготность (Высокая GCA указывает на гомозиготность)
– Селекционная ценность (высокая GCA = высокая селекционная ценность)
– Используется при отборе
– Наследуемая и фиксируемая
– Не аддитивные эффекты(индикатор локусов с доминантным и эпистатическим взаимодействием)
– Наследуемость в широком смысле (Broad Sense Heritability)
– Гетерозиготность
– Гетерозис (высокая SCA = высокий гетерозис)
– Не используется при отборе
– Ненаследуемая и нефиксированная

Вывод: GCA и SCA два комплементарных инструмента для эффективного отбора линий.

Дизайн эксперимента

Примечание: самый известный русскоязычный перевод термина “Experimental design” в контексте проведения агрономических испытаний – “план опыта”.

Дизайн эксперимента – это различные типы организации опытного участка / делянок, которые используются для тестирования набора селекционных материалов с целью получения правильного вывода о конкретной проблеме / задаче.

Эт еще один этап селекционной программы, в котором статистика играет важнейшую роль. Плохие кандидаты могут быть отобраны вследствие неправильного выбора дизайна эксперимента.

Три базовых принципа дизайна эксперимента:

Повторность – частота повторения одноименных вариантов опыта с целью измерения значения экспериментальной ошибки (experimental error).

Рандомизация – случайное распределение вариантов опыта и их повторностей на различные экспериментальные единицы. Рандомизация оказывает больше значение на точность получаемых результатов.

Локальный контроль – принцип использования большей однородности в группах экспериментальных единиц для уменьшения значения ошибки эксперимента.

…. И несколько целей:

  • получение данных для различных статистических оценок
  • тестирование  на предмет наличия значимых различий среди различных кандидатов (ANOVA)
  • соответствующая интерпретация научных результатов и заключение достоверных выводов

4 самых популярных дизайна в селекции растений:

Полностью рандомизированный дизайн / Completely Randomized Design

(Примечание: в русскоязычной агрономической литературе можно встретить перевод – метод полной рандомизации)

Используется, когда экспериментальные единицы однородные. Принцип локального контроля не адаптирован для этого дизайна, потому что в данном дизайне не предусмотрены однородные блоки.

+ легко внедрить

+ подходит для испытаний горшечных культур

– нет блочной структуры

– не позволяет учитывать гетерогенность поля

Рандомизированный блочный дизайн / Randomized Complete Block Design

(Примечание: в русскоязычной агрономической литературе можно встретить перевод – рандомизированный блок)

Принцип локального контроля применятся, так как экспериментальное поле разделено на однородные блоки.

+ разделен на однородные блоки

+ полезен для однонаправленной вариации (причин различий)

+ наиболее используемый тип дизайна в исследовании растений

– не более чем для 20 образцов (больше, чем для 20 – эффективность снижается из-за увеличения неоднородности внутри блока)

Latinized Alpha-Design

Система двойных блоков, где исследуемые материалы рандомизированы по строкам и колонкам. Этот вид дизайна пока не очень распространен среди селекционеров растений, но это один из самых известных дизайнов для реализации принципа локального контроля. Неоднородность блоков отлично управляется двойным градиентом.

+ отлично подходит для контроля неоднородности

+ применим двойной градиент

+ управление влиянием соседних делянок

– тяжело внедрить

– высокая зависимость от наличия необходимого количества материала, который нужно оттестировать

Split-plot design

(Примечание: в русскоязычной агрономической литературе можно встретить перевод – Метод расщепленных делянок)

Это самый известный тип дизайна для многофакторных исследований. В этом дизайне несколько факторов изучаются одновременно, но с разным уровнем точности.

+ многофакторный дизайн

+ может включать изучение влияния орошения, использования удобрений (например, азота), времени высева, нормы высева и др…

+ поле разделено на делянки и «субделянки»

– составление схемы и анализа труднее, чем в других видах дизайна

– главный фактор, который исследуется в больших делянках – анализируется с меньшей точностью, чем другие факторы

Вывод: выбор экспериментального дизайна оказывает огромное влияние на точность результатов проводимых испытаний.

ANOVA и взаимодействие «генотип»-«среда»

Дисперсионный анализ, или ANOVA:

Концепция: используется для изучения разницы между вариантами (генотипы, сорта, локации…) в эксперименте

Анализ множественных сравнений: LSD (НСР), Newman&Keuls, Tukey HSD, Dunnet’s, Duncan (можно добавлять для тестирования разницы между конкретными парами экспериментальных и контрольных групп)

3 предположения: независимость, нормальность и однородность дисперсий остатков

Взаимодействие «генотип»-«среда»

Определение взаимодействия «генотип»-«среда»: два разных генотипа отвечают на изменение окружающей среды разными способами.

Все больше и больше исследователей рассматривают взаимодействие «генотип»-«среда» в их статистическом анализе с целью добавить больше точности в результаты дисперсионного анализа.

Стандартные вопросы исследователя при изучении взаимодействия «генотип»-«среда»

Относительно исследуемых генотипов:

  • Адаптация: адаптированы ли определенные генотипы к определенному диапазону окружающей среды?
  • Приспособляемость/чувствительность: могут ли определенные генотипы адаптироваться к улучшениям (изменениям) в окружающей среде?  (пример – увеличение доз удобрений)
  • Стабильность: постоянна ли производительность (=урожайность) конкретных генотипов в разных средах / локациях? 

Относительно окружающей среды:

  • Структура. Группировка испытаний в мегасреды: нахождение структуры в группе целевых локаций (target population of environments, TPE).
  • Дизайн. Оптимизация выбора локаций для испытаний с целью представления TPE (с учетом структуры TPE).

Вывод: Взаимодействие «генотип»-«среда» может быть установлено как отдельный критерий отбора для сорто-специфичной адаптации к условиям окружающей среды.