Конспект по мотивам вебинара компании Doriane “Agronomy statistics with with a smile”.
«Существуют три вида лжи: ложь, наглая ложь и статистика» – этой крылатой фразой, которую приписывают премьер-министру Великобритании Бенджамину Дизраэли, принято оспаривать репутацию статистики, как бы намекая на то, что статистикой можно манипулировать или доказать с ее помощью любую теорию.
В интернете можно встретить график ложной корреляции между количеством людей, утонувших при падении в бассейн и количеством фильмов, в которых снялся Николас Кейдж. Конечно, эти события никак не связаны, но этот пример демонстрирует, что корреляция не объясняет наличие причинно-следственных связей.
Существует достаточно много факторов, влияющих на результаты исследования и приводящих к выводам, которые могут ввести в заблуждение:
- Необъективная выборка
- Чрезмерное обобщение (результаты, полученные на одной популяции, могут быть не применимы к другой популяции)
- Ложные причинно-следственные связи
- Манипуляции с данными (вбросы, пропущенные данные, ненормальность данных – оказывают значительный эффект на результат статистического анализа)
Это серьезные проблемы в большинстве проводимых статистических анализов.
Но статистика может и спасти ваши опыты!
Принципы статистического анализа:
Коммуникация. Выражение полученных результатов в числах (измеримых величинах). Это гораздо эффективнее, чем описывать свой результат в терминах «больше, чем..”.
Достоверность. Валидация научных исследований. Использование статистики требует постановки гипотез, фиксации дизайна эксперимента, методов и структуры базы данных.
Конвергенция истины. Сходится на принципах, законах и взаимосвязи данных.
Ниже рассмотрим некоторые статистические инструменты, которые могут быть полезны селекционеру
Подбор родительских линий с ОКС / СКС (GCA / SCA)
Концепция комбинационной способности: идентификация лучших линий и линий, которые могут быть использованы в качестве родительских в будущих скрещиваниях.
Лучшие линии отбираются, основываясь на результатах опытов в нескольких локациях (МЕТ) с последующим статистическим анализом. Для селекционера этот шаг является одним из критических и сложных во всем селекционном процессе. К счастью, инструменты общей и специфической комбинационной способности могут помочь в принятии этих решений.
Комбинационная способность определяется как способность родительских линий комбинироваться друг с другом в процессе гибридизации таким образом, что желательные гены или признаки передадутся их потомству.
Общая комбинационная способность (GCA / OKC) – среднее значение инбредной линии полученное на основании ее «поведения» в скрещивании с другими линиями, в то время как специфическая комбинационная способность (SCA / СКС) – значение линии в конкретном скрещивании.
AGCA=ХA + M
ASAAxB= XAB – M – AGCA – AGCB
Со статистической точки зрения GCA – главный эффект, а SCA – эффект взаимодействия.
Две главных цели использования этого инструмента:
- Идентификация лучших линий
- Отбор линий, которые могут быть использованы в качестве родительских в будущих скрещиваниях
Но нельзя забывать, что GCA и SCA – это относительные значения, которые зависят от конкретного набора инбредных линий, включенных в тестирование в гибридных комбинациях.
GCA и SCA комплементарны и используют разные эффекты:
GCA | SCA |
– Аддитивные эффекты между генами (высокая GCA указывает на наличие аддитивных эффектов между генами) – Наследуемость в узком смысле (Narrow Sense Heritability) – Гомозиготность (Высокая GCA указывает на гомозиготность) – Селекционная ценность (высокая GCA = высокая селекционная ценность) – Используется при отборе – Наследуемая и фиксируемая | – Не аддитивные эффекты(индикатор локусов с доминантным и эпистатическим взаимодействием) – Наследуемость в широком смысле (Broad Sense Heritability) – Гетерозиготность – Гетерозис (высокая SCA = высокий гетерозис) – Не используется при отборе – Ненаследуемая и нефиксированная |
Вывод: GCA и SCA два комплементарных инструмента для эффективного отбора линий.
Дизайн эксперимента
Примечание: самый известный русскоязычный перевод термина “Experimental design” в контексте проведения агрономических испытаний – “план опыта”.
Дизайн эксперимента – это различные типы организации опытного участка / делянок, которые используются для тестирования набора селекционных материалов с целью получения правильного вывода о конкретной проблеме / задаче.
Эт еще один этап селекционной программы, в котором статистика играет важнейшую роль. Плохие кандидаты могут быть отобраны вследствие неправильного выбора дизайна эксперимента.
Три базовых принципа дизайна эксперимента:
Повторность – частота повторения одноименных вариантов опыта с целью измерения значения экспериментальной ошибки (experimental error).
Рандомизация – случайное распределение вариантов опыта и их повторностей на различные экспериментальные единицы. Рандомизация оказывает больше значение на точность получаемых результатов.
Локальный контроль – принцип использования большей однородности в группах экспериментальных единиц для уменьшения значения ошибки эксперимента.
…. И несколько целей:
- получение данных для различных статистических оценок
- тестирование на предмет наличия значимых различий среди различных кандидатов (ANOVA)
- соответствующая интерпретация научных результатов и заключение достоверных выводов
4 самых популярных дизайна в селекции растений:
Полностью рандомизированный дизайн / Completely Randomized Design
(Примечание: в русскоязычной агрономической литературе можно встретить перевод – метод полной рандомизации)
Используется, когда экспериментальные единицы однородные. Принцип локального контроля не адаптирован для этого дизайна, потому что в данном дизайне не предусмотрены однородные блоки.
+ легко внедрить
+ подходит для испытаний горшечных культур
– нет блочной структуры
– не позволяет учитывать гетерогенность поля
Рандомизированный блочный дизайн / Randomized Complete Block Design
(Примечание: в русскоязычной агрономической литературе можно встретить перевод – рандомизированный блок)
Принцип локального контроля применятся, так как экспериментальное поле разделено на однородные блоки.
+ разделен на однородные блоки
+ полезен для однонаправленной вариации (причин различий)
+ наиболее используемый тип дизайна в исследовании растений
– не более чем для 20 образцов (больше, чем для 20 – эффективность снижается из-за увеличения неоднородности внутри блока)
Latinized Alpha-Design
Система двойных блоков, где исследуемые материалы рандомизированы по строкам и колонкам. Этот вид дизайна пока не очень распространен среди селекционеров растений, но это один из самых известных дизайнов для реализации принципа локального контроля. Неоднородность блоков отлично управляется двойным градиентом.
+ отлично подходит для контроля неоднородности
+ применим двойной градиент
+ управление влиянием соседних делянок
– тяжело внедрить
– высокая зависимость от наличия необходимого количества материала, который нужно оттестировать
Split-plot design
(Примечание: в русскоязычной агрономической литературе можно встретить перевод – Метод расщепленных делянок)
Это самый известный тип дизайна для многофакторных исследований. В этом дизайне несколько факторов изучаются одновременно, но с разным уровнем точности.
+ многофакторный дизайн
+ может включать изучение влияния орошения, использования удобрений (например, азота), времени высева, нормы высева и др…
+ поле разделено на делянки и «субделянки»
– составление схемы и анализа труднее, чем в других видах дизайна
– главный фактор, который исследуется в больших делянках – анализируется с меньшей точностью, чем другие факторы
Вывод: выбор экспериментального дизайна оказывает огромное влияние на точность результатов проводимых испытаний.
ANOVA и взаимодействие «генотип»-«среда»
Дисперсионный анализ, или ANOVA:
Концепция: используется для изучения разницы между вариантами (генотипы, сорта, локации…) в эксперименте
Анализ множественных сравнений: LSD (НСР), Newman&Keuls, Tukey HSD, Dunnet’s, Duncan (можно добавлять для тестирования разницы между конкретными парами экспериментальных и контрольных групп)
3 предположения: независимость, нормальность и однородность дисперсий остатков
Взаимодействие «генотип»-«среда»
Определение взаимодействия «генотип»-«среда»: два разных генотипа отвечают на изменение окружающей среды разными способами.
Все больше и больше исследователей рассматривают взаимодействие «генотип»-«среда» в их статистическом анализе с целью добавить больше точности в результаты дисперсионного анализа.
Стандартные вопросы исследователя при изучении взаимодействия «генотип»-«среда»
Относительно исследуемых генотипов:
- Адаптация: адаптированы ли определенные генотипы к определенному диапазону окружающей среды?
- Приспособляемость/чувствительность: могут ли определенные генотипы адаптироваться к улучшениям (изменениям) в окружающей среде? (пример – увеличение доз удобрений)
- Стабильность: постоянна ли производительность (=урожайность) конкретных генотипов в разных средах / локациях?
Относительно окружающей среды:
- Структура. Группировка испытаний в мегасреды: нахождение структуры в группе целевых локаций (target population of environments, TPE).
- Дизайн. Оптимизация выбора локаций для испытаний с целью представления TPE (с учетом структуры TPE).
Вывод: Взаимодействие «генотип»-«среда» может быть установлено как отдельный критерий отбора для сорто-специфичной адаптации к условиям окружающей среды.