Как рассчитать реализованный генетический прогресс – краткое руководство

В этой памятке представлены рекомендации по организации полевых экспериментов, работе и анализу фенотипических данных, которые помогут обеспечить точную оценку реализованного генетического прогресса.

Источник: Cheat sheet on how to calculate realized genetic gains. CIGAR Excellence in breeding platform.

Перевод: Надежда Долматова, dolmatova.sk@gmail.com

Термины:

Пайплайн (от английского pipeline — «трубопровод») — это документ, визуализирующий процесс разработки продукта (в случае селекции растений – сорта или гибрида). Он представляет собой последовательность этапов, расположенных так, что конец предыдущего является началом следующего. Благодаря этому создается эффект производственного конвейера или трубопровода, по которому проект движется от первоначальной идеи до конкретного продукта.

Есть три важных аспекта, которые необходимо учитываться при расчете реализованного генетического прогресса:

  1. Экспериментальный дизайн испытаний (например, количество тестовых локаций, стратегия обеспечения связности данных, и т.д.).
  2. Сбор и организация фенотипических данных, подлежащих анализу (стадия, этап селекционного процесса и т. д.).
  3. Статистический анализ данных (признаки, модели, контроль качества и др.).

Авторы памятки предполагают, что организация находится в процессе выстраивания такой рабочей системы , что в будущем ее селекционная программа будет иметь отлаженный экспериментальный дизайн, который позволит вносить временные и пространственные корректировки (например, со стратегией замены контрольных образов и охватом TPE), создает сорта/гибриды для конкретных сегментов рынка (=имеет рыночные цели), где данные можно легко извлечь по разным стадиям пайплайна, где данные анализируются таким образом, чтобы связность позволяла учитывать годовые (временные) эффекты, и где значения генотипа могут точно корректироваться для факторов, создающих помехи при анализе данных (например, пространственных (spatial) эффектов).

Также предполагается, что при расчете реализованного генетического прогресса используются данные испытаний, полученные в ходе обычного – поэтапного – селекционного процесса, и никаких дополнительных испытаний не проводится (т. е. era trials не закладываются), а вместо этого «стандартом» является анализ исторических данных.

Будущее и текущее состояние селекционной программы могут отличаться. Например, программа может еще не следовать рекомендациям из этого документа (не использовать стратегию работы с контрольными образцами, надлежащий экспериментальный дизайн и т. д.), но может использовать эту информацию в качестве руководства, чтобы знать, куда идти в будущем и как анализировать текущие данные.

1. Рекомендации по дизайну эксперимента

Обычная селекционная программа следует поэтапному подходу, когда речь идет об испытаниях для улучшения селекционной популяции (т.е. ранние стадии) и совершенствования будущих кандидатов на рыночные сорта / гибриды (поздние стадии) (рис. 1).

Ниже представлен протокол максимизации связности данных при запуске испытаний для определенного этапа селекционной программы.

Рис. 1. Графическое представление примера поэтапного подхода, используемого в программе селекции растений.

1. Составьте список материалов (список образцов), которые будут тестироваться на каждом этапе.В список тестируемых образцов должны входить:

a) Список новых материалов (текущие когорты), подлежащих тестированию.

b) Минимум два временных контрольных образца (temporal checks), которые будут как можно более «динамически стабильными» (генотипы должны присутствовать в течение как можно большего количества лет и реплицироваться, как и любой другой образец с испытаний).

c) Минимум (но не ограничиваясь) три-четыре пространственных контрольных образца (spatial checks) на которые будет приходится не более 5% всех тестовых делянок (должны обновляться со скоростью ~ один раз в год по ступенчатой схеме для укрепления связности данных).

d) Временные и пространственные контрольные образцы могут быть, в том числе, коммерческими сортами / гибридами или отвечать каким-то дополнительным целям, нужным программе, но они должны следовать рекомендациям по замене, указанным в пунктах b и c.

2. Создайте полевые журналы для каждой стадии тестирования, выполнив следующие действия:

a) Переместите список записей, включая новые материалы и все виды контрольных образцов, упомянутых в пункте 1, в полевой журнал.

b) Создайте план эксперимента, необходимый для интересующей вас стадии тестирования (early or late testing) и убедитесь, что временные контрольные образцы имеют по крайней мере 2 повторности, а пространственные контрольные образцы повторяются по мере необходимости, не превышают 5% участков в испытании. [Мы рекомендуем расширенный (augmented) и p-rep дизайны для сортоиспытаний ранних и промежуточных поколений и альфа-дизайны (alpha designs) для поздних стадий испытаний].

c) Старайтесь ежегодно охватывать не менее 6 локаций TPE. Если количество семян ограничено, то распределяйте пакеты с семенами, используя методологии разреженного тестирования (sparse testing).

3. Проведите испытания и сохраните собранные фенотипические данные в базе данных для последующего анализа.

Рис.2. Графическое представление оптимальной стратегии контрольных и тестируемых образцов для максимизации временной и пространственной связи данных между селекционными испытаниями в разные годы.
Примечание: справа показан пример линейной культуры с пятилетнем селекционным циклом (рециклинг на этапе 2), что приводит к существованию ~ пяти когорт (столбцы) в течение нескольких лет (строки) и стадий в пределах одного года. Слева показана предлагаемая стратегия для контрольных образцов, в которой пространственные образцы, обычно используемые в качестве бенчмарка для целей замены продукта, предлагается упразднить по ступенчатой схеме (например, обновлять один контрольный образец в год); временные контрольные образцы (присутствующие во все годы) используются для соединения данных и правильной оценки эффекта года
Рис 3. Графическое представление основных шагов для расчета реализованного генетического прогресса с использованием исторических данных. Крайне важно правильно разделить данные, чтобы правильно интерпретировать результирующее значение генетического прогресса.

2. Рекомендации по правильной организации работы с данными

Данные, используемые для расчета генетического прогресса, могут быть получены в результате обычного поэтапного подхода к тестированию селекционного материала или испытаний, специально проводимых для этой цели (например, era trials). Ниже мы приводим некоторые рекомендации для пользователей по структуризации и работе с данными, которые можно выполнить, прежде чем переходить к их анализу.

Анализ исторических данных

1. Обратитесь к менеджеру базы данных

2. Получите данные, относящиеся к интересующему вас пайплану.

3. Разделите данные по целевым сегментам рынка (определяется регионом, характеристиками продукта, агроэкологическими условиями и производственной системой).

4. Сохраните разбивку данных за интересующий период времени (например, за последние 5–10 лет).

5. Сохраняйте разделенные данные для конкретной стадии(й) гермоплазмы (например, тестирование на поздних стадиях). [Примечание: для оценки генетического прогресса с точки зрения разработки продукта используйте данные с испытаний на поздних стадиях (например, Стадия 3 и с полей с/х товаропроизводителей). С точки зрения улучшения популяции – используйте данные испытаний на ранних стадиях (например, этап 1 и этап 2)]

6. Сохраняйте разделенные данные только для признаков, которые улучшаются в соответствии с профилем продукта (например, урожайность).

7. Передайте пакеты данных в службу поддержки биометрии и запросите анализ генетического прогресса.

8. Запросите поддержку у своего специалиста по биометрии, чтобы провести одноэтапный или двухэтапный анализ MET (multi environmental trials) с использованием смешанной модели (mix model), которая позволит учитывать нежелательные(пространственные, географические, годовые) и генотипические (генотип, взаимодействия генотипов) эффекты. Извлеките скорректированные значения для всех генотипов. Объедините год происхождения генотипов с их скорректированными значениями и подгоните линейную модель по форме adjusted.mean~year.origin.

Анализ данных era trials

1.Обратитесь к управляющему коллекцией гермоплазмы

2. Соберите список материалов для интересующего вас пайплайна

3. Разделите список материалов по целевым сегментам рынка (определяются регионом, особенностями продукта, агроэкологическими характеристиками и производственной системой).

4. Сохраняйте список материалов за интересующий период времени (например, за последние 5-10 лет).

5. Сохраняйте список материалов для данной интересующей стадии (стадий) гермоплазмы (например, тестирование на поздних стадиях).

6. Решите, какие признаки фенотипировать в испытаниях и будут ли они рассматриваться отдельно или в индексе (если доступны веса).

7. Передайте список материалов в службу поддержки биометрии для запуска экспериментального дизайна.

8. Заложите эксперимент и соберите фенотипы и выполните пункты 7 и 8 из анализа исторических данных

3. Рекомендации по анализу фенотипических данных для расчета генетического прогресса

Даже если данные испытаний подготовлены и сохранены должным образом, требуется надлежащий статистический анализ, чтобы обеспечить точную оценку реализованного генетического прогресса и имеющихся тенденций. Ниже предложены шаги для выполнения такого статистического анализа.

1.Выгузите данные испытаний, как описано в рекомендациях по правильной организации работы с данными. То есть – данные для конкретной воронки продаж, предназначенной для одного или нескольких сегментов рынка, и разделите данные для конкретных целей, этапов тестирования (предпочтительно для стадии 3 и/или стадии 4) и временного периода (минимум 5 лет). Определите признак, на котором следует сосредоточить анализ.

2. Выполните анализ одного местоположения за один год, чтобы удалить выбросы и опечатки в данных и выявить испытания с низкой H2. Удалите эксперименты с начальным значением H2 ниже 0,2. (см. [Cullis et al. (2006)])

3. После очистки данных выполните одноэтапный или двухэтапный анализ, для сопоставлений генетических и нежелательных эффектов, чтобы получить скорректированные значения для всех генотипов по годам. На языке ASReml-R модель имеет вид:

Генотипы должны быть фиксированные, чтобы правильно рассчитать генетическую ценность (genetic value). Год (как фактор) будет учитывать негенетический тренд. Случайные условия обеспечат учет взаимодействий и точную корректировку прогнозов локаций по годам.

4. Получите скорректированные значения по годам для всех генотипов из набора исторических данных. На языке ASReml-R:

5. Объедините скорректированные значения (прогнозы) с годом происхождения материала и подберите модель для расчета генетического прогресса. На языке ASReml это:

6. Наклон из последней модели может быть интерпретирован как скорость ответа на отбор, или генетический прогресс.

*Использование данных родословных/маркеров может повысить связность данных, но приведет к недооценке генетического прогресса, что требует применения метода отмены регрессии (de-regression method). Примеры скриптов можно найти по адресу: gitlab.com/excellenceinbreeding/module2.