Генетический прогресс – ключевой показатель эффективности селекционных программ

В этом руководстве объясняются концепция генетического прогресса (genetic gain) и его связь с ключевыми показателями продуктивности, приводятся методы расчета, примеры и даются рекомендации по его оценке в селекционных программах.

Источник: https://excellenceinbreeding.org/toolbox/tools/eib-breeding-scheme-optimization-manuals

Перевод: Надежда Долматова, dolmatova.sk@gmail.com

Файлы с данными: https://gitlab.com/excellenceinbreeding/module2/breeding-program-assessment

Примечание: в предложенных сценариях (скриптах) R используется платный пакет ASReml-R. При этом большинство функций ASReml может быть заменено другими пакетами, анализирующими линейные смешанные модели (например, LME4).

Термины
Когорта — набор генотипов на данной стадии внутри данного селекционного цикла.
TPE, target population of environments — целевая совокупность локаций — переменная группа локаций, в которой планируется выращивать коммерческие сорта/гибриды.
Era trials — специальный метод испытаний для оценки реализованного генетического прогресса. Заключается в отборе материала за все годы селекционной программы с конкретной стадии или образца гермоплазмы и проведении определенного испытания со всеми образцами вместе в одних и тех же локациях и годах.

Введение

Одной из ключевых целей любой селекционной программы является получение высоких показателей генетического прогресса интересующих признаков (т.е. признаков, зафиксированных в профиле продукта) при сохранении уровня генетического разнообразия, чтобы поддерживать высокий уровень внедрения новых сортов сельхозтоваропроизводителями. Чтобы генетический прогресс приводил к более высоким показателям оборота сортов, необходимо соответствие профиля продукта потребностям заинтересованных сторон (например, участников производственно-сбытовой цепочки, сельхозтоваропроизводителей, потребителей, инвесторов и т.д.).

Общепринятой передовой практикой является использование показателей эффективности (performance indicators) для того, чтобы убедиться, что текущая деятельность направлена на достижение целей организации за счет повышения прозрачности и подотчетности при осуществлении рабочих процессов. В селекционных программах можно разработать количественные показатели — такие как скорость генетического прогресса интересующих признаков, — что будет способствовать получению более качественных продуктов. В контексте селекционных программ, финансируемых государством, или в тех случаях, когда в процессе разработки и реализации участвуют несколько заинтересованных сторон, бóльшая прозрачность может привести к привлечению и поддержанию финансирования, к созданию возможности координировать процессы разработки и общаться с конечными потребителями для повышения уровня внедрения разработок в реальный сектор экономики.

Цель настоящего руководства — продемонстрировать использование концепции «генетический прогресс» в качестве поддающегося количественной оценки ключевого показателя эффективности (key performance indicator, KPI) .

Ключевые показатели эффективности

Ключевой показатель эффективности (KPI) — измеримое значение, демонстрирующее, насколько эффективно организация достигает ключевых бизнес-целей. Организации используют KPI на нескольких уровнях для оценки своего успеха в достижении целей. KPI высокого уровня (high-level) измеряют общую производительность бизнеса, а KPI низкого уровня (low-level) измеряют производительность отдельных процессов. В этом руководстве основное внимание уделяется генетическому прогрессу как ключевому показателю эффективности высокого уровня для оценки всего селекционного процесса.

На рис. 1 селекция представлена как процесс. Основные подпроцессы селекции подразделяются на дизайн продукта, разработку продукта и масштабирование (серийное производство). При этом каждый из этих подпроцессов может быть разбит на подподпроцессы (т.е. разработка может быть разделена на скрещивание, оценку и отбор). Таким образом, KPI могут быть установлены процессам на разных уровнях. Например, процесс разработки может быть оценен с помощью KPI высокого уровня, (такого как «коэффициент генетического прогресса»), а процесс проектирования продукта — с помощью «продаж»; соответственно, подпроцессы можно оценивать с помощью KPI низкого уровня (например, показателем «наследуемость (h2) испытаний» для оценки подпроцесса разработки продукта). Подподпроцессы можно оценивать с использованием ключевых показателей эффективности еще более низкого уровня (например, «количество высаженных делянок в день» для оценки посева и т.д.).

Таким образом, можно систематически определять и применять ключевые показатели эффективности по всей селекционной программе с желаемым уровнем детализации. В данном руководстве основное внимание уделяется применению концепции «генетический прогресс» в качестве примера ключевого показателя эффективности высокого уровня для всего процесса в сопоставлении с другими ключевыми показателями эффективности. В следующих разделах будут рассмотрены темы:

  1. Значение и интерпретация генетического прогресса.
  2. Различные методы расчета с примерами.
  3. Проблемы с оценкой генетического прогресса.
  4. Рекомендации по плану исследования, позволяющему эффективно оценить генетический эффект.
Рис. 1. Графическое представление селекции как процесса с разными уровнями детализации.
Примечание. Основными процессами селекции являются дизайн и разработка продукта, масштабирование производства, каждый из которых разбит на подпроцессы и подподпроцессы.  Характер и сложность KPI, которые следует применять, варьируются в зависимости от различных уровней процессов.

Скорость генетического прогресса

Что такое генетический прогресс?

Генетический прогресс описывается как ожидаемое или реализованное изменение средней селекционной ценности (breeding value) популяции по крайней мере в течение одного цикла отбора по определенному признаку или индексу признаков [Rutkoski, 2019a]. Это изменение иногда называют генетической тенденцией (genetic trend), и его можно оценить путем регрессии средней селекционной ценности за год или цикл, если существует линейная зависимость [Eberhart, 1964]. Предполагая, что селекционный процесс остается неизменным, а интересующий признак количественно наследуется в соответствии с бесконечно малой моделью (infinitesimal model) [Fisher, 1918], эту оценку можно использовать для предсказания будущего генетического прогресса. Более подробные версии концепции генетического прогресса можно найти в работах [Rutkoski, 2019a; 2019b]; Cobb et al., 2019] или в классических книгах (например, в [Walsh,  Lynch, 2018]). Здесь мы выбираем высокоуровневую интерпретацию, чтобы сделать объяснение интуитивно понятным.

В исследовании [Lush, 1942] автор воспользовался теоретическими разработками Райта и Фишера в области количественной генетики и определил ответ на отбор (response to selection) (обозначенный как R), который стал известен впоследствии как генетический прогресс [Hill, 2014]. Наиболее значимым вкладом работы [Lush, 1942] является «уравнение селекционера» (breeder’s equation), которое измеряет ответ на отбор как изменение средней селекционной ценности популяции. В общих чертах наиболее популярная параметризация ответа на отбор приведена на рис. 2, где фенотип (y) может быть выражен либо как линейная комбинация отрезка (μ), эффекта генотипа (g) и ошибки (e) (уравнение 1a), либо с точки зрения эффекта генотипа как отклонение фенотипа от точки пересечения с наклоном (b), учитывающим погрешность (уравнение 1b). Если вспомнить, что наклон регрессии (b) фенотипа на генотип равен наследуемости (h2) (уравнение 1с), то можно показать, что ожидание (μ*) отобранной особи (g*) в родительском поколении равно популяционной средней в поколении потомков (уравнения 1d, 1e). Разница между средним значением поколения родителей и потомства называется ответом на отбор (R) (уравнение 1h). Исходя из того что наклон b = h2 и S = µ*µp, можно видеть, что ответ на отбор представляет собой селекционный дифференциал (selection differential), умноженный на наследуемость (уравнение 1h). Иногда ответ на отбор (R) выражают в терминах селекционного дифференциала, который легко получить путем разложения наследуемости на генотипическую (σ2g = σg × σg) и фенотипическую (σ2p = σp × σp) дисперсии (уравнения 1i, 1j) [Walsh, Lynch , 2018].

Рис. 2. Вывод уравнения селекционера с точки зрения селекционного дифференциала (S), умноженного на наследуемость (h2), и стандартизированного селекционного дифференциала (i), точности и генетической дисперсии.
Примечание. См. основной текст для подробного объяснения. g* — генетическая ценность выбранной особи; µp — среднее значение родительского поколения; µ* — среднее значение отобранной популяции; S — селекционный дифференциал; µ0 — среднее значение поколения потомства. График распределения взят из [Walsh, Lynch, 2018].

Существует много других параметризаций для конкретных или более сложных сценариев, таких как ответ на коррелированный признак, ответ при различном отборе самок и самцов и другие сценарии [Mrode, 2014; Walsh, Lynch, 2018; Rutkoski, 2019a]. В целом сценарий одного признака с непрямым отбором среди самцов и самок и чисто-аддитивной природой разъясняет концепцию для понимания более сложных ситуаций.

Методы оценки скорости генетического прогресса

Разработка методов оценки  генетического прогресса представляет большой интерес для селекционеров и сторон, заинтересованных в успешности селекционного процесса, поскольку генетический прогресс — очень важный показатель эффективности селекционной программы и инструмент для сравнения различных стратегий скрещивания, оценки и отбора с помощью либо реальных экспериментов, либо моделирования [Cobb, 2019; Walsh, Lynch , 2018; Faux et al., 2016]. Ожидаемый прогресс в единицу времени (обозначенную здесь как L), обычно называемый скоростью генетического прогресса (rate of genetic gain, Δg = R/L), является наиболее распространенным способом выражения прогресса селекционных программ. Кроме того, стоимость вводимых улучшений — основное ограничение, применяемое к этой функции, поскольку – рост генетического прогресса за счет чрезмерных затрат является неоптимальным [Cobb et al., 2019]. Для оценки уровня генетического прогресса его можно подразделить на ожидаемый (expected) [Falconer, 2005; Walsh, Lynch , 2018; Walsh, 2004] и реализованный (realized) [Mackay, 2011; Rutkoski, 2019a; Walsh, 2004; Laidig et al., 2014; Piepho et al., 2014]. В табл. 1 мы суммируем особенности каждого метода и приводим рекомендации по использованию этих методов.

Таблица 1. Сводка методов оценки ответа на отбор и скорости генетического прогресса. Комментарии к таблице:
* TPE — целевая совокупность локаций (сред). Чем лучше покрытие, тем более точные оценки генетической и селекционной ценности.
** Этап — относится к этапу тестирования, от раннего к позднему. Чем раньше, тем репрезентативнее выборка из популяции. Скорость прогресса менее подвержена смещению в зависимости от выборки, чем эволюция генетической дисперсии.
*** Связь данных — степень перекрытия разных групп в одном и том же году.

Метод 1. Ожидаемый (прогнозируемый) генетический прогресс

В методе  расчета ожидаемого генетического прогресса используются параметры из уравнения селекционера для оценки ответа на отбор (response to selection) и вывода о скорости генетического прогресса, рассчитанные для одного сезона [Burrows, 1972]. Когда известны такие параметры, как наследуемость, селекционный дифференциал, интенсивность отбора или генетическая дисперсия, эти значения можно просто применить в формуле, приведенной на рис. 2, чтобы получить ожидаемый ответ на отбор или ожидаемый генетический эффект [Falconer, 2005; Walsh, Lynch, 2018]. У этого упрощенного подхода есть как преимущества, так и недостатки. Согласно этому методу, единицы селекции, оценки и рекомбинации являются одним и тем же селекционным материалом, селекция одноэтапная, нет перекрытий и, самое главное, предполагается, что ответ на отбор будет одинаковый в будущем, потому что генетическая дисперсия принимается постоянной (константной) [Burrows, 1972]. Когда эти условия нарушаются, необходимы более сложные формулы или методологии [Walsh, 2004].

Этот метод дает прогноз, поэтому его следует использовать только как указание на то, что программа движется в правильном направлении, но его не следует рассматривать как точную оценку генетического прогресса. Мы рекомендуем четко указать, какой образец гермоплазмы использовался для расчета этого показателя (т.е. ранние или поздние материалы), чтобы уточнить, в отношении какой исходной популяции был рассчитан селекционный дифференциал. Например, при расчете этого показателя с использованием оценочных испытаний позднего поколения средние значения признака исходной и выбранной популяций отличаются от значений, полученных исходя из оценочных испытаний раннего поколения. Другая рекомендация состоит в том, чтобы получить наследуемость в разных локациях с использованием надежного метода, подобного предложенному в работе [Cullis et al., 2006] для расчета более точного ожидаемого ответа на отбор. Более подробную информацию и примеры для расчета наследуемости можно найти в Руководстве EiB по наследуемости.

Пример. На втором этапе тестирования программа оценивает 1000 образцов в 5 локациях (разных географических средах). После анализа данных из нескольких локаций для одного интересующего признака выбираются 100 лучших особей. Получаются следующие параметры для разных локаций:

𝜇p1000 = 5; 𝜎p2 = 2; 𝜎p = 1,41

(исходное фенотипическое среднее значение, дисперсия и стандартное отклонение);

𝜎g = √𝜎g2 = 1; 𝜎e = √𝜎e2 = 1

(генотипическая дисперсия и дисперсия ошибки исходной популяции и стандартное отклонение);

hCullis2 = 0,5; √h2 = 𝑟 = 0,7; 𝑖 = 1,7549

(наследуемость, точность и интенсивность отбора);

𝜇𝑝100 = 7,48; 𝑆 = 7,48 – 5 = 2,48

(селекционный дифференциал между исходным средним значениями популяции и

средним значением для выбранной популяции)

Ожидаемый ответ на отбор, предполагающий одностадийный отбор, без отбора среди женских и мужских особей, среди прочих предположений:

𝑅 = h2𝑆 = 𝑖 𝑟 𝜎𝑔

(ответ на отбор по двум параметрам);

𝑅 = (0,5)(2,48) = (1,7549)(0,7071)(1) = 1,24.

Ожидаемый (прогнозируемый) ответ на отбор составляет 1,24 единицы; это означает, что следующее поколение, как ожидается, будет иметь среднее значение популяции 6,24 единицы для интересующего признака. Если ответ на отбор необходимо преобразовать в скорость (в единицу времени), то его значение надо только разделить на продолжительность цикла селекционной программы, которое в данном примере составляет 5 лет:

Метод 2. Реализованный генетический прогресс

Метод расчета реализованного (фактического) генетического прогресса предполагает использование фенотипических данных репрезентативных во времени образцов гермоплазмы на заданном этапе испытаний (ранние испытания, поздние испытания, сорта на регистрационных испытаниях, сорта на фермерских полях), либо оцениваемых в программе на протяжении многих лет, в течение которых она развивается (исторические данные), либо оцениваемых в совокупности в эксперименте. Данные используются для подгонки линейных моделей, чтобы сделать вывод о реализованной скорости генетического прогресса [Mrode, 2014; Mackay, 2011; Rutkoski, 2019a; Walsh, 2004; Laidig et al., 2014; Piepho et al, 2014) (рис. 3, табл. 1).

Рис. 3. Сравнение охвата целевой совокупности локаций (TPE) и взаимосвязи данных между двумя различными методами получения фенотипических данных (историческими и данные era trials) и дисперсии этих параметров между образцами гермоплазмы различных стадий, используемыми для оценки генетического прогресса.
Примечание. На рис. 3, а показана разница в связности и охвате TPE для различных методов генерации фенотипических данных (исторические и данные era trials). Данные era trials максимизируют возможность связывания данных друг с другом, в то время как исторические данные зависят от наличия контроля, чтобы иметь ту же мощность. Данные era trials, как правило, обеспечивают меньший охват TPE, в то время как исторические данные — больший охват TPE. На рис. 3, б показано, как эти два параметра изменяются в зависимости от стадии испытаний образцов гермоплазмы, используемой для расчета.

Моделирование показывает, что методы, используемые для расчёта реализованного генетического прогресса , в которых применяются либо данные era trials, либо историческая фенотипическая информация, могут обеспечить точную оценку истинного уровня генетического прогресса при условии наличия связи между записями и охвата TPE (рис. 4). Решения, лежащие в основе расчета реализованного генетического прогресса, и рекомендации, как максимизировать связность данных и охват TPE, приведены далее.

Рис. 4. Сравнение ожидаемой и реальной  скоростей генетического прогресса с использованием линейных моделей из разных источников фенотипической информации (данные era trials и исторических испытаний).
Примечание. Цветные линии (слева) представляют ожидаемый (красный) и реальный (синий) уровень прогресса (генотип означает регрессию по году происхождения), а цветные тени (слева) — стандартную ошибку значений (на основе 30 параллельных симуляций на одной исходной популяции). Диаграммы рассеяния (справа) представляют оценки ∆𝑔 30 параллельных смоделированных программ.

Первое решение, которое программа должна принять во внимание при включении уровня генетического прогресса в качестве основного показателя эффективности селекционного процесса, — определить, какой признак или признаки будут отслеживаться. Обычно главное внимание уделяется степени генетического прогресса урожайности, исходя из того, что урожайность можно рассматривать как показатель многих представляющих интерес признаков. Решение о том, какой признак следует отслеживать, должно определяться конечной целью селекционной программы, которая должна быть донесена до всех заинтересованных сторон.

Второе решение относится к тому, какое временнóе окно будет использоваться для оценки метрики. Возможно, программа заинтересована только в демонстрации генетического прогресса за последние 5–10–20 лет. Это зависит от того, какую именно задачу пытается решить руководство с помощью расчета этого показателя. Например, это особенно важно при сравнении различных методов селекции, применяемых в разные периоды времени.

Третье решение относится к образцам гермоплазмы на конкретном этапе тестирования, который следует использовать для расчета. Некоторые примеры образцов на разных стадиях включают: использование испытаний ранних стадий (в рамках управления селекционной программой), испытаний поздних стадий (в рамках управления программой), сортов в регистрационных испытаниях (вне управления программой) и сортов на фермерских полях (вне управления программой). Можно использовать любой такой образец, но каждый вид будет иметь разные свойства, влияющие на точность ∆𝑔 (связность данных и охват TPE). Обычно ранний материал (многочисленный) тестируется только в нескольких локациях в течение одного года, в то время как материал поздней стадии тестируется во многих локациях в течение одного или двух лет, материал для регистрации — в широком диапазоне локаций для нескольких лет, а материал, выращенный фермерами, — во всех TPE в течение многих лет. Это означает, что оценка ∆𝑔, основанная на позднем материале, будет более репрезентативной для TPE, тогда как более ранний материал будет более репрезентативным для селекционной популяции. Рекомендуется: испытания всех стадий рассматривать отдельно для оценки KPI генетического прогресса на основе нескольких образцов, чтобы получить более точное представление об истинном ∆𝑔.

Четвертое решение относится к локациям и годам, представляющим TPE, где были протестированы образцы гермоплазмы. В связи с этим вводятся два наиболее важных фактора в оценке ∆𝑔: оценка фокуса TPE и связь данных во времени. ∆𝑔 должен быть связан с конкретной целью, представленной TPE, а не со всеми целями одновременно. Также часто в селекционных программах нет перекрывающихся образцов для какой-либо конкретной стадии тестирования (например, предварительного испытания урожайности) в разные годы. Проблема с низкой связностью данных заключается в том, что оценки генетической или селекционной ценности по записям смешиваются с эффектом года. В то же время селекционные программы, как правило, будут иметь, по крайней мере, небольшую степень связанности данных, поскольку контрольные сорта не меняются с той же скоростью, что и испытательный материал из программы.

По указанной выше причине рекомендуется внедрить оптимальную стратегию для поддержания связности между контрольными образцами в разные годы (рис. 5). В этой стратегии контрольные образцы могут меняться в течение времени, но не все одновременно, чтобы избежать потери связи. Например, при раннем тестировании с большим количеством кандидатов можно поддерживать восемь делянок с контролем в качестве фиксированных сортов по годам и изменять только две, когда требуются новые контрольные образцы для поддержания связности . Общее правило о том, сколько контрольных делянок можно хранить и менять, может быть основано на моделировании [Rutkosky, 2019b]. Рекомендуется, чтобы, как минимум, количество поддерживаемых контрольных образцов было равно числу лет, затраченных на повторное использование родителей в селекционном цикле. Таким образом, программа с n-летним циклом селекции требует, как минимум, n контрольных образцов для поддержания достаточной связности данных, в то же время 2n и 3n контрольных делянок предпочтительнее (т.е. на ранних этапах тестирования). Также важно решить, как часто должна происходить замена контрольных образцов Рекомендуется, чтобы их замена происходила через то же число лет, которое требуется для завершения цикла рекуррентного отбора со скоростью 1/4x, где x — количество выращиваемых контрольных образцов (n, 2n, 3n). Например, программа 4-летнего цикла должна заменять 1/4 контролей через 4 года, чтобы поддерживать хорошую связность (рис. 5). Кроме того, всегда рекомендуется сохранять от 1 до 2 контрольных образцов, которые никогда не будут заменены, чтобы сохранить устойчивую связь  между всеми испытаниями из программы.

Рис. 5. Стратегия обеспечения связности данных и замены контрольных образов.
Примечание. Здесь n — количество лет, необходимое для завершения селекционного цикла. Чем раньше проводится тестирование, тем больше контрольных образцов (от 2 до 3n контролей) можно использовать для оценки генетического прогресса. Позже на этапе тестирования можно использовать несколько контролей (как минимум n контролей). Стратегия замены контролей может быть применена через n лет со скоростью 1/4x, где x — количество контрольных образцов (делянок), выращенных на данном этапе (n, 2n, 3n).

В целом проблему связности данных можно решить тремя различными способами:

  1. следовать рекомендациям, изложенным выше, чтобы обеспечить связность данных посредством контрольных образцов;
  2. использовать метод EBV [Garrick, 2010] для соединения данных программы, программы, в которой рекомендации не учтены;
  3. запустить era trials, чтобы увеличить связность.

Хотя предполагалось, что KPI генетического прогресса идеально рассчитывается с использованием исторических данных из селекционной программы, во многих селекционных программах ранее не применялись рекомендации, изложенные выше, для достижения надлежащих уровней связности данных и охвата TPE, необходимых для получения точных оценок. Исходя из этого приведенные рекомендации должны быть приняты незамедлительно, а на начальных этапах внедрения KPI проблема связности данных может быть решена с помощью вариантов 2 и 3. В варианте 2 метод EBV может связывать данные временнóго периода через аддитивную матрицу отношений (через родословную или на основе маркеров), хотя следует учесть, что сокращение оценок, зависящих от наследуемости (h2), может привести к недооценке ∆ 𝑔. В варианте 3 программа также может выбрать запуск точных испытаний с другим временны́м промежутком — era trials, — чтобы устранить эффект смешения года и максимизировать связность. Единственным недостатком такого подхода являются дополнительные затраты времени и денег, которые должны быть вложены для достижения базового уровня.

Пример. Предположим, что селекционная программа следовала рекомендациям по достижению надлежащего уровня связности данных и охвата TPE в течение последних 12 лет. Программа рассчитана на 4-летний селекционный цикл, при этом примерно 4 когорты были повторно вовлечены в цикл от 2 до 3 раз. Программа хранит информацию для различных стадийных материалов и получает пробную информацию для предварительных испытаний урожайности в следующем формате:

Затем эти данные используются для оценки скорости реализованного генетического прогресса, при этом принимаются средние значения генотипов по местонахождению и по годам. Эти значения могут быть точно оценены, несмотря на разницу в годах и локациях, потому что во всех этих локациях существуют общие контроли (комбинация по годам и локациям). Взаимодействие GxE также уменьшается за счет как можно более частой выборки TPE. Оценки межсредового генотипа следующие:

Эти окончательные оценки можно объединить с годом происхождения материала и выполнить простую линейную регрессию оценок по всем локациям в зависимости от года происхождения. Поскольку коэффициент регрессии представляет собой скорость генетического прогресса в исходной единице признака, с использованием оценки переменных генетической ценности (y) и года происхождения (x) можно вычислить ковариацию обеих переменных и дисперсию переменной x:

Подробные примеры, основанные на смоделированных данных, доступны в настоящем руководстве. С их помощью можно воссоздать сценарии на основе различных источников фенотипических данных — исторической информации (как с соблюдением изложенных выше рекомендаций, так и для метода EBV, когда связность данных плохая) и данных era trials. Подробное объяснение имеющихся смоделированных примеров приведено в Приложении 1.

Стратегия внедрения KPI

Для разработки эффективных KPI важно уточнить уровень процесса, к которому применяется KPI, метод его расчета и базовое значение. В данном руководстве продемонстрированы использование генетического прогресса в качестве KPI для оценки общей эффективности селекционного процесса и различные методы его расчета. Чтобы определить, какой метод следует использовать, и получить базовое значение показателя, необходимо рассмотреть стратегию внедрения KPI. Селекционные программы должны рассчитывать генетический прогресс на основе ежегодно собираемой фенотипической информации. Таким образом, логическая стратегия внедрения состоит в том, чтобы следовать изложенным выше рекомендациям для максимизации возможности связности данных и охвата TPE ежегодных испытаний. На всех этапах тестирования необходимо поддерживать рекомендуемое количество контрольных образцов и применять стратегию замены контроля, которая поддерживает связность данных (рис. 6). В то же время, чтобы установить базовое значение для KPI, даже если связность данных плохая, может быть принято решение применить имеющиеся исторические данные и метод EBV для связи данных. Если доступные данные не могут быть использованы для этой цели, необходимо запустить era trials для максимизации связности и получения начального значения ∆𝑔, пока рекомендации принимаются (рис. 6).

Рис. 6. Предлагаемая стратегия внедрения показателя KPI генетического прогресса в селекционную программу.
Примечание. Предлагается поэтапный подход для повышения точности метрики путем постепенного принятия рекомендаций в ограниченном по времени окне.

Заключение

В данном руководстве представлена концепция ключевых показателей эффективности как средства оценки процессов селекционной программы на разных уровнях. Было предложено использовать генетический прогресс в качестве показателя общей производительности, а также продемонстрированы вывод и расчет этого показателя. Подходы к прогнозируемому и реализованному генетическому прогрессу были представлены вместе с рекомендациями для селекционных программ, которые следует применять при принятии генетического прогресса в качестве ключевого показателя эффективности, рассчитанного на основе фенотипических данных. Связность между данными по годам и локациям и охват TPE были представлены как основные факторы точности этого показателя. Для преодоления препятствий которые могут возникнуть при внедрении, были предложены различные рекомендации, касающиеся дизайна эксперимента. Был представлен поэтапный подход к повышению точности этого KPI на каждую единицу вложенных затрат. Доступны смоделированные данные и примеры сценариев, позволяющие селекционным программам воссоздать анализ и принять этот важный KPI.

Приложение

Метод реализованного генетического прогресса

Несмотря на то, что прогнозируемый ответ на отбор может быть полезен, он основывается на многих предположениях и может считаться достоверным только для одного поколения отбора от неотобранной базовой популяции [Walsh, 2004]. Самый точный способ оценить скорость генетического прогресса или ответа на отбор — использовать либо фенотипические данные из конкретных экспериментов по измерению генетического прогресса, либо данные, сгенерированные селекционной программой (это также повлияет на тип анализа). Двухэтапный подход к оценке уровня генетического прогресса включает моделирование фенотипических данных по признаку или индексу генетических качеств в зависимости от времени (годы; лучшая производительность за счет негенетических причин улучшения), ковариаты, связанные с факторами дизайна эксперимента (нежелательные параметры), генотипы и взаимодействие генотипов с другими факторами (такими, как годы и локации). За этим следует вторая модель, в которой скорректированные средние значения подбираются в зависимости от года происхождения материала (иногда от года выпуска в случае сортов) [Mrode, 2014; Mackay 2011; Rutkoski, 2019]. Коэффициент регрессии для ковариации времени во второй модели показывает скорость генетического прогресса в год [Piepho et al., 2014].

Рис П1. Графическое представление расчета скорости генетического прогресса с использованием линейных моделей в различных экспериментальных ситуациях.
Примечание. На диаграмме подчеркивается использование данных era trials и исторических данных для расчета скорости генетического прогресса с использованием одноэтапного или двухэтапного подхода к моделированию.

В исследовании [Rutkoski, 2019b] было осуществлено сравнение некоторых из этих методов с целью выяснения, какие из них лучше всего подходят для различных сценариев селекционной программы. На основе моделирования сравнивались различные типы популяций и методы для сопоставления реализованного и ожидаемого генетического прогресса. Было обнаружено, что era trials обеспечивают адекватную оценку генетического прогресса, другие рассмотренные варианты (например, использование контрольных популяций) на практике являются нереалистичными сценариями. Важный вывод из проведенного моделирования заключается в том, что контроль играет ключевую роль в повышении точности этого оценочного параметра за счет правильного соединения данных.

Использование исторической фенотипической информации для оценки генетического прогресса

Методы анализа исторической фенотипической информации были предложены для использования в сценарии, когда селекционная программа необходимые данные для оценки генетического прогресса за несколько лет. Исторические данные могут включать:

• информацию об испытаниях у сельхозтоваропроизводителей;

• информацию о регистрационных испытаниях сортов;

• расширенную информацию об испытаниях урожайности;

• предварительную информацию об испытаниях урожайности.

Использование различных источников информации позволяет изменять уровень охвата TPE и степень связности данных по годам, что позволяет корректно оценивать генетическую ценность испытанных образцов (рис. П2).

Рис. П2. Графическое представление использования исторической информации для оценки генетического прогресса из различных источников данных образцов гермоплазмы.
Примечание. Отсутствие перекрытия годовых данных типично при использовании наборов исторических данных (вертикальные красные прямоугольники меняются по мере увеличения количества контролей). В то же время количество испытываемых образцов и их охват TPE (горизонтальные красные прямоугольники) варьируются в зависимости от используемой стадии , так как внутрихозяйственные сортоиспытания имеют больший охват ТPE.

Приведем пример с использованием информации с испытаний сортов, в котором материал тестируется в большом количестве локаций и лет (несмотря на разные контрольные образцы по годам). В этом сценарии предполагается, что TPE эффективно отбирается, это снижает важность взаимодействия «генотип – год» и «генотип – локация».  Это делает скорректированные средние значения для генотипов по годам и локациям точными, а оценки генетического прогресса — надежными. Идея данной модели состоит в том, чтобы подогнать основные эффекты генотипа и года как фиксированные (fixed), а взаимодействия — как случайные (random) [Mackay et al., 2011; Laidig et al., 2014; Piepho et al., 2014]. Используемая модель имеет следующий вид:

где вектор β соответствует фиксированным эффектам переменных факторов «года» и «генотипа»; X — матрица инцидентности, связывающая наблюдения с вектором фиксированных эффектов.  ud вектор случайных негенетических эффектов (таких, как «год – локация»), ug — вектору случайных эффектов (таких, как «генотип – локация» и «генотип – год»); матрицы Zd и Zg связывают наблюдения с векторами случайных эффектов ud и ug. Графическое представление оценки генетического прогресса с использованием информации об испытании сортов приведено на рис. П2.

Пример: селекционная программа с 5-летним циклом (на рис. П3) была смоделирована на 20 лет, при условии, что в программе используется 4 контрольных образца ежегодно, которые меняются каждые 3 года. Шаг 1 заключался в сборе фенотипических данных, которые будут использоваться для расчета генетического прогресса. В этой симуляции были выбраны элитные материалы, которые будут выпускаться как сорта (5 лучших образцов, выпускаемых каждый год). Необходимая информация о тестовых локациях, годах тестирования, генотипах и годе происхождения материала (год создания материала) выглядит следующим образом:

Рис П3. Схематическое изображение селекционной программы с 5-летним циклом, состоящим из 5 идеализированных когорт скрещивания.
Примечание. Для каждой когорты 1-й год используется для скрещивания и выращивания поколения F1, 2-й год — для выращивания F2 и F3 с помощью процесса SSD (single seed descent), 3-й год — для выращивания поколений F4 и F5 с помощью SSD. 4-й год — первая стадия тестирования, по результатам которой для следующего этапа отбираются лучшие 10% особей. На 5-м году происходит второй этап тестирования, и лучшие 10% особей отбираются, чтобы стать родителями следующего поколения и переходят в тестирование на третий этап (6-й год), после чего будут определены финальные кандидаты для вывода на рынок. Каждый год этот процесс повторяется, и, как только в селекционной программе появляются новые родители – они становятся новой селекционной популяцией.

Шаг 2 заключался в подборе линейной смешанной модели, указанной выше, с использованием доступного программного обеспечения (ASReml-R, SAS, breedR, sommer). Например, в номенклатуре ASReml-R подобранная смешанная модель выглядит следующим образом:

негенетическими причинами, а эффект генотипа отвечает за влияние на проявление признака, обусловленного генетикой. Случайные эффекты для локации, взаимодействия «год – локация», «год – генотип» и «локация – генотип» обеспечивают остальную часть корректировки, но считаются небольшими с учетом выборки TPE. После этого прогнозируются средние значения генотипа в разных средах и годах:

После объединения скорректированных средних значений с годом происхождения материала, подгоняется вторая модель для расчета скорости генетического прогресса:

Как видно, коэффициент регрессии (наклон = 0,137…) для года происхождения обеспечивает увеличение исходных единиц признака в год, что справедливо для условного коэффициента генетического прогресса (~0,13 ед. в год; смоделированная истинная скорость генетического прогресса составила 0,12). Сценарий R с набором данных для воссоздания этих результатов доступен в записи EiB Toolbox для этого руководства. Здесь для простоты переменные экспериментального плана (строки, столбцы, блоки и т.д.) были проигнорированы, но их следует учитывать при подборе первой модели.

Рис. П4 . Рабочий процесс для анализа информации исторических данных с
использованием привязанного к этапу образца гермоплазмы.
Примечание. Проблема отсутствия перекрытия ежегодных данных (вертикальные красные прямоугольники) по выпущенным сортам (один и тот же цвет представляет одновременные записи) решается путем использования правильного количества контрольных образцов по годам или эффективной выборки TPE (горизонтальные красные прямоугольники), что делает скорректированные средние значения для генотипов по годам и локациям точными. Затем подгоняется статистическая модель, чтобы устранить все неудобства, связанные с влиянием на проявление признака, вызванного негенетическими причинами (т.е. годами). Наконец, скорректированные средние значения объединяются и регрессируют в зависимости от года происхождения генотипов. Коэффициент регрессии этой второй модели (β-наклон) представляет собой скорость генетического прогресса в год.

Вызовы и сложности. Первая проблема оппортунистического подхода заключается в том, что он опирается на элитные сорта ( т.е. на элитные сорта, которые планируются к выпуску на рынок), тестируемые во многих локациях для эффективного отбора образцов TPE, что снижает важность взаимодействия генотипа по годам и генотипов по местоположению, делает скорректированные средние значения для генотипов по годам и местам точными, а оценки генетического усиления — надежными. Если в ходе сортоиспытаний образцы TPE не берутся должным образом, этот метод теряет эффективность. Вторая проблема заключается в том, что сорта обычно являются не лучшим представлением среднего значения популяции по циклам, а, скорее, хвостами (трансгрессивными событиями) определенных признаков, что может привести к некоторой несогласованности показателя генетического прогресса. Наконец, использование контрольных образцов для соединения данных имеет важное значение и оказывает существенное влияние на оценки независимо от источника исторической информации.

Использование прогнозируемой селекционной ценности (estimated breeding value, EBV) в качестве альтернативы для увеличения связности исторических данных

Этот метод моделирования является расширением использования исторической фенотипической информации для оценки генетического прогресса. Цель состоит в том, чтобы решить проблему низкой связности данных в течение многих лет и низкой выборки TPE путем соединения данных через отношения, которые существуют в селекционном материале [Garrick, 2010], в основном за счет включения матрицы генетических отношений на основе либо родословной, либо данных генетических маркеров (для расчета матрицы геномных отношений). Идея этой модели состоит в том, чтобы подогнать эффекты основного генотипа, «генотип – год» и «генотип – локация» как случайные (требование использования матрицы отношений). Используемая модель имеет следующий вид:

где вектор β соответствует фиксированным эффектам факторной ковариаты «год» и фактора,  X — матрица инцидентности, связывающая наблюдения с вектором фиксированных эффектов. Вектор ud относится к вектору случайных эффектов для негенетических эффектов (таких, как «локация», «год – локация»), вектор ug — к вектору случайных эффектов (таких, как «генотип», «генотип – локация» и «генотип – год»); матрицы Zd и Zg связывают наблюдения с векторами случайных эффектов ud и ug. Графическое представление метода EBV приведено на рис. П5.

Основное отличие от предыдущего примера заключается в вычислении аддитивной матрицы родства с использованием информации о генотипе, женских, мужских названиях и самоопыляющемся поколении (см. [Mrode, 2015]). Многие функции и программное обеспечение уже доступны, и приведенный скрипт R показывает, как это сделать. Данные, необходимые для расчета матрицы родства на основе родословной, могут выглядеть следующим образом (столбцы относятся к идентификаторам генотипов, их родителей и самоопыляющегося поколения):

Эта информация используется для создания матрицы ожидаемой идентичности по происхождению среди генотипов, известной как матрица родства [Walsh, Lynch, 2018].

В качестве альтернативы, если данные маркеров были доступны, матрицу маркеров можно поместить в числовой формат и рассчитать методом аддитивной матрицы геномных отношений (см. [Van Raden, 2007]) или путем комбинирования родословной и геномной информации (см. [Legarra et al., 2009]). На этом этапе была получена матрица родства для генотипов (рис. П5).

Другой особенностью метода оценки селекционной ценности является использование программного обеспечения для добавления матриц отношений для случайных эффектов (например, ASReml-R, SAS, BreedR, Sommer), чтобы соответствовать линейной смешанной модели, приведенной выше.

Например, в номенклатуре ASReml-R подобранная смешанная модель выглядит следующим образом:

Важным компонентом здесь является соответствие генотипа и взаимодействие эффектов «генотип – год» и «генотип – локация» как случайное, чтобы связать данные через родословную (в ASReml-R (т.е. это делается с помощью функции vm для добавления матриц родства). Средние значения генотипа по средам и годам прогнозируются, как и раньше, а скорректированные средние значения объединяются с годом происхождения материала. Затем мы подгоняем вторую модель для расчета скорости генетического прогресса. Сценарий R с набором данных для воссоздания этих результатов доступен в записи EiB Toolbox для настоящего руководства. Здесь для простоты переменные экспериментального дизайна (строки, столбцы, блоки и т. д.) были проигнорированы, но это следует учитывать при подборе первой модели.

Рис П5. Рабочий процесс для анализа исторической информации, где контрольные образцы не проводились (не размещались) в достаточной степени для получения оценок генетического прогресса, поэтому необходимо применение метода EBV для увеличения связности. Примечание. Проблема отсутствия перекрывающихся годовых данных (вертикальные красные прямоугольники) в записях об испытаниях урожайности и контрольных образцах (один и тот же цвет представляет одновременные записи) решается путем использования матрицы отношений для генотипов, чтобы использовать структуру популяции, созданную селекционными программами. Затем подгоняется статистическая модель, чтобы устранить все неудобства, связанные с улучшением, вызванным негенетическими причинами (т.е. годами). Наконец, скорректированные средние значения объединяются и регрессируют в зависимости от года происхождения генотипов. Коэффициент регрессии этой второй модели (β1) представляет собой скорость генетического прироста в год.

Вызовы и сложности. Первая проблема с оппортунистическим подходом и моделью —  доступность информации о родословной для соответствия моделям, поскольку информация о родословной не всегда отслеживается всеми селекционными программами. На практике требуется, чтобы программы записывали информацию о родителях только в двух дополнительных столбцах вместе с поколением самоопыления. Вторая проблема связана с уменьшением численности популяции , если эффекты генотипа считать случайными. Подгонка генотипов и взаимодействий как случайных является требованием для использования информации о родословной (для соединения данных), но степень сокращения будет определяться наследуемостью испытаний. Если h2 настолько низок, что вызовет сильное сокращение, то это приведет к недооценке скорости генетического прогресса. Это подтверждается моделированием, показывающим, что сокращение может привести к недооценке скорости генетического прогресса в 5–6 раз.

Проведение era trials в качестве альтернативы увеличения связности исторических данных

Этот метод оценки уровня генетического прогресса направлен на устранение всех неудобств, возникающих в результате недостаточной выборки TPE, эффектов года и низкой связности записей по годам. Идея очень проста и заключается в отборе материала за все годы селекционной программы с данной стадии или образца гермоплазмы (т.е. предварительное испытание урожайности) и проведении определенного испытания со всеми образцами вместе в одних и тех же локациях и годах для оценки этого показателя. Модель точно такая же, как и для метода исторических данных:

где вектор β соответствует фиксированным эффектам факторных переменных для «года» и «генотипа»; X — матрица инцидентности, связывающая наблюдения с вектором фиксированных эффектов. Вектор ud относится к вектору случайных эффектов для негенетических эффектов («год – локация»), вектор ug — к вектору случайных эффектов (таких, как «генотип – локация» и «генотип – год»), а матрицы Zd и Zg связывают наблюдения с векторами случайных эффектов ud и ug.

Графическое представление оценки генетического прогресса с использованием информации об испытаниях эры приведено на рис. П6.

Рис П6. Рабочий процесс для анализа информации era trials.
Примечание. Дизайн испытания с образцом исторического материала позволяет полностью перекрывать записи и свести к минимуму проблему связности и максимизировать точность оценки скорости генетического прогресса. В то же время выборка TPE занижена, что приводит к неточности среднего значения генеральной совокупности, это не имеет большого значения в этих исследованиях. Статистическая модель приспособлена для устранения всех неудобств, связанных с улучшением, вызванным негенетическими причинами (например, годами, местоположением и т.д.). Наконец, скорректированные средние значения объединяются и регрессируют в зависимости от года происхождения генотипов. Коэффициент регрессии этой второй модели (β1) представляет собой скорость генетического прогресса в год.

Рекомендации по гибридным культурам

Гибридные культуры, конечным продуктом которых является не улучшенная популяция (пул), а, скорее, гибрид между пулами, представляют собой особый случай. Для приспособления к этому сценарию, вместо того чтобы анализировать производительность материала внутри пула как таковую, программа должна отслеживать увеличение производительности фактических гибридов или иным образом используемых тестеров. Несмотря на то что было предложено учитывать общую комбинационную способность (ОКС), это не так важно, как рассмотрение гибридов.

Источники

Allard R.W. (1961) Principles of plant breeding // Soil Science. No. 91 (6 ). P. 414.

Allier A. et al. (2019) Assessment of breeding programs sustainability: application of phenotypic and genomic indicators to a North European grain maize program // Theoretical and Applied Genetics. No. 132 (5). P. 1321–1334.

Baker L.H., Curnow R.N. (1969) Choice of Population Size and Use of Variation Between Replicate Populations in Plant Breeding Selection Programs 1 //  Crop Science. No. 9.5. P. 555–5560.

Betran F.J., Hallauer A.R. (1996) Characterization of interpopulation genetic variability in three hybrid maize populations // Journal of Heredity. No. 87 (4). P. 319–328.

Burrows P.M. (1972) Expected selection differentials for directional selection // Biometrics. P. 1091–1100.

Cobb J.N. et al. (2019) Enhancing the rate of genetic gain in public-sector plant breeding programs: lessons from the breeder’s equation // Theoretical and applied genetics. No. 132 (3). P. 627–645.

Cullis B.R., Alison B.S., Neil E.C. (2006) On the design of early generation variety trials with correlated data // Journal of agricultural, biological, and environmental statistics. No. 11 (4.) P. 381.

Faux, A.M. et al. (2016 AlphaSim: software for breeding program simulation // The plant genome. No. 9 (3). P. 1–14.

Fischer S. et al. (2008) Trends in genetic variance components during 30 years of hybrid maize breeding at the University of Hohenheim // Plant breeding. No. 127 (5). P. 446–451.

Dudley J.W., Lambert R.J. (2004) 100 generations of selection for oil and protein in corn // Plant breeding reviews. No. 24 (1). P. 79–110.

Falconer D.S., Mackay T.F.C. (2005) Introduction to quantitative genetics. 4th ed. Pearson Prentice Hall, Upper Saddle River, NJ. 20.

Garrick D.J. (2010) An animal breeding approach to the estimation of genetic and environmental trends from field populations // Journal of animal science. No.88.suppl_13 E3-E10.

Gogel B.J., Brian R.C., Arunus P.V. (1995) REML estimation of multiplicative effects in multienvironment variety trails // Biometrics. P. 744–749.

Hallauer A.R., Larry L.D. (1985) Compendium of recurrent selection methods and their application // Critical Reviews in Plant Sciences. No. 3 (1). P. 1–33.

Hill W.G. (1981) Estimation of effective population size from data on linkage disequilibrium // Genetics Research. No. 38 (3). P. 209–216.

Knight R.L. (1948). Dictionary of genetics, including terms used in cytology, animal breeding and evolution.

Laidig F. et al. (2014): Genetic and non-genetic long-term trends of 12 different crops in German official variety performance trials and on-farm yield trends // Theoretical and Applied Genetics. No. 127 (12). P. 2599–2617.

Legarra A., Aguilar I., Misztal I. (2009) A relationship matrix including full pedigree and genomic information // Journal of dairy science. No. 92 (9). P. 4656-4663.

Lourenço V.M. et al. (2017) A robust DF-REML framework for variance components estimation in genetic studies // Bioinformatics. No. 33 (22). P. 3584–3594.

Mackay I. et al. (2011) Reanalyses of the historical series of UK variety trials to quantify the contributions of genetic and environmental factors to trends and variability in yield over time // Theoretical and Applied Genetics. No. 122.1. P. 225–238.

Moose S.P., Dudley J.W., Rocheford T.R. (2004) Maize selection passes the century mark: a unique resource for 21st century genomics // Trends in plant science. No. 9 (7). P. 358–364.

Mrode R.A. (2014) Linear models for the prediction of animal breeding values. 3rd ed. CABI Press, Oxfordshire OX10 8DE UK.

Nei M. (1975) Molecular population genetics and evolution. North-Holland Publishing Company.

Oakey H. et al. (2006) Joint modeling of additive and non-additive genetic line effects in single field trials // Theoretical and Applied Genetics. No. 113.5. P. 809–819.

Piepho H.-P. et al. (2014) Dissecting genetic and non-genetic sources of long-term yield trend in German official variety trials // Theoretical and applied genetics. No.127 (5). P. 1009–1018.

Rutkoski J. (2019a) A practical guide to genetic gain // Advances in agronomy. Vol. 157. P. 217–249.

Rutkoski J.E. (2019b) Estimation of realized rates of genetic gain and indicators for breeding program assessment // Crop Science. No. 59 (3). P. 981–993.

Searle S.R., Marvin H.J. (2016) Gruber.Linear models. John Wiley & Sons.

Schmidt P. et al. (2019) Estimating Broad‐Sense Heritability with Unbalanced Data from Agricultural Cultivar Trials // Crop Science. No. 59 (2). P. 525–536.

Schmidt P. et al. (2019) Heritability in plant breeding on a genotype-difference basis//  Genetics. No. 212 (4). P. 991–1008.

VanRaden P.M. (2007) Genomic measures of relationship and inbreeding //  INTERBULL bulletin. 37. P. 33.

Walsh B. (2004) Population-and quantitative-genetic models of selection limits // Plant breeding reviews. No. 24 (1). P. 177–226.

Walsh B.,  Lynch M. (2018) Evolution and selection of quantitative traits. 1st ed.

Oxford Univ. Press, Oxford, UK. doi:10.1093/ oso/9780198830870.001.0001

Wang J., Santiago E.,  Caballero A. (2016) Prediction and estimation of effective population size // Heredity. 117.4. P. 193–206.

Weyhrich R.A., Lamkey K.R., Hallauer A.R.. (1998) Effective population size and response to S1‐progeny selection in the BS11 maize population // Crop science. No. 38 (5). P. 1149–1158.

Wright S. (1931) Evolution in Mendelian populations // Genetics. No. 16 (2). P. 97. Wright S. (1933) Inbreeding and homozygosis // Proceedings of the National Academy of Sciences of the United States of America. No. 19 (4). P. 411.