Что означает показатель наследуемости в селекции растений и как его рассчитать

В данном руководстве объясняется концепция наследуемости и показаны различные методы ее расчета.

Источник: https://excellenceinbreeding.org/sites/default/files/manual/Heritability_v6.pdf

Перевод: Надежда Долматова, dolmatova.sk@gmail.com

Файлы с данными и скриптами R: https://gitlab.com/excellenceinbreeding/module2/heritability-meaning-and-computation

Термины:

BLUP (Best linear unbiased predictor) — Статистическая оценка случайного эффекта с распределением u ~ MVN (0, Σσ2u), являющимся матрицей отношений между уровнями случайного эффекта. Следует ознакомиться с руководством EiB по BLUE и BLUP, чтобы лучше понять концепции BLUE и BLUP.

BLUE (Best linear unbiased estimator)  — статистическая оценка для фиксированного эффекта с распределением β ~ MVN (𝛽̂, X’X-1), представляющим собой Σ матрицы отношений между уровнями случайного эффекта. Следует ознакомиться с руководством EiB по BLUE и BLUP, чтобы лучше понять концепции BLUE и BLUP.

REML (Restricted maximum likelihood) (метод максимального правдоподобия при ограниченной информации) — статистическая методология оценки компонентов дисперсии путем максимизации вероятности наличия компонентов дисперсии с определенными значениями с учетом наблюдаемых данных для переменной отклика (т.е. фенотипа признака).

Harmonic mean — среднее гармоническое. В математике среднее гармоническое (иногда называемое субпротивоположным средним) является одним из нескольких видов среднего и, в частности, одним из пифагорейских средних. Среднее гармоническое может быть выражено как величина, обратная среднему арифметическому обратных величин данного набора наблюдений.

Random effect (случайный эффект) — ковариата, которая стремится соответствовать свойствам случайной величины с распределением u ~ MVN (0, Σσ2u), являющимся матрицей отношений между уровнями случайного эффекта.

Введение

В селекционных программах интересующие сорта и образцы часто выращивают и тестируют в нескольких локациях в течение нескольких лет. Такая серия испытаний называется испытаниями в нескольких локациях (multi-environment trial, МЕТ), где сочетание «год — локация» называется средой (environment). Чтобы количественно оценить и в итоге сравнить точность MET, селекционеры часто рассчитывают показатель наследуемости в узком смысле (narrow-sense heritability, h2) или наследуемости в широком смысле (broad-sense heritability, H2) на основе значения генотипа (genotype-mean basis). H2 определяется как доля фенотипической изменчивости, относящаяся к общей изменчивости генотипа, включая аддитивную, доминантную и эпистатическую изменчивость [Holland et al., 2003; Falconer, Mackay, 2005; Schmidt et al., 2019]. Наследуемость является ключевым фактором для достижения высоких показателей генетического прогресса (genetic gain), поэтому понимание того, как использовать этот показатель в селекционных программах, необходимо для того, чтобы разрабатывать и выпускать сорта и гибриды, отвечающие потребностям сельхозтоваропроизводителей и потребителей.

Цели данного руководства:

  1. внести ясность в значение показателя наследуемости;
  2. показать, как можно рассчитать наследуемость, используя подходящие методы;
  3. предоставить рекомендации по надежным методам количественной оценки и сравнения точности полевых испытаний в селекционных программах.

Определения и интерпретации понятия «наследуемость»

Существует несколько определений понятия «наследуемость» — например: «часть наблюдаемой дисперсии, за которую ответственны наследственные различия» [Knight, 1948] или «степень, в которой фенотип генетически детерминирован» [Lourenço et al., 2017]. Более того, существует несколько интерпретаций, связанных с показателем наследуемости: (i) она эквивалентна коэффициенту детерминации линейной регрессии ненаблюдаемого значения генотипа на наблюдаемый фенотип; (ii) квадрат корреляции между прогнозируемой фенотипической ценностью (phenotypic value) и генотипической ценностью (genotypic value); (iii) представляет собой долю селекционного дифференциала (S), которая может быть реализована как ответ на отбор (R) [Falconer, Mackay, 2005; Schmidt et al., 2019]. Несмотря на то, что существует множество определений, интерпретаций наследуемости и методов ее расчёта, все они сходятся на идее количественной оценки генетического сигнала на основе измерений фенотипа (рис. 1).

Рис. 1. Графическое представление фенотипического разделения и три различные интерпретации наследуемости. Примечание. В A) фенотип (yij) объясняется как сумма точки пересечения (µ; среднее) плюс эффект, приписываемый i-му генотипу (gi), плюс эффекты, не связанные с генотипом (eij), которые смешивают эффект генотипа с другими эффектами, приводящими к наблюдаемым результатам. В B) наследуемость описывается: 1) как регрессия фенотипа на генотип; 2) как квадрат корреляции между фенотипом и генотипом; 3) как доля селекционного дифференциала, которая может быть реализована как ответ на отбор. Все интерпретации сходятся на идее количественного определения генетического сигнала от фенотипа.

Фенотипическую дисперсию в широком смысле можно подразделить на генетическую дисперсию (часть фенотипической дисперсии, приписываемую генетическим различиям) и дисперсию ошибки (часть дисперсии, которая не может быть отнесена к генетическим различиям, а связана с другими факторами, такими как окружающая среда и т.д.). В одних методах оценки наследуемости для количественной оценки генетического сигнала используется компонент дисперсии ошибки единичного наблюдения (plot error, σ2e), деленный на количество участков/делянок каждого генотипа, в других методах — средняя стандартная ошибка генетических оценок (genetic estimates) для получения дисперсии, которую нельзя отнести к генетическим различиям, а в некоторых методах применяют  наклон регрессии (рис. 2).

Рис. 2. Пример двух разных способов разделения генетической и негенетической дисперсий, необходимых для вычисления наследуемости. Примечание. В A) компонент дисперсии ошибки (т.е. оценивается с помощью метода максимального правдоподобия при ограниченной информации (REML) или ожидаемых средних квадратов (EMS)) используется в знаменателе (σ2e) для количественной оценки генетического сигнала. В B) квадраты стандартных ошибок (s.e.i) (дисперсии) генетических оценок (µi; в примере BLUEs) после статистического моделирования могут быть усреднены для количественной оценки негенетической дисперсии и помещены в знаменатель (𝒗̅𝑩𝑳𝑼𝑬) для количественной оценки генетического сигнала.

Неправильные представления о наследуемости

В статье [Oldenbroek and van de Waaij, (2015)] резюмируются пять основных заблуждений относительно наследуемости (см. рис. 3).

Заблуждение 1. «Наследуемость х указывает на то, что х% признака определяется генетикой»

Это очень распространенное заблуждение, возникающее из-за непонимания определения наследуемости. Наследуемость 0,40 указывает на то, что 40% всей фенотипической изменчивости данного признака обусловлено изменчивостью его генотипов. Это существенно отличается от ошибочного представления о том, что в каждом растении 40% проявления признака обусловлено генами, а остальное — другими факторами.

Заблуждение 2. «Низкая наследуемость означает, что признаки не определяются генами»

Наследуемость больше 0 всегда указывает на то, что гены влияют на выражение фенотипа. Наследуемость определяется долей генетической дисперсии по отношению к фенотипической дисперсии. Таким образом, низкая наследуемость может указывать на то, что генетическая дисперсия низка по сравнению с фенотипической дисперсией (оба показателя могут быть небольшими). Например, ветвление кукурузы во многом генетически детерминировано, но, поскольку большинство генотипов, используемых в современных программах селекции кукурузы, имеют один стебель, генетическая дисперсия ветвления очень мала.

Заблуждение 3. «Низкая наследуемость означает, что генетические различия малы»

Низкая наследуемость не означает автоматически, что генетическая дисперсия невелика. Она также может указывать на то, что дисперсия ошибки имеет значимую величину, что может быть вызвано, например, сильным влиянием окружающей среды, а также неточной регистрацией фенотипа. Например, устойчивость к определенному заболеванию будет зависеть от генетического потенциала противостоять этому заболеванию. Проблема заключается в том, как измерить этот потенциал. Если провести однократное полевое измерение заражения растений сахарной свеклы нематодами, оно зафиксирует только те фенотипы, которые были заражены в данный момент, но показатели могут варьироваться в зависимости от среды, выбранной для регистрации уровней заражения.

Заблуждение 4. «Наследуемость — фиксированная величина»

Наследуемость отражает относительный вес компонента генетической дисперсии в фенотипической дисперсии конкретной популяции, и ее величина основана на наблюдениях, сделанных в определенный момент времени. Величина наследуемости зависит от генетической дисперсии популяции, а также от влияния окружающей среды и точности наблюдений (см. заблуждение 3). Генетическая дисперсия в одной популяции может (несколько) отличаться от дисперсии в другой популяции. Наконец, наследуемость в популяции может меняться со временем, и по этой причине ее следует оценивать через регулярные промежутки времени.

Заблуждение 5. «Высокая наследуемость подразумевает наличие QTL основного эффекта (major-effect QTL)»

Тот факт, что наследуемость количественно определяет генетический сигнал от фенотипа, не означает, что этот показатель предоставляет информацию о генетическом наследовании признака. Независимо от того, сколько генов стоит за конкретным признаком – один или многие тысячи, и независимо от их эффекта, мы можем получить как высокую, так и низкую наследуемость. Например, признак основного QTL — такой как цвет глаз — может иметь низкую наследуемость, если сканируемая популяция имеет только один тип цвета глаз, или высокую наследуемость, если наблюдаются все типы цвета. Количественный признак — такой как урожайность — может иметь высокую наследуемость, если эксперимент проведен тщательно с высоким уровнем повторяемости, но также может иметь низкую наследуемость, если агротехническое управление было недостаточно хорошим.

Рис. 3. Распространенные заблуждения о наследственности. Примечание. В 1) неправильное понимание концепции приводит к выводу о том, что определенная доля фенотипа обусловлена генами. В 2) отсутствие изменчивости, приводящее к низкой наследуемости, ошибочно понимается как следствие отсутствия генетического вклада в проявление признака. В 3) низкая наследуемость ошибочно понимается как отражение небольшой разницы между генотипами, когда ее также можно отнести к большой дисперсии ошибок. В 4) ошибочно считается, что наследуемость всегда одинакова во времени или в разных популяциях. В 5) наследуемость ошибочно интерпретируется как коррелирующая с присутствием QTL основного эффекта. В 6) дана правильная интерпретация наследуемости.

Методы измерения наследуемости

Наследуемость является важным понятием в селекции растений и генетике, однако, учитывая разнообразие вариантов получения фенотипических данных (например, различное количество повторений, многолетние наблюдения, использование разных тестовых локаций и др.), селекционерам сложно выбрать оптимальный метод расчета этого показателя. В данном обзоре мы рассмотрим несколько подходящих методов, причем первый из них рекомендуется как наиболее надежный. Каждый метод будет проиллюстрирован на примере с отдельным набором данных, который меняется в зависимости от конкретной проблемы. Следует отметить, что наследуемость может быть рассчитана как для одного испытания, так и для эксперимента с несколькими испытаниями (или с несколькими локациями; MET). Мы рассмотрим вариант с одним опытом, однако те же принципы могут быть применены и к сценарию с MET, где селекционеру необходимо принять решение о необходимости оценки наследуемости для каждого испытания в отдельности или сразу для нескольких испытаний. Отличный обзор методов также можно найти в статье [Schmidt et al., 2019].

Метод наследуемости в широком смысле (метод Куллисa) (рекомендуется)

В работе [Cullis et al., 2006] предлагается современный метод, широко используемый для учета несбалансированного сценария, с которым селекционеры часто сталкиваются при проведении испытаний в одной или нескольких локациях. Его преимущество заключается в том, что не требуется проводить повторные измерения для каждого образца. В данном контексте “генетический термин” означает компонент или фактор, который представляет генетические эффекты или вклад в наблюдаемую изменчивость признака. В работе [Cullis et al., 2006] генетический термин рассматривается как случайный эффект и включается в статистическую модель с использованием метода BLUP. Путем рассмотрения генетического термина как случайного эффекта данный метод учитывает генетическую изменчивость в различных средах или условиях. Квадрат стандартной ошибки генетических оценок используется для приближенного определения негенетической изменчивости, что помогает понять долю изменчивости признака, не связанную с генетикой (рис. 2). Формула для расчёта наследуемости имеет следующий вид:

где σ2 – дисперсия; g — генотип; 𝑣̅𝐵𝐿𝑈𝑃 — средняя разница BLUP или дисперсии ошибки парного предсказания; 𝑃𝐸𝑉 — среднее предсказание дисперсии ошибки от генотипов.

Доказательство этой формулы выглядит следующим образом:

Преимущество этой формулы заключается в том, что она может быть рассчитана в рамках обычного анализа полевого испытания, способна работать с несбалансированными наборами данных и использует свойства случайных переменных, такие как оценка компонентов дисперсии.

Пример. Предположим, что испытание в нескольких локациях (MET) проводится в течение 4 лет в 3 локациях каждый год с 2 повторениями в каждой комбинации «год — локация». После запуска смешанной модели, в которой генотипы подобраны как случайные эффекты, а остальные термины – по выбору (см. данные и скрипт R в дополнительном материале), получаются следующие параметры:

Как видно, расчет прост, однако для этого конкретного примера требуется, чтобы каждый образец (=генотип) имел более одного повторения, для оценки стандартной ошибки. Делаем вывод: 77% фенотипической изменчивости можно отнести к генетическим различиям, что будет являться ответом на отбор.

«Стандартный» метод определения наследуемости в широком смысле

Этот метод наиболее часто используется в селекционном сообществе. Его преимущество заключается в прямом расчете и интуитивно понятном выборе параметров. Недостатки метода: тенденция к завышению значений, когда данные несбалансированы (разное количество повторений для каждого генотипа в условиях одной или нескольких сред), поскольку предполагается использование сбалансированных наборов данных для расчета:

где «σ2» – дисперсия, «n» — количество, «g» — генотип, «a» — год, «l» — к локация, а «plot» — ошибка единичного наблюдения.

Пример. Предположим, что MET проводится в течение 4 лет в 3 локациях в каждом году с 2 повторностями в каждой комбинации «год — локация». После запуска смешанной модели (см. данные и скрипт в дополнительном материале) получаются следующие параметры:

Как видно, расчет прост, однако предполагаются одинаковое количество повторностей и местоположений каждый год. Делаем вывод: 34% фенотипической изменчивости (49 из 146,66 ед. признаков) можно отнести к генетическим различиям.

Метод расчета наследуемости в широком смысле (метод «Ad hoc Holland»)

Другой метод расчета наследуемости был предложен в работе [Holland et al., 2003] для устранения возможных различий в количестве повторений или локаций по годам. Идея состоит в том, чтобы найти гармоническое среднее значение для знаменателей в формуле наследуемости.

где «σ2»— дисперсия; «𝑛»— среднее гармоническое; « — генотип; « – год; «— локация, «plot» — ошибка единичного наблюдения.

Пример. Предположим, что МЕТ проводится в течение 4 лет (na) в 1–3 локациях (nl) в каждый год, в зависимости от года в 1–3 проворностях (nr) на каждый генотип в каждой комбинации «год —локация». После запуска смешанной модели (см. данные и скрипт в дополнительном материале) получаются следующие данные и параметры:

Как видим, расчет не такой простой, как в предыдущих методах, но он дает более точную оценку благодаря использованию гармонических значений. Делаем вывод: 28% фенотипической изменчивости (49 из 177,17 ед. признака) можно отнести к генетическим различиям.

Метод Пьефо для определения наследуемости в широком смысле

В связи с тем, что селекционные программы регулярно сталкиваются с несбалансированными данными, были разработаны альтернативные и более надежные методы оценки наследуемости [Holland et al., 2003; Piepho, Möhring, 2007]. Идея, лежащая в основе этих методов, состоит в том, чтобы получить дисперсию негенетических факторов из значения дисперсии разницы двух генотипических BLUEs, а не оценивать дисперсию ошибки на основе дисперсии ошибки единичного наблюдения (которая делится на коэффициент, являющийся функцией лет, локаций и повторности). Преимущество этого метода заключается в том, что он оптимально учитывает несбалансированные данные, так как они учитываются напрямую, величины квадратов стандартных ошибок или дисперсии генетических оценок меняются в зависимости от уровня репликации. Недостатком является то, что для вычисления стандартной ошибки требуется как минимум два измерения каждого образца (генотипа):

где «σ2» —дисперсия; « — генотип; «𝑣̅∆𝐵𝐿𝑈𝐸»— показатель дисперсии различия двух генотипических BLUEs; «𝐸𝑉̅̅̅̅» — средняя дисперсия BLUEs генотипа.

Пример. Предположим, что МЕТ проводится в течение 4 лет в 3 локациях каждый год, по 2 повторения в каждой комбинации «год — локация». После выполнения смешанной модели, где генотипы рассматриваются как фиксированные эффекты, а остальные термины – как случайные (см. данные и скрипт в дополнительных материалах), получены следующие параметры:

Как видим, расчет простой, но требует, чтобы каждый генотип был испытан в более чем одной повторности для расчета стандартной ошибки, а также подбора двух моделей, в одной из которых генетическая часть устанавливается фиксированной (для оценки 𝑣̅𝐵𝐿𝑈𝐸), а в другой — как случайная (для оценки σ2g). Делаем вывод по результатам расчета: 59% фенотипической изменчивости можно отнести к генетическим различиям.

Метод определения наследуемости в широком смысле (метод Уолша и Линча)

Этот метод, предложенный Уолшем и Линчем [Walsh, Lynch, 2018], также известен как метод регрессии BLUP–BLUE. Его преимущество в том, что BLUP уменьшаются на коэффициент σ2e2g, тогда как BLUE не уменьшаются. Таким образом, может обеспечиваться оценка наследуемости аналогично тому, как при методе Cullis [1 – (σ2e/ σ2g)]. Здесь коэффициент регрессии между BLUP и BLUE оказывается обратным параметру уменьшения [β = 1 – (σ2e/σ2g)= H2]. Данный метод надежен, но одним из его недостатков является необходимость дважды подбирать линейную модель (генотипы подбираются как фиксированные и случайные эффекты), это может потребовать больших вычислительных ресурсов при определенных сценариях.

где α — интерсепт;  H2 — наклон регрессии.

В контексте метода “Walsh and Lynch”, термин “интерсепт” означает значение зависимой переменной (признака или фенотипа), когда все независимые переменные (генотипы, факторы окружающей среды и т. д.) установлены на ноль или на их базовые уровни. Он представляет собой отправную точку или базовый уровень отношения между зависимой переменной и независимыми переменными.

Пример. Предположим, что испытание в нескольких локациях (MET) проводится 4 года в 3 локациях каждый год и по 2 повторения в каждой комбинации «год — локация». После выполнения смешанной модели с генотипами, где генотипы рассматриваются как случайные эффекты (см. данные и сценарий, доступные в дополнительном материале), получены следующие параметры:

Как видим, расчет требует моделирования генотипов — как фиксированных, так и случайных. Сделаем вывод: 82% фенотипической изменчивости можно отнести к генетическим различиям.

Заключение и рекомендации

 настоящем руководстве представлена правильная и корректная интерпретация понятия наследуемости, а также рассмотрены распространенные заблуждения, которых следует избегать. Кроме того, проведен обзор основных методов расчета наследуемости, анализированы их преимущества и недостатки. В частности, метод Куллиса [Cullis et al., 2006] был рекомендован как надежный для учета несбалансированных наборов данных. Также были рассмотрены методы Пьефо [Piepho, 2007] и Уолша и Линча [Walsh, Lynch, 2018], которые также считаются надежными, однако требуют дополнительных вычислительных усилий.

Руководство предоставляет полезную информацию для исследователей и селекционеров, помогая им понять и правильно интерпретировать показатели наследуемости. Оно подчеркивает важность выбора надежного метода расчета, особенно при работе с несбалансированными данными. Внимательное изучение обзора методов позволит исследователям определить наиболее подходящий и эффективный способ оценки наследуемости в своих исследованиях.

Источники

Cullis B.R., Thomson F.M., Fisher J.A., Gilmour A.R., Thompson R. The analysis of the NSW wheat variety database. I. Modelling trial error variance // Theoretical and Applied Genetics. 1996. No. 92. P. 21–27. doi:10.1007/BF00222947

Cullis B.R., Smith A.B., Coombes N.E. On the design of early generation variety trials with correlated data // Journal of agricultural, biological, and environmental statistics. 2006. No. 11 (4). P. 381.

Falconer D.S., Mackay T.F.C. Introduction to quantitative genetics. 4th ed. Pearson Prentice Hall. NJ.: Upper Saddle River, 2005.

Holland J.B., Nyquist W.E., Cervantes-Martínez C.T. Estimating and interpreting heritability for plant breeding: An update // Plant Breeding Reviews. 2003. P. 9–112. doi:10.1002/9780470650202.ch2

Knight R.L. Dictionary of genetics, including terms used in cytology, animal breeding and evolution. 1948.

Kor Oldenbroek and Liesbeth van der Waaij, 2015. Textbook Animal Breeding and Genetics for BSc students. Centre for Genetic Resources The Netherlands and Animal Breeding and Genomics Centre, 2015. Groen Kennisnet. URL: https://wiki.groenkennisnet.nl/display/TAB/

Lourenço V.M. et al. A robust DF-REML framework for variance components estimation in genetic studies // Bioinformatics. 2017. No. 33 (22). P. 3584–3594.

Oakey H., Verbyla A., Pitchford W., Cullis B.,  Kuchel H. Joint modeling of additive and non-additive genetic line effects in single field trials // Theoretical and Applied Genetics. 2006. No. 113. P. 809–819. doi:10.1007/ s00122-006-0333-z

Piepho H.-P.,  Möhring J. Computing heritability and selection response from unbalanced plant breeding trials // Genetics. 2007. No. 177. P. 1881–1888. doi:10.1534/genetics.107.074229

Schmidt P. et al. Estimating Broad‐Sense Heritability with Unbalanced Data from Agricultural Cultivar Trials // Crop Science. 2019. No. 59 (2). P. 525–536.

Schmidt P. et al. Heritability in plant breeding on a genotype-difference basis // Genetics. 2019. No. 212 (4). P. 991–1008.

Smith A., Cullis B.,  Gilmour A. The analysis of crop variety evaluation data in Australia //  Australian and New Zealand journal of statistics. 2001. No. 43. P. 129–145. doi:10.1111/1467-842X.00163

Walsh B., Lynch M. Evolution and selection of quantitative traits. 1st ed. Oxford, UK: Oxford Univ. Press, 2018. doi:10.1093/ oso/9780198830870.001.0001