Model selection by cross-validation in multi-environment trials

Hadasch, Steffen

Eingang zum Volltext

Hadasch, Steffen

Model selection by cross-validation in multi-environment trials

Modellselektion für Multi-Umwelt-Versuche anhand von Kreuzvalidierung

(Übersetzungstitel)

Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgende
URN: urn:nbn:de:bsz:100-opus-15129
URL: http://opus.uni-hohenheim.de/volltexte/2018/1512/

pdf-Format:

Dokument 1.pdf (1.223 KB)

Gedruckte Ausgabe:

Print-on-Demand-Kopie

Dokument in Google Scholar suchen:

Social Media:

Export:

Abrufstatistik:

SWD-Schlagwörter:

Kreuzvalidierung

Freie Schlagwörter (Deutsch):

Genotyp-Umwelt Interaktion , genomweite Selektion , markergestützte Selektion , multiplikative Modelle

Freie Schlagwörter (Englisch):

Cross validation , genotype-environment interaction , genome-wide selection , marker-assisted selection , multiplicative models

Institut:

Institut für Kulturpflanzenwissenschaften

Fakultät:

Fakultät Agrarwissenschaften

DDC-Sachgruppe:

Landwirtschaft, Veterinärmedizin

Dokumentart:

Dissertation

Hauptberichter:

Piepho, Hans-Peter Prof.

Sprache:

Englisch

Tag der mündlichen Prüfung:

13.06.2018

Erstellungsjahr:

2017

Publikationsdatum:

23.10.2018

Lizenz:

Veröffentlichungsvertrag mit der Universitätsbibliothek Hohenheim

Kurzfassung auf Englisch:

In plant breeding, estimation of the performance of genotypes across a set of tested environments (genotype means), and the estimation of the environment-specific performances of the genotypes (genotype-environment means) are important tasks. For this purpose, breeders conduct multi-environment trials (MET) in which a set of genotypes is tested in a set of environments. The data from such experiments are typically analysed by mixed models as such models for example allow modelling the genotypes using random effects which may be correlated according to their genetic information. The data from MET are often high-dimensional and the covariance matrix of the data may contain many parameters that need to be estimated. To circumvent computational burdens, the data can be analysed in a stage-wise fashion. In the stage-wise analysis, the covariance matrix of the data needs to be taken into account in the estimation of the individual stages. In the analysis of MET data, there is usually a set of candidate models from which the one that fits bets to the objective of the breeder needs to be determined. Such a model selection can be done by cross validation (CV). In the application of CV schemes, different objectives of the breeder can be evaluated using an appropriate sampling strategy. In the application of a CV, both the sampling strategy and the evaluation of the model need to take the correlation of the data into account to evaluate the model performance adequately.
In this work, two different types of models that are used for the analysis of MET were focused. In Chapter 2, models that use genetic marker information to estimate the genotype means were considered. In Chapters 3 and 4, the estimation of genotype-environment means using models that include multiplicative terms to describe the genotype-environment interaction, namely the additive main effects and multiplicative interaction (AMMI), and the genotype and genotype-environment interaction (GGE) model, were focused. In all the Chapters, the models were estimated in a stage-wise fashion. Furthermore, CV was used in Chapters 2 and 3 to determine the most appropriate model from a set of candidate models.
In Chapter 2, two traits of a biparental lettuce (Lactuca sativa L.) population were analysed by models for (i) phenotypic selection, (ii) marker-assisted selection using QTL-linked markers, (iii) genomic prediction using all available molecular markers, and (iv) a combination of genomic prediction and QTL-linked markers. Using different sampling strategies in a CV, the predictive performances of these models were compared in terms of different objectives of a breeder, namely predicting unobserved genotypes, predicting genotypes in an unobserved environment, and predicting unobserved genotypes in an unobserved environment. Generally, the genomic prediction model outperformed marker assisted and phenotypic selection when there are only a few markers with large effects, while the marker assisted selection outperformed genomic prediction when the number of markers with large effects increases. Furthermore, the results obtained for the different objectives indicate that the predictive performance of the models in terms of predicting (unobserved) genotypes in an unobserved environment is reduced due to the presence of genotype-environment interaction.
In AMMI/GGE models, the number of multiplicative terms can be determined by CV. In Chapter 3, different CV schemes were compared in a simulation study in terms of recovering the true (simulated) number of multiplicative terms, and in terms of the mean squared error of the estimated genotype-environment means. The data were simulated using the estimated variance components of a randomized complete block design and a resolvable incomplete block design. The effects of the experimental design (replicates and blocks) need to be taken into account in the application of a CV in order to evaluate the predictive performance of the model adequately. In Chapter 3, the experimental design was accounted for by an adjustment of the data for the design effects estimated from all data before applying a CV scheme. The results of the simulation study show that an adjustment of the data is required to determine the number of multiplicative terms in AMMI/GGE models. Furthermore, the results indicate that different CV schemes can be used with similar efficiencies provided that the data were adjusted adequately.
AMMI/GGE models are typically estimated in a two-stage analysis in which the first stage consists of estimating the genotype-environment means while the second stage consists of estimating main effects of genotypes and environments and the multiplicative interaction. The genotype-environment means estimated in the first stage are not independent when effects of the experimental design are modelled as random effects. In such a case, estimation of the second stage should be done by a weighted (generalized least squares) estimation where a weighting matrix is used to take the covariance matrix of the estimated genotype-environment means into account. In Chapter 4, three different algorithms which can take the full covariance matrix of the genotype-environment means into account are introduced to estimate the AMMI/GGE model in a weighted fashion. To investigate the effectiveness of the weighted estimation, the algorithms were implemented using different weighting matrices, including (i) an identity matrix (unweighted estimation), (ii) a diagonal approximation of the inverse covariance matrix of the genotype-environment means, and (iii) the full inverse covariance matrix. The different weighting strategies were compared in a simulation study in terms of the mean squared error of the estimated genotype-environment means, multiplicative interaction effects, and Biplot coordinates. The results of the simulation study show that weighted estimation of the AMMI/GGE model generally outperformed unweighted estimation. Furthermore, the effectiveness of a weighted estimation increased when the heterogeneity in the covariance matrix of the estimated genotype-environment means increased.
The analysis of MET in a stage-wise fashion is an efficient procedure to estimate a model for MET data, whereas the covariance structure of the data needs to be taken into account in each stage in order to estimate the model appropriately. When correlated data are used in a CV, the correlation can be taken into account by an appropriate choice of training and validation data, by an adjustment of the data before applying a CV scheme and by the success criterion used in a CV scheme.

Kurzfassung auf Deutsch:

In der Pflanzenzüchtung ist die Schätzung der mittleren Leistung verschiedener Genotypen über mehrere Umwelten hinweg (Genotyp-Mittelwerte) sowie die Schätzung der umweltspezifischen Leistung von Genotypen (Genotyp-Umwelt-Mittelwerte) von zentraler Bedeutung. Um die Mittelwerte der Genotypen zu schätzen, werden Versuche durchgeführt, in denen mehrere Genotypen an mehreren Umwelten getestet werden. Daten solcher Multi-Umwelt Versuche (MUV) werden oft anhand gemischter Modelle analysiert. Diese Modelle sind in der Pflanzenzüchtung von besonderer Bedeutung, da Genotyp-Effekte durch korrelierte Zufallseffekte so modelliert werden können, dass sie entsprechend der genetischen Information der Genotypen korrelieren. Die Daten aus MUV sind oft hoch-dimensional und darüber hinaus kann die Kovarianzstruktur der Daten viele Parameter enthalten, die geschätzt werden müssen. Um Engpässe im Hinblick auf die Rechenkapazität zu vermeiden, können die Daten stufenweise analysiert werden. In einer solchen stufenweisen Analyse muss die Kovarianzstruktur der Daten bei der Schätzung der jeweiligen Stufen berücksichtigt werden. Bei der Analyse von Daten aus MUV gibt es in der Regel mehrere Modelle, die zur Analyse herangezogen werden können. Die Bestimmung des Modells, das am besten zu den Zielen des Züchters passt kann anhand von Kreuzvalidierung (KV) bestimmt werden. Mittels KV kann man durch eine geeignete Wahl von Trainingsdaten und Validierungsdaten (Stichproben-Ziehung) verschiedene Ziele des Züchters evaluieren. In einer KV muss sowohl die Stichproben-Ziehung als auch die Evaluation der Vorhersagefähigkeit des Modells die Korellation der Daten berücksichtigen, um die Vorhersagefähigkeit des Modells zu bestimmen.
In dieser Arbeit werden zwei Modelle behandelt, die zur Analyse von MUV herangezogen werden können. Kaptiel 2 handelt von Modellen, die genetische Marker nutzen um die Genotyp Mittelwerte zu schätzen. Kaptiel 3 und 4 beinhalten Modelle zur Schätzung der Genotyp-Umwelt Mittelwerte. In diesen Modellen werden die Genotyp-Umwelt Interaktionen anhand von multiplikativen Termen modelliert. Eines der betrachteten Modelle beinhaltet additive Haupteffekte für Genotypen und Umwelten und multiplikative Interaktionseffekte (englisch: AMMI), wohingegen das andere Modell aus Haupteffekten für Umwelten und einer mutliplikativen Genotyp und Genotyp-Umwelt Interaktion (englisch: GGE) besteht. Die Modelle der jeweiligen Kapitel wurden alle stufenweise geschätzt. Darüber hinaus wurde in Kaptiel 2 und 3 KV angewendet, um das Modell, das am besten zum Ziel des Züchters passt, zu bestimmen.
In Kaptiel 2 werden zwei verschiedene Merkmale einer biparentalen Blattsalat (Lactuca sativa L.) Population anhand von Modellen für die (i) phenotypische Selektion, (ii) markergestützte Selektion mit QTL-assoziierten Markern, (iii) genomische Selektion anhand aller verfügbaren genetischen Marker, und (iv) einer Kombination von genomischer Selektion und markergestützter Selektion analysiert. In diesem Kapitel wurden verschiedene Ziele, die ein Züchter verfolgen kann anhand verschiedener Methoden der Stichproben-Ziehung analysiert. Die Ziele bestanden aus der Vorhersage von unbeobachteten Genotypen, der Vorhersage von beobachteten Genotypen in unbeobachteten Umwelten, und der Vorhersage von unbeobachteten Genotypen in unbeobachteten Umwelten. Die Ergebnisse der Analysen zeigen, dass die genomische Vorhersage die markergestützte und die phänotypische Selektion übertrifft, wenn es nur wenige Marker mit großen Effekten gibt. Dahingegen übertrifft die markergestützte Selektion die anderen Modelle, wenn es mehrere Marker mit großen Effekten gibt. Im Weiteren deuten die Ergebnisse darauf hin, dass die Vorhersage von (un)beobachteten Genotypen in unbeobachteten Umwelten durch Genotyp-Umwelt Interaktionen verringert wird.
Im AMMI/GGE Modell kann die optimale Anzahl multiplikativer Termen mittels KV bestimmt werden. In Kapitel 3 werden verschiedene KV-Methoden, die zur Bestimmung der Anzahl multiplikativer Terme herangezogen werden können, in einer Simulationsstudie verglichen. Die verschiedenen KV-Methoden wurden in Bezug auf die Bestimmung der wahren (simulierten) Anzahl multiplikativer Terme, und in Bezug auf die Schätzung der wahren Genotyp-Umwelt-Mittelwerte verglichen. Die Simulation der Daten erfolgte entsprechend einer randomisierten vollständigen Blockanlage und einer unvollständigen Blockanlage. Bei der Anwendung einer KV muss das Versuchsdesign (Effekte von Wiederholungen und unvollständigen Blöcken) berücksichtigt werden, um die Anzahl der multiplikativen Terme zu schätzen. In Kapitel 3 wurde das Versuchsdesign berücksichtigt, indem die Daten vor der Anwendung einer KV um die Designeffekte korrigiert wurden. Die Ergebnisse der Simulationsstudie zeigen, dass die Daten vor Anwendung einer KV um die Designeffekte korrigiert werden sollten, um die Anzahl der multiplikativen Terme zu bestimmen. Ausserdem zeigen die Ergebnisse, dass verschiedene Kombinationen von Datenkorrektur und Stichproben-Ziehung zu sehr ähnlichen Ergebnissen führen.
Das AMMI/GGE Modell wird üblicherweise in zwei Stufen geschätzt. Dabei besteht die erste Stufe aus der Schätzung der Genotyp-Umwelt-Mittelwerte, wohingegen die zweite Stufe die Haupteffekte von Umwelten (und Genotypen) und die multiplikativen Interaktionen schätzt. Die geschätzten Genotyp-Umwelt-Mittelwerte aus der ersten Stufe sind nicht unabhängig wenn die Designeffekte durch Zufallseffekte modelliert werden. Daher sollte die zweite Stufe die Kovarianzmatrix der geschätzten Genotyp-Umwelt-Mittelwerte anhand einer gewichteten Schätzung (generalisierte Kleinstquadrat-Schätzung) berücksichtigen, um die Effekte des AMMI/GGE Modells zu schätzen. In Kapitel 4 werden drei verschiedene Algorithmen anhand derer eine gewichtete Schätzung möglich ist vorgestellt. Um die Effektivität der gewichteten Schätzung zu untersuchen, wurden die Algorithmen mit verschiedenen Gewichtungsmatrizen implementiert. Als Gewichtungsmatrizen dienten (i) die Einheitsmatrix (ungewichtete Schätzung), (ii) eine diagonale Approximation der Inversen der Kovarianzmatrix, und (iii) die Inverse der Kovarianzmatrix. Die verschiedenen Gewichtungsmethoden wurden in einer Simulationsstudie in Bezug auf die mittlere quadratische Abweichung der Genotyp-Umwelt-Mittelwerte, der multplikativen Interaktionseffekte, und der Biplot Koordinaten verglichen. Die Ergebnisse zeigen, dass eine gewichtete Schätzung bezüglich der untersuchten Kriterien deutlich besser als eine ungewichtete Schätzung abschneidet. Die Ergebnisse zeigen ausserdem, dass die Effektivität einer gewichteten Schätzung zunimmt, wenn die Heterogenität der Kovarianzmatrix steigt.
Die stufenweise Analyse von Daten aus MUV ist eine effiziente Strategie, um ein Modell zu schätzen. In den jeweiligen Stufen muss die Kovarianzmatrix der Daten berücksichtigt werden, um das Modell zu schätzen. Wenn eine KV mit korrelierten Daten durchgeführt wird, kann die Korrelation durch eine geeignete Stichproben-Ziehung, eine Korrektur der Daten vor Anwendung einer KV, und durch das Evaluationskriterium berücksichtigt werden.