Weighting methods for variance heterogeneity in phenotypic and genomic data analysis for crop breeding

Damesa, Tigist Mideksa

Eingang zum Volltext

Damesa, Tigist Mideksa

Weighting methods for variance heterogeneity in phenotypic and genomic data analysis for crop breeding

Gewichtungsmethoden für die Varianzheterogenität in der phänotypischen und genomischen Datenanalyse für die Pflanzenzüchtung

(Übersetzungstitel)

Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgende
URN: urn:nbn:de:bsz:100-opus-16680
URL: http://opus.uni-hohenheim.de/volltexte/2019/1668/

pdf-Format:

Dokument 1.pdf (3.464 KB)

Dokument in Google Scholar suchen:

Social Media:

Export:

Abrufstatistik:

SWD-Schlagwörter:

Biostatistik

Freie Schlagwörter (Deutsch):

Biostatistik

Freie Schlagwörter (Englisch):

Biostatistics

Institut:

Institut für Kulturpflanzenwissenschaften

Fakultät:

Fakultät Agrarwissenschaften

DDC-Sachgruppe:

Landwirtschaft, Veterinärmedizin

Dokumentart:

Dissertation

Hauptberichter:

Piepho, Hans-Peter Prof. Dr.

Sprache:

Englisch

Tag der mündlichen Prüfung:

26.09.2019

Erstellungsjahr:

2019

Publikationsdatum:

06.11.2019

Lizenz:

Veröffentlichungsvertrag mit der Universitätsbibliothek Hohenheim ohne Print-on-Demand

Kurzfassung auf Englisch:

In plant breeding programmes MET form the backbone for phenotypic selection, GS and GWAS. Efficient analysis of MET is fundamental to get accurate results from phenotypic selection, GS and GWAS. On the other hand inefficient analysis of MET data may have consequences such as biased ranking of genotype means in phenotypic data analysis, small accuracy of GS and wrong identification of QTL in GWAS analysis. A combined analysis of MET is performed using either single-stage or stage-wise (two-stage) approaches based on the linear mixed model framework. While single-stage analysis is a fully efficient approach, MET data is suitably analyzed using stage-wise methods. MET data often show within-trial and between-trial variance heterogeneities, which is in contradiction with the homogeneity of variance assumption of linear models, and these heterogeneities require corrections. In addition it is well documented that spatial correlations are inherent to most field trials. Appropriate remedial techniques for variance heterogeneities and proper accounting of spatial correlation are useful to improve accuracy and efficiency of MET analysis.
Chapter 2 studies methods for simultaneous handling of within-trial variance heterogeneity and within-trial spatial correlation. This study is conducted based on three maize trials from Ethiopia. To stabilize variance Box-Cox transformation was considered. The result shows that, while the Box-Cox transformation was suitable for stabilizing the variance, it is difficult to report results on the original scale. As alternative variance models, i.e. power-of-the-mean (POM) and exponential models, were used to fix the variance heterogeneity problem. Unlike the Box-Cox method, the variance models considered in this study were successful to deal simultaneously with both spatial correlation and heterogeneity of variance.
For analysis of MET data, two-stage analysis is often favored in practice over single-stage analysis because of its suitability in terms of computation time, and its ability to easily account for any specifics of each trial (variance heterogeneity, spatial correlation, etc). Stage-wise analyses are approximate in that they cannot fully reproduce a single-stage analysis because the variance–covariance matrix of adjusted means from the first-stage analysis is sometimes ignored or sometimes approximated and the approximation may not be efficient. Discrepancy of results between single-stage and two-stage analysis increases when the variance between trials is heterogeneous. In stage-wise analysis one of the major challenges is how to account for heterogeneous variance between trials at the second stage. To account for heterogeneous variance between trials, a weighted mixed model approach is used for the second-stage analysis. The weights are derived from the variances and covariances of adjusted means from the first-stage analysis. In Chapter 3 we compared single-stage analysis and two-stage analysis. A new fully efficient and a diagonal weighting matrix are used for weighting in the second stage. The methods are explored using two different types of maize datasets. The result indicates that single-stage analysis and two-stage analysis give nearly identical results provided that the full information on all effect estimates and their associated estimated variances and covariances is carried forward from the first to the second stage.
GWAS and GS analysis can be conducted using a single-stage or a stage-wise approach. The computational demand for GWAS and GS increases compared to purely phenotypic analysis because of the addition of marker data. Usually researchers compute genotype means from phenotypic MET data in stage-wise analysis (with or without weighting) and then forward these means to GWAS or GS analysis, often without any weighting. In Chapter 4 weighted stage-wise analysis versus unweighted stage-wise analysis are compared for GWAS and GS using phenotypic and genotypic maize data. Fully-efficient and a diagonal weighting are used. Results show that weighting is preferred over unweighted analysis for both GS and GWAS.
In conclusion, stage-wise analysis is a suitable approach for practical analysis of MET, GS and GWAS analysis. Single-stage and two-stage analysis of MET yield very similar results. Stage-wise analysis can be nearly as efficient as single-stage analysis when using optimal weighting, i.e., fully-efficient weighting. Spatial variation and within-trial variance heterogeneity are common in MET data. This study illustrated that both can be resolved simultaneously using a weighting approach for the variance heterogeneity and spatial modeling for the spatial variation. Finally beside application of weighting in the analysis of phenotypic MET data, it is recommended to use weighting in the actual GS and GWAS analysis stage.

Kurzfassung auf Deutsch:

In Pflanzenzüchtungsprogrammen bilden Versuchsserien die Grundlage für die phänotypische Selektion, genomische Selektion (GS) und genomweite Assoziationsstudien (GWAS). Eine effiziente Analyse der Versuchsserien ist grundlegend, um genaue Ergebnisse der phänotypischen Auswahl von GS und GWAS zu erhalten. Andererseits kann eine ineffiziente Analyse von Versuchsserien-Daten zu einer verzerrten Bewertung von Genotyp-Mitteln bei der Analyse phänotypischer Daten, einer geringen Genauigkeit der GS und einer falschen Identifizierung von QTL in der GWAS-Analyse führen. Eine kombinierte Analyse der Versuchsserien wird auf der Grundlage von linearen gemischten Modellen entweder einstufig oder stufenweise (zweistufig) durchgeführt. Während die einstufige Analyse ein vollständig effizienter Ansatz ist, werden die Versuchsserien-Daten in geeigneter Weise mit stufenweisen Methoden analysiert. Versuchsserien-Daten zeigen häufig Varianzheterogenitäten innerhalb von und zwischen Versuchen, die der Annahme der Varianzhomogenität für linearer Modelle widersprechen und Korrekturen erfordern. Darüber hinaus ist gut dokumentiert, dass räumliche Korrelationen in den meisten Feldversuchen vorhanden sind. Geeignete Abhilfemethoden für Varianzheterogenitäten und eine korrekte Berücksichtigung der räumlichen Korrelation sind hilfreich, um die Genauigkeit und Effizienz der versuchsserien-Analyse zu verbessern.
In Kapitel 2 werden Methoden zum gleichzeitigen Umgang mit Varianzheterogenitat zwischen und räumlicher Korrelation innerhalb der Versuche untersucht. Diese Studie basiert auf drei Maisversuchen aus Äthiopien. Um die Varianz zu stabilisieren, wurde die Box-Cox-Transformation in Betracht gezogen. Das Ergebnis zeigt, dass, obwohl die Box-Cox-Transformation zur Stabilisierung der Varianz geeignet war, es schwierig ist, Ergebnisse auf der ursprünglichen Skala darzustellen. Als alternative Varianzmodelle wurden Power-of-the-mean (POM) und Exponentialmodelle verwendet, um das Varianzheterogenitätsproblem zu beheben. Im Gegensatz zur Box-Cox-Methode gelang es den in dieser Studie betrachteten Varianzmodellen, sowohl räumliche Korrelation als auch Heterogenität der Varianz gleichzeitig zu berücksichtigen.
Bei der Analyse von MET-Daten wird die zweistufige Analyse in der Praxis häufig gegenüber der einstufigen Analyse bevorzugt, da sie die Berechnungszeit kürzer ist und die Besonderheiten der einzelnen Versuche (Varianzheterogenität, räumliche Korrelation usw.) leicht berücksichtigt werden können. Stufenweise Analysen sind insofern approximierend, als sie eine einstufige Analyse nicht vollständig reproduzieren können, da die Varianz-Kovarianz-Matrix der angepassten Mittelwerte aus der ersten Analyse-Phase manchmal ignoriert oder manchmal approximiert wird und die Approximation möglicherweise nicht effizient ist. Die Diskrepanz der Ergebnisse zwischen einstufiger und zweistufiger Analyse nimmt zu, wenn die Varianzen zwischen den Studien heterogen sind. Bei der stufenweisen Analyse besteht eine der größten Herausforderungen darin, die heterogene Varianz zwischen den Versuchen auf der zweiten Stufe zu berücksichtigen. Um die heterogene Varianz zwischen den Studien zu berücksichtigen, wird für die Analyse der zweiten Stufe ein gewichteter gemischter Modellansatz verwendet. Die Gewichtungen werden aus den Varianzen und den Kovarianzen der angepassten Mittel aus der Analyse der ersten Stufe abgeleitet. In Kapitel 3 haben wir die einstufige Analyse und die zweistufige Analyse verglichen. In der zweiten Stufe wird eine neue voll effiziente und eine diagonale Gewichtungsmatrix für die Gewichtung verwendet. Die Studien werden anhand zweier verschiedener Arten von Mais-Datasätze untersucht. Das Ergebnisse zeigen, dass die einstufige Analyse und die zweistufige Analyse nahezu identische Ergebnisse liefern, vorausgesetzt, die vollständigen Informationen zu allen Effektschätzungen und den damit verbundenen geschätzten Varianzen und Kovarianzen werden von der ersten zur zweiten Stufe übertragen.
Die GWAS- und GS-Analyse kann nach einem einstufigen oder einem stufenweisen Ansatz durchgeführt werden. Der rechnerische Bedarf an GWAS und GS steigt im Vergleich zur rein phänotypischen Analyse aufgrund der Hinzufügung von Markerdaten. In der Regel berechnen Forscher Genotyp-Mittel aus phänotypischen Versuchsserien-Daten in stufenweisen Analysen (mit oder ohne Gewichtung) und leiten diese dann in die GWAS- oder GS-Analyse weiter, oft ohne Gewichtung. In Kapitel 4 wird die gewichtete stufenweise Analyse gegen die ungewichtete stufenweise Analyse für GWAS und GS anhand von phänotypischen und genotypischen Maisdaten verglichen. Es werden volleffiziente und diagonale Gewichtungen verwendet. Die Ergebnisse zeigen, dass die gewichtete gegenüber der nicht gewichteten Analyse sowohl für GS als auch für GWAS besser ist.
Zusammenfassend ist die stufenweise Analyse ein geeigneter Ansatz für die praktische Versuchsserien-, GS- und GWAS-Analyse. Einstufige und zweistufige Versuchsserien-Analysen führen zu sehr ähnlichen Ergebnissen. Eine stufenweise Analyse kann wie eine einstufige Analyse effizient sein, indem eine optimale Gewichtung verwendet wird, d. h. eine vollständig effiziente Gewichtung. In Versuchsserien-Daten sind räumliche Variation und Varianzheterogenität innerhalb der Versuche üblich. Diese Studie zeigte, dass beide gleichzeitig unter Verwendung eines Gewichtungsansatzes die Varianzheterogenität und räumliche Korrelation berücksichtigen können. Neben der Anwendung der Gewichtung bei der Analyse phänotypischer MET-Daten wird empfohlen, die Gewichtung in der eigentlichen GS- und GWAS-Analysestufe zu verwenden.