Evaluation of alternative statistical methods for genomic selection for quantitative traits in hybrid maize

Schulz-Streeck, Torben

Eingang zum Volltext

Schulz-Streeck, Torben

Evaluation of alternative statistical methods for genomic selection for quantitative traits in hybrid maize

Evaluation alternativer statistischen Methoden zur genomweiten Selektion für quantitative Merkmale im Hybridmais

(Übersetzungstitel)

Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgende
URN: urn:nbn:de:bsz:100-opus-8619
URL: http://opus.uni-hohenheim.de/volltexte/2013/861/

pdf-Format:

Dokument 1.pdf (520 KB)

Gedruckte Ausgabe:

Print-on-Demand-Kopie

Dokument in Google Scholar suchen:

Social Media:

Export:

Abrufstatistik:

SWD-Schlagwörter:

Biostatistik , Pflanzenzüchtung , Populationsgenetik

Freie Schlagwörter (Englisch):

Genomic selection , Biostatistics , molecular marker , mixed models

Institut:

Institut für Kulturpflanzenwissenschaften

Fakultät:

Fakultät Agrarwissenschaften

DDC-Sachgruppe:

Landwirtschaft, Veterinärmedizin

Dokumentart:

Dissertation

Hauptberichter:

Piepho, Hans-Peter Prof. Dr.

Sprache:

Englisch

Tag der mündlichen Prüfung:

27.09.2012

Erstellungsjahr:

2012

Publikationsdatum:

23.07.2013

Lizenz:

Veröffentlichungsvertrag mit der Universitätsbibliothek Hohenheim

Kurzfassung auf Englisch:

The efficacy of several contending approaches for Genomic selection (GS) were tested using different simulation and empirical maize breeding datasets. Here, GS is viewed as a general approach, incorporating all the different stages from the phenotypic analysis of the raw data to the marker-based prediction of the breeding values. The overall goal of this study was to develop and comparatively evaluate different approaches for accurately predicting genomic breeding values in GS. In particular, the specific objectives were to:
(1) Develop different approaches for using information from analyses preceding the marker-based prediction of breeding values for GS.
(2) Extend and/or suggest efficient implementations of statistical methods used at the marker-based prediction stage of GS, with a special focus on improving the predictive accuracy of GS in maize breeding.
(3) Compare different approaches to reliably evaluate and compare methods for GS.
An important step in the analyses preceding the marker-based prediction is the phenotypic analysis stage. One way of combining phenotypic analysis and marker-based prediction into a single stage analysis is presented. However, a stagewise analysis is typically computationally more efficient than a single stage analysis. Several different weighting schemes for minimizing information loss in stagewise analyses are therefore proposed and explored. It is demonstrated that orthogonalizing the adjusted means before submitting them to the next stage is the most efficient way within the set of weighting schemes considered. Furthermore, when using stagewise approaches, it may suffice to omit the marker information until the very last stage, if the marker-by-environment interaction has only a minor influence, as was found to be the case for the datasets considered in this thesis. It is also important to ensure that genotypic and phenotypic data for GS are of sufficiently high-quality. This can be achieved by using appropriate field trial designs and carrying out adequate quality controls to detect and eliminate observations deemed to be outlying based on various diagnostic tools. Moreover, it is shown that pre-selection of markers is less likely to be of high practical relevance to GS in most cases. Furthermore, the use of semivariograms to select models with the greatest strength of support in the data for GS is proposed and explored. It is shown that several different theoretical semivariogram models were all well supported by an example dataset and no single model was selected as being clearly the best.
Several methods and extensions of GS methods have been proposed for marker-based prediction in GS. Their predictive accuracies were similar to that of the widely used ridge regression best linear unbiased prediction method (RR-BLUP). It is thus concluded that RR-BLUP, spatial methods, machine learning methods, such as componentwise boosting, and regularized regression methods, such as elastic net and ridge regression, have comparable performance and can therefore all be routinely used for GS for quantitative traits in maize breeding. Accounting for environment-specific or population-specific marker effects had only minor influence on predictive accuracy contrary to findings of several other studies. However, accuracy varied markedly among populations, with some populations showing surprisingly very low levels of accuracy. Combining different populations prior to marker-based prediction improved prediction accuracy compared to doing separate population-specific analyses. Moreover, polygenetic effects can be added to the RR-BLUP model to capture genetic variance not captured by the markers. However, doing so yielded minor improvements, especially for high marker densities. To relax the assumption of homogenous variance of markers, the RR-BLUP method was extended to accommodate heterogeneous marker variances but this had negligible influence on the predictive accuracy of GS for a simulated dataset.
The widely used information-theoretic model selection criterion, namely the Akaike information criterion (AIC), ranked models in terms of their predictive accuracies similar to cross-validation in the majority of cases. But further tests would be required to definitively determine whether the computationally more demanding cross-validation may be substituted with the more efficient model selection criteria, such as AIC, without much loss of accuracy.
Overall, a stagewise analysis, in which the markers are omitted until at the very last stage, is recommended for GS for the tested datasets. The particular method used for marker-based prediction from the set of those currently in use is of minor importance. Hence, the widely used and thoroughly tested RR-BLUP method would seem adequate for GS for most practical purposes, because it is easy to implement using widely available software packages for mixed models and it is computationally efficient.

Kurzfassung auf Deutsch:

In der vorliegenden Arbeit wurde Effektivität verschiedener Methoden der genomweiten Selektion (GS) untersucht. Hierbei wurden sowohl simulierte Datensätze als auch reale Datensätze aus der Maiszüchtung verwendet. Die GS wird in dieser Arbeit als ein Verfahren angesehen, welches alle Schritte der GS, von der Analyse der phänotypischen Rohdaten bis zur markerbasierenden Vorhersage der Zuchtwerte, einschließt. Das Ziel der Arbeit ist es, verschiedene Verfahren auf ihre Vorhersagegenauigkeit von genomischen Zuchtwerten zu bewerten. Die folgenden Zielstellungen wurden im Speziellen behandelt.
(1) Entwicklung verschiedener Verfahren zur Einbindung von Informationen, die vor der marker-basierenden Analyse gewonnen werden, in die genomweite Selektion.
(2) Erweiterung und/oder Empfehlung der effizienten Implementierungen von statistischen Methoden zur marker-basierenden Analyse, wobei im Speziellen die Vorhersagegenauigkeit der genomweiten Selektion in der Maiszüchtung verbessert werden soll.
(3) Vergleich verschiedener Ansätzen zur Beurteilung und zum Vergleich der Güte der Methoden zur genomweiten Selektion.
Ein Weg um die phänotypische Analyse mit der markerbasierenden Analyse in einem einstufigen Verfahren zu kombinieren, wurde gezeigt. Jedoch ist ein schrittweises Vorgehen weniger rechenintensiv, als beide Analysen in einem Schritt zu kombinieren. Deshalb wurden mehrere Gewichtungsansätze für die GS vorgeschlagen. Im Vergleich mit anderen Gewichtungsansätzen ist es am effizientesten, die adjustierten Mittelwerte nach jedem Analyseschritt zu orthogonalisieren. Des Weiteren kann es ausreichend sein, bei diesen schrittweisen Ansätzen die Markerinformation bis zum letzten Schritt zu ignorieren, wenn die Marker-Umweltinteraktion gering ist. Eine hohe Qualität sowohl der genetischen als auch der phänotypischen Daten wichtig ist. Dieses kann erreicht werden, wenn entsprechende Feldversuchsdesigns und geeignete Diagnosemethoden zur Qualitätskontrolle verwendet werden, um Beobachtungen, die außerhalb des erwarten Spektrums liegen, zu entfernen. Die Vorselektion von Markern hingegen war in den meisten Fällen nicht von Relevanz. Außerdem wurde die Verwendung von Semivariogrammen vorgeschlagen und untersucht. Es wurde gezeigt, dass die verschiedenen theoretischen Semivariogrammmodelle an die getesteten Daten gut angepasst waren und kein Modell als entscheidend besser zu bewerten war.
Mehrere Methoden und Erweiterungen von genomweiten Selektionsmethoden wurden für die markerbasierende Vorhersage vorgeschlagen. Es konnte gezeigt werden, dass RR-BLUP, räumliche Modelle, ?machine learning? Methoden, wie ?componentwise boosting? und ?regularized regression? Methoden, wie ?elastic net? und ?ridge regression? gleichwertige Vorhersagegenauigkeiten zeigen und gleichberechtigt für routinemäßig Anwendung für die GS für quantitative Merkmale in der Maiszüchtung eingesetzt werden können. Erweiterungen mit umweltspezifischen oder populationsspezifischen Markereffekten hatten nur einen geringen Einfluss. Die Genauigkeit der Vorhersage kann sich aber zwischen verschiedenen Populationen stark unterscheiden. Einige Populationen zeigten dabei sehr geringe Vorhersagegenauigkeiten auf. Eine Analyse, in der mehrere Populationen simultan verwendet wurden, verbesserte die Vorhersagegenauigkeit gegenüber einer Analyse in der jede Population einzeln ausgewertet wurde. Außerdem kann die Methode RR-BLUP um polygenetische Effekte erweitert werden, um die genetische Varianz, die nicht von den Markern erfasst wird, zu berücksichtigen. Dieses zeigte aber nur eine geringe Verbesserung insbesondere bei hohen Markerdichten. Es wurde weiterhin eine Erweiterung der RR-BLUP Methode vorgeschlagen, um auf die Annahme einer homogenen Markervarianz verzichten zu können. Hierbei wurden heterogene Markervarianzen im gemischten Modell vorgeschlagen. Für einen simulierten Datensatz hatte dieses aber nur geringe Auswirkungen.
Das häufig verwendete Modellselektionskriterium ?Akaike information criterion? (AIC) zeigte in den meisten Fällen ähnliche Ergebnisse in der Beurteilung der genomweiten Selektionsmethoden wie die standardmäßig verwendet Kreuzvalidierung. Es sind aber weitere Tests notwendig, um grundlegend zu klären, ob die rechenintensive Kreuzvalidierung mit den effizienteren Modellselektionskriterien, wie zum Beispiel dem AIC, ersetzt werden kann, ohne dass ein Genauigkeitsverlust erfolgt.
Auf Grundlage der analysierten Daten kann in den meisten Fällen eine schrittweise Analyse empfohlen werden, wobei die Marker erst im letzten Schritt berücksichtigt werden müssen. Die zu verwendende Methode für die markerbasierende Vorhersage ist von geringerer Bedeutung, weshalb in den meisten Fällen die RR-BLUP Methode für die genomweite Vorhersage empfohlen werden kann, da diese einfach mit gängigen Software zur Analyse gemischter Modelle zu implementieren ist und rechenzeiteffizient ist.