Biometrical tools for heterosis research

Schützenmeister, André

Eingang zum Volltext

Schützenmeister, André

Biometrical tools for heterosis research

Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgende
URN: urn:nbn:de:bsz:100-opus-6116
URL: http://opus.uni-hohenheim.de/volltexte/2011/611/

pdf-Format:

Dokument 1.pdf (1.953 KB)

Gedruckte Ausgabe:

Print-on-Demand-Kopie

Dokument in Google Scholar suchen:

Social Media:

Export:

Abrufstatistik:

SWD-Schlagwörter:

Lineares Modell , Gemischtes Modell , Residuenanalyse , Monte-Carlo-Simulation , Microarray

Freie Schlagwörter (Englisch):

simultaneous tolerance band , studentized residuals , residual plot , background correction , self-vs-self data

Institut 1:

Institut für Angewandte Mathematik und Statistik

Institut 2:

Institut für Kulturpflanzenwissenschaften

Fakultät:

Fakultät Naturwissenschaften

DDC-Sachgruppe:

Mathematik

Dokumentart:

Dissertation

Hauptberichter:

Piepho, Hans-Peter Prof. Dr.

Sprache:

Englisch

Tag der mündlichen Prüfung:

27.05.2011

Erstellungsjahr:

2010

Publikationsdatum:

19.07.2011

Lizenz:

Veröffentlichungsvertrag mit der Universitätsbibliothek Hohenheim

Kurzfassung auf Englisch:

Molecular biological technologies are frequently applied for heterosis research. Large datasets are generated, which are usually analyzed with linear models or linear mixed models. Both types of model make a number of assumptions, and it is important to ensure that the underlying theory applies for datasets at hand. Simultaneous violation of the normality and homoscedasticity assumptions in the linear model setup can produce highly misleading results of associated t- and F-tests. Linear mixed models assume multivariate normality of random effects and errors. These distributional assumptions enable (restricted) maximum likelihood based procedures for estimating variance components. Violations of these assumptions lead to results, which are unreliable and, thus, are potentially misleading. A simulation-based approach for the residual analysis of linear models is introduced, which is extended to linear mixed models. Based on simulation results, the concept of simultaneous tolerance bounds is developed, which facilitates assessing various diagnostic plots. This is exemplified by applying the approach to the residual analysis of different datasets, comparing results to those of other authors. It is shown that the approach is also beneficial, when applied to formal significance tests, which may be used for assessing model assumptions as well. This is supported by the results of a simulation study, where various alternative, non-normal distributions were used for generating data of various experimental designs of varying complexity. For linear mixed models, where studentized residuals are not pivotal quantities, as is the case for linear models, a simulation study is employed for assessing whether the nominal error rate under the null hypothesis complies with the expected nominal error rate.
Furthermore, a novel step within the preprocessing pipeline of two-color cDNA microarray data is introduced. The additional step comprises spatial smoothing of microarray background intensities. It is investigated whether anisotropic correlation models need to be employed or isotropic models are sufficient. A self-versus-self dataset with superimposed sets of simulated, differentially expressed genes is used to demonstrate several beneficial features of background smoothing. In combination with background correction algorithms, which avoid negative intensities and which have already been shown to be superior, this additional step increases the power in finding differentially expressed genes, lowers the number of false positive results, and increases the accuracy of estimated fold changes.

Kurzfassung auf Deutsch:

Molekularbiologische Verfahren werden häufig in der Heterosis-Forschung eingesetzt. Dabei werden große Datensätze generiert, welche gewöhnlich mittels linearer oder linearer gemischter Modelle analysiert werden. Beide Modellklassen setzen bestimmte Annahmen voraus, damit deren zugrunde liegende Theorie greift. Werden die Annahmen der Normalität und Varianzhomogenität für lineare Modelle gleichzeitig verletzt, kann das zu völlig falschen Ergebnissen bei den zugehörigen t- und F-Tests führen. Bei linearen gemischten Modellen wird multivariate Normalverteilung der zufälligen Effekte sowie der Fehlerterme vorausgesetzt. Diese Verteilungsannahmen ermöglichen die Anwendung des (Restricted) Maximum Likelihood Verfahrens zur Schätzung der Varianzkomponenten. Verletzung dieser Annahmen führen zu ungenauen Schätzungen und sind deshalb von geringem Nutzen. Es wird ein auf Simulation beruhendes Verfahren für die Residuenanalyse linearer Modelle vorgestellt, welches dann auf lineare gemischte Modelle erweitert wird. Basierend auf den simulierten Daten wird das Konzept simultaner Toleranzgrenzen entwickelt, welches die Bewertung verschiedener diagnostischer Plots vereinfacht. Dies wird anhand der jeweiligen Residuenanalyse für verschiedene Datensätze gezeigt, wobei die Ergebnisse des auf Simulation beruhenden Verfahrens mit denen anderer Autoren verglichen werden. Außerdem wird gezeigt, dass dieses Verfahren auf Signifikanztests, welche man ebenfalls zur Überprüfung der Modellvoraussetzungen benutzen könnte, übertragen werden kann und dabei von Vorteil ist. Die Ergebnisse einer Simulationsstudie lassen dies erkennen, wobei verschiedene alternative Verteilungen benutzt werden, um Daten verschiedener, unterschiedlich komplexer Designs zu erzeugen. Im Falle von linearen gemischten Modellen sind studentisierte Residuen nicht unabhängig von Modellparametern, was bei linearen Modellen der Fall ist. Aus diesem Grund wird eine Simulationsstudie präsentiert, welche die Fragestellung klären soll, ob die empirischen Fehlerraten von simultanen Toleranzgrenzen von den erwarteten Fehlerraten abweichen, wenn man Daten unter der Nullhypothese simuliert.
Desweiteren wird ein Verfahren für die komplexe Preprozessierung von 2-Kanal cDNA Microarrays vorgestellt. Dieser zusätzliche Schritt umfasst räumliche Glättungsverfahren für die Hintergrundfluoreszens von Microarrays. Es wird der Frage nachgegangen, ob man Verfahren benötigt, welche anisotrope Korrelationsmodelle verwenden, oder ob isotrope Modelle ausreichen. Um die verschiedenen vorteilhaften Eigenschaften dieses Verfahrens zu zeigen, wird ein Self-versus-Self Microarray Datensatz mit einem simulierten Anteil differentiell exprimierter Gene verwendet. Kombiniert man Verfahren zur Glättung der Hintergrundwerte mit etablierten Verfahren zur Hintergrundkorrektur, welche negative Spot-Intensitäten vermeiden, kann eine höhere statistische Power beim Nachweis differentiell exprimierter Gene erzielt werden. Außerdem kann der Anteil falsch-positiver Ergebnisse reduziert und die Präzision der Quantifizierung von differentieller Expression erhöht werden.