Test for the model selection from two competing distribution classes

Chen, Hong

Eingang zum Volltext

Chen, Hong

Test for the model selection from two competing distribution classes

Statistische Testverfahren zur Modellauswahl zwischen zwei konkurrierenden Verteilungsklassen

(Übersetzungstitel)

Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgende
URN: urn:nbn:de:bsz:100-opus-12793
URL: http://opus.uni-hohenheim.de/volltexte/2016/1279/

pdf-Format:

Dokument 1.pdf (948 KB)

Gedruckte Ausgabe:

Print-on-Demand-Kopie

Dokument in Google Scholar suchen:

Social Media:

Export:

Abrufstatistik:

SWD-Schlagwörter:

Statistischer Test

Freie Schlagwörter (Deutsch):

Modellselektion , Zensierte Daten , Nonparametrische Modelle

Freie Schlagwörter (Englisch):

model selection , Censoring , nonparametric models

Institut:

Institut für Angewandte Mathematik und Statistik

Fakultät:

Fakultät Naturwissenschaften

DDC-Sachgruppe:

Mathematik

Dokumentart:

Dissertation

Hauptberichter:

Jensen, Uwe Prof. Dr.

Sprache:

Englisch

Tag der mündlichen Prüfung:

18.08.2016

Erstellungsjahr:

2016

Publikationsdatum:

08.11.2016

Lizenz:

Dieser Inhalt ist unter einer Creative Commons-Lizenz lizenziert.

Kurzfassung auf Englisch:

One of the main tasks in statistics is to allocate an appropriate distribution function to a given set of data. Often the underlying distribution of the data can be approximated by a distribution function from a parametric distribution model class. This thesis deals with model selection from two given competing parametric model classes. To this end statistical hypothesis tests are proposed in different settings and their asymptotic behaviour for an increasing data size is analysed.
This thesis is part of a DFG-project investigating the lifetime distribution of mechatronical systems such as DC-motors, which has been conducted in cooperation with engineers of the University of Stuttgart. The considered mechatronical systems are characterised by so-called covariates, which can influence the lifetime distribution. For DC-motors such covariates could be the electric current, the working load or the operation voltage. For instance, the lifetime distributions could be modelled by means of the Weibull distribution class or the log-normal distribution class with parameters depending linearly on the covariates.
For a given data set an estimator for the unknown parameter in a model class can be obtained according to the maximum likelihood method. Under suitable conditions, the consistency of the estimator follows from the maximum likelihood theory for an increasing data size.
In this thesis we consider two cases: First we handle the case with a fixed number of covariate values and the number of observations at each covariate value tending to infinity. After that, we consider the situation the other way round.
The distance between the underlying distribution function and the competing model classes is defined based on the limit value of the maximum likelihood estimator and Cramér-von Mises distance. The reasons for the chosen distance measure are on the one hand the popularity of the maximum likelihood estimator and on the other hand the simple interpretability of the Cramér-von Mises distance with respect to our intention to approximate the lifetime distribution function.
The null hypothesis is that both models provide an equally well fit. While the test statistic is defined by the estimated difference of the distances. Under suitable conditions, we show the asymptotic normality of the test statistic. Moreover, it is shown that the asymptotic variance can be estimated consistently by a plug-in estimator. With quantiles of the standard normal distribution for a given significance level the test decision rules are formulated.
For the case with a fixed number of observations at each covariate and an increasing number of covariate values, the limit of the maximum likelihood estimator is defined analogously. The distance is adjusted accordingly and in the test statistic the empirical distribution is replaced by the Nadaraya-Watson kernel estimator. For one dimensional covariates we show similar results as in the first case. However, it cannot be extended to the multidimensional case in general. Thus, a one-sided test is proposed. Further, the consistency of the test is also proven.
The results are extended to the case with right random censoring, whereby the Kaplan-Meier and the Beran estimator for distribution functions are used. At the end of the thesis the applicability of the proposed hypothesis tests is evaluated by means of simulations and a case study.

Kurzfassung auf Deutsch:

Eine Aufgabe der statistischen Modellbildung ist es, gegebenen Daten eine geeignete Verteilung zuzuordnen. Häufig kann die den Daten zugrundeliegende Verteilung durch eine Verteilung aus einer parametrischen Familie von Verteilungen approximiert werden. Diese Arbeit beschäftigt sich mit der Frage, welche von zwei gegebenen konkurrierenden parametrischen Modellklassen von Verteilungen eine bessere Anpassung an die gegebenen Daten liefert. Zur Beantwortung dieser Frage werden statistische Hypothesentests in unterschiedlichen Kontexten konstruiert und deren asymptotisches Verhalten für wachsenden Stichprobenumfang analysiert.
Die vorliegende Arbeit ist im Rahmen eines gemeinsam mit Ingenieuren der Universität Stuttgart durchgeführten DFG-Projekts zur Untersuchung der Verteilung der Lebensdauer von mechatronischen Systemen entstanden. Ein mechatronisches System wird dabei charakterisiert durch sogenannte Kovariablen, wie z.B. bei Kleinmotoren die elektrische Leistung, die Belastung oder die Betriebsspannung, die einen Einfluss auf die Verteilung der Lebensdauer haben. Beispielsweise könnte die Verteilung der Lebensdauer mit Hilfe der Klasse der Weibull Verteilungen oder der Klasse der Log-Normal Verteilungen modelliert werden, wobei die Verteilungsparameter jeweils linear von den Kovariablen abhängen.
Anhand der gegebenen Daten lässt sich ein Schätzer für den bezüglich der Modellklasse unbekannten Parameter mit Hilfe der Maximum Likelihood Methode bestimmen. Unter geeigneten Voraussetzungen folgt aus der Maximum Likelihood Theorie die Konvergenz des Schätzers für wachsenden Stichprobenumfang.
Dabei unterscheiden wir zwei Fälle: Zunächst betrachten wir den Fall, dass bei fester Anzahl der Kovariablenwerte die Anzahl der Beobachtungen pro Kovariablenwert gegen unendlich geht. Anschließend gehen wir auf die umgekehrte Situation ein.
Der Abstand zwischen der zugrundeliegenden Funktion und den Modellklassen kann mit Hilfe des Grenzwertes des Maximum Likelihood Schätzers und des Cramér-von Mises Abstandes definiert werden. Die Gründe für den ausgewählten Abstandsbegriff sind zum einen die häufige Verwendung des Maximum-Likelihood-Schätzers und zum anderen die leichte Interpretierbarkeit des Cramér-von Mises Abstandes in Bezug auf unser Ziel, die Verteilungsfunktion der Lebensdauer zu approximieren.
Getestet wird die Nullhypothese, dass beide Modelle ähnlich gute Anpassungen liefern. Die Teststatistik ist definiert durch einen Schätzer für die Differenz der Abstände. Unter geeigneten Voraussetzungen zeigen wir die asymptotische Normalität der Teststatistik. Außerdem wird gezeigt, dass die asymptotische Varianz durch einen Plug-in Schätzer konsistent geschätzt werden kann. Mit Hilfe des Quantils der Standardnormalverteilung zum gegebenen Niveau lassen sich die Testentscheidungsregeln angeben.
Für den Fall einer festen Anzahl von Beobachtungen pro Kovariablenwert und wachsender Anzahl der Kovariablenwerte sei der Grenzwert des Maximum Likelihood Schätzers anders aber in analoger Weise. Dementsprechend wird der Abstand angepasst. In der Teststatistik wird der Nadaraya-Watson Kernschätzer anstatt der empirischen Verteilungsfunktion verwendet.
Für eindimensionale Kovariablen beweisen wir ähnliche Resultate wie im ersten Fall, die nicht ohne weiteres auf mehrdimensionale Kovariablen übertragbar sind. Deshalb wird ein einseitiger Test für die Hypothesen mit einer frei zu wählenden Konstante konstruiert und dessen Konsistenz bewiesen.
Die Ergebnisse wurden auf den Fall mit rechts-zensierten Daten erweitert, wobei der Kaplan-Meier und der Beran Schätzer für die Verteilungsfunktion zum Einsatz kamen. Die Anwendbarkeit des hier betrachteten Hypothesentests wurde anhand von Simulationen und am Beispiel von im Rahmen des DFG-Projekts zu Verfügung gestellten realen Daten demonstriert.