Die Chi-Quadrat-Verteilung ist eine wichtige Verteilung in der Statistik, insbesondere wenn es um Hypothesentests geht. Ein Hypothesentest ist ein Verfahren, mit dem wir statistische Hypothesen überprüfen. Eine Hypothese ist eine Annahme über eine Eigenschaft einer Population, die auf Basis von Stichprobendaten überprüft werden soll. In diesem Zusammenhang spielen der Unabhängigkeitstest und der Anpassungstest eine zentrale Rolle. Diese Tests helfen uns zu entscheiden, ob beobachtete Daten mit einer bestimmten theoretischen Verteilung oder einer Erwartung übereinstimmen.
Der Unabhängigkeitstest, auch Chi-Quadrat-Test auf Unabhängigkeit genannt, wird verwendet, um zu prüfen, ob zwei kategoriale Variablen unabhängig voneinander sind. Eine kategoriale Variable ist eine Variable, die in verschiedene Kategorien eingeteilt werden kann (z.B. Geschlecht: männlich oder weiblich).
Beispiel:
Angenommen, wir möchten untersuchen, ob das Geschlecht (männlich oder weiblich) einer Person unabhängig von ihrer Vorliebe für eine bestimmte Eissorte (Schokolade oder Vanille) ist. Wir sammeln Daten von einer Gruppe von Personen und zählen, wie viele Männer und Frauen jeweils Schokolade oder Vanille bevorzugen.
Diese Daten werden in einer Kontingenztabelle zusammengefasst, die die Häufigkeiten der Kombinationen von Geschlecht und Eissorte zeigt:
Schokolade | Vanille | Gesamt | |
---|---|---|---|
Männlich | 30 | 20 | 50 |
Weiblich | 25 | 25 | 50 |
Gesamt | 55 | 45 | 100 |
Nun möchten wir testen, ob die Vorliebe für eine Eissorte unabhängig vom Geschlecht ist. Dafür formulieren wir zwei Hypothesen:
Um dies zu testen, berechnen wir die erwarteten Häufigkeiten unter der Annahme, dass die Nullhypothese wahr ist. Die erwartete Häufigkeit für jede Zelle der Kontingenztabelle wird durch die Formel berechnet:
$E_{ij} = \frac{R_i \times C_j}{N}$
Dabei ist $E_{ij}$ die erwartete Häufigkeit für die Zelle in der i-ten Zeile und j-ten Spalte, $R_i$ die Summe der i-ten Zeile, $C_j$ die Summe der j-ten Spalte und $N$ die Gesamtanzahl der Beobachtungen.
Schokolade | Vanille | Gesamt | |
---|---|---|---|
Männlich | 27.5 | 22.5 | 50 |
Weiblich | 27.5 | 22.5 | 50 |
Gesamt | 55 | 45 | 100 |
Nachdem wir die erwarteten Häufigkeiten berechnet haben, vergleichen wir diese mit den beobachteten Häufigkeiten und berechnen die Chi-Quadrat-Statistik:
$\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$
Dabei ist $O_{ij}$ die beobachtete Häufigkeit und $E_{ij}$ die erwartete Häufigkeit.
$\chi^2 = \frac{(30 -27.5)^{2}}{27.5} + \frac{(20 -22.5)^{2}}{22.5} + \frac{(25 -27.5)^{2}}{27.5} + \frac{(25 -22.5)^{2}}{22.5}= $
Jetzt noch die Freiheitsgrade bestimmen:
$ df = (\text{Anzahl der Variablen Geschlecht} - 1) (\text{Anzahl der Variablen Geschmack} -1) = (2-1)(2-1) = 1 $
Diese Chi-Quadrat-Statistik wird dann mit einem kritischen Wert aus der Chi-Quadrat-Verteilung verglichen, der von unserem Signifikanzniveau (häufig 0,05) und den Freiheitsgraden (Anzahl der Kategorien - 1) abhängt. Wenn die berechnete Chi-Quadrat-Statistik größer ist als der kritische Wert, lehnen wir die Nullhypothese ab und schließen, dass die Variablen nicht unabhängig sind.
Der zu vergleichende $\chi^{2}$-Wert bei einem Signifikanzniveau von 5% und $df = 1$ beträgt $3,841$
Der berechnete $\chi^{2}$ Wert ($\chi^{2} = 1.01$) ist kleiner als Vergleichswert ($3,841$)
Es besteht kein signifikanter Zusammenhang zwischen den Variablen Geschlecht und Geschmack. Wäre der berechnete Wert höher, wäre das Ergebnis signifikant.
Der Anpassungstest, auch Chi-Quadrat-Anpassungstest genannt, wird verwendet, um zu überprüfen, ob die beobachteten Häufigkeiten einer einzelnen kategorialen Variablen mit einer theoretischen Verteilung übereinstimmen.
Beispiel:
Angenommen, wir haben einen Würfel und möchten überprüfen, ob dieser fair ist, das heißt, ob jede Seite mit gleicher Wahrscheinlichkeit erscheint. Wir werfen den Würfel 60 Mal und notieren die Häufigkeiten für jede Seite.
Unsere beobachteten Häufigkeiten könnten wie folgt aussehen:
Augenzahl | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
Häufigkeit | 10 | 8 | 12 | 14 | 9 | 7 |
Wenn der Würfel fair ist, erwarten wir, dass jede Seite im Durchschnitt gleich häufig erscheint. Da wir den Würfel 60 Mal geworfen haben und es sechs Seiten gibt, erwarten wir für jede Seite eine Häufigkeit von:
$E_i = \frac{60}{6} = 10$
Wir formulieren die Hypothesen:
Wir berechnen die Chi-Quadrat-Statistik ähnlich wie beim Unabhängigkeitstest:
$\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$
Dabei ist $O_i$ die beobachtete Häufigkeit und $E_i$ die erwartete Häufigkeit für die i-te Seite des Würfels.
$\chi^2 = \frac{(10 - 10)^{2}}{10} + \frac{(8 - 10)^{2}}{10} + \frac{(12 - 10)^{2}}{10} + \frac{(14 - 10)^{2}}{10} + \frac{(9 - 10)^{2}}{10} + \frac{(7 - 10)^{2}}{10} \approx 6.947$
Auch hier vergleichen wir die berechnete Chi-Quadrat-Statistik mit einem kritischen Wert aus der Chi-Quadrat-Verteilung, der vom Signifikanzniveau und den Freiheitsgraden (Anzahl der Kategorien - 1) abhängt. Wenn die Chi-Quadrat-Statistik größer ist als der kritische Wert, lehnen wir die Nullhypothese ab und schließen, dass der Würfel nicht fair ist.
Freiheitgrade hier: $df = 5$
Der zu vergleichende $\chi^{2}$-Wert bei einem Signifikanzniveau von 5% und $df = 5$ beträgt $11.07$
Der berechnete $\chi^{2}$ Wert ($\chi^{2} = 6.947$) ist kleiner als Vergleichswert ($11.7$)
Damit wird die Nullhypothese abgelehnt.
In beiden Tests hilft uns die Chi-Quadrat-Verteilung, eine fundierte Entscheidung darüber zu treffen, ob die Daten mit unseren Erwartungen übereinstimmen, basierend auf den Berechnungen und den Freiheitsgraden.