Anwendung in Hypothesentests

Die Chi-Quadrat-Verteilung ist eine wichtige Verteilung in der Statistik, insbesondere wenn es um Hypothesentests geht. Ein Hypothesentest ist ein Verfahren, mit dem wir statistische Hypothesen überprüfen. Eine Hypothese ist eine Annahme über eine Eigenschaft einer Population, die auf Basis von Stichprobendaten überprüft werden soll. In diesem Zusammenhang spielen der Unabhängigkeitstest und der Anpassungstest eine zentrale Rolle. Diese Tests helfen uns zu entscheiden, ob beobachtete Daten mit einer bestimmten theoretischen Verteilung oder einer Erwartung übereinstimmen.

1. Unabhängigkeitstest

Der Unabhängigkeitstest, auch Chi-Quadrat-Test auf Unabhängigkeit genannt, wird verwendet, um zu prüfen, ob zwei kategoriale Variablen unabhängig voneinander sind. Eine kategoriale Variable ist eine Variable, die in verschiedene Kategorien eingeteilt werden kann (z.B. Geschlecht: männlich oder weiblich).

Angenommen, wir möchten untersuchen, ob das Geschlecht (männlich oder weiblich) einer Person unabhängig von ihrer Vorliebe für eine bestimmte Eissorte (Schokolade oder Vanille) ist. Wir sammeln Daten von einer Gruppe von Personen und zählen, wie viele Männer und Frauen jeweils Schokolade oder Vanille bevorzugen.

Diese Daten werden in einer Kontingenztabelle zusammengefasst, die die Häufigkeiten der Kombinationen von Geschlecht und Eissorte zeigt:

Nun möchten wir testen, ob die Vorliebe für eine Eissorte unabhängig vom Geschlecht ist. Dafür formulieren wir zwei Hypothesen:

Um dies zu testen, berechnen wir die erwarteten Häufigkeiten unter der Annahme, dass die Nullhypothese wahr ist. Die erwartete Häufigkeit für jede Zelle der Kontingenztabelle wird durch die Formel berechnet:

Dabei ist $E_{ij}$ die erwartete Häufigkeit für die Zelle in der i-ten Zeile und j-ten Spalte, $R_i$ die Summe der i-ten Zeile, $C_j$ die Summe der j-ten Spalte und $N$ die Gesamtanzahl der Beobachtungen.

Nachdem wir die erwarteten Häufigkeiten berechnet haben, vergleichen wir diese mit den beobachteten Häufigkeiten und berechnen die Chi-Quadrat-Statistik:

Dabei ist $O_{ij}$ die beobachtete Häufigkeit und $E_{ij}$ die erwartete Häufigkeit.

$\chi^2 = \frac{(30 -27.5)^{2}}{27.5} + \frac{(20 -22.5)^{2}}{22.5} + \frac{(25 -27.5)^{2}}{27.5} + \frac{(25 -22.5)^{2}}{22.5}= $

$ df = (\text{Anzahl der Variablen Geschlecht} - 1) (\text{Anzahl der Variablen Geschmack} -1) = (2-1)(2-1) = 1 $

Diese Chi-Quadrat-Statistik wird dann mit einem kritischen Wert aus der Chi-Quadrat-Verteilung verglichen, der von unserem Signifikanzniveau (häufig 0,05) und den Freiheitsgraden (Anzahl der Kategorien - 1) abhängt. Wenn die berechnete Chi-Quadrat-Statistik größer ist als der kritische Wert, lehnen wir die Nullhypothese ab und schließen, dass die Variablen nicht unabhängig sind.

Der zu vergleichende $\chi^{2}$-Wert bei einem Signifikanzniveau von 5% und $df = 1$ beträgt $3,841$

Der berechnete $\chi^{2}$ Wert ($\chi^{2} = 1.01$) ist kleiner als Vergleichswert ($3,841$)

Es besteht kein signifikanter Zusammenhang zwischen den Variablen Geschlecht und Geschmack. Wäre der berechnete Wert höher, wäre das Ergebnis signifikant.

2. Anpassungstest

Der Anpassungstest, auch Chi-Quadrat-Anpassungstest genannt, wird verwendet, um zu überprüfen, ob die beobachteten Häufigkeiten einer einzelnen kategorialen Variablen mit einer theoretischen Verteilung übereinstimmen.

Angenommen, wir haben einen Würfel und möchten überprüfen, ob dieser fair ist, das heißt, ob jede Seite mit gleicher Wahrscheinlichkeit erscheint. Wir werfen den Würfel 60 Mal und notieren die Häufigkeiten für jede Seite.

Wenn der Würfel fair ist, erwarten wir, dass jede Seite im Durchschnitt gleich häufig erscheint. Da wir den Würfel 60 Mal geworfen haben und es sechs Seiten gibt, erwarten wir für jede Seite eine Häufigkeit von:

Dabei ist $O_i$ die beobachtete Häufigkeit und $E_i$ die erwartete Häufigkeit für die i-te Seite des Würfels.

$\chi^2 = \frac{(10 - 10)^{2}}{10} + \frac{(8 - 10)^{2}}{10} + \frac{(12 - 10)^{2}}{10} + \frac{(14 - 10)^{2}}{10} + \frac{(9 - 10)^{2}}{10} + \frac{(7 - 10)^{2}}{10} \approx 6.947$

Auch hier vergleichen wir die berechnete Chi-Quadrat-Statistik mit einem kritischen Wert aus der Chi-Quadrat-Verteilung, der vom Signifikanzniveau und den Freiheitsgraden (Anzahl der Kategorien - 1) abhängt. Wenn die Chi-Quadrat-Statistik größer ist als der kritische Wert, lehnen wir die Nullhypothese ab und schließen, dass der Würfel nicht fair ist.

Der zu vergleichende $\chi^{2}$-Wert bei einem Signifikanzniveau von 5% und $df = 5$ beträgt $11.07$

Der berechnete $\chi^{2}$ Wert ($\chi^{2} = 6.947$) ist kleiner als Vergleichswert ($11.7$)

In beiden Tests hilft uns die Chi-Quadrat-Verteilung, eine fundierte Entscheidung darüber zu treffen, ob die Daten mit unseren Erwartungen übereinstimmen, basierend auf den Berechnungen und den Freiheitsgraden.

	Schokolade	Vanille	Gesamt
Männlich	30	20	50
Weiblich	25	25	50
Gesamt	55	45	100

erwartete Häufigkeit
	Schokolade	Vanille	Gesamt
Männlich	27.5	22.5	50
Weiblich	27.5	22.5	50
Gesamt	55	45	100

Augenzahl	1	2	3	4	5	6
Häufigkeit	10	8	12	14	9	7

annehmen ablehnen

Auf dieser Website werden Cookies und Pixel-Tags verwendet. Durch die Nutzung dieser Website erklären Sie sich mit der Verwendung von Cookies einverstanden. Mehr zum Thema Cookies und siehe auch Datenschutz