Inhaltsverzeichnis
Wahrscheinlichkeitsrechnung — Einleitung & Inhaltsverzeichnis
Hauptseite

Eigenschaften der Chi Quadrat Verteilung
Anwendung in Hypothesentests
Definition und mathematische Formulierung der t-Verteilung

Anwendung in Hypothesentests

Die Chi-Quadrat-Verteilung ist eine wichtige Verteilung in der Statistik, insbesondere wenn es um Hypothesentests geht. Ein Hypothesentest ist ein Verfahren, mit dem wir statistische Hypothesen überprüfen. Eine Hypothese ist eine Annahme über eine Eigenschaft einer Population, die auf Basis von Stichprobendaten überprüft werden soll. In diesem Zusammenhang spielen der Unabhängigkeitstest und der Anpassungstest eine zentrale Rolle. Diese Tests helfen uns zu entscheiden, ob beobachtete Daten mit einer bestimmten theoretischen Verteilung oder einer Erwartung übereinstimmen.

1. Unabhängigkeitstest

Der Unabhängigkeitstest, auch Chi-Quadrat-Test auf Unabhängigkeit genannt, wird verwendet, um zu prüfen, ob zwei kategoriale Variablen unabhängig voneinander sind. Eine kategoriale Variable ist eine Variable, die in verschiedene Kategorien eingeteilt werden kann (z.B. Geschlecht: männlich oder weiblich).

Beispiel:

Angenommen, wir möchten untersuchen, ob das Geschlecht (männlich oder weiblich) einer Person unabhängig von ihrer Vorliebe für eine bestimmte Eissorte (Schokolade oder Vanille) ist. Wir sammeln Daten von einer Gruppe von Personen und zählen, wie viele Männer und Frauen jeweils Schokolade oder Vanille bevorzugen.

Diese Daten werden in einer Kontingenztabelle zusammengefasst, die die Häufigkeiten der Kombinationen von Geschlecht und Eissorte zeigt:

Schokolade Vanille Gesamt
Männlich 30 20 50
Weiblich 25 25 50
Gesamt 55 45 100

Nun möchten wir testen, ob die Vorliebe für eine Eissorte unabhängig vom Geschlecht ist. Dafür formulieren wir zwei Hypothesen:

Um dies zu testen, berechnen wir die erwarteten Häufigkeiten unter der Annahme, dass die Nullhypothese wahr ist. Die erwartete Häufigkeit für jede Zelle der Kontingenztabelle wird durch die Formel berechnet:

$E_{ij} = \frac{R_i \times C_j}{N}$

Dabei ist $E_{ij}$ die erwartete Häufigkeit für die Zelle in der i-ten Zeile und j-ten Spalte, $R_i$ die Summe der i-ten Zeile, $C_j$ die Summe der j-ten Spalte und $N$ die Gesamtanzahl der Beobachtungen.

erwartete Häufigkeit
Schokolade Vanille Gesamt
Männlich 27.5 22.5 50
Weiblich 27.5 22.5 50
Gesamt 55 45 100

Nachdem wir die erwarteten Häufigkeiten berechnet haben, vergleichen wir diese mit den beobachteten Häufigkeiten und berechnen die Chi-Quadrat-Statistik:

$\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$

Dabei ist $O_{ij}$ die beobachtete Häufigkeit und $E_{ij}$ die erwartete Häufigkeit.

$\chi^2 = \frac{(30 -27.5)^{2}}{27.5} + \frac{(20 -22.5)^{2}}{22.5} + \frac{(25 -27.5)^{2}}{27.5} + \frac{(25 -22.5)^{2}}{22.5}= $

Jetzt noch die Freiheitsgrade bestimmen:

$ df = (\text{Anzahl der Variablen Geschlecht} - 1) (\text{Anzahl der Variablen Geschmack} -1) = (2-1)(2-1) = 1 $

Diese Chi-Quadrat-Statistik wird dann mit einem kritischen Wert aus der Chi-Quadrat-Verteilung verglichen, der von unserem Signifikanzniveau (häufig 0,05) und den Freiheitsgraden (Anzahl der Kategorien - 1) abhängt. Wenn die berechnete Chi-Quadrat-Statistik größer ist als der kritische Wert, lehnen wir die Nullhypothese ab und schließen, dass die Variablen nicht unabhängig sind.

Der zu vergleichende $\chi^{2}$-Wert bei einem Signifikanzniveau von 5% und $df = 1$ beträgt $3,841$

Der berechnete $\chi^{2}$ Wert ($\chi^{2} = 1.01$) ist kleiner als Vergleichswert ($3,841$)

Es besteht kein signifikanter Zusammenhang zwischen den Variablen Geschlecht und Geschmack. Wäre der berechnete Wert höher, wäre das Ergebnis signifikant.

2. Anpassungstest

Der Anpassungstest, auch Chi-Quadrat-Anpassungstest genannt, wird verwendet, um zu überprüfen, ob die beobachteten Häufigkeiten einer einzelnen kategorialen Variablen mit einer theoretischen Verteilung übereinstimmen.

Beispiel:

Angenommen, wir haben einen Würfel und möchten überprüfen, ob dieser fair ist, das heißt, ob jede Seite mit gleicher Wahrscheinlichkeit erscheint. Wir werfen den Würfel 60 Mal und notieren die Häufigkeiten für jede Seite.

Unsere beobachteten Häufigkeiten könnten wie folgt aussehen:

Augenzahl 1 2 3 4 5 6
Häufigkeit 10 8 12 14 9 7

Wenn der Würfel fair ist, erwarten wir, dass jede Seite im Durchschnitt gleich häufig erscheint. Da wir den Würfel 60 Mal geworfen haben und es sechs Seiten gibt, erwarten wir für jede Seite eine Häufigkeit von:

$E_i = \frac{60}{6} = 10$

Wir formulieren die Hypothesen:

Wir berechnen die Chi-Quadrat-Statistik ähnlich wie beim Unabhängigkeitstest:

$\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$

Dabei ist $O_i$ die beobachtete Häufigkeit und $E_i$ die erwartete Häufigkeit für die i-te Seite des Würfels.

$\chi^2 = \frac{(10 - 10)^{2}}{10} + \frac{(8 - 10)^{2}}{10} + \frac{(12 - 10)^{2}}{10} + \frac{(14 - 10)^{2}}{10} + \frac{(9 - 10)^{2}}{10} + \frac{(7 - 10)^{2}}{10} \approx 6.947$

Auch hier vergleichen wir die berechnete Chi-Quadrat-Statistik mit einem kritischen Wert aus der Chi-Quadrat-Verteilung, der vom Signifikanzniveau und den Freiheitsgraden (Anzahl der Kategorien - 1) abhängt. Wenn die Chi-Quadrat-Statistik größer ist als der kritische Wert, lehnen wir die Nullhypothese ab und schließen, dass der Würfel nicht fair ist.

Freiheitgrade hier: $df = 5$

Der zu vergleichende $\chi^{2}$-Wert bei einem Signifikanzniveau von 5% und $df = 5$ beträgt $11.07$

Der berechnete $\chi^{2}$ Wert ($\chi^{2} = 6.947$) ist kleiner als Vergleichswert ($11.7$)

Damit wird die Nullhypothese abgelehnt.

In beiden Tests hilft uns die Chi-Quadrat-Verteilung, eine fundierte Entscheidung darüber zu treffen, ob die Daten mit unseren Erwartungen übereinstimmen, basierend auf den Berechnungen und den Freiheitsgraden.


Impressum
Datenschutz

annehmen ablehnen

Auf dieser Website werden Cookies und Pixel-Tags verwendet. Durch die Nutzung dieser Website erklären Sie sich mit der Verwendung von Cookies einverstanden. Mehr zum Thema Cookies und siehe auch Datenschutz