Definition und Grundkonzepte
In der Statistik beschreibt eine zweidimensionale Häufigkeitsverteilung die gemeinsame Verteilung von zwei Merkmalen, die gleichzeitig beobachtet werden. Um die Verteilung der einzelnen Merkmale unabhängig voneinander zu verstehen, betrachtet man die sogenannten Randverteilungen.
Randverteilungen sind die Verteilungen der einzelnen Merkmale, wenn die anderen Merkmale ignoriert werden. Sie werden aus der zweidimensionalen Häufigkeitsverteilung berechnet und geben Auskunft darüber, wie die Werte eines Merkmals insgesamt verteilt sind, ohne Berücksichtigung der möglichen Abhängigkeit zu anderen Merkmalen.
Berechnung der Randverteilungen
Angenommen, wir haben zwei Merkmale $X$ und $Y$, die in einer zweidimensionalen Häufigkeitstabelle dargestellt werden. Die Tabelle enthält die gemeinsamen Häufigkeiten $f(x_i, y_j)$, die angeben, wie oft die Kombination der Werte $x_i$ und $y_j$ vorkommt.
Die Randverteilungen werden wie folgt berechnet:
Randverteilung von $X$: Dies ist die Verteilung der Häufigkeiten der Werte von $X$, unabhängig von den Werten von $Y$. Sie wird durch Summieren der Häufigkeiten in den Zeilen der Tabelle berechnet.
$f_X(x_i) = \sum_j f(x_i, y_j)$
Hierbei ist $f_X(x_i)$ die Randhäufigkeit des Wertes $x_i$ von $X$.Randverteilung von $Y$: Dies ist die Verteilung der Häufigkeiten der Werte von $Y$, unabhängig von den Werten von $X$. Sie wird durch Summieren der Häufigkeiten in den Spalten der Tabelle berechnet.
$f_Y(y_j) = \sum_i f(x_i, y_j)$
Hierbei ist $f_Y(y_j)$ die Randhäufigkeit des Wertes $y_j$ von $Y$.
Beispiel
Stellen wir uns eine zweidimensionale Häufigkeitstabelle vor, in der wir die Anzahl der Personen zählen, die unterschiedliche Kombinationen von Bildungsniveau $(X)$ und Einkommen $(Y)$ haben.
Bildungsniveau (X) / Einkommen (Y) | Niedrig | Mittel | Hoch | Gesamthäufigkeit |
---|---|---|---|---|
Grundschule | 5 | 10 | 5 | 20 |
Realschule | 10 | 15 | 5 | 30 |
Gymnasium | 5 | 10 | 5 | 20 |
Gesamthäufigkeit | 20 | 35 | 15 | 70 |
Die Randverteilung von (X) (Bildungsniveau) wird durch Summieren der Häufigkeiten in den Zeilen berechnet:
Die Randverteilung von (Y) (Einkommen) wird durch Summieren der Häufigkeiten in den Spalten berechnet:
Interpretation der Randverteilungen
Randverteilungen geben uns wichtige Informationen über die einzelnen Merkmale:
Bedeutung der Randverteilungen
Randverteilungen sind besonders nützlich, wenn man die Gesamthäufigkeiten eines Merkmals analysieren möchte, ohne die detaillierte Struktur der zweidimensionalen Verteilung zu betrachten. Sie bieten eine vereinfachte Sicht auf die Daten, indem sie die Verteilung der einzelnen Merkmale unabhängig von ihren Beziehungen zu anderen Merkmalen zeigen.
Zusammenfassend sind Randverteilungen ein grundlegendes Werkzeug in der Statistik, das es ermöglicht, die Verteilung einzelner Merkmale aus einer komplexen, mehrdimensionalen Datenstruktur zu extrahieren und zu verstehen. Sie helfen, die Gesamtstruktur der Daten deutlich zu vereinfachen und einzelne Merkmale isoliert zu betrachten.