Kenngrößen zweidimensionaler Verteilungen
Kenngrößen zweidimensionaler Verteilungen
In diesem Abschnitt werden die Kenngrößen zweidimensionaler Verteilungen beschrieben, die wichtige statistische Maße darstellen, um die Beziehung zwischen zwei Variablen zu analysieren.
Grundbegriffe:
- Zweidimensionale Verteilung: Eine Verteilung, die zwei Variablen betrachtet, deren Wertepaare in einem gemeinsamen Datensatz beobachtet werden. Zum Beispiel kann die Körpergröße und das Gewicht einer Gruppe von Personen untersucht werden.
- Häufigkeit: Die Anzahl der Male, die ein bestimmtes Paar von Werten in den Daten auftritt.
Wichtige Kenngrößen:
Kovarianz (Covariance):
- Definition: Die Kovarianz ist ein Maß für die gemeinsame Variation zweier Variablen. Sie zeigt, inwieweit die Variablen zusammen variieren.
- Formel: $\text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})$
- $x_i$ und $y_i$ sind die Werte der Variablen X und Y.
- $\bar{x}$ und $\bar{y}$ sind die Mittelwerte von X und Y.
- $n$ ist die Anzahl der Beobachtungen.
- Interpretation: Eine positive Kovarianz bedeutet, dass die Variablen tendenziell gemeinsam in die gleiche Richtung variieren. Eine negative Kovarianz zeigt, dass sie in entgegengesetzte Richtungen variieren.
Korrelationskoeffizient (Correlation Coefficient):
- Definition: Der Korrelationskoeffizient ist ein standardisiertes Maß für die Stärke und Richtung des linearen Zusammenhangs zwischen zwei Variablen.
- Formel: $r = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}$
- $\sigma_X$ und $\sigma_Y$ sind die Standardabweichungen der Variablen X und Y.
- Interpretation: Der Korrelationskoeffizient liegt zwischen -1 und 1.
- $r = 1$: Perfekter positiver linearer Zusammenhang.
- $r = -1$: Perfekter negativer linearer Zusammenhang.
- $r = 0$: Kein linearer Zusammenhang.
Randverteilungen (Marginal Distributions):
- Definition: Randverteilungen sind die Verteilungen der einzelnen Variablen ohne Berücksichtigung der anderen Variablen.
- Berechnung: Die Randverteilung einer Variablen wird durch Summierung der Häufigkeiten über alle Werte der anderen Variablen ermittelt.
- Nutzen: Sie helfen, die Verteilungseigenschaften jeder Variablen separat zu verstehen.
Bedingte Verteilungen (Conditional Distributions):
- Definition: Bedingte Verteilungen zeigen die Verteilung einer Variablen unter der Bedingung, dass die andere Variable einen bestimmten Wert hat.
- Berechnung: Die bedingte Verteilung von Y gegeben X wird durch die relative Häufigkeit der Werte von Y für jeden festen Wert von X bestimmt.
- Nutzen: Sie ermöglichen das Verständnis, wie sich eine Variable unter bestimmten Bedingungen der anderen Variable verhält.
Beispiel zur Veranschaulichung:
Angenommen, wir haben eine Stichprobe von 10 Schülern und messen ihre Lernzeit (in Stunden) und ihre erzielten Testpunkte. Die Daten könnten wie folgt aussehen:
Lernzeit (X) |
Testpunkte (Y) |
2 |
50 |
3 |
55 |
4 |
56 |
5 |
60 |
6 |
65 |
7 |
70 |
8 |
75 |
9 |
80 |
10 |
85 |
11 |
90 |
Die Berechnung der Kovarianz und des Korrelationskoeffizienten zeigt, wie stark und in welche Richtung Lernzeit und Testpunkte zusammenhängen.
- Kovarianz: Ein positiver Wert würde darauf hinweisen, dass mit steigender Lernzeit auch die Testpunkte tendenziell steigen.
- Korrelationskoeffizient: Ein Wert nahe 1 würde einen starken positiven linearen Zusammenhang anzeigen.
In dem gezeigten Beispiel beträgt die Kovarianz 37 und die Korrelation $r \approx 0.995$, also fast 1 und damit ein fast perfekter Zusammenhang. Wobei darauf hinzuweisen ist, dass aus Korrelation nicht auch notwendigerweiße Kausalität folgt.
Durch die Analyse dieser Kenngrößen erhalten wir wertvolle Einblicke in die Beziehung zwischen den Variablen, was für viele praktische Anwendungen, wie Vorhersagen und Entscheidungen, hilfreich ist.