Hilfsmittel für die Inferenzstatistik

Hilfsmittel für die Inferenzstatistik

Modellterme

Alle inferenzstatistischen Verfahren im base-R-Umfang und viele andere aus Zusatzpaketen nutzen die sogenannte Formelschreibweise um Modelle zu definieren. Am Anfang ist die Syntax ein bisschen ungewohnt, am Ende resultiert aus dieser Schreibweise aber eine sehr übersichtliche und schnell erfassbare Modell-Formulierung.

Die Formulierung folgt dabei grundsätzlich dem folgenden System, das sich am Besten analog zu einer mathematischen Funktionsgleichung vorgestellt werden kann. Da das = aber schon für Zuweisungen belegt ist, wird es in formula-Schreibweise durch eine Tilde (~) ersetzt:

Tab. 2:
modellierte Variable(n)~Modellformel
*Regression:*Kriterium~Prädiktor(en)
*Varianzanalyse:*AV~UV(s als Faktor(en))

Modell-Term

Der Modell-Term auf der rechten Seite der Tilde wird dabei aus einer Reihe von Variablen und Kombinationsoperatoren zusammengesetzt. Zuerst etwas unintuitiv sind diese Operatoren im normalen R-Kontext mit anderen Bedeutungen belegt, in formulas funktionieren sie aber so nicht Die Operatoren sind die folgenden:

Operator übliche Bedeutung Bedeutung in formulas
Addition Vorhersageterm hinzufügen
Subtraktion Vorhersageterm ausschließen
<A> : <B> Sequenz Interaktion AxB
<A> * <B> Multiplikation Effekt von A, B und AxB

Anhand von einer Reihe von Beispielen wird die Formulierung deutlich, dafür führen wir noch kurz eine Hand voll Notationen ein, die meisten davon sind wahrscheinlich nicht überraschend:

Abkürzung Bedeutung
\(H_0\) Nullhypothese eines statistischen Tests
\(H_1\) Alternativhypothese eines statistischen Tests
\(UV\) unabhängige Variable
\(AV\) abhängige Variable
\(X_i / Y_i\) numerische (Zufalls-) Variable
\(F_i\) kategoriale Varable (Faktor)

Regressionsmodelle

Y ~ X1: einfache lineare Regression von Y auf X1

Y ~ X1 + X2: multiple lineare Regression von Y auf X1 und X2

Y ~ X1+X2+X1:X2: multiple lineare Regression von Y auf X1 und X2 sowie auf den Interaktionsterm von X1 und X2

Y ~ X1*X2: multiple lineare Regression von Y auf X1 und X2 sowie auf den Interaktionsterm von X1 und X2

Varianzanalytische Modelle

Y ~ F1: einfaktorielle Varianzanalyse

Y ~ F1 + F2 + F1:F2: zweifaktorielle Varianzanalyse mit beiden Haupteffekten und der Interaktion

Y ~ F1 * F2: auch zweifaktorielle Varianzanalyse mit beiden Haupteffekten und der Interaktion

Y ~ X1 + F1: Kovarianzanalyse mit Kovariate X1 und Faktor F1

Innerhalb einer Modellformel können die Terme selbst das Ergebnis der Anwendung von Funktionen auf Variablen sein:

\[\texttt{log}(Y) \sim \texttt{scale}(X)\] Wenn wir die für die Formulierung genutzten Operatoren für arithmetische Operationen in der Modellformel verwenden wollen, müssen sie mit I() eingeschlossen werden um den Kontext klarzumachen:

\[Y \sim \texttt{I}(2*X)\]

Aufgabe

Welche Hypothese(n) pass(t/en) zu folgender Modellformel:

IQ ~ Geschlecht + Raucher
  • A: Es gibt einen Unterschied zwischen der Intelligenz von Rauchern und Nichtrauchern und zwischen der von Frauen und Männern.

  • B: Es gibt einen Unterschied zwischen der Intelligenz von Rauchern und Nichtrauchern und zwischen der von Frauen und Männern sowie einen Unterschied in der Intelligenz zwischen Rauchern und Nichtrauchern, der sich in der Ausprägung zwischen den Geschlechtern unterscheidet.

  • C: Es gibt einen Unterschied in der Intelligenz zwischen Rauchern und Nichtrauchern, der sich in der Ausprägung zwischen den Geschlechtern unterscheidet.

  • D: Es gibt einen Zusammenhang zwischen Rauchen und Geschlecht auf der einen und Intelligenz auf der anderen Seite.

Lösung A ist richtig.