„Homoskedastizität und Heteroskedastizität“ – Versionsunterschied

[gesichtete Version][gesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
+lf
Darstellung
 
(11 dazwischenliegende Versionen von 8 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
{{Multiple image
[[Datei:Heterosk1.png|mini|Heteroskedastizität: Hier wird die Streuung der Punkte um die Gerade nach rechts hin größer.]]
| Breite = 220
'''Heteroskedastizität''' (auch '''Varianzheterogenität''', oder '''Heteroskedastie'''; gr. σκεδαστός, skedastós, zerstreut, verteilt; zerstreubar) bedeutet in der [[Statistik]], dass die Varianz der Störterme bedingt auf die erklärenden Variablen nicht konstant ist. Wenn die [[Varianz (Stochastik)|Varianz]] der [[Störterm]]e (und somit die Varianz der erklärten Variablen selbst) für alle Ausprägungen der exogenen (Prädiktor)-Variablen nicht [[Statistische Signifikanz|signifikant]] unterschiedlich ist, liegt '''Homoskedastizität''' ('''Varianzhomogenität''' auch '''Homoskedastie''') vor.
| Bild1 = Homosk.png
| Bild2 = Heterosk1.png
| Fußzeile = Homoskedastizität (links):<br />Die Streuung der Punkte um die Gerade in vertikaler Richtung ist konstant.<br /><br />Heteroskedastizität (rechts):<br />Hier wird die Streuung der Punkte um die Gerade nach rechts hin größer.
}}
'''Heteroskedastizität''', auch '''Varianzheterogenität''' oder '''Heteroskedastie''' ({{grcS|σκεδαστός|skedastós}}, „zerstreut“, „verteilt“, „zerstreubar“), bedeutet in der [[Statistik]], dass die Varianz der [[Störterm]]e nicht konstant ist. Wenn die [[Varianz (Stochastik)|Varianz]] der Störterme (und somit die Varianz der [[Erklärte Variable|erklärten Variablen]] selbst) für alle Ausprägungen der exogenen [[Prädiktorvariable]]n nicht [[Statistische Signifikanz|signifikant]] unterschiedlich ist, liegt '''Homoskedastizität''' (auch '''Varianzhomogenität''' oder '''Homoskedastie''') vor.

Der Begriff spielt insbesondere in der [[Ökonometrie]] und der [[Empirie|empirischen Forschung]] eine wichtige Rolle. Die Homoskedastizitätsannahme ist ein wichtiger Bestandteil der [[Gauß-Markow-Annahmen]].
Der Begriff spielt insbesondere in der [[Ökonometrie]] und der [[Empirie|empirischen Forschung]] eine wichtige Rolle. Die Homoskedastizitätsannahme ist ein wichtiger Bestandteil der [[Gauß-Markow-Annahmen]].


== Homoskedastizität und Heteroskedastizität ==
== Homoskedastizität und Heteroskedastizität ==
[[Datei:Homosk.png|mini|Homoskedastizität: Die Streuung der Punkte um die Gerade in vertikaler Richtung ist konstant.]]
In der Statistik spielt die Verteilung von [[Merkmal]]en eine entscheidende Rolle. Beispielsweise hat man in der [[Regressionsanalyse]] eine Menge von Datenpunkten gegeben, in die eine Gerade möglichst passgenau eingelegt wird. Die Abweichungen der Datenpunkte von der Geraden werden Störterme oder [[Störgröße und Residuum|Residuen]] genannt und sind wahrscheinlichkeitstheoretisch jeweils [[Zufallsvariable]]n. Homoskedastie bzw. Heteroskedastie bezieht sich auf die Verteilung dieser Störterme, die mittels der Varianz erfasst wird. Haben diese Störterme <math> \varepsilon_i</math> alle die gleiche Varianz, liegt Varianzhomogenität (d.&nbsp;h. Homoskedastie) vor
In der Statistik spielt die Verteilung von [[Merkmal]]en eine entscheidende Rolle. Beispielsweise hat man in der [[Regressionsanalyse]] eine Menge von Datenpunkten gegeben, in die eine Gerade möglichst passgenau eingelegt wird. Die Abweichungen der Datenpunkte von der Geraden werden Störterme oder [[Störgröße und Residuum|Residuen]] genannt und sind wahrscheinlichkeitstheoretisch jeweils [[Zufallsvariable]]n. Homoskedastie bzw. Heteroskedastie bezieht sich auf die Verteilung dieser Störterme, die mittels der Varianz erfasst wird. Haben diese Störterme <math> \varepsilon_i</math> alle die gleiche Varianz, liegt Varianzhomogenität (d.&nbsp;h. Homoskedastie) vor


Zeile 13: Zeile 18:
:<math> \operatorname{Var}(\varepsilon_i) =\sigma_i^2 \quad i=1, \ldots, n</math>.
:<math> \operatorname{Var}(\varepsilon_i) =\sigma_i^2 \quad i=1, \ldots, n</math>.


In diesem Fall weisen die Störterme nicht die gleiche Varianz auf und folglich führt die gewöhnliche [[Methode der kleinsten Quadrate]] nicht zu [[Beste Lineare Erwartungstreue Schätzfunktion|effizienten Schätzwerten]] für die Regressionskoeffizienten. Dies bedeutet, dass diese Schätzwerte nicht die kleinstmögliche Varianz aufweisen. Die [[Standardfehler des Regressionskoeffizienten|Standardfehler der Regressionskoeffizienten]] werden verzerrt geschätzt<ref>Lothar Sachs, Jürgen Hedderich: ''Angewandte Statistik: Methodensammlung mit R.'' 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2018, ISBN 978-3-662-56657-2, S.&nbsp;814.</ref> und außerdem ist dann eine naive Anwendung des [[t-Test]]s nicht möglich; die t-Werte sind nicht mehr brauchbar. Abhilfe schafft in vielen Fällen eine geeignete Datentransformation: Herrscht Heteroskedastizität, kann es durchaus sinnvoll sein, die Daten mittels Anwendung des Logarithmus oder der [[Quadratwurzel]] zu transformieren, um Homoskedastizität zu erreichen. Diese führt dann zur korrekten Verwendung des [[Satz von Gauß-Markow|Satzes von Gauß-Markow]].
In diesem Fall weisen die Störterme nicht die gleiche Varianz auf und folglich führt die gewöhnliche [[Methode der kleinsten Quadrate]] nicht zu [[Beste Lineare Erwartungstreue Schätzfunktion|effizienten Schätzwerten]] für die Regressionskoeffizienten. Dies bedeutet, dass diese Schätzwerte nicht die kleinstmögliche Varianz aufweisen. Die [[Standardfehler des Regressionskoeffizienten|Standardfehler der Regressionskoeffizienten]] werden verzerrt geschätzt<ref>[[Lothar Sachs]], Jürgen Hedderich: ''Angewandte Statistik: Methodensammlung mit R.'' 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2018, ISBN 978-3-662-56657-2, S.&nbsp;814.</ref> und außerdem ist dann eine naive Anwendung des [[t-Test]]s nicht möglich; die t-Werte sind nicht mehr brauchbar. Abhilfe schafft in vielen Fällen eine geeignete Datentransformation: Herrscht Heteroskedastizität, kann es durchaus sinnvoll sein, die Daten mittels Anwendung des Logarithmus oder der [[Quadratwurzel]] zu transformieren, um Homoskedastizität zu erreichen. Diese führt dann zur korrekten Verwendung des [[Satz von Gauß-Markow|Satzes von Gauß-Markow]].


Praktisch tritt Heteroskedastizität auf, wenn die Streuung der abhängigen Variablen von der Höhe der erklärenden Variablen abhängt. Zum Beispiel ist mit einer größeren Streuung der Ausgaben im Urlaub zu rechnen, wenn das verfügbare Monatseinkommen höher ist.<ref>Lothar Sachs, Jürgen Hedderich: ''Angewandte Statistik: Methodensammlung mit R.'' 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2018, ISBN 978-3-662-56657-2, S.&nbsp;813.</ref>
Praktisch tritt Heteroskedastizität auf, wenn die Streuung der abhängigen Variablen von der Höhe der erklärenden Variablen abhängt. Zum Beispiel ist mit einer größeren Streuung der Ausgaben im Urlaub zu rechnen, wenn das verfügbare Monatseinkommen höher ist.<ref>Lothar Sachs, Jürgen Hedderich: ''Angewandte Statistik: Methodensammlung mit R.'' 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2018, ISBN 978-3-662-56657-2, S.&nbsp;813.</ref>
Zeile 19: Zeile 24:
== Folgen von Heteroskedastizität bei linearer Regression ==
== Folgen von Heteroskedastizität bei linearer Regression ==
* die erste [[Kleinste-Quadrate-Methode|KQ]]-Annahme bleibt erfüllt, also [[Korrelation|korreliert]] die [[Exogene und endogene Variable#Exogene und endogene erklärende Variable|exogene erklärende Variable]] trotzdem nicht mit dem [[Störgröße und Residuum|Residuum]]
* die erste [[Kleinste-Quadrate-Methode|KQ]]-Annahme bleibt erfüllt, also [[Korrelation|korreliert]] die [[Exogene und endogene Variable#Exogene und endogene erklärende Variable|exogene erklärende Variable]] trotzdem nicht mit dem [[Störgröße und Residuum|Residuum]]
* die exogene und die [[endogene Variable]] sind nicht mehr identisch verteilt, was zur Folge hat, dass die KQ-Schätzer nicht mehr effizient sind und die [[Standardfehler des Regressionskoeffizienten|Standardfehler der Regressionskoeffizienten]] [[Verzerrung einer Schätzfunktion|verzerrt]] und nicht [[Konsistente Schätzfolge|konsistent]] wird. Daraus folgt, dass – wie oben erwähnt – natürlich auch die t-Werte nicht mehr verlässlich sind. Dies, weil der t-Wert ja berechnet wird, indem die Koeffizientenschätzung einer exogenen (Prädiktor-)Variablen durch deren Standardfehler dividiert wird. Bei Vorliegen von Heteroskedastizität kann jedoch auf andere Standardfehler zurückgegriffen werden, z. B. auf heteroskedastie-robuste Standardfehler (''Eicker-Huber-White-Schätzer'' (benannt nach [[Friedhelm Eicker]], [[Peter J. Huber]], [[Halbert L. White]]); manchmal auch nur schlicht mit einem der Entwicklernamen benannt, etwa als [[White-Schätzer]]). Eine weitere Möglichkeit bei Vorliegen von Heteroskedastie ist der Rückgriff auf den [[Verallgemeinerte Kleinste-Quadrate-Schätzung#Gewichtete kleinste Quadrate (GKQ)|gewichteten Kleinste-Quadrate-Schätzer]] ({{enS}} ''weighted least squares estimator'', kurz ''WLSE'') als Spezialfall des [[Verallgemeinerte Kleinste-Quadrate-Schätzung|verallgemeinerten Kleinste-Quadrate-Schätzers]] (VKQ-Schätzer).<ref>{{Literatur |Autor=Jeffrey Wooldridge |Hrsg= |Titel=Introductory Econometrics. A Modern Approach. |Auflage=5 |Verlag=South-Western, Cengage Learning |Ort=Mason, Ohio |Datum=2013 |ISBN=978-1-111-53439-4 |Seiten=49-54}}</ref>
* die exogene und die [[endogene Variable]] sind nicht mehr identisch verteilt, was zur Folge hat, dass die KQ-Schätzer nicht mehr effizient sind und die [[Standardfehler des Regressionskoeffizienten|Standardfehler der Regressionskoeffizienten]] [[Verzerrung einer Schätzfunktion|verzerrt]] und nicht [[Konsistente Schätzfolge|konsistent]] sind. Daraus folgt, dass – wie oben erwähnt – natürlich auch die t-Werte nicht mehr verlässlich sind. Dies, weil der t-Wert ja berechnet wird, indem die Koeffizientenschätzung einer exogenen [[Prädiktorvariable]]n durch deren [[Standardfehler]] dividiert wird. Bei Vorliegen von Heteroskedastizität kann jedoch auf andere Standardfehler zurückgegriffen werden, z. B. auf heteroskedastie-[[Robuste Schätzverfahren|robuste]] Standardfehler (''Eicker-Huber-White-Schätzer'' (benannt nach [[Friedhelm Eicker]], [[Peter J. Huber]], [[Halbert L. White]]); manchmal auch nur schlicht mit einem der Entwicklernamen benannt, etwa als [[White-Schätzer]]). Eine weitere Möglichkeit bei Vorliegen von Heteroskedastie ist der Rückgriff auf den [[Verallgemeinerte Kleinste-Quadrate-Schätzung#Gewichtete kleinste Quadrate (GKQ)|gewichteten Kleinste-Quadrate-Schätzer]] ({{enS}} ''weighted least squares estimator'', kurz ''WLSE'') als Spezialfall des [[Verallgemeinerte Kleinste-Quadrate-Schätzung|verallgemeinerten Kleinste-Quadrate-Schätzers]] (VKQ-Schätzer).<ref>{{Literatur |Autor=Jeffrey Wooldridge |Hrsg= |Titel=Introductory Econometrics. A Modern Approach. |Auflage=5 |Verlag=South-Western, Cengage Learning |Ort=Mason, Ohio |Datum=2013 |ISBN=978-1-111-53439-4 |Seiten=49-54}}</ref>


== Beispiele ==
== Beispiele ==

Aktuelle Version vom 13. Februar 2024, 19:38 Uhr

Homoskedastizität (links):
Die Streuung der Punkte um die Gerade in vertikaler Richtung ist konstant.

Heteroskedastizität (rechts):
Hier wird die Streuung der Punkte um die Gerade nach rechts hin größer.

Heteroskedastizität, auch Varianzheterogenität oder Heteroskedastie (altgriechisch σκεδαστός skedastós, „zerstreut“, „verteilt“, „zerstreubar“), bedeutet in der Statistik, dass die Varianz der Störterme nicht konstant ist. Wenn die Varianz der Störterme (und somit die Varianz der erklärten Variablen selbst) für alle Ausprägungen der exogenen Prädiktorvariablen nicht signifikant unterschiedlich ist, liegt Homoskedastizität (auch Varianzhomogenität oder Homoskedastie) vor.

Der Begriff spielt insbesondere in der Ökonometrie und der empirischen Forschung eine wichtige Rolle. Die Homoskedastizitätsannahme ist ein wichtiger Bestandteil der Gauß-Markow-Annahmen.

Homoskedastizität und Heteroskedastizität

In der Statistik spielt die Verteilung von Merkmalen eine entscheidende Rolle. Beispielsweise hat man in der Regressionsanalyse eine Menge von Datenpunkten gegeben, in die eine Gerade möglichst passgenau eingelegt wird. Die Abweichungen der Datenpunkte von der Geraden werden Störterme oder Residuen genannt und sind wahrscheinlichkeitstheoretisch jeweils Zufallsvariablen. Homoskedastie bzw. Heteroskedastie bezieht sich auf die Verteilung dieser Störterme, die mittels der Varianz erfasst wird. Haben diese Störterme alle die gleiche Varianz, liegt Varianzhomogenität (d. h. Homoskedastie) vor

beziehungsweise .
Heteroskedastizität: Die Streuung der Punkte um die Gerade wächst nach rechts hin stärker als linear an.

Heteroskedastizität dagegen bedeutet, dass Varianz der Störterme bedingt auf die erklärenden Variablen nicht konstant ist:[1]

.

In diesem Fall weisen die Störterme nicht die gleiche Varianz auf und folglich führt die gewöhnliche Methode der kleinsten Quadrate nicht zu effizienten Schätzwerten für die Regressionskoeffizienten. Dies bedeutet, dass diese Schätzwerte nicht die kleinstmögliche Varianz aufweisen. Die Standardfehler der Regressionskoeffizienten werden verzerrt geschätzt[2] und außerdem ist dann eine naive Anwendung des t-Tests nicht möglich; die t-Werte sind nicht mehr brauchbar. Abhilfe schafft in vielen Fällen eine geeignete Datentransformation: Herrscht Heteroskedastizität, kann es durchaus sinnvoll sein, die Daten mittels Anwendung des Logarithmus oder der Quadratwurzel zu transformieren, um Homoskedastizität zu erreichen. Diese führt dann zur korrekten Verwendung des Satzes von Gauß-Markow.

Praktisch tritt Heteroskedastizität auf, wenn die Streuung der abhängigen Variablen von der Höhe der erklärenden Variablen abhängt. Zum Beispiel ist mit einer größeren Streuung der Ausgaben im Urlaub zu rechnen, wenn das verfügbare Monatseinkommen höher ist.[3]

Folgen von Heteroskedastizität bei linearer Regression

Beispiele

Heteroskedastizität in Zeitreihen

Ein typisches Beispiel für Heteroskedastizität ist, wenn bei einer Zeitreihe die Abweichungen von der Trendgeraden mit Fortlauf der Zeit steigen (z. B. für die Treffgenauigkeit bei der Wettervorhersage: je weiter in der Zukunft, desto unwahrscheinlicher ist eine genaue Prognose). Allerdings können auch in Zeitreihen ohne konstante Varianz bestimmte charakteristische Auffälligkeiten wie z. B. Volatilitätscluster beobachtet werden. Deshalb wurde im Rahmen von Volatilitätsmodellen versucht, dem Verlauf der Varianz eine systematische Erklärung zu Grunde zu legen.

Heteroskedastizität bei der linearen Regression

Lineare Regression und Residualdiagramm bei den Boston-Housing-Daten.

Heteroskedastizität kann bei einer einfachen linearen Regression auftreten. Dies ist ein Problem, da in der klassischen linearen Regressionsanalyse Homoskedastizität der Residuen vorausgesetzt wird. Die untenstehende Grafik zeigt die Variablen mittlere Raumzahl pro Haus (X) sowie mittlerer Kaufpreis pro Haus (Y) für (fast) jeden Distrikt in Boston (Boston-Housing-Daten). Die Grafik Lineare Regression zeigt den Zusammenhang zwischen den beiden Variablen. Die rote Linie zeigt das Residuum für die ganz rechte Beobachtung, also die Differenz zwischen dem beobachteten Wert (runder Kreis) und dem geschätzten Wert auf der Regressionsgerade.

In der Grafik Heteroskedastische Residuen sieht man die Residuen für alle Beobachtungen. Betrachtet man die Streuung der Residuen im Bereich von 4–5 Räumen oder im Bereich ab 7,5 Räumen, so ist sie größer als die Streuung in dem Bereich 5–7,5 Räume. Die Streuung der Residuen in den einzelnen Bereichen ist also unterschiedlich, also heteroskedastisch. Wäre die Streuung der Residuen in allen Bereichen gleich, dann wäre sie homoskedastisch.

Testverfahren

Bekannte Verfahren, um die Nullhypothese „Homoskedastizität liegt vor“ zu überprüfen, sind der Goldfeld-Quandt-Test, der White-Test, der Levene-Test, der Glejser-Test, der RESET-Test nach Ramsey und der Breusch-Pagan-Test.

Literatur

  • J. Wooldridge: Introductory Econometrics. A Modern Approach. 5. Auflage. Mason, Ohio 2013, ISBN 978-1-111-53439-4.
  • M.-W. Stoetzer: Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung. Band 1: Eine nichtmathematische Einführung mit SPSS und Stata. Berlin 2017, ISBN 978-3-662-53823-4, S. 135–147.

Einzelnachweise

  1. Jeffrey Wooldridge: Introductory Econometrics. A Modern Approach. 5. Auflage. South-Western, Cengage Learning, Mason, Ohio 2013, ISBN 978-1-111-53439-4, S. 849.
  2. Lothar Sachs, Jürgen Hedderich: Angewandte Statistik: Methodensammlung mit R. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2018, ISBN 978-3-662-56657-2, S. 814.
  3. Lothar Sachs, Jürgen Hedderich: Angewandte Statistik: Methodensammlung mit R. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2018, ISBN 978-3-662-56657-2, S. 813.
  4. Jeffrey Wooldridge: Introductory Econometrics. A Modern Approach. 5. Auflage. South-Western, Cengage Learning, Mason, Ohio 2013, ISBN 978-1-111-53439-4, S. 49–54.