Empirische Varianz

Formelzeichen
Mittelwert der Grundgesamtheit
Varianz der Grundgesamtheit
Anzahl der gegebenen Werte
Zufallsvariablen (Zufallsgrößen)
Stichprobe: beobachtete Werte der Zufallsvariablen
Stichprobenmittel / empirischer Mittelwert von
Stichprobenvarianz / empirische Varianz von
Stichprobenmittel (als Funktion der Zufallsvariablen)
Stichprobenvarianz (als Funktion der Zufallsvariablen)

Die empirische Varianz[1], auch Stichprobenvarianz[2] (veraltet: empirisches Streuungsquadrat) oder einfach nur kurz Varianz genannt, ist eine statistische Angabe für die Streubreite von konkreten (empirisch erhobenen) Werten einer Stichprobe.

Bei der empirischen Varianz handelt sich um einen Begriff aus der beschreibenden (deskriptiven) Statistik für die Varianz. Sie gehört zu den Streuungsmaßen und beschreibt die mittlere quadratische Abweichung der einzelnen Messwerte vom empirischen Mittelwert. Sie stellt damit eine Art durchschnittliches Abweichungsquadrat dar.

Die Wurzel der empirischen Varianz ist die empirische Standardabweichung. Die empirische Standardabweichung stellt das gebräuchlichste Streuungsmaß dar. Sie ist anschaulicher als die Varianz, da sie dieselbe Größenordnung hat, wie die beobachteten Werte.

Die empirische Varianz ist jedoch in weitergehenden Berechnungen oft praktischer als die Standardabweichung: So können beispielsweise Varianzbeiträge von mehreren unabhängigen Zufallseinflüssen einfach addiert werden. Umgekehrt lässt sich durch eine Varianzanalyse eine Gesamtvarianz oft auch in ihre Beiträge (Ursachen) zerlegen.

Die Bezeichnung „Varianz“ leitet sich von lateinisch variantia = „Verschiedenheit“ bzw. variare = „(ver)ändern, verschieden sein“ ab.

Definition

Varianz der Grundgesamtheit

Die Varianz einer endlichen Grundgesamtheit (Population) mit Datenwerten ist ein Maß für die Streuung der einzelnen -Werte, um den Populationsmittelwert und ist definiert als

mit dem Populationsmittelwert .

Da sie in praktischen Situationen unbekannt ist und dennoch berechnet werden muss, wird oft die empirische Varianz herangezogen. Dies ist vor allem notwendig, wenn es in großen Populationen nicht möglich ist, jedes einzelne Subjekt in der Population zu zählen.

Empirische Varianz

Gegeben sei eine Stichprobe mit numerischen Werten . Es bezeichne

den empirischen Mittelwert der Stichprobe. Dieser empirische Mittelwert ist ein Schätzer für den Populationsmittelwert .

Die empirische Varianz kann damit auf folgende Arten berechnet werden:

Zunächst werden die Abweichungen der beobachteten reellen Werte der Stichprobe von ihrem arithmetischen Mittel gebildet. Summiert man die Quadrate dieser Abweichungen erhält man die sogenannte Abweichungsquadratsumme .

Am gebräuchlichsten ist die Berechnung der empirischen Varianz der Stichprobenwerte als Summe der Abweichungsquadrate geteilt durch die Anzahl der Freiheitsgrade :[2]

 
 
 (1)
 

Alternativ wird die empirische Varianz berechnet als Summe der Abweichungsquadrate geteilt durch die Anzahl der Werte :[3]

 
 
 (2)
 

Für den Sonderfall, dass der Mittelwert der Grundgesamtheit bekannt ist, wird die Varianz mit folgender Formel berechnet:[4]

 
 
 (3)
 

Erläuterung

Die empirische Varianz ist ein Schätzer für die Populationsvarianz basierend auf konkreten (empirisch erhobenen) Werten. Direkt aus der Definition folgt der Zusammenhang zwischen den Ergebnissen nach Formel (1) und (2):

Intuitiv lässt sich die Mittelung durch in Formel (1) statt durch wie folgt erklären: Aufgrund der Schwerpunkteigenschaft des empirischen Mittels ist die letzte Abweichung bereits durch die ersten bestimmt. Folglich variieren nur Abweichungen frei und man mittelt deshalb, indem man durch die Anzahl der Freiheitsgrade dividiert.[5]

Formel (1) wird auch korrigierte empirische Varianz oder korrigierte Stichprobenvarianz genannt[6][7]. Der Vorsatz "korrigierte ..." bezieht sich auf den Faktor , der auch als Bessel-Korrektur[8] bezeichnet wird.

Es ist bemerkenswert, dass es umfangreiche mathematische und statistische Handbücher[9][10][11] gibt, die die Formel (2) nicht erwähnen. Es ist umstritten,[12] ob Formel (2) auf Stichproben angewendet werden sollte, da es ja auch eine „korrigierte Stichprobenvarianz“ (1) gibt, die den Vorteil hat, dass sie im Sinne der schließenden Statistik erwartungstreu ist.

Formel (3) und (1) unterscheiden sich darin, dass bei Formel (3) die Berechnung des arithmetischen Mittels entfällt, weil der Mittelwert der Grundgesamtheit bekannt ist. Auch diese Formel ist erwartungstreu im Sinne der schließenden Statistik. Da für Formel (3) kein arithmetisches Mittel berechnet wird geht kein Freiheitsgrad bei der Berechnung verloren und es wird nur durch n geteilt.

Wird nur von „der“ empirischen Varianz gesprochen, so muss daher darauf geachtet werden, welche Konvention beziehungsweise Definition im entsprechenden Kontext gilt. Weder die Benennungen noch die entsprechende Notation ist in der Literatur einheitlich:

  • Der Begriff empirische Varianz wird von einigen Autoren nur für die unkorrigierte Varianz verwendet. Und der Begriff Stichprobenvarianz wird dann nur für die korrigierte Varianz verwendet.[5]
  • Manche Autoren unterscheiden zwischen der empirischen Varianz als mittlere quadratische Abweichung vom empirischen Mittelwert[13] und als theoretische Varianz oder induktive Varianz.[14]
  • wird auch als erwartungstreue Stichprobenvarianz (und als verzerrte Stichprobenvarianz) bezeichnet, weil ein erwartungstreuer Schätzer für die Varianz ist.[15]
  • Es findet sich für auch die Notation , hingegen wird auch mit oder bezeichnet.

Falls die Stichprobe keinerlei Variabilität aufweist, d. h. , dann ergibt sich eine Varianz von .

Empirische Varianz für Häufigkeitsdaten

In diesem Fall wird davon ausgegangen, dass die Stichprobenwerte nur konkrete Ausprägungen annehmen können. Das bedeutet: es bietet sich folgendes Vorgehen an:

  • Zuerst wird mit Hilfe einer größeren Stichprobe untersucht, wie häufig jede der Ausprägungen auftritt. Die Ergebnisse der Zählung sind die absolute Häufigkeiten der Ausprägungen, d. h. es die entsprechen der Anzahl des Auftretens von . Sie können in einer Häufigkeitstabelle zusammengefasst werden. Die Summe der ist gleich, wie die Anzahl der Stichprobenwerte .
  • Daraus werden die relativen Häufigkeiten (Wahrscheinlichkeiten für das Auftreten der jeweiligen Ausprägungen) berechnet.
  • Die Varianz ergibt sich schließlich aus den ermittelten Häufigkeitsdaten: den relativen Häufigkeiten der Ausprägungen und dem empirischen Mittelwert der Stichprobe.[5]
, mit
.

Rechenregeln

Verhalten bei Transformationen

Verschiebung der Daten um einen konstanten Wert c: Varianz ändert sich nicht

Also: Wenn , so gilt:

Begründung: Es ist und somit , woraus die Behauptung folgt.

Skalierung der Daten um einen Faktor , also : Varianz skaliert um den Faktor :

.
Begründung: Dies folgt wie oben durch direktes Nachrechnen.

Alternative Darstellungen

Darstellung als durchschnittliches Abweichungsquadrat

Die Varianz wird in der Varianzanalyse oft als „mittleres“ bzw. „durchschnittliches“ Abweichungsquadrat bezeichnet und ergibt sich dann aus die Division der Summe der Abweichungsquadrate SQ und der Anzahl Freiheitsgrade FG:[16]

.[17]

Bei einer mehrdimensionalen Varianzanalyse werden die mittleren Abweichungsquadrate der jeweiligen Variablen werden in einer sogenannten Varianzanalysetabelle zusammengefasst.

Darstellung mittels Verschiebungssatz

Eine weitere Darstellung erhält man aus Anwendung des Verschiebungssatzes:[18]

Diese Formel ist jedoch aus numerischer Sicht nachteilig, da unter Umständen zwei sehr große Werte voneinander abgezogen werden. Das kann zur Rechenungenauigkeiten führen, wenn die Darstellungsgenauigkeit der Gleitkommazahlen im Rechner nicht ausreichend ist.

Darstellung als Doppelsumme (ohne vorausgehende Berechnung des empirisches Mittels)

Eine Darstellung, die ohne die vorausgehende Berechnung des empirischen Mittels auskommt, ist:

Herleitung: Wenn man das arithmetische Mittel der Beobachtungswerte in den Summanden der Doppelsumme

addiert und abzieht (also Null einfügt), dann gilt

.

Dies ist äquivalent zu

.

Abgeleitete Begriffe

Empirische Standardabweichung

Als empirische Standardabweichung[1] auch Stichprobenstreuung[2] oder Stichprobenstandardabweichung[1] genannt, wird die Wurzel aus der empirischen Varianz bezeichnet:

oder

.

Die empirische Standardabweichung ist ebenfalls ein Maß dafür, wie weit die Stichprobe im Schnitt um den empirischen Mittelwert streut.

Im Gegensatz zur empirischen Varianz besitzt die empirische Standardabweichung dieselben Einheiten wie der empirische Mittelwert oder die Stichprobe selbst. Wie auch bei der empirischen Varianz ist die Benennung und Bezeichnung bei der empirischen Standardabweichung nicht einheitlich. Die empirische Standardabweichung sollte von der Standardabweichung im Sinne der Wahrscheinlichkeitstheorie unterschieden werden. Diese ist eine Kennzahl einer Wahrscheinlichkeitsverteilung oder der Verteilung einer Zufallsvariable, wohingegen die empirische Standardabweichung Kennzahl einer Stichprobe ist.

Empirischer Variationskoeffizient

Der empirische Variationskoeffizient ist ein dimensionsloses Streuungsmaß (nicht einheitenbehaftet) und drückt in Prozent des empirischen Mittelwerts aus.[19]

Annualisierte Varianz

In der Finanzmarkttheorie werden oft Varianzen bzw. Volatilitäten von Renditen berechnet. Diese Varianzen müssen, wenn sie auf täglichen Daten beruhen annualisiert werden, d. h. auf ein Jahr hochgerechnet werden. Dies geschieht mittels eines Annualisierungfaktors (pro Jahr gibt es etwa Handelstage). Die Volatilität lässt sich somit schätzen als Wurzel aus der annualisierten Varianz

.

Beispiel

Gegeben sei die Stichprobe

,

es ist also . Für den empirischen Mittelwert ergibt sich

.

Bei stückweiser Berechnung ergibt sich dann die Abweichungsquadratsumme

.

Mit Formel (1) erhält man

wohingegen Formel (2)

liefert.

Jetzt nehmen wir an, dass der Mittelwert der Grundgesamtheit, aus der die Stichprobe entnommen wurde, vorab bekannt sei:

Dann findet Formel (3) Anwendung:

.

Die entsprechenden empirischen Standardabweichungen ergeben sich zu:

Herkunft der verschiedenen Definitionen

Die empirische Varianz, ist ein Streuungsmaß um den Mittelwert der Datenwerte. Die gegebenen Werte sind .

Ein erster Ansatz wäre es, die Differenz der Werte vom empirischen Mittel einfach aufzusummieren. Dies führt zu

Dies ergibt allerdings stets 0, weil sich positive und negative Summanden gegenseitig aufheben (Schwerpunkteigenschaft), ist also nicht geeignet zur Quantifizierung der Varianz. Um einen Wert für die Varianz größer oder gleich 0 zu erhalten, kann man beispielsweise mit den Beträgen der Differenzen rechnen, also die Summe der absoluten Abweichungen

betrachten, oder aber quadrieren, also die Quadratsumme

bilden. Damit können sich die Abweichungen nicht mehr gegenseitig aufheben.

Um das Streuungsmaß unabhängig von der Anzahl der Messwerte in der Stichprobe zu machen, wird noch durch die Anzahl der Werte dividiert. Ergebnis dieses pragmatisch hergeleiteten Streuungsmaßes ist die mittlere quadratische Abweichung vom empirischen Mittelwert oder die oben definierte Varianz .

Diese Definition von hat den Nebeneffekt, dass größere Abweichungen vom empirischen Mittelwert stärker gewichtet werden. Dadurch schlagen einzelne Ausreißer in den Daten stärker zu Buche.

Die Definition von hat ihre Wurzeln in der Schätztheorie. Dort wird

als erwartungstreue Schätzfunktion für die unbekannte Varianz einer Wahrscheinlichkeitsverteilung verwendet. Dies gilt aufgrund folgenden Satzes: Seien unabhängig und identisch verteilte Zufallsvariablen mit und , dann gilt . Daher ist also ein Schätzer für die unbekannte Populationsvarianz .

Geht man nun von den Zufallsvariablen zu den Realisierungen über, so erhält man aus der abstrakten Schätzfunktion den Schätzwert . Das Verhältnis von zu entspricht somit dem Verhältnis einer Funktion zu ihrem Funktionswert an einer Stelle .

Somit kann als ein praktisch motiviertes Streuungsmaß in der deskriptiven Statistik angesehen werden, wohingegen eine Schätzung für eine unbekannte Varianz in der induktiven Statistik ist. Diese unterschiedlichen Ursprünge rechtfertigen die oben angeführte Sprechweise für als empirische Varianz und für als induktive Varianz oder theoretische Varianz. Zu bemerken ist, dass sich auch als Schätzwert einer Schätzfunktion interpretieren lässt. So erhält man bei Anwendung der Momentenmethode als Schätzfunktion für die Varianz

.

Ihre Realisierung entspricht . Jedoch wird meist nicht verwendet, da sie gängige Qualitätskriterien nicht erfüllt. Dieser Schätzer ist nicht erwartungstreu, wegen

.

Literatur

  • Behrends 2013 – Ehrhard Behrends: Elementare Stochastik. Ein Lernbuch – von Studierenden mitentwickelt. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-8348-1939-0.
  • Beyer 1988 – Otfried Beyer, Horst Hackel, Volkmar Pieper, Jürgen Tiedge: Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. B. G. Teubner, Leipzig 1988, ISBN 3-322-00469-4.
  • Bronstein 2020 – I. N. Bronstein, K. A. Semendjajew, G. Musiol, H. Mühlig: Taschenbuch der Mathematik. 11. Auflage. Verlag Europa-Lehrmittel Nourney, Vollmer GmbH & Co. KG, Haan-Gruiten 2020, ISBN 978-3-8085-5792-1.
  • Cleff 2015 – Thomas Cleff: Deskriptive Statistik und Explorative Datenanalyse. Eine computergestützte Einführung mit Excel, SPSS und STATA. 3. Auflage. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5.
  • Duden 2020 – Harald Scheid: Duden: Rechnen und Mathematik. 6. Auflage. Bibliographisches Institut & F.A. Brockhaus AG, Mannheim 2020, ISBN 978-3-411-05346-9.
  • Fahrmeir 2016 – Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8. Auflage. Springer Verlag, Berlin / Heidelberg 2016, ISBN 978-3-662-50371-3.
  • Hartung 2005 – Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener: Statistik. Lehr- und Handbuch der angewandten Statistik. 14. Auflage. R. Oldenbourg Verlag, München / Wien 2005, ISBN 3-486-57890-1.
  • Henze 2013 – Norbert Henze: Stochastik für Einsteiger. Eine Einführung in die faszinierende Welt des Zufalls. 10. Auflage. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-658-03076-6.
  • Kabluchko 2017 – Zakhar Kabluchko: Mathematische Statistik - Skript zur Vorlesung. Münster 2017 (uni-muenster.de [PDF; abgerufen am 1. Februar 2022]).
  • Kosfeld 2016 – Reinhold Kosfeld, Hans Friedrich Eckey, Matthias Türck: Deskriptive Statistik. Grundlagen – Methoden – Beispiele – Aufgaben. 6. Auflage. Springer Gabler, Wiesbaden 2016, ISBN 978-3-658-13639-0.
  • Toutenburg 2008 – Helge Toutenburg, Christian Heumann: Deskriptive Statistik. 8. Auflage. Springer-Verlag, Berlin/Heidelberg 2008, ISBN 978-3-540-77787-8.

Einzelnachweise

  1. a b c Henze 2013: S. 31ff
  2. a b c Behrends 2013: S. 274f
  3. Cleff 2015: S. 56
  4. Hartung 2005: S. 153f
  5. a b c Fahrmeir 2016: Kapitel 2.2.3 Standardabweichung, Varianz und Variationskoeffizient
  6. Beyer 1988
  7. Kabluchko 2017, Kapitel 1.4: Empirische Varianz
  8. Kabluchko 2017, Kapitel 1.4: Empirische Varianz
  9. Bronstein 2020
  10. Hartung 2005
  11. Duden 2020: Varianz
  12. FernUni Hagen 2020: Empirische vs Stichprobenvarianz. In: YouTube. FernUni Hagen: https://www.statstutor.de/, 19. April 2020, abgerufen am 1. Februar 2022.
  13. Toutenburg 2008: S. 75
  14. Cleff 2015: S. 255
  15. Kapitel 10: Erwartungstreue Schätzer (PDF-Datei), www.alt.mathematik.uni-mainz.de, abgerufen am 31. Dezember 2018
  16. Werner Timischl: Angewandte Statistik. Eine Einführung für Biologen und Mediziner. 2013, 3. Auflage, S. 109.
  17. Lothar Sachs: Statistische Auswertungsmethoden, S. 400.
  18. Kosfeld 2016
  19. Beyer 1988: Kapitel 3.1.1.3. Statistische Maßzahlen, S. 120