„Empirische Varianz“ – Versionsunterschied

[gesichtete Version][gesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
→‎Berechnung der empirischen Varianz: Umstellungen für leichtere Lesbarkeit
→‎Literatur: + int. Link
 
(19 dazwischenliegende Versionen von 9 Benutzern werden nicht angezeigt)
Zeile 30: Zeile 30:
| Daten9 = Stichprobenvarianz (als Funktion der Zufallsvariablen)
| Daten9 = Stichprobenvarianz (als Funktion der Zufallsvariablen)
}}
}}
Die '''empirische Varianz'''<ref name=":1">Henze 2013: S. 31ff</ref><ref name=":22" />, auch '''Stichprobenvarianz<ref name=":22" />'''<ref name=":4">Behrends 2013: S. 274f</ref> (veraltet: ''empirisches Streuungsquadrat'') oder einfach nur kurz '''[[Varianz]]''' genannt, ist eine [[Statistik|statistische]] Angabe für die [[Streuungsmaß (Statistik)|Streubreite]] von konkreten ([[Empirie|empirisch]] erhobenen) Werten einer [[Stichprobe]].
Die '''empirische Varianz'''<ref name=":1">Henze 2013: S. 31ff</ref><ref name=":22" />, auch '''Stichprobenvarianz<ref name=":22" />'''<ref name=":4">Behrends 2013: S. 274f</ref> (veraltet: ''empirisches Streuungsquadrat'') oder einfach nur kurz ''[[Varianz]]'' genannt, ist ein [[Streuungsmaß (Statistik)|Maß für die Streuung]] von konkreten ([[Empirie|empirisch]] erhobenen) Werten einer [[Stichprobe]].


Bei der ''empirischen Varianz'' handelt sich um einen Begriff aus der [[Deskriptive Statistik|beschreibenden (deskriptiven) Statistik]] für die Varianz. Sie gehört zu den [[Streuungsmaß (Statistik)|Streuungsmaßen]] und beschreibt die ''mittlere quadratische Abweichung'' der einzelnen Werte vom [[Arithmetisches Mittel|empirischen Mittelwert]]. Sie entspricht damit dem [[durchschnittliches Abweichungsquadrat|"durchschnittlichen Abweichungsquadrat]]".
Bei der empirischen Varianz handelt sich um einen Begriff aus der [[Deskriptive Statistik|beschreibenden (deskriptiven) Statistik]] für die Varianz. Sie gehört zu den [[Streuungsmaß (Statistik)|Streuungsmaßen]] und beschreibt die [[mittlere quadratische Abweichung]] der einzelnen Werte vom [[Arithmetisches Mittel|empirischen Mittelwert]]. Sie entspricht damit dem [[Summe der Abweichungsquadrate|durchschnittlichen Abweichungsquadrat]].


Die Wurzel der empirischen Varianz ist die '''empirische Standardabweichung<ref name=":22" />'''. Die empirische Standardabweichung stellt das gebräuchlichste Streuungsmaß dar. Sie ist anschaulicher als die Varianz, da sie dieselbe Größenordnung hat, wie die beobachteten Werte.
Die Wurzel der empirischen Varianz ist die '''empirische Standardabweichung'''.<ref name=":22" /> Die empirische Standardabweichung stellt das gebräuchlichste Streuungsmaß dar. Sie ist anschaulicher als die Varianz, da sie dieselbe Größenordnung hat wie die beobachteten Werte.


Die empirische Varianz ist jedoch in weitergehenden Berechnungen oft praktischer als die Standardabweichung: So können beispielsweise Varianzbeiträge von mehreren unabhängigen Zufallseinflüssen einfach addiert werden. Umgekehrt lässt sich durch eine [[Varianzanalyse]] eine Gesamtvarianz oft auch in ihre Beiträge (Ursachen) zerlegen.
Die empirische Varianz ist jedoch in weitergehenden Berechnungen oft praktischer als die Standardabweichung: So können beispielsweise Varianzbeiträge von mehreren unabhängigen Zufallseinflüssen einfach addiert werden. Umgekehrt lässt sich durch eine [[Varianzanalyse]] eine Gesamtvarianz oft auch in ihre Beiträge (Ursachen) zerlegen.

Die Bezeichnung „Varianz“ leitet sich von {{laS}} ''variantia'' = „Verschiedenheit“ bzw. ''variare'' = „(ver)ändern, verschieden sein“ ab.


== Voraussetzungen ==
== Voraussetzungen ==
=== Varianz der Grundgesamtheit ===
=== Varianz der Grundgesamtheit ===
Die Varianz einer endlichen [[Grundgesamtheit]] (Population) mit <math>N</math> reellen Datenwerten ist ein Maß für die Streuung der einzelnen <math> x_i</math>-Werte, <math>i \in \{1,2, \ldots, N\}</math> um den Populationsmittelwert <math> \mu </math> und ist definiert als
Die Varianz einer endlichen [[Grundgesamtheit]] (Population) mit <math>N</math> reellen Datenwerten ist ein Maß für die Streuung der einzelnen <math>x_i</math>-Werte, <math>i \in \{1,2, \ldots, N\}</math> um den Populationsmittelwert <math>\mu</math> und ist definiert als


:<math>\sigma^2= \frac{1}{N} \sum \limits_{i=1}^N(x_i-\mu)^2 </math>
:<math>\sigma^2= \frac{1}{N} \sum \limits_{i=1}^N(x_i-\mu)^2</math>
Der Populationsmittelwert ist das [[Arithmetisches Mittel|arithmetische Mittel]] der Datenwerte
Der Populationsmittelwert ist das [[Arithmetisches Mittel|arithmetische Mittel]] der Datenwerte
:<math> \mu = \frac 1N \sum_{i=1}^N x_i </math>.
:<math>\mu = \frac 1N \sum_{i=1}^N x_i</math>.


Die Varianz der Grundgesamtheit in praktischen Situationen häufig unbekannt, beispielsweise, weil es nicht möglich ist, jedes einzelne [[Merkmalsträger|Subjekt]] in der Population zu erfassen (Vollerhebung). Um die Varianz zu ermitteln werden daher empirisch Stichproben erhoben. Das führt zu den Begriffen empirische Varianz oder auch Stichprobenvarianz.
Die Varianz der Grundgesamtheit ist in praktischen Situationen häufig unbekannt, beispielsweise, weil es nicht möglich ist, jedes einzelne [[Merkmalsträger|Subjekt]] in der Population zu erfassen (Vollerhebung). Um die Varianz zu ermitteln, werden daher empirisch Stichproben erhoben. Das führt zu den Begriffen ''empirische Varianz'' oder auch ''Stichprobenvarianz''.


=== Empirischer Mittelwert ===
=== Empirischer Mittelwert ===
Gegeben sei eine [[Stichprobe]] mit <math> n < N</math> reellen numerischen Werten <math> x_1, x_2, \dots, x_n </math>. Es bezeichne
Gegeben sei eine [[Stichprobe]] mit <math>n < N</math> reellen numerischen Werten <math>x_1, x_2, \dots, x_n</math>. Es bezeichne
:<math> \overline x := \frac{1}{n} (x_1 + x_2 + \ldots + x_n)=\frac1n \sum_{i=1}^n{x_i}</math>
:<math>\overline x := \frac{1}{n} (x_1 + x_2 + \ldots + x_n)=\frac1n \sum_{i=1}^n{x_i}</math>


den [[Arithmetisches Mittel|empirischen Mittelwert]] der Stichprobe. Dieser empirische Mittelwert <math> \overline x </math> ist ein Schätzer für den Populationsmittelwert <math> \mu </math>.
den [[Arithmetisches Mittel|empirischen Mittelwert]] der Stichprobe. Dieser empirische Mittelwert <math>\overline x</math> ist ein [[Schätzfunktion|Schätzer]] für den Populationsmittelwert <math>\mu</math>.


== Berechnung der empirischen Varianz ==
== Berechnung der empirischen Varianz ==
Zunächst werden die Abweichungen der beobachteten reellen Werte <math>x_1,\ldots, x_n</math> der Stichprobe von ihrem [[Arithmetisches Mittel|arithmetischen Mittel]] <math>(x_1 - \overline{x}),\ldots, (x_n - \overline{x})</math> gebildet. Summierung und Quadrierung ergibt die sogenannte [[Abweichungsquadratsumme]] <math>\sum\nolimits_{i=1}^n (x_i - \overline x)^2</math>.
Zunächst werden die Abweichungen der beobachteten reellen Werte <math>x_1,\ldots, x_n</math> der Stichprobe von ihrem [[Arithmetisches Mittel|arithmetischen Mittel]] <math>(x_1 - \overline{x}),\ldots, (x_n - \overline{x})</math> gebildet. Summierung und Quadrierung ergibt die sogenannte [[Abweichungsquadratsumme]] <math>\sum\nolimits_{i=1}^n (x_i - \overline x)^2</math>.


Die Verwendung der Abweichungsquadratsumme führt zu folgenden Eigenschaften der emprischen Varianz:
Die Verwendung der Abweichungsquadratsumme führt zu folgenden Eigenschaften der empirischen Varianz:


* Positive und negative Abweichungen vom Mittelwert heben sich bei der Summierung nicht gegenseitig auf.
* Positive und negative Abweichungen vom Mittelwert heben sich bei der Summierung nicht gegenseitig auf.
Zeile 68: Zeile 66:
'''Die empirische Varianz kann damit auf folgende Arten berechnet werden:'''
'''Die empirische Varianz kann damit auf folgende Arten berechnet werden:'''


Am gebräuchlichsten ist die Berechnung der empirischen Varianz der Stichprobenwerte als [[Summe der Abweichungsquadrate]] geteilt durch die [[Anzahl der Freiheitsgrade (Statistik)|Anzahl der Freiheitsgrade]] <math> (n-1)</math>:<ref name=":4" />{{NumBlk|:|<math>s^2 := \frac{1}{n-1} \sum \limits_{i=1}^n\left(x_i-\overline x\right)^2 \quad </math>|1|LnSty=}}
Am gebräuchlichsten ist die Berechnung der empirischen Varianz der Stichprobenwerte als [[Summe der Abweichungsquadrate]] geteilt durch die [[Anzahl der Freiheitsgrade (Statistik)|Anzahl der Freiheitsgrade]] <math>(n-1)</math>:<ref name=":4" />{{NumBlk|:|<math>s^2 = \frac{1}{n-1} \sum \limits_{i=1}^n\left(x_i-\overline x\right)^2 \quad</math>|1|LnSty=}}


Formel (1) wird auch '''korrigierte empirische Varianz''' oder '''korrigierte Stichprobenvarianz''' genannt<ref>Beyer 1988</ref><ref name=":22">Kabluchko 2017, Kapitel 1.4: Empirische Varianz</ref>. Der Vorsatz "korrigierte ..." bezieht sich auf den Faktor <math>1/(n-1)</math>, der auch als ''Bessel-Korrektur''<ref name=":2">Kabluchko 2017, Kapitel 1.4: Empirische Varianz</ref> bezeichnet wird. Die Korrektur führt dazu, dass <math> s^2 </math> ein [[Erwartungstreue|erwartungstreuer]] Schätzer für die Populationsvarianz <math> \sigma^2 </math> ist.
Formel (1) wird auch '''korrigierte empirische Varianz''' oder '''korrigierte Stichprobenvarianz''' genannt<ref>Beyer 1988</ref><ref name=":22">Kabluchko 2017, Kapitel 1.4: Empirische Varianz</ref>. Der Vorsatz „korrigierte ... bezieht sich auf den Faktor <math>1/(n-1)</math>, der auch als ''[[Stichprobenvarianz (Schätzfunktion)#Bessel-Korrektur|Bessel-Korrektur]]'' bezeichnet wird.<ref name=":2">Kabluchko 2017, Kapitel 1.4: Empirische Varianz</ref> Die Korrektur führt dazu, dass <math>s^2</math> ein [[Erwartungstreue|erwartungstreuer]] Schätzer für die Populationsvarianz <math>\sigma^2</math> ist: Das bedeutet, dass der Schätzfehler <math>s^2 - \sigma^2</math> immer kleiner wird und gegen Null strebt, wenn das Ergebnis der Varianzberechnung über eine steigende Anzahl verschiedener Stichproben gemittelt wird.


Alternativ wird die empirische Varianz berechnet als [[Summe der Abweichungsquadrate]] geteilt durch die Anzahl der Werte <math> n</math>:<ref>Cleff 2015: S. 56</ref>{{NumBlk|:|<math>\tilde s^2 := \frac{1}{n}\sum \limits_{i=1}^n\left(x_i-\overline x\right)^2</math>|2|LnSty=}}
Alternativ wird die empirische Varianz (nicht erwartungstreu) berechnet als [[Summe der Abweichungsquadrate]] geteilt durch die Anzahl der Werte <math>n</math>:<ref>Cleff 2015: S. 56</ref>{{NumBlk|:|<math>\tilde s^2 = \frac{1}{n}\sum \limits_{i=1}^n\left(x_i-\overline x\right)^2</math>|2|LnSty=}}


Für den Sonderfall, dass der Mittelwert der [[Grundgesamtheit]] <math>\mu</math> bekannt ist, wird die Varianz mit folgender Formel berechnet, die ebenfalls einen erwartungstreuen Schätzer darstellt:<ref>Hartung 2005: S. 153f</ref>{{NumBlk|:|<math>{s^*}^2=\tfrac1n \sum_{i=1}^n (x_i - \mu)^2</math>|3}}
Für den Sonderfall, dass der Mittelwert der [[Grundgesamtheit]] <math>\mu</math> bekannt ist, wird die Varianz mit folgender Formel berechnet, die ebenfalls einen erwartungstreuen Schätzer darstellt:<ref>Hartung 2005: S. 153f</ref>{{NumBlk|:|<math>{s^*}^2=\frac1n \sum_{i=1}^n (x_i - \mu)^2</math>|3|LnSty=}}


'''Weitere Erläuterung zu den Berechnungsarten'''


'''Weitere Erläuterungen zu den Berechnungsarten'''

Direkt aus der Definition folgt der Zusammenhang zwischen den Ergebnissen nach Formel (1) und (2):
:<math> \tilde s^2= \frac{n-1}{n} s^2 </math>
:<math> s^2= \frac{n}{n-1}\tilde s^2 </math>


Intuitiv lässt sich die Mittelung durch <math>(n-1)</math> in Formel (1) statt durch <math>n</math> wie folgt erklären:
Intuitiv lässt sich die Mittelung durch <math>(n-1)</math> in Formel (1) statt durch <math>n</math> wie folgt erklären:


Aufgrund der [[Arithmetisches Mittel#Schwerpunkteigenschaft|Schwerpunkteigenschaft des empirischen Mittels]] <math>\sum\nolimits_{i=1}^n \left(x_i - \bar{x}\right)=0</math> ist die letzte Abweichung <math>\left(x_n-\overline x\right)</math> bereits durch die ersten <math>(n-1)</math> bestimmt. Folglich variieren nur <math>(n-1)</math> Abweichungen frei. D.h. man mittelt deshalb, indem man durch die [[Anzahl der Freiheitsgrade (Statistik)|Anzahl der Freiheitsgrade]] <math>(n-1)</math> dividiert. Besonders augenscheinlich wird das, wenn man den Fall <math>n=2</math> betrachtet: Bei 2 Datenwerten gibt es nur 1 Unterschied zwischen den Daten. Und mit einer Stichprobe mit <math>n=1</math> kann man keine Aussage über die Varianz einer Grundgesamtheit machen.
Bei Formel (1) geht es um die Schätzung der Varianz der Grundgesamtheit, aus der die Stichprobe entnommen wurde. Aufgrund der [[Arithmetisches Mittel#Schwerpunkteigenschaft|Schwerpunkteigenschaft des empirischen Mittels]] <math>\sum\nolimits_{i=1}^n \left(x_i - \bar{x}\right)=0</math> ist die letzte Abweichung <math>\left(x_n-\overline x\right)</math> bereits durch die ersten <math>(n-1)</math> bestimmt. Folglich variieren nur <math>(n-1)</math> Abweichungen frei. D.h. man mittelt deshalb, indem man durch die [[Anzahl der Freiheitsgrade (Statistik)|Anzahl der Freiheitsgrade]] <math>(n-1)</math> dividiert. Besonders augenscheinlich wird das, wenn man den Fall <math>n=2</math> betrachtet: Bei 2 Datenwerten gibt es nur 1 Unterschied zwischen den Daten. Und mit einer Stichprobe mit <math>n=1</math> kann man gar keine Aussage über die Varianz einer Grundgesamtheit machen.


Diese Plausibilitätserklärung wird im Rahmen der induktiven Statistik formalisiert.<ref name=":0">Fahrmeir 2016: Kapitel 2.2.3 Standardabweichung, Varianz und Variationskoeffizient</ref> (→&nbsp;[[Stichprobenvarianz (Schätzfunktion)]])
Diese Plausibilisierung wird im Rahmen der induktiven Statistik formalisiert.<ref name=":0">Fahrmeir 2016: Kapitel 2.2.3 Standardabweichung, Varianz und Variationskoeffizient</ref> (→&nbsp;[[Stichprobenvarianz (Schätzfunktion)]])


Die Idee dieser Formel (2) ist eine andere: Hier geht es nicht um eine Aussage über eine "Grundgesamtheit", sondern darum, den Datensatz möglichst genau durch eine [[Normalverteilung]] zu beschreiben: D.h. die Parameter der Normalverteilung <math>\mu</math> und <math>\sigma</math> werden so bestimmt, dass der quadratische Fehler der gegebenen Daten relativ zur Verteilungsfunktion der Normalverteilung minimal ist.<ref>{{Internetquelle |autor=Kunyu He |url=https://towardsdatascience.com/statistics-in-ml-estimating-population-variance-1f484184f247 |titel=Statistics in ML: Why Sample Variance Divided by n Is Still a Good Estimator |datum=2020-05-18 |sprache=en |abruf=2022-05-09}}</ref> Das ist der Fall für <math>\mu=\overline{x}</math> und <math>\sigma=\tilde{s}</math>. Formel (2) liefert in diesem Sinne bessere Ergebnisse als Formel (1), und sie sollte nur angewendet werden, wenn diese Eigenschaft wirklich erforderlich ist.<ref name=":3">FernUni Hagen 2020: {{Internetquelle |url=https://www.youtube.com/watch?v=uUp745p-CoM |titel=Empirische vs Stichprobenvarianz |werk=YouTube |hrsg=FernUni Hagen: https://www.statstutor.de/ |datum=2020-04-19 |abruf=2022-02-01}}</ref> Formel (2) ist kein erwartungstreuer Schätzer: D.h. wenn das Ergebnis über viele Stichproben gemittelt wird, dann strebt das Ergebnis nicht gegen den wahren Wert für die Varianz der Grundgesamtheit. Formel (2) liefert im Mittel zu kleine Ergebnisse und wird daher seltener angewendet. Es ist bemerkenswert, dass es umfangreiche mathematische und statistische Handbücher<ref>Bronstein 2020</ref><ref name=":12">Hartung 2005</ref><ref>Duden 2020: Varianz</ref> gibt, die die Formel (2) nicht erwähnen.
Die Idee von Formel (2) ist eine andere: Hier geht es nicht um eine Aussage über eine „Grundgesamtheit“ mit Hilfe einer Stichprobe, sondern darum, den Datensatz möglichst genau durch eine [[Normalverteilung]] zu beschreiben: D.h. die Parameter der Normalverteilung <math>\mu</math> und <math>\sigma</math> werden so bestimmt, dass der quadratische Fehler der gegebenen Daten relativ zur Verteilungsfunktion der Normalverteilung minimal ist.<ref>{{Internetquelle |autor=Kunyu He |url=https://towardsdatascience.com/statistics-in-ml-estimating-population-variance-1f484184f247 |titel=Statistics in ML: Why Sample Variance Divided by n Is Still a Good Estimator |datum=2020-05-18 |sprache=en |abruf=2022-05-09}}</ref> Das ist der Fall für <math>\mu=\overline{x}</math> und <math>\sigma=\tilde{s}</math>. Formel (2) liefert in diesem Sinne bessere Ergebnisse als Formel (1), und sie sollte angewendet werden, wenn diese Eigenschaft erforderlich ist.<ref name=":3">FernUni Hagen 2020: {{Internetquelle |url=https://www.youtube.com/watch?v=uUp745p-CoM |titel=Empirische vs Stichprobenvarianz |werk=YouTube |hrsg=FernUni Hagen: https://www.statstutor.de/ |datum=2020-04-19 |abruf=2022-02-01}}</ref> Formel (2) ist aber kein erwartungstreuer Schätzer: D.h. wenn das Ergebnis über viele Stichproben gemittelt wird, dann strebt das Ergebnis nicht gegen den wahren Wert für die Varianz der Grundgesamtheit. Formel (2) liefert im Mittel zu kleine Ergebnisse und wird daher seltener angewendet. Es ist bemerkenswert, dass es umfangreiche mathematische und statistische Handbücher<ref>Bronstein 2020</ref><ref name=":12">Hartung 2005</ref><ref>Duden 2020: Varianz</ref> gibt, die die Formel (2) nicht erwähnen.


Formel (2) wird in der mathematischen Statistik begründet, z.&nbsp;B. durch Anwendung der [[Maximum-Likelihood-Methode]], oder der [[Momentenmethode]].
Formel (2) wird in der mathematischen Statistik begründet, z.&nbsp;B. durch Anwendung der [[Maximum-Likelihood-Methode]], oder der [[Momentenmethode]].


Formel (3) und (1) unterscheiden sich darin, dass bei Formel (3) die Berechnung des arithmetischen Mittels entfällt, weil der Mittelwert der Grundgesamtheit bekannt ist. Auch diese Formel ist erwartungstreu im Sinne der schließenden Statistik. Da für Formel (3) kein arithmetisches Mittel berechnet wird geht kein Freiheitsgrad bei der Berechnung verloren und es wird nur durch ''n'' geteilt.
Formel (3) und (1) unterscheiden sich darin, dass bei Formel (3) die Berechnung des arithmetischen Mittels entfällt, weil der Mittelwert der Grundgesamtheit bekannt ist. Auch diese Formel ist erwartungstreu im Sinne der schließenden Statistik. Da für Formel (3) kein arithmetisches Mittel berechnet wird geht kein Freiheitsgrad bei der Berechnung verloren und es wird nur durch ''n'' geteilt.

Formel (3) kann man ebenfalls plausibilisieren, wenn man den Fall <math>n=2</math> betrachtet: Bei 2 Datenwerten gibt es 2 Unterschiede im Vergleich zum vorbekannten Mittelwert <math>\mu</math>. Daher wird in diesem Fall durch 2 geteilt.

Im Falle einer [[Vollerhebung]] aller Daten der Population sind die Formeln (2) und (3) gleichwertig, da in diesem Fall der Populationsmittelwert bereits aus den vorliegenden Daten bekannt ist: <math>\mu=\overline{x}</math>.


Wird nur von „der“ empirischen Varianz gesprochen, so muss daher darauf geachtet werden, welche Konvention beziehungsweise Definition im entsprechenden Kontext gilt. Weder die Benennungen noch die entsprechende Notation ist in der Literatur einheitlich:
Wird nur von „der“ empirischen Varianz gesprochen, so muss daher darauf geachtet werden, welche Konvention beziehungsweise Definition im entsprechenden Kontext gilt. Weder die Benennungen noch die entsprechende Notation ist in der Literatur einheitlich:


* Der Begriff ''empirische Varianz'' wird von einigen Autoren nur für die unkorrigierte Varianz <math>\tilde s^2</math> verwendet. Und der Begriff ''Stichprobenvarianz'' wird in diesem Fall nur für die korrigierte Varianz <math>s^2</math> verwendet.<ref name=":0" />
* Die Bezeichnung ''empirische Varianz'' wird von einigen Autoren nur für die unkorrigierte Varianz <math>\tilde s^2</math> verwendet. Der Ausdruck ''Stichprobenvarianz'' wird in diesem Fall nur für die korrigierte Varianz <math>s^2</math> verwendet.<ref name=":0" />
* <math>s^2</math> wird auch als ''[[erwartungstreue]] Stichprobenvarianz'' (und <math>{\tilde s}^2</math> als ''verzerrte Stichprobenvarianz'') bezeichnet, weil <math>s^2</math> ein erwartungstreuer Schätzer für die Varianz <math>\sigma^2</math> ist.<ref name="erwartungstreuerSchaetzer">[http://www.alt.mathematik.uni-mainz.de/arbeitsgruppen/stochastik/schuh/einfuehrung-in-die-stochastik-2010-11/kapitel-10/at_download/file Kapitel 10: Erwartungstreue Schätzer] (PDF-Datei), www.alt.mathematik.uni-mainz.de, abgerufen am 31. Dezember 2018</ref>
* <math>s^2</math> wird auch als ''[[erwartungstreue]] Stichprobenvarianz'' (und <math>{\tilde s}^2</math> als ''verzerrte Stichprobenvarianz'') bezeichnet, weil <math>s^2</math> ein erwartungstreuer Schätzer für die Varianz <math>\sigma^2</math> ist.<ref name="erwartungstreuerSchaetzer">{{Webarchiv|url=http://www.alt.mathematik.uni-mainz.de/arbeitsgruppen/stochastik/schuh/einfuehrung-in-die-stochastik-2010-11/kapitel-10/at_download/file |wayback=20181231143905 |text=Kapitel 10: Erwartungstreue Schätzer |archiv-bot=2022-10-28 08:23:41 InternetArchiveBot }} (PDF-Datei), www.alt.mathematik.uni-mainz.de, abgerufen am 31. Dezember 2018</ref>
* <math>s^2</math> wird manchmal auch als ''theoretische Varianz'' oder ''induktive Varianz bezeichnet''.<ref>Cleff 2015: S. 255</ref>
* <math>s^2</math> wird manchmal auch als ''theoretische Varianz'' oder ''induktive Varianz bezeichnet''.<ref>Cleff 2015: S. 255</ref>
* Statt <math>s^2</math> wird manchmal auch <math>\widehat{\operatorname{Var}}(x), \; s^2_{n-1}</math> oder <math>s_*^2</math> verwendet.
* Statt <math>s^2</math> wird manchmal auch <math>\widehat{\operatorname{Var}}(x), \; s^2_{n-1}</math> oder <math>s_*^2</math> verwendet.
Zeile 110: Zeile 106:
* Daraus werden die [[Relative Häufigkeit|relativen Häufigkeiten]] <math>f_{j}</math> (Wahrscheinlichkeiten für das Auftreten der jeweiligen Ausprägungen) berechnet.
* Daraus werden die [[Relative Häufigkeit|relativen Häufigkeiten]] <math>f_{j}</math> (Wahrscheinlichkeiten für das Auftreten der jeweiligen Ausprägungen) berechnet.
* Die Varianz ergibt sich schließlich aus den ermittelten [[Häufigkeitsdaten]]: den [[Relative Häufigkeit|relativen Häufigkeiten]] der Ausprägungen und dem [[Arithmetisches Mittel|empirischen Mittelwert]] der Stichprobe.<ref name=":0" />
* Die Varianz ergibt sich schließlich aus den ermittelten [[Häufigkeitsdaten]]: den [[Relative Häufigkeit|relativen Häufigkeiten]] der Ausprägungen und dem [[Arithmetisches Mittel|empirischen Mittelwert]] der Stichprobe.<ref name=":0" />
:<math>\tilde s^2= \sum \limits_{j=1}^k\left(a_j-\overline x\right)^2 f_j </math> , mit
:<math>\tilde s^2= \sum \limits_{j=1}^k\left(a_j-\overline x\right)^2 f_j</math> , mit
:<math> \overline x := \sum_{j=1}^k{f_{j} a_{j}} =\frac1n \sum_{j=1}^k{h_{j} a_{j}}</math> .
:<math>\overline x := \sum_{j=1}^k{f_{j} a_{j}} =\frac1n \sum_{j=1}^k{h_{j} a_{j}}</math> .


=== Empirische Varianz für Daten aus einer Zeitreihe ===
=== Empirische Varianz für Daten aus einer Zeitreihe ===
In diesem Fall sind Datenwerte <math> x_{k}</math> als [[Zeitreihe]] gegeben. Beispielsweise wird sekündlich ein Wert <math> x_{k}</math> gemessen. <math> k</math> ist ein Zähler für die aufgelaufenen Werte seit dem Beginn der Rechnung.
In diesem Fall sind Datenwerte <math>x_{k}</math> als [[Zeitreihe]] gegeben. Beispielsweise wird sekündlich ein Wert <math>x_{k}</math> gemessen. <math>k</math> ist ein Zähler für die aufgelaufenen Werte seit dem Beginn der Rechnung.


Zu jedem Zeitpunkt <math> k</math> der Zeitreihe soll die Varianz aus den letzten <math> k</math> Werten von <math> x</math> bestimmt werden.
Zu jedem Zeitpunkt <math>k</math> der Zeitreihe soll die Varianz aus den letzten <math>k</math> Werten von <math>x</math> bestimmt werden.


Die Rechnung soll in [[Echtzeit]] unmittelbar nach dem Eintreffen von jedem neuen Wert <math> x_{k}</math> erfolgen. In [[Echtzeitsystem]]en wird stark auf die erforderliche Rechenzeit in jedem Zeitschritt geachtet. Mit Formeln (1) bis (3) würde die erforderliche Rechenzeit mit der Zeit steigen, da ja auch die Summen immer mehr Werte umfassen. Das wird vermieden mit folgenden [[Rekursion|rekursiven]] Formeln, die auf den Schätz-Ergebnissen für <math> \hat \mu_{k-1}^2</math> und <math> \hat \sigma_{k-1}^2</math> zum vergangenen Zeitpunkt <math> k-1</math> aufbauen, und die in jedem Zeitschritt ausgeführt werden:<ref>Young 2011 - Chapter 2: Recursive Estimation, Seite 19</ref>
Die Rechnung soll in [[Echtzeit]] unmittelbar nach dem Eintreffen von jedem neuen Wert <math>x_{k}</math> erfolgen. In [[Echtzeitsystem]]en wird stark auf die erforderliche Rechenzeit in jedem Zeitschritt geachtet. Mit Formeln (1) bis (3) würde die erforderliche Rechenzeit mit der Zeit steigen, da ja auch die Summen immer mehr Werte umfassen. Das wird vermieden mit folgenden [[Rekursion|rekursiven]] Formeln, die auf den Schätz-Ergebnissen für <math>\hat \mu_{k-1}^2</math> und <math>\hat \sigma_{k-1}^2</math> zum vergangenen Zeitpunkt <math>k-1</math> aufbauen, und die in jedem Zeitschritt ausgeführt werden:<ref>Young 2011 - Chapter 2: Recursive Estimation, Seite 19</ref>
:<math> \hat \mu_k = \hat \mu_{k-1} + \frac 1k ( x_k - \hat \mu_{k-1} ) </math>
:<math>\hat \mu_k = \hat \mu_{k-1} + \frac 1k (x_k - \hat \mu_{k-1})</math>
:<math> \hat \sigma_k^2 = \hat \sigma_{k-1}^2 + \frac 1k [ ( x_k - \hat \mu_k )^2 - \tilde \sigma_{k-1}^2 ] </math>
:<math>\hat \sigma_k^2 = \hat \sigma_{k-1}^2 + \frac 1k [(x_k - \hat \mu_k )^2 - \tilde \sigma_{k-1}^2]</math>


Diese Formeln benötigen Startwerte für den Zeitpunkt <math> k=0</math> . Bei ungünstiger Wahl nähern sich die Schätzwerte langsam den wahren Werten an. Daher sind günstige Vorbelegungen:
Diese Formeln benötigen Startwerte für den Zeitpunkt <math>k=0</math> . Bei ungünstiger Wahl nähern sich die Schätzwerte langsam den wahren Werten an. Daher sind günstige Vorbelegungen:


* <math> \hat \mu_{0}</math> : Vorbelegung mit <math> 0</math>, oder dem ersten erhaltenen Messwert, oder einem vorab erwarteten Mittelwert
* <math>\hat \mu_{0}</math>: Vorbelegung mit <math>0</math> oder dem ersten erhaltenen Messwert, oder einem vorab erwarteten Mittelwert
* <math> \hat \sigma_{0}</math> : Vorbelegung mit <math> 0</math>, oder einem vorab erwarteten Varianzwert
* <math>\hat \sigma_{0}</math>: Vorbelegung mit <math>0</math> oder einem vorab erwarteten Varianzwert


== Eigenschaften der empirischen Varianz ==
== Eigenschaften der empirischen Varianz ==
=== Verteilung der empirischen Varianz ===
Die empirische Varianz <math>s^2</math> folgt für unabhängige, normalverteilte Zufallsvariablen einer skalierten [[Chi-Quadrat-Verteilung]]:
<math>
(n - 1)\frac{s^2}{\sigma^2}\sim\chi^2_{n-1}.
</math>

Daher folgt:
:<math>
\operatorname{E}\left(s^2\right) = \operatorname{E}\left(\frac{\sigma^2}{n - 1} \chi^2_{n-1}\right) = \sigma^2 ,
</math>
sowie
:<math>
\operatorname{Var}\left[s^2\right] = \operatorname{Var}\left(\frac{\sigma^2}{n - 1} \chi^2_{n-1}\right) = \frac{\sigma^4}{(n - 1)^2}\operatorname{Var}\left(\chi^2_{n-1}\right) = \frac{2\sigma^4}{n - 1}.
</math>

=== Verhalten bei Transformationen ===
=== Verhalten bei Transformationen ===
'''Verschiebung der Daten <math>x_{i}</math>''' um einen konstanten Wert c: Varianz ändert sich nicht
'''Verschiebung der Daten <math>x_{i}</math>''' um einen konstanten Wert c: Varianz ändert sich nicht


Also: Wenn <math> y=(x_1+c, x_2+c, \dots, x_n+c) </math>, so gilt:
Also: Wenn <math>y=(x_1+c, x_2+c, \dots, x_n+c)</math>, so gilt:
:<math> s^2(x) = s^2(y) </math>
:<math>s^2(x) = s^2(y)</math>
:<math> \tilde s^2(x) = \tilde s^2(y) </math>
:<math>\tilde s^2(x) = \tilde s^2(y)</math>
:<math> {s^*}^2(x) = {s^*}^2(y) </math>
:<math>{s^*}^2(x) = {s^*}^2(y)</math>
:Begründung: Es ist <math>\overline y = \overline x + c </math> und somit <math> (y_i-\overline y)^2=(x_i+c -(\overline x + c ))^2 = (x_i-\overline x)^2</math>, woraus die Behauptung folgt.
:Begründung: Es ist <math>\overline y = \overline x + c</math> und somit <math>(y_i-\overline y)^2=(x_i+c -(\overline x + c ))^2 = (x_i-\overline x)^2</math>, woraus die Behauptung folgt.


'''Skalierung der Daten''' <math>x_{i}</math> um einen Faktor <math> a\neq 0 </math>, also <math> y = a x </math>: Varianz skaliert um den Faktor <math>a^2</math>:
'''Skalierung der Daten''' <math>x_{i}</math> um einen Faktor <math>a\neq 0</math>, also <math>y = a x</math>: Varianz skaliert um den Faktor <math>a^2</math>:
:<math> s^2(y) = a^2 \cdot s^2(x) </math>.
:<math>s^2(y) = a^2 \cdot s^2(x)</math>.
:<math> \tilde s^2(y) = a^2 \cdot \tilde s^2(x) </math>
:<math>\tilde s^2(y) = a^2 \cdot \tilde s^2(x)</math>
:<math> {s^*}^2(y) = a^2 \cdot {s^*}^2(x) </math>
:<math>{s^*}^2(y) = a^2 \cdot {s^*}^2(x)</math>
:Begründung: Dies folgt wie oben durch direktes Nachrechnen.
:Begründung: Dies folgt wie oben durch direktes Nachrechnen.


=== Genauigkeit der berechneten empirischen Varianz ===
=== Genauigkeit der berechneten empirischen Varianz ===
Wenn man viele Stichproben nimmt, dann führt jede neue Stichprobe zu einer anderen Schätzung <math> \hat \sigma^2</math> für die Varianz der Grundgesamtheit. D.h. die berechnete empirische Varianz (Stichprobenvarianz) hat ebenfalls eine Streuung. Diese Streuung ist ein Maß für die Qualität (Genauigkeit) der Varianzbestimmung. Für den Fall, dass die Streuung in einem gegebenen Anwendungsfall zu hoch ist, könnte man die Anzahl der Werte in der Stichprobe vergrößern oder den Mittelwert aus vielen verschiedenen Stichproben verwenden.
Wenn man viele Stichproben nimmt, dann führt jede neue Stichprobe zu einer anderen Schätzung <math>\hat \sigma^2</math> für die Varianz der Grundgesamtheit. D.h. die berechnete empirische Varianz (Stichprobenvarianz) hat ebenfalls eine Streuung. Diese Streuung ist ein Maß für die Qualität (Genauigkeit) der Varianzbestimmung. Für den Fall, dass die Streuung in einem gegebenen Anwendungsfall zu hoch ist, könnte man die Anzahl der Werte in der Stichprobe vergrößern oder den Mittelwert aus vielen verschiedenen Stichproben verwenden.


Die Streuung der Stichprobenvarianz kann durch die Berechnung der Grenzwerte des [[Konfidenzintervall]]es mit Hilfe der [[Chi-Quadrat-Verteilung#Beispiel|Chi-Quadrat-Verteilung]] beurteilt werden. Praktisch genügt jedoch häufig eine Abschätzung der '''Standardabweichung der Stichprobenvarianz''' mit folgenden Formeln<ref name=":23">''HU-Berlin 2018: [https://wikis.hu-berlin.de/mmstat/Verteilung_der_Stichprobenvarianz Verteilung der Stichprobenvarianz], Kapitel 1.2, abgerufen am 1. Februar 2022.''</ref> analog zu Formeln (1) und (3):
Die Streuung der Stichprobenvarianz kann durch die Berechnung der Grenzwerte des [[Konfidenzintervall]]es mit Hilfe der [[Chi-Quadrat-Verteilung#Beispiel|Chi-Quadrat-Verteilung]] beurteilt werden. Praktisch genügt jedoch häufig eine Abschätzung der '''Standardabweichung der Stichprobenvarianz''' mit folgenden Formeln<ref name=":23">''HU-Berlin 2018: [https://wikis.hu-berlin.de/mmstat/Verteilung_der_Stichprobenvarianz Verteilung der Stichprobenvarianz], Kapitel 1.2, abgerufen am 1. Februar 2022.''</ref> analog zu Formeln (1) und (3):
Zeile 150: Zeile 161:
Standardabweichung der Stichprobenvarianz bei unbekanntem wahren Mittelwert der Gesamtheit:
Standardabweichung der Stichprobenvarianz bei unbekanntem wahren Mittelwert der Gesamtheit:


: <math> \sqrt{ {Var(s^2)} } = \sqrt{ \frac 2{n-1} s^4 } </math>
: <math>\sqrt{ {Var(s^2)} } = \sqrt{ \frac 2{n-1} s^4 }</math>


Standardabweichung der Stichprobenvarianz bei bekanntem wahren Mittelwert <math>\mu</math> der Gesamtheit:
Standardabweichung der Stichprobenvarianz bei bekanntem wahren Mittelwert <math>\mu</math> der Gesamtheit:


: <math> \sqrt{ {Var({s^*}^2)} } = \sqrt{ \frac 2{n} {s^*}^4 } </math>
: <math>\sqrt{ {Var({s^*}^2)} } = \sqrt{ \frac 2{n} {s^*}^4 }</math>
:


'''Beispiel 1:''' Stichprobe mit <math>n = 10</math> Werten und der Varianz <math>s^2 = 1{,}0</math> :
'''Beispiel 1:''' Stichprobe mit <math>n = 10</math> Werten und der Varianz <math>s^2 = 1{,}0</math>:


Dann lässt sich die Standardabweichung der Stichprobenvarianz abschätzen als:
Dann lässt sich die Standardabweichung der Stichprobenvarianz abschätzen als:


: <math> \sqrt{ {Var(s^2)}} = \sqrt{ \frac 2{9} 1{,}0^2 } = \sqrt{0{,}2222} = 0{,}47 </math>
: <math>\sqrt{ {Var(s^2)}} = \sqrt{ \frac 2{9} 1{,}0^2 } = \sqrt{0{,}2222} = 0{,}47</math>


Die Standardabweichung von <math>0{,}47</math> ist im Vergleich zur Stichprobenvarianz <math>s^2 = 1{,}0</math> erheblich. D.h. eine Stichprobe mit <math>n = 10</math> ist in den meisten Anwendungsfällen nicht geeignet um eine ausreichend verlässliche Aussage über die Varianz der Grundgesamtheit zu machen.
Die Standardabweichung von <math>0{,}47</math> ist im Vergleich zur Stichprobenvarianz <math>s^2 = 1{,}0</math> erheblich. D.h. eine Stichprobe mit <math>n = 10</math> ist in den meisten Anwendungsfällen nicht geeignet um eine ausreichend verlässliche Aussage über die Varianz der Grundgesamtheit zu machen.



'''Beispiel 2:''' Stichprobe wird vergrößert auf <math>n = 100</math> Werte:
'''Beispiel 2:''' Stichprobe wird vergrößert auf <math>n = 100</math> Werte:
Zeile 170: Zeile 179:
Dann lässt sich die Streuung der Stichprobenvarianz wie oben ermitteln als:
Dann lässt sich die Streuung der Stichprobenvarianz wie oben ermitteln als:


: <math> \sqrt{ {Var(s^2)}} = \sqrt{ \frac 2{99} 1{,}0^2 } = \sqrt{0{,}0202} = 0{,}14 </math>
: <math>\sqrt{ {Var(s^2)}} = \sqrt{ \frac 2{99} 1{,}0^2 } = \sqrt{0{,}0202} = 0{,}14</math>


Die Streuung von 0,14 ist bei der Stichprobenvarianz <math>s^2 = 1{,}0</math> brauchbarer, als das Ergebnis im ersten Beispiel.
Die Streuung von 0,14 ist bei der Stichprobenvarianz <math>s^2 = 1{,}0</math> brauchbarer, als das Ergebnis im ersten Beispiel.
Zeile 181: Zeile 190:
=== Darstellung als durchschnittliches Abweichungsquadrat ===
=== Darstellung als durchschnittliches Abweichungsquadrat ===
{{Hauptartikel|Summe der Abweichungsquadrate}}
{{Hauptartikel|Summe der Abweichungsquadrate}}
Die Varianz wird in der [[Varianzanalyse]] oft als „mittleres“ bzw. „durchschnittliches“ Abweichungsquadrat <math>MQ</math> bezeichnet und ergibt sich dann aus die Division der Summe der Abweichungsquadrate SQ und der Anzahl Freiheitsgrade FG:<ref>Werner Timischl: ''Angewandte Statistik. Eine Einführung für Biologen und Mediziner.'' 2013, 3. Auflage, S.&nbsp;109.</ref>
Die Varianz wird in der [[Varianzanalyse]] oft als „mittleres“ bzw. „durchschnittliches“ Abweichungsquadrat <math>MQ</math> bezeichnet und ergibt sich dann aus die Division der Summe der Abweichungsquadrate SQ und der Anzahl Freiheitsgrade FG:<ref>Werner Timischl: ''Angewandte Statistik. Eine Einführung für Biologen und Mediziner.'' 2013, 3. Auflage, S.&nbsp;109.</ref>


:<math>s^2= \frac{\sum\nolimits_{i=1}^n\left(x_i-\overline x\right)^2}{n-1}=\frac{SQ}{FG}:=MQ</math>.<ref>[[Lothar Sachs]]: [https://books.google.de/books?id=ht60BgAAQBAJ&pg=PA400&dq=Variation+durchschnittliche+Varianz+Q&hl=de&sa=X&ved=0ahUKEwjhk_vz17DYAhUI6KQKHc5iAB8Q6AEIMzAC#v=onepage&q=Variation%20durchschnittliche%20Varianz%20Q&f=false ''Statistische Auswertungsmethoden''], S. 400.</ref>
:<math>s^2= \frac{\sum\nolimits_{i=1}^n\left(x_i-\overline x\right)^2}{n-1}=\frac{SQ}{FG}:=MQ</math>.<ref>[[Lothar Sachs]]: [https://books.google.de/books?id=ht60BgAAQBAJ&pg=PA400&dq=Variation+durchschnittliche+Varianz+Q&hl=de&sa=X&ved=0ahUKEwjhk_vz17DYAhUI6KQKHc5iAB8Q6AEIMzAC#v=onepage&q=Variation%20durchschnittliche%20Varianz%20Q&f=false ''Statistische Auswertungsmethoden''], S. 400.</ref>
Zeile 189: Zeile 198:
=== Darstellung mittels Verschiebungssatz ===
=== Darstellung mittels Verschiebungssatz ===
Eine weitere Darstellung erhält man aus Anwendung des [[Verschiebungssatz (Statistik)|Verschiebungssatzes]]:<ref>Kosfeld 2016</ref>
Eine weitere Darstellung erhält man aus Anwendung des [[Verschiebungssatz (Statistik)|Verschiebungssatzes]]:<ref>Kosfeld 2016</ref>
:<math> s^2 = \frac{1}{n-1} \left( \sum_{i=1}^n x_i^2 \right) - \frac{n}{n-1} \cdot \overline x ^2 </math>
:<math>s^2 = \frac{1}{n-1} \left( \sum_{i=1}^n x_i^2 \right) - \frac{n}{n-1} \cdot \overline x ^2</math>
:<math> \tilde s^2 = \frac 1n \left( \sum_{i=1}^n x_i^2 \right) - \overline x ^2 </math>
:<math>\tilde s^2 = \frac 1n \left( \sum_{i=1}^n x_i^2 \right) - \overline x ^2</math>
:<math> {s^*}^2 = \frac 1n \left( \sum_{i=1}^n x_i^2 \right) - \mu ^2</math>
:<math>{s^*}^2 = \frac 1n \left( \sum_{i=1}^n x_i^2 \right) - \mu ^2</math>


Diese Formel ist jedoch aus [[Numerische Stabilität|numerischer Sicht nachteilig]], da unter Umständen zwei sehr große Werte voneinander abgezogen werden. Das kann zur Rechenungenauigkeiten führen, wenn die Darstellungsgenauigkeit der Gleitkommazahlen im Rechner nicht ausreichend ist.
Diese Formel ist jedoch aus [[Numerische Stabilität|numerischer Sicht nachteilig]], da unter Umständen zwei sehr große Werte voneinander abgezogen werden. Das kann zur Rechenungenauigkeiten führen, wenn die Darstellungsgenauigkeit der Gleitkommazahlen im Rechner nicht ausreichend ist.


=== Darstellung als Doppelsumme (ohne vorausgehende Berechnung des empirisches Mittels) ===
=== Darstellung als Doppelsumme (ohne vorausgehende Berechnung des empirischen Mittels) ===
Eine Darstellung, die ohne die vorausgehende Berechnung des empirischen Mittels auskommt, ist:
Eine Darstellung, die ohne die vorausgehende Berechnung des empirischen Mittels auskommt, ist:


Zeile 208: Zeile 217:


:<math>\begin{align}\sum_{i=1}^n \sum_{j=1}^n (x_i -\overline{x}+\overline{x}-x _j)^2&=\sum_{i=1}^n \sum_{j=1}^n (x_i -\overline{x})^2 +2\sum_{i=1}^n \sum_{j=1}^n (x_i -\overline{x})(\overline{x}-x _j)+ \sum_{i=1}^n \sum_{j=1}^n(\overline{x}-x _j)^2\\
:<math>\begin{align}\sum_{i=1}^n \sum_{j=1}^n (x_i -\overline{x}+\overline{x}-x _j)^2&=\sum_{i=1}^n \sum_{j=1}^n (x_i -\overline{x})^2 +2\sum_{i=1}^n \sum_{j=1}^n (x_i -\overline{x})(\overline{x}-x _j)+ \sum_{i=1}^n \sum_{j=1}^n(\overline{x}-x _j)^2\\
&=\sum_{j=1}^n \underbrace{\sum_{i=1}^n (x_i -\overline{x})^2}_{=n \tilde{s}^2} + 2 \underbrace{\left(\sum_{i=1}^n (x_i -\overline{x})\right)}_{=0} \underbrace{\left(\sum_{j=1}^n (\overline{x}-x_j)\right)}_{=0}+\sum_{i=1}^n \underbrace{\sum_{j=1}^n(\overline{x}-x _j)^2}_{=n \tilde{s}^2}\\
&=\sum_{j=1}^n \underbrace{\sum_{i=1}^n (x_i -\overline{x})^2}_{=n \tilde{s}^2} + 2 \underbrace{\left(\sum_{i=1}^n (x_i -\overline{x})\right)}_{=0} \underbrace{\left(\sum_{j=1}^n (\overline{x}-x_j)\right)}_{=0}+\sum_{i=1}^n \underbrace{\sum_{j=1}^n(\overline{x}-x _j)^2}_{=n \tilde{s}^2}\\
&=2n^2 \cdot\tilde s^2\end{align}</math>.
&=2n^2 \cdot\tilde s^2\end{align}</math>.


Zeile 219: Zeile 228:
Als ''empirische Standardabweichung''<ref name=":1" /> auch ''Stichprobenstreuung''<ref name=":4" /> oder ''Stichprobenstandardabweichung''<ref name=":1" /> genannt, wird die [[Wurzel (Mathematik)|Wurzel]] aus der empirischen Varianz gemäß Formel (1)-(3) bezeichnet:
Als ''empirische Standardabweichung''<ref name=":1" /> auch ''Stichprobenstreuung''<ref name=":4" /> oder ''Stichprobenstandardabweichung''<ref name=":1" /> genannt, wird die [[Wurzel (Mathematik)|Wurzel]] aus der empirischen Varianz gemäß Formel (1)-(3) bezeichnet:


:<math>s = \sqrt{\frac{1}{n-1} \sum \limits_{i=1}^n\left(x_i-\overline x\right)^2} </math>
:<math>s = \sqrt{\frac{1}{n-1} \sum \limits_{i=1}^n\left(x_i-\overline x\right)^2}</math>
:<math>\tilde s = \sqrt{\frac{1}{n} \sum \limits_{i=1}^n\left(x_i-\overline x\right)^2} </math>
:<math>\tilde s = \sqrt{\frac{1}{n} \sum \limits_{i=1}^n\left(x_i-\overline x\right)^2}</math>
:<math>{s^*}^2 = \sqrt{\frac{1}{n} \sum \limits_{i=1}^n(x_i - \mu)^2} </math>
:<math>{s^*}^2 = \sqrt{\frac{1}{n} \sum \limits_{i=1}^n(x_i - \mu)^2}</math>
Die empirische Standardabweichung ist ebenfalls ein Maß dafür, wie weit die Stichprobe im Schnitt um den empirischen Mittelwert streut.
Die empirische Standardabweichung ist ebenfalls ein Maß dafür, wie weit die Stichprobe im Schnitt um den empirischen Mittelwert streut.


Zeile 229: Zeile 238:
Der [[Empirischer Variationskoeffizient|empirische Variationskoeffizient]] ist ein dimensionsloses Streuungsmaß (nicht einheitenbehaftet) und drückt <math>s</math> in Prozent des empirischen Mittelwerts <math>\overline x</math> aus.<ref>Beyer 1988: Kapitel 3.1.1.3. Statistische Maßzahlen, S. 120</ref>
Der [[Empirischer Variationskoeffizient|empirische Variationskoeffizient]] ist ein dimensionsloses Streuungsmaß (nicht einheitenbehaftet) und drückt <math>s</math> in Prozent des empirischen Mittelwerts <math>\overline x</math> aus.<ref>Beyer 1988: Kapitel 3.1.1.3. Statistische Maßzahlen, S. 120</ref>


:<math> v := \frac{s}{\bar{x}} \cdot 100 \, \%</math>
:<math>v = \frac{s}{\bar{x}} \cdot 100 \, \%</math>


=== Annualisierte Varianz ===
=== Annualisierte Varianz ===
Zeile 238: Zeile 247:
== Beispiel ==
== Beispiel ==
Gegeben sei die Stichprobe
Gegeben sei die Stichprobe
:<math> x_1= 10; \quad x_2= 9; \quad x_3= 13; \quad x_4= 15; \quad x_5= 16 </math>,
:<math>x_1= 10; \quad x_2= 9; \quad x_3= 13; \quad x_4= 15; \quad x_5= 16</math>,


es ist also <math> n=5 </math>. Für den empirischen Mittelwert ergibt sich
es ist also <math>n=5</math>. Für den empirischen Mittelwert ergibt sich
:<math> \overline x = \frac15 (10+9+13+15+16) = \frac{63}{5}= 12 {,}6 </math>.
:<math>\overline x = \frac15 (10+9+13+15+16) = \frac{63}{5}= 12 {,}6</math>.


Bei stückweiser Berechnung ergibt sich dann die [[Abweichungsquadratsumme]]
Bei stückweiser Berechnung ergibt sich dann die [[Abweichungsquadratsumme]]
:<math> \begin{align} \sum \limits_{i=1}^5 \left(x_i-\overline x\right)^2 &= (10-12 {,}6)^2+(9-12 {,}6)^2+(13-12 {,}6)^2+(15-12 {,}6)^2+(16-12 {,}6)^2 \\ \; &=(-2 {,}6)^2+(-3 {,}6)^2+0 {,}4^2+2 {,}4^2+3 {,}4^2 = 37{,}2 \end{align} </math>.
:<math>\begin{align} \sum \limits_{i=1}^5 \left(x_i-\overline x\right)^2 &= (10-12 {,}6)^2+(9-12 {,}6)^2+(13-12 {,}6)^2+(15-12 {,}6)^2+(16-12 {,}6)^2 \\ \; &=(-2 {,}6)^2+(-3 {,}6)^2+0 {,}4^2+2 {,}4^2+3 {,}4^2 = 37{,}2 \end{align}</math>.


Mit Formel (1) erhält man
Mit Formel (1) erhält man
:<math> s^2 = \frac {1}{5-1} \sum_{i=1}^5 (x_i- \overline x)^2 = \frac{ 37{,}2}{4} = 9 {,}3 </math>
:<math>s^2 = \frac {1}{5-1} \sum_{i=1}^5 (x_i- \overline x)^2 = \frac{ 37{,}2}{4} = 9 {,}3</math>


wohingegen Formel (2)
wohingegen Formel (2)
:<math> \tilde s^2= \frac {1}{5} \sum_{i=1}^5 (x_i- \overline x)^2 = \frac{ 37{,}2}{5} = 7 {,}44</math>
:<math>\tilde s^2= \frac {1}{5} \sum_{i=1}^5 (x_i- \overline x)^2 = \frac{ 37{,}2}{5} = 7 {,}44</math>
liefert.
liefert.


Jetzt nehmen wir an, dass der Mittelwert der Grundgesamtheit, aus der die Stichprobe entnommen wurde, vorab bekannt sei:
Jetzt nehmen wir an, dass der Mittelwert der Grundgesamtheit, aus der die Stichprobe entnommen wurde, vorab bekannt sei:


: <math> \mu = 12 </math>
: <math>\mu = 12</math>


Dann findet Formel (3) Anwendung:
Dann findet Formel (3) Anwendung:


: <math> \begin{align} \sum \limits_{i=1}^5 \left(x_i-\overline x\right)^2 &= (10-12)^2+(9-12)^2+(13-12)^2+(15-12)^2+(16-12)^2 \\ \; &=(-2)^2 + (-3)^2 + 1^2 + 3^2 + 4^2 = 39 \end{align} </math>.
: <math>\begin{align} \sum \limits_{i=1}^5 \left(x_i-\overline x\right)^2 &= (10-12)^2+(9-12)^2+(13-12)^2+(15-12)^2+(16-12)^2 \\ \; &=(-2)^2 + (-3)^2 + 1^2 + 3^2 + 4^2 = 39 \end{align}</math>.


: <math> {s^*}^2 = \frac {1}{5} \sum_{i=1}^5 (x_i- \overline x)^2 = \frac{ 39 }{5} = 7 {,}8</math>
: <math>{s^*}^2 = \frac {1}{5} \sum_{i=1}^5 (x_i- \overline x)^2 = \frac{ 39 }{5} = 7 {,}8</math>


Die entsprechenden empirischen Standardabweichungen ergeben sich zu:
Die entsprechenden empirischen Standardabweichungen ergeben sich zu:
:<math> s= \sqrt{ 9{,}3} \approx 3 {,} 05</math>
:<math>s= \sqrt{ 9{,}3} \approx 3 {,} 05</math>
:<math> \tilde s = \sqrt{ 7{,}44} \approx 2 {,} 73</math>
:<math>\tilde s = \sqrt{ 7{,}44} \approx 2 {,} 73</math>
:<math> {s^*} = \sqrt{ 7{,}8} \approx 2 {,} 79</math>
:<math>{s^*} = \sqrt{ 7{,}8} \approx 2 {,} 79</math>


== Herkunft der verschiedenen Definitionen ==
== Herkunft der verschiedenen Definitionen ==
Die empirische Varianz, ist ein [[Streuungsmaß (Statistik)|Streuungsmaß]] um den Mittelwert der Datenwerte. Die gegebenen Werte sind <math> x= (x_1, x_2, \dots, x_n) </math>.
Die empirische Varianz, ist ein [[Streuungsmaß (Statistik)|Streuungsmaß]] um den Mittelwert der Datenwerte. Die gegebenen Werte sind <math>x= (x_1, x_2, \dots, x_n)</math>.


Bei der Verwendung der Varianz als Streuungsmaß wird die [[Summe der Abweichungsquadrate|Quadratsumme]] als Ausgangspunkt verwendet:
Bei der Verwendung der Varianz als Streuungsmaß wird die [[Summe der Abweichungsquadrate|Quadratsumme]] als Ausgangspunkt verwendet:
:<math> SQ(x)= \sum_{i=1}^n (x_i-\overline x)^2 </math>
:<math>SQ(x)= \sum_{i=1}^n (x_i-\overline x)^2</math>


Um das Streuungsmaß unabhängig von der Anzahl der Messwerte in der Stichprobe zu machen, wird als einfachste Lösung noch durch die Anzahl der Werte dividiert. Ergebnis dieses pragmatisch hergeleiteten Streuungsmaßes ist die mittlere quadratische Abweichung vom empirischen Mittelwert oder die oben definierte Varianz <math>\tilde s</math>.
Um das Streuungsmaß unabhängig von der Anzahl der Messwerte in der Stichprobe zu machen, wird als einfachste Lösung noch durch die Anzahl der Werte dividiert. Ergebnis dieses pragmatisch hergeleiteten Streuungsmaßes ist die mittlere quadratische Abweichung vom empirischen Mittelwert oder die oben definierte Varianz <math>\tilde s</math>.


Die Definition von <math>s^2</math> hat ihre Wurzeln in der [[Schätztheorie]]. (→&nbsp;[[Stichprobenvarianz (Schätzfunktion)]])
Die Definition von <math>s^2</math> hat ihre Wurzeln in der [[Schätztheorie]]. (→&nbsp;[[Stichprobenvarianz (Schätzfunktion)]])


Dort wird die Varianz der Grundgesamtheit <math>\hat \sigma^2</math> geschätzt durch:
Dort wird


:<math>\hat \sigma^2 = S^2= \frac{1}{n-1} \sum_{i=1}^n (X_i-\overline X)^2 </math>
:<math>\hat \sigma^2 = S^2= \frac{1}{n-1} \sum_{i=1}^n (X_i-\overline X)^2</math>


als [[erwartungstreue]] [[Schätzfunktion]] für die unbekannte Varianz <math>\sigma^2</math> einer [[Wahrscheinlichkeitsverteilung]] verwendet.
als [[erwartungstreue]] [[Schätzfunktion]] für die unbekannte Varianz <math>\sigma^2</math> einer [[Wahrscheinlichkeitsverteilung]] verwendet.


<math> s^2</math> ergibt sich durch Anwendung der Schätzfunktion <math> S^2</math> auf [[Realisierung (Stochastik)|Realisierungen]] (konkrete Werte) der Zufallsvariablen <math> X_i(\omega)=x_i </math> .
<math>s^2</math> ergibt sich durch Anwendung der Schätzfunktion <math>S^2</math> auf [[Realisierung (Stochastik)|Realisierungen]] (konkrete Werte) der Zufallsvariablen <math>X_i(\omega)=x_i</math> .


Somit kann <math>\tilde s</math> als ein praktisch motiviertes Streuungsmaß in der deskriptiven Statistik angesehen werden, wohingegen <math>s</math> eine Schätzung für eine unbekannte Varianz in der induktiven Statistik ist. Diese unterschiedlichen Ursprünge rechtfertigen die von manchen Autoren verwendete Sprechweise für <math>\tilde s </math> als empirische Varianz und für <math> s </math> als induktive Varianz oder theoretische Varianz.
Somit kann <math>\tilde s</math> als ein praktisch motiviertes Streuungsmaß in der deskriptiven Statistik angesehen werden, wohingegen <math>s</math> eine Schätzung für eine unbekannte Varianz in der induktiven Statistik ist. Diese unterschiedlichen Ursprünge rechtfertigen die von manchen Autoren verwendete Sprechweise für <math>\tilde s</math> als empirische Varianz und für <math>s</math> als induktive Varianz oder theoretische Varianz.


Zu bemerken ist, dass sich auch <math>\tilde s</math> als Schätzwert einer Schätzfunktion interpretieren lässt. Diesen erhält man bei Anwendung der [[Maximum-Likelihood-Methode]], oder der [[Momentenmethode]] als Schätzfunktion für die Varianz, die allerdings nicht erwartungstreu ist, und daher nicht alle [[Punktschätzer#Qualitätskriterien für Punktschätzer|Qualitätskriterien]] für Punktschätzungen erfüllt.:
Zu bemerken ist, dass sich auch <math>\tilde s</math> als Schätzwert einer Schätzfunktion interpretieren lässt. Diesen erhält man bei Anwendung der [[Maximum-Likelihood-Methode]], oder der [[Momentenmethode]] als Schätzfunktion für die Varianz, die zwar nicht erwartungstreu ist, und daher nicht alle [[Punktschätzer#Qualitätskriterien für Punktschätzer|Qualitätskriterien]] für Punktschätzungen erfüllt, aber dafür die gegebenen Variablen optimal in eine Normalverteilung einpasst. Der Parameter der Normalverteilung <math>\sigma^2</math> wird bestimmt durch:
:<math> \widetilde S =\frac{1}{n} \sum_{i=1}^n (X_i-\overline X)^2 </math>.
:<math>\sigma^2 = \widetilde S =\frac{1}{n} \sum_{i=1}^n (X_i-\overline X)^2</math>.
Der Unterschied zwischen beiden Formeln lässt sich in der mathematischen Statistik dadurch erklären, dass das Quadrat einer (symmetrischen) normalverteilten Zufallsgröße <math>X^2</math> nicht ebenfalls normalverteilt ist, sondern eine (unsymmetrische) Chi-Quadrat-Verteilung aufweist.


== Literatur ==
== Literatur ==
Zeile 303: Zeile 313:
* [https://www.uni-muenster.de/Stochastik/Arbeitsgruppen/Kabluchko/ Kabluchko] 2017 – {{Literatur |Autor=Zakhar Kabluchko |Titel=Mathematische Statistik - Skript zur Vorlesung |Ort=Münster |Datum=2017 |Online=https://www.uni-muenster.de/Stochastik/kabluchko/Skripte/Skript_Math_Statistik_Version_22_02_2017.pdf |Abruf=2022-02-01}}
* [https://www.uni-muenster.de/Stochastik/Arbeitsgruppen/Kabluchko/ Kabluchko] 2017 – {{Literatur |Autor=Zakhar Kabluchko |Titel=Mathematische Statistik - Skript zur Vorlesung |Ort=Münster |Datum=2017 |Online=https://www.uni-muenster.de/Stochastik/kabluchko/Skripte/Skript_Math_Statistik_Version_22_02_2017.pdf |Abruf=2022-02-01}}
* Kosfeld 2016 – {{Literatur |Autor=Reinhold Kosfeld, Hans Friedrich Eckey, Matthias Türck |Titel=Deskriptive Statistik. Grundlagen – Methoden – Beispiele – Aufgaben |Auflage=6 |Verlag=Springer Gabler |Ort=Wiesbaden |Datum=2016 |ISBN=978-3-658-13639-0}}
* Kosfeld 2016 – {{Literatur |Autor=Reinhold Kosfeld, Hans Friedrich Eckey, Matthias Türck |Titel=Deskriptive Statistik. Grundlagen – Methoden – Beispiele – Aufgaben |Auflage=6 |Verlag=Springer Gabler |Ort=Wiesbaden |Datum=2016 |ISBN=978-3-658-13639-0}}
* Toutenburg 2008 – {{Literatur |Autor=Helge Toutenburg, Christian Heumann |Titel=Deskriptive Statistik |Auflage=8 |Verlag=Springer-Verlag |Ort=Berlin/Heidelberg |Datum=2008 |ISBN=978-3-540-77787-8}}
* Toutenburg 2008 – {{Literatur |Autor=[[Helge Toutenburg]], Christian Heumann |Titel=Deskriptive Statistik |Auflage=8 |Verlag=Springer-Verlag |Ort=Berlin/Heidelberg |Datum=2008 |ISBN=978-3-540-77787-8}}
* Young 2011 – {{Literatur |Autor=Peter C. Young |Titel=Recursive Estimation and Time-Series-Analysis |Hrsg= |Auflage=2 |Verlag=Springer-Verlag |Ort=Berlin / Heidelberg |Datum=2011 |ISBN=978-3-642-21980-1}}
* Young 2011 – {{Literatur |Autor=Peter C. Young |Titel=Recursive Estimation and Time-Series-Analysis |Hrsg= |Auflage=2 |Verlag=Springer-Verlag |Ort=Berlin / Heidelberg |Datum=2011 |ISBN=978-3-642-21980-1}}



Aktuelle Version vom 21. Juli 2023, 08:05 Uhr

Formelzeichen
Mittelwert der Grundgesamtheit
Varianz der Grundgesamtheit
Anzahl der gegebenen Werte
Zufallsvariablen (Zufallsgrößen)
Stichprobe: beobachtete Werte der Zufallsvariablen
Stichprobenmittel / empirischer Mittelwert von
Stichprobenvarianz / empirische Varianz von
Stichprobenmittel (als Funktion der Zufallsvariablen)
Stichprobenvarianz (als Funktion der Zufallsvariablen)

Die empirische Varianz[1][2], auch Stichprobenvarianz[2][3] (veraltet: empirisches Streuungsquadrat) oder einfach nur kurz Varianz genannt, ist ein Maß für die Streuung von konkreten (empirisch erhobenen) Werten einer Stichprobe.

Bei der empirischen Varianz handelt sich um einen Begriff aus der beschreibenden (deskriptiven) Statistik für die Varianz. Sie gehört zu den Streuungsmaßen und beschreibt die mittlere quadratische Abweichung der einzelnen Werte vom empirischen Mittelwert. Sie entspricht damit dem „durchschnittlichen Abweichungsquadrat“.

Die Wurzel der empirischen Varianz ist die empirische Standardabweichung.[2] Die empirische Standardabweichung stellt das gebräuchlichste Streuungsmaß dar. Sie ist anschaulicher als die Varianz, da sie dieselbe Größenordnung hat wie die beobachteten Werte.

Die empirische Varianz ist jedoch in weitergehenden Berechnungen oft praktischer als die Standardabweichung: So können beispielsweise Varianzbeiträge von mehreren unabhängigen Zufallseinflüssen einfach addiert werden. Umgekehrt lässt sich durch eine Varianzanalyse eine Gesamtvarianz oft auch in ihre Beiträge (Ursachen) zerlegen.

Voraussetzungen

Varianz der Grundgesamtheit

Die Varianz einer endlichen Grundgesamtheit (Population) mit reellen Datenwerten ist ein Maß für die Streuung der einzelnen -Werte, um den Populationsmittelwert und ist definiert als

Der Populationsmittelwert ist das arithmetische Mittel der Datenwerte

.

Die Varianz der Grundgesamtheit ist in praktischen Situationen häufig unbekannt, beispielsweise, weil es nicht möglich ist, jedes einzelne Subjekt in der Population zu erfassen (Vollerhebung). Um die Varianz zu ermitteln, werden daher empirisch Stichproben erhoben. Das führt zu den Begriffen empirische Varianz oder auch Stichprobenvarianz.

Empirischer Mittelwert

Gegeben sei eine Stichprobe mit reellen numerischen Werten . Es bezeichne

den empirischen Mittelwert der Stichprobe. Dieser empirische Mittelwert ist ein Schätzer für den Populationsmittelwert .

Berechnung der empirischen Varianz

Zunächst werden die Abweichungen der beobachteten reellen Werte der Stichprobe von ihrem arithmetischen Mittel gebildet. Summierung und Quadrierung ergibt die sogenannte Abweichungsquadratsumme .

Die Verwendung der Abweichungsquadratsumme führt zu folgenden Eigenschaften der empirischen Varianz:

  • Positive und negative Abweichungen vom Mittelwert heben sich bei der Summierung nicht gegenseitig auf.
  • Die Varianz einer Stichprobe ist daher immer positiv (oder Null).
  • Eine größere Varianz entspricht einer größeren Unterschiedlichkeit der Werte.
  • Wenige aber starke Ausreißer haben einen großen Einfluss auf das Ergebnis.

Die empirische Varianz kann damit auf folgende Arten berechnet werden:

Am gebräuchlichsten ist die Berechnung der empirischen Varianz der Stichprobenwerte als Summe der Abweichungsquadrate geteilt durch die Anzahl der Freiheitsgrade :[3]

 
 
 (1)
 

Formel (1) wird auch korrigierte empirische Varianz oder korrigierte Stichprobenvarianz genannt[4][2]. Der Vorsatz „korrigierte ...“ bezieht sich auf den Faktor , der auch als Bessel-Korrektur bezeichnet wird.[5] Die Korrektur führt dazu, dass ein erwartungstreuer Schätzer für die Populationsvarianz ist: Das bedeutet, dass der Schätzfehler immer kleiner wird und gegen Null strebt, wenn das Ergebnis der Varianzberechnung über eine steigende Anzahl verschiedener Stichproben gemittelt wird.

Alternativ wird die empirische Varianz (nicht erwartungstreu) berechnet als Summe der Abweichungsquadrate geteilt durch die Anzahl der Werte :[6]

 
 
 (2)
 

Für den Sonderfall, dass der Mittelwert der Grundgesamtheit bekannt ist, wird die Varianz mit folgender Formel berechnet, die ebenfalls einen erwartungstreuen Schätzer darstellt:[7]

 
 
 (3)
 

Weitere Erläuterung zu den Berechnungsarten

Intuitiv lässt sich die Mittelung durch in Formel (1) statt durch wie folgt erklären:

Bei Formel (1) geht es um die Schätzung der Varianz der Grundgesamtheit, aus der die Stichprobe entnommen wurde. Aufgrund der Schwerpunkteigenschaft des empirischen Mittels ist die letzte Abweichung bereits durch die ersten bestimmt. Folglich variieren nur Abweichungen frei. D.h. man mittelt deshalb, indem man durch die Anzahl der Freiheitsgrade dividiert. Besonders augenscheinlich wird das, wenn man den Fall betrachtet: Bei 2 Datenwerten gibt es nur 1 Unterschied zwischen den Daten. Und mit einer Stichprobe mit kann man gar keine Aussage über die Varianz einer Grundgesamtheit machen.

Diese Plausibilisierung wird im Rahmen der induktiven Statistik formalisiert.[8] (→ Stichprobenvarianz (Schätzfunktion))

Die Idee von Formel (2) ist eine andere: Hier geht es nicht um eine Aussage über eine „Grundgesamtheit“ mit Hilfe einer Stichprobe, sondern darum, den Datensatz möglichst genau durch eine Normalverteilung zu beschreiben: D.h. die Parameter der Normalverteilung und werden so bestimmt, dass der quadratische Fehler der gegebenen Daten relativ zur Verteilungsfunktion der Normalverteilung minimal ist.[9] Das ist der Fall für und . Formel (2) liefert in diesem Sinne bessere Ergebnisse als Formel (1), und sie sollte angewendet werden, wenn diese Eigenschaft erforderlich ist.[10] Formel (2) ist aber kein erwartungstreuer Schätzer: D.h. wenn das Ergebnis über viele Stichproben gemittelt wird, dann strebt das Ergebnis nicht gegen den wahren Wert für die Varianz der Grundgesamtheit. Formel (2) liefert im Mittel zu kleine Ergebnisse und wird daher seltener angewendet. Es ist bemerkenswert, dass es umfangreiche mathematische und statistische Handbücher[11][12][13] gibt, die die Formel (2) nicht erwähnen.

Formel (2) wird in der mathematischen Statistik begründet, z. B. durch Anwendung der Maximum-Likelihood-Methode, oder der Momentenmethode.

Formel (3) und (1) unterscheiden sich darin, dass bei Formel (3) die Berechnung des arithmetischen Mittels entfällt, weil der Mittelwert der Grundgesamtheit bekannt ist. Auch diese Formel ist erwartungstreu im Sinne der schließenden Statistik. Da für Formel (3) kein arithmetisches Mittel berechnet wird geht kein Freiheitsgrad bei der Berechnung verloren und es wird nur durch n geteilt.

Formel (3) kann man ebenfalls plausibilisieren, wenn man den Fall betrachtet: Bei 2 Datenwerten gibt es 2 Unterschiede im Vergleich zum vorbekannten Mittelwert . Daher wird in diesem Fall durch 2 geteilt.

Im Falle einer Vollerhebung aller Daten der Population sind die Formeln (2) und (3) gleichwertig, da in diesem Fall der Populationsmittelwert bereits aus den vorliegenden Daten bekannt ist: .

Wird nur von „der“ empirischen Varianz gesprochen, so muss daher darauf geachtet werden, welche Konvention beziehungsweise Definition im entsprechenden Kontext gilt. Weder die Benennungen noch die entsprechende Notation ist in der Literatur einheitlich:

  • Die Bezeichnung empirische Varianz wird von einigen Autoren nur für die unkorrigierte Varianz verwendet. Der Ausdruck Stichprobenvarianz wird in diesem Fall nur für die korrigierte Varianz verwendet.[8]
  • wird auch als erwartungstreue Stichprobenvarianz (und als verzerrte Stichprobenvarianz) bezeichnet, weil ein erwartungstreuer Schätzer für die Varianz ist.[14]
  • wird manchmal auch als theoretische Varianz oder induktive Varianz bezeichnet.[15]
  • Statt wird manchmal auch oder verwendet.
  • wird manchmal als mittlere quadratische Abweichung vom empirischen Mittelwert bezeichnet[16]
  • Statt wird manchmal auch verwendet

Empirische Varianz für Häufigkeitsdaten

In diesem Fall wird davon ausgegangen, dass die Stichprobenwerte nur konkrete Ausprägungen annehmen können. Das bedeutet: es bietet sich folgendes Vorgehen an:

  • Zuerst wird mit Hilfe einer größeren Stichprobe untersucht, wie häufig jede der Ausprägungen auftritt. Die Ergebnisse der Zählung sind die absolute Häufigkeiten der Ausprägungen, d. h. es die entsprechen der Anzahl des Auftretens von . Sie können in einer Häufigkeitstabelle zusammengefasst werden. Die Summe der ist gleich, wie die Anzahl der Stichprobenwerte .
  • Daraus werden die relativen Häufigkeiten (Wahrscheinlichkeiten für das Auftreten der jeweiligen Ausprägungen) berechnet.
  • Die Varianz ergibt sich schließlich aus den ermittelten Häufigkeitsdaten: den relativen Häufigkeiten der Ausprägungen und dem empirischen Mittelwert der Stichprobe.[8]
, mit
.

Empirische Varianz für Daten aus einer Zeitreihe

In diesem Fall sind Datenwerte als Zeitreihe gegeben. Beispielsweise wird sekündlich ein Wert gemessen. ist ein Zähler für die aufgelaufenen Werte seit dem Beginn der Rechnung.

Zu jedem Zeitpunkt der Zeitreihe soll die Varianz aus den letzten Werten von bestimmt werden.

Die Rechnung soll in Echtzeit unmittelbar nach dem Eintreffen von jedem neuen Wert erfolgen. In Echtzeitsystemen wird stark auf die erforderliche Rechenzeit in jedem Zeitschritt geachtet. Mit Formeln (1) bis (3) würde die erforderliche Rechenzeit mit der Zeit steigen, da ja auch die Summen immer mehr Werte umfassen. Das wird vermieden mit folgenden rekursiven Formeln, die auf den Schätz-Ergebnissen für und zum vergangenen Zeitpunkt aufbauen, und die in jedem Zeitschritt ausgeführt werden:[17]

Diese Formeln benötigen Startwerte für den Zeitpunkt . Bei ungünstiger Wahl nähern sich die Schätzwerte langsam den wahren Werten an. Daher sind günstige Vorbelegungen:

  • : Vorbelegung mit oder dem ersten erhaltenen Messwert, oder einem vorab erwarteten Mittelwert
  • : Vorbelegung mit oder einem vorab erwarteten Varianzwert

Eigenschaften der empirischen Varianz

Verteilung der empirischen Varianz

Die empirische Varianz folgt für unabhängige, normalverteilte Zufallsvariablen einer skalierten Chi-Quadrat-Verteilung:

Daher folgt:

sowie

Verhalten bei Transformationen

Verschiebung der Daten um einen konstanten Wert c: Varianz ändert sich nicht

Also: Wenn , so gilt:

Begründung: Es ist und somit , woraus die Behauptung folgt.

Skalierung der Daten um einen Faktor , also : Varianz skaliert um den Faktor :

.
Begründung: Dies folgt wie oben durch direktes Nachrechnen.

Genauigkeit der berechneten empirischen Varianz

Wenn man viele Stichproben nimmt, dann führt jede neue Stichprobe zu einer anderen Schätzung für die Varianz der Grundgesamtheit. D.h. die berechnete empirische Varianz (Stichprobenvarianz) hat ebenfalls eine Streuung. Diese Streuung ist ein Maß für die Qualität (Genauigkeit) der Varianzbestimmung. Für den Fall, dass die Streuung in einem gegebenen Anwendungsfall zu hoch ist, könnte man die Anzahl der Werte in der Stichprobe vergrößern oder den Mittelwert aus vielen verschiedenen Stichproben verwenden.

Die Streuung der Stichprobenvarianz kann durch die Berechnung der Grenzwerte des Konfidenzintervalles mit Hilfe der Chi-Quadrat-Verteilung beurteilt werden. Praktisch genügt jedoch häufig eine Abschätzung der Standardabweichung der Stichprobenvarianz mit folgenden Formeln[18] analog zu Formeln (1) und (3):

Standardabweichung der Stichprobenvarianz bei unbekanntem wahren Mittelwert der Gesamtheit:

Standardabweichung der Stichprobenvarianz bei bekanntem wahren Mittelwert der Gesamtheit:

Beispiel 1: Stichprobe mit Werten und der Varianz :

Dann lässt sich die Standardabweichung der Stichprobenvarianz abschätzen als:

Die Standardabweichung von ist im Vergleich zur Stichprobenvarianz erheblich. D.h. eine Stichprobe mit ist in den meisten Anwendungsfällen nicht geeignet um eine ausreichend verlässliche Aussage über die Varianz der Grundgesamtheit zu machen.

Beispiel 2: Stichprobe wird vergrößert auf Werte:

Dann lässt sich die Streuung der Stichprobenvarianz wie oben ermitteln als:

Die Streuung von 0,14 ist bei der Stichprobenvarianz brauchbarer, als das Ergebnis im ersten Beispiel.

Im Falle einer Normalverteilung würde das bedeuten, dass der wahre Varianzwert mit 95 % Wahrscheinlichkeit im Bereich von liegt. Im Falle der Berechnung der Grenzwerte mit der Chi-Quadrat-Verteilung ergeben sich fast die gleichen Werte.

Man sieht, dass eine akkurate Berechnung der empirischen Varianz deutlich größere Stichproben erfordert, als man intuitiv vermuten würde.

Alternative Darstellungen

Darstellung als durchschnittliches Abweichungsquadrat

Die Varianz wird in der Varianzanalyse oft als „mittleres“ bzw. „durchschnittliches“ Abweichungsquadrat bezeichnet und ergibt sich dann aus die Division der Summe der Abweichungsquadrate SQ und der Anzahl Freiheitsgrade FG:[19]

.[20]

Bei einer mehrdimensionalen Varianzanalyse werden die mittleren Abweichungsquadrate der jeweiligen Variablen werden in einer sogenannten Varianzanalysetabelle zusammengefasst.

Darstellung mittels Verschiebungssatz

Eine weitere Darstellung erhält man aus Anwendung des Verschiebungssatzes:[21]

Diese Formel ist jedoch aus numerischer Sicht nachteilig, da unter Umständen zwei sehr große Werte voneinander abgezogen werden. Das kann zur Rechenungenauigkeiten führen, wenn die Darstellungsgenauigkeit der Gleitkommazahlen im Rechner nicht ausreichend ist.

Darstellung als Doppelsumme (ohne vorausgehende Berechnung des empirischen Mittels)

Eine Darstellung, die ohne die vorausgehende Berechnung des empirischen Mittels auskommt, ist:

Herleitung: Wenn man das arithmetische Mittel der Beobachtungswerte in den Summanden der Doppelsumme

addiert und abzieht (also Null einfügt), dann gilt

.

Dies ist äquivalent zu

.

Abgeleitete Begriffe

Empirische Standardabweichung

Als empirische Standardabweichung[1] auch Stichprobenstreuung[3] oder Stichprobenstandardabweichung[1] genannt, wird die Wurzel aus der empirischen Varianz gemäß Formel (1)-(3) bezeichnet:

Die empirische Standardabweichung ist ebenfalls ein Maß dafür, wie weit die Stichprobe im Schnitt um den empirischen Mittelwert streut.

Im Gegensatz zur empirischen Varianz besitzt die empirische Standardabweichung dieselben Einheiten wie der empirische Mittelwert oder die Stichprobe selbst. Wie auch bei der empirischen Varianz ist die Benennung und Bezeichnung bei der empirischen Standardabweichung nicht einheitlich. Die empirische Standardabweichung sollte von der Standardabweichung im Sinne der Wahrscheinlichkeitstheorie unterschieden werden. Diese ist eine Kennzahl einer Wahrscheinlichkeitsverteilung oder der Verteilung einer Zufallsvariable, wohingegen die empirische Standardabweichung Kennzahl einer Stichprobe ist.

Empirischer Variationskoeffizient

Der empirische Variationskoeffizient ist ein dimensionsloses Streuungsmaß (nicht einheitenbehaftet) und drückt in Prozent des empirischen Mittelwerts aus.[22]

Annualisierte Varianz

In der Finanzmarkttheorie werden oft Varianzen bzw. Volatilitäten von Renditen berechnet. Diese Varianzen müssen, wenn sie auf täglichen Daten beruhen annualisiert werden, d. h. auf ein Jahr hochgerechnet werden. Dies geschieht mittels eines Annualisierungfaktors (pro Jahr gibt es etwa Handelstage). Die Volatilität lässt sich somit schätzen als Wurzel aus der annualisierten Varianz

.

Beispiel

Gegeben sei die Stichprobe

,

es ist also . Für den empirischen Mittelwert ergibt sich

.

Bei stückweiser Berechnung ergibt sich dann die Abweichungsquadratsumme

.

Mit Formel (1) erhält man

wohingegen Formel (2)

liefert.

Jetzt nehmen wir an, dass der Mittelwert der Grundgesamtheit, aus der die Stichprobe entnommen wurde, vorab bekannt sei:

Dann findet Formel (3) Anwendung:

.

Die entsprechenden empirischen Standardabweichungen ergeben sich zu:

Herkunft der verschiedenen Definitionen

Die empirische Varianz, ist ein Streuungsmaß um den Mittelwert der Datenwerte. Die gegebenen Werte sind .

Bei der Verwendung der Varianz als Streuungsmaß wird die Quadratsumme als Ausgangspunkt verwendet:

Um das Streuungsmaß unabhängig von der Anzahl der Messwerte in der Stichprobe zu machen, wird als einfachste Lösung noch durch die Anzahl der Werte dividiert. Ergebnis dieses pragmatisch hergeleiteten Streuungsmaßes ist die mittlere quadratische Abweichung vom empirischen Mittelwert oder die oben definierte Varianz .

Die Definition von hat ihre Wurzeln in der Schätztheorie. (→ Stichprobenvarianz (Schätzfunktion))

Dort wird die Varianz der Grundgesamtheit geschätzt durch:

als erwartungstreue Schätzfunktion für die unbekannte Varianz einer Wahrscheinlichkeitsverteilung verwendet.

ergibt sich durch Anwendung der Schätzfunktion auf Realisierungen (konkrete Werte) der Zufallsvariablen .

Somit kann als ein praktisch motiviertes Streuungsmaß in der deskriptiven Statistik angesehen werden, wohingegen eine Schätzung für eine unbekannte Varianz in der induktiven Statistik ist. Diese unterschiedlichen Ursprünge rechtfertigen die von manchen Autoren verwendete Sprechweise für als empirische Varianz und für als induktive Varianz oder theoretische Varianz.

Zu bemerken ist, dass sich auch als Schätzwert einer Schätzfunktion interpretieren lässt. Diesen erhält man bei Anwendung der Maximum-Likelihood-Methode, oder der Momentenmethode als Schätzfunktion für die Varianz, die zwar nicht erwartungstreu ist, und daher nicht alle Qualitätskriterien für Punktschätzungen erfüllt, aber dafür die gegebenen Variablen optimal in eine Normalverteilung einpasst. Der Parameter der Normalverteilung wird bestimmt durch:

.

Der Unterschied zwischen beiden Formeln lässt sich in der mathematischen Statistik dadurch erklären, dass das Quadrat einer (symmetrischen) normalverteilten Zufallsgröße nicht ebenfalls normalverteilt ist, sondern eine (unsymmetrische) Chi-Quadrat-Verteilung aufweist.

Literatur

  • Behrends 2013 – Ehrhard Behrends: Elementare Stochastik. Ein Lernbuch – von Studierenden mitentwickelt. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-8348-1939-0.
  • Beyer 1988 – Otfried Beyer, Horst Hackel, Volkmar Pieper, Jürgen Tiedge: Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. B. G. Teubner, Leipzig 1988, ISBN 3-322-00469-4.
  • Bronstein 2020 – I. N. Bronstein, K. A. Semendjajew, G. Musiol, H. Mühlig: Taschenbuch der Mathematik. 11. Auflage. Verlag Europa-Lehrmittel Nourney, Vollmer GmbH & Co. KG, Haan-Gruiten 2020, ISBN 978-3-8085-5792-1.
  • Cleff 2015 – Thomas Cleff: Deskriptive Statistik und Explorative Datenanalyse. Eine computergestützte Einführung mit Excel, SPSS und STATA. 3. Auflage. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5.
  • Duden 2020 – Harald Scheid: Duden: Rechnen und Mathematik. 6. Auflage. Bibliographisches Institut & F.A. Brockhaus AG, Mannheim 2020, ISBN 978-3-411-05346-9.
  • Fahrmeir 2016 – Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8. Auflage. Springer Verlag, Berlin / Heidelberg 2016, ISBN 978-3-662-50371-3.
  • Hartung 2005 – Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener: Statistik. Lehr- und Handbuch der angewandten Statistik. 14. Auflage. R. Oldenbourg Verlag, München / Wien 2005, ISBN 3-486-57890-1.
  • Henze 2013 – Norbert Henze: Stochastik für Einsteiger. Eine Einführung in die faszinierende Welt des Zufalls. 10. Auflage. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-658-03076-6.
  • Kabluchko 2017 – Zakhar Kabluchko: Mathematische Statistik - Skript zur Vorlesung. Münster 2017 (uni-muenster.de [PDF; abgerufen am 1. Februar 2022]).
  • Kosfeld 2016 – Reinhold Kosfeld, Hans Friedrich Eckey, Matthias Türck: Deskriptive Statistik. Grundlagen – Methoden – Beispiele – Aufgaben. 6. Auflage. Springer Gabler, Wiesbaden 2016, ISBN 978-3-658-13639-0.
  • Toutenburg 2008 – Helge Toutenburg, Christian Heumann: Deskriptive Statistik. 8. Auflage. Springer-Verlag, Berlin/Heidelberg 2008, ISBN 978-3-540-77787-8.
  • Young 2011 – Peter C. Young: Recursive Estimation and Time-Series-Analysis. 2. Auflage. Springer-Verlag, Berlin / Heidelberg 2011, ISBN 978-3-642-21980-1.

Einzelnachweise

  1. a b c Henze 2013: S. 31ff
  2. a b c d Kabluchko 2017, Kapitel 1.4: Empirische Varianz
  3. a b c Behrends 2013: S. 274f
  4. Beyer 1988
  5. Kabluchko 2017, Kapitel 1.4: Empirische Varianz
  6. Cleff 2015: S. 56
  7. Hartung 2005: S. 153f
  8. a b c Fahrmeir 2016: Kapitel 2.2.3 Standardabweichung, Varianz und Variationskoeffizient
  9. Kunyu He: Statistics in ML: Why Sample Variance Divided by n Is Still a Good Estimator. 18. Mai 2020, abgerufen am 9. Mai 2022 (englisch).
  10. FernUni Hagen 2020: Empirische vs Stichprobenvarianz. In: YouTube. FernUni Hagen: https://www.statstutor.de/, 19. April 2020, abgerufen am 1. Februar 2022.
  11. Bronstein 2020
  12. Hartung 2005
  13. Duden 2020: Varianz
  14. Kapitel 10: Erwartungstreue Schätzer (Memento des Originals vom 31. Dezember 2018 im Internet Archive)  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.alt.mathematik.uni-mainz.de (PDF-Datei), www.alt.mathematik.uni-mainz.de, abgerufen am 31. Dezember 2018
  15. Cleff 2015: S. 255
  16. Toutenburg 2008: S. 75
  17. Young 2011 - Chapter 2: Recursive Estimation, Seite 19
  18. HU-Berlin 2018: Verteilung der Stichprobenvarianz, Kapitel 1.2, abgerufen am 1. Februar 2022.
  19. Werner Timischl: Angewandte Statistik. Eine Einführung für Biologen und Mediziner. 2013, 3. Auflage, S. 109.
  20. Lothar Sachs: Statistische Auswertungsmethoden, S. 400.
  21. Kosfeld 2016
  22. Beyer 1988: Kapitel 3.1.1.3. Statistische Maßzahlen, S. 120