PISA-Studien

PISA-Testdokumente

Das Programm zur weltweiten Schülerbeurteilung (englisch „Programme for International Student Assessment“, kurz: PISA) der OECD hat zum Ziel, alltagsrelevante Kenntnisse und Fähigkeiten 15-jähriger Schüler zu messen. Die PISA-Studien werden seit dem Jahr 2000 in dreijährigem Turnus in den meisten Mitgliedsstaaten der OECD und einer zunehmenden Anzahl von Partnerstaaten durchgeführt.

Abgrenzung

Dieser Artikel behandelt die internationale Studie der OECD. Das Konzept der OECD sieht allerdings ausdrücklich die Möglichkeit vor, dass Teilnehmerstaaten den internationalen Test um nationale Komponenten erweitern. Diese Möglichkeit wurde in Deutschland extensiv genutzt: für die Erweiterungsstudie wurde ein wesentlich größerer Aufwand getrieben als für den internationalen Test. Siehe dazu den Artikel PISA-E.

Zur Unterscheidung wird der internationale Test gelegentlich als PISA-I bezeichnet; nach Umdeutung des redundanten I von International in eine römische Ziffer wird PISA-2003 gelegentlich auch PISA-II genannt. Weiterhin wird in Deutschland PISA-International-Plus durchgeführt, eine Studie, in der einige Schulklassen nach einem Jahr ein zweites Mal getestet werden, um Lernfortschritte im Laufe des 9./10. Schuljahrs zu messen. Der Plan einer Ausweitung von PISA auf Erwachsene wurde in Form einer Studie über mathematische Kompetenzen der Eltern (PISA-Elternstudie) realisiert.

Konzept

Die folgenden Merkmale unterscheiden PISA zum Teil deutlich von früheren Schulleistungsuntersuchungen:

  • PISA wird im Auftrag der Regierungen durchgeführt (in Deutschland: der Kultusministerkonferenz).
  • PISA soll in regelmäßigem Turnus fortgeführt werden.
  • PISA untersucht Schüler einer Altersstufe, nicht einer schulischen Klassenstufe.
  • PISA konzentriert sich nicht auf ein einzelnes Schulfach, sondern untersucht die drei Bereiche Lesekompetenz, Mathematik und Naturwissenschaften.
  • Aufgaben werden in „persönlich oder kulturell relevante Kontexte“ eingebettet.
  • PISA orientiert sich nicht an der Schnittmenge nationaler Curricula, sondern postuliert einen eigenen Bildungsbegriff, der auf Englisch als literacy bezeichnet wird: „das Wissen, die Fähigkeiten, die Kompetenzen, ... die relevant sind für persönliches, soziales und ökonomisches Wohlergehen“ [Measuring Student Knowledge and Skills: A New Framework for Assessment (OECD 1999) [1]]. „Hinter diesem Konzept verbirgt sich der Anspruch, über die Messung von Schulwissen hinauszugehen und die Fähigkeit zu erfassen, bereichsspezifisches Wissen und bereichsspezifische Fertigkeiten zur Bewältigung von authentischen Problemen einzusetzen.“ [Internationale Grundkonzeption laut Deutschem Projektpartner [2]]

Vertragsmäßige Aufgabe der OECD ist Politikberatung. PISA soll nicht nur eine Beschreibung des Ist-Zustands liefern, sondern Verbesserungen auslösen. Insoweit PISA ein eigenes Bildungskonzept zugrundeliegt, wird zumindest implizit der Anspruch erhoben, auf die nationalen Lehrpläne zurückzuwirken.

Jede PISA-Studie umfasst die drei Bereiche Lesekompetenz, Mathematik, Naturwissenschaften. Bei jedem Durchgang wird ein Bereich vertieft untersucht: 2000 die Lesekompetenz, 2003 Mathematik, 2006 Naturwissenschaften. Dieser Zyklus soll alle neun Jahre wiederholt werden.

Zusätzlich wird in jeder Studie ein Querschnittsthema untersucht: 2000 Lernstrategien und Selbstreguliertes Lernen, 2003 Problemlösung, 2006 Informationstechnische Grundbildung. Diese Zusatzuntersuchung wird nicht in allen Staaten durchgeführt.

Realisierung

Vorbereitung, Durchführung und Auswertung von PISA 2000 sind in einem über 300-seitigen technischen Bericht beschrieben.

Projektleitung

PISA beruht auf internationaler Zusammenarbeit. Die PISA-Studie wird im Auftrag der OECD durchgeführt (OECD-Projektseite). Sie wird koordiniert von einem Internationalen Konsortium unter Leitung des Australian Council for Educational Research (ACER). Auf Seiten der OECD leitet Andreas Schleicher das Projekt. Jeder Teilnehmerstaat wird durch eine nationale Projektleitung vertreten.

  • In Deutschland wurde PISA 2000 vom Max-Planck-Institut für Bildungsforschung in Berlin koordiniert; für PISA 2003 und 2006 ist die Projektleitung an das IPN in Kiel übergegangen.
  • In der Schweiz wird PISA vom Eidgenössischen Statistikamt in Neuenburg koordiniert. Dort kann man auch nachlesen, dass die nationale Durchführung einer Dreijahresstudie 3 Mio. SFr Projektkosten verursacht (Personalkosten, Honorare, Reisekosten, Beiträge zur internationalen Koordination – nicht eingerechnet aber die Gehaltsanteile der Festangestellten, die einen Teil ihrer Arbeitszeit auf PISA verwenden).

Vorbereitung

Der Prozess der Evaluation der Testaufgaben wurde von jedem teilnehmenden Land begleitet und beeinflusst und reichte von der Entwicklung durch das internationale PISA Entwicklungsteam, Übersetzung in die Sprachen der Teilnehmerländer, über die Bewertung jedes Einzelitems durch Lehrplanexperten und Vortestungen in jedem Teilnehmerstaat bis hin zur Rasch-Skalierung. Der komplette Prozess der Evaluation ist im technischen Bericht nachzulesen. Die Schul- und Schülerstichproben wurden so gewählt, dass sie nach heutigem Forschungsstand bestmöglich repräsentativ für die jeweilige Landesbevölkerung stehen (siehe ebenfalls Technischer Bericht).

Testdurchführung

An PISA 2000 nahmen 43 Staaten teil [3]; in den offiziellen Veröffentlichungen werden jedoch nur Daten für 32 Staaten berichtet. In diesen Staaten wurden rund 180.000 Schüler getestet: zwischen 4.500 und 10.000 pro Staat. In Liechtenstein, Luxemburg und Island umfasste die Stichprobe die gesamte fünfzehnjährige Bevölkerung.

Die Schüler bearbeiten nicht alle die gleichen Aufgaben. Zur Verbesserung der Datenqualität (und um den Preis einer zusätzlichen Skalierung) umfasst eine Studie neun Aufgabenhefte (test booklets), von denen jeder Schüler nur vier bearbeitet (rotated test design). Im Anschluss an die vier dreißigminütigen Aufgabenbearbeitungen füllt jeder Schüler einen umfangreichen Fragebogen (questionnaire) vor allem zu seinem sozioökonomischen Hintergrund aus. Die Zusatzuntersuchung zum selbstregulierten Lernen erfolgte 2000 über Fragebögen [?]; die Untersuchung zur Problemlösung bezog 2003 auch Testaufgaben ein (die Aufgaben aus den drei Kompetenzbereichen oder spezielle Aufgaben ??].

Datenerfassung und -aufbereitung

Sämtliche Antworten eines Schülers werden von speziell geschulten Kräften in Codebuchstaben oder -ziffern übersetzt und in einen Computer eingegeben. Sämtliche Datensätze werden einem Subkontraktor (dem australischen Statistik-Institut ACER) zur Skalierung übergeben. Aus den Schülerantworten (und zwar nur denen aus den OECD-Mitgliedsstaaten) wird zunächst der Schwierigkeitsgrad der einzelnen Teilaufgaben („Items“) bestimmt. Anschließend werden die skalierten Daten an die nationalen Projektgruppen zurückgegeben, die die Daten ausführlich auswerten. OECD und nationale Projektgruppen publizieren erste Ergebnisse jeweils im Folgejahr der Testdurchführung.

Nach Veröffentlichung der ersten Ergebnisse werden die Datensätze (mit Ausnahme einiger Schlüssel, in Deutschland zum Beispiel Bundesland und Schulform) auch externen Forschern zugänglich gemacht: originale Schülerantworten und skalierte Schülerdaten können bei ACER heruntergeladen werden [4], sind aber, wie aus dem zugehörigen Handbuch [5] ersichtlich, nur für Spezialisten nutzbar. Eine unabhängige didaktische Interpretation ist nicht möglich, da die Schülerantworten im veröffentlichten Datensatz nur als <richtig | falsch | nicht bearbeitet> codiert und die Aufgaben nicht erhältlich sind.

Die veröffentlichten Aufgabenlösungen suggerieren, dass bei der Erfassung von Schülerantworten auf Multiple Choice-Frage (im Gegensatz zu Aufgaben mit anderem Antwortformat) zwischen „falsch“ und „nicht bearbeitet“ nicht unterschieden wird. Das Codierungshandbuch deutet jedoch darauf hin, dass diese Information falsch ist und im internationale Rohdatensatz sehr wohl codiert ist, ob eine Antwort gegeben wurde und wenn ja, welche. Mangels klarer Aussagen muss man jedoch vermuten, dass in der offiziellen Datenaufbereitung (siehe nächsten Abschnitt) zwischen falschen (also möglicherweise geratenen) und nicht gegebenen Antworten nicht unterschieden wurde - im Gegensatz zu anderen standardisierten Tests (z. B. SAT), wo falsche MC-Antworten mit Punktabzug sanktioniert werden.

Aufgaben

Mit Hilfe des Copyrights schafft es das PISA-Konsortium, die weltweit gestellten Aufgaben geheim zu halten. Die Geheimhaltung ist nötig, um einzelne Aufgaben in Folgestudien wiederverwenden zu können, was wiederum nötig ist, um die Schwierigkeitsskalen aufeinander zu beziehen.

Veröffentlicht wurden nur einige Beispielaufgaben, und zwar in allen Sprachen die gleichen. Zum Teil stammen die freigegebenen Aufgaben aus Voruntersuchungen, die wegen bestimmter Mängel nicht im Hauptdurchgang verwendet wurden; eine Aufgabe („Antarktis“) hat sich 2000 erst im Hauptdurchgang als mangelhaft erwiesen.

Auswertung

Die Auswertung der PISA-Studie beruht auf mathematischen Modellen, die es erlauben, Aufgabenschwierigkeiten und Schülerkompetenzen auf ein und derselben Leistungsskala zu beschreiben (Rasch-Modell; siehe auch Rost, J. (2004). Testtheorie. Bern: Huber.). Diese Skala wurde willkürlich so gewählt, dass die Schülerkompetenzen der gesamten OECD-Stichprobe (ohne Partnerländer) den Mittelwert 500 und die Standardabweichung 100 haben. Das heißt: Schüler mit der Leistungsfähigkeit 400, 500, 600 sind leistungsfähiger als 15,9 %, 50 % oder 84,1 % aller OECD-Schüler. Durch die erstmalige Einbeziehung der Türkei mit ihren niedrigen Werten in die Berechnung des OECD-Mittelwertes im Jahre 2003 hat sich der Wert aller anderen Länder gegenüber 2000 um 3 Punkte verbessert, ohne dass in diesen Ländern irgendetwas Inhaltliches zu dieser Verbesserung beigetragen worden ist. Würde man die Länder entsprechend ihren Schülerzahlen im getesteten Jahrgang bei der Mittelwertsbildung gewichten, ließen sich weitere derartige „Verbesserungen“ erreichen.

Eine ähnliche Skalenkonstruktion ist von IQ-Tests bekannt, deren Mittelwert 100 und deren Standardabweichung zumeist 15 ist, der Umrechnungsfaktor demnach 100 zu 15 = 6,67 für die Abweichungen vom PISA-Mittelwert 500. Nach Meinung der Bildungsforscher haben die Aufgaben aus den PISA-Tests allerdings nichts mit IQ-Tests zu tun, und sie sträuben sich deshalb gegen eine Umrechnung in IQ-Werte (Kritik).

Die Leistungsskala der PISA-Studien ist so konstruiert, dass die Schülerfähigkeiten normalverteilt sind mit Mittelwert 500 und Standardabweichung 100. Eine solche Normierung (mit Mittelwert 100 und Standardabweichung von zumeist 15) ist seit langem in IQ-Tests üblich.

Tatsächlich verwendet PISA nicht eine sondern drei Leistungsskalen, für die drei Kompetenzfelder Lesen, Mathematik, Naturwissenschaften. Für dasjenige Kompetenzfeld, das in einem Durchgang vertieft untersucht wird, werden überdies Subskalen gebildet. In PISA 2000 wurde die Lesekompetenz aufgegliedert in „Informationen ermitteln“, „textbezogen Interpretieren“ und „Reflektieren und Bewerten“; in PISA 2003 gibt es für den Schwerpunkt Mathematik vier Subskalen: „Raum und Form“, „Veränderung und Beziehung“, „Quantität“ und „Unsicherheit“.

Alle Kompetenzen und Subkompetenzen sind jedoch hoch miteinander korreliert, und es lässt sich aus ihnen leicht ein Mittelwert bilden. Eine zusammenfassende Bewertung auf einer Skala findet sich zwar in keiner der offiziellen Publikationen; sie wurde jedoch von einigen Presseorganen hergestellt, um PISA noch plakativer als einen quasi olympischen Ländervergleich darstellen zu können.

Es wird postuliert, dass Aufgabenschwierigkeit und Schülerkompetenz die Lösungswahrscheinlichkeit festlegen. Eine Aufgabe i hat zum Beispiel die Schwierigkeit ξi=550, wenn ein Schüler ν mit der Leistungsfähigkeit σν=550 diese Aufgabe mit „hinreichender Sicherheit“ lösen kann. In willkürlicher Weise wird definiert, dass „hinreichende Sicherheit“ eine Lösungswahrscheinlichkeit von 62% bedeutet.

Dabei wird angenommen, dass eine Teilaufgabe immer nur eine Kompetenz testet, also entweder Mathematik oder Interpretieren usw.. Der technische Bericht hingegen beschreibt ein fünfdimensionales Modell, in dem jede Schülerantwort von einer Linearkombination aller fünf Kompetenzen gesteuert wird. Wie das zusammenpasst, ist unklar.

Im Rahmen der Auswertung müssen aus den Schülerdatensätzen sowohl die Aufgabenschwierigkeiten als auch die Schülerkompetenzen ermittelt werden. Diese Auswertung ist von Modellannahmen (Item Response Theory) abhängig, überaus kompliziert und schlecht dokumentiert. Die offizielle Beschreibung im technischen Bericht (S. 99ff.) ist sehr allgemein gehalten. Es werden keine konkreten Zahlenwerte für die Modellparameter angegeben; es nicht einmal möglich, die Dimension wichtiger Vektoren zu erschließen. Folgendes lässt sich einigermaßen zuverlässig herauslesen:

Es werden je 500 Schüler aus 27 OECD-Ländern ausgelost. Es wird angenommen, dass die latenten Fähigkeit (für PISA 2000 also die Leistungsmaße für Mathematik, Naturwissenschaft und dreimal Lesen) unter den 13.500 Schülern der Stichprobe multivariat normalverteilt sind. Unter dieser Annahme kann man die Koeffizienten eines Item Response Modells berechnen, das beschreibt, wie schwer einem Probanden mit bestimmtem Fähigkeitsprofil eine bestimmte Teilaufgabe fällt.
Das Fähigkeitsprofil des Schülers ν ist ein Vektor σν, dessen fünf Komponenten gerade die Teilkompetenzen in Mathematik, Naturwissenschaft und dreimal Lesen sind. Die Aufgabenschwierigkeit ξi wird in diesem Teil des technischen Berichts als ein Vektor (mit unbekannter Dimension p), überall sonst aber als ein Skalar beschrieben.
Man weiß nun, mit welcher Wahrscheinlichkeit ein bestimmter Fähigkeitsvektor ein bestimmtes Antwortverhalten zur Folge hat. Die Aufgabe lautet aber umgekehrt, aus dem tatsächlichen Antwortmuster auf die Fähigkeiten zurückschließen. Das geht nicht in eindeutiger Weise. In den skalierten Schülerdatensätzen werden zwei Wege beschritten, um in approximativer Weise Schülerfähigkeiten mitzuteilen: (1) Es werden die wahrscheinlichsten Fähigkeitswerte (Maximum Likelihood Estimates) angegeben. Diese Werte sind jedoch nicht geeignet, um größere Populationen zu charakterisieren. (2) Es werden sogenannte plausible values angegeben: für jeden der 180.000 Probanden werden mit Hilfe von Zufallszahlen fünf beispielhafte Fähigkeitsvektor ausgelost, wobei die Auslosung so gesteuert wird, dass bei Mittelung über eine hinreichend große Population die gemessenen Antwortmuster reproduziert werden. Alle weiterführenden Analysen, die auf diesem Datensatz aufbauen, zieht man sinnvollerweise fünfmal mit je einer Instanz des Fähigkeitsvektors pro Schüler durch; durch Vergleich der fünf numerischen Endergebnisse kann man am Ende beurteilen, welche Unsicherheit durch die Verwendung von Zufallszahlen verursacht wird.

Zur Charakterisierung bestimmter Teilpopulationen, zum Beispiel nach Land, nach Geschlecht oder nach sozioökonomischen Kriterien, bildet man einfach Mittelwerte über die „plausible value“-Fähigkeitswerte der einzelnen Schüler.

Offizielle Interpretation: Kompetenzstufen

Die offiziellen Veröffentlichungen legen großen Wert darauf, die quantitativen Ergebnisse mit Hilfe sogenannter Kompetenzstufen qualitativ zu interpretieren. Das ist notwendig, weil die Punktwerte uns noch nichts Inhaltliches erzählen. Wir wissen ja zum Beispiel nicht, wie viele (und welche) Aufgaben mehr ein finnischer Schüler im Vergleich zum deutschen Schüler gelöst hat. Diese Kompetenzstufen beruhen auf a-priori-Charakterisierungen der Aufgaben und auf Verarbeitung gemessenen Lösungshäufigkeiten. In der Mathematikdidaktik ist mittlerweile ein heftiger Streit darüber entbrannt, ob so eine Konstruktion überhaupt möglich ist. Die Argumentationslinie ist dabei die, dass die unterschiedlichen Lösungswege der Aufgaben es unmöglich machen, einer Aufgabe eine inhaltliche Schwierigkeit eindeutig zuzuweisen. Die Kompetenzstufen seien damit inhaltlich nicht konstruierbar (vergleiche z. B. Journal für Mathematik-Didaktik, Heft 3/4 - 2004, 1 - 2005, 3/4-2005).

Quantitative Ergebnisse

Allen Warnungen der Testentwickler zum Trotz werden die Ergebnisse der PISA-Studien in der Öffentlichkeit zumeist auf eine Kennzahl pro Land reduziert; Signifikanzgrenzen werden ignoriert; und das ganze wird interpretiert wie ein olympischer Medaillenspiegel: nur mit Blick auf das Ranking.

2003

Die sechs Länder, die am erfolgreichsten abgeschnitten haben, sowie Länder mit deutschsprachigem Bevölkerungsanteil:

Mathematik Lesefähigkeit Naturwissenschaften
1. Hongkong 550
2. Finnland 544
3. Südkorea 542
4. Niederlande 538
5. Liechtenstein 536
6. Japan 534
8. Belgien 529
10. Schweiz 524
18. Österreich 506
19. Deutschland 503
23. Luxemburg 493
31. Italien 466
1. Finnland 543
2. Südkorea 534
3. Kanada 528
4. Australien 525
5. Liechtenstein 525
6. Neuseeland 522
11. Belgien 507
13. Schweiz 499
21. Deutschland 491
22. Österreich 491
27. Luxemburg 479
29. Italien 476
1. Finnland 548
2. Japan 548
3. Hongkong 539
4. Südkorea 538
5. Liechtenstein 525
6. Australien 525
12. Schweiz 513
14. Belgien 509
18. Deutschland 502
23. Österreich 491
27. Italien 486
29. Luxemburg 483

In der Gesamtrangfolge bildeten Finnland, Südkorea und die Niederlande die Spitzengruppe. Sieger im Schwerpunktfach Mathematik ist Hongkong. Als Erklärung für das hervorragende Abschneiden der Finnen wird angeführt, dass die Schulen in Finnland sehr autonom handeln können und zugleich einer wirkungsvollen Qualitätskontrolle unterliegen. Statt detaillierte Lehrpläne vorzuschreiben, beschränkt sich die finnische Bildungsbürokratie darauf, Lernziele vorzugeben und landesweite Tests zu erarbeiten, mit denen überprüft wird, wie gut die Ziele erreicht wurden. Außerdem werden die Schulen anders finanziert. Mit der höchsten Kapitalgewinn-Steuerbelastung hat Finnland als einziges Land in Europa auch keine Milliardäre, dafür sehr hohe Unternehmensumsätze und damit Steuereinnahmen für staatliche Ausgaben. Abgeschlagen auf den letzten Plätzen liegen Länder wie Mexiko und Brasilien. (siehe auch: Bildungssystem Finnland)

Deutschsprachige Länder

Das beste deutschsprachige Land in der Wertung nach Staaten ist 2003 Liechtenstein, welches in Mathematik, Lesefähigkeiten und Naturwissenschaft Platz 5 erreicht hat. 2000 lag Liechtenstein in Lesefähigkeit und Naturwissenschaften hingegen mit Punktzahlen um 480 noch hinter Deutschland, was Zweifel an der Validität der Ergebnisse nahelegt; tatsächlich wohnen in ganz Liechtenstein kaum mehr als 300 Fünfzehnjährige, während in anderen Ländern mehrere Tausend Schüler getestet werden.

Die Schweiz hat beim PISA-Test als zweitbestes Land im deutschsprachigen Raum abgeschnitten. Beim diesjährigen Untersuchungsschwerpunkt Mathematik belegten die Schweizer Schülerinnen und Schüler - wie schon im letzten Jahr - Platz 7. Im Fach Naturwissenschaften stieg die Schweiz vom 18. auf den 9. Platz auf. Im Lesen und beim Textverständnis reichte es für die Schweizer Schüler für den 11. Rang, nach Platz 17 im letzten Jahr.

Österreich sackte im Vergleich zu PISA 2000, als das Abschneiden noch im oberen Mittelfeld lag, im Rahmen der PISA 2003 Studie um 10 Plätze ab und befindet sich nunmehr in der Mitte der getesteten Länder.

Südtirol scheint Grund zur Zufriedenheit zu haben (Einschätzung). Die Schulen des Landes haben exzellent abgeschnitten, und zwar im Schnitt besser als der Sieger in der Länderwertung (Finnland). Dabei haben die Institute mit deutscher Unterrichtssprache leicht besser abgeschnitten als die italienischen. Zu beachten ist die vergleichsweise geringe Anzahl ausländischer bzw. fremdsprachiger Schüler und ein enormer Aufwand des autonomen Schulsystems, Benachteiligte zu integrieren und zu fördern.

Deutschland landete bei der Auswertung im Mittelfeld. Neben dem schlechten Gesamtergebnis fällt auf, dass in Deutschland die soziale Herkunft stärker als in jedem anderen Land über Bildungschancen entscheidet. Das wurde bei folgenden Studien bestätigt. Es existieren auch geschlechtsspezifische Leistungsdifferenzen: Der Differenzwert zwischen Jungen und Mädchen in der naturwissenschaftlichen Kompetenz beträgt in Deutschland 6 Punkte zugunsten der Jungen (international ebenfalls 6 Punkte) und gilt als statistisch nicht signifikant. In Mathematik liegt der Vorsprung bei 9 Punkten (international 11). Die Lesekompetenz der Mädchen übertrifft die der Jungen mit 42 Punkten dagegen erheblich (international 34 Punkte).

Die PISA-Ergebnisse sind konsistent mit denen der TIMSS-Studie, die in den 1990er Jahren deutschen Schülern schlechte Leistungen in Mathematik bescheinigt hatte.

Rezeption

PISA 2000 hat in einigen Teilnehmerstaaten ein heftiges Medienecho ausgelöst; in Deutschland ist das Wort „PISA“ zum Inbegriff aller Probleme des Bildungswesens geworden.

Deutschland

In Deutschland fanden die Ergebnisse von PISA-2000 ein so überwältigendes Medien-Echo, dass von einem PISA-Schock gesprochen wurde. Besonderes Interesse fand der Leistungsvergleich der Bundesländer (PISA-E); bis dato hatten Kultusministerien einen solchen Vergleich stets zu verhindern gewusst.

Österreich

In Österreich löste die Veröffentlichung der Ergebnisse der PISA 2003 Studie heftige politische Debatten aus. Ähnlich wie in Deutschland sind soziale Unterschiede auffällig. Schüler aus allgemeinbildenden höheren Schulen, die schon bei PISA 2000 die besseren Ergebnisse lieferten, konnten das Niveau in etwa halten, während Schüler aus berufsbildenden Schulen stark absackten. Die Regierungsparteien (ÖVP und FPÖ) verwiesen bevorzugt auf schlechte Deutschkenntnisse von Ausländerkindern. Ministerin Gehrer konstatierte weiterhin ein Fehlverhalten von Eltern, die sich zu wenig um ihre Kinder kümmern würden. Die Opposition (SPÖ und Grüne) äußerte den Vorschlag, statt des stark diversifizierten Schulensystems eine Gesamtschule einzuführen. Diese Idee ist stark beeinflusst vom finnischen Vorbild. Im dortigen Schulsystem gibt es zwar extreme Leistungsunterschiede innerhalb, aber kaum zwischen den Schulen. In Österreich jedoch war das Gegenteil zu spüren.

PISA-Sonderstudien

Wo haben Schüler mit Migrationshintergrund die größten Erfolgschancen?

Mit der Sonderstudie Where Immigrant Students Succeed – a comparative Review of Performance and Engagement from PISA 2003 (deutscher Titel: Wo haben Schüler mit Migrationshintergrund die größten Erfolgschancen? – Eine vergleichende Analyse von Leistung und Engagement in PISA 2003) wurde ermittelt, ob Migrantenkinder im Schulsystem ebenso erfolgreich sind wie autochthone Schüler und Schülerinnen.

Ein erstes Ergebnis war, dass kein ausschlaggebender Zusammenhang zwischen dem Umfang der zugewanderten Schüler und Schülerinnen in den Beispielländern und dem Umfang der zwischen Migrantenkindern und einheimischen Schülerinnen und Schülern beobachteten Leistungsunterschiede bestehe. Dies widerlege die Annahme, wonach sich ein hohes Zuwanderungsniveau negativ auf die Integration auswirke.

Im Ländervergleich dieser Studie sei Deutschland das Schlusslicht bei der Integration von Migrantenkindern der zweiten Generation. Obschon den Migrantenkindern von der Studie Lernbereitschaft und eine positive Einstellung attestiert wurde, sind ihre Erfolgschancen im deutschen Bildungssystem geringer als in jedem anderen der 17 untersuchten Staaten:

  • Im Durchschnitt liegen Migrantenkinder gegenüber einheimischen Kindern um 48 Punkte zurück; in Deutschland jedoch 70 Punkte.
  • Während in fast allen anderen teilnehmenden Staaten in der zweiten Generation die Migrantenkinder höhere Leistungspunktzahlen erreichen, sinken diese in Deutschland noch einmal extrem: Migrantenkinder der zweiten Generation liegen hinter ihren Mitschülern und Mitschülerinnen rund zwei Jahre zurück. Über 40% erreichen von ihnen nicht die Grundkenntnisse der Leistungsstufe 2 in Mathematik und schneiden auch in der Lesekompetenz ähnlich schlecht ab.

Auch unter der Berücksichtigung der sozialen Herkunft bleiben diese Ergebnisse in Deutschland ähnlich dramatisch.

Leistungspunkte in Mathematik der 15jährigen Schüler und Schülerinnen
Schüler ohne Migrationshintergrund Schüler der ersten Generation* Schüler der zweiten Generation**
OECD-Durchschnitt 523 475 483
Deutschland 525 454 432
*im Ausland geboren, ausländische Eltern - **im Erhebungsland geboren, ausländische Eltern


Insbesondere weist die Studie darauf hin, dass für die zweite Generation der Migrantenkinder in Deutschland gelte, dass sich die Unterschiede bei den relativen Leistungsniveaus der Schülerinnen und Schüler mit Migrationshintergrund nicht in vollem Umfang durch die zu Hause gesprochene Sprache erklären [...] lasse. Belgien, Deutschland, Luxemburg, die Niederlande, Österreich, Schweden und Macau (China) gehörten zu den Ländern, wo Schüler und Schülerinnen mit Migrationshintergrund Schulen besuchen, die schlechtere Bedingungen für Schuldisziplin und -klima aufweisen.

Die Bildungsforscherin Mechthild Gomolla spricht in diesem Zusammenhang von einer Institutionalisierten Diskriminierung gegenüber Migrantenkindern im Bildungssystem.

Kritik

Was messen PISA-Aufgaben?

Heiner Rindermann, Volkmar Weiss [6] und Siegfried Lehrl argumentieren (siehe Literatur unten), PISA sei ein Unternehmen zur Messung der Allgemeinen Intelligenz, und zwar das aufwendigste und beste international je unternommene. Die Länder-Ergebnisse von PISA stimmen auf plus oder minus drei IQ-Punkte mit den IQ-Daten (und -Schätzungen) im Buch „IQ and the Wealth of Nations“ (Lynn und Vanhanen, 2002) überein. Die gefundenen Korrelationen, die auf Grund der meist vorzüglichen Repräsentativität der Stichproben höher sind als zwischen den bisher üblichen IQ-Tests, beweisen für die Befürworter von IQ-Tests die grundlegende Übereinstimmung von PISA-Ergebnissen mit den Ergebnissen von einem Jahrhundert klassischer Intelligenzforschung und die Brauchbarkeit bewährter, standardisierter IQ-Tests, ebenso wie die sehr hohen Korrelationen zwischen PISA-Werten und IQ mit den Ergebnissen der TIMSS-Studie und der IGLU-Studie.


PISA-Aufgaben sind bewusst nicht als curriculare Prüfung angelegt. Das begrenzt ihre Aussagekraft hinsichtlich curricularen Lernens.

Der Mathematikdidaktiker W. Meyerhöfer argumentiert, dass PISA dem Anspruch, mathematische Leistungsfähigkeit bzw. speziell „Mathematische Literalität“ zu testen, nicht gerecht werde: Mittels Interpretation (Methode: Didaktische Analyse und Objektive Hermeneutik) zeigt er verschiedene Problemkreise auf:

  • Oftmals gibt es so viele Möglichkeiten, zur gewünschten Lösung (die nicht in jedem Fall die richtige Lösung ist) zu gelangen, dass man nicht benennen kann, welche Fähigkeit die Aufgabe eigentlich misst. Das Konstrukt „mathematische Leistungsfähigkeit“ wird damit zu einem zufälligen.
  • Es werden Komponenten von Testfähigkeit mitgemessen. Als Kernkompetenz von Testfähigkeit stellt sich heraus, weder das gestellte mathematische Problem noch die angeblichen realen Probleme ernst zu nehmen, sondern sich stattdessen auf das zu konzentrieren, was die Tester angekreuzt oder hingeschrieben sehen wollen. Prinzipiell erweist es sich als günstig, mittelmäßig zu arbeiten, auf intellektuelle Tiefe in der Auseinandersetzung mit den Aufgaben also zu verzichten.
  • Man kann bei Multiple-Choice-Tests raten. Die PISA-Gruppe behauptet zwar, dieses Problem technisch überwinden zu können, dies erweist sich aber als Fehleinschätzung.
  • Die vorgeblich verwendeten didaktischen und psychologischen Theorien sind lediglich theoretische Mäntel für eine theoriearme Testerstellung.
  • Die Tests werden nicht durch Operationalisierungen von Messkonstrukten erstellt, sondern durch systematisches Zusammenstückeln von Aufgaben.
  • Bei PISA sollte „Mathematical Literacy“ getestet werden. Verkürzt sollte das die Fähigkeit sein, „die Rolle, die Mathematik in der Welt spielt, zu erkennen und zu verstehen, begründete mathematische Urteile abzugeben und sich auf eine Weise mit der Mathematik zu befassen, die den Anforderungen des gegenwärtigen und künftigen Lebens einer Person als eines konstruktiven, engagierten und reflektierten Bürgers entspricht“ (PISA-Eigendarstellung). Von all dem kann angesichts der Aufgaben keine Rede sein.
  • Es zeigt sich ein mathematikdidaktischer Habitus, der unter dem Stichwort der „Abkehr von der Sache“ zusammengefasst wird. Er umfasst folgende Elemente: Manifeste Orientierung auf Fachsprachlichkeit bei latenter Zerstörung des Mathematischen, Illusion der Schülernähe als Verblendung, Kalkülorientierung statt mathematischer Bildung, Misslingen der „Vermittlung“ von Realem und Mathematischem bei realitätsnahen Aufgaben. Letzteres gründet in der Nichtbeachtung der Authentizität sowohl des Realen als auch des Mathematischen.

(vergleiche: Wolfram Meyerhöfer: Tests im Test - Das Beispiel PISA. Verlag B. Budrich, Opladen 2005)

Methodisch-statistische Mängel

sowohl in Durchführung als auch in der Auswertung http://archiv.tagesspiegel.de/archiv/01.09.2005/2024184.asp Die Vergleichbarkeit zwischen den Ländern ist nur eingeschränkt gegeben, eine perfekte Stichprobenziehung ist technisch einfach nicht möglich. In Wahrheit werden in den Punktelisten aber nur kleine Differenzen zwischen Ländern abgebildet, die genauso gut durch eben diese methodischen Mängel oder Undurchführbarkeiten erklärbar sind. Gefährlich ist an dem PISA-Projekt aber die unreflektierte Definition globaler Bildungsziele, die sich ausschließlich an Wirtschaftsinteressen orientiert und langfristig zu gesellschaftlichen Veränderungen führen kann.

Was messen PISA-Aufgaben? Eine Studie an der Freien Universität Berlin (FU-Berlin) zeigte erhebliche Mängel in der statistischen Auswertung durch das MPIB für die PISA2000-I und -E Studien auf. http://www.pisa2000.de [7] http://www.diss.fu-berlin.de/2005/218/. Die Mangelhaftigkeit der Auswertungen durch die Erziehungswissenschaftler des MPIB würde sogar den Wert der PISA-Studie an sich in Frage stellen. Einige Argumente:

(1) Ursache für das schlechte Abschneiden der Schülerinnen und Schüler sei die Stichprobendefinition nach Lebensalter, nicht nach Schulalter. Würden Schülerinnen und Schüler nach Schulalter (Klassenstufe) getestet, dann erreichten diese Testwerte im oberen Testleistungsbereich.

(2) Die hohen sozialen Disparitäten im Lesen seien einem mangelhaften Testkonstrukt zuzuschreiben, das einerseits mit der Stichprobendefinition zusammenhinge und andererseits das Ergebnis von so genannten Boden- und Deckeneffekten sei. Diese entstünden bei ungeeignetem, dem Kenntnisstand der Schüler nicht adäquatem Testkonstrukt.

(3) Die so genannten „Nichtleser“ seien lediglich eine Fehlinterpretation eines Items (read for enjoyment). Gefragt wurde in der PISA-Studie lediglich danach, wer in seiner Freizeit „aus Vergnügen“ lese. Das MPIB hatte daraus die Folgerung abgeleitet, dass es in Deutschland besonders viele schwache Leser (also sog. „Nichtleser“) gäbe. Japan jedoch weise erheblich mehr „Nichtleser“ auf (bei hohem Testwert im Lesen), Brasilien hingegen die wenigsten (bei niedrigem Testwert).

Ist Pisa eine Schulleistungsuntersuchung?

In der Öffentlichkeit wird PISA ganz überwiegend als eine Untersuchung der Leistungsfähigkeit des Schulwesens wahrgenommen. Das ist konsistent mit der Wahrnehmung von PISA als Länderwettkampf, da die Grundstruktur des Schulwesens von Land zu Land unterschiedlich ist. Dieser Deutung von PISA als Schulleistungsuntersuchung liegen Annahmen zugrunde, die selten klar benannt werden:

(1) PISA testet eine Alters-, nicht eine Klassenstufe. Das lässt sich rechtfertigen, wenn man Leistung als Ergebnis pro Zeit auffasst. PISA pönalisiert Schulsysteme, in denen ein nennenswerter Teil der Schüler durch späte Einschulung, Sitzenbleiben oder freiwillige Wiederholungen Zeit verliert. Deshalb ist der PISA-Ansatz ungeeignet, die Leistungsfähigkeit von Absolventen zu vergleichen.

(2) PISA misst nicht den Zuwachs kognitiver Fähigkeiten im Verlauf der Schulzeit, sondern allein den Ist-Zustand in einer bestimmten Altersgruppe. Aus den Leistungsdaten von PISA ist nicht zu erschließen, inwieweit die Leistungsfähigkeit der schulischen Ausbildung zu verdanken ist und inwieweit sie auf unterschiedliche Anlagen und Umwelteinflüsse zurückgeht. Jedoch erlaubt PISA, Leistungsdaten mit sozialen Kenndaten zu korrelieren. Die Ergebnisse zeigen, dass sich soziale Bedingungen in verschiedenen Ländern verschieden stark auf die kognitive Leistungsfähigkeit auswirken. Das in Deutschland meistzitierte Beispiel sind Migrantenkinder, die aufgrund vernachlässigten Spracherwerbs in Deutschland stärker zurückblieben als in anderen Ländern. In Ostdeutschland ist eine höhere Quote von Migrantenkindern auf Gymnasien zu finden als in Westdeutschland. So besuchen etwa in Thüringen Kinder vietnamesischer Abstammung zu 63% ein Gymnasium. Dies wird erklärt mit dem wesentlich besseren Krippen- und KiTa-System in Ostdeutschland und einer sehr hohen Wertschätzung der Bildung in der vietnamesischen Kultur. Auch ist das Schulsystem in Ostdeutschland weniger sozial selektiv.

(3) Die Ergebnisse von PISA werden ca. 2 Jahre nach der Erhebung veröffentlicht. Deshalb sind Rückschlüsse auf die schulpolitische Situation zum Veröffentlichungszeitpunkt nicht statthaft (was aber in der Berichterstattung getan wird).


Literatur

  • Huisken, Freerk : Der „PISA-Schock“ und seine Bewältigung-Wieviel Dummheit braucht / verträgt die Republik? VSA-Verlag Hamburg 2005 ISBN 3-89965-160-X
  • Kraus, Josef: Der PISA Schwindel. Unsere Kinder sind besser als ihr Ruf. Wie Eltern und Schule Potentiale fördern können, Signum Verlag, Wien 2005, ISBN 3-85436-376-1
  • Lehrl, Siegfried: PISA - ein weltweiter Intelligenz-Test. Geistig Fit, Nr. 1 (2005) 3-6.
  • Jahnke, Thomas und Meyerhöfer, Wolfram (Hrsg.): PISA & Co --- Kritik eines Programms. Franzbecker, Hildesheim (2006). ISBN 978-388120-428-6.
  • Rindermann, Heiner: Was messen internationale Schulleistungsstudien? Schulleistungen, Schülerfähigkeiten, kognitive Fähigkeiten, Wissen oder allgemeine Intelligenz? Psychologische Rundschau 47 (2006) 69-86.
  • Rost, Detlef H.: Interpretation und Bewertung pädagogisch-psychologischer Studien. Beltz 2005.

Siehe auch