31. Januar 2017

Bildungsmonitoring auf wackliger Basis

Die Ergebnisse der jüngsten Pisa-Studie haben ein geringes Medienecho ausgelöst (NZZ 7. 12. 16). Dafür mitverantwortlich sind die in der Schweiz für Pisa zuständigen Personen der Erziehungsdirektorenkonferenz (EDK) und des Staatssekretariats für Bildung, Forschung und Innovation (SBFI), die eine Stellungnahme verweigerten, da die Qualität der Daten ungenügend sei. Ob es wirklich um die Datenqualität geht oder nicht eher um die im Vergleich zu 2012 unerwartet schlechten Ergebnisse in allen getesteten Bereichen, ist unklar. Das eigentliche Problem liegt aber sowieso anderswo, nämlich bei der Fehleinschätzung der Leistungsfähigkeit von schulischen Leistungstests.
Falsche Erwartungen an schulische Leistungstests, NZZ, 31.1. Gastkommentar von Walter Herzog


So erwartet die EDK von der Messung der Schülerleistungen im Rahmen des Harmos-Projekts «empirisch gesichertes Wissen hinsichtlich des tatsächlich erreichten Kompetenzniveaus der Schülerinnen und Schüler». Und vom Bildungsmonitoring, das sie gemeinsam lanciert haben, erwarten EDK und SBFI «wissenschaftlich gesicherte Erkenntnisse» über das schweizerische Bildungssystem. Anvisiert wird eine «evidenzbasierte Bildungspolitik», die es erlauben soll, bildungspolitische Entscheidungen auf einer rein zweckrationalen Basis zu treffen. Wenn sich jedoch etwas mit Gewissheit sagen lässt, dann, dass Wissenschaft und Forschung nicht in der Lage sind, die Erwartungen von Politik und Verwaltung einer «sicheren» Grundlage für ihre Entscheidungen einzulösen. Insofern könnten die Ergebnisse von Pisa 2015 von heilsamem Nutzen sein, da sie Anlass bieten, die längst fällige Auseinandersetzung über die Möglichkeiten und Grenzen von Schulleistungstests zu führen.

Die Erwartung, mithilfe von Tests lasse sich sicheres Steuerungswissen für das Bildungssystem gewinnen, ist naiv. Die Sozial- und Erziehungswissenschaften verfügen nicht über Messinstrumente, die auf einem vergleichbar anspruchsvollen Niveau Daten generieren lassen, wie dies bei der Messung physikalischer Grössen der Fall ist. Zudem ist es praktisch nie möglich, das interessierende Phänomen, wie zum Beispiel die Kompetenz eines Schülers, direkt zu messen. Alles, was dem Konstrukteur eines pädagogischen Tests zur Verfügung steht, um zu messen, was er messen will, ist das Verhalten des Testnehmers, d. h. dessen Performanz. Dementsprechend kann die Gültigkeit einer Messung höchst umstritten sein. Denn wie überprüft man, ob ein Test misst, was er zu messen vorgibt, wenn der Messgegenstand nur indirekt zugänglich ist? Da ein Vergleich mit der Realität nicht möglich ist, kann letztlich nur ein weiterer Test etwas über die Qualität der Messung aussagen. Das heisst auch, dass selbst das Messniveau eines pädagogischen Tests nicht eindeutig bestimmt werden kann.

Hinzu kommen weitere Probleme pädagogisch-psychologischer Messungen, wie etwa dasjenige der Reaktivität. Einer Landschaft ist es egal, ob und wie sie vermessen wird, ein Mensch wird sich immer auf irgendeine Weise darauf einstellen, dass er einem Test unterworfen wird. Auch die Vertrautheit mit einem Testformat kann eine wesentliche Rolle spielen.
Solche Einflüsse ausschalten zu wollen, indem man Testformat und Testinhalt unverändert lässt, wäre nicht empfehlenswert. Denn Leistungstests müssen laufend angepasst werden, weil sie sonst ihre ohnehin schon prekäre Messqualität vollends einbüssen würden.
Ein Beispiel kann dies illustrieren: Beim Vergleich der Testergebnisse verschiedener US-Gliedstaaten über mehrere Jahre fiel auf, dass sich die Leistungen der Schülerinnen und Schüler durchwegs verbessert hatten, und zwar so stark, dass sie schliesslich in der Mehrheit der Staaten über dem nationalen Durchschnitt lagen – ein mathematischer Unsinn. Bei näherer Analyse stellte sich heraus, dass die Tests Jahr um Jahr unverändert eingesetzt worden waren, was dazu geführt hatte, dass die Testaufgaben bekanntwurden, die Lehrpersonen ihre Schüler auf die Tests vorbereiteten und die Prüfstichproben mit der Eichstichprobe nicht mehr übereinstimmten. Der vermeintliche Anstieg der Schülerleistungen war ein methodisches Artefakt.

In den Griff bekommen lässt sich der Lake-Wobegon-Effekt (wie er mittlerweile genannt wird) nur, wenn Tests erstens ständig à jour gehalten werden und wenn zweitens Ergebnisse aus mehreren Tests verfügbar sind, um die Qualität eines Tests vergleichend zu beurteilen.

All dies ist nicht als Argument gegen Leistungstests an unseren Schulen gedacht. Jedoch braucht es eine Art nachholende Aufklärung darüber, was schulische Leistungstests leisten können. Sie können sicher nicht leisten, was in den Köpfen einiger Bildungspolitiker und gewisser Vertreter in den Bildungsverwaltungen herumschwirrt, nämlich eine Entpolitisierung bildungspolitischer Entscheidungen durch «wissenschaftlich gesicherte Erkenntnisse».

Walter Herzog ist em. Professor für pädagogische Psychologie an der Universität Bern.


Keine Kommentare:

Kommentar veröffentlichen