KI und die Bewertung schriftlicher Arbeiten an Hochschulen: Technologiehype oder Bildungsrevolution?
Die Diskussion um den Einsatz von KI in der Bewertung schriftlicher Arbeiten gewinnt an Dynamik. Ein aktueller LinkedIn-Beitrag von Philipp Höllermann, Chief Transformation Officer der Deutsche Weiterbildungsgesellschaft mbH, hat eine spannende Debatte angestoßen, die sich mit den methodischen Schwächen aktueller KI-Bewertungssysteme beschäftigt. Im Zentrum der Diskussion stehen zwei gegensätzliche Studien: Eine Analyse von Rainer Mühlhoff und Marte Henningsen, die deutliche Defizite im KI-gestützten Korrekturprozess aufzeigt, und eine Untersuchung der IU Internationalen Hochschule, die KI als potenziell fairere und konsistentere Bewertungsinstanz darstellt.
Mühlhoff und Henningsen testeten das Tool „KI-Korrekturhilfe“ von Fobizz und kamen zu dem Schluss, dass die Bewertungen des Systems oft zufällig sind und sich durch Feedback nicht signifikant verbessern. Bestbewertungen wurden vor allem bei Texten erzielt, die von ChatGPT geschrieben wurden, während Falschbehauptungen und sinnlose Texte nicht erkannt wurden. Die Studie zeigt damit grundsätzliche Schwächen großer Sprachmodelle auf, was zu der Frage führt, ob KI überhaupt geeignet ist, komplexe Aufgaben wie die Beurteilung von Texten zu übernehmen.
Im Kontrast dazu steht die Studie der IU Internationalen Hochschule, die argumentiert, dass KI-Bewertungen menschliche Schwächen wie Subjektivität und Inkonsequenz ausgleichen können. Kritikerinnen und Kritiker der IU-Studie weisen jedoch auf methodische Schwächen hin und hinterfragen die Motivation hinter der Veröffentlichung einer solchen Studie durch eine privatwirtschaftliche Bildungseinrichtung.
In den Kommentaren zur LinkedIn-Diskussion entwickelt sich eine kontroverse Debatte um die wissenschaftliche Validität solcher Studien. Jörg Wittkewitz, ein wissenschaftlicher Mitarbeiter, kritisiert, dass privat durchgeführte Studien in der „grauen Literatur“ nicht mit peer-reviewten Forschungsergebnissen gleichgesetzt werden sollten. Philipp Höllermann, der selbst fast 7 Jahre lang an der IU Internationalen Hochschule beschäftigt war, entgegnet, dass in der Praxis oft weniger wissenschaftliche Exzellenz, sondern vielmehr Reichweite und öffentliche Wahrnehmung ausschlaggebend seien – insbesondere wenn KI-Tools als Lösung für die Herausforderungen im Bildungssystem vermarktet werden.
Die Diskussion zeigt, dass die Frage „Taugt KI für die Bewertung schriftlicher Arbeiten?“ aktuell nicht eindeutig beantwortet werden kann. Während KI-Systeme durchaus in der Lage sind, repetitive und einfache Aufgaben zu übernehmen, scheitern sie bislang an der zuverlässigen Beurteilung komplexer, kreativer Texte. Die Debatte verdeutlicht auch, dass es nicht nur um technologische Möglichkeiten geht, sondern um die grundlegende Frage, welche Art von Bildung und Bewertung zukünftig gewünscht ist. Soll es darum gehen, standardisierte Antworten zu belohnen, die Maschinen leichter beurteilen können? Oder liegt der Fokus auf kritischem Denken und Kreativität, was eine menschliche Beurteilung erfordert?
Was bleibt, ist Skepsis gegenüber den aktuellen Fähigkeiten von KI in der Bewertung schriftlicher Arbeiten. Das Team um Philipp Höllermann hat sich vorerst gegen den Einsatz solcher Tools entschieden. Der wissenschaftliche Diskurs bleibt jedoch wichtig – insbesondere, um zwischen Hype und echten Fortschritten zu unterscheiden.
Veröffentlicht am 09.01.2025 07:16 von Christian Wolf, Fachredakteur
or post as a guest