Warum gutes Prompting nicht mehr reicht

Warum gutes Prompting nicht mehr reicht

Prompting in Qriouso (03.05.2026)

Förderjahr 2025 / Projekt Call #20 / ProjektID: 8018 / Projekt: Qriouso

Warum gutes Prompting nicht mehr reicht

In den letzten Jahren hat sich der Umgang mit KI oft auf eine einfache Frage reduziert: Wie formuliere ich den besten Prompt? Wer gute Prompts schreiben konnte, bekam bessere Antworten. Für viele Alltagsaufgaben war das ein sinnvoller Einstieg. Man beschreibt die Rolle, das Ziel, die Zielgruppe und den gewünschten Stil, und das Modell liefert einen brauchbaren Entwurf.

Im Bildungsbereich reicht das aber nicht mehr aus.

Der Grund ist einfach: Lernen ist kein Textproduktionsproblem. Eine Schülerin, die nach Hilfe fragt, braucht nicht automatisch die fertige Lösung. Ein Schüler, der bei einem Beispiel feststeckt, braucht manchmal einen Hinweis, manchmal eine Rückfrage, manchmal die Wiederholung einer Voraussetzung und manchmal bewusst noch keine Erklärung des nächsten Konzepts. Eine Lehrperson wiederum braucht nicht nur schöne Arbeitsblätter, sondern nachvollziehbare Inhalte: Woher kommt der Kontext? Welche Quelle wurde verwendet? Ist der Stoff passend zur Schulstufe? Wurde sensibler oder ungeeigneter Inhalt ausgeschlossen? Und kann später überprüft werden, warum die KI so geantwortet hat?

Genau an diesem Punkt endet normales Prompting.

Ein Prompt kann ein Modell bitten, keine Lösung zu verraten. Ein Prompt kann schreiben: "Erkläre es altersgerecht" oder "Arbeite nach dem österreichischen Lehrplan". Aber der Prompt allein weiß nicht, welche Konzepte eine konkrete Klasse bereits behandelt hat. Er kennt nicht den aktuellen Lernstand eines Kindes. Er weiß nicht zuverlässig, welche Materialien eine Lehrperson freigegeben hat. Und er kann nicht garantieren, dass ein Modell beim nächsten Satz nicht doch eine Information preisgibt, die pädagogisch noch nicht dran ist.

Das ist kein moralisches Versagen der Modelle. Es ist eine Architekturfrage.

Moderne KI-Systeme müssen deshalb um das Sprachmodell herum gebaut werden. Das Modell bleibt wichtig, aber es ist nicht mehr die ganze Lösung. Dazwischen braucht es strukturierte Suche, geprüfte Quellen, Curriculum-Logik, Rollen- und Freigaberegeln, Protokollierung, Auswertung und Sicherheitsprüfungen. In der KI-Forschung und in der Industrie wird dafür häufig von Retrieval-Augmented Generation, kurz RAG, und Grounding gesprochen: Das System sucht zuerst relevante Informationen und gibt sie dem Modell als Kontext, bevor eine Antwort erzeugt wird. Google Cloud beschreibt Grounding genau als Antwort auf zwei bekannte Grenzen von Sprachmodellen: Wissen außerhalb der Trainingsdaten und das Risiko überzeugend klingender, aber falscher Aussagen. Microsoft Research betont in einer aktuellen RAG-Übersicht außerdem, dass es keine Einheitslösung gibt; gute Systeme müssen die Aufgabe, die Daten und den eigentlichen Engpass sauber zerlegen.

Für die Praxis heißt das: Eine moderne Lern-KI braucht mehrere Arten von Kontext. Sie braucht statische Quellen, etwa Lehrpläne, Schulmaterialien, Übungsaufgaben und didaktische Regeln. Sie braucht dynamische Quellen, etwa aktuelle Web-Recherche, wenn es um neue Themen, externe Beispiele oder fachliche Aktualität geht. Und sie braucht internen Lernkontext: Was wurde schon behandelt? Welche Voraussetzungen fehlen? Welche Antwort wäre hilfreich, welche würde den nächsten Lernschritt abkürzen? Dienste wie Tavily sind in so einer Architektur nicht einfach "noch eine Suchmaschine", sondern Teil einer Grounding-Schicht: Sie helfen, externe Informationen gezielt zu finden, bevor das Sprachmodell formuliert. Entscheidend ist aber, dass die gefundenen Informationen nicht ungeprüft in die Antwort wandern. Sie müssen ausgewählt, eingeordnet, begrenzt und später nachvollziehbar sein.

Für Qriouso ist das nicht nur ein technischer Trend. Es ist der Kern der Produktidee.

Qriouso soll nicht einfach ein weiterer Chatbot für Schule sein. Das Projekt baut eine Lernumgebung, in der KI nur innerhalb eines pädagogisch kontrollierten Rahmens antwortet. Der wichtigste Begriff dafür ist unser "Non-Spoiling-Ansatz": Die KI soll helfen, ohne den Lernweg kaputtzumachen.

Das klingt zunächst wie eine kleine Stilfrage. In Wirklichkeit ist es ein grundlegender Unterschied. Ein normaler Chatbot optimiert oft auf die direkteste Antwort. Wenn ein Kind fragt: "Wie löse ich diese Gleichung?", liefert er schnell den Rechenweg. Wenn es fragt: "Was ist die Lösung?", gibt er vielleicht die Lösung. Aus Sicht eines Chatbots ist das hilfreich. Aus Sicht des Lernens kann es problematisch sein: Die Antwort nimmt genau den Denkschritt weg, der gelernt werden sollte.

Ein guter Tutor muss anders handeln. Er muss erkennen, ob die Frage zum aktuellen Konzept passt, ob eine Voraussetzung fehlt oder ob die Frage ein späteres Thema vorwegnimmt. Er muss entscheiden, ob eine Erklärung frei gegeben werden darf, ob nur ein Hinweis erlaubt ist oder ob die Schülerin zuerst zu einer einfacheren Vorstufe zurückgeführt werden sollte. Er muss zwischen produktivem Ringen und bloßem Feststecken unterscheiden. Und er muss nach der Antwort prüfen, ob die Antwort selbst unbeabsichtigt zu viel verrät.

Deshalb arbeitet Qriouso nicht nach dem Prinzip "ein Prompt rein, eine Antwort raus". Stattdessen wird jede Lerninteraktion als Prozess verstanden.

Zuerst braucht das System strukturierten Kontext. Lehrmaterialien, Aufgaben, Konzepte und Quellen werden nicht einfach in ein langes Chatfenster kopiert. Sie müssen erfasst, mit Metadaten versehen, eingeordnet und für die Wiederverwendung freigegeben werden. Wenn Lehrpersonen Material hochladen, ist relevant, ob es nur privat, für eine Klasse oder nach Kuratierung für einen gemeinsamen Wissensbestand genutzt werden darf. Retrieval darf nicht über diese Grenzen hinweggehen. Jede spätere Generierung muss nachvollziehbar machen können, welcher Kontext verwendet wurde.

Das ist besonders wichtig, weil RAG sonst selbst zum Risiko wird. Ein System, das einfach alles findet und alles in den Prompt legt, hat zwar mehr Kontext, aber nicht automatisch besseren Kontext. Für Qriouso zählt daher nicht nur, ob etwas gesucht werden kann, sondern ob es verwendet werden darf. Ein hochgeladenes Arbeitsblatt braucht Herkunftsinformationen, Fach, Schulstufe, Sprache, Thema und einen klaren Nutzungsrahmen. Wenn Material in einen gemeinsamen Wissensbestand wandern soll, braucht es Zustimmung und Kuratierung. Wenn daraus später eine Aufgabe, ein Hinweis oder eine Erklärung entsteht, muss sichtbar bleiben, welcher Kontext beteiligt war. Das ist der Unterschied zwischen "KI hat irgendetwas Passendes gefunden" und "das System kann erklären, warum genau dieser Kontext verwendet wurde".

Dann braucht das System eine Lernstruktur. Inhalte werden nicht als lose Textblöcke behandelt, sondern als Konzepte mit Voraussetzungen, Schwierigkeitsgrad, Hinweisen und Freigaberegeln. Daraus entsteht ein Wissensgraph: Welche Idee hängt von welcher anderen ab? Was darf bereits erklärt werden? Was ist nur als Analogie erlaubt? Was sollte noch geschützt bleiben, damit der nächste Lernschritt nicht vorweggenommen wird?

Anschließend braucht es eine Entscheidungsschicht. Vor einer Antwort muss das System klären: Geht es um das aktuelle Konzept, eine Voraussetzungslücke, ein zukünftiges Konzept, etwas außerhalb des Curriculums oder ein unsicheres Thema? Aus dieser Klassifikation entsteht eine Reveal Policy, also eine Regel dafür, wie viel die KI sagen darf. In Qriouso gibt es dafür Abstufungen wie frei, geführt und gesperrt. Das ist entscheidend: Die Grenze liegt nicht im guten Willen eines Prompts, sondern in einer expliziten Systementscheidung.

Erst danach kommt das Sprachmodell.

Was Qriouso konkret anders macht

Die Architektur lässt sich als Kette von Entscheidungen verstehen. Am Anfang steht nicht der Prompt, sondern die Frage: Welche Informationen darf das System überhaupt verwenden?

Wenn eine Lehrperson Material einbringt, wird es nicht nur gespeichert. Es wird in einen verwalteten Wissensbestand überführt: mit Quelle, Metadaten, Zustimmung, möglicher Kuratierung und Retrieval-Grenzen. Daraus entstehen auffindbare Bausteine, aber nicht alle Bausteine sind für alle Situationen gleich verfügbar. Privates Material bleibt privat. Gemeinsame Inhalte müssen freigegeben sein. Inhalte mit offenen Moderationsfragen dürfen nicht als Grundlage für generierte Lernmaterialien dienen. Damit wird aus Suche eine verantwortbare Suche.

Danach wird der fachliche Inhalt in eine Lernlogik übersetzt. Qriouso arbeitet mit Konzepten, Voraussetzungen und Lernpfaden. Ein Thema wie lineare Gleichungen ist nicht nur ein Textabschnitt. Es besteht aus Vorwissen, typischen Fehlern, Zwischenschritten, möglichen Hinweisen und Aufgabenformen. Für die KI ist das entscheidend, weil sie dadurch nicht nur "über Gleichungen" antwortet, sondern innerhalb eines bestimmten didaktischen Zustands.

Der Non-Spoiling-Ansatz setzt genau hier an. Ein Konzept kann frei erklärbar sein, geführt behandelt werden oder gesperrt bleiben. "Gesperrt" bedeutet nicht, dass ein Kind keine Hilfe bekommt. Es bedeutet, dass die direkte Erklärung pädagogisch noch nicht sinnvoll ist. Stattdessen kann das System auf eine Voraussetzung verweisen, eine einfachere Analogie anbieten, eine sokratische Frage stellen oder einen abgestuften Hinweis geben. Hilfe wird also nicht entfernt, sondern dosiert.

Diese Dosierung ist der Kern. Ein normaler Prompt kann sagen: "Gib nur Hinweise." Qriouso muss aber entscheiden, welcher Hinweis gerade erlaubt ist. Ein metakognitiver Hinweis fragt vielleicht: "Was weißt du schon über Umformen?" Ein strategischer Hinweis hilft, das Problem in Schritte zu zerlegen. Ein konzeptueller Hinweis erklärt eine Idee, ohne die vollständige Lösung zu liefern. Ein prozeduraler Hinweis darf näher an die Lösung heranführen, wenn genug Vorarbeit sichtbar ist. Diese Abstufung ist eine pädagogische Funktion, keine Formulierungsfrage.

Beim Antworten arbeitet Qriouso deshalb mit einem kleineren erlaubten Kontext, nicht mit maximalem Kontext. Das ist kontraintuitiv, aber wichtig: Das Tutoring-Modell soll gerade nicht alles wissen, was das System weiß. Die Architektur trennt zwischen einem stärkeren "Architect", der Inhalte strukturiert, Wissensgraphen erzeugt und Freigaberegeln vorbereitet, und einem Tutor, der nur den kuratierten, erlaubten Ausschnitt sieht. Diese Informationsasymmetrie ist stärker als eine reine Prompt-Regel. Wenn das Tutor-Modell geschützte Inhalte gar nicht erst bekommt, kann es sie deutlich schwerer versehentlich verraten.

Warum Validierung nach der Antwort notwendig ist

Auch diese Struktur ersetzt keine Prüfung. Sprachmodelle formulieren frei. Sie können eine geschützte Information indirekt paraphrasieren, einen Begriff zu früh verwenden oder eine Multiple-Choice-Antwort durch Ausschluss verraten. Deshalb braucht Qriouso eine Validierung nach der Generierung.

Diese Prüfung erfolgt mehrstufig. Zuerst können offensichtliche Begriffe und Überschneidungen erkannt werden. Danach kann semantisch geprüft werden, ob die Antwort dem geschützten Inhalt zu ähnlich ist, auch wenn andere Wörter verwendet wurden. In Grenzfällen kann zusätzlich ein Modell beurteilen, ob eine Antwort sinngemäß zu viel verrät. Bei Aufgaben mit erwarteter Lösung braucht es außerdem eine eigene Antwort-Leak-Prüfung: Eine Lösung kann nicht nur direkt genannt, sondern auch durch zu starke Hinweise praktisch offengelegt werden.

Wenn eine Antwort durchfällt, ist das kein Absturz des Systems. Die Antwort wird neu erzeugt, entschärft oder durch eine sichere Alternative ersetzt. Genau das macht den Unterschied zu einem Chatbot: Das System hat einen Plan für den Fall, dass die erste Modellantwort pädagogisch nicht akzeptabel ist.

Genauso wichtig ist die Beobachtbarkeit. Jede Entscheidung sollte später erklärbar sein: Welche Voraussetzung wurde geprüft? Welche Reveal Policy wurde gewählt? Wurde eine Antwort blockiert, heruntergestuft oder freigegeben? Welche Quelle wurde verwendet? Für Lehrpersonen schafft das Vertrauen. Für Forschung und Projektbericht schafft es Messbarkeit. Für Schülerinnen und Schüler sorgt es dafür, dass Hilfe nicht zufällig wirkt, sondern dem Lernstand folgt.

Das ist der Unterschied zwischen Prompting und Architektur.

Prompting sagt dem Modell, was es tun soll. Architektur sorgt dafür, dass das System auch dann noch verantwortbar bleibt, wenn ein Prompt nicht reicht. Prompting ist eine Formulierungstechnik. Strukturierte KI ist ein Zusammenspiel aus Daten, Suche, Regeln, Evaluation und pädagogischer Absicht.

Gerade in der Bildung ist diese Unterscheidung wichtig. UNESCO fordert für generative KI in Bildung und Forschung einen menschenzentrierten, altersangemessenen und ethisch validierten Einsatz. Der EU AI Act unterstreicht für risikoreiche Anwendungen Anforderungen wie hochwertige Daten, Transparenz, Risikominderung und menschliche Aufsicht. Auch der NIST GenAI Risk Profile beschreibt generative KI nicht als reines Prompting-Thema, sondern als Frage von Risikomanagement, Evaluation und Vertrauenswürdigkeit.

Für ein Schulprodukt heißt das: Wir dürfen nicht nur fragen, ob die KI beeindruckend antwortet. Wir müssen fragen, ob sie im richtigen Moment das Richtige nicht sagt.

Das ist ungewohnt, weil viele KI-Demos genau vom Gegenteil leben: sofortige Antwort, maximale Vollständigkeit, möglichst wenig Reibung. Lernen braucht aber manchmal produktive Reibung. Eine gute Lernumgebung darf nicht jede Schwierigkeit sofort auflösen. Sie muss helfen, ohne den Denkprozess zu ersetzen.

Qriouso baut deshalb an einer anderen Art von KI-Unterstützung. Nicht "schreib mir die perfekte Antwort", sondern: Finde den passenden Kontext. Prüfe die Quellen. Berücksichtige den Lernstand. Erkenne Voraussetzungen. Entscheide, was freigegeben werden darf. Generiere eine hilfreiche Antwort. Prüfe sie. Protokolliere die Entscheidung. Lerne aus der Nutzung.

Das ist aufwendiger als normales Prompting. Aber genau dieser Aufwand macht den Unterschied, wenn KI nicht nur Texte erzeugen, sondern Lernen unterstützen soll.

In diesem ersten Projektblog geht es deshalb um den Grundgedanken hinter Qriouso: Die nächste Phase von KI in der Bildung wird nicht durch bessere Prompt-Sammlungen entschieden. Sie wird durch Systeme entschieden, die Sprache, Wissen, Quellen, Verantwortung und Pädagogik zusammenbringen.

Oder kürzer gesagt: Der Chatbot war der Anfang. Der strukturierte Lernassistent ist das eigentliche Ziel.