Förderjahr 2025 / Projekt Call #20 / ProjektID: 8018 / Projekt: Qriouso
"Stelle nur Fragen. Verrate nichts." Solche Prompts klingen pädagogisch, lösen das Problem aber nicht. Qriouso baut deshalb nicht den perfekten Tutor-Prompt sondern das Agentic-Framework, um diese sokratische Lernumgebung zu erschaffen.
Warum sokratisches Prompting eine Architektur braucht
Das Versprechen — und das Missverständnis
Viele KI-Demos im Bildungsbereich beginnen mit einem einfachen Versprechen: Die KI soll nicht einfach die Lösung geben, sondern wie ein guter Tutor fragen. Sie soll sokratisch arbeiten, also durch Rückfragen, Hinweise und kleine Denkanstöße helfen. Das klingt richtig. Und es ist auch richtiger als ein Chatbot, der jede Aufgabe sofort ausrechnet.
Aber auch hier entsteht schnell ein Missverständnis.
Sokratisches Prompting ist nicht dasselbe wie sokratisches Tutoring.
Ein Prompt kann schreiben: „Stelle nur Fragen." Ein Prompt kann verlangen: „Gib keine direkte Lösung." Ein Prompt kann das Modell bitten, geduldig, altersgerecht und motivierend zu antworten. Für einfache Situationen kann das gut funktionieren. Eine Schülerin fragt nach einem Begriff, die KI antwortet mit einer Leitfrage. Ein Schüler steckt bei einem Rechenschritt fest, die KI erinnert an eine Regel. Das wirkt sofort pädagogischer als eine direkte Musterlösung.
Im echten Lernprozess reicht das aber nicht aus.
Lernen ist keine Stilfrage
Der Grund ist ähnlich wie beim normalen Prompting: Lernen ist keine Stilfrage. Ob eine Frage hilfreich ist, hängt nicht nur von ihrer Formulierung ab. Sie hängt davon ab, was die Schülerin schon kann, welches Konzept gerade aktiv ist, welche Voraussetzung fehlt, welche Inhalte noch geschützt bleiben sollen und ob ein Hinweis gerade produktiv oder zu stark ist. Eine sokratische Frage kann hervorragend sein. Sie kann aber auch zu früh kommen, am Problem vorbeigehen oder in ihrer Formulierung bereits die Lösung verraten.
Genau deshalb braucht Qriouso mehr als einen guten Tutor-Prompt.
Das Projekt baut nicht nur eine KI, die freundlich fragt. Es baut eine Lernumgebung, in der jede Frage Teil eines kontrollierten Prozesses ist. Im Zentrum steht ein Agent Graph, also eine Folge von klar getrennten Entscheidungsschritten: Zuerst wird geprüft, worum es geht. Dann wird der Lernstand betrachtet. Dann wird der erlaubte Kontext gebaut. Erst danach formuliert das Modell eine Antwort. Diese Antwort wird anschließend geprüft, gegebenenfalls neu erzeugt oder durch eine sichere Alternative ersetzt.
Das ist der entscheidende Unterschied: Die KI soll nicht nur sokratisch klingen. Sie soll pädagogisch begrenzt handeln.
Was die Forschung schon weiß
Warum das nötig ist, zeigt schon die Forschung zu intelligenten Tutorsystemen. Systeme wie DeepTutor wurden lange vor dem aktuellen ChatGPT-Hype entwickelt, um mit Schülerinnen und Schülern in natürlicher Sprache zu arbeiten. DeepTutor wurde als webbasiertes, dialogorientiertes Tutorsystem für individuelles Lernen beschrieben und in großen Experimenten mit High-School-Schülerinnen und -Schülern eingesetzt. Der wichtige Punkt daran ist nicht, dass DeepTutor heute eins zu eins das Zielsystem für Qriouso wäre. Der wichtige Punkt ist: Gute Lern-KI wurde schon damals nicht als bloße Antwortmaschine verstanden. Sie wurde als Dialogsystem gedacht, das Lernende begleitet.
Mit heutigen Sprachmodellen ist der Spielraum größer geworden. Modelle können viel flüssiger formulieren, besser paraphrasieren, Beispiele bilden und auf unterschiedliche Lernniveaus reagieren. Gleichzeitig ist das Risiko größer geworden. Ein Modell, das sehr gut antwortet, kann auch sehr gut vorsagen. Es kann eine Lösung indirekt verraten, eine zukünftige Idee zu früh einführen oder mit einer scheinbar harmlosen Rückfrage genau den entscheidenden Denkschritt vorwegnehmen.
Answer Leakage und Telling Rate
Aktuelle Forschung zu LLM-Tutoren spricht von Answer Leakage, also davon, dass Tutor-Modelle vollständige Lösungen oder zu starke Hinweise preisgeben, obwohl sie eigentlich scaffolden sollen. Eine ACL-2026-Arbeit untersucht sogar adversariale Situationen, in denen Lernende gezielt versuchen, die Lösung aus einem Tutor herauszubekommen. Das ist für Bildungssysteme ein wichtiger Realitätscheck: Es reicht nicht, einem Modell zu sagen, es solle keine Lösung verraten. Man muss messen und kontrollieren, ob es das auch wirklich einhält.
Auch die Forschung zu Hint Generation zeigt diesen Punkt. Dort ist nicht nur interessant, ob Lernende am Ende die richtige Antwort bekommen. Interessant ist auch die Telling Rate: Wie oft sagt ein System zu viel? Ein Tutor kann kurzfristig erfolgreich wirken, wenn er die Lösung verrät. Aus Sicht des Lernens ist das aber ein schlechter Erfolg. Die Aufgabe wurde erledigt, aber der relevante Denkprozess wurde ausgelagert.
Für Qriouso bedeutet das:
Der richtige Maßstab ist nicht „Kann die KI helfen?" Der richtige Maßstab ist: Kann sie helfen, ohne den Lernschritt zu zerstören?
Der Non-Spoiling-Ansatz
Das ist der Kern des Non-Spoiling-Ansatzes.
Ein normaler Chatbot sieht eine Frage und optimiert auf eine hilfreiche Antwort. Ein sokratisch geprompteter Chatbot sieht dieselbe Frage und optimiert vielleicht auf eine hilfreiche Rückfrage. Qriouso muss mehr tun. Das System muss entscheiden, welche Art von Hilfe gerade erlaubt ist.
Wenn eine Schülerin zum Beispiel an Konzept B arbeitet, Konzept A bereits beherrscht und Konzept C erst später kommt, darf die KI nicht einfach alles verwenden, was sie über A, B und C weiß.
- Sie darf mit A arbeiten.
- Sie darf B unterstützen.
- Sie soll C schützen.
Genau hier wird aus einem Dialog ein Wissens- und Entscheidungssystem.
Der Wissensgraph als Grundlage
In EduGraph wird dafür mit Lernpfaden, Voraussetzungen, Konzepten und Zuständen gearbeitet. Inhalte sind nicht nur Texte, die in ein Promptfenster kopiert werden. Sie sind Wissensgraphen. Ein Konzept kann Voraussetzungen haben. Es kann typische Fehlvorstellungen enthalten. Es kann Hint-Templates, Analogien, Beispiele, Quizfragen und geschützte Inhalte besitzen. Zusätzlich gibt es einen Lernzustand: Was wurde bereits gemeistert? Wo ist die Schülerin gerade? Welche Hint-Stufe ist aktiv? Welche Reveal Policy gilt?
Reveal Policy: Frei, geführt, gesperrt
Die Reveal Policy ist dabei eine zentrale Idee. Sie beschreibt, wie viel ein Tutor über ein Konzept offenlegen darf. Vereinfacht gibt es drei Stufen:
- Frei — Das Konzept kann normal erklärt werden.
- Geführt — Es darf unterstützt werden, aber eher über Fragen, Hinweise und schrittweises Scaffolden.
- Gesperrt — Die direkte Erklärung wäre noch zu früh.
Das heißt nicht, dass die Schülerin keine Hilfe bekommt. Es heißt, dass die Hilfe anders aussehen muss. Ein gesperrtes Konzept kann zum Beispiel zu einer Voraussetzung zurückführen. Es kann eine einfachere Analogie anbieten. Es kann eine Frage stellen: „Was weißt du bereits über diesen Schritt?" Es kann eine strategische Frage stellen: „Wie könntest du das Problem in kleinere Teile zerlegen?" Es kann einen konzeptuellen Hinweis geben, ohne die ganze Lösung zu nennen. Erst später, wenn genug Vorarbeit sichtbar ist, darf ein prozeduraler Hinweis näher an die Lösung heranführen.
Das sind keine bloßen Formulierungsvarianten. Es sind pädagogische Zustände.
Der Agent Graph: Tutoring als Prozess
Darum ist der Agent Graph wichtig.
Im Repo wird der studentische Tutor nicht als einzelner Modellaufruf gedacht, sondern als LangGraph-basierter Ablauf. LangGraph beschreibt solche Anwendungen als Graphen aus State, Nodes und Edges. Der State hält die aktuelle Situation fest. Nodes führen konkrete Arbeitsschritte aus. Edges entscheiden, welcher Schritt als Nächstes kommt. Dadurch lässt sich ein Tutor als kontrollierbarer Prozess bauen: nicht „Prompt rein, Antwort raus", sondern „Zustand prüfen, Kontext bauen, Antwort prüfen, Entscheidung treffen".
Schritt 1: Policy Decision
In Qriouso sieht dieser Ablauf auf hoher Ebene so aus: Zuerst trifft der Graph eine Policy Decision. Er klassifiziert also, ob die Anfrage
- zum aktuellen Konzept gehört,
- eine Voraussetzungslücke betrifft,
- ein zukünftiges Konzept vorwegnimmt,
- außerhalb des Curriculums liegt oder
- sicherheitsrelevant ist.
Wenn die Anfrage nicht sinnvoll freigegeben werden kann, wird nicht einfach weitergechattet. Dann kann der Graph umleiten, blockieren oder eine Recovery-Aktion anbieten.
Schritt 2: Kontext bauen
Danach wird der Kontext gebaut. Das ist ein entscheidender Schritt. Der Tutor soll nicht alles wissen, was das System weiß. Er soll nur den Ausschnitt bekommen, der für die aktuelle Situation erlaubt ist. Genau diese Informationsbegrenzung ist stärker als ein Prompt, der nur bittet, bestimmte Dinge nicht zu sagen. Wenn geschützte Inhalte gar nicht im Arbeitskontext des Tutors landen, sinkt die Wahrscheinlichkeit, dass sie versehentlich in einer Antwort auftauchen.
Schritt 3: Generierung und Spoiler Detection
Erst dann generiert das Sprachmodell eine Antwort.
Diese Antwort ist aber noch nicht automatisch die Antwort für die Schülerin. Danach kommt die Spoiler Detection. Sie prüft, ob die Antwort geschützte Inhalte zu direkt verrät, ob sie verbotene Zukunftsbegriffe verwendet, ob sie dem geschützten Inhalt semantisch zu ähnlich ist oder ob sie praktisch die erwartete Lösung preisgibt. Wenn die Antwort riskant ist, kann der Graph zurück in die Generierung gehen. Das Modell bekommt also eine zweite Chance, eine sicherere Antwort zu formulieren. Wenn auch das nicht reicht, kann eine sichere Fallback-Antwort verwendet werden.
Genau hier liegt der Unterschied zu einem normalen Chatbot. Ein Chatbot muss hoffen, dass die erste Antwort passt. Qriouso baut einen Prozess, der mit einer unpassenden Antwort rechnet.
Schritt 4: Hint-Tier und Lernverlauf
Nach einer ausgelieferten Antwort endet der Prozess nicht. Der Graph kann die Interaktion protokollieren, das Verständnis einschätzen und entscheiden, ob die Schülerin bereit für den nächsten Schritt ist oder ob ein weiterer Hinweis nötig wird. Wenn ein Hinweis nötig ist, wird nicht beliebig weitergeredet. Der Hint-Tier kann steigen. Die Hilfe wird also kontrolliert gradueller:
- metakognitiv — „Was weißt du schon?"
- strategisch — „Wie zerlegst du das Problem?"
- konzeptuell — Hinweis auf die richtige Idee
- prozedural — näher an der Lösung
Das entspricht eher der Arbeit eines guten Tutors als der Arbeit eines Antwortgenerators. Ein guter Tutor fragt nicht endlos dieselbe Art von Frage. Er beobachtet, ob eine Frage wirkt. Wenn nicht, verändert er die Unterstützung. Er geht einen Schritt zurück, gibt einen kleineren Hinweis, fragt nach einer Voraussetzung oder bietet ein Beispiel an. Gleichzeitig achtet er darauf, nicht aus Ungeduld die Lösung selbst zu übernehmen.
Qriouso versucht, genau diese Logik technisch greifbar zu machen.
Der gemeinsame State
Dafür braucht das System einen gemeinsamen State. In der LangGraph-Tutoring-Schicht gibt es dafür einen strukturierten Zustand mit Feldern wie Lernstand, Mastery Score, Reveal Policy, geschütztem Inhalt, bekannter und verbotener Vocabulary, fehlenden Voraussetzungen, Hint Tier, Policy Trace und Regeneration Count. Diese Begriffe klingen technisch, beschreiben aber pädagogische Fragen:
Was ist schon bekannt? Was ist noch nicht dran? Wie sicher sind wir, dass die Voraussetzung sitzt? Wie stark darf die Hilfe sein? Welche Entscheidung wurde getroffen? Musste eine Antwort neu erzeugt werden? Und warum?
Beobachtbarkeit für Lehrpersonen
Für Lehrpersonen ist diese Beobachtbarkeit wichtig. Sie sollen nicht nur sehen, dass eine KI etwas geschrieben hat. Sie sollen nachvollziehen können, warum eine bestimmte Art von Hilfe gewählt wurde. Wenn ein Kind keinen direkten Zugang zu einem Konzept bekommt, sollte sichtbar sein, welche Voraussetzung fehlt. Wenn eine Antwort nicht ausgeliefert wurde, sollte das System später erklären können, welche Regel oder welcher Risikowert dafür relevant war.
Das ist auch für die Projektentwicklung wichtig. Man kann ein Non-Spoiling-System nicht nur durch schöne Beispieldialoge bewerten. Man braucht Messpunkte:
- Wie oft werden direkte Lösungslecks erkannt?
- Wie oft muss regeneriert werden?
- Welche verbotenen Begriffe wurden gefunden?
- Wie oft wird ein zukünftiges Konzept angefragt?
- Wo blockiert das System zu streng, wo zu locker?
Ohne solche Daten bleibt sokratisches Tutoring ein Stilversprechen.
Zwei Ebenen, ein Prinzip
Die aktuelle Architektur im Repo trennt dafür zwei wichtige Ebenen.
Die erste Ebene ist die streng messbare Non-Spoiling-Pipeline. Sie eignet sich besonders gut, um die Schutzlogik sichtbar zu machen. Dort kann man zeigen: Konzept A ist gemeistert, Konzept B ist aktiv, Konzept C ist gesperrt. Daraus entstehen bekannte und verbotene Begriffe. Wenn eine Kandidatenantwort einen C-Begriff verwendet oder dazu stark andeutet, steigt das Risiko und die Antwort wird nicht einfach ausgeliefert.
Die zweite Ebene ist der LangGraph-Tutor als produktnahe Lernerfahrung. Dort erlebt die Schülerin nicht die Pipeline als technisches Diagramm, sondern einen Dialog: Einstieg, Gateway-Frage, Hinweis, Rückfrage, nächster Schritt. Die Stärke liegt darin, dass der Dialog nicht frei schwebt, sondern an dieselben Grundideen gebunden ist: Lernstand, Voraussetzungen, erlaubter Kontext, Validierung und Hint-Fortschritt.
Diese Ehrlichkeit ist wichtig. Qriouso soll nicht behaupten, dass ein einzelner magischer Prompt das Problem löst. Auch nicht, dass eine einzelne Modellantwort schon pädagogisch sicher ist. Das Projekt geht gerade den schwierigeren Weg: Die Lern-KI wird als System gebaut, das überprüfbar, begrenzbar und verbesserbar ist.
Verantwortbare KI entsteht in der Architektur
Gerade im Bildungsbereich ist das notwendig.
- UNESCO fordert für generative KI in Bildung und Forschung einen menschenzentrierten, altersangemessenen und pädagogisch validierten Einsatz.
- NIST beschreibt generative KI als Risikomanagement-Thema, bei dem Evaluation, Nachvollziehbarkeit und Vertrauenswürdigkeit entscheidend sind.
- LangChain selbst beschreibt Guardrails als Prüfungen vor und nach dem Modellaufruf.
All das zeigt in dieselbe Richtung:
Verantwortbare KI entsteht nicht nur im Prompt. Sie entsteht in der Architektur rund um das Modell.
Für Qriouso heißt das konkret: Der Tutor muss vor der Antwort mehr wissen und nach der Antwort mehr prüfen.
Vor der Antwort braucht er den Lernpfad. Er braucht die aktuelle Subcompetency, das aktive Concept, die Voraussetzungskette, den Lernstand und den erlaubten Kontext. Er braucht eine Entscheidung darüber, ob die Anfrage zum aktuellen Lernschritt passt oder ob sie zu weit nach vorne springt. Er braucht Retrieval, aber Retrieval mit Grenzen. Nicht alles, was gefunden werden kann, darf verwendet werden.
Nach der Antwort braucht er eine Prüfung. Hat eine Lösung verraten? Hat sie ein zukünftiges Konzept eingeführt? Hat sie geschützten Inhalt paraphrasiert? Ist der Hinweis noch ein Hinweis oder schon eine halbe Musterlösung? Wenn die Antwort nicht passt, muss das System reagieren können. Es muss regenerieren, herunterstufen oder sicher ausweichen.
Das ist aufwendiger als ein sokratischer Prompt. Aber genau dieser Aufwand macht den Unterschied.
Was Schülerinnen und Lehrpersonen davon spüren
Eine Schülerin soll am Ende keine Architektur sehen. Sie soll nur merken, dass die KI nicht vorsagt, sondern mitdenkt. Sie stellt eine Frage und bekommt nicht automatisch die fertige Lösung. Sie bekommt eine passende Rückfrage. Wenn sie nicht weiterkommt, bekommt sie einen Hinweis. Wenn eine Voraussetzung fehlt, wird sie dorthin zurückgeführt. Wenn sie bereit ist, kann die Unterstützung konkreter werden.
Eine Lehrperson soll gleichzeitig nicht die Kontrolle verlieren. Sie soll Materialien und Lernziele nicht in einen undurchsichtigen Chatbot verpacken, sondern in ein System, das Quellen, Konzepte, Freigaben und Entscheidungen auseinanderhält. Sie soll später nachvollziehen können, welche Grundlage verwendet wurde und warum die KI so reagiert hat.
Fazit
Das ist die eigentliche Idee hinter dem Socratic Prompting Agent Graph in Qriouso.
Der Graph ist kein Selbstzweck. Er ist die technische Form einer pädagogischen Einsicht: Gute Hilfe ist abhängig vom Zustand. Ein Tutor muss wissen, wann er fragt, wann er erklärt, wann er wartet, wann er zurückführt und wann er bewusst etwas nicht sagt. Diese Entscheidung kann nicht zuverlässig in einem einzigen Prompt stecken. Sie muss im System verankert sein.
Deshalb ist Qriouso kein Versuch, den perfekten Tutor-Satz zu finden. Es ist der Versuch, eine Lernumgebung zu bauen, in der KI-Antworten durch Lernstruktur, Kontextgrenzen, Hint-Stufen, Validierung und Beobachtbarkeit gesteuert werden.
Oder kürzer gesagt:
Sokratisches Prompting ist ein guter Anfang. Der sokratische Lernassistent braucht einen Agent Graph.
Quellen
- Rus, Niraula & Käser: DeepTutor: An Effective, Online Intelligent Tutoring System That Promotes Deep Learning, AAAI 2015. https://ojs.aaai.org/index.php/AAAI/article/view/9269
- Zhao, Knežević & Käser: Evaluating Answer Leakage Robustness of LLM Tutors against Adversarial Student Attacks, ACL 2026. https://arxiv.org/abs/2604.18660
- Navigating the Landscape of Hint Generation Research: From the Past to the Future, 2024. https://arxiv.org/html/2404.04728v2
- LangChain: LangGraph Graph API. https://docs.langchain.com/oss/python/langgraph/graph-api
- LangChain: Guardrails. https://docs.langchain.com/oss/python/langchain/guardrails
- UNESCO: Guidance for generative AI in education and research, 2023. https://www.unesco.org/en/articles/guidance-generative-ai-education-and-research
- NIST: Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile, 2024. https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generat-artificial-intelligence