
Förderjahr 2024 / Projekt Call #19 / ProjektID: 7285 / Projekt: Watchlist Internet
Automatisierte Vorverarbeitung mittels Impressums-Check & Trustpilot-Analyse
Neben den hunderten täglichen Nutzer:innen-Meldungen erreichen uns auch tausende automatisch detektierte Daten – etwa durch Crawler, die Google oder die Meta-Werbebibliothek nach bestimmten Textphrasen durchsuchen, durch Scraping-Tools oder durch das Fake-Shop Detector Plugin, das jede aufgerufene Domain mit einem KI-basierten Risikoscore versieht.
Das Problem: Viele dieser wertvollen Daten bleiben bislang unbearbeitet. Künftig sollen Domains aus unterschiedlichen Quellen regelbasiert teilautomatisiert verarbeitet werden. Ziel ist es, die Anzahl und Aktualität der Domaineinträge auf den Warnlisten zu erhöhen und gleichzeitig den hohen Anspruch an Qualitätssicherung zu wahren.
Verdächtige Domains werden dabei nicht mehr ausschließlich manuell geprüft, sondern anhand klarer Kriterien automatisch vorbewertet. Bei einem sehr hohen Risiko erfolgt die direkte Veröffentlichung auf den Warnlisten. Dafür werden bestehende Tools wie der Impressums-Check (inkl. Validierung von UID-Daten) und die Trustpilot-Analyse in die Datenbank des Fake-Shop Detectors integriert.
Human-in-the-Loop Integration
Die Automatisierung ersetzt die menschliche Einschätzung nicht, sondern ergänzt sie. Domains mit hoher – aber nicht sehr hoher – Wahrscheinlichkeit für Betrug werden an die Expert:innen der Watchlist Internet zur manuellen Überprüfung weitergeleitet. Zusätzlich wird getestet, inwieweit Clickworker standardisierte Prüfungen übernehmen können.
Die Ergebnisse der menschlichen Qualitätssicherung fließen wiederum zurück in die Automatisierungslogik. Dadurch kann sich das System kontinuierlich verbessern, neue Betrugsformen berücksichtigen und die Klassifikation laufend exakter gestaltet werden.
Die Workflows für die verschiedenen Datenquellen wurden bereits konzeptionell entwickelt, die technische Umsetzung läuft aktuell. Langfristiges Ziel ist es, durch die Kombination aus Automatisierung und menschlicher Expertise ein skalierbares System zu schaffen: eines, das trotz wachsender Datenmengen die Redaktion von Routineaufgaben entlastet, bestehende Tools optimal nutzt und die Quantität sowie die Aktualität der Warnlisten deutlich erhöht – ohne den hohen Qualitätsanspruch der Watchlist Internet zu verlieren.