Was Hybrid-Routing bei LLMs leistet
Hybrid-Routing leitet Anfragen nach Risiko, Komplexität und Qualitätsanforderung an unterschiedliche Modelle oder Pfade — z. B. günstiges Modell für Klassifikation, stärkeres Modell für Vertragstexte, immer mit Human-in-the-Loop bei Hochrisiko.
Ziel ist nicht minimaler Tokenpreis, sondern optimale Kosten-Wirkungs-Bilanz pro Vorgang — konsistent mit TCO-Denken.
Ohne Eval-Schwellen wird Hybrid zum Bauchgefühl-System und verschlechtert Qualität.
Routing-Regeln und Schwellenwerte
Typische Signale: Task-Typ (Klassifikation vs. Generierung), Token-Länge, Confidence-Score, erkannte Entitäten (Vertrag, HR), Kundensegment. Regelbeispiel: if risk>=high → queue_human; if task==classify → model_small; else → model_large.
Schwellen aus Eval-Set kalibrieren (50–200 reale, anonymisierte Fälle), nicht aus Demo-Prompts. NIST AI RMF (öffnet in neuem Tab) betont Messung vor Skalierung.
Versioniere Regeln wie Code — mit Changelog.
Fallbacks, Timeouts und Fehlerbehandlung
Jeder Pfad braucht Fallback: API down → zweites Modell oder Queue; Qualität unter Schwelle → Human-Review; Timeout → sicherer Status, kein leerer Send.
Idempotenz und Dead-Letter-Queues — siehe CRM/E-Mail-Integration.
Monitoring: Latenz p95, Fehlerrate, Kosten pro Route, Override-Rate.
A/B-Vergleich und kontinuierliche Kalibrierung
A/B nur mit klarer Hypothese (z. B. „Route B senkt Nacharbeit um 10 %“). Laufzeit mindestens 2 Wochen oder 500 Vorgänge — was zuerst kommt.
Monatlich: Schwellen und Modellversionen reviewen; bei Vendor-Update erneut Eval.
Verknüpfe mit EU-Stack wenn neue Region/Subprocessor.
Einführungsplan in 4 Wochen
Woche 1: Eval-Set und Baseline-Metriken. Woche 2: Zwei-Routen-Pilot (small/large). Woche 3: Risiko-Route + HITL. Woche 4: Kosten- und Qualitätsreview, Regel-Freeze oder Anpassung.
Starte nach Use-Case-Priorisierung — nicht vor Prozessklarheit.
Hybrid ist Betriebsarchitektur — kein Feature-Flag zum An- und Abschalten ohne Owner.
