Mein Bericht von Mitte März 2026: Überwachung der LLM in der Produktion

📖 11 min read•2,022 words•Updated Mar 30, 2026

Hallo an alle Bot-Ersteller und digitalen Träumer! Tom Lin hier, zurück auf botclaw.net. Wir sind Mitte März 2026, und wenn ihr wie ich seid, sind eure Slack-Kanäle wahrscheinlich voller Diskussionen über LLMs, agentische Workflows und die allgegenwärtige Frage: „Wie bekommen wir dieses Ding wirklich produktiv zum Laufen, ohne uns die Haare zu verbrennen?“

Heute möchte ich über etwas sprechen, das oft auf den Stapel „später“ geschoben wird, aber den Erfolg eures Bots maßgeblich beeinflussen kann: Überwachung. Genauer gesagt möchte ich einen entscheidenden, aber oft vernachlässigten Aspekt der Bot-Überwachung erkunden: die proaktive Erkennung von Benutzer-Stimmungen und Intentionen.

Über Verfügbarkeit hinaus: Warum traditionelle Überwachung bei Bots scheitert

Hört zu, ich bin schon lange genug im Bereich Bots tätig, um mich daran zu erinnern, dass „Überwachung“ bedeutete, sicherzustellen, dass euer Server nicht ausgefallen ist und dass eure API-Endpunkte einen 200 zurückgeben. Und ja, das ist grundlegend. Wenn euer Bot nicht zugänglich ist, ist er kein Bot, sondern ein sehr teures digitales Kunstwerk. Aber für benutzerorientierte, anspruchsvolle Bots – insbesondere solche, die von der neuesten Generation großer Sprachmodelle betrieben werden – bedeutet es nur zu wissen, dass euer Server funktioniert, so viel wie zu sagen, dass euer Auto fährt, nur weil der Motor nicht brennt. Das sagt euch nichts über das Passagiererlebnis aus.

Mein erstes großes Bot-Projekt, ein Kundenservice-Agent für eine kleine E-Commerce-Marke im Jahr 2022, hat mir diese Lektion auf die harte Tour beigebracht. Wir hatten alle angeschlossenen, ausgeklügelten APM-Tools: CPU-Auslastung, Speicher, Antwortzeiten. Alles schien grün zu sein. Dennoch stiegen die Kundenbeschwerden stetig an. Es stellte sich heraus, dass unser Bot nach einem kleinen Update seines Klassifizierungsmodells für Intentionen subtile Missverständnisse bei häufigen Anfragen hatte. Er stürzte nicht ab, war nicht langsam, aber er erodierte langsam das Vertrauen der Benutzer, eine frustrierende Interaktion nach der anderen.

Diese Erfahrung ließ mich eine Wahrheit erkennen: Für Bots, insbesondere die, die direkt mit Menschen interagieren, beschränkt sich die Überwachung nicht auf die technische Gesundheit; es geht um die dialogische Gesundheit. Es geht darum zu verstehen, ob euer Bot tatsächlich das tut, was er tun soll, aus der Perspektive der Benutzer, und zu erkennen, wann er anfängt, vom Kurs abzukommen *bevor* es zu einer echten PR-Krise wird.

Der stille Killer: Benutzer-Stimmung und Intentionen-Deriva

Worüber sprechen wir also genau, wenn wir von „Stimmungs- und Intentionen-Deriva“ reden?

Stimmungs-Deriva der Benutzer: Das ist, wenn der allgemeine emotionale Ton der Interaktionen eurer Benutzer mit eurem Bot anfängt, sich negativ zu verändern. Sie werden vielleicht nicht explizit sagen „euer Bot ist schlecht“, aber ihr werdet mehr Frustration, Verwirrung oder sogar Wut in ihrer Sprache sehen. Vielleicht hat euer Bot Rücksendungen einst perfekt verwaltet, aber jetzt zeigen die Benutzer Ärger, weil der Prozess nach einer kürzlichen Änderung im Backend ungeschickt oder unklar geworden ist.

Intentionen-Deriva: Dies kann noch heimtückischer sein. Euer Bot ist dafür konzipiert, einen bestimmten Satz von Benutzer-Intentionen zu verarbeiten (zum Beispiel „Bestellung verfolgen“, „Passwort ändern“, „Kontostand überprüfen“). Intentionen-Deriva tritt auf, wenn der Bot:

Beginnt, Benutzeranfragen falsch zu klassifizieren (zum Beispiel „Wo ist mein Paket?“ als „Kontoanfrage“ klassifiziert).
Neue aufkommende Intentionen nicht erkennt, für die euer Bot noch nicht konzipiert ist, was zu Endlosschleifen oder irrelevanten Antworten führt.
Die *Art* und Weise, wie Benutzer bestehende Intentionen ausdrücken, sich ändert und das NLU-Modell eures Bots nicht mithält.

Diese beiden Aspekte sind Leistungsabfälle, die die traditionelle CPU/Speichermonitoring nicht erkennen wird. Sie sind wie ein langsamer Luftverlust in eurem Reifen – ihr bemerkt es nicht, bis ihr am Straßenrand stecken bleibt.

Praktische Ansätze zur proaktiven Erkennung von Deriven

Okay, genug der Melancholie. Wie gehen wir das in der Realität an? Hier sind einige praktische Strategien, die ich umgesetzt habe und die hervorragend funktioniert haben.

1. Echtzeit-Stimmungsanalyse basierend auf Benutzeräußerungen

Das ist eure erste Verteidigungslinie. Während die Benutzer mit eurem Bot interagieren, lasst deren Eingaben durch ein Stimmungsanalyse-Modell laufen. Ihr benötigt hier nichts Außergewöhnliches; viele Cloud-Anbieter (AWS Comprehend, Google Natural Language API, Azure Text Analytics) bieten exzellente vortrainierte Modelle an. Der Trick besteht darin, diese Daten effizient zu aggregieren und zu visualisieren.

Wie man es umsetzt:

Für jede Benutzeräußerung, die an euren Bot gesendet wird, speichert den Rohtext und den zugehörigen Stimmungswert (zum Beispiel positiv, neutral, negativ, mit Vertrauenswerten). Aggregiert dann diese Werte im Zeitverlauf. Worauf ihr achten solltet:

Schnelle Rückgänge in positiver Stimmung: Ein starker Rückgang über eine Stunde oder einen Tag könnte auf ein neues Problem hinweisen.
Langsame Zunahme negativer Stimmung: Dies signalisiert oft eine langsame Erosion, wie eine Funktion, die weniger intuitiv wird.
Spitzen von „gemischter“ oder „verwirrter“ Stimmung: Benutzer versuchen, etwas auszudrücken, aber euer Bot versteht es nicht ganz.

Beispiel (Pseudocode Python):


from some_sentiment_library import analyze_sentiment
from some_monitoring_dashboard import send_metric

def process_user_input(user_id, message_text):
 sentiment_result = analyze_sentiment(message_text)

 # Beispielstruktur: {'score': 0.85, 'label': 'positive'}
 # Oder: {'positive': 0.7, 'negative': 0.2, 'neutral': 0.1}

 send_metric("bot.user_sentiment.score", sentiment_result['score'], tags={"user_id": user_id, "label": sentiment_result['label']})

 if sentiment_result['score'] < 0.3 and sentiment_result['label'] == 'negative':
 send_alert("Niedrige Stimmung für Benutzer erkannt: " + user_id + " - " + message_text)
 # Vielleicht an einen menschlichen Agenten eskalieren oder sofort zur Überprüfung notieren

 # ... weitermachen mit der normalen Verarbeitung des Bots ...

Richtet Dashboards ein, die die durchschnittliche Stimmung im Zeitverlauf (stündlich, täglich) anzeigen, und kritische Alarme für signifikante Rückgänge oder dauerhaft niedrige Stimmung. Ich richte oft Alarme für einen Rückgang von 10 % der durchschnittlichen positiven Stimmung über einen Zeitraum von 2 Stunden ein oder wenn der Anteil negativer Stimmungsäußerungen über 15 % für mehr als 30 Minuten überschreitet. Diese Schwellenwerte variieren je nach typischen Interaktionsmustern eures Bots.

2. Überwachung des Vertrauens in Intentionen und Erkennung von Anomalien

Die meisten modernen NLU- (Natural Language Understanding) Frameworks bieten einen Vertrauenswert für ihre Intentionen-Vorhersagen. Dieser Wert zeigt, wie sicher das Modell bei seiner Klassifikation ist. Niedriges Vertrauen ist ein großes Warnsignal.

Wie man es umsetzt:

Speichert die vorhergesagte Intention und ihren Vertrauenswert für jede Benutzeräußerung. Überwacht anschließend:

Hohe Anzahl von Vorhersagen mit niedrigem Vertrauen: Wenn euer Bot plötzlich bei vielen Benutzereingaben unsicher ist, bedeutet das entweder, dass die Benutzer sich anders ausdrücken oder dass euer Modell eine neue Schulung/Aktualisierung benötigt.
Änderung in den dominierenden niedrigen Vertrauensintentionen: Vielleicht war „Bestellung verfolgen“ einst von hohem Vertrauen, aber jetzt ist es oft von niedrigem Vertrauen. Das weist auf eine spezifische Schwäche des Modells hin.
Häufige Auftretens neuer, nicht verwalteter Intentionen: Wenn eure NLU oft eine „Notfall“- oder „unbekannte“-Intention mit geringem Vertrauen vorhersagt, und die zugrunde liegenden Benutzer-Nachrichten ständig mit einem neuen Thema verbunden sind (zum Beispiel „Rückerstattungsrichtlinie für Abonnementmodelle“, wenn ihr gerade Abonnements eingeführt habt), ist das die Intentionen-Deriva in Aktion.

Beispiel (Auszug aus Rasa NLU):


{
 "text": "Mein Paket ist verspätet, was soll ich tun?",
 "intent": {
 "name": "track_order",
 "confidence": 0.35 // Oh oh, geringe Zuversicht!
 },
 "intent_ranking": [
 {"name": "track_order", "confidence": 0.35},
 {"name": "customer_support", "confidence": 0.28},
 {"name": "shipping_info", "confidence": 0.19}
 ],
 "entities": []
}

Sie können diese Vorhersagen mit geringer Zuversicht aggregieren. Zum Beispiel verwendet mein Team ein einfaches Skript, das alle Ausdrücke mit Vertrauenswerten unter 0.6 für ihre vorhergesagte Absicht zusammenführt und dann alle paar Stunden einen Clusteralgorithmus (wie K-means oder DBSCAN) auf den Text dieser Ausdrücke anwendet. Wenn ein neuer, ausgeprägter Cluster von low-confidence-Ausdrücken auftaucht, wird dies zur Überprüfung gemeldet. Das hilft uns, aufkommende Absichten oder Veränderungen in der Formulierung der Nutzer zu erkennen, ohne Stunden mit der Durchsicht von Tausenden von Protokollen verbringen zu müssen.

3. Überwachung der Eskalationsrate

Das ist ein Klassiker, und das aus gutem Grund. Wenn Ihr Bot an einen Menschen eskalieren kann, ist die Rate, mit der er dies tut, ein direktes Indiz für seine Effektivität. Ein starker Anstieg der Eskalationen, insbesondere für spezifische Kategorien von Absichten, ist ein deutlicher Alarm.

Wie man es umsetzt:

Protokollieren Sie jedes Mal, wenn Ihr Bot einen Transfer an einen menschlichen Agenten auslöst. Verfolgen Sie die Absicht, die der Bot *dachte*, dass der Nutzer hatte, und idealerweise den Grund für die Eskalation (zum Beispiel: „der Nutzer hat einen Menschen angefordert“, „der Bot hat nicht verstanden“, „der frustrierte Nutzer“).

Gesamte Eskalationsrate: Ein anhaltender Anstieg ist ein allgemeines Zeichen für Probleme.
Eskalationsrate nach Absicht: Wenn „Rücksendungen“ plötzlich eine Eskalationsrate von 50 % hat, wo sie zuvor bei 10 % lag, haben Sie ein Problem mit Ihrem Rücksendeprozess.
Trends bei den Eskalationsgründen: Wenn „der Bot hat nicht verstanden“ steigt, weist das auf NLU-Probleme hin. Wenn „der Nutzer hat einen Menschen angefordert“ steigt, könnte das Probleme mit der UX oder dem Gesprächsfluss anzeigen.

Ich richte Alarme ein, wenn die Eskalationsrate für eine der Hauptabsichten innerhalb einer Stunde um mehr als 20 % steigt oder wenn die Gesamte Eskalationsrate einen festgelegten Schwellenwert (zum Beispiel 15 %) für mehr als 30 Minuten überschreitet. Das erkennt häufig Probleme, die den Metriken für Stimmung und Zuversicht entgehen, insbesondere wenn der Bot technisch „betriebsbereit“ ist, aber nicht in der Lage ist, das Problem des Nutzers zu lösen.

Alles zusammenfügen: Ein einheitliches Bot-Gesundheits-Dashboard

Die wahre Kraft kommt von der Kombination dieser Signale. Ich plädiere für ein „Bot-Gesundheits-Dashboard“, das all diese Metriken vereint. Denken Sie daran wie an eine medizinische Akte für Ihren Bot.

Oberer Abschnitt: Hochrangige KPIs – allgemeine Tendenz des positiven Sentiments, durchschnittliches Vertrauen in die Absichten, Gesamteskalationen, Lösungsrate durch den Bot.
Mittlerer Abschnitt: Aufschlüsselung nach Absicht – Sentiment, Vertrauen und Eskalationsrate für Ihre 5-10 Hauptabsichten. Das hilft, spezifische Problemzonen zu identifizieren.
Unterer Abschnitt: Anomalieerkennungswarnungen – kürzliche Spitzen bei low-confidence-Aussagen, neue Rückgänge im Sentiment, spezifische Anstiege bei den Eskalationen von Absichten.

Mein Team verwendet Grafana dafür, indem wir Daten von Prometheus und unseren eigenen benutzerdefinierten Logging-Diensten abrufen. Das Ziel ist es, die Visualisierung auf einen Blick zu erleichtern, um zu wissen, ob Ihr Bot „gesund“ ist und schnell weiter zu gehen, wenn etwas unnormal erscheint.

Wichtige Punkte für Bot-Entwickler

Also, was sollten Sie am Montagmorgen tun?

Beginnen Sie mit dem gesamten Protokollieren: Wenn Sie noch nicht die Äußerungen der Nutzer, die vorhergesagten Absichten, die Vertrauenswerten und die Eskalationsereignisse protokollieren, fangen Sie sofort damit an. Diese Daten sind wertvoll.
Implementieren Sie eine grundlegende Sentimentanalyse: Wählen Sie die API eines Cloud-Anbieters oder eine Open-Source-Bibliothek und integrieren Sie sie in den Eingabeverarbeitungs-Pipeline Ihres Bots. Das ist überraschend einfach.
Verfolgen Sie das Vertrauen in die Absichten: Protokollieren Sie diese Werte und richten Sie einfache Alarme für die Schwellenwerte mit geringer Zuversicht ein.
Erstellen Sie ein Eskalationsdashboard: Stellen Sie sicher, dass Sie wissen, *wann* und *warum* Ihr Bot an Menschen überträgt.
Überprüfen Sie regelmäßig die aggregierten Daten: Warten Sie nicht nur auf Alarme. Verbringen Sie jede Woche 15-30 Minuten damit, die Leistungsmetriken Ihres Bots zu überprüfen. Suchen Sie nach Trends, nicht nur nach sofortigen Problemen.
Verbinden Sie sich mit Ihrer NLU/MLOps-Pipeline: Nutzen Sie diese Informationen, um die Neuverarbeitung Ihres Modells zu steuern. Geringe Zuversicht in einer Absicht? Fügen Sie mehr Trainingsdaten dafür hinzu. Neueste Gruppe von Absichten? Überlegen Sie, sie in Ihr Modell aufzunehmen.

Im Zeitalter zunehmend ausgeklügelter Bots müssen unsere Überwachungsstrategien über einfache technische Betriebszeiten hinausgehen. Indem wir uns auf das Empfinden der Nutzer und die Drift der Absichten konzentrieren, können wir proaktiv Probleme erkennen, die die Nutzererfahrung beeinträchtigen, das Vertrauen aufrechterhalten und letztendlich bessere und widerstandsfähigere Bots entwickeln. Lassen Sie nicht zu, dass Ihr Bot sich langsam zu einer frustrierenden Erfahrung entwickelt; bleiben Sie wachsam, überwachen Sie diese Gespräche und stellen Sie sicher, dass alles reibungslos funktioniert.

Das war's für diese Woche, Freunde! Teilen Sie Ihre Überwachungs-Tipps und -Tricks in den Kommentaren. Bis zum nächsten Mal, viel Spaß beim Bot-Entwickeln!

🕒 Published: March 30, 2026

🛠️

Written by Jake Chen

Full-stack developer specializing in bot frameworks and APIs. Open-source contributor with 2000+ GitHub stars.

Learn more →

Über Verfügbarkeit hinaus: Warum traditionelle Überwachung bei Bots scheitert

Der stille Killer: Benutzer-Stimmung und Intentionen-Deriva

Praktische Ansätze zur proaktiven Erkennung von Deriven

1. Echtzeit-Stimmungsanalyse basierend auf Benutzeräußerungen

Wie man es umsetzt:

Beispiel (Pseudocode Python):

2. Überwachung des Vertrauens in Intentionen und Erkennung von Anomalien

Wie man es umsetzt:

Beispiel (Auszug aus Rasa NLU):

3. Überwachung der Eskalationsrate

Wie man es umsetzt:

Alles zusammenfügen: Ein einheitliches Bot-Gesundheits-Dashboard

Wichtige Punkte für Bot-Entwickler

Das Könnten Sie Auch Interessieren

You May Also Like

📚 You Might Also Like

Related Articles