Kurzfassung: Für einen Kunden haben wir einen WhatsApp-Assistenten umgesetzt, der Text, Sprachnachrichten, Bilder und Dokumente verarbeitet. Der Bot nutzt n8n als Orchestrierung, Azure OpenAI für die Antwortlogik, on-prem STT/OCR für Sprache & Dokumente sowie Twilio für die Zustellung. Sessions werden pro Kontakt gespeichert, Antworten sind präzise, auditierbar und mobilfreundlich.
Ausgangslage & Ziel
Kundenanfragen kommen heute über verschiedene Formate – kurze Texte, Sprachnachrichten, Fotos von Dokumenten. Ziel war ein robuster, datenschutzfreundlicher Kommunikationsfluss, der alles automatisch versteht, sinnvoll beantwortet und bei Bedarf Termine direkt anlegt.
Funktionsweise (End-to-End)
- Eingang über WhatsApp/SMS (Twilio)
Der Webhook nimmt eingehende Nachrichten entgegen und erkennt den Nachrichtentyp: Text, Audio, Bild, Dokument. - Intelligente Vorverarbeitung
- Text: wird direkt in den Agent übergeben.
- Audio: Speech-to-Text via on-prem STT (lokaler Endpunkt).
- Bild/Dokument: OCR via on-prem Service (lokaler Endpunkt).
- Kleine Robustheit: automatische Korrektur von MIME-Types bei Audio, damit alles sauber verarbeitet wird.
- Gedächtnis (Session Memory)
Pro WhatsApp-Kontakt wird ein kurzer Kontextverlauf gespeichert (Session-Key), damit Rückfragen natürlich wirken (z. B. Nachname, gewünschte Uhrzeit). - AI-Agent (Tools-first)
Ein klarer System-Prompt steuert den Stil:- präzise, mobilfreundlich, ohne Spekulation
- kann Dateien analysieren, Bilder beschreiben, Sprachinhalte transkribieren
- erkennt, wenn Angaben fehlen, und fragt gezielt nach
- hält Privacy-Regeln ein (keine Speicherung sensibler Daten)
- Optionale Terminvergabe
Der Agent ruft freigegebene HTTP-Tools auf:- Mitarbeiter & Services anzeigen
- Kalenderdaten prüfen
- Termin anlegen (Start/Ende, Mitarbeiter, Service)
- Antwort & Ausgabe
- Standard: Textantwort zurück an WhatsApp
- Optional: Text-to-Speech (on-prem TTS) → Voice-Reply
- Fallback-Message, wenn ein Dateityp nicht unterstützt wird
Datenschutz & Compliance
- DSGVO-freundlich: Verarbeitung bevorzugt EU-basiert; Sprache/OCR laufen auf eigenen Endpunkten.
- Transparenz: Kein unkontrolliertes Speichern sensibler Inhalte; klare Fehler- und Limit-Hinweise.
- Minimalprinzip: Nur notwendige Metadaten; kein Teilen zwischen Sessions.
Nutzen für das Team
- Schnellere Antworten – unabhängig vom Format der Anfrage
- Weniger Rückfragen – strukturierte Nachfragen nur bei fehlenden Pflichtangaben
- Weniger Tool-Hopping – Terminvergabe direkt im Chat
- Skalierbar – weitere Dienste (z. B. FAQs, Bestellstatus) lassen sich per Tool anbinden
Technischer Überblick (ausgewählte Bausteine)
- n8n als Orchestrator (Routing, Typ-Erkennung, Sessions, Fehlerbehandlung)
- Azure OpenAI (Chat-Modell) mit klaren Antwortregeln
- On-prem STT/OCR/TTS für Sprache, Bilder, Dokumente
- Twilio für WhatsApp/SMS-Ein- und Ausgang
- Robustheit: MIME-Fix für Audio, Fallback-SMS, strukturierte JSON-Outputs
Ergebnis
Der Assistant beantwortet multimodale Anfragen zuverlässig, reduziert die Bearbeitungszeit und ermöglicht self-service Terminbuchung – ohne Medienbrüche und mit compliance-gerechter Verarbeitung.