WhatsApp-Assistent mit n8n: Multimodale Kundenkommunikation (Text, Bild, Stimme)

Kurzfassung: Für einen Kunden haben wir einen WhatsApp-Assistenten umgesetzt, der Text, Sprachnachrichten, Bilder und Dokumente verarbeitet. Der Bot nutzt n8n als Orchestrierung, Azure OpenAI für die Antwortlogik, on-prem STT/OCR für Sprache & Dokumente sowie Twilio für die Zustellung. Sessions werden pro Kontakt gespeichert, Antworten sind präzise, auditierbar und mobilfreundlich.

Ausgangslage & Ziel

Kundenanfragen kommen heute über verschiedene Formate – kurze Texte, Sprachnachrichten, Fotos von Dokumenten. Ziel war ein robuster, datenschutzfreundlicher Kommunikationsfluss, der alles automatisch versteht, sinnvoll beantwortet und bei Bedarf Termine direkt anlegt.

Funktionsweise (End-to-End)

  1. Eingang über WhatsApp/SMS (Twilio)
    Der Webhook nimmt eingehende Nachrichten entgegen und erkennt den Nachrichtentyp: Text, Audio, Bild, Dokument.
  2. Intelligente Vorverarbeitung
    • Text: wird direkt in den Agent übergeben.
    • Audio: Speech-to-Text via on-prem STT (lokaler Endpunkt).
    • Bild/Dokument: OCR via on-prem Service (lokaler Endpunkt).
    • Kleine Robustheit: automatische Korrektur von MIME-Types bei Audio, damit alles sauber verarbeitet wird.
  3. Gedächtnis (Session Memory)
    Pro WhatsApp-Kontakt wird ein kurzer Kontextverlauf gespeichert (Session-Key), damit Rückfragen natürlich wirken (z. B. Nachname, gewünschte Uhrzeit).
  4. AI-Agent (Tools-first)
    Ein klarer System-Prompt steuert den Stil:
    • präzise, mobilfreundlich, ohne Spekulation
    • kann Dateien analysieren, Bilder beschreiben, Sprachinhalte transkribieren
    • erkennt, wenn Angaben fehlen, und fragt gezielt nach
    • hält Privacy-Regeln ein (keine Speicherung sensibler Daten)
  5. Optionale Terminvergabe
    Der Agent ruft freigegebene HTTP-Tools auf:
    • Mitarbeiter & Services anzeigen
    • Kalenderdaten prüfen
    • Termin anlegen (Start/Ende, Mitarbeiter, Service)
  6. Antwort & Ausgabe
    • Standard: Textantwort zurück an WhatsApp
    • Optional: Text-to-Speech (on-prem TTS) → Voice-Reply
    • Fallback-Message, wenn ein Dateityp nicht unterstützt wird

Datenschutz & Compliance

  • DSGVO-freundlich: Verarbeitung bevorzugt EU-basiert; Sprache/OCR laufen auf eigenen Endpunkten.
  • Transparenz: Kein unkontrolliertes Speichern sensibler Inhalte; klare Fehler- und Limit-Hinweise.
  • Minimalprinzip: Nur notwendige Metadaten; kein Teilen zwischen Sessions.

Nutzen für das Team

  • Schnellere Antworten – unabhängig vom Format der Anfrage
  • Weniger Rückfragen – strukturierte Nachfragen nur bei fehlenden Pflichtangaben
  • Weniger Tool-Hopping – Terminvergabe direkt im Chat
  • Skalierbar – weitere Dienste (z. B. FAQs, Bestellstatus) lassen sich per Tool anbinden

Technischer Überblick (ausgewählte Bausteine)

  • n8n als Orchestrator (Routing, Typ-Erkennung, Sessions, Fehlerbehandlung)
  • Azure OpenAI (Chat-Modell) mit klaren Antwortregeln
  • On-prem STT/OCR/TTS für Sprache, Bilder, Dokumente
  • Twilio für WhatsApp/SMS-Ein- und Ausgang
  • Robustheit: MIME-Fix für Audio, Fallback-SMS, strukturierte JSON-Outputs

Ergebnis

Der Assistant beantwortet multimodale Anfragen zuverlässig, reduziert die Bearbeitungszeit und ermöglicht self-service Terminbuchung – ohne Medienbrüche und mit compliance-gerechter Verarbeitung.

WordPress Appliance - Powered by TurnKey Linux