Schlagwort: Text-to-Speech

  • WhatsApp-Assistent mit n8n: Multimodale Kundenkommunikation (Text, Bild, Stimme)

    WhatsApp-Assistent mit n8n: Multimodale Kundenkommunikation (Text, Bild, Stimme)

    Kurzfassung: Für einen Kunden haben wir einen WhatsApp-Assistenten umgesetzt, der Text, Sprachnachrichten, Bilder und Dokumente verarbeitet. Der Bot nutzt n8n als Orchestrierung, Azure OpenAI für die Antwortlogik, on-prem STT/OCR für Sprache & Dokumente sowie Twilio für die Zustellung. Sessions werden pro Kontakt gespeichert, Antworten sind präzise, auditierbar und mobilfreundlich.

    Ausgangslage & Ziel

    Kundenanfragen kommen heute über verschiedene Formate – kurze Texte, Sprachnachrichten, Fotos von Dokumenten. Ziel war ein robuster, datenschutzfreundlicher Kommunikationsfluss, der alles automatisch versteht, sinnvoll beantwortet und bei Bedarf Termine direkt anlegt.

    Funktionsweise (End-to-End)

    1. Eingang über WhatsApp/SMS (Twilio)
      Der Webhook nimmt eingehende Nachrichten entgegen und erkennt den Nachrichtentyp: Text, Audio, Bild, Dokument.
    2. Intelligente Vorverarbeitung
      • Text: wird direkt in den Agent übergeben.
      • Audio: Speech-to-Text via on-prem STT (lokaler Endpunkt).
      • Bild/Dokument: OCR via on-prem Service (lokaler Endpunkt).
      • Kleine Robustheit: automatische Korrektur von MIME-Types bei Audio, damit alles sauber verarbeitet wird.
    3. Gedächtnis (Session Memory)
      Pro WhatsApp-Kontakt wird ein kurzer Kontextverlauf gespeichert (Session-Key), damit Rückfragen natürlich wirken (z. B. Nachname, gewünschte Uhrzeit).
    4. AI-Agent (Tools-first)
      Ein klarer System-Prompt steuert den Stil:
      • präzise, mobilfreundlich, ohne Spekulation
      • kann Dateien analysieren, Bilder beschreiben, Sprachinhalte transkribieren
      • erkennt, wenn Angaben fehlen, und fragt gezielt nach
      • hält Privacy-Regeln ein (keine Speicherung sensibler Daten)
    5. Optionale Terminvergabe
      Der Agent ruft freigegebene HTTP-Tools auf:
      • Mitarbeiter & Services anzeigen
      • Kalenderdaten prüfen
      • Termin anlegen (Start/Ende, Mitarbeiter, Service)
    6. Antwort & Ausgabe
      • Standard: Textantwort zurück an WhatsApp
      • Optional: Text-to-Speech (on-prem TTS) → Voice-Reply
      • Fallback-Message, wenn ein Dateityp nicht unterstützt wird

    Datenschutz & Compliance

    • DSGVO-freundlich: Verarbeitung bevorzugt EU-basiert; Sprache/OCR laufen auf eigenen Endpunkten.
    • Transparenz: Kein unkontrolliertes Speichern sensibler Inhalte; klare Fehler- und Limit-Hinweise.
    • Minimalprinzip: Nur notwendige Metadaten; kein Teilen zwischen Sessions.

    Nutzen für das Team

    • Schnellere Antworten – unabhängig vom Format der Anfrage
    • Weniger Rückfragen – strukturierte Nachfragen nur bei fehlenden Pflichtangaben
    • Weniger Tool-Hopping – Terminvergabe direkt im Chat
    • Skalierbar – weitere Dienste (z. B. FAQs, Bestellstatus) lassen sich per Tool anbinden

    Technischer Überblick (ausgewählte Bausteine)

    • n8n als Orchestrator (Routing, Typ-Erkennung, Sessions, Fehlerbehandlung)
    • Azure OpenAI (Chat-Modell) mit klaren Antwortregeln
    • On-prem STT/OCR/TTS für Sprache, Bilder, Dokumente
    • Twilio für WhatsApp/SMS-Ein- und Ausgang
    • Robustheit: MIME-Fix für Audio, Fallback-SMS, strukturierte JSON-Outputs

    Ergebnis

    Der Assistant beantwortet multimodale Anfragen zuverlässig, reduziert die Bearbeitungszeit und ermöglicht self-service Terminbuchung – ohne Medienbrüche und mit compliance-gerechter Verarbeitung.

WordPress Appliance - Powered by TurnKey Linux