Schlagwort: Workflow-Automatisierung

Kundenprojekt: Automatisierte OCR-Verarbeitung in Nextcloud – suchbare PDF/A-Dokumente mit n8n & lokalem API-Server
Ausgangssituation

Bei einem unserer Kunden werden täglich zahlreiche Dokumente gescannt – Rechnungen, Lieferscheine, Verträge oder Notizen. Diese landen automatisch in einem Nextcloud-Ordner und stehen anschließend verschiedenen Mitarbeitern zur Verfügung.
Das Problem: Die PDFs stammen direkt aus dem Scanner und enthalten keine durchsuchbaren Texte. Damit war die Suche nach Dokumenteninhalten oder Beträgen mühsam, und eine revisionssichere Langzeitarchivierung im PDF/A-Format war nicht gewährleistet.

Der Kunde wünschte sich eine vollautomatische Lösung, um neue Scans in Nextcloud automatisch zu erkennen, in durchsuchbare PDF/A-Dateien zu konvertieren und anschließend sauber abzulegen – ohne Cloud-Dienste, vollständig on-premises.

Unsere Lösung: n8n + Nextcloud + lokaler OCR-API-Server

Wir haben dafür einen Workflow auf Basis von n8n entwickelt, der direkt mit der Nextcloud des Kunden verbunden ist.
Der Ablauf im Überblick:
1. Überwachung des Scanner-Ordners:
  In regelmäßigen Intervallen prüft der Workflow den Nextcloud-Ordner /Geschaeftsdaten/Scanner auf neue Dateien.
2. Filterung & Verarbeitung:
  Bereits verarbeitete Dokumente (erkennbar an der Endung _ocr.pdf) werden übersprungen, um doppelte Konvertierungen zu vermeiden.
3. Lokale OCR-Verarbeitung:
  Neue PDF-Dateien werden automatisch an einen lokalen OCR-API-Server geschickt, der innerhalb der Kundeninfrastruktur läuft.
  Dieser Server basiert auf FastAPI und nutzt intern ocrmypdf mit der OCR-Engine Tesseract.
  Unterstützt werden mehrere Sprachen (z. B. Deutsch & Englisch), automatische Drehung, Schräglagenkorrektur und Optimierung.
  Das Ergebnis ist ein PDF/A-konformes Dokument mit Textlayer – also durchsuchbar, normgerecht und visuell identisch zum Original.
4. Rückführung & Ablage:
  Das erzeugte _ocr.pdf wird im gleichen Ordner wieder hochgeladen.
  Das ursprüngliche Scan-PDF wird – je nach Einstellung – gelöscht, um Dubletten zu vermeiden.
5. Automatische Namenskonvention:
  Der Workflow ergänzt alle OCR-Dateien einheitlich mit der Endung _ocr.pdf und sorgt so für klare Versionierung und Nachvollziehbarkeit.
Datenschutz & Sicherheit: Verarbeitung ausschließlich lokal

Ein zentrales Ziel dieses Projekts war der Datenschutz.
Alle Verarbeitungsschritte finden innerhalb der Kundensysteme statt – keine Datei verlässt das lokale Netzwerk.

Architektur
- FastAPI-Server läuft on-prem auf einem Linux-System im Intranet.
- Der OCR-Service nutzt ausschließlich temporäre Arbeitsverzeichnisse (tempfile.TemporaryDirectory), die nach jedem Auftrag automatisch gelöscht werden.
- Der Server akzeptiert nur PDF-Dateien (Content-Type: application/pdf oder multipart upload).
- Das Ergebnis wird gestreamt zurückgegeben – keine Kopien im Speicher, keine dauerhafte Speicherung.
Datenschutzvorteile
- Daten bleiben im Haus: Keine Übertragung in fremde Clouds oder Drittländer.
- Verarbeitung zweckgebunden: Nutzung nur zur Texterkennung.
- Speicherbegrenzung: Temporäre Daten werden nach Verarbeitung automatisch gelöscht.
- Transparente Benennung: Jede OCR-Datei trägt den Suffix _ocr.pdf – klar nachvollziehbar.
- Keine Protokollierung von Inhalten: Nur technische Logs (Status, Dauer, Erfolg/Fehler).
Technische Härtung
- Zugriff nur über interne IPs oder VPN.
- HTTPS (TLS)-Absicherung über Reverse Proxy mit Strict-Transport-Security & Referrer-Policy.
- API-Key oder mTLS-Authentifizierung für n8n-Aufrufe.
- Rate-Limits & Timeouts schützen vor Missbrauch.
- Kein Internetzugang vom Server ausgehend (reine Intranet-Kommunikation).
- Antivirus-Option (ClamAV) möglich – vor OCR-Aufruf zur zusätzlichen Prüfung.
Beispielheader (Reverse Proxy)
```
X-Content-Type-Options: nosniff
Content-Security-Policy: default-src 'none'
Strict-Transport-Security: max-age=31536000; includeSubDomains
Referrer-Policy: no-referrer
```
So entsteht eine vollständig datenschutzkonforme On-Prem-Lösung, die nicht nur sicher, sondern auch technisch elegant umgesetzt ist.

Vorteile für den Kunden
- Automatische Texterkennung: Dokumente sind durchsuchbar in Nextcloud & Desktop-Suche.
- Langzeitarchivierung: Ausgabe als PDF/A – rechtssicher und standardkonform.
- Volle Kontrolle: Alle Daten bleiben im eigenen Netzwerk.
- Zeitersparnis: Kein manuelles OCR mehr notwendig.
- Einheitliche Ablage: _ocr.pdf-Suffix für klare Nachvollziehbarkeit.
- DSGVO-konform: Keine Übermittlung, keine Fremdsysteme, keine Drittanbieter.
Technische Eckpunkte
- Workflow Engine: n8n (Automatisierung & Orchestrierung)
- Cloud-System: Nextcloud mit OAuth2-Anbindung
- OCR-Service: FastAPI + ocrmypdf + Tesseract
- Sprachen: Deutsch & Englisch (lang=deu+eng)
- Output: PDF/A mit Texterkennung, Rotation, Deskew, Optimierung
- Dateibenennung: Original → _ocr.pdf
- Timeout: bis zu 15 min für große Dokumente
- Laufzeitumgebung: On-prem Linux, ohne Internetzugang
Erweiterung & Ausblick

In der nächsten Ausbaustufe kann der Workflow erweitert werden, um:
- automatisch Metadaten zu extrahieren (Datum, Lieferant, Rechnungsnummer),
- Dokumente zu taggen oder in Unterordner zu verschieben,
- Benachrichtigungen in Nextcloud Talk oder per Mail zu senden,
- oder eine Anbindung ans ERP/DMS-System zu schaffen.
Fazit

Mit dieser Lösung erhält der Kunde eine automatisierte, sichere und revisionssichere Dokumentenverarbeitung – komplett lokal betrieben, ohne Cloud-Dienste, ohne Datenschutzrisiko.
Der Workflow läuft im Hintergrund, ist wartungsarm und sorgt dafür, dass alle gescannten Dokumente in Nextcloud durchsuchbar, standardisiert und sicher archiviert sind.
08.10.2025
WhatsApp-Assistent mit n8n: Multimodale Kundenkommunikation (Text, Bild, Stimme)
Kurzfassung: Für einen Kunden haben wir einen WhatsApp-Assistenten umgesetzt, der Text, Sprachnachrichten, Bilder und Dokumente verarbeitet. Der Bot nutzt n8n als Orchestrierung, Azure OpenAI für die Antwortlogik, on-prem STT/OCR für Sprache & Dokumente sowie Twilio für die Zustellung. Sessions werden pro Kontakt gespeichert, Antworten sind präzise, auditierbar und mobilfreundlich.

Ausgangslage & Ziel

Kundenanfragen kommen heute über verschiedene Formate – kurze Texte, Sprachnachrichten, Fotos von Dokumenten. Ziel war ein robuster, datenschutzfreundlicher Kommunikationsfluss, der alles automatisch versteht, sinnvoll beantwortet und bei Bedarf Termine direkt anlegt.

Funktionsweise (End-to-End)
1. Eingang über WhatsApp/SMS (Twilio)
  Der Webhook nimmt eingehende Nachrichten entgegen und erkennt den Nachrichtentyp: Text, Audio, Bild, Dokument.
2. Intelligente Vorverarbeitung
  - Text: wird direkt in den Agent übergeben.
  - Audio: Speech-to-Text via on-prem STT (lokaler Endpunkt).
  - Bild/Dokument: OCR via on-prem Service (lokaler Endpunkt).
  - Kleine Robustheit: automatische Korrektur von MIME-Types bei Audio, damit alles sauber verarbeitet wird.
3. Gedächtnis (Session Memory)
  Pro WhatsApp-Kontakt wird ein kurzer Kontextverlauf gespeichert (Session-Key), damit Rückfragen natürlich wirken (z. B. Nachname, gewünschte Uhrzeit).
4. AI-Agent (Tools-first)
  Ein klarer System-Prompt steuert den Stil:
  - präzise, mobilfreundlich, ohne Spekulation
  - kann Dateien analysieren, Bilder beschreiben, Sprachinhalte transkribieren
  - erkennt, wenn Angaben fehlen, und fragt gezielt nach
  - hält Privacy-Regeln ein (keine Speicherung sensibler Daten)
5. Optionale Terminvergabe
  Der Agent ruft freigegebene HTTP-Tools auf:
  - Mitarbeiter & Services anzeigen
  - Kalenderdaten prüfen
  - Termin anlegen (Start/Ende, Mitarbeiter, Service)
6. Antwort & Ausgabe
  - Standard: Textantwort zurück an WhatsApp
  - Optional: Text-to-Speech (on-prem TTS) → Voice-Reply
  - Fallback-Message, wenn ein Dateityp nicht unterstützt wird
Datenschutz & Compliance
- DSGVO-freundlich: Verarbeitung bevorzugt EU-basiert; Sprache/OCR laufen auf eigenen Endpunkten.
- Transparenz: Kein unkontrolliertes Speichern sensibler Inhalte; klare Fehler- und Limit-Hinweise.
- Minimalprinzip: Nur notwendige Metadaten; kein Teilen zwischen Sessions.
Nutzen für das Team
- Schnellere Antworten – unabhängig vom Format der Anfrage
- Weniger Rückfragen – strukturierte Nachfragen nur bei fehlenden Pflichtangaben
- Weniger Tool-Hopping – Terminvergabe direkt im Chat
- Skalierbar – weitere Dienste (z. B. FAQs, Bestellstatus) lassen sich per Tool anbinden
Technischer Überblick (ausgewählte Bausteine)
- n8n als Orchestrator (Routing, Typ-Erkennung, Sessions, Fehlerbehandlung)
- Azure OpenAI (Chat-Modell) mit klaren Antwortregeln
- On-prem STT/OCR/TTS für Sprache, Bilder, Dokumente
- Twilio für WhatsApp/SMS-Ein- und Ausgang
- Robustheit: MIME-Fix für Audio, Fallback-SMS, strukturierte JSON-Outputs
Ergebnis

Der Assistant beantwortet multimodale Anfragen zuverlässig, reduziert die Bearbeitungszeit und ermöglicht self-service Terminbuchung – ohne Medienbrüche und mit compliance-gerechter Verarbeitung.
10.09.2025
Industrie-Chatbot mit n8n: Tool-Orchestrierung statt Halluzinationen
Kurzfassung: Für einen Industrie-Kunden haben wir einen Chatbot implementiert, der Nutzerfragen nicht „aus dem Kopf“ beantwortet, sondern gezielt angebundene Tools nutzt: Artikel-Lookup, Datenblattabruf und Wissenszugriff – alles protokolliert, reproduzierbar und DSGVO-konform. Der Bot läuft auf n8n mit OpenAI-kompatibler Webhook-Schnittstelle und Azure OpenAI (EU-Kontext), inklusive Sessionspeicher und Intent-Routing.

Ausgangslage & Ziel

Technische Anfragen zu Industrieartikeln sind komplex: Artikelnummern variieren, Nachfolger existieren, und Spezifikationen müssen belastbar sein. Ziel war ein robuster Chat-Workflow, der:
- Nutzerfragen annimmt (OpenAI-API-kompatibel),
- Intent & Parameter (z. B. Artikelnummer, Hersteller) sauber extrahiert,
- hersteller-spezifische Datenquellen bzw. freigegebene Crawler/Workflows ansteuert,
- nur belegbare Informationen zurückgibt – mit Quellen aus den Tools.
Architektur im Überblick
- Webhook (POST /v1/chat/completions): OpenAI-kompatible Endpoint-Struktur für einfache Integration.
- Pre-Processing („Vereinfachen“): Extrahiert Session-Key, letzte Usernachricht, Metadaten (IP/User-Agent optional).
- Intent-Router („Qualifikation“): Klassifiziert Anfrage (z. B. article_lookup, free_text_search, knowledge_db_query) und liefert ein valide geparstes JSON.
- Memory (Session): Buffer Window Memory per Session-Key für zusammenhängende Dialoge.
- Orchestrator-Agent: Strenge Tools-first-Policy: Erst passende Workflows aufrufen (z. B. Artikel-Lookup, PDF-Abruf, Parser, Specs-Extraktion), dann antworten.
- Tool-Workflows:
  - Hersteller-spezifische Pull-Workflows (nur wenn freigegeben).
  - Fallback-Crawler für generische Abfragen.
- Compliance & Determinismus: Keine freien Vermutungen, nur toolbasierte Ergebnisse mit Quellen.
- Response-Formatter: Konvertiert die Ausgabe in ein OpenAI-API-konformes Chat-Completion-Objekt.
Wichtiger Hinweis: Es werden keine vertraulichen/geschützten Inhalte offengelegt. Der Beitrag enthält keine Details zu konkreten Scraping-Zielen oder proprietären Endpunkten.

Funktionsweise Schritt für Schritt
1. Request entgegennehmen: Client postet Chat-Nachrichten an den Webhook (OpenAI-Format).
2. Session & Frage extrahieren: Session-Key, letzte Userfrage, gewünschtes Modell.
3. Intent-Erkennung: Parser liefert rein JSON-basiert: Intent, Sprache, erkannte Artikelnummer/Hersteller, Confidence.
4. Tool-Planung: Orchestrator wählt das zuständige Workflow-Tool (z. B. Hersteller-Lookup → Datenblatt → Parser → Specs).
5. Ausführung & Validierung: Ergebnisse werden auf Vollständigkeit geprüft (z. B. Spannung, Strom, Abmessungen, IP-Schutzklasse).
6. Antwort bauen: Knapp, sachlich, mit Quellen (nur aus Tool-Outputs).
7. Rückgabe: OpenAI-kompatibles JSON (choices, message, usage).
Warum dieser Ansatz?
- Verlässlich statt generativ unscharf: Der Bot „weiß“ nichts – er verwaltet Wissen und zitiert nur Tool-Ergebnisse.
- Auditierbar: Jeder Schritt ist in n8n nachvollziehbar (Logs, Status).
- Skalierbar: Neue Hersteller/Datenquellen werden als Tool-Workflow ergänzt.
- EU & DSGVO: Betrieb mit Azure OpenAI (EU-Konfiguration) und klaren Zugriffs-/Compliance-Regeln.
Sicherheits- & Compliance-Prinzipien
- Tools-first, Knowledge-last: Keine Freitexterfindungen.
- Quellenpflicht: Nur verlinkte/benannte Tool-Outputs.
- Minimal-Rückfragen: Nur wenn essenzielle Parameter fehlen (z. B. Hersteller, MLFB).
- Keine Secrets/IDs im Output, keine personenbezogenen Daten ohne Freigabe.
- EU-Hosting präferiert, Logs & Rechtekonzepte inklusive.
Nutzen für Fachabteilungen
- Schnellere Antworten auf wiederkehrende Technikfragen.
- Weniger Rückfragen durch saubere Parametrisierung und Nachfolger-Hinweise.
- Wissensentlastung im Support: Der Bot übernimmt Erstklärung & Spezifikats-Auszug.
- Konsistente Qualität dank deterministischer Pipelines.
Erweiterungen (Roadmap)
- Streaming-Antworten am Webhook für Live-Token-Output.
- Mehrsprachigkeit mit Terminologie-Glossar.
- RAG auf freigegebenen internen Dokumenten (rollenbasiert).
- Telemetry & Monitoring (Fehlerraten, Tool-Latenzen, Antwortqualität).
- Admin-Konsole zum Verwalten von Tools, Limits, Session-Policies.
Fazit

Mit n8n als Orchestrierungs-Layer und Azure OpenAI als Modell-Backend entsteht ein verlässlicher Industrie-Chatbot, der nur belegbare Informationen aus angebundenen Hersteller-/Wissens-Workflows liefert. Das reduziert Fehlantworten, schafft Vertrauen und spart Support-Zeit – DSGVO-konform und erweiterbar.
10.09.2025

WordPress Appliance - Powered by TurnKey Linux