Schlagwort: OCR

  • Kundenprojekt: Automatisierte OCR-Verarbeitung in Nextcloud – suchbare PDF/A-Dokumente mit n8n & lokalem API-Server

    Kundenprojekt: Automatisierte OCR-Verarbeitung in Nextcloud – suchbare PDF/A-Dokumente mit n8n & lokalem API-Server

    Ausgangssituation

    Bei einem unserer Kunden werden täglich zahlreiche Dokumente gescannt – Rechnungen, Lieferscheine, Verträge oder Notizen. Diese landen automatisch in einem Nextcloud-Ordner und stehen anschließend verschiedenen Mitarbeitern zur Verfügung.
    Das Problem: Die PDFs stammen direkt aus dem Scanner und enthalten keine durchsuchbaren Texte. Damit war die Suche nach Dokumenteninhalten oder Beträgen mühsam, und eine revisionssichere Langzeitarchivierung im PDF/A-Format war nicht gewährleistet.

    Der Kunde wünschte sich eine vollautomatische Lösung, um neue Scans in Nextcloud automatisch zu erkennen, in durchsuchbare PDF/A-Dateien zu konvertieren und anschließend sauber abzulegen – ohne Cloud-Dienste, vollständig on-premises.


    Unsere Lösung: n8n + Nextcloud + lokaler OCR-API-Server

    Wir haben dafür einen Workflow auf Basis von n8n entwickelt, der direkt mit der Nextcloud des Kunden verbunden ist.
    Der Ablauf im Überblick:

    1. Überwachung des Scanner-Ordners:
      In regelmäßigen Intervallen prüft der Workflow den Nextcloud-Ordner /Geschaeftsdaten/Scanner auf neue Dateien.
    2. Filterung & Verarbeitung:
      Bereits verarbeitete Dokumente (erkennbar an der Endung _ocr.pdf) werden übersprungen, um doppelte Konvertierungen zu vermeiden.
    3. Lokale OCR-Verarbeitung:
      Neue PDF-Dateien werden automatisch an einen lokalen OCR-API-Server geschickt, der innerhalb der Kundeninfrastruktur läuft.
      Dieser Server basiert auf FastAPI und nutzt intern ocrmypdf mit der OCR-Engine Tesseract.
      Unterstützt werden mehrere Sprachen (z. B. Deutsch & Englisch), automatische Drehung, Schräglagenkorrektur und Optimierung.
      Das Ergebnis ist ein PDF/A-konformes Dokument mit Textlayer – also durchsuchbar, normgerecht und visuell identisch zum Original.
    4. Rückführung & Ablage:
      Das erzeugte _ocr.pdf wird im gleichen Ordner wieder hochgeladen.
      Das ursprüngliche Scan-PDF wird – je nach Einstellung – gelöscht, um Dubletten zu vermeiden.
    5. Automatische Namenskonvention:
      Der Workflow ergänzt alle OCR-Dateien einheitlich mit der Endung _ocr.pdf und sorgt so für klare Versionierung und Nachvollziehbarkeit.

    Datenschutz & Sicherheit: Verarbeitung ausschließlich lokal

    Ein zentrales Ziel dieses Projekts war der Datenschutz.
    Alle Verarbeitungsschritte finden innerhalb der Kundensysteme statt – keine Datei verlässt das lokale Netzwerk.

    Architektur

    • FastAPI-Server läuft on-prem auf einem Linux-System im Intranet.
    • Der OCR-Service nutzt ausschließlich temporäre Arbeitsverzeichnisse (tempfile.TemporaryDirectory), die nach jedem Auftrag automatisch gelöscht werden.
    • Der Server akzeptiert nur PDF-Dateien (Content-Type: application/pdf oder multipart upload).
    • Das Ergebnis wird gestreamt zurückgegeben – keine Kopien im Speicher, keine dauerhafte Speicherung.

    Datenschutzvorteile

    • Daten bleiben im Haus: Keine Übertragung in fremde Clouds oder Drittländer.
    • Verarbeitung zweckgebunden: Nutzung nur zur Texterkennung.
    • Speicherbegrenzung: Temporäre Daten werden nach Verarbeitung automatisch gelöscht.
    • Transparente Benennung: Jede OCR-Datei trägt den Suffix _ocr.pdf – klar nachvollziehbar.
    • Keine Protokollierung von Inhalten: Nur technische Logs (Status, Dauer, Erfolg/Fehler).

    Technische Härtung

    • Zugriff nur über interne IPs oder VPN.
    • HTTPS (TLS)-Absicherung über Reverse Proxy mit Strict-Transport-Security & Referrer-Policy.
    • API-Key oder mTLS-Authentifizierung für n8n-Aufrufe.
    • Rate-Limits & Timeouts schützen vor Missbrauch.
    • Kein Internetzugang vom Server ausgehend (reine Intranet-Kommunikation).
    • Antivirus-Option (ClamAV) möglich – vor OCR-Aufruf zur zusätzlichen Prüfung.

    Beispielheader (Reverse Proxy)

    X-Content-Type-Options: nosniff
    Content-Security-Policy: default-src 'none'
    Strict-Transport-Security: max-age=31536000; includeSubDomains
    Referrer-Policy: no-referrer
    

    So entsteht eine vollständig datenschutzkonforme On-Prem-Lösung, die nicht nur sicher, sondern auch technisch elegant umgesetzt ist.


    Vorteile für den Kunden

    • Automatische Texterkennung: Dokumente sind durchsuchbar in Nextcloud & Desktop-Suche.
    • Langzeitarchivierung: Ausgabe als PDF/A – rechtssicher und standardkonform.
    • Volle Kontrolle: Alle Daten bleiben im eigenen Netzwerk.
    • Zeitersparnis: Kein manuelles OCR mehr notwendig.
    • Einheitliche Ablage: _ocr.pdf-Suffix für klare Nachvollziehbarkeit.
    • DSGVO-konform: Keine Übermittlung, keine Fremdsysteme, keine Drittanbieter.

    Technische Eckpunkte

    • Workflow Engine: n8n (Automatisierung & Orchestrierung)
    • Cloud-System: Nextcloud mit OAuth2-Anbindung
    • OCR-Service: FastAPI + ocrmypdf + Tesseract
    • Sprachen: Deutsch & Englisch (lang=deu+eng)
    • Output: PDF/A mit Texterkennung, Rotation, Deskew, Optimierung
    • Dateibenennung: Original → _ocr.pdf
    • Timeout: bis zu 15 min für große Dokumente
    • Laufzeitumgebung: On-prem Linux, ohne Internetzugang

    Erweiterung & Ausblick

    In der nächsten Ausbaustufe kann der Workflow erweitert werden, um:

    • automatisch Metadaten zu extrahieren (Datum, Lieferant, Rechnungsnummer),
    • Dokumente zu taggen oder in Unterordner zu verschieben,
    • Benachrichtigungen in Nextcloud Talk oder per Mail zu senden,
    • oder eine Anbindung ans ERP/DMS-System zu schaffen.

    Fazit

    Mit dieser Lösung erhält der Kunde eine automatisierte, sichere und revisionssichere Dokumentenverarbeitung – komplett lokal betrieben, ohne Cloud-Dienste, ohne Datenschutzrisiko.
    Der Workflow läuft im Hintergrund, ist wartungsarm und sorgt dafür, dass alle gescannten Dokumente in Nextcloud durchsuchbar, standardisiert und sicher archiviert sind.


  • WhatsApp-Assistent mit n8n: Multimodale Kundenkommunikation (Text, Bild, Stimme)

    WhatsApp-Assistent mit n8n: Multimodale Kundenkommunikation (Text, Bild, Stimme)

    Kurzfassung: Für einen Kunden haben wir einen WhatsApp-Assistenten umgesetzt, der Text, Sprachnachrichten, Bilder und Dokumente verarbeitet. Der Bot nutzt n8n als Orchestrierung, Azure OpenAI für die Antwortlogik, on-prem STT/OCR für Sprache & Dokumente sowie Twilio für die Zustellung. Sessions werden pro Kontakt gespeichert, Antworten sind präzise, auditierbar und mobilfreundlich.

    Ausgangslage & Ziel

    Kundenanfragen kommen heute über verschiedene Formate – kurze Texte, Sprachnachrichten, Fotos von Dokumenten. Ziel war ein robuster, datenschutzfreundlicher Kommunikationsfluss, der alles automatisch versteht, sinnvoll beantwortet und bei Bedarf Termine direkt anlegt.

    Funktionsweise (End-to-End)

    1. Eingang über WhatsApp/SMS (Twilio)
      Der Webhook nimmt eingehende Nachrichten entgegen und erkennt den Nachrichtentyp: Text, Audio, Bild, Dokument.
    2. Intelligente Vorverarbeitung
      • Text: wird direkt in den Agent übergeben.
      • Audio: Speech-to-Text via on-prem STT (lokaler Endpunkt).
      • Bild/Dokument: OCR via on-prem Service (lokaler Endpunkt).
      • Kleine Robustheit: automatische Korrektur von MIME-Types bei Audio, damit alles sauber verarbeitet wird.
    3. Gedächtnis (Session Memory)
      Pro WhatsApp-Kontakt wird ein kurzer Kontextverlauf gespeichert (Session-Key), damit Rückfragen natürlich wirken (z. B. Nachname, gewünschte Uhrzeit).
    4. AI-Agent (Tools-first)
      Ein klarer System-Prompt steuert den Stil:
      • präzise, mobilfreundlich, ohne Spekulation
      • kann Dateien analysieren, Bilder beschreiben, Sprachinhalte transkribieren
      • erkennt, wenn Angaben fehlen, und fragt gezielt nach
      • hält Privacy-Regeln ein (keine Speicherung sensibler Daten)
    5. Optionale Terminvergabe
      Der Agent ruft freigegebene HTTP-Tools auf:
      • Mitarbeiter & Services anzeigen
      • Kalenderdaten prüfen
      • Termin anlegen (Start/Ende, Mitarbeiter, Service)
    6. Antwort & Ausgabe
      • Standard: Textantwort zurück an WhatsApp
      • Optional: Text-to-Speech (on-prem TTS) → Voice-Reply
      • Fallback-Message, wenn ein Dateityp nicht unterstützt wird

    Datenschutz & Compliance

    • DSGVO-freundlich: Verarbeitung bevorzugt EU-basiert; Sprache/OCR laufen auf eigenen Endpunkten.
    • Transparenz: Kein unkontrolliertes Speichern sensibler Inhalte; klare Fehler- und Limit-Hinweise.
    • Minimalprinzip: Nur notwendige Metadaten; kein Teilen zwischen Sessions.

    Nutzen für das Team

    • Schnellere Antworten – unabhängig vom Format der Anfrage
    • Weniger Rückfragen – strukturierte Nachfragen nur bei fehlenden Pflichtangaben
    • Weniger Tool-Hopping – Terminvergabe direkt im Chat
    • Skalierbar – weitere Dienste (z. B. FAQs, Bestellstatus) lassen sich per Tool anbinden

    Technischer Überblick (ausgewählte Bausteine)

    • n8n als Orchestrator (Routing, Typ-Erkennung, Sessions, Fehlerbehandlung)
    • Azure OpenAI (Chat-Modell) mit klaren Antwortregeln
    • On-prem STT/OCR/TTS für Sprache, Bilder, Dokumente
    • Twilio für WhatsApp/SMS-Ein- und Ausgang
    • Robustheit: MIME-Fix für Audio, Fallback-SMS, strukturierte JSON-Outputs

    Ergebnis

    Der Assistant beantwortet multimodale Anfragen zuverlässig, reduziert die Bearbeitungszeit und ermöglicht self-service Terminbuchung – ohne Medienbrüche und mit compliance-gerechter Verarbeitung.

WordPress Appliance - Powered by TurnKey Linux