Schlagwort: Volltextsuche

  • Kundenprojekt: Automatisierte OCR-Verarbeitung in Nextcloud – suchbare PDF/A-Dokumente mit n8n & lokalem API-Server

    Kundenprojekt: Automatisierte OCR-Verarbeitung in Nextcloud – suchbare PDF/A-Dokumente mit n8n & lokalem API-Server

    Ausgangssituation

    Bei einem unserer Kunden werden täglich zahlreiche Dokumente gescannt – Rechnungen, Lieferscheine, Verträge oder Notizen. Diese landen automatisch in einem Nextcloud-Ordner und stehen anschließend verschiedenen Mitarbeitern zur Verfügung.
    Das Problem: Die PDFs stammen direkt aus dem Scanner und enthalten keine durchsuchbaren Texte. Damit war die Suche nach Dokumenteninhalten oder Beträgen mühsam, und eine revisionssichere Langzeitarchivierung im PDF/A-Format war nicht gewährleistet.

    Der Kunde wünschte sich eine vollautomatische Lösung, um neue Scans in Nextcloud automatisch zu erkennen, in durchsuchbare PDF/A-Dateien zu konvertieren und anschließend sauber abzulegen – ohne Cloud-Dienste, vollständig on-premises.


    Unsere Lösung: n8n + Nextcloud + lokaler OCR-API-Server

    Wir haben dafür einen Workflow auf Basis von n8n entwickelt, der direkt mit der Nextcloud des Kunden verbunden ist.
    Der Ablauf im Überblick:

    1. Überwachung des Scanner-Ordners:
      In regelmäßigen Intervallen prüft der Workflow den Nextcloud-Ordner /Geschaeftsdaten/Scanner auf neue Dateien.
    2. Filterung & Verarbeitung:
      Bereits verarbeitete Dokumente (erkennbar an der Endung _ocr.pdf) werden übersprungen, um doppelte Konvertierungen zu vermeiden.
    3. Lokale OCR-Verarbeitung:
      Neue PDF-Dateien werden automatisch an einen lokalen OCR-API-Server geschickt, der innerhalb der Kundeninfrastruktur läuft.
      Dieser Server basiert auf FastAPI und nutzt intern ocrmypdf mit der OCR-Engine Tesseract.
      Unterstützt werden mehrere Sprachen (z. B. Deutsch & Englisch), automatische Drehung, Schräglagenkorrektur und Optimierung.
      Das Ergebnis ist ein PDF/A-konformes Dokument mit Textlayer – also durchsuchbar, normgerecht und visuell identisch zum Original.
    4. Rückführung & Ablage:
      Das erzeugte _ocr.pdf wird im gleichen Ordner wieder hochgeladen.
      Das ursprüngliche Scan-PDF wird – je nach Einstellung – gelöscht, um Dubletten zu vermeiden.
    5. Automatische Namenskonvention:
      Der Workflow ergänzt alle OCR-Dateien einheitlich mit der Endung _ocr.pdf und sorgt so für klare Versionierung und Nachvollziehbarkeit.

    Datenschutz & Sicherheit: Verarbeitung ausschließlich lokal

    Ein zentrales Ziel dieses Projekts war der Datenschutz.
    Alle Verarbeitungsschritte finden innerhalb der Kundensysteme statt – keine Datei verlässt das lokale Netzwerk.

    Architektur

    • FastAPI-Server läuft on-prem auf einem Linux-System im Intranet.
    • Der OCR-Service nutzt ausschließlich temporäre Arbeitsverzeichnisse (tempfile.TemporaryDirectory), die nach jedem Auftrag automatisch gelöscht werden.
    • Der Server akzeptiert nur PDF-Dateien (Content-Type: application/pdf oder multipart upload).
    • Das Ergebnis wird gestreamt zurückgegeben – keine Kopien im Speicher, keine dauerhafte Speicherung.

    Datenschutzvorteile

    • Daten bleiben im Haus: Keine Übertragung in fremde Clouds oder Drittländer.
    • Verarbeitung zweckgebunden: Nutzung nur zur Texterkennung.
    • Speicherbegrenzung: Temporäre Daten werden nach Verarbeitung automatisch gelöscht.
    • Transparente Benennung: Jede OCR-Datei trägt den Suffix _ocr.pdf – klar nachvollziehbar.
    • Keine Protokollierung von Inhalten: Nur technische Logs (Status, Dauer, Erfolg/Fehler).

    Technische Härtung

    • Zugriff nur über interne IPs oder VPN.
    • HTTPS (TLS)-Absicherung über Reverse Proxy mit Strict-Transport-Security & Referrer-Policy.
    • API-Key oder mTLS-Authentifizierung für n8n-Aufrufe.
    • Rate-Limits & Timeouts schützen vor Missbrauch.
    • Kein Internetzugang vom Server ausgehend (reine Intranet-Kommunikation).
    • Antivirus-Option (ClamAV) möglich – vor OCR-Aufruf zur zusätzlichen Prüfung.

    Beispielheader (Reverse Proxy)

    X-Content-Type-Options: nosniff
    Content-Security-Policy: default-src 'none'
    Strict-Transport-Security: max-age=31536000; includeSubDomains
    Referrer-Policy: no-referrer
    

    So entsteht eine vollständig datenschutzkonforme On-Prem-Lösung, die nicht nur sicher, sondern auch technisch elegant umgesetzt ist.


    Vorteile für den Kunden

    • Automatische Texterkennung: Dokumente sind durchsuchbar in Nextcloud & Desktop-Suche.
    • Langzeitarchivierung: Ausgabe als PDF/A – rechtssicher und standardkonform.
    • Volle Kontrolle: Alle Daten bleiben im eigenen Netzwerk.
    • Zeitersparnis: Kein manuelles OCR mehr notwendig.
    • Einheitliche Ablage: _ocr.pdf-Suffix für klare Nachvollziehbarkeit.
    • DSGVO-konform: Keine Übermittlung, keine Fremdsysteme, keine Drittanbieter.

    Technische Eckpunkte

    • Workflow Engine: n8n (Automatisierung & Orchestrierung)
    • Cloud-System: Nextcloud mit OAuth2-Anbindung
    • OCR-Service: FastAPI + ocrmypdf + Tesseract
    • Sprachen: Deutsch & Englisch (lang=deu+eng)
    • Output: PDF/A mit Texterkennung, Rotation, Deskew, Optimierung
    • Dateibenennung: Original → _ocr.pdf
    • Timeout: bis zu 15 min für große Dokumente
    • Laufzeitumgebung: On-prem Linux, ohne Internetzugang

    Erweiterung & Ausblick

    In der nächsten Ausbaustufe kann der Workflow erweitert werden, um:

    • automatisch Metadaten zu extrahieren (Datum, Lieferant, Rechnungsnummer),
    • Dokumente zu taggen oder in Unterordner zu verschieben,
    • Benachrichtigungen in Nextcloud Talk oder per Mail zu senden,
    • oder eine Anbindung ans ERP/DMS-System zu schaffen.

    Fazit

    Mit dieser Lösung erhält der Kunde eine automatisierte, sichere und revisionssichere Dokumentenverarbeitung – komplett lokal betrieben, ohne Cloud-Dienste, ohne Datenschutzrisiko.
    Der Workflow läuft im Hintergrund, ist wartungsarm und sorgt dafür, dass alle gescannten Dokumente in Nextcloud durchsuchbar, standardisiert und sicher archiviert sind.


  • Managed Nextcloud beim Kunden: SSO, NAS-Anbindung & Talk – die schlanke Alternative zu Microsoft 365

    Managed Nextcloud beim Kunden: SSO, NAS-Anbindung & Talk – die schlanke Alternative zu Microsoft 365

    Kurzfassung: Für einen Kunden mit mehreren selbstgehosteten Diensten (u. a. Nextcloud) haben wir eine Managed-Nextcloud-Umgebung umgesetzt:

    • Zentrale Authentifizierung (SSO) via OIDC/SAML + 2FA/Passkeys
    • Externer Speicher über NAS-Shares (SMB/NFS) und optional S3-Buckets
    • Team-Collaboration mit Talk (Chat/Calls/Meetings), Kalender/Kontakte/Mail, OnlyOffice/Collabora
    • Betrieb aus einer Hand: Updates, Monitoring, Backups, Security-Policies, Support
      Ergebnis: Microsoft-unabhängige Kollaboration mit planbaren Kosten und voller Datensouveränität.

    Das oben gezeigte Screenshot (anonymisiert) bildet eine typische Ordnerstruktur (Projekte, Share, Talk, Buchhaltung etc.) der produktiven Instanz ab – inklusive geteilten Team-Ordnern und zuletzt bearbeiteten Dateien.


    Ausgangslage & Ziele des Kunden

    • Bereits vorhandene, verstreute Dateiablagen (Server, NAS, einzelne Tools)
    • Wunsch nach unabhängiger Collaboration-Plattform (ohne vollständigen Wechsel zu Microsoft 365)
    • Zentraler Login für alle Mitarbeitenden, feingranulare Rechte und externe Freigaben
    • Nutzung vorhandener Hardware (NAS) und EU-Hosting/DSGVO-Konformität
    • Planbare Kosten, kein Vendor-Lock-in, einfache Administration

    Architektur (vereinfacht)

    • Reverse Proxy & TLS: Zugriff über einen gehärteten Reverse Proxy (z. B. Traefik/Pangolin) mit Auto-TLS, Rate-Limit/Geo-Policies und Header-Härtung.
    • Nextcloud Application Layer: Containerisiert (Docker/Podman) oder VM-basiert, skalierbar (Web + Redis + DB).
    • Authentifizierung: SSO via OIDC/SAML (z. B. Authentik/Keycloak/ADFS/Entra) + 2FA/Passkeys; Gruppen aus LDAP/AD oder IdP-Claims.
    • Speicher:
      • NAS-Anbindung per SMB/NFS als „Externer Speicher“ (Mounts/Team-Shares).
      • Optional S3-kompatibel (z. B. für Versionen/Backups/Archiv).
    • Betrieb: Monitoring (System/Apps), automatisierte Backups (Daten+DB), Update-Fenster mit Rollback-Strategie, Security-Patches.
    • Compliance: Logging/Auditing, Aufbewahrungs- und Freigabe-Policies, EU-Hosting.

    Authentifizierung, Rechte & Sicherheit

    • SSO/OIDC/SAML: Ein Login für alles; Rollen/Gruppen kommen aus IdP/AD.
    • 2FA/Passkeys/TOTP/U2F: Pflicht für Admin-/Remote-Zugriffe, optional nach Gruppen.
    • Group Folders: Team-Ordner mit ACLs (Lesen/Schreiben/Teilen), Quotas, dedizierten Freigabe-Policies.
    • File Access Control: Regelwerk (z. B. „Vertrauliche Ordner nur im Firmennetz/VPN“).
    • Freigaben: interne/externe Shares, Ablaufdatum, Passwortschutz, Upload-Anfragen (Dateianforderung an Externe).
    • Verschlüsselung: Serverseitig aktivierbar; End-to-End-Verschlüsselung für besonders sensible Ordner per Desktop/Mobile-Clients.

    Externer Speicher (NAS & Co.)

    • SMB/NFS-Mounts als „Externer Speicher“ in Nextcloud – bestehende Abteilungen (z. B. Projekte, Buchhaltung) bleiben physisch am NAS, werden aber einheitlich in Nextcloud sichtbar.
    • Rechtevererbung: optional an AD-Gruppen gekoppelt; getrennte Freigabe-Policies pro Ordner.
    • Cachen & Vorschaubilder: Vorschau-Generierung (PDF, Bilder, Videos) für schnelle Web-Ansicht.
    • Versionierung & Papierkorb: Wiederherstellung und Nachvollziehbarkeit im Tagesgeschäft.
    • Optional S3: für große Archive/Backups kosteneffizient.

    Collaboration-Funktionen (installierte/empfohlene Apps)

    • Talk: 1:1-Chat, Gruppenchats, Audio/Video-Meetings, Screensharing, Gast-Links – alles On-Prem/Cloud bei vollem Datenschutz.
    • OnlyOffice/Collabora/Nextcloud Office: Echtzeit-Bearbeitung von Office-Dokumenten (Text/Tabellen/Präsentationen) im Browser.
    • Kalender & Kontakte (CalDAV/CardDAV) + Mail: Termine, Adressbücher, Postfächer – Integration in Outlook/Apple/Thunderbird möglich.
    • Deck (Kanban), Tasks/To-Do, Notes, Forms (Formulare/Umfragen), PDF-Viewer, Scan-to-Cloud-Anbindung.
    • Flow/Automationen: Regeln (z. B. „Eingehende PDFs → Tag + Verschieben nach /Buchhaltung“).
    • Volltextsuche: Meilisearch/Elasticsearch-Anbindung für schnelle Suche in Dokumenten.
    • Passwörter/Secrets (optional), Activity (Transparenz über Änderungen), Audit/Logs.

    Unabhängigkeit von Microsoft & Kosten-Nutzen

    • Kein Zwangspaket: Nur die Komponenten, die das Team tatsächlich braucht.
    • Bring-Your-Own-Storage: Nutzung vorhandener NAS-Kapazitäten, keine pro-GB-Gebühren in der Cloud.
    • Planbare Kosten: Fixe Betriebspauschale (Monitoring, Updates, Support) + klar definierte Änderungsaufwände.
    • Datensouveränität: Daten bleiben im eigenen Storage/EU-Rechenzentrum.
    • Interoperabilität: Offene Protokolle (WebDAV/CalDAV/CardDAV/IMAP/SMTP), keine proprietären Lock-ins.

    Umsetzung für den Kunden (konkrete Schritte)

    1. Ist-Analyse & Zielbild: Nutzerstruktur, Datenquellen (NAS-Shares), Freigaben, Compliance-Anforderungen.
    2. PoC & Sizing: Testinstanz mit SSO, exemplarischen Team-Ordnern und Talk; Performance/Lasttest.
    3. SSO-Einrichtung: OIDC/SAML, Gruppen-Mapping, Rollenkonzepte; Aktivierung 2FA nach Policy.
    4. NAS-Integration: SMB/NFS-Mounts, Quotas, Rechteübernahme; „Group Folders“ und Freigaberichtlinien.
    5. App-Stack: Talk, Office-Suite, Kalender/Kontakte/Mail, Deck, Forms, Flow-Regeln, Volltextsuche.
    6. Migration: Datenübernahme (inkl. Metadaten/Vorschauen), Bereinigung alter Freigaben, Redirects.
    7. Betrieb: Monitoring/Alarme, tägliche Backups (inkl. DB), Update-Fenster, Security-Patches, SLA.
    8. Enablement: Kurze Team-Trainings (Freigaben, Talk-Meetings, Office-Co-Editing, Mobile-Apps).

    Spürbare Vorteile für das Team

    • Ein Login, alle Funktionen (SSO) – weniger Supporttickets, weniger Passwort-Wildwuchs.
    • Schneller Austausch intern/extern mit Talk & Freigaben – ohne zusätzliche Lizenzen.
    • Dokumente gemeinsam bearbeiten (Office im Browser) – keine Versions-E-Mails mehr.
    • Direkter Zugriff auf NAS-Bestände in derselben Oberfläche – inkl. Suche, Versionen, Papierkorb.
    • Offline-Sync via Desktop/Mobile-Clients – Außendienst/Remote-Teams profitieren.
    • Transparenz & Kontrolle: Aktivitäten, Protokolle, Regeln, Rechte – alles an einem Ort.
    • Kosteneffizienz: Nutzung bestehender Infrastruktur, ohne Zwang zu kompletten Suite-Abos.

    Betrieb & Sicherheit (Managed)

    • Monitoring: Verfügbarkeit, Speicher, Jobs (Cron/Preview/Index), Hintergrundprozesse, App-Gesundheit.
    • Backups & Wiederherstellungs-Tests: Daten + DB + Konfiguration; regelmäßige Restore-Proben.
    • Updates: Kernsystem + Apps + OS; staged rollout mit Snapshots/Rollback.
    • Security-Hardening: HSTS, sichere Ciphers, Rate-Limits, Fail2ban/CrowdSec am Perimeter, Forwarded-Header & trusted_proxies korrekt gesetzt.
    • Dokumentation: Admin-Playbooks, Nutzer-Guides, Change-Log.

    Fazit

    Die Managed Nextcloud des Kunden vereint Dateiablage, Kollaboration und Kommunikation in einer Umgebung, die unabhängig von Microsoft, kosteneffizient und sicher betrieben wird. Dank SSO + 2FA, NAS-Einbindung und Apps wie Talk und Office-Co-Editing arbeitet das Team heute schneller und transparenter – mit voller Kontrolle über die eigenen Daten.

WordPress Appliance - Powered by TurnKey Linux