Dokumentenklassifizierung für KI-Agenten: Tool-Vergleich

Statische Labels reichen für KI-Agenten nicht mehr aus. Dieser Guide vergleicht Microsoft Purview, Securiti, Oracle Deep Data Security und Open-Source-Ansätze — mit Entscheidungsmatrix für verschiedene Unternehmensgrößen.

Warum statische Labels nicht mehr reichen

Klassische Dokumentenklassifizierung funktioniert nach einem einfachen Prinzip: Ein Dokument bekommt ein Label — „vertraulich", „intern", „öffentlich" — und dieses Label bestimmt, wer darauf zugreifen darf. Für menschliche Mitarbeiter hat das jahrelang gereicht.

Mit KI-Agenten ändert sich das grundlegend. Ein Agent liest nicht ein Dokument — er liest Hunderte, kombiniert Informationen, zieht Schlüsse und generiert neue Inhalte. Dabei können aus einzeln harmlosen Datenpunkten plötzlich sensible Erkenntnisse entstehen. Ein Dokument mit dem Label „intern" kann in Kombination mit anderen internen Dokumenten de facto vertrauliche Informationen preisgeben.

Das Unternehmen Knostic hat dieses Problem analysiert und argumentiert, dass statische, regelbasierte Taxonomien nicht mit modernen Enterprise-Umgebungen Schritt halten. Labels bleiben fixiert, während sich der geschäftliche Kontext weiterentwickelt — das erzeugt blinde Flecken. Ihre Lösung: dynamische, kontinuierliche Klassifizierung mit mehreren parallelen Klassifizierern, Confidence-Scoring und automatischem Retraining bei Daten-Drift.

Die Kernfrage für Unternehmen ist nicht mehr „Haben wir Labels?", sondern: „Verstehen unsere Labels den Kontext, in dem ein KI-Agent auf die Daten zugreift?"

Klassifizierungsmethoden im Überblick

Bevor man Tools evaluiert, lohnt ein Blick auf die drei grundlegenden Ansätze:

Manuelle Klassifizierung

Mitarbeiter vergeben Labels selbst — beim Erstellen oder Speichern eines Dokuments. Das funktioniert bei kleinem Dokumentenvolumen und klaren Regeln. Vorteil: Kontextwissen des Autors fließt ein. Nachteil: Skaliert nicht, wird inkonsistent, hängt von der Disziplin der Mitarbeiter ab.

Regelbasierte Klassifizierung

Vordefinierte Regeln erkennen Muster: Kreditkartennummern, Steuernummern, bestimmte Schlüsselwörter. Funktioniert gut für strukturierte Daten mit klaren Erkennungsmerkmalen. Vorteil: Konsistent und nachvollziehbar. Nachteil: Erkennt nur, was explizit definiert wurde — Kontext und Semantik werden ignoriert.

KI-gestützte Klassifizierung

Machine-Learning-Modelle analysieren Inhalte semantisch: Named Entity Recognition (NER), Embedding-basierte Ähnlichkeitssuche, Policy Engines. Vorteil: Erkennt auch unstrukturierte und kontextabhängige Sensitivität. Nachteil: Aufwändiger einzurichten, erfordert Trainings- und Validierungsdaten.

In der Praxis kombinieren die meisten Enterprise-Lösungen alle drei Ansätze: Manuelle Labels als Basis, Regeln für bekannte Muster, KI für alles andere.

Microsoft Purview: Sensitivity Labels für KI-Agenten

Microsoft Purview ist der Marktführer für Klassifizierung im Microsoft-Ökosystem. Mit dem Ausbau der KI-Agent-Unterstützung hat Microsoft die Sensitivity Labels direkt in die Agent-Infrastruktur integriert.

Was Purview für KI-Agenten bietet

Purview erzwingt Sensitivity Labels für bestimmte Agenten-Typen — aber nicht für alle. Die Unterstützung ist abgestuft:

Volle Unterstützung (Information Protection + Compliance): Microsoft 365 Copilot Agents, Entra-registrierte Agents
Teilweise Unterstützung (Data Classification, Labels, DLP): Copilot Studio Agents, Microsoft Foundry Agents
Eingeschränkt (nur Data Classification): Security Copilot Agents, Teams Facilitator Agents

Lizenzierung: E3 vs. E5

Ein wichtiger Kostenfaktor:

Microsoft 365 E3: Manuelle Sensitivity Labels in Office Apps, SharePoint und OneDrive sind enthalten. Automatische Klassifizierung ist nicht enthalten.
Microsoft 365 E5: Zusätzlich automatische Sensitivity Labels über Exchange, SharePoint, OneDrive und Teams. Erfordert den Purview Information Protection Plan 2.

Wichtig: Seit September 2025 ist das E5 Compliance Add-on nicht mehr separat für Neukunden erhältlich (umbenannt in „Purview Suite"). Bestehende Kunden behalten ihren Zugang.

Stärken und Grenzen

Stärke: Tiefe Integration in Microsoft 365, Teams, SharePoint — Labels werden nahtlos durchgesetzt. Für Unternehmen, die primär im Microsoft-Ökosystem arbeiten, ist Purview die natürliche Wahl.

Grenze: Purview deckt hauptsächlich Microsoft-Umgebungen ab. Wer Daten in AWS, GCP, Snowflake oder On-Premises-Systemen hat, braucht eine Erweiterung — hier kommt Securiti ins Spiel.

Securiti: Multi-Cloud-Erweiterung für Purview

Securiti positioniert sich als Ergänzung zu Microsoft Purview für hybride und Multi-Cloud-Umgebungen. Die Plattform erweitert die MIP-Labels (Microsoft Information Protection) auf nicht-Microsoft-Plattformen.

Was Securiti zusätzlich bietet

Plattform-Erweiterung: Klassifizierung und Label-Durchsetzung auf AWS S3, GCP, Databricks, Snowflake, Box, SMB-Freigaben und On-Premises-Systemen
Kontextuelle Analyse: Tiefere Risiko-Insights über Purviews native Fähigkeiten hinaus
Label-Synchronisation: Bestehende MIP-Labels werden erkannt, angereichert und Ergebnisse in Purview zurückgeschrieben
Risiko-Erkennung: Identifiziert externe Freigaben, öffentliche Links, übermäßige Zugriffsrechte und toxische Berechtigungskombinationen
Automatische Remediation: Workflows zur automatischen Behebung erkannter Risiken

Kernwert: Purview bleibt das zentrale Governance-Hub, Securiti füllt die Lücken über alle Nicht-Microsoft-Plattformen hinweg. Für Unternehmen mit hybrider Infrastruktur ist das eine pragmatische Kombination.

Oracle Deep Data Security: Schutz auf Datenbankebene

Oracle Deep Data Security (Teil der Oracle AI Database 26ai) verfolgt einen grundlegend anderen Ansatz: Statt Dokumente zu labeln, wird der Datenzugriff direkt auf Datenbankebene gesteuert — identitätsbasiert und granular.

Wie es funktioniert

Identity-Aware Access Control: OAuth2-Tokens propagieren die Identität des Endnutzers und des Agenten bis zur Datenbank. Die Datenbank weiß, wer (Mensch oder Agent) auf welche Daten zugreift.
Granulare Sicherheit: Zugriffskontrolle auf Zeilen-, Spalten- und Zellenebene — nicht nur auf Dokument- oder Tabellenebene
Deklarative Regeln: Sicherheitsregeln werden in der Datenbank definiert, nicht im Anwendungscode — das entkoppelt Sicherheit von der Applikationslogik
Audit-Trails: Lückenlose Protokollierung aller Zugriffe durch Nutzer und Agenten

Besonders relevant für: Unternehmen mit großen relationalen Datenbeständen (ERP, CRM, Finanzsysteme), bei denen der Schutz auf Datensatzebene wichtiger ist als auf Dokumentebene. Oracle löst auch das Problem der Prompt Injection — die Datenbank schützt Daten unabhängig davon, wie der Agent fragt.

Open Source und manuelle Ansätze für kleinere Unternehmen

Nicht jedes Unternehmen hat das Budget für Purview E5 oder Securiti. Für kleinere Teams gibt es pragmatische Alternativen:

Ordnerstruktur als Klassifizierung

Die einfachste Form: Klare Ordnerstruktur mit definierten Berechtigungen. Ein Ordner „Vertraulich" mit eingeschränktem Zugriff ist besser als gar keine Klassifizierung. Wichtig: Der KI-Agent darf nur auf Ordner zugreifen, die seinem Berechtigungslevel entsprechen.

Naming Conventions + Metadata

Dateinamen-Präfixe ([INTERN], [VERTRAULICH]) und Metadaten-Tags in Dokumenten. Funktioniert mit jedem Dateisystem und kann von einfachen Skripten ausgewertet werden.

Open-Source-NLP für Basiserkennung

Tools wie spaCy oder Presidio (Microsofts Open-Source-Tool für PII-Erkennung) können personenbezogene Daten in Dokumenten identifizieren. Kein vollständiges Klassifizierungssystem, aber ein guter erster Schritt zur automatischen Erkennung sensibler Inhalte.

Entscheidungsmatrix: Welches Tool passt?

Die richtige Wahl hängt von drei Faktoren ab: Unternehmensgröße, Cloud-Ökosystem und Budget.

Bis 50 Mitarbeiter, begrenztes Budget

Empfehlung: Manuelle Klassifizierung + Ordnerstruktur + Presidio

Klare Ordnerstruktur mit Berechtigungen definieren. Presidio für automatische PII-Erkennung in kritischen Dokumenten einsetzen. KI-Agenten nur auf explizit freigegebene Datenquellen zugreifen lassen. Kosten: nahezu null (Open Source + Arbeitszeit).

50–500 Mitarbeiter, Microsoft-zentriert

Empfehlung: Microsoft Purview (E3 manuell, E5 für Automatisierung)

Wer bereits Microsoft 365 nutzt, bekommt mit E3 manuelle Sensitivity Labels ohne Zusatzkosten. Für automatische Klassifizierung ist E5 nötig — lohnt sich ab ca. 100 Nutzern, wenn das Dokumentenvolumen manuelles Labeling unpraktikabel macht.

500+ Mitarbeiter oder Multi-Cloud

Empfehlung: Purview + Securiti

Purview als zentrales Governance-Hub, Securiti für die Erweiterung auf AWS, GCP, Snowflake und On-Premises. Die Kombination deckt hybride Umgebungen vollständig ab und synchronisiert Labels bidirektional.

Große relationale Datenbestände (ERP, CRM)

Empfehlung: Oracle Deep Data Security (zusätzlich zu Dokument-Klassifizierung)

Wenn KI-Agenten auf Datenbanken zugreifen (nicht nur auf Dokumente), ist identitätsbasierter Datenbankschutz auf Zeilen-/Spaltenebene die sicherste Option. Ergänzend zur Dokument-Klassifizierung, nicht als Ersatz.

Fazit

Dokumentenklassifizierung für KI-Agenten ist kein „Nice to have" — es ist die Grundvoraussetzung dafür, dass Agenten sicher arbeiten können. Die gute Nachricht: Man muss nicht sofort die teuerste Lösung implementieren. Auch eine saubere Ordnerstruktur mit klaren Berechtigungen ist ein valider erster Schritt.

Entscheidend ist, überhaupt anzufangen — bevor der erste KI-Agent Zugriff auf Unternehmensdaten bekommt. Denn einen Agenten ohne Klassifizierung auf die Daten loszulassen, ist wie einem neuen Mitarbeiter am ersten Tag den Schlüssel zum Tresor zu geben.

Dokumentenklassifizierung für KI-Agenten: Purview, Securiti & Open Source im Vergleich