Warum Daten-Hygiene vor KI-Agenten?
Die meisten Unternehmen wollen KI-Agenten einführen — Copilot, Claude, Custom Agents. Aber die Realität sieht oft so aus: Verstreute Daten in SharePoint, auf Fileservern, im CRM, in E-Mail-Postfächern. Keine einheitliche Klassifizierung. Keine klaren Zugriffsregeln. Und dann soll ein KI-Agent „einfach loslegen".
Das Ergebnis: Der Agent findet vertrauliche Gehaltsdaten neben Marketing-Präsentationen. Er kombiniert Informationen aus verschiedenen Quellen zu Erkenntnissen, die niemand freigegeben hat. Oder er scheitert komplett, weil die Datenqualität so schlecht ist, dass er keine brauchbaren Antworten liefern kann.
Gartner prognostiziert, dass Unternehmen bis 2026 60 % ihrer KI-Projekte aufgeben werden, denen es an KI-fähigen Daten mangelt. Das Problem ist nicht die KI — es sind die Daten.
Was ist Datenklassifizierung?
Datenklassifizierung bedeutet: Jedes Dokument, jede Datei, jeder Datensatz bekommt eine Schutzstufe, die festlegt, wer darauf zugreifen darf und wie es geschützt werden muss.
Das 4-Stufen-Modell (BSI-Grundschutz)
Das Bundesamt für Sicherheit in der Informationstechnik (BSI) empfiehlt im IT-Grundschutz ein praxisbewährtes Klassifizierungsmodell mit vier Stufen:
- Öffentlich: Informationen, die frei zugänglich sind oder sein dürfen. Beispiele: Website-Inhalte, Pressemitteilungen, öffentliche Produktinformationen. → KI-Agent kann frei zugreifen.
- Intern: Informationen, die nur für Mitarbeiter bestimmt sind, deren Offenlegung aber keinen wesentlichen Schaden verursacht. Beispiele: Organigramme, interne Prozessbeschreibungen, Meeting-Protokolle. → KI-Agent kann mit Einschränkung zugreifen.
- Vertraulich: Informationen, deren Offenlegung dem Unternehmen schaden könnte. Beispiele: Kundendaten, Vertragsdetails, Finanzkennzahlen, Strategiepapiere. → KI-Agent darf nur mit expliziter Freigabe zugreifen.
- Streng vertraulich: Informationen, deren Offenlegung existenzbedrohend sein könnte. Beispiele: Geschäftsgeheimnisse, M&A-Pläne, Patentanmeldungen, Gehaltslisten. → KI-Agent darf nicht zugreifen.
Wichtig: ISO 27001 schreibt kein konkretes Klassifizierungsschema vor — Unternehmen müssen ihr eigenes entwickeln. Das 4-Stufen-Modell ist eine bewährte Praxis, kein verpflichtender Standard. Es lässt sich aber hervorragend als Ausgangspunkt nutzen.
Daten-Audit: Bestandsaufnahme in 5 Schritten
Bevor man klassifiziert, muss man wissen, was man hat. Ein strukturierter Daten-Audit ist der erste Schritt:
Schritt 1: Datenquellen inventarisieren
Alle Orte auflisten, an denen Unternehmensdaten liegen:
- Cloud-Speicher: SharePoint, OneDrive, Google Drive, Dropbox
- Lokale Systeme: Fileserver, NAS, lokale Festplatten
- Anwendungen: CRM (Salesforce, HubSpot), ERP (SAP, Microsoft Dynamics), Buchhaltung
- Kommunikation: E-Mail-Postfächer, Teams/Slack-Kanäle
- Datenbanken: SQL-Server, MongoDB, PostgreSQL
Schritt 2: Datentypen identifizieren
Für jede Quelle festhalten: Welche Arten von Daten liegen dort? Personenbezogene Daten (DSGVO-relevant)? Geschäftskritische Informationen? Veraltete oder redundante Daten?
Schritt 3: Verantwortlichkeiten klären
Wer ist für welche Datenquelle zuständig? Wer entscheidet über die Klassifizierung? Ohne klare Data Owner bleibt jede Klassifizierung Theorie.
Schritt 4: Ist-Zustand der Berechtigungen dokumentieren
Aktuelle Zugriffsrechte prüfen: Wer hat Zugriff auf was? Gibt es übermäßige Berechtigungen? Sind ehemalige Mitarbeiter noch freigeschaltet? Das ist oft die größte Überraschung — und die größte Schwachstelle für KI-Agenten.
Schritt 5: Quick Wins identifizieren
Nicht alles auf einmal. Zuerst die Bereiche klassifizieren, auf die ein KI-Agent als erstes zugreifen soll. Dann schrittweise erweitern.
Zugriffskontrolle für KI-Agenten
Klassifizierung allein schützt nicht — die Zugriffskontrolle muss die Labels auch durchsetzen. Für KI-Agenten gelten dabei besondere Regeln:
Least Privilege: So wenig wie nötig
Ein KI-Agent sollte nur auf die Daten zugreifen können, die er für seine spezifische Aufgabe braucht. Ein Kundenservice-Agent braucht Zugriff auf FAQ und Bestellstatus — nicht auf Gehaltsdaten oder Strategiepapiere. Das klingt selbstverständlich, wird aber in der Praxis oft vernachlässigt, weil es einfacher ist, dem Agenten „alles" freizugeben.
Datensegmentierung
Daten sollten in klar abgegrenzte Bereiche aufgeteilt werden, die der Agent jeweils einzeln freigeschaltet bekommt:
- Öffentliche Wissensbasis: Produktinfos, FAQ, Dokumentation → Agent kann frei darauf zugreifen
- Interner Bereich: Prozessdokumente, Richtlinien → Agent nur für interne Anwendungsfälle
- Kundendaten: CRM-Daten, Bestellhistorie → Agent nur im Kontext der jeweiligen Kundenanfrage
- Gesperrter Bereich: Finanzdaten, HR-Daten, Geschäftsgeheimnisse → Kein Agent-Zugriff
Monitoring und Audit-Trails
Jeder Datenzugriff eines Agenten sollte protokolliert werden: Wer hat wann auf welche Daten zugegriffen? Das ist nicht nur für Compliance relevant (DSGVO Art. 5 Abs. 2 — Rechenschaftspflicht), sondern auch für das Debugging, wenn ein Agent unerwartete Antworten gibt.
Tool-Überblick: Purview, Securiti und manuelle Ansätze
Je nach Unternehmensgröße und Budget gibt es verschiedene Wege zur Klassifizierung:
Microsoft Purview (ab Microsoft 365 E3)
Wer Microsoft 365 nutzt, hat mit Purview bereits ein Klassifizierungstool im Abo. E3 bietet manuelle Sensitivity Labels; E5 ermöglicht automatische Klassifizierung. Purview erzwingt Labels direkt in Office Apps, SharePoint und Teams — und unterstützt seit 2026 auch die Label-Durchsetzung für bestimmte KI-Agenten (M365 Copilot, Copilot Studio, Foundry).
Securiti (Multi-Cloud)
Für Unternehmen mit hybrider Infrastruktur erweitert Securiti die Purview-Labels auf AWS, GCP, Snowflake und On-Premises-Systeme. Besonders relevant, wenn Daten nicht nur in Microsoft-Umgebungen liegen.
Manuell + Open Source (Budget-freundlich)
Für kleinere Unternehmen: Klare Ordnerstrukturen mit definierten Berechtigungen, Naming Conventions und Tools wie Presidio (Microsofts Open-Source-Tool für PII-Erkennung). Kein vollständiges System, aber ein solider Einstieg.
Readiness-Checkliste: 10 Punkte vor dem Agent-Deployment
Diese Checkliste hilft bei der Selbsteinschätzung — jeder Punkt sollte mit „Ja" beantwortet werden können, bevor ein KI-Agent auf Unternehmensdaten zugreift:
- 1. Dateninventar: Wir wissen, welche Datenquellen existieren und wo sie liegen.
- 2. Klassifizierung: Jede Datenquelle hat eine Schutzstufe (öffentlich / intern / vertraulich / streng vertraulich).
- 3. Data Owner: Für jede Datenquelle ist eine verantwortliche Person benannt.
- 4. Zugriffsrechte: Der KI-Agent hat nur Zugriff auf die Daten, die er für seine Aufgabe braucht (Least Privilege).
- 5. Gesperrte Bereiche: Streng vertrauliche Daten sind explizit vom Agent-Zugriff ausgeschlossen.
- 6. Monitoring: Jeder Datenzugriff des Agenten wird protokolliert.
- 7. Datenqualität: Die Daten, auf die der Agent zugreift, sind aktuell und korrekt.
- 8. DSGVO-Compliance: Rechtsgrundlage, Zweckbindung und Informationspflichten sind geklärt.
- 9. Interne Richtlinien: Es gibt eine dokumentierte KI-Nutzungsrichtlinie für Mitarbeiter.
- 10. Überprüfungsplan: Es ist festgelegt, wann Klassifizierung und Berechtigungen erneut geprüft werden (mindestens halbjährlich).
Bewertung: 8–10 Punkte: Bereit für Agent-Deployment. 5–7 Punkte: Grundlagen vorhanden, aber Lücken schließen. Unter 5: Erst die Hausaufgaben machen, bevor ein Agent deployed wird.
Fazit
Daten-Hygiene ist nicht glamourös — aber sie entscheidet darüber, ob KI-Agenten im Unternehmen funktionieren oder zur Sicherheitslücke werden. Die gute Nachricht: Man braucht kein Enterprise-Budget, um anzufangen. Eine saubere Ordnerstruktur, klare Berechtigungen und ein ehrliches Dateninventar sind mehr wert als das teuerste Klassifizierungstool auf chaotischen Daten.
Der erste Schritt ist immer derselbe: Wissen, was man hat. Alles andere baut darauf auf.