Knowledge Discovery in Databases

Knowledge Discovery in Databases (KDD), auf Deutsch Wissensentdeckung in Datenbanken, ergänzt das oft synonym gebrauchte Data-Mining um vorbereitende Untersuchungen und Transformationen auszuwertender Daten.

Hintergrund

Ziel des KDD ist die Erkennung bislang unbekannter fachlicher Zusammenhänge aus vorhandenen, meist großen Datenbeständen. In Abgrenzung zum Data-Mining umfasst KDD als Gesamtprozess auch die Vorbereitung der Daten sowie die Bewertung der Resultate. Der Begriff KDD wurde in wissenschaftlichen Kreisen von Gregory Piatetsky-Shapiro geprägt, während in der Praxis der Begriff Data-Mining geläufiger ist, der in der Statistik jedoch traditionell negativ besetzt ist. Die Teilschritte des KDD-Prozesses sind:

  1. Bereitstellung von Hintergrundwissen für den jeweiligen Fachbereich
  2. Definition der Ziele der Wissensfindung
  3. Datenauswahl
  4. Datenbereinigung
  5. Datenreduktion (z. B. durch Transformationen)
  6. Auswahl eines Modells, in dem das gefundene Wissen repräsentiert werden soll
  7. Data-Mining, die eigentliche Datenanalyse
  8. Interpretation der gewonnenen Erkenntnisse

Üblicherweise werden diese Schritte mehrfach durchlaufen. Ein verbreitetes Vorgehensmodell ist der Cross-Industry Standard Process for Data-Mining (CRISP-DM).

Software

  • ELKI ist ein Forschungsprojekt der Ludwig-Maximilians-Universität München, das zahlreiche Data-Mining-Algorithmen enthält (vor allem zur Clusteranalyse und Outlier-Erkennung, aber auch Indexstrukturen), zur Verwendung in Lehre und Forschung.
  • KNIME ist ein frei erhältliches Open Source Tool für die interaktive Datenanalyse und Data-Mining.
  • Ontop ist ein frei erhältliches Open Source Virtual Knowledge Graph System.
  • RapidMiner ist ein frei erhältliches Open Source Tool für Maschinelles Lernen, Data-Mining und Predictive analytics, das alle Schritte des Wissensentdeckungsprozesses von der Datenauswahl, Datenbereinigung, Datenreduktion und -transformation über die Modellbildung und Validierung bis zur Visualisierung und dem Deployment unterstützt.
  • Splunk ist eine Softwareplattform für Textdaten. Die kostenlose Version ist auf die Indexierung von 500 MB pro Tag beschränkt, und wesentliche Analysen wie Cluster-Analyse sind der kommerziellen Version vorbehalten.
  • Weka ist ein Open Source Tool, welches von der Universität von Waikato entwickelt wurde. Es enthält eine umfangreiche Sammlung von Algorithmen zur Knowledge Discovery in Databases.
  • Wolfram Alpha ist eine kostenlos nutzbare Wissensdatenbank, mit der auch etwas Datenanalyse möglich ist.

Literatur

  • Martin Ester, Jörg Sander: Knowledge Discovery in Databases: Techniken und Anwendungen. Springer, Berlin 2000, ISBN 3-540-67328-8.
  • Fayyad, Usama; Piatetsky-Shapiro, Gregory und Smyth Padhraic (1996), From Data Mining to Knowledge Discovery in Databases, AI Magazine, American Association for Artificial Intelligence, California, USA, Seite 37–54.
  • Alpar, Paul und Niederreichholz, Joachim (2000), Data Mining im praktischen Einsatz: Verfahren und Anwendungsfälle für Marketing, Vertrieb, Controlling und Kundenunterstützung, Vieweg Verlag, Wiesbaden, Deutschland.