Anders als bei einfachen Reports oder OLAP-Analysen geht es beim Data Mining (DM) um das Auffinden von Mustern, die mit dem bloßen Auge trotz intensiver Analyse nicht erkennbar sind – sich aber sehr wohl mit Hilfe von intelligenten Algorithmen aufspüren lassen. Typische Anwendungsgebiete finden sich verstärkt im Bereich des Kundenbeziehungsmanagements (CRM), in Kundensegmentierung, Warenkorbanalysen und beim Erkennen von Cross-Selling-Potentialen, bei Frühwarnsystemen für Kundenabwanderung oder Betrug. Hinzu kommen Anwendungen in Einkauf, Produktion, Qualitäts- und Reklamationsmanagement – zum Beispiel bei der Prognose von Ersatzteilausfällen und Beschaffungsbedarfen. Data Mining rechnet sich vergleichsweise schnell durch mehr Effizienz, zusätzliche Umsätze oder vermiedene Verluste: Nicht selten erreichen Business Cases eine Größenordnung von Millionen Euro.
Kostentreiber und Risiken
Traditionelles Data Mining ist Spezialisten vorbehalten: Die Erstellung von Modellen und die Aufbereitung der Daten erfordern Expertenwissen, sie nehmen teilweise Monate in Anspruch. Dieser Aufwand treibt nicht nur die Kosten von DM-Analysen in die Höhe, sondern beschränkt auch deren Anzahl. Hinzu kommt die Ungewissheit, ob sich überhaupt relevante Muster in den gegebenen Daten finden lassen: Selbst mit dem besten Werkzeug ist nicht in jedem Berg eine Goldader zu finden. Bis zu dieser Erkenntnis hat ein traditionelles Data-Mining-Projekt häufig schon Personentage in sechsstelliger Höhe mit den entsprechenden Kosten verschlungen. Hinzu kommen Lizenzkosten von nicht selten mehreren 100.000 Euro und jährliche Wartungskosten in fünf- bis sechsstelliger Höhe. Weitere Investitionen in Millionenhöhe können durch den Aufbau einer Data-Warehouse-Infrastruktur entstehen.
In den letzten Jahren entstanden jedoch eine Reihe alternativer Ansätze, die das Verhältnis von Risiken und Chancen von Data-Mining-Projekten positiv verschoben haben. In der Open-Source-Welt sind Produkte wie Rapidminer, KNIME oder Weka verfügbar, die einen ähnlich mächtigen Funktionsumfang aufweisen wie klassische DM-Suiten von SAS oder SPSS. Den Einsparungen bei Lizenzkosten steht jedoch im Normalfall ein erhöhter Aufwand durch weniger gute Prozess-Unterstützung und kompliziertere Bedienung gegenüber. Für statistische Laien sind diese Werkzeuge kaum beherrschbar. Eine andere Option ist die Nutzung bereits im Unternehmen vorhandener Lizenzen für Datenbank- oder Data-Warehouse-Software. DM-Funktionen und -Algorithmen finden sich in Software von Oracle und Microsoft. Auch Besitzer von IBM- oder SAP-Lizenzen sollten sich nach zusätzlichen DM-Features erkundigen.
Schnupperkurs für Data Mining
Einen Umbruch im Markt stellen im Hinblick auf Projektdauer und einfache Anwendung vor allem Produkte für das Self-Acting Data Mining dar, wie zum Beispiel das Analytic Framework von KXEN. Sie nehmen den Anwendern durch einen automatisierten Ansatz die Arbeit der Datenvorbereitung und Parametrisierung weitgehend ab. Projektlaufzeiten gehen deutlich zurück, sodass erste Ergebnisse schon nach wenigen Tagen verfügbar sind. So lässt sich schon relativ früh sagen, ob vorhandene Daten überhaupt weitere Investitionen rechtfertigen. Auch für Unternehmen, die mehrere Hundert Modelle im Jahr im Jahr erstellen, ergibt sich durch den Zeitgewinn ein Kostenvorteil. Durch die einfachere Bedienbarkeit erschließt sich das Self-Acting Data Mining auch für Fachanwender und rückt zudem erstmals für Mittelständler in Reichweite. Mittlerweile lassen sich einige Data-Mining-Werkzeuge auf Monatsbasis zu Preisen im vierstelligen Eurobereich mieten. Für eine gezielte Fragestellung wie zum Beispiel die Ermittlung von Cross-Selling-Potentialen liegen die Kosten für ein Pilotprojekt mit Software und Beratung bei unter 20.000 Euro – Kosten, die sich in vielen Fällen schon durch die im Pilotprojekt gewonnenen Erkenntnisse amortisieren.