16.11.2011
Business Intelligence
Von: Ina Schlücker

Intelligente Analyse von Big Data

Die Datenberge erklimmen

Mit Big Data lassen sich gewaltige Datenberge effizient analysieren und genaue Vorhersagen für die Zukunft treffen.


Bei Big Data handelt es sich um die Auswertung besonders großer strukturierter wie unstrukturierter Datenmengen. Um welche Volumina es dabei geht, bringt Dr. Marcus Dill, Geschäftsführer der Mayato GmbH, auf den Punkt: „Terabyte war gestern. Großunternehmen kämpfen heute mit Mengen im Petabyte-Bereich. Viele Softwareprodukte, die für Big Data gemacht sind, führen daher bereits das Präfix ‚Exa’ in ihrem Namen, um ihre Leistungsfähigkeit für die nahe Zukunft zu demonstrieren.“ Dem Wachstum nach oben scheint dabei keine Grenze gesetzt zu sein. „Im Jahr 2009 betrug der Datenbestand 800.000 Petabyte. Es ist zu erwarten, dass das Datenvolumen in den nächsten zehn Jahren um das Zehnfache wächst und 2020 die magische Grenze von 35 Zettabyte erreicht ist. Bei einem Zettabyte handelt es sich um eine Zahl mit 21 Nullen“, ergänzt Tom Cahill, Vice President EMEA bei Jaspersoft. Etwa 80 Prozent dieser Daten seien zudem unstrukturiert, was die Auswertung noch weiter verkompliziere.

Doch um welche Daten handelt es sich genau? Bert Oosterhof, Director of Technology EMEA bei Informatica, spricht hier zum einen von Transaktionsdaten wie Adressen, Finanzbewegungen oder Verbrauchsdaten z.B. im Energiesektor. Zum anderen geht es um die Auswertung von Interaktiondaten. Laut Oosterhof zählen dazu beispielsweise Social-Media- oder Sensordaten, die bei der automatischen Erfassung von RFID-Lesern, Kameras oder Mikrofonen entstehen.

Generell gibt Klaus Hofmann zur Linden, Technical Manager bei Information Builders in Eschborn, zu bedenken, dass es sich bei Big Data um keine neue Technologie oder ein neues Produkt handelt. Vielmehr gehe es um eine Erweiterung vorhandener Methoden und Prozesse zur Datenerschließung und -analyse. Zu berücksichtigen sind dabei laut Hofmann zur Linden neben dem drastischen Wachstum beim Datenvolumen mehrere Anforderungen: Die Analyseergebnisse sollen in Echtzeit zur Verfügung stehen, es müssen immer mehr Datenquellen mit strukturierten und unstrukturierten Beständen berücksichtigt werden und die Zahl der potentiellen Anwender steigt an – unternehmensintern, aber auch bei Geschäftspartnern, Kunden und Lieferanten.

Reichen herkömmliche BI-Systeme aus?

Grundsätzlich funktioniert Big Data wie klassisches Business Intelligence (BI). Allerdings müssen die eingesetzten Systeme besonderen Anforderungen genügen und deutlich leistungsfähiger sein. „Bei der Verarbeitung kommt es darauf an, große Datensätze zu importieren und zu verarbeiten, gleichzeitig viele Abfragen zu bewältigen, Ergebnisse in Echtzeit zu liefern und auch komplexe Anfragen innerhalb kürzester Zeit zu beantworten“, betont Bert Oosterhof von Informatica. Herkömmliche Technologien zum Datenmanagement seien in der Regel nicht oder nur unzureichend für die Bewältigung dieser Aufgaben ausgestattet und könnten den Unternehmen nicht den Nutzen bieten, den eine Analyse von Big Data erlaube.

Christoph Morgen von SAS glaubt ebenfalls, dass herkömmliche BI-Lösungen ungeeignet sind, da bei ihnen vor allem der Blick in die Vergangenheit im Mittelpunkt stehe. „Zudem können immer nur Ausschnitte aus der Flut von Daten betrachtet werden“, so Morgen. „Man benötigt weit mehr als ein SQL-basiertes oder ‚Map/Reduce’-Verfahren, um aus Big Data einen Nutzen zu ziehen. Es handelt sich vielmehr um Technologien, die viel schneller und genauer große Datenmengen analysieren.“

Weitere Argumente gegen herkömmliche BI-Lösungen führt Arne Roßmann, IT-Consultant bei der Ancud IT-Beratung, ins Feld: „Allein die reinen Datenmengen stellen ein Problem dar, da sie mit den bisherigen Möglichkeiten nur schwer in der Gesamtheit zu analysieren sind. Die Auswertungen dauern trotz modernster Rechentechnik mit den klassischen Analyseansätzen einfach zu lange. Sekundenschnelle Ergebnisse können hier nicht mehr erzielt werden.“ Überdies gestalten sich die komplexen Beziehungen der Daten untereinander und in Beziehung zu den Unternehmensdaten problematisch. „Desweiteren sollte man auch das Problem der effizienten Speicherung dieser Daten nicht außer Acht lassen“, so Roßmann. Da man solche Informationsmengen nur noch verteilt speichern könne, müssten die Analysewerkzeuge in der Lage sein, auch verteilte Daten effizient zu analysieren.

Allerdings glauben nicht alle befragten Spezialisten daran, dass althergebrachte Business-Intelligence-Werkzeuge an Big Data scheitern. Ein Lichtblick für IT-Verantwortliche, die dann nicht unbedingt in neue Lösungen investieren müssten. „In vielen Fällen sind vorhandene Applikationen eine gute Ausgangsbasis für Big Data und es besteht keine Notwendigkeit, ein weiteres Tool einzuführen“, erklärt Klaus Hofmann zur Linden. Allerdings sollte die bereits eingesetzte Lösung für jegliche Datenerweitung offen sein und über eine entsprechende Adapterauswahl verfügen. „Hier sind Verfahren und Lösungen wichtig, um Daten aus unterschiedlichen Quellen noch vor ihrer Speicherung auf Aktualität, Konsistenz und Vollständigkeit zu überprüfen. Das Stichwort lautet Datenqualitätsmanagement“, so Klaus Hofmann zur Linden weiter.
Möchte man seine BI-Landschaft besser auf die Auswertung gewaltiger Datenmengen ausrichten, sollte man einige technische Voraussetzungen beherzigen. „Um Big Data zu bewältigen, empfiehlt sich der Einsatz von hochskalierbaren Technologien wie beispielsweise die Open-Source-Software Hadoop, die intensive Rechenprozesse auf miteinander vernetzten Rechnern ermöglicht und so die Datenmenge in den Griff bekommen“, rät Bert Oosterhof. Mit Hilfe einer Datenintegrationslösung können die Daten dann aus beliebigen Quellen in Hadoop geladen und daraus wiederum für beliebige Analysezwecke bereitgestellt werden.

Den Erfolg einer solchen Vorgehensweise sieht auch Dr. Marcus Dill von Mayato: „Die Grundlage für Big-Data-Analysen sind zum einen Architekturen, die eine massive Parallelisierung von Abfragen und Verarbeitungsschritten ermöglichen, in Verbindung mit spaltenbasierten Speicherkonzepten und In-Memory-Technologie. Analysealgorithmen müssen auf diese Plattformen optimiert sein, um deren Nutzenpotential zu heben.“

Finanztransaktionen beobachten

Auf Beispiele, wie Unternehmen solche Analysen nutzbringend einsetzen können, trifft hierzulande noch selten. Wie sooft in der Geschichte der Informationstechnologie zählen US-Firmen zu den Vorreitern. „Mit Macy´s löste einer der größten Einzelhändler in den USA mit unserer Lösung sein Big-Data-Problem“, berichtet Christoph Morgen, BI-Experte bei SAS Deutschland. Zuvor dauerte die Preisoptimierungsberechnung, die Millionen Artikel in hunderten Geschäften mit einbezieht, mehr als 27 Stunden. „Damit konnten die Verkaufszahlen des Sonntags nicht mehr für die ab Montag geltenden neuen Preise verwendet werden. Der Ausweg war, dass nur Teile des Sortiments auf einem Ausschnitt der Verkaufszahlen hinsichtlich des Preises optimiert wurden“, so Christoph Morgen weiter. Dank Big-Data-Analyse dauern diese komplexen Berechnungen heute nur etwas länger als eine Stunde, wobei nun auch alle Daten berücksichtigt werden können.

Ein weiteres Einsatzszenario beschreibt Bert Oosterhof von Informatica wie folgt: „Im Finanzbereich kommt die Auswertung von Big Data unter anderem beim Fraud Detection zum Einsatz. Durch die Analyse der riesigen Datenmengen, die beispielsweise bei Transaktionen anfallen, wird es möglich, Unregelmäßigkeiten aufzudecken.“

In der Auswertung riesiger Datenmengen liegt auch ein großes Potential für systematische Verbesserungsprozesse. „Denn durch entsprechende Algorithmen lassen sich relevante Muster in den Daten finden“, erklärt Arne Rossmann von Ancud. So könnten in der Versicherungsbranche die vielen Texte und Bilder von Schadensforderungen hilfreiche Informationen und Muster für die künftige Bearbeitung liefern. Darüber hinaus ist die Auswertung von Big Data für Unternehmen insbesondere im Zusammenhang mit Social Media interessant. „Sind die durch Social-Media-Promotions gewonnenen Daten erst einmal gesichtet und in das ERP- und CRM-System eingepflegt, lassen sich völlig neue Kundengruppen erschließen, was dem Vertrieb großen Nutzen bringt“, sagt Tom Cahill von Jaspersoft.

Persönlichkeitsrechte wahren

Gerade bei der Auswertung von Social-Media-Daten sollte man jedoch Vorsicht walten lassen. „Dies ist ein sehr kritischer Vorgang, da auf persönliche Nutzerangaben zugegriffen wird“, warnt IT-Consultant Arne Roßmann. Das Abgreifen solcher Daten in Netzwerken wie zum Beispiel Facebook oder Xing müsse daher explizit vom Benutzer freigegeben werden. Allerdings, so Roßmann weiter, betrifft dieser Mechanismus nur soziale Netzwerke, die Daten aus den zig Tausenden Blogs seien nicht weiter geschützt.

Insbesondere für das Marketing und den Vertrieb können solche Nutzerinformationen Gold wert sein. „Ist ein User immer mit demselben Benutzernamen unterwegs, lässt sich durch Kombination der vielen Webseiten, Foren und Blogs ein schlüssiges Bild über die entsprechende Person erstellen, die damit quasi zum „gläsernen User“ würde“, fährt Arne Roßmann fort. Damit hier keinem Missbrauch Tür und Tor geöffnet wird, fordert Rossmann von den Verantwortlichen, hier große Vorsicht walten zu lassen. Und auch Klaus Hofmann zur Linden von Information Builders betont: „Unternehmen müssen bei allem was sie tun gesetzliche Vorschriften und Vorgaben einhalten. Wer Blogs oder Facebook auswertet, musste auch bislang schon die Datenschutzgesetzgebung berücksichtigen. Das gleiche gilt für Compliance-Regelungen. Daran wird und darf sich auch mit Big Data nichts ändern.“


Was sind Big Data?

„Big Data“ ist ein aktuell viel verwendeter Begriff für anfallende Datenmengen, die für die Verarbeitung in herkömmlichen Datenbanken sowie mit traditionellen Datenmanagementwerkzeugen und Analysetools nicht mehr geeignet sind. Hierbei kann es sich um Daten ganz unterschiedlicher Art und Herkunft handeln: Protokolldateien aus dem Web- oder Telekommunikationsumfeld, verschiedenste Ton- und Bilddaten, Wetter- und Klimadaten, astronomische oder andere wissenschaftliche Daten. (Quelle: Dr. Marcus Dill, Geschäftsführer der Mayato GmbH)

Bildquelle: © iStockphoto.com/praseodimio


WEB-Special

EPICOR
VORBEREITUNG AUF CO2-BILANZIERUNG


Epicor Software, Anbieter von Unternehmenssoftware, gab die Ergebnisse ihrer ersten weltweiten Umfrage zur CO2-Bilanzierung bekannt...
   
mehr lesen »

            

             

Aktuelle Ausgabe

Titelinterview
mit Stefan Maierhofer, Senior Director für Zentral- und Osteuropa bei F5 Networks

Titelthema
IT-Infrastrukturen: Ruckzuck von 0 auf 100

Software
Business Intelligence: Datenberge bezwingen

Stefan Maierhofer, F5 Networks

Interview mit Stefan Maierhofer, Senior Director für Zentral- und Osteuropa bei F5 Networks, über die Herausforderungen der Anwendungsbereitstellung - neudeutsch Application Delivery - in traditonellen, applikationspezifisch dedizierten Umgebungen und virtuellen, cloudbasierten Umgebungen... mehr lesen »

Ruckzuck von 0 auf 100

In den kommenden Jahren verbreitet sich im Data Center eine vorgefertigte Kombination aus Server, Speicher, Netzwerk und Managementsoftware, kurz der "Building Block". CIOs können mit dieser Infrastruktur neue Anwendungen rasch zum Laufen bringen... mehr lesen »

Der Stepstone-Stellenmarkt bei MEDIENHAUS Verlag
IT-Director Newsletter
Datenberge bezwingen

Haben klassische Business-Intelligence-Lösungen (BI) ausgedient? Man könnte es fast meinen, denn alle Welt spricht nur noch von Big Data... mehr lesen »