Analyse von Big Data
Datenexplosion zum Vorteil nutzen
Internethandel, Social Media, Online-Banking oder Forschung – überall werden heute immer mehr Daten produziert. Big Data ist damit für Unternehmen Chance und Herausforderung zugleich: Wer die Datenflut managen und die Informationen analysieren und nutzen kann, wird sich künftig die Pole Position im Wettbewerb sichern.

Eine riesige Welle an Daten und Informationen rollt auf die Welt zu. Darin sind sich alle Marktbeobachter einig. Im Jahr 2010 hatte die Datenmenge laut einer Studie von IDC erstmals die Zettabyte-Barriere durchbrochen. Ein Zettabyte – das ist eine Eins mit 21 Nullen. 2011 soll die weltweit produzierte Datenmenge auf ein Volumen von 1,8 Zettabyte angestiegen sein. Zum Vergleich: Diese Datenmenge entspricht 200 Mrd. HD-Filmen, für deren Betrachtung 47 Mio. Jahre erforderlich wären. Die Spezialisten von IBM haben berechnet, dass wir weltweit 2,5 Trillionen Byte Daten erzeugen – pro Tag. 90 Prozent des aktuellen Datenbestands seien in den letzten beiden Jahren entstanden.
Das Datenwachstum wird sich auch künftig expotentiell beschleunigen. Immer mehr Quellen senden immer mehr Daten – von mobilen Endgeräten über RFID-Leser und Kameras bis zu Maschinen, die via SIM-Karte mit anderen Maschinen kommunizieren. Auf Twitter werden heute schon täglich rund 450 Mio. Kurznachrichten verfasst und auf Facebook posten Nutzer pro Tag gar vier Milliarden Kurzinfos. Quer durch alle Branchen steigt die Datenflut: Wertpapierkurse oder Kreditkartenbetrug in der Finanzbranche, Milliarden von Gesprächsdaten im Telekommunikationssektor oder Millionen von Messdaten in der Rohstoffbranche, in der Klimaforschung und mit der Einführung von Smart Grids bald auch in der Energieversorgung. In vielen Bereichen der Wissenschaft – von der Genetik über die Teilchenphysik bis zur Pharmaforschung – beruhen neue Ergebnisse fast immer auf der Interpretation von Massendaten.
Wissensschatz heben
Kein Wunder also, dass IDC prognostiziert, Big Data werde neben Mobile Computing, Cloud-Services und sozialen Netzwerken der Top-IT-Trend 2012. Und nicht nur das: Die vier Themen zusammen sollen bis Ende des Jahrzehnts sogar für 80 Prozent des Wachstums bei den IT-Ausgaben stehen. Big Data – darunter ist aber nicht nur die schiere Menge an Daten und Informationen zu verstehen. Der noch junge Begriff, der sich in den letzten zwei Jahren durchgesetzt hat, meint vielmehr auch die Fähigkeit, die richtigen Daten für die verschiedensten Unternehmensbereiche bereit zu stellen. Und zwar nicht mehr in Form eines monatlichen Reportings, sondern fast permanent und in Echtzeit.
Denn es liegt auf der Hand: In all diesen Daten liegt ein Wissensschatz, der Unternehmen enorme Wettbewerbsvorteile und ganz neue Geschäftschancen ermöglicht. Welche Kunden kaufen wann welches Produkt? Was wird in drei Jahren im Trend liegen? Wie kann ich die Kapazität meiner Produktion steigern oder meine Logistik verbessern? Welcher Wirkstoff hat die größte Wirksamkeit bei möglichst geringen Kosten? Solche und viele weitere Fragen kann beantworten, wer Ergebnisse fast in Echtzeit bekommt und in der Lage ist, seine Daten zu verstehen. Mit ganz konkreten Folgen: So hat McKinsey etwa in einer umfassenden Studie berechnet, dass in Europas öffentlichem Sektor durch Big-Data-Analyse Mehrwerte von 250 Mrd. Euro geschaffen werden könnten, der Online-Handel könne seine Margen um 60 Prozent steigern. Für Roger Magoulas, Marktforschungschef beim Technologieverlag O’Reilly, ist die Fähigkeit, Big Data zu analysieren, daher zu einer Kernkompetenz im Informationszeitalter geworden.
Datenmenge wächst schneller als Hardwarekapazität
Genau hier liegt jedoch auch die große Herausforderung. Die Analyse von Big Data stellt viele Unternehmen und Organisation vor bisher unbekannte Probleme. Im Laufe der nächsten zehn Jahren müssen sich IT-Abteilungen darauf einstellen, dass sie das 50-Fache an Informationen verwalten müssen und 50 Prozent mehr IT-Experten benötigen werden. Unternehmen versuchen bisher oft, der steigenden Datenflut mit traditionellen – und das heißt vor allem quantitativen – Mitteln zu begegnen. Doch die Datenmengen steigen schneller als die Leistungsfähigkeit von Prozessoren und Servern. Darum sind jetzt ganz neue Ansätze gefragt.
Unternehmen müssen bei ihren Mitarbeitern so rasch wie möglich Know-how zum Thema Big Data aufbauen und gleichzeitig die passenden Prozesse schaffen. Vor allem aber brauchen sie die richtige Technologie – also Datenbanksysteme die Milliarden von Datensätzen in Millisekunden filtern, simultan laufende Abfragen unterstützen und dabei auch noch kontinuierlich fließende Datenströme ohne Zeitverzögerung parallel importieren. Verarbeitung und Analyse fast in Echtzeit – das ist notwendig, um schnell, aktuell und genau zu Ergebnissen zu kommen. Spätestens damit aber sind die klassischen Datenbanksysteme komplett überfordert.
Das ist kein Zufall: Basieren die derzeit in den Unternehmen eingesetzten Systeme häufig noch auf Architekturen, die vor 25 bis 30 entworfen wurden. Bereits in den letzten Jahren entstanden vor diesem Hintergrund eine Reihe neuer Ansätze, die sich grob in zwei Kategorien aufteilen lassen: so genannte NoSQL-Datenbanken und analytische Datenbanken. Bekanntester Vertreter im NoSQL-Bereich ist Hadoop, ein von Yahoo als Open Source bereit gestelltes Framework zur parallelen Verarbeitung von Daten. Auf Basis von Hadoop lassen sich Berechnungen zur Datenanalyse auf einer großen Anzahl von Servern parallel verarbeiten. Allerdings kann die Lösung Daten nicht in Echtzeit berechnen, sondern eignet sich eher für eine batchartige Verarbeitung. Gleichzeitig ist die Hardwarenutzung nicht sehr effizient, so dass die Infrastrukturkosten für große Datenmengen rasch in die Höhe schnellen. Im Bereich der analytischen Datenbanken verfolgen einige neue Anbieter unterschiedliche Ansätze: Netezza – erst im letzten Jahr von IBM übernommen – bietet zum Beispiel ein System, das die Datenanalyse durch den Einsatz spezieller Mikroprozessoren (FPGA = Field-Programmable Field Array) beschleunigt. Exasol wiederum erzielt eine höhere Leistungsfähigkeit dadurch, dass die Daten komplett in den Hauptspeicher geladen werden (In-Memory-Technologie). Damit sind allerdings die Datenmengen begrenzt, oder es müssten wiederum enorme Serverkapazitäten bereitgestellt werden.
Komprimierter Index sorgt für Turboanalyse
Einen wieder anderen Ansatz hat der Anbieter Parstream für sein Datenbanksystem gewählt. Die Lösung nutzt aktuelle Multiprozessorarchitekturen und ist laut Herstellerangaben die erste Software, die auch auf Grafikkarten (GPU) läuft. Das System vereint aktuelle Datenbanktechnologien (Column-Store, In Memory) mit einem eigens für die Echtzeitanalyse von Massendaten entwickelten patentierten High-Performance-ndex. Dieser Index muss im Gegensatz zu Indizes anderer Datenbanken nicht vor der Analyse von Daten dekomprimiert werden. Auf diese Weise bewegt und analysiert Parstream gegenüber anderen Systemen nur rund ein Zwanzigstel der Datenmenge. Dank der Komprimierung soll die Lösung nicht nur enorm an Geschwindigkeit gewinnen, sondern gemäß eigener Messungen auch bis zu Zwanzigfach weniger Hardware-Kapazität benötigen – was sich positiv auf den Energieverbrauch und die CO2-Bilanz auswirkt. Das Datenbanksystem ist zudem in der Lage, Daten simultan zum Import zu durchsuchen und zu analysieren, ohne dabei an Performance zu verlieren. Das bestätigen erste Kunden, die Parstream im Einsatz haben: zum Beispiel Searchmetrics, ein Anbieter von Tools zur Suchmaschinenoptimierung.
Für welchen Ansatz sich Unternehmen künftig auch entscheiden: Big-Data-Analyse ist das zentrale Thema der nächsten Stufe des Informationszeitalters. Wer der Entwicklung nur zuschaut, wird von der Datenwelle überrollt. Wer aber auf der Welle surft und jetzt seine spezifische Big-Data-Strategie entwickelt, wird profitieren: aktuelle Entwicklungen besser verstehen, umfassendere Voraussagen für die Zukunft treffen und schneller und sicherer in dynamischen und volatilen Märkten entscheiden. Die richtige Big-Data-Strategie ist kritisch für den künftigen Erfolg von Unternehmen in den Märkten des 21. Jahrhunderts.
Bildquelle: Stephan Bachmann/Pixelio.de
Titelinterview
mit Stefan Maierhofer, Senior Director für Zentral- und Osteuropa bei F5 Networks
Titelthema
IT-Infrastrukturen: Ruckzuck von 0 auf 100
Software
Business Intelligence: Datenberge bezwingen
Interview mit Stefan Maierhofer, Senior Director für Zentral- und Osteuropa bei F5 Networks, über die Herausforderungen der Anwendungsbereitstellung - neudeutsch Application Delivery - in traditonellen, applikationspezifisch dedizierten Umgebungen und virtuellen, cloudbasierten Umgebungen... mehr lesen »
In den kommenden Jahren verbreitet sich im Data Center eine vorgefertigte Kombination aus Server, Speicher, Netzwerk und Managementsoftware, kurz der "Building Block". CIOs können mit dieser Infrastruktur neue Anwendungen rasch zum Laufen bringen... mehr lesen »
Haben klassische Business-Intelligence-Lösungen (BI) ausgedient? Man könnte es fast meinen, denn alle Welt spricht nur noch von Big Data... mehr lesen »
















