15.11.2011
Branche, Business Intelligence
Von: Ina Schlücker

Christoph Morgen, SAS Deutschland

Massive Parallelisierung und In-Memory als Basis für Big Data

Interview mit Christoph Morgen, Business-Intelligence-Experte bei SAS Deutschland


IT-DIRECTOR: Herr Morgen, was genau versteht man unter „Big Data“?
C. Morgen: Big Data beschreibt den Umstand der immer weiter anwachsenden Datenmengen in Unternehmen. Eigentlich gibt es dieses Phänomen schon immer, doch mit dem Anbrechen des Internetzeitalters und seinem Aspekt der sozialen Netzwerke muss Big Data zu Recht neu bewertet werden. Neu ist, dass nicht nur die Volumen wachsen, sondern vor allem die Heterogenität der Daten und die Geschwindigkeit, mit der sich diese Daten ändern und anwachsen. Denn die Geschwindigkeit der anwachsenden Datenmengen hat sich um ein Vielfaches beschleunigt.

IT-DIRECTOR: Über welche Datenvolumina spricht man hier?

C. Morgen: Ende 2010 hat die globale verfügbare Datenmenge das Zettabyte erreicht – eine Zahl mit 21 Nullen. Und sie verdoppelt sich alle zwei Jahre. Grundsätzlich geht es bei Big Data allerdings nicht um absolute Größenordnungen. Im Datawarehouse-Bereich kann schon das Wachstum von 100 Gigabyte auf einige Terabyte die vorhandene Infrastruktur überfordern.

IT-DIRECTOR: Vor welche Herausforderungen stellt die Analyse unstrukturierter Daten gemeinhin die Verantwortlichen?

C. Morgen: Vor die Herausforderung, die Menge der unstrukturierten Daten effizient zu speichern und zu analysieren. Dazu sind spezielle Analysewerkzeuge nötig, die von klassischen Datenbankansätzen nicht abgedeckt werden. Was heißt das in der Anwendung? Die vorhandenen Plattformen müssen erweitert werden. Neue Storagestrategien müssen her, um die unstrukturierten Daten (Stichwort Hadoop) kostengünstig speichern zu können. Gleichzeitig erfordert es Datenmanagementwerkzeuge mit Schnittstellen und Transformationen, um diese Daten dann in einem nächsten Schritt verarbeiten zu können.

Ein Beispiel: Für die eigentliche Analyse von unstrukturierten Textdaten wären Textanalysewerkzeuge wichtig, die natürliche Sprachen verarbeiten können. SAS Social Media Analytics wäre so ein Werkzeug, das aus den unstrukturiert vorliegenden Informationen wertschöpfende Bedeutungsinhalte extrahieren kann. Der Vorteil dieser Methode: Die gesamte Prozesskette – also die Verarbeitung und Analyse der Daten – kann um ein Vielfaches beschleunigt werden. Und das deshalb, weil sie dort geschieht, wo die unstrukturierten Daten, sprich der Text in diesem Fall, gespeichert sind. Dieses Verfahren vermeidet übrigens, dass keine neuen Massendatensilos im Unternehmen entstehen. Im Rahmen der Big-Data-Diskussion ein nicht zu unterschätzender Vorteil.

IT-DIRECTOR: Weshalb kann die Auswertung von Big Data für Unternehmen so nützlich sein? Wo liegt der große Mehrwert für das Business?

C. Morgen: Mit neuen Technologien zur Analyse von Big Data können bisher nicht lösbare analytische Probleme angegangen werden. SAS High Performance Analytics ist ein gutes Beispiel für so eine Verarbeitung. Mit ihr können Unternehmen echte analytische Fragestellung skalierbar und sehr schnell wie z.B. im Bereich Data Mining bearbeiten. Der Vorteil: die Analysen werden deutlich treffsicherer, da mehr Aspekte berücksichtigt werden und deutlich mehr Alternativszenarien betrachtet werden können, aber auch die Basis der Detaildaten erweitert sich. Neue Agitationsspielräume ergeben sich ohne Zeit- oder Performanceverluste.

Also: Diese Auswertung von Big Data ermöglicht es, dass die Entscheidungen, noch bevor sie getroffen werden, erst einmal einem Realitätscheck unterzogen werden können. Außerdem können die Entscheidungen faktenbasiert und deutlich schneller getroffen werden, und es können auch viel mehr Entscheidungen getroffen werden. Schon vor dem Zeitalter von Big Data war das für Firmen die Kür, die aber oftmals an den fehlenden Analysesystemen scheiterte. Statisches Reporting mit Blick in die Vergangenheit hat jetzt endgültig ausgedient.

IT-DIRECTOR: Inwieweit können herkömmliche BI-Lösungen für Big-Data-Analysen herangezogen werden?
C. Morgen: Gar nicht, weil hier z.B. vor allem die Vergangenheit im Mittelpunkt der Betrachtungen steht. Zudem können immer nur Ausschnitte aus der Flut von Daten betrachtet werden und es sind keine Analysen im eigentlichen Sinne wie zum Beispiel für Vorhersagen möglich. Lösungen für Big-Data-Analysen müssen „By Design“ auf die Verarbeitung größter Datenmengen unterschiedlichster Form zugeschnitten sein. Man benötigt also weit mehr als ein SQL-basiertes oder „Map/Reduce“-Verfahren, um aus Big Data einen Mehrwert zu ziehen. Dies sind Technologien, die viel schneller und viel genauer große Datenmengen analysieren.

IT-DIRECTOR: Wann sollte man besser auf ein spezielles Tool setzen?

C. Morgen: Immer. Die Zeiten sind vorbei, zu denen sich feststellen ließ, dass nur große Unternehmen spezielle Tools benötigen. Denn das Internet macht vor niemandem Halt. Herkömmliche BI-Systeme können den Entscheidern höchstens ein Gefühl für das vermitteln, was kommen könnte, auf dieser Basis entscheiden sie dann.

IT-DIRECTOR: Welche Technologien bilden die Grundlage für Big-Data-Analysen?

C. Morgen: Die Grundlage bilden massive Parallelisierung und In-Memory-Verarbeitung, d.h. die Ausnutzung der heute in Server- und Blade-System in nie da gewesenem Maße verfügbaren Hauptspeicher- und CPU-Ressourcen. Um beim SAS-High-Performance-Analytics-Beispiel zu bleiben: Diese setzt primär auf In-Memory-Speicherung, parallelisiert implizit über alle verfügbaren CPU-Ressourcen der zu Grunde liegenden Serverinfrastruktur. Ein Schritt in diese Richtung für Kunden, die Business-Analytics-Werkzeuge einsetzen, ist die Skalierung ihrer Anwendung über viele parallel geschaltete Rechner in einem GRID, oder – wenn bereits massiv parallele Datenbanksysteme eingesetzt werden, denen aber der analytische Kern fehlt – der Einsatz von In-Database-Analytics, welcher die Ausführung analytischer Verfahren am Ort der Datenspeicherung in der Datenbank ermöglicht.

IT-DIRECTOR: Inwieweit können die Auswertungen von großen, unstrukturierten Datenmengen wie Blogs oder sozialen Netzwerken zu einer Verletzung von Compliance-Vorgaben und Gesetzen führen?
C. Morgen: Bei uns gar nicht, denn wir analysieren beispielsweise im Bereich der sozialen Netzwerke lediglich die Daten, die die User freigegeben haben. Auf andere Daten haben unsere Systeme keinen Zugriff.

IT-DIRECTOR: Können Sie uns bitte ein konkretes Big-Data-Anwenderbeispiel nennen?
C. Morgen: Einer der größten Einzelhändler in den USA, Macy´s, konnte mit unserer Lösung High Performance Analytics sein „Big Data“-Problem lösen. Bisher dauerte die Preisoptimierungsberechnung, die über Millionen Artikel in hunderten Geschäften gerechnet wurde, mehr als 27 Stunden. Damit konnten die Verkaufszahlen des Sonntags nicht mehr für die neuen Preise ab Montag verwendet werden. Der Ausweg war, dass nur Teile des Sortiments auf einem Ausschnitt der Verkaufszahlen hinsichtlich Preis optimiert wurden. Heute dauert diese komplexe Analyse nur etwas länger als eine Stunde – damit können nun alle Daten berücksichtigt werden. Die direkte Folge: Der Händler kann seine Marge erhöhen. Big Data Analytics bringt einen schnellen Return on Invest.


WEB-Special

EPICOR
VORBEREITUNG AUF CO2-BILANZIERUNG


Epicor Software, Anbieter von Unternehmenssoftware, gab die Ergebnisse ihrer ersten weltweiten Umfrage zur CO2-Bilanzierung bekannt...
   
mehr lesen »

            

             

Aktuelle Ausgabe

Titelinterview
mit Stefan Maierhofer, Senior Director für Zentral- und Osteuropa bei F5 Networks

Titelthema
IT-Infrastrukturen: Ruckzuck von 0 auf 100

Software
Business Intelligence: Datenberge bezwingen

Stefan Maierhofer, F5 Networks

Interview mit Stefan Maierhofer, Senior Director für Zentral- und Osteuropa bei F5 Networks, über die Herausforderungen der Anwendungsbereitstellung - neudeutsch Application Delivery - in traditonellen, applikationspezifisch dedizierten Umgebungen und virtuellen, cloudbasierten Umgebungen... mehr lesen »

Ruckzuck von 0 auf 100

In den kommenden Jahren verbreitet sich im Data Center eine vorgefertigte Kombination aus Server, Speicher, Netzwerk und Managementsoftware, kurz der "Building Block". CIOs können mit dieser Infrastruktur neue Anwendungen rasch zum Laufen bringen... mehr lesen »

Der Stepstone-Stellenmarkt bei MEDIENHAUS Verlag
IT-Director Newsletter
Datenberge bezwingen

Haben klassische Business-Intelligence-Lösungen (BI) ausgedient? Man könnte es fast meinen, denn alle Welt spricht nur noch von Big Data... mehr lesen »