Durch den Trend zur Verringerung und Zentralisierung von Rechenzentren steigt in Unternehmen mit verschiedenen Niederlassungen die Backup-Last. Aufgrund der stattfindenden Serverkonsolidierung, von den Unternehmen zur Reduzierung von Serverkosten vorangetrieben, werden die verbleibenden Rechenzentren und ihre Datenmengen immer größer. Entsprechend große Mengen der täglich im operativen Geschäft anfallenden Daten müssen zur Sicherung über Wide-Area-Network-Verbindungen (WAN) in gewöhnlich ein oder zwei zentrale Rechenzentren überspielt werden.
Eine Lösung, die auf nächtliche Backups setzt, scheidet häufig aus, weil in internationalen Unternehmen irgendwo immer das Tagesgeschäft läuft und für den möglichen Recovery-Fall gerade bei geschäftskritischen Anwendungen möglichst aktuelle Daten benötigt werden. Weil im WAN jedes Paket unweigerlich durch Latenz gebremst wird, bleibt als Alternative die Verringerung der zu übertragenden Datenpakete. Ein Ansatz setzt hier auf eine Kombination aus Deduplizierung, Protokolloptimierung in TCP und Bandbreitenmanagement. Die Deduplizierung, die das höchste Optimierungspotential in dieser Triade besitzt, wird dabei als transparenter Mechanismus umgesetzt, damit sie in einer komplett heterogenen Umgebung sowie unabhängig vom Übertragungsweg erfolgen kann.
Deduplizierung verringert die Netzwerklast
Die Transparenz entsteht dadurch, dass die deduplizierende Appliance quasi als letzte Komponente vor der Firewall installiert wird. So werden alle Datensicherungsströme sichtbar, die über das WAN übertragen werden sollen – unabhängig von welchen Systemen sie kommen. So kann auf jeden Datenstrom adäquat reagiert werden, egal welche Plattform ihn erzeugt oder in Empfang nimmt. Voraussetzung für die Deduplizierung sind Bitmuster, die sich wiederholen. Diese Vorgehensweise greift nicht, wenn verschlüsselt wird. Aber auch deduplizierter Traffic lässt sich verschlüsselt übertragen. Dazu werden die Daten vor der Appliance entschlüsselt, anschließend von dieser dedupliziert, wieder eingepackt und verschickt. Weil bei der WAN-Übertragung kein Weg an der Latenz vorbeiführt, durch die sich Paketzustellzeiten im WAN gegenüber der Übertragung im Local Area Network (LAN) um das 300- bis 1.000-fache aufblähen, besteht der Hebel zur Optimierung darin, die Anzahl der zu übertragenden Pakete zu minimieren. Hier setzt die Deduplizierung an. Die Maschine erkennt, dass eine bestimmte Datei schon mal übertragen wurde und referenziert auf diese Datei mit einem Index. So projiziert dann z.B. eine kleine Anzahl von Indices auf eine riesengroße Datei, und statt dieser Datei werden nur noch die Indices übertragen. Sind diese gleich, werden auch sie noch einmal enkapsuliert und darauf mit einem neuen Index verwiesen, so dass nur noch ein einziger Index übertragen wird.
Die Datei muss somit nur einmal vollständig übertragen werden, damit die Gegenstelle die gleichen Indices ermitteln und im Anschluss darauf referenzieren kann. Entscheidend ist, dass die Deduplizierung eben transparent erfolgt und zudem unabhängig vom Übertragungsweg greift. Egal ob es sich bei den zu sichernden Informationen um einen E-Mail-Anhang, einen FTP-Zugriff oder Datensätze einer Datenbank handelt – die Maschine erkennt am Datum, dass sie die Daten bereits übertragen hat und übermittelt statt ihrer die Indices. Wichtig ist hierbei auch, dass Änderungen an einer Datei nicht eine erneute vollständige Übertragung notwendig machen, wie das bei einem File Caching der Fall ist. Vielmehr werden alle bekannten Teile der geänderten Datei wiedererkannt und per Index übertragen. Nur der geänderte Teil wird einmal im Klartext verschickt, jedoch bei der nächsten Übertragung bereits indiziert und somit nicht noch mal in Gänze auf die Leitung geschickt.