SAP Data Hub

Mit SAP Data Hub führen Unternehmen Daten unterschiedlicher Herkunft und Formate zusammen, um wertvolles Wissen zu extrahieren. Was sich im Detail hinter der Plattform verbirgt, erklären wir auf dieser Seite.

Was ist SAP Data Hub?

SAP Data Hub ist eine Plattform, auf der Datenströme aus unterschiedlichen Quellen zusammengeführt werden. Oftmals ist in diesem Zusammenhang auch die Rede vom Aufbau einer Datenpipeline, in Anlehnung an den ungehinderten Datenfluss. Als Datenquellen kommen beispielsweise ERP-Systeme, Data Warehouses und Big Data Lakes (großer Speicher mit unformatierten Daten) infrage. Als zentrale Managementebene für Datenlandschaften behandelt SAP Data Hub sämtliche Daten unabhängig von ihrer Herkunft gleich. Die Software kann Daten integrieren, verwalten und anschließend an weitere Anwendungen wie Analyse-Tools übergeben. Zudem ermöglicht SAP Data Hub das Management von Metadaten.

Die Zusammenführung und Verarbeitung von Big Data gewinnt im Hinblick auf Industrie 4.0 zunehmend an Bedeutung. In diesem Artikel erfahren Sie, wie Unternehmen ganz konkret von SAP Data Hub profitieren können.

Wofür wird SAP Data Hub verwendet?

Im Wesentlichen richtet sich SAP Data Hub an Unternehmen, die trotz komplexer Datenlandschaften ein höheres Maß an Wissen aus ihren Daten generieren möchten. Laut einer SAP-Studie aus dem Jahr 2018 sind dies ganze 86 Prozent. Auch die Deutschsprachige SAP-Anwendergruppe e. V. (DSAG) bestätigt in ihrem 2019 in ihrem Investitionsreport, dass „Big Data“ zu den aktuellen Top-3-Digitalisierungsthemen ihrer Mitglieder zählt. Mit der Lösung SAP Data Hub trägt das Walldorfer Team rund um Hasso Plattner diesem Umstand Rechnung. Das übergeordnete Ziel der Plattform ist die Realisierung einer intelligenten (datengetriebenen) Organisation von Daten aus ERP- und anderen Systemen, welche den Anwendern jederzeit verlässliche Daten in einem korrekten Kontext zur Verfügung stellt.

Die wichtigsten Anwendungsfälle von SAP Data Hub stellen sich zusammengefasst wie folgt dar:

  • Aufbau von Datenpipelines
  • Orchestrierung komplexer Datenprozesse über Systemgrenzen hinweg
  • Datenaufnahme und -verarbeitung, z.B. aus ERP-Systemen
  • Aufbau, Betrieb, Verwaltung und Kontrolle komplexer Datenlandschaften
  • Management von Metadaten
  • Data Discovery
  • Data Governance

Betrachten wir diese Use Cases im Folgenden etwas genauer.

Aufbau von Datenpipelines

Ein zentrales Element von SAP Data Hub sind Datenpipelines, welche sich über Data Lakes (z. B. basierend auf Hadoop), Objektspeicher (z. B. Amazon S3, unter anderem relevant für IoT-Sensordaten), Cloud-Datenbanken, lokale Datenbanken und Data Warehouses erstrecken können. Die Lösung umfasst also die gesamte Datenlandschaft und die Datenflüsse einer Organisation. Entwickler haben somit die Möglichkeit, verschiedene Pipeline-Modelle aufzubauen, mit deren Hilfe sich Informationen aus unterschiedlichsten Quellen abrufen, harmonisieren, transformieren und verarbeiten lassen. Zudem können verschiedene Funktionen und Vorgänge direkt in die Datenpipelines eingebaut werden. Hierzu zählen unter anderem Machine-Learning-Technologien wie TensorFlow und Bibliotheken für Berechnungen.

Orchestrierung komplexer Datenprozesse über Systemgrenzen hinweg

Im Rahmen der Orchestrierung lassen sich mit SAP Data Hub Workflows inklusive Überwachungs- und Analysefunktionen für die Datenlandschaft erstellen. Das Ziel ist hierbei die Abbildung und Ausführung sogenannter End-to-End-Datenprozesse. Diese beginnen bei der Aufnahme von Daten aus der Quelle (z. B. Data Lake oder ERP-System), umfassen die Datenverarbeitung und Datenfluss und enden schließlich bei der Bereitstellung oder Integration der resultierenden Daten in Anwendungen und Unternehmensprozesse.

Datenaufnahme und -verarbeitung

Eine weitere wichtige Aufgabe des Data Hubs ist die Aufnahme großer Mengen strukturierter und unstrukturierter Daten bzw. Datenflüsse aus Data Lakes. Unterstützt werden Anwender hierbei durch vorgefertigte Funktionen für die Datenintegration, -bereinigung, -anreicherung, -maskierung und -anonymisierung. Zudem sind Funktionsbausteine vorhanden, mit denen sich die Datenqualität und -Governance überwachen lässt. Weiterhin ist eine Integration der SAP-Lösungen SAP HANA Smart Data Integration, SAP Data Services und SAP BW möglich.

Aufbau, Betrieb, Verwaltung und Kontrolle komplexer Datenlandschaften

Datenlandschaften von Unternehmen sind heute äußerst komplex und fragmentiert. SAP Data Hub führt die verteilten Bestandteile entsprechender Landschaften in einer zentralen Sicht zusammen. Datenmanager erhalten somit vollständige Transparenz hinsichtlich der Datenprozesse über sämtliche angebundenen Komponenten hinweg. Für den Verbindungsaufbau zu den relevanten Datenquellen sorgen mitgelieferte Adapter.

Die Datenlandschaft kann bei Bedarf in bestimmte Bereiche mit eigenen Richtlinien und Service-Levels unterteilt werden (z. B. Produktiv- und Testumgebung). Zudem sind Funktionen für die Zugriffssteuerung und Datensicherheit vorhanden.

Management von Metadaten

SAP Data Hub verfügt über ein eigenes Tool für die Verwaltung und Kontrolle von Metadaten, den sogenannten SAP Data Hub Metadata Explorer. Das Werkzeug dient dazu, Informationen wie Attribute, Speicherort, Qualität und Vertraulichkeit von Daten zu sammeln. Mit dieser Transparenz lassen sich beispielsweise zu folgenden Fragestellungen fundierte Entscheidungen treffen:

  • Welche Datasets sollen veröffentlicht werden?
  • Wer soll Zugriff auf die Daten erhalten?
  • Authentizität (Echtheit) der Datenquelle
  • Einhaltung von Datenschutzregelungen
  • Protokollierung der Zugriffsrechte sowie der Zugriffe, Änderungen, Herkunft und Verwendung von Daten

Somit ist der Metadaten-Explorer ein wichtiger Bestandteil von Data Governance. Er kann jedoch auch dazu verwendet werden, eine Datenvorschau zu generieren, Indizes zum Inhalt zu erstellen und Schlagwörter für die einfachere Suche nach Datensätzen hinzuzufügen.

Data Discovery mit SAP Data Hub

Ein weiterer Use Case von SAP Data Hub ist Data Discovery, also das Erkennen von Mustern in großen Datenmengen. Hierfür werden die Daten unter Einsatz der mitgelieferten Tools automatisiert durchsucht. Zudem lassen sich identifizierte Datenelemente kennzeichnen. Die „entdeckten“, also relevanten Daten können abschließend zur weiteren Verwendung (z. B. für Analysen) bereitgestellt werden. In Summe trägt dieser Ansatz dazu bei, werthaltige Informationen aus Big Data herauszufiltern.

Data Governance mit SAP Data Hub

Data Governance beschreibt ein ganzheitliches Datenmanagement, das die Verfügbarkeit, Benutzerfreundlichkeit, Integrität und Sicherheit der Daten sicherstellen soll. Auch zu diesem Zweck stellt SAP Data Hub geeignete Werkzeuge bereit. Unter anderem können damit folgende Faktoren sichergestellt werden:

In welchen Szenarien ist SAP Data Hub besonders empfehlenswert?

Grundsätzlich eignet sich SAP Data Hub für alle Unternehmen, die ihren Umgang mit Daten und das ERP optimieren möchten. Es existieren jedoch eine Reihe von Szenarien, in denen sich der Einsatz besonders empfiehlt:

  • Die Daten werden in Silos (z. B. Data Warehouses, Hadoop, Dateien) gespeichert und stehen nicht unternehmensweit zur Verfügung. Eine manuelle Zusammenführung wäre zu aufwendig.
  • Die Datenlandschaft ist zu komplex, um die Einhaltung von Sicherheits- und Datenschutzrichtlinien weiterhin „End-to-End“ zu gewährleisten.
  • Vorhandene Data-Lake-Lösungen stoßen in puncto Governance, Kontrollierbarkeit und Automatisierbarkeit an ihre Grenzen.
  • Die aktuell eingesetzten Tools erfordern den Einsatz hoch qualifizierter Mitarbeiter mit entsprechend hohen Personalkosten.
  • Es fehlen Fachkräfte zur Umsetzung der geplanten Strategie im Big-Data-Bereich.
  • Die derzeitigen Werkzeuge erfordern zu viele manuelle Eingriffe, wodurch die gewünschten Datenergebnisse nicht schnell genug zur Verfügung stehen.
  • Amazon Web Services (AWS): Amazon Elastic Kubernetes Service (Amazon EKS)
  • Microsoft Azure: Azure Kubernetes Service (AKS)
  • Google Cloud Platform (GCP): Google Kubernetes Engine (GKE)
  • SAP Data Hub vereinfacht die Orchestrierung komplexer Datenprozesse. Es bietet zudem Governance für moderne und fragmentierte Datenlandschaften.
  • SAP Vora ist eine einfach anzuwendende In-Memory-Engine für verteilte Datensysteme. Das primäre Ziel ist es, verwertbare Elemente innerhalb großer Datenmengen zu identifizieren und anschließend zu verarbeiten. Gespeichert sind diese Daten meist in Hadoop-Clustern und NoSQL-Lösungen.

Wie sieht die Architektur von SAP Data Hub aus?

Aus technischer Sicht basiert SAP Data Hub einerseits auf der leistungsfähigen In-Memory-Datenbank SAP HANA, andererseits auf SAP Vora. Letzteres ist eine Plattform für die Integration und das Management von Daten aus Apache Hadoop - einer weitverbreiteten Technologie im Big-Data-Umfeld (weitere Details im Abschnitt „SAP Data Hub vs. SAP Vora“). Obwohl SAP Data Hub Daten aus verschiedenen Quellen integriert und verwaltet, werden die Daten selbst niemals aus der nativen Quelle herausgenommen und anderweitig gespeichert. Dieses Vorgehen wird auch Push-Down-Modell genannt und ermöglicht eine verteilte Datenverarbeitung direkt auf dem Quellsystem. Im Vergleich zum klassischen ETL-Prozess (Extract, Transform, Load) wird eine höhere Performance bei der Verarbeitung und der Ausgabe von Ergebnissen erzielt.

Als Frontend kann wahlweise eine einfache Desktop-Design-Variante oder ein Cockpit genutzt werden. Über das Cockpit haben Anwender die Möglichkeit, Datenpipelines in Eigenregie (im Self-Service) zu erstellen. Es stellt zudem alle verbundenen Datensysteme inklusive dem aktuellen Verbindungsstatus dar. Des Weiteren werden die zugrunde liegenden Datenquellen visualisiert. Es ist also jederzeit ein strukturierter Überblick über die Datenlandschaft sichergestellt. Zudem sind Drag-and-Drop-Funktionen vorhanden, mit denen Mitarbeiter grafische Datenflussmodelle erstellen können.

Was die Bereitstellung betrifft, so unterstützt SAP Data Hub alle denkbaren Varianten. Die Plattform kann sowohl lokal als auch in Cloud- und Hybridumgebungen betrieben werden.

Wie erfolgt die Bereitstellung von SAP Data Hub in der Cloud?

Aufgrund der (ab Version 2.3) vollständig auf Containern basierenden Architektur kann SAP Data Hub auf jeder Kubernetes-Plattform bereitgestellt werden. Neben Private Clouds zählen hierzu die folgenden Managed-Cloud-Dienste:

Was ist der Unterschied zwischen SAP Data Hub und SAP Data Intelligence?

Einer der jüngsten Cloud-Services aus Walldorf trägt den Namen SAP Data Intelligence. Er basiert auf der SAP Cloud Platform und beinhaltet alle Funktionalitäten von SAP Data Hub. Entsprechend könnte der Dienst auch als Cloud-Variante von SAP Data Hub oder als „SAP Data Hub as a Service“ bezeichnet werden. Der Funktionsumfang ist jedoch noch weitreichender. So beinhaltet SAP Data Intelligence zusätzlich die Funktionen der SAP Leonardo Machine Learning Foundation. Ein zentraler Baustein ist hierbei der sogenannte Machine Learning Scenario Manager. Er ermöglicht es, verschiedene Artefakte des maschinellen Lernens (z. B. Modelle und Pipelines) zentral zu verwalten, bereitzustellen und auszuführen.

Unternehmen, die bereits SAP Data Hub einsetzen und Interesse an den weitreichenden Leonardo-Funktionen haben, müssen nicht auf SAP Data Intelligence umsteigen. Vielmehr sind die Features dank Wartungsvertrag ohne zusätzliche Kosten mittlerweile auch in SAP Data Hub verfügbar.

In Summe kann man SAP Data Intelligence und SAP Data Hub demnach als gleiche Lösungen bezeichnen. Der einzige Unterschied besteht in der Bereitstellung: Während SAP Data Intelligence via SAP Cloud Platform (im Abo-Modell) angeboten wird, wird SAP Data Hub lizenziert und kann auf einer beliebigen Kubernetes-Umgebung (Cloud, On Premise, hybrid) betrieben werden.

SAP Data Hub vs. SAP Cloud Platform Integration (SAP CPI)

Bei oberflächlicher Betrachtung gibt es durchaus Gemeinsamkeiten zwischen SAP Data Hub und SAP Cloud Platform Integration (SAP CPI). Beide Lösungen sind eine Art „Middleware“, die es ermöglicht, Objekte aus lokalen Systemen und der Cloud miteinander zu verbinden. Allerdings unterscheidet sich der Fokus. Während sich SAP Data Hub ausschließlich auf die Integration und Orchestrierung von Daten konzentriert, hat SAP CPI die Kernaufgabe, komplette Systeme miteinander zu verbinden. Es geht bei SAP Cloud Platform Integration also darum, reibungslose Geschäftsprozesse sowie einen einfachen Datenaustausch über SAP- und Non-SAP-Anwendungen hinweg zu realisieren.

SAP Data Hub vs. SAP Vora

Die Unterschiede zwischen SAP Data Hub und SAP Vora erschließen sich am besten bei einer Betrachtung der grundsätzlichen Zielrichtung:

Wichtig zu wissen ist, dass es sich bei SAP Vora um einen Bestandteil von SAP Data Hub handelt. Die beiden Lösungen stehen also nicht in Konkurrenz zueinander. Vielmehr ermöglicht es das Zusammenwirken beider Komponenten erst, Daten aus externen Quellen und aus SAP HANA zu kombinieren.

Ist SAP Data Hub bereits verfügbar?

SAPs Data Hub existiert seit dem Jahr 2017. Die aktuelle Version (2.3) wurde Ende 2018 veröffentlicht. Erstmals sind in dieser Version alle Komponenten containerbasiert. Das heißt: Bestandteile wie Agents, Engines und Metadatenspeicher werden in SAP HANA jeweils in isolierten Umgebungen (Containern) ausgeführt. Der Walldorfer Software-Konzern SAP entspricht somit dem allgemeinen Trend der „Containerisierung“, welcher mit höherer Portabilität, Flexibilität und Geschwindigkeit einhergeht.

Überarbeitet wurde auch der Zugang zu SAP Data Hub. Als zentraler Einstiegspunkt dient nun das sogenannte SAP Data Hub Launchpad mit moderner Oberfläche in Kacheloptik. Hier werden sämtliche Anwendungen wie die Systemverwaltung, die SAP-Vora-Tools, das SAP Data Hub Connection Management, der Pipeline Modeler und der Metadaten-Explorer angezeigt.

Welche Vorteile bietet SAP Data Hub?

Fassen wir zusammen, so sprechen insbesondere folgende Fakten für SAP Data Hub:

  • Es ist universell einsetzbar.
  • Es vereinfacht den Umgang mit Daten durch intelligente Funktionen deutlich.
  • Es ist unabhängig von der Datenquelle skalierbar.
  • Es arbeitet richtlinien- und gesetzeskonform.

Betrachten wir diese Argumente abschließend genauer.

Universelle Nutzung von SAP Data Hub

Mit dem Data Hub erhalten Anwender ein Werkzeug, mit dem sie nicht nur auf ihre eigenen Unternehmensdaten - etwa aus SAP HANA - zugreifen. Die vorhandenen Informationen lassen sich mithilfe der Software um Daten aus allen externen Quellen, Anwendungen und Prozessen ergänzen. Die Erschließung von Big Data und die Nutzung der darin enthaltenen, wertvollen Informationen wird somit deutlich vereinfacht. Gleichzeitig ist es möglich, interne und externe Informationen in einen Kontext zu setzen, wodurch wesentlich fundiertere Insights realisierbar sind.

Vereinfachung des Datenmanagements

Anwender haben mit SAP Data Hub die Möglichkeit, die Datenqualität im Self-Service zu optimieren. Hierfür liefert die Software eine visuelle Darstellung der Datenzusammenhänge im Unternehmen. Zudem erfolgt die Aufbereitung, Bereinigung und Verbindungssteuerung in großen Teilen automatisiert. Vorteilhaft ist darüber hinaus die System- und Metadatenerkennung. Sie versetzt Benutzer in die Lage, jedes angebundene Datensystem zu durchsuchen und relevante Daten im zweiten Schritt ihrer weiteren Verwendung zuzuführen.

Skalierbarkeit von Datenmengen mit SAP Data Hub

SAP Data Hub konzentriert sich auf die Orchestrierung von Daten. Verarbeitet werden sie jedoch direkt im Quellsystem. Dieser Push-Down-Ansatz optimiert nicht nur die Performance, sondern vermeidet auch unnötige, kostspielige Datenbewegungen. Wächst die Datenmenge oder die Anzahl der Datenquellen, so stellt dies dank dem Push-Down-Modell zudem keine Herausforderung dar.

Konformität mit SAP Data Hub

Die Erfüllung unternehmensinterner und gesetzlicher Vorgaben im Umgang mit Daten hat heute höchste Priorität. Auch diesem Umstand trägt SAP Data Hub Rechnung. Die Plattform ermöglicht das Pflegen von Sicherheitsrichtlinien an einem zentralen Ort. Mithilfe der Metadaten lassen sich zudem Qualitätsfehler identifizieren und beheben.