vdwh-logo

Data Solution Design Patterns

Implementierung und Automatisierung

Workshop mit Roelant Vos


Jetzt anmelden!


"Für ein Data Warehouse haben wir keine Zeit!"

... kommt Ihnen das bekannt vor?

Automatisierung und Codegenerierung ermöglichen eine schnellere und flexiblere Implementierung von Data Solutions. Lernen Sie den revolutionären Ansatz für eine vollständig automatisierte Lösung von Roelant Vos kennen.

  • Implementierung eines persistenten Rohdatenspeichers (PSA)
  • Anwendung hybrider Modellierungstechniken und -muster basierend auf Data Vault
  • Definieren eines Metadatenmodells für Automatisierung, Codegenerierung und Virtualisierung
  • Anwendung von DevOps, Test- und Kontroll-Frameworks für eine automatisierte Lösung
  • Sicherstellen, dass die gelieferten Daten die Erwartungen der Kunden erfüllen

Diese praktische Schulung zur Konzeption und Implementierung vermittelt Ihnen alles, was Sie brauchen, um eine automatisierte Data Solution von Anfang bis Ende aufzubauen und zu pflegen.


Was bietet Data Solution Automation?


Die Arbeit mit Daten kann komplex sein und oft ist die "richtige" Antwort für den jeweiligen Zweck das Ergebnis einer Reihe von Iterationen, bei denen Fachexperten (KMU) und Datenexperten zusammenarbeiten.

Dies ist von Natur aus ein iterativer Prozess. Selbst bei bestem Engagement und verfügbarem Wissen unterliegt das resultierende Datenmodell dem zunehmenden Verständnis, das mit der Arbeit mit Daten einhergeht.

Mit anderen Worten: Das Data Solution Modell ist nicht immer etwas, das man auf Anhieb richtig machen kann. In der Realität kann es lange dauern, bis sich ein Modell festigt, und in den heutigen schnelllebigen Umgebungen kann dies sogar nie eintreten.

Die Wahl der richtigen Design Patterns für Ihre Data Solution trägt dazu bei, dass sich die Lösung mit dem Unternehmen und der Technologie weiterentwickelt und die technischen Schulden laufend reduziert werden.

Diese Einstellung ermöglicht auch einige faszinierende Möglichkeiten, wie z. B. die Versionskontrolle des Datenmodells, der Design-Metadaten und ihrer Beziehungen - um die gesamte Datenlösung so darzustellen, wie sie zu einem bestimmten Zeitpunkt war - oder um verschiedene Datenmodelle für verschiedene Geschäftsbereiche zu ermöglichen.

Diese Idee, kombiniert mit der Möglichkeit, automatisch verschiedene Strukturen und Interpretationen von Daten sowie die Datenlogistik zu deren Befüllung oder Übermittlung bereitzustellen, nennen wir "Data Solution Virtualisierung".

Die Idee einer automatisierten virtuellen Data Solution entstand bei der Arbeit an der Verbesserung der Generierung von Data Warehouse Ladeprozessen. Es handelt sich gewissermaßen um eine Weiterentwicklung der ETL-Generierung. Die Kombination von Data Vault mit einer Persistent Staging Area (PSA) bietet zusätzliche Funktionalität, da sie es dem Entwickler ermöglicht, die gesamte Lösung oder Teile davon neu zu erstellen.

Die Möglichkeit, eine virtuelle Data Solution bereitzustellen, bietet mehrere Optionen. Das bedeutet nicht, dass Sie die gesamte Lösung virtualisieren müssen, aber Sie können auswählen, welcher Ansatz für das jeweilige Szenario am besten geeignet ist und Technologien und Modelle im Laufe der Zeit ändern.

Um Ideen wachsen zu lassen, brauchen Entwickler eine unmittelbare Verbindung zu dem, was sie gerade erschaffen. Das bedeutet, dass Sie als Entwickler in der Lage sein müssen, die Auswirkungen Ihrer Änderungen auf das, woran Sie gerade arbeiten, direkt zu sehen.

Das ist es, was die virtuelle Data Solution als Konzept und Denkweise ermöglichen soll: eine direkte Verbindung zu den Daten, um jede Art von Untersuchung zu unterstützen und Kreativität bei der Nutzung zu ermöglichen.

Bei der Virtualisierung von Data Warehousing geht es im Wesentlichen darum, dem Leitsatz zu folgen, eine direkte Verbindung zu den Daten herzustellen. Es geht darum, Wege zur Vereinfachung zu finden und weiterhin daran zu arbeiten, Barrieren bei der Bereitstellung von Daten und Informationen zu beseitigen. Es geht darum, Ideen zu ermöglichen, weil Daten für jede Art von Entdeckung oder Behauptung verfügbar gemacht werden können.

Virtuelles Data Warehousing ist die Möglichkeit, Daten direkt aus einem Rohdatenspeicher zu präsentieren, indem man Lademuster, Informationsmodelle und Architekturen des Data Warehouse nutzt. In vielen Data Warehouse-Lösungen gilt es bereits als Best Practice, Data Marts in ähnlicher Weise zu "virtualisieren". Das Virtuelle Data Warehouse geht diesen Ansatz noch einen Schritt weiter, indem es das gesamte Data Warehouse auf Basis der Rohdaten jederzeit (virtuell) umgestalten kann.

Erreicht wird diese Fähigkeit mit Hilfe eines historisierten Rohdatenspeichers, auch bekannt als Persistent Staging Area "PSA". Hier werden die ankommenden Daten durch Ermittlung des jeweiligen Deltas technisch komprimiert und können jederzeit vollständig wiederhergestellt werden. Diese Generierung dieser Prozesse kann allein auf Basis der technischen Metadaten vollständig automatisiert werden.

Ein virtuelles Data Warehouse ist nicht dasselbe wie Datenvirtualisierung. Diese beiden Konzepte sind grundsätzlich unterschiedlich. Datenvirtualisierung ist nach den meisten Definitionen die Bereitstellung eines einheitlichen direkten Zugriffs auf Daten über viele "unterschiedliche" Datenspeicher hinweg. Es ist eine Möglichkeit, auf Daten zuzugreifen und sie zu kombinieren, ohne sie physisch in andere Umgebungen verschieben zu müssen. Die Datenvirtualisierung konzentriert sich jedoch nicht auf Lademuster sowie Datenarchitektur und -modellierung.

Das Virtuelle Data Warehouse hingegen ist ein flexibler und überschaubarer Ansatz zur Lösung von Themen der Datenintegration und Zeitabweichung mit Hilfe von Data-Warehouse-Konzepten, der im Wesentlichen ein definiertes Schema-on-Read bietet.

Das virtuelle Data Warehouse wird durch die Kombination der Prinzipien der ETL-Generierung, hybrider Data Warehouse Modellierungskonzepte und eines Persistent Historical Data Store "PSA" ermöglicht. Es ist eine ideale Möglichkeit, direkten Bezug zwischen Rohdaten und Informationsbereitstellung für den Endanwender herzustellen, da Änderungen an den Metadaten und Modellen sofort in der Informationsbereitstellung abgebildet werden können. Das persitieren von Daten im Sinne eines traditionellen Data Warehouse ist jedoch immer noch eine Option und kann erforderlich sein, um die gewünschte Performance zu liefern. Der deterministische Charakter eines virtuellen Data Warehouse ermöglicht je nach Anforderung einen dynamischen Wechsel zwischen physischer und virtueller Struktur.

In vielen Fällen ändert sich dieser Mix aus physischen und virtuellen Objekten in den Data Warehouses im Laufe der Zeit. Ein guter Ansatz ist es, "virtuell zu starten" und zu persistieren wann und wo immer es notwendig oder sinnvoll ist.


Download PDF

Ihr Trainer

Roelant Vos ist seit mehr als 20 Jahren im Bereich Data Warehousing und BI tätig und gilt seit vielen Jahren als erfahrener Experte in der Data Vault Community.

Seit mehr als 10 Jahren teilt er seine Ideen, Tipps und Gedanken in seinem Blog roelantvos.com.

Als Softwareentwickler, Berater, Trainer und Entscheidungsträger in der Unternehmenswelt hat Roelant das Datenmanagement aus verschiedenen Blickwinkeln betrachtet.

Das gemeinsame Merkmal war immer die Leidenschaft für Automatisierung, Codegenerierung, wiederverwendbare Schemata und modellgetriebenes Design - der Schlüssel, um Datenlösungen kontrollierbar und flexibel zu machen.

Sein Schwerpunkt liegt nun auf der Durchführung von Schulungen, der Beratung und der Entwicklung von Open-Source-Software, um die Bereitstellung von robusten Datenlösungen zu erleichtern.

Sie wollen ...

  • erfahren, welche Art von Lösungsarchitektur eine flexible Datenbereitstellung unterstützt, die sich mit dem Unternehmen weiterentwickeln kann
  • die Konzepte hinter den wesentlichen Data Loading Patterns verstehen, welche Optionen in Frage kommen und wie diese zu implementieren sind
  • Generierungsmethoden für die Datenlogistik ("ETL") nutzen, um mehr Zeit für wertschöpfende Arbeiten wie Datenmodellierung und Verbesserung der Datenbereitstellung aufwenden zu können
  • an einem Do-It-Yourself (DIY) Date Solution Framework arbeiten oder haben ein Data-Warehouse-Automation-Produkt (DWA) eingeführt und sind jetzt auf der Suche nach einem tieferen Verständnis für die verwendeten Patterns und Modellierungsansätze
  • sich einen vollständigen Überblick über alle Komponenten verschaffen, die für eine robuste und kontrollierbare Data Solution erforderlich sind

    Der Workshop behandelt fortgeschrittene Modellierungs- und Implementierungstechniken und deckt ein breites Spektrum an Interessengebieten ab. Er ist daher nicht nur für BI- und ETL-Spezialisten geeignet, sondern auch für BI-Architekten, Datenmodellierer und Dateningenieure.

Voraussetzungen

  • Ausreichende Englischkenntnisse (Kurssprache ist Englisch)
  • Grundlegende Kenntnisse in Data Warehousing und Datenintegration
  • Gute SQL-Kenntnisse
  • Grundsätzliches Verständnis von Programmierung und einfachen Skripten
  • Erfahrung mit Datenmodellierungstechniken für Data Warehouse (Beispielsweise: dimensionale Modellierung, Data-Vault-Modellierung)

Ist der Kurs für mich relevant?

Durch die Anwendung von Data Vault-Strukturen auf der Grundlage einer Persistent Staging Area (PSA) - einer historisierten Aufzeichnung aller ursprünglichen Transaktionen - kann ein beispielloses Maß an Flexibilität bei der Implementierung und Pflege einer Datenlösung erreicht werden. Die sich wiederholenden Aspekte der Datenaufbereitung werden reduziert, und es wird einfacher, die Lösung an die sich ständig ändernden geschäftlichen und technischen Anforderungen anzupassen.

Diese Muster sind augenscheinlich einfach - fast schon täuschend einfach. Tatsächlich aber erfordert jedes Muster umfassende Überlegungen auf technischer und konzeptioneller Ebene, um den Erwartungen des Unternehmens gerecht zu werden.

Die Data Vault-Modellierung bietet elegante Möglichkeiten zur Bewältigung der Komplexität, dennoch hängt der Erfolg von der korrekten Modellierung der Daten und der richtigen Anwendung der Muster ab. Die Nutzung von Datenlogistik ("ETL"), Generierung und Virtualisierungsverfahren ermöglicht ein hohes Maß an Flexibilität, da Sie verschiedene Modellierungsansätze schnell umgestalten und testen können, um herauszufinden, welcher Ansatz für Ihren Anwendungsfall am besten geeignet ist.

So haben Sie mehr Zeit für wertschöpfende Arbeiten, wie die Optimierung der Datenmodelle und die Bereitstellung der Daten.

Diese fortgeschrittene Schulung ist für jeden relevant, der verstehen möchte, wie man "modellgetriebenes Design" und "musterbasierte Codegenerierung" einsetzt, um die Entwicklung zu beschleunigen. Der Inhalt richtet sich an eine Vielzahl von Datenexperten, darunter Data Warehouse-Spezialisten, Datenmodellierer und -architekten sowie Dateningenieure und Datenintegrationsentwickler.

Flexibles Design und Implementierung

Ziel der Schulung ist es, die Architektur und die Konzepte für eine flexible Datenlösung zu vermitteln, wobei der Schwerpunkt darauf liegt, so schnell wie möglich in die Muster und praktischen Implementierungstechniken einzutauchen.

Um dies zu ermöglichen, wird in der Schulung die Implementierung der wichtigsten Data Vault-Modellierungskonzepte einschließlich ihrer verschiedenen Sonderfälle und Aspekte erörtert. Die Mechanismen zur Bereitstellung von Informationen für die Nutzung durch Fachanwender (zum Beispiel “Marts") werden ebenfalls erläutert - einschließlich der Details, wie die "richtigen" Informationen durch die Implementierung von Geschäftslogik und die Verwaltung mehrerer Zeitlinien für die Berichterstattung ("bitemporal") erzeugt werden können.

Die Schulung stellt Werkzeuge und Konfigurationen zur Verfügung, mit denen Sie Ihre eigene Entwicklung automatisieren können - oder Sie lernen die Ansätze kommerzieller Standardsoftware kennen, damit diese voll genutzt werden können.

Trainingsinhalte und Zeitplan

Tag 1

  • Grundlagen des modellgetriebenn Designs
  • Lösungsvoraussetzungen und wesentliche Komponenten
  • Lösungsarchitektur
  • Data Staging-Konzepte
  • Untersuchung der Quell- und Zielmodelle
  • Einführung in Design-Metadaten
  • Core Business Concept-Muster

Tag 2

  • Natural Business Relationships-Muster
  • Kontext-Muster
  • Historisierung
  • Technische Überlegungen
  • Zeitplanung, Workflows und Parallelität
  • Kontinuierliches Laden
  • DevOps und Versionierung

Tag 3

  • Temporality-Konzepte
  • Datenbereitstellung - Dimensionen und Fakten
  • Anwendung der Geschäftslogik
  • Vervollständigung der Lösung

Optionale Abendveranstaltung

  • Der Kurs beinhaltet ein oder zwei optionale Abendveranstaltungen, in denen jeder Interessierte mit einem Teil der Technologie arbeiten, eigene Muster erstellen oder einen einfachen Codegenerator schreiben kann.
  • Jede Abendsitzung dauert in der Regel 1-2 Stunden (je nach Interesse) und findet in der Regel zwischen 18:00 Uhr und 20:00 Uhr statt.
  • Welchen Workshop wir machen, hängt von den Interessen der Gruppe ab. Dies wird am ersten Tag der Schulung besprochen und vereinbart.
  • Die Voraussetzung für die optionalen praktischen Sitzungen ist eine vorinstallierte lokale Umgebung mit SQL Server 2016 oder 2019, Integration Services (SSIS) und Visual Studio 2019 und/oder 2022 mit SQL Server Data Tools (SSDT). Dies deckt die meisten Szenarien mit minimaler zusätzlicher Installation ab.


Overview PDF

Termine & Preise

Hannover
  • Geplant für den
    28. bis 30 August 2023
  • EUR 3.451 inkl. Mwst.
EUR 2.900 zzgl. Mwst.
Inhouse
Preis auf Anfrage

Termine & Anmeldung





Gerne stehen wir bei weiteren Fragen zu Ihrer Verfügung:

info@dwhpatterns.com


Copyright: Roelant Vos

Impressum | Datenschutz | Bildquellen