De data mesh: het hart van een data gedreven organisatie

Het is misschien wel een van de meest gehoorde termen binnen organisaties die data gedreven willen worden: de data mesh. Het klinkt ingewikkeld en complex. Maar is het dat ook? In dit blog geven wij antwoord op wat een data mesh is, waar het uit bestaat en hoe een data mesh het hart vormt van een data gedreven organisatie.

Een data mesh is een ontwerp voor bedrijven om technologie zodanig in te zetten dat op een gedecentraliseerde manier afdelingen, of ‘domeinen’, toegang kan worden verleend tot data, die zij vervolgens omzetten in ‘Dataproducten’ zonder hiervoor afhankelijk te zijn van andere afdelingen binnen de organisatie. Dit zorgt voor grotere mate van flexibiliteit dan het geval is wanneer er gebruik gemaakt wordt van een Data Lake of Data Warehouse.

Een data mesh bestaat uit een aantal vaste onderdelen. Deze onderdelen zijn de volgende:

Een gedecentraliseerde governance
Selfservice tooling
Een centrale product catalogus
Dataproducten
Een centrale data catalogus
Data connectoren
Databronnen en -omgevingen

Deze onderdelen zijn op hun beurt weer onder te verdelen in verschillende lagen. De onderdelen van de data mesh zullen hieronder per laag worden beschreven.

Figuur 1: onderdelen van de data mesh per laag

Figuur 1: onderdelen van de data mesh per laag

Decentrale data governance & -eigenaarschap
Bij een data mesh is het eigendom van data gedecentraliseerd en in handen van verschillende teams, afdelingen of domeinen die elk een of meerdere domeinen beheren. Zij zijn verantwoordelijk voor de continue beheer en ontwikkeling van de data binnen hun domein(en). Om de data mesh te kunnen laten werken is een organisatiemodel voor data governance en -eigenaarschap nodig dat aansluit bij het gedecentraliseerde karakter van een data mesh. Het zogenaamde “federale model” voor data governance past dan ook het beste binnen het data mesh concept. Dit omdat in de integratie laag (zie ook verder in het artikel) van de mesh via de data connectoren en registratie in de data catalogus andere afdelingen wel toegang krijgen tot de data van andere afdelingen als deze hiervoor akkoord geven.

Dataproducten laag

De dataproducten laag bevat de dataproduct catalogus die zorgt voor een centraal overzicht van alle beschikbare dataproducten in de organisatie, selfservice tooling die het mogelijk maakt dataproducten te ontwikkelen en te onderhouden en de dataproducten die gebaseerd zijn op de geïntegreerde data.

Dataproducten: om de volledige potentie van data te benutten en business waarde te creëren, worden dataproducten (bijv. dashboards, rapportages en analyses) ontwikkeld en onderhouden. Deze dataproducten bestaan uit een combinatie van op zichzelf staande, gestandaardiseerde datasets en relevante metadata afkomstig uit verschillende bronnen.
Dataproduct catalogus: de centrale product catalogus geeft inzicht in welke dataproducten beschikbaar zijn en stimuleert het hergebruik van deze producten.
Selfservice tooling: om gebruikers uit de business in staat te stellen om nieuwe dataproducten samen te stellen hebben zij gereedschap nodig dat dit ondersteunt. Selfservice tooling maakt het mogelijk voor eindgebruikers om dit te doen.

Integratie laag

De integratie laag bevat de connectoren die nodig zijn om de verschillende data omgevingen met elkaar te verbinden en de data catalogus ten behoeve van standaardisering van terminologie. De verbinding werkt twee kanten op: richting de dataproducten laag zorgt de verbinding voor integratie en naar de data laag zorgt de verbinding voor standaardisering van terminologie en definities.

Centrale data catalogus: de centrale data catalogus zorgt voor eenduidige definities tussen verschillende databronnen. Hierdoor wordt het mogelijk gemaakt om dataproducten te ontwikkelen met data afkomstig uit verschillende bronnen.
Data connectoren: dataconnectoren maakt dat data uit verschillende bronnen aan elkaar gekoppeld kan worden om zo te komen tot dataproducten.

Data laag

De data laag bevat de verschillende data omgevingen (cloud, on-premise en/of hybride). Elke omgeving bevat een of meerdere databronnen (databases, data lakes, etc.)

Databronnen en -omgevingen: de verschillende databronnen (bijv. databases, datalakes, etc.) die zich in verschillende (cloud) omgevingen bevinden vormen de bron voor de verschillende dataproducten.
Ondersteunende data-infrastructuur: strikt genomen is de ondersteunende infrastructuur wellicht geen onderdeel van de data mesh maar is wel kritisch voor het bestaan van de data mesh omdat alles hierop draait.

Als gevolg van het feit dat eindgebruikers door de data mesh zelfstandig dataproducten kunnen ontwikkelen worden organisaties in staat gesteld om sneller en effectiever te werken. Er is immers geen tussenpersoon meer nodig om deze producten te ontwikkelen. Deze snellere en effectievere manier van werken maakt dat organisaties beter in kunnen spelen op vragen in de markt en sneller antwoorden kunnen geven op vragen die spelen binnen de organisatie.

In deze blog beschreven we dat de data mesh organisaties op een gedecentraliseerde manier toegang te geven tot de data die zij bezit op een manier die eindgebruikers in staat stelt zelf waarde uit de bestaande data te halen Zonder hierbij afhankelijk te zijn van een IT-afdeling. Door de data die beschikbaar is te verzamelen in een data catalogus en deze handig met elkaar te verbinden door middel van dataconnectoren komen eindgebruikers zo zelfstandig tot dataproducten. Daarmee worden organisaties in staat gesteld om snel en effectief nieuwe datadiensten te ontwikkelen en deze ook te gebruiken om hun doelen te bereiken.

Wilt u meer weten over wat een data mesh voor uw organisatie kan betekenen of hoe u een data mesh het beste kunt inrichten? Neem dan gerust contact met ons op!

De data mesh: het hart van een data gedreven organisatie

Reactie toevoegen

Over ons

Informatie

Meer beurzen

Contact