Verifying data across heterogeneous databases
DON 12:00 - 12:30
Zaal 4

Datafold recently published an opensource project addressing a very common need in Analytics: making sure that data transferred to a data warehouse matches with the source database. This project was built with performance in mind, it can diff tables of 25 million rows in about 10 seconds and 1 billion rows in 2 minutes. In this lecture I'm going to talk about the use cases, explain the basic algorithm and show you how you can integrate this library in your own ETL or validation workflow.
-
Thema
Analytics
Het is niet nieuw als we zeggen dat ieder bedrijf beschikt over een enorme bulk aan informatie. Om waarde te kunnen creëren aan data dient het proces van ontdekken, interpreteren en communiceren van significante patronen doorlopen te worden. Het zijn de organisaties die erin slagen om gebruikers op diverse niveaus deze data te laten analyseren die hun kansen grijpen. Begrijpelijke analysetools zorgen voor begrip tussen de ene en de andere medewerker, ongeacht het niveau. Maar vermoedelijk nog belangrijker: de juiste analyse leidt tot slimme campagnes en bevlogen medewerkers, zaken die gericht zijn in te zetten voor het behouden van klanten.