Verifying data across heterogeneous databases

THU 12:00 - 12:30

Zaal 4

Datafold

Datafold recently published an opensource project addressing a very common need in Analytics: making sure that data transferred to a data warehouse matches with the source database. This project was built with performance in mind, it can diff tables of 25 million rows in about 10 seconds and 1 billion rows in 2 minutes. In this lecture I'm going to talk about the use cases, explain the basic algorithm and show you how you can integrate this library in your own ETL or validation workflow.

  • Theme
    Analytics

    Het is niet nieuw als we zeggen dat ieder bedrijf beschikt over een enorme bulk aan informatie. Om waarde te kunnen creĆ«ren aan data dient het proces van ontdekken, interpreteren en communiceren van significante patronen doorlopen te worden. Het zijn de organisaties die erin slagen om gebruikers op diverse niveaus deze data te laten analyseren die hun kansen grijpen. Begrijpelijke analysetools zorgen voor begrip tussen de ene en de andere medewerker, ongeacht het niveau. Maar vermoedelijk nog belangrijker: de juiste analyse leidt tot slimme campagnes en bevlogen medewerkers, zaken die gericht zijn in te zetten voor het behouden van klanten.