Submitted by: Big Data Expo

De Machine Learning lifecycle – Cubonacci

Een ML project wordt nog teveel gezien als een wiskundig probleem, terwijl de daadwerkelijke modellen maar een klein onderdeel van een geheel project of product zijn. Jan van der Vegt van Cubonacci vertelt over de gehele machine learning lifecycle, die begint bij het begin van een project, maar veel verder gaat dan een initieel model: van experimenteren tot monitoring en van het regelmatig hertrainen van modellen tot het automatisch schalen van de infrastructuur aan de achterkant.

Foutmeldingen

Volgens Van der Vegt zijn er een aantal issues waar je tegenaan loopt als je een machine learning model in productie zet en in de loop van de tijd ziet veranderen. Van Der Vegt: “Een veel voorkomend probleem is dat de trainingset waar je AI op heeft geleerd, niet helemaal in de praktijk blijkt te werken. Zodra er bijvoorbeeld een kolom mist in de productie die wel in de trainingset zat, krijg je een foutmelding. Dat is nog niet perse een probleem, want je wil dat soort dingen genotificeerd hebben. Maar als er onderliggende data verandert van betekenis, dan gaat er wel iets fout. Veel dingen draaien op forecasting, waardoor je dus later pas ziet wat de problemen zijn. Dat kan je wel real time monitoren, maar dat is echt maatwerk en vergt een andere skill set dan machine learning skills.”

AI for AI

Data is variabel en data verandert ook heel snel. Een ML model moet daarom telkens hertraind worden. Daar zijn verschillende opties voor, wat vaak neerkomt op manueel maatwerk. Modellen handmatig trainen kan daarnaast ook nog eens heel duur zijn. Een oplossing daarvoor is het zogenaamde ‘AI for AI’: een AI dat een andere AI kan leren en trainen. 

Dat is heel waardevol, want het vertrouwen van de gebruiker van deze modellen is al snel geschaad. Van Der Vegt: “Op dat moment wil de gebruiker niet meer met deze data modellen aan de slag. Als je dit echter voor kan zijn, of daar snel op kan reageren, dan kan je de business veel sneller inlichten en ze een beter model leveren.”

Stand van zaken in NL

Volgens Van Der Vegt is Nederland nog niet heel ver in het gebruik van ML en data modellen: “Ik heb het gevoel dat we hier nog niet heel volwassen in zijn. Veel bedrijven kijken toch niet echt vanuit use cases, maar hebben meer het idee van ‘we moeten hier ook iets mee.’ Er worden veel vragen gesteld vanuit de business die niet altijd realistisch zijn. En er wordt teveel gekeken naar data science als een wiskundig probleem, waardoor er gezocht gaat worden naar wiskundigen die een statistische PhD. hebben gedaan. Dan kom je er toch achter dat er soms weinig waarde uit gehaald kan worden, omdat er niet gekeken wordt naar het daadwerkelijke gebruik.” 

De toegevoegde waarde van het model moet dus volgens Van Der Vegt altijd bij de business case liggen. Voor meer interessante tips over data science en machine learning, luister je de hele podcast hierboven!

 

Data Science Big Data Machine Learning AI Big Data Expo Dataloog

Add new comment