De Dataloog - Text Mining in de zorg

Tijdens deze aflevering spreekt De Dataloog met Ruth Stoffels, Data Analist OLVG, en Ivo Everts, Data Driver bij GoDataDriven. Zij hebben samen een text mining project opgestart voor het OLVG om voorspellingen te doen over ongeplande heropnames van patiënten.

Voordat ze daar dieper op ingaan, wordt eerst de term text mining besproken, want wat is het en hoe duid je het in het Nederlands? Volgens Everts zijn er drie historische momenten in de geschiedenis van text mining. Het begon bij de zogenaamde ‘bag of words’. “Als er in twee documenten dezelfde woorden voorkomen, of als ze genoeg op elkaar lijken, dan kan de machine ervan uitgaan dat het dezelfde woorden zijn.” Het woord is dan contextloos. Een grote stap vooruit was het ‘word to fac’. Een woord wordt dan vertaald in embedding, een lijst getallen die het woord representeert. Een derde stap was de ontwikkeling van BERT (bi-directional encoding representations from transformers). Dit is volgens Everts het ‘image net moment’ van de natuurlijke taalverwerking.

Text mining bij OLVG

Opgenomen worden in het ziekenhuis is voor de meeste mensen heel vervelend, maar wanneer je na ontslag nog een keer terug moet komen is het helemaal vervelend. Daar gaat het project van Stoffels en Everts over: het voorspellen van heropnames op basis van gegevens van de eerste opname. Stoffels: “Zo’n 10% komt binnen 30 dagen na ontslag terug. Deze terugkomst is meestal gelieerd aan de eerste opname. Zaken als de thuissituatie en taalbarrières – die ervoor zorgen dat de artsen niet goed begrepen worden – kunnen bijdragen aan het helpen voorspellen van terugkomst.” Echter is deze data niet discreet vastgelegd in digitale dossiers, maar door artsen in notities. Stoffels kwam toen op het idee om deze te digitaliseren en mee te nemen in het voorspellingsmodel.

Haken en ogen

Zodoende hebben Stoffels en Everts een samenwerking opgezet met een aantal masterstudenten van de Universiteit van Amsterdam. Daar zaten natuurlijk wel wat haken en ogen aan, want deze informatie van de artsen is vertrouwelijk. Er heeft toen een vertaalslag plaatsgevonden waardoor niet de letter van de wet maar de gedachte erachter werd doorgegeven aan de studenten om de analyses mee te doen. Daardoor verloren ze echter wel veel informatie. Stoffels: “Je bent dus echt alleen maar getallen aan het analyseren, de terugvertaling moet nog worden gemaakt.” Om die terugvertaling mogelijk te maken, is er door Everts een woordenboek opgesteld. Everts: “In theorie kunnen we nu zien welk woord wat voor invloed had op de classificatie.”

Hoe de data verwerkt wordt, welke modellen er naast BERT worden gebruikt en hoe nauwkeurig een voorspelling inmiddels is, dat hoor je allemaal terug in deze aflevering van De Dataloog!

Klik hier om de andere afleveringen te beluisteren.

Big Data Expo Dataloog OLVG Text mining BERT

De Dataloog - Text Mining in de zorg

Reactie toevoegen

Over ons

Informatie

Meer beurzen

Contact