Text-Mining: Big Data Analytics voor ongestructureerde data

WED 10:30 - 11:00

Lecture hall 1

Het vakgebied van data mining is bekender dan dat van text mining. Een goed voorbeeld van data mining is het analyseren van transactie gegevens die in relationele databases zitten. Denk aan creditcard betalingen of pin-transacties. 

Echter, vooral in het juridische domein is meer dan 90% van alle informatie ongestructureerde informatie. Slechts een beperkte hoeveelheid informatie is opgeslagen in een gestructureerd formaat in een database. De meeste informatie waar we dagelijks mee werken staat in tekst documenten, e-mails, of in multimediale (spraak, video, en foto’s) bestanden. Daarin zoeken of analyses maken met database- of data mining technieken is onmogelijk. Deze werken namelijk alleen op gestructureerde informatie. 

Het is makkelijker om gestructureerde informatie te doorzoeken, te beheren, te organiseren, te delen en er rapportages mee te maken. Niet alleen voor mensen, maar ook voor computers. Vandaar de wens om ongestructureerde informatie te structureren waarna zowel mensen als computers er beter mee om kunnen gaan èn omdat we dan ook ons bekende technieken en methodieken kunnen gebruiken.

Daarom richt het vakgebied van de text mining zich op het ontwikkelen van diverse geavanceerde wiskundige-, statistische-, taalkundige- en patroonherkenning technieken waarmee het mogelijk is om ongestructureerde informatie automatisch te analyseren alsmede om hoge kwaliteit en relevante gegevens te extraheren en de tekst in zijn geheel daardoor beter doorzoekbaar te maken.

Hoge kwaliteit refereert hier in het bijzonder aan de combinatie van relevantie (oftewel: de speld in de hooiberg vinden) en het verkrijgen van nieuwe interessante inzichten.

Met behulp van text mining technieken kunnen we in plaats van zoeken op woorden, zoeken op taalkundige patronen van woorden, dit is dus zoeken en analyseren op een hoger niveau!

Deze nieuwe technieken hebben al een ongelooflijke impact op juridisch gebied: denk aan het voorbereiden van M&A trajecten, compliance met de AVG-GDPR en het uitvoeren van grote gegevens onderzoeken voor rechtszaken, arbitrage, verzoeken van toezichthouders of andere juridische domeinen. 

Leer in deze lezing hoe text mining deze toch conservatieve vakgebieden ook in snel tempo veranderd en hoe met  behulp van slimme technologie beter, sneller en efficiënter gewerkt kan worden en veel van het saaie en eentonige werk naar het verleden verwezen kan worden.