7. Algemeen besluit


Data mining is het gebruik van intelligente hulpmiddelen voor data analyse om te zoeken naar impliciete informatie in grote databases, met de bedoeling kennis te ontdekken die kan bijdragen tot een beter begrip van het probleemdomein.

Data mining berust op de veronderstelling dat er in grote (bedrijfs)databases patronen verborgen zitten en dat deze patronen, aangezien de database een registratie is van een bepaald probleemdomein of omgeving, veralgemeend kunnen worden naar die omgeving. Het eerste deel van die veronderstelling is moeilijk te controleren maar blijkt, afgaand op beschikbare literatuur, waar te zijn Hierbij kunnen we ons echter wel de vraag stellen of er even vlot papers en rapporten geschreven worden wanneer een data miningproject geen resultaat boekte.

Het tweede deel van de veronderstelling is beter gedocumenteerd. De controle naar de veralgemenende kracht van de ontdekte patronen is bij veel data miningsystemen ingebouwd onder de vorm van een maximale complexiteit (cfr. Ockham’s razor) en een validatie met behulp van een testset. In hoofdstuk 3 en hoofdstuk 6 kwamen vooral de grootte van de trainingsset en de kwaliteit van de trainingsgegevens naar voor als doorslaggevende factoren voor de veralgemenende kracht van de ontdekte patronen of modellen.

Er zitten dus patronen in grote databases en deze patronen kunnen veralgemeend worden naar het probleemdomein, d.w.z. dat we ze kunnen gebruiken voor voorspellingen of classificaties. Maar hoe vinden we nu die patronen?

Om patronen te vinden in een database moeten we gebruik maken van intelligente hulpmiddelen voor gegevensanalyse. Dergelijke intelligente hulpmiddelen combineren de voordelen van machine learningtechnieken met statistiek en databasetechnologie. Machine learningtechnieken of -algoritmes vormen de kern van een data miningsysteem maar, zoals bleek in hoofdstuk 1, zijn deze bedoeld voor relatief stabiele, beschermde omgevingen, waar de te ontdekken patronen deterministisch zijn. Ze zijn dus niet geschikt voor de complexe, snel veranderende en onzekere omgeving waarin een data miningsysteem moet werken.

Een eerste noodzakelijke aanpassing is dat de algoritmes beter gebruik moeten maken van domeinkennis. De huidige technologie, zowel hardware (processoren, geheugens, gegevensopslag) als software (DBMS’en en leeralgoritmes), laat immers niet toe een volledig, exhaustief onderzoek van de zoekruimte te verrichten. Domeinkennis moet het algoritme o.a. helpen bij de keuze van generalisatie- en specialisatieoperaties, bij de selectie van de initiŽle beschrijving en bij de evaluatie van de ontdekte patronen. Meer details hierover zijn te vinden in hoofdstuk 3.

Een tweede belangrijke uitbreiding, beschreven in hoofdstuk 4, heeft te maken met het feit dat patronen in een data miningomgeving complexer zijn dan in een machine learningomgeving. Een data miningsysteem moet dus over een krachtig representatieformalisme beschikken. Nadeel hiervan is wel dat een krachtiger representatieformalisme nadelig is voor de efficiŽntie van het systeem, er zullen immers meer patronen onderzocht en geŽvalueerd moeten worden. De gebruiker moet hier dus volledigheid afwegen tegen efficiŽntie.

Een laatste grote aanpassing van machine learningsystemen is het combineren van het leeralgoritme met statistiek. In hoofdstuk 4 kwamen we eveneens tot de conclusie dat, aangezien de gegevens waarover een data miningalgoritme beschikt bijna altijd onvolledig, onnauwkeurig en dynamisch zijn, er zeer weinig deterministische patronen ontdekt kunnen worden. Een data miningsysteem moet dus in staat zijn ook waarschijnlijkheidsregels te ontdekken.

Zoals bleek in hoofdstuk 5, is het niet zo heel moeilijk om een machine learningalgoritme om te bouwen tot een data miningalgoritme. Het ontdekken van waarschijnlijkheidsregels wordt meestal geÔmplementeerd door in te spelen op het stopcriterium. Data miningsystemen maken ook steeds meer gebruik van krachtige, maar tegelijk ook meer efficiŽnte representatieformalismen zoals bijvoorbeeld frames. Bovendien wordt er ook veel aandacht besteed aan een betere integratie van domeinkennis en leeralgoritmes. De meeste leeralgoritmes kunnen bijvoorbeeld rekening houden met lijsten en rangschikkingen van relevante velden, domeinconcepten en concepthiŽrarchieŽn.

In hoofdstuk 3 werden ook enkele nadelen van het gebruik van domeinkennis en sturing door de gebruiker beschreven:

Deze nadelen vormen momenteel een noodzakelijk kwaad maar met de opkomst van snellere processoren, parallelle computers, grotere geheugens en slimmere, efficiŽntere algoritmes zal de afhankelijkheid van domeinkennis sterk afnemen. Op de lange termijn zal, volgens mij, de ‘bootstrapping approach’ uitgebreid worden naar het volledige systeem. Data miningsystemen zullen niet alleen domeinkennis opnieuw kunnen ontdekken, maar zullen zichzelf kunnen parametriseren. Ze zullen zelf verschillende technieken en parameterinstellingen kunnen uitproberen om zo tot een optimaal resultaat te komen. In de tussentijd worden de bovenvermelde nadelen omzeild door ‘data mining service providers’ die applicatiespecifieke pakketten ontwikkelen en geÔntegreerde pakketten met software, hardware, consultancy en opleidingen leveren.

Algemeen kunnen we concluderen dat data mining, ook al is het een techniek die pas in de kinderschoenen staat, uitzicht biedt op zeer hoge payoffs.

Toch is het ideale, veelzijdige en volledig geautomatiseerde data miningsysteem nog veraf.

En om te besluiten zou ik ook nog twee minder aangename kanten van data mining willen vermelden die weinig aan bod komen in de literatuur maar die in de toekomst beter onderzocht zullen moeten worden.