Data mining: zoeken naar impliciete informatie in databases
Inleiding


De hoeveelheid gegevens die wereldwijd in databases is opgeslagen neemt zienderogen toe met als gevolg dat ondernemingen, onderzoeksinstellingen en overheidsinstanties geconfronteerd worden met een ‘data overload’. Dit betekent dat men over meer gegevens beschikt dan dat men met de beschikbare mankracht en technologie kan analyseren. Om het hoofd te kunnen bieden aan deze stormvloed van gegevens moet op zoek gegaan worden naar nieuwe, efficiŽntere manieren om aan gegevensanalyse te doen. Data mining of knowledge discovery in databases is zo een nieuwe techniek.

Met behulp van data mining kan een gegevensanalist, domeinexpert of eindgebruiker op zoek gaan naar patronen die verborgen zitten in de enorme, onhandelbare databases waarmee hij in de praktijk geconfronteerd wordt. Dergelijke verborgen of impliciete patronen kunnen op allerlei manieren nuttig zijn.

Vb.
Ondernemingen die beschikken over karakteristieke patronen of profielen van hun klanten kunnen deze gebruiken om beter in te spelen op de wensen en behoeften van die klanten en zo een competitief voordeel halen ten opzichte van hun concurrenten.

Vb.
Overheidsinstanties kunnen patronen ontdekken die nuttig zijn bij het bestrijden van belastingfraude en het identificeren van witwasoperaties.

Vb.
Onderzoeksinstellingen kunnen data mining aanwenden om bijvoorbeeld verbanden te ontdekken tussen patiŽntgegevens en bepaalde ziektes en zo risicogroepen identificeren of zelfs nieuwe medicijnen ontwikkelen.

De basistechniek van data mining is machine learning. Machine learning is het deel van AI-onderzoek naar het geautomatiseerd afleiden en representeren van domeinmodellen. De toepassingen waarvoor machine learning gebruikt wordt zijn echter beperkt in omvang en bovendien zijn de gegevens waarover een machine learningsysteem beschikt altijd van zeer goede kwaliteit. Machine learningsystemen kunnen dus niet zomaar ingeschakeld worden voor de analyse van grote real-world databases. Het doel van data miningonderzoek is de creatie van een systeem dat de zelflerende eigenschappen van machine learning combineert met databasetechnologie en statistiek.

Het data miningonderzoek is een onderzoeksgebied met uitzicht op zeer grote voordelen. Een illustratie hiervan is de ‘One-query-Theory’ waarvan sprake is in (52):

‘there exists in every shop one query that - if you find out what it is and implement the knowledge derived from it - will pay the entire data-warehousing and data-mining system’

Afgaande op de huidige belangstelling voor data mining en het aantal papers en artikels die de laatste tijd zelfs in de meer populaire tijdschriften verschijnen, lijkt data mining meer en meer de weg te vinden van experimenten en onderzoeken naar praktijktoepassingen. Michie (1990) lijkt gelijk gehad te hebben:

‘the next area that is going to explode is the use of machine learning tools as a component of large-scale data analysis’ (10)

Bovendien kan, gezien het groeiend besef en de verwachting dat de massa beschikbare gegevens een waardevolle resource kan zijn en de toenemende noodzaak om in een competitieve omgeving het verschil te kunnen maken met de concurrentie, een flinke opstoot verwacht worden in de belangstelling voor en het gebruik van data mining.

Afbakening van het onderwerp

Aangezien data mining een enorm uitgebreid onderzoeksgebied is, is het onmogelijk om binnen het bestek van mijn eindverhandeling alle aspecten te belichten. Daarom heb ik mij beperkt tot het:

Een eerste reden voor deze keuze is het feit dat data mining een nieuwe techniek is die nog maar weinig bekendheid geniet. Daarom vond ik het nodig vooral aandacht te besteden aan de basisaspecten van data mining.

Een tweede beperking is het gevolg van de aard van de beschikbare informatie. De meeste documentatie in verband met data mining is zeer technisch en er is zeer weinig informatie beschikbaar over de praktijkaspecten van data mining. Daarom was het niet mogelijk veel aandacht aan dit deel van het onderwerp te besteden. Het gebrek aan praktijkinformatie is volgens mij te wijten aan het feit dat data mining een zeer nieuwe techniek is. Er is dus maar weinig praktijkervaring beschikbaar en bovendien houden bedrijven die wel over praktijkervaring beschikken, deze meestal angstvallig geheim.

Een bijkomende begrenzing is dat ik data mining in mijn eindverhandeling vooral vanuit een AI-standpunt bekijk. De reden hiervoor is dat het merendeel van mijn documentatie dateert uit de periode ‘90-’94. In deze periode was er nog geen sprake van de huidige ‘hype’ rond data mining en werd data mining nog strikt geÔnterpreteerd als ‘knowledge discovery in databases’. Meer recente technieken zoals OLAP, MDA en Query-and-report tools zijn volgens deze interpretatie geen data mining tools.

Kort overzicht van de hoofdstukken

In het eerste hoofdstuk wordt data mining gedefinieerd en bespreek ik de verschillende deelaspecten van die definitie. Hier wordt ook reeds een eerste keer aangestipt dat data mining een combinatie is van verschillende bestaande en beproefde technieken.

Het tweede hoofdstuk moet de lezer een idee geven van de enorme variŽteit aan toepassingsmogelijkheden van data mining.

Hoofdstuk 3 handelt over de kern van een data miningsysteem: het knowledge discoveryalgoritme of data miningalgoritme. Hierbij wordt dieper ingegaan op:

Machine learningalgoritmes zijn niet onmiddellijk toepasbaar op bedrijfsdatabases en real-world problemen. Eerst en vooral zijn de patronen in een bedrijfsomgeving of in de werkelijke wereld vaak veel complexer dan in een machine learningomgeving. Dit betekent dat een data miningsysteem veel meer verschillende en complexere patronen moet kunnen ontdekken en weergeven dan een machine learningsysteem. Bovendien is een data miningomgeving ook veel vijandiger dan een machine learningomgeving. Een data miningsysteem wordt geconfronteerd met onvolledige, onnauwkeurige, foute en zelfs sterk veranderlijke gegevens. Data miningsystemen zullen dus gebruik moeten maken van een krachtiger representatieformalisme en zullen aangepast moeten worden om in een onzekere omgeving te werken. Over deze uitbreidingen en aanpassingen handelt hoofdstuk 4.

In hoofdstuk 5 stel ik enkele veel gebruikte data miningtechnieken voor. Hierbij is het vooral de bedoeling te illusteren hoe de verschillende manieren om aan data mining te doen, precies werken en hoe ze de aanpassingen gesuggereerd in hoofdstuk 4 in praktijk omzetten.

Hoofdstuk 6 tenslotte, gaat kort in op een aantal praktijkaspecten van een data miningproject, enkele nieuwe informaticatechnieken die operationele data miningtoepassingen ondersteunen en efficiŽnter maken en worden de voor- en nadelen van enkele types data miningpakketten geschetst.