6. Data mining in de praktijk


In dit hoofdstuk ga ik dieper in op de voorbereidende en organisatorische aspecten van data mining. Aan deze aspecten wordt in de literatuur zeer weinig aandacht besteed en het is duidelijk dat er nog maar weinig werk is gemaakt van een goed uitgewerkte methodiek. De enige publikatie waarin expliciet geprobeerd wordt enkele praktisch richtlijnen op te stellen is (86). De belangrijkste elementen uit deze richtlijnen heb ik hier samengebracht met enkele aandachtspunten en opmerkingen van andere auteurs.

Het tweede deel van dit hoofdstuk handelt over de manier waarop enkele nieuwe technieken zoals data warehousing en parallelle computers een bijdrage kunnen leveren aan een succesvol data miningsysteem en in deel drie vergelijk ik enkele types van data mining tools.


6.1. Data mining methodiek

Bij het gebruik van een nieuwe technologie blijven de oude standaarden voor het bouwen van goede systemen geldig (3).

De meeste teksten beschrijven vrij gedetailleerd welke technieken gebruikt werden en hoe deze aangepast en ingesteld werden voor een specifieke probleem. Veel minder duidelijk of gedetailleerd is men echter wanneer het gaat over het effectief en efficiŽnt implementeren van de ontdekte patronen. Nochtans stelt Shawki Aziz in (80) dat het succes van een data miningsysteem en het feit of een data miningproject effectief iets toevoegt aan de bestaande bedrijfsprocessen, steeds minder te maken heeft met de gekozen techniek en steeds meer met de kwaliteit van de gegevens en de organisatorische inbedding.

6.1.1. Identificatie van interessante toepassingen

Zoals bleek in Hoofdstuk 2, is het aantal toepassingsmogelijkheden van data mining indrukwekkend. Omdat data mining een vrij jonge techniek is, moet er extra aandacht besteed worden aan de keuze van toepassing, vooral wanneer het de 1e keer is dat in de organisatie aan data mining wordt gedaan. Bovendien zullen toepassingen met AI en geautomatiseerd leren waarschijnlijk argwanend bekeken worden. Daarom raadt men in (86) aan voor de eerste kennismaking een probleem te kiezen waarvoor reeds documentatie bestaat.

Frawley et al. stellen in (10) de volgende criteria of aandachtspunten voor:

Er moet nood zijn aan ontdekking

Er moeten voldoende en betrouwbare gegevens beschikbaar zijn

Het data miningproject moet voldoende steun genieten in de organisatie

Er moet een significante maar onvolledige hoeveelheid domeinkennis beschikbaar zijn

In (86) geeft men een aantal tips en richtlijnen voor de ontwikkeling van neurale netwerken. Deze suggesties gelden echter ook grotendeels voor andere vormen van inductief leren.

Maak een inventarisatie op van bedrijfs- en beslissingsprocessen en stel daarbij de volgende vragen:

Maak een voorlopige beoordeling van de haalbaarheid van de geselecteerde toepassing en hou hierbij rekening met de volgende punten:

Vb.

Voor toepassingen die kritiek zijn voor de veiligheid en het voortbestaan van de onderneming is het vereist dat de toekomstige gebruiker voldoende inzicht in de ontdekte kennis kan verwerven.

Zijn er praktische problemen?

Vb.

6.1.2. Haalbaarheidsstudie

Nadat enkele interessante toepassingen geselecteerd zijn, moet gekeken worden hoe haalbaar ze zijn.

Technische haalbaarheid

Onderzoek in welke omgeving je toepassing moet werken en bekijk de eventuele gevolgen hiervan voor het ontwerp.

Hou rekening met de complexiteit van het probleem en de invloed hiervan op de performantie van het systeem. Enkele factoren die bijdragen tot de complexiteit zijn:

Een voldoende hoeveelheid trainingsvoorbeelden is essentieel voor een succesvol data miningsysteem.

Het bereik van de gegevens moet representatief zijn voor de voorbeelden waarmee het systeem in de praktijk geconfronteerd zal worden. De trainingsset moet dus zeker ook extreme en uitzonderlijke gevallen bevatten.

De kostprijs van het verzamelen en voorbereiden van de gegevens moet aanvaardbaar zijn.

Analyse van de kosten, opbrengsten en risico’s

Mogelijke voordelen zijn:

Met elk nieuw project, en zeker wanneer gebruik gemaakt wordt van een nieuwe technologie, gaan risico’s gepaard:

6.1.3. Verzamelen van de gegevens

Bij het verzamelen van de gegevens moeten de volgende factoren in het oog gehouden worden:

Bepalen van de vereiste attributen

Slechts een klein gedeelte van de gegevens die zijn opgeslagen in databases is relevant voor een bepaalde leertaak. Wanneer een data miningsysteem geconfronteerd wordt met te veel irrelevante attributen dan wordt het zoekproces nodeloos complex gemaakt. Wanneer een data miningsysteem daarentegen over onvoldoende relevante gegevens beschikt zullen de ontdekte patronen sterk waarschijnlijk zijn en zullen een aantal mogelijk interessante ontdekkingen a priori uitgesloten zijn.

Het selecteren van relevante attributen kan gebeuren door ťťn of meerdere domeinexpert(s). Deze expert(s) moeten niet weten op welke manier of waarom een attribuut relevant is, het ontdekken van de precieze invloed is de taak van het data miningsysteem.

Ook domeinkennis kan nuttige informatie bevatten:

Andere criteria zijn beschikbaarheid en kostprijs.

Vb.

Een data mining systeem kan een regel afleiden die stelt dat als test1 = A, de patiŽnt met 100 % zekerheid aan ziekte X lijdt. Wanneer echter de benodigde apparatuur voor die test niet beschikbaar of te duur is, is de regel niet nuttig.

Een andere mogelijkheid is dat gewoon alle beschikbare velden aan het algoritme gepresenteerd worden en dat het algoritme beslist welke attributen relevant zijn en welke niet. Nadeel hiervan is de combinatorische explosie, voordeel is dat het algoritme de zoekruimte onbevooroordeeld kan doorzoeken.

Bepalen van de benodigde gegevensbronnen

Eťnmaal bekend is welke de benodigde gegevens zijn, moet onderzocht worden waar ze opgeslagen zijn. De kostprijs, de moeilijkheidsgraad en duur van het verzamelen van de gegevens is afhankelijk van de bron van de gegevens.

Vb.

Papieren archiefgegevens moeten gescand of in het slechtste geval opnieuw ingevoerd worden.

Databasegegevens zijn zonder al te veel moeite beschikbaar met behulp van SQL-operatoren.

In dit verband wordt data mining de laatste tijd vaak samen vermeld met data warehousing. Op de voordelen van data warehousing voor data mining ga ik dieper in onder punt 6.2

Bepalen van het aantal trainingsvoorbeelden

Een data miningsysteem moet over een voldoende grote trainingsset beschikken om statistisch verantwoorde resultaten te bekomen. Experimenten hebben ook aangetoond dat de foutmarge afneemt wanneer de ontdekte patronen afgeleid zijn uit een grotere trainingsset.

 

In (62) werd een experiment uitgevoerd waarbij de invloed van de keuze van een trainingsset onderzocht werd. Dit leidde tot de volgende conclusies :

1. de foutmarge is het laagst wanneer een systeem getraind wordt op de volledige dataset

2. hoe meer gegevens gebruikt worden, hoe lager de foutmarge is

Jammer genoeg bestaan er geen exacte richtlijnen voor het bepalen van de optimale hoeveelheid trainingsvoorbeelden. Wel beschikken we over enkele vuistregels:

Vb.

3 attributen waarvan de attribuutdomeinen respectievelijk 14, 20 en 8 zijn.

Het gewenste aantal trainingsvoorbeelden is dan 14 x 20 x 8 = 2240.

Wanneer we beschikken over 8 variabelen die elk 10 waarden kunnen aannemen, loopt deze schatting op tot 100.000 trainingsvoorbeelden. Dit is een overschatting want niet alle mogelijke combinaties zullen voorkomen in het probleemdomein.

Documenteren van de manier waarop de gegevens verzameld werden.

De manier waarop de gegevens verzameld werden moet zo volledig mogelijk gedocumenteerd worden. Wanneer er zich later problemen voordoen met de gegevens kan men dan opzoeken waar het verkeerd gegaan is.

6.1.4. Gegevensvoorbereiding (pre-processing)

Pre-processing is de term die gebruikt wordt voor alle voorbereidende activiteiten op de gegevens.

Controleren van de geldigheid van de gegevens

Alle gegevens moeten binnen hun respectievelijke attribuutdomeinen liggen en de attribuutwaarden van een trainingsvoorbeeld moeten onderling consistent zijn. Wanneer de gegevens niet aan deze voorwaarden voldoen, moet gecontroleerd worden of er een patroon achter deze fouten zit.

Vb.

De meeste foutieve gegevens zijn op maandagochtend verzameld.

Beoordelen van de gegevensdistributie

De volgende punten moeten gecontroleerd worden:

Vb.

Werken met hoeveelheids- en kwaliteitsbeperkingen

De trainingsset en testset mogen enkel gegevens van voldoende kwaliteit bevatten. Het is echter mogelijk dat hierdoor onvoldoende gegevens beschikbaar zijn. In dat geval moet toch gebruik gemaakt worden van gegevens van een lagere kwaliteit en kunnen we ofwel de algoritmes robuuster maken ofwel de gegevens proberen corrigeren.

Verdelen van de gegevens in een trainingsset en een testset

De trainingsset moet voldoende gegevens bevatten en deze gegevens moeten over het volledige probleemdomein liggen. Er mag bovendien geen regel gebruikt worden om de dataset op te splitsen in een trainingsset en een testset omdat de gelijkenis tussen de trainingsset en de testset minimaal moet zijn. Om de resultaten op een kritische manier te kunnen testen, moeten de trainingsset en de testset op een willekeurige manier opgebouwd worden.

De testset moet niet enorm groot zijn. Belangrijker is de samenstelling van de testset. Wanneer het de bedoeling is dat een data miningsysteem in een omgeving met veel ruis, ontbrekende en foute gegevens, wordt ingezet, moet de testset eveneens ruis bevatten. Bovendien moet de testset ook uitzonderlijke gevallen bevatten zodat de grenzen van het data miningsysteem onderzocht kunnen worden.

Optimaliseren van de gegevens voor de specifieke leertaak

Pre-processing kan de inputgegevens optimaliseren met het oog op de specifieke leertaak.

Vb.

 

Figuur 27 Het transformeren van gegevens m.b.v. PCA

Bij het omzetten van tekstuele gegevens zoals bv. beroep, voornaam en postcode in numerieke gegevens moet men er wel rekening mee houden dat men de resulterend numerieke waarden niet met behulp van groter of kleiner dan mag evalueren. Postcodes moeten bijvoorbeeld op een zodanige manier omgezet worden dat gelijkaardige waarden slaan op geografisch naburige postcodes.

In (74) vermelden Refenes, Zapranis en Bentz de volgende pre-processing technieken voor neurale netwerken:

Natural language pre-processing

Veel diagnostische databases bevatten informatie in free-form tekstvelden. De kwaliteit van die tekstvelden is ver van optimaal omdat de degenen die de gegevens moeten invullen niet opgeleid zijn voor gegevensinvoer en bovendien constant onder druk staan. Enkele van de problemen die zich in dergelijke databases kunnen voordoen zijn spellingsfouten, typfouten, slecht geformuleerde zinnen en ad-hoc afkortingen. Dit heeft als gevolg dat diagnostische databases niet onmiddellijk als invoer voor een data miningsysteem kunnen worden gebruikt. Eerst moeten de free-form tekstvelden omgezet worden in foutloze of foutarme gestruktureerde velden.

Een voorbeeld van natural language pre-processing is te vinden in (60). De beschreven toepassing maakt gebruik van Lexfix, een woordenschatcorrectie- en standaardisatiesysteem, en TASLink, een natural language ontleder.

Lexfix splitst een tekststring op in individuele woorden, zoekt de individuele woorden op in een woordenlijst, markeert woorden die synoniem zijn met standaard sleutelwoorden, zoekt alle mogelijke uitbreidingen van afkortingen en correcties van spellingsfouten, zoekt voor alle kandidaatoplossingen naar vergelijkbare zinsdelen, kiest de meest waarschijnlijk oplossing en voegt standaard kenwoorden toe.

Lexfix slaagde erin 19,8% van de 233.738 woorden te vervangen, het aantal verschillende woorden te verminderen van 7382 tot 2604 en automatisch 4049 kenwoorden toe te voegen.

TASLink verwerkt de beschrijvingen en transformeert deze in een gestandaardiseerde semantisch representatie die als input kan dienen voor Inferule.

6.1.5. Een interactief en iteratief zoekproces

Het ontwikkelen van toepassingen op basis van inductieve technieken is een iteratief en interactief proces bestaande uit ontwerp, beoordeling en optimalisering, omdat de aard en de complexiteit van het probleem niet op voorhand bekend is en omdat de invloed van de drempelwaarden en parameters moeilijk te voorspellen is. Een deel van het systeemontwerp zal na een grondige analyse van het probleemdomein met een redelijke zekerheid kunnen worden bepaald. De rest moet overgelaten worden aan experimenten en interpretatie.

Figuur 28 Het interactieve en iteratieve zoekproces

Voordelen van interactieve inductie

Deze vorm van interactieve inductie transformeert K.E. in een taak die beter geschikt is voor de mens. De experts kunnen relevante kenmerken voor beslissingen identificeren en alternatieven suggereren zonder dat ze de precieze interacties moeten uitleggen. Het ontdekken van die interacties is dan de taak van de machine.

 

6.1.5.1. Ontwerpen van het systeem

Het ontwerpen van het systeem komt overeen met het bepalen van de kwaliteitsfunctie, het vastleggen van drempelwaarden, het instellen van stopcriteria en het toewijzen van kengetallen aan attributen of in het geval van neurale netwerken het kiezen van de optimale topologie, activeringsfunctie en maximale foutmarge.

Voor het bepalen van de optimale instellingen bestaan er geen pasklare formules. Dit betekent dat de gebruiker zelf moet experimenteren en op basis van domeinkennis, ervaring en enkele vuistregels zelf zal moeten proberen achterhalen welke waarden tot het beste resultaat zullen leiden.

6.1.5.2. Trainen en testen van het systeem

Het data miningsysteem wordt getraind en getest volgens de principes uitgelegd in de vorige hoofdstukken.

6.1.5.3. Optimaliseren van het systeem

Momenteel bestaan er voor de meeste technieken geen formules om de gepaste drempelwaarden te bepalen. De gebruiker zal dus de output moeten evalueren en interpreteren om zo de parameters van het systeem te kunnen verfijnen. Hierbij kan hij gebruik maken van domeinkennis en ervaring maar ook van enkele vuistregels.

De gebruiker kan in dit geval:

In (86) geeft men volgende probleem-oplossingverbanden aan voor neurale netwerken:

Tabel 29 Fout-oplossingsverbanden voor neurale netwerken

de foutmarge op de trainingsset blijft hoog een slechte keuze van de parameters het netwerk is niet complex genoeg en kan dus het verband niet leren de regularisatiefunctie is te streng de kwaliteit van trainingsset is onvoldoende een slechte keuze van netwerkarchitectuur

de foutmarge op de testset is hoog de complexiteit van het netwerk is te hoog de regularisatiefunctie is niet streng genoeg er zijn onvoldoende trainingsgegevens beschikbaar

de trainingssnelheid is laag er zijn teveel nutteloze inputs de programmacode moet geoptimaliseerd worden de netwerkarchitectuur is te complex

Opsplitsen van het probleem

In (6) geven Shortland en Scarfe twee voorbeelden waarbij na initiŽle experimenten en na overleg met domeinexperts de performantie van een data miningsysteem gevoelig werd verbeterd door het opsplitsen van het probleem in deelproblemen.

Na grondige analyse van de gegevens kan bijvoorbeeld vastgesteld worden dat 80% van de fouten zich in 4 componenten van een produkt voordoen. In dit geval kunnen we 2 toepassingen bouwen, een toepassing die bepaalt of de fout zich voorgedaan heeft in component 1, 2, 3, 4 of in een andere component en een toepassing die voor fouten in een andere component voorziet in een verdere opsplitsing.

Op deze manier kan men compactere, meer begrijpelijke modellen ontdekken en juistere voorspellingen verkrijgen.

6.1.6. Post-processing

Post-processing is het omzetten van de output van het data miningsysteem naar een vorm, geschikt voor de beoogde doelstellingen.

Dit kan het omzetten zijn van de ontdekte patronen in:

6.1.7. Implementatie

'IT has failed to move from data processing to becoming a key strategic weapon to change businesses in ways to beat the competition. The real value of IT is only realized if you change the way business is done.' (Sir John Harvey-Jones)

Eťnmaal het interactieve, iteratieve zoekproces afgewerkt is, genereert het data miningsysteem een rapport en is het de taak van mensen om de output te interpreteren en acties te ondernemen. Enkele van die acties zijn:

In (78) stellen Evans en Fisher dat het ontdekken van kennis een moeilijke opgave is, maar dat ook het opnemen van die kennis in de organisatie een delicate onderneming is.

6.1.8. Onderhoud

De meeste probleemdomeinen zijn onderhevig aan trends of zelfs aan plotselinge wijzigingen van de onderliggende patronen. Om in een dergelijke turbulente omgeving stand te houden moeten de prestaties van het data miningsysteem voortdurend gecontroleerd kunnen worden. Wanneer er zich dan significante kwaliteitsverminderingen voordoen moeten deze gesignaleerd worden en moet het systeem hetzij incrementeel, hetzij volledig opnieuw getraind worden.

Het opnieuw trainen van het systeem kan gebeuren:


6.2. Optimaliseren van de data miningomgeving (52)

Er zijn een aantal factoren of technieken die kunnen bijdragen tot de ontwikkeling van een sneller en succesvoller data miningsysteem.

Eerst en vooral zal het data miningproces vlotter verlopen wanneer de beschikbaarheid en de kwaliteit van de gegevens reeds op voorhand geoptimaliseerd is. Een techniek die de laatste tijd sterk opzet in dit verband is data warehousing. Het zoekproces wordt eveneens aanzienlijk versneld wanneer er gebruik gemaakt wordt van parallelle computers. Wanneer er tenslotte gebruik gemaakt wordt van een enorme hoeveelheid gegevens is ook een grondige vergelijking van de opslagmogelijkheden vereist.

6.2.1. Data warehousing

Een mainframe of een produktiedatabase is niet echt geschikt om aan data mining te doen.

Vb.

Een handelsbank uit New York ontdekte dat zijn databases meer dan 13 verschillende manieren bevatte om de namen van bepaalde klanten voor te stellen.

De gegevensstructuur op een mainframe is niet flexibel genoeg voor het manipuleren van de vereiste gegevens zodat de kosten voor gegevenstransformatie op een mainframe aanzienlijk hoger zijn dan op andere platformen.

De oplossing is een data warehouse, een kopie van de mainframegegevens op een databaseserver. Deze server ontvangt periodieke updates van de gegevens van de mainframe (maandelijks, wekelijks of zelfs dagelijks naargelang de behoefte).

Het grootste voordeel van data warehousing is dat de druk op het operationele systeem afneemt. Bovendien vormt een data warehouse een goede omgeving voor het selecteren, verzamelen en zuiveren van gegevens en ondersteunt het client-server analyse.

Het opstarten van een data warehouse is niet eenvoudig en kan tijdrovend en duur zijn. Alhoewel er redelijk geprijsde hulpmiddelen beschikbaar zijn voor het herformateren, oppoetsen en voorbereiden van de gegevens moet het IS management toch aanzienlijk wat tijd voorzien om te bepalen welk formaat gebruikt zal worden en hoe gegevens voorgesteld zullen worden. Bovendien moet vaak een beroep gedaan worden op externe experts, maar deze zijn schaars en duur.

Ondanks alle problemen bij het opzetten van een data warehouse kunnen de competitieve en andere voordelen van een succesvolle data warehouse enorm zijn. Er zijn gevallen waarbij bedrijven 10 tot 70 keer hun initiŽle investering hebben terugverdiend.

Vb.

Een telefoonbedrijf was in staat opgepoetste en in een warehouse opgeslagen gegevens te ontginnen en zo 10.000 klanten te ontdekken die zogezegd ‘residentieel’ waren maar die meer dan 1000 dollar per maand aan telefoonrekeningen hadden. Nader onderzoek bracht aan het licht dat deze klanten eigenlijk kleine bedrijven waren die probeerden de hogere bedrijfstarieven te ontwijken (52).

Dit heeft aanleiding gegeven tot de One-Query-Theory:

‘there exists in every shop one query that - if you figure out what it is and implement the knowledge derived from it - will pay the entire data-warehousing and data-mining system’(52).

Het Sandwich Paradigm van Kamran Parsaye (52)

Het Sandwich paradigm adviseert data mining en data warehousing op de volgende manier aan te pakken:

1. ontgin de gegevens vooraf om te bepalen welke formaten en gegevens nodig zijn om een data mining applicatie te ondersteunen

2. bouw een prototype data warehouse met de meeste eigenschappen geanticipeerd in het eindprodukt

3. herzie indien nodig de strategieŽn

4. bouw daarna pas een volledige data warehouse

Op deze manier kunnen problemen met gegevens van slechte kwaliteit en slecht ontworpen systemen vermeden worden. Bovendien wordt aangeraden een uitgebreide documentatie aan te leggen over het transformatieproces: bronnen, vertalingen, aggregaties, enz. Dergelijke informatie is cruciaal wanneer er later fouten in de gegevens blijken te zitten.

Hou er ook rekening mee dat wanneer het data warehousingproject slaagt, er meer gebruikers dan gepland gebruik zullen willen maken van data mining.

Vb.

Een keten van supermarkten implementeerde een data miningsysteem om de aankooptrends beter op te volgen. Binnen de 6 maand was een van de grootste gebruikers van het systeem de boekhoudafdeling die onderzoek verrichtte naar de produkten die het meest bijdragen tot winst of verlies. Ze ontdekten dat de diefstal van batterijen, films en pennen de keten 60.000 dollar per maand kostten. Het verplaatsen van deze produkten naar een veiligere plaats leverde een besparing op van 700.000 dollar per jaar (52).

Data mining en data warehousing zijn sterk complementaire activiteiten waarbij data warehousing vooral gericht is op het opzetten van een architectuur voor het ontsluiten van gegevens en data mining gericht is op het proces van veredeling van de gegevens.

6.2.2. Parallelle computers

Parallelle processoren versnellen het werk van data miningsystemen door het opsplitsen van complexe queries in delen die elk toegewezen kunnen worden aan een aparte processor. Deze processoren werken gelijktijdig. Met parallelle computers blijkt een goed functionerende management-informatieomgeving dus een stuk dichterbij te komen. Snelheid is immers altijd een cruciale factor in de aanvaarding van een nieuwe techniek.

Parallelle computers gebruiken bovendien in massa geproduceerde microprocessoren zodat hun kostprijs tot 10 keer zo laag kan zijn, vergeleken met de kostprijs van een vergelijkbare mainframe. Dit betekent dat bedrijven systemen zoals data mining kunnen introduceren, die economisch niet verantwoord zouden zijn met een mainframe. Data mining wordt dus mogelijk gemaakt door betaalbare parallelle computers, maar langs de andere kant is het ook zo dat de interesse in data mining de verkoop van parallelle computers de hoogte in stuwt.

6.2.3. Opslagmedia

Nog een technologie nodig voor een succesvolle data miningapplicatie is opslagcapaciteit. Betaalbare opslagcapaciteit is een sleutelfactor in de opgang van data mining. Het ziet er echter naar uit dat niet de prijs of de capaciteit maar de snelheid van de opslagmedia in de toekomst een probleem zal vormen. De prijzen van opslagmedia dalen met 30 ŗ 40% per jaar terwijl de snelheidswinst heel wat minder spectaculair is. Waarnemers voorspellen dat de leessnelheid de bottleneck zou kunnen worden van data mining terwijl de queries steeds complexer worden, de opslagcapaciteiten toenemen en parallelle machines sneller worden.


6.3. Data mining tools

In feite spenderen duizenden mensen reeds hun dagen met het analyseren van gegevens. We spreken echter pas over data mining wanneer ze hierbij ondersteund worden door gespecialiseerde intelligent hulpmiddelen. Het gebruik van de juiste software en hardware kan deze ‘gegevensmijnwerkers’ een flink competitief voordeel bezorgen.

6.3.1. Types

Naarmate data mining meer en meer in de aandacht komt te staan zijn er ook meer hardware- en softwareverkopers die de data miningfunctionaliteit van hun produkten aanprijzen. De vraag is nu: ‘Wat zijn data mining tools en wat niet?’. De hype rond data mining creŽert veel verwarring.

Meestal is er sprake van 3 types van data mining tools:

In Deel 1 heb ik data mining als volgt gedefinieerd:

Data mining is het gebruik van intelligente hulpmiddelen voor data analyse om te zoeken naar impliciete informatie en patronen in grote databases met de bedoeling kennis te ontdekken die kan bijdragen tot een beter begrip van het probleemdomein.

Hieruit volgt dat een pakket voor gegevensanalyse pas een data mining tool is wanneer het een intelligent hulpmiddel kan genoemd worden.

6.3.1.1. Query-and-reporting tools

Query-and-reporting tools zijn pakketten die de gebruiker via een gebruiksvriendelijke GUI, toelaten met behulp van eenvoudige en gemakkelijk te gebruiken formulieren queries te specificeren en de resultaten in de vorm van een rapport beschikbaar te stellen. Query-and-reporting tools eisen dat de gegevens beschikbaar zijn in een database of in een ander speciaal formaat en vragen een sterke begeleiding door de gebruiker.

Query-and-reporting tools zijn het best geschikt voor het stellen van specifieke vragen en het verifiŽren en specifieke hypothesen.

Query tools kunnen gebruikt worden voor interactieve exploratie van relationele gegevens maar een nadeel is dat deze pakketten het produktiesysteem enorm vertragen en soms zelfs kunnen doen crashen.

Vb.

Business Objects Powersoft’s Infomaker Crystal Service’s Crystal Reports Focus Reporter van Information Builders Esperant van Software AG Quest Powerviewer Impromptu Flexible reporter Reportsmith GQL Viewpoint QBE vision Focus/Reporter Personal Query

6.3.1.2. Multidimensional analysis tools (49)

Pakketten voor multidimensionele analyse vragen heel wat minder begeleiding door de gebruiker maar eisen nog wel dat gegevens in een speciaal formaat beschikbaar zijn. MDA-pakketten beschikken meestal over een eenvoudige GUI zodat ze vlot gebruikt kunnen worden door niet-experts.

MDA-pakketten zetten de database om in een multidimensionele hypercubes en zijn het best voor interactieve, iteratieve, hands-on exploratie van gegevens.

Bij MDA-analyse wordt een multidimensionele server opgevuld met verwante gegevens.

Vb.

Alle mogelijke manieren om de verkoop van kleding te analyseren: per merknaam, grootte, kleur, locatie, marketingbudget, marketingcampagne, ...

Eens je een multidimensionele hypercube opgevuld hebt met dergelijke gegevens kan je de gegevens gemakkelijk langs alle kanten bestuderen op 2-dimensionele vlakken (een n-dimensionele hypercube heeft n*(n-1) views.

Een MDA pakket laat toe zeer snel grafieken van je gegevens te maken, waar je vroeger uren voor nodig had. OLAP-servers zijn goed voor gegevens met ongeveer 15 dimensies, daarboven bezwijken ze onder het gewicht van alle indexen.

Er wordt vaak gesteld dat OLAP tools geen echte ‘mining tools’ zijn, maar geavanceerde query tools. Omdat ze echter beschikken over gesofisticeerde data acces en gegevensanalysemogelijkheden zijn er toch analisten die ze opnemen in de categorie van top-down tools.

Het analyseren van gegevens met behulp van MDA of OLAP wordt ook wel ‘data surfing’ genoemd, dit verwijst naar het proces waarbij de gebruiker naar interessante patronen, combinaties en informatie zoekt en waarbij verrassende resultaten aanleiding geven tot verder onderzoek.

Vb.

6.3.1.3. Intelligent agents (49)

Meestal beschouwt men, omwille van de actieve rol die de gebruiker speelt in de analyse, MDA en Query-and-reporting tools niet als data mining tools maar als nuttige uitbreidingen op een data miningpakket.

George Zagelow, program manager for data-warehousing at IBM:

‘MDA databases, OLAP products, DM and traditional decision-support tools all belong in your toolbox alongside standard relational databases’ (53).

De meeste mensen zijn beter in het ontdekken van anomalieŽn dan in het afleiden van verbanden in grote datasets. Dit is waarom information discovery nuttig kan zijn. In plaats van te betrouwen op de mens om hypothesen te produceren die daarna bevestigd of afgewezen kunnen worden op basis van de bewijzen (gegevens), kunnen goede discovery tools zelf de gegevens doorzoeken en de hypothesen genereren. Een ideaal systeem combineert dus de creativiteit en (audio)visuele waarnemingsmogelijkheden van de mens met de rekenkracht van de computer.

Dť uitdaging van data miningonderzoek is dus de ontwikkeling van ‘intelligent agents’, pakketten die in staat zijn om autonoom observaties te maken en conclusies te trekken. Deze systemen zouden dan de veelheid aan gegevens die ons dagelijks bereiken, kunnen rangschikken en filteren volgens belangrijkheid (vb. E-mail) en nieuwe patronen en verbanden kunnen ontdekken.

Barry Mason (IBM’s Consulting Group) definieert data mining als:

‘discovery tools which take large amounts of detailed transaction-level data and apply mathematical techniques against it, ‘finding’ or discovering insights into customer behavior (53).

Dergelijke intelligent agents horen thuis onder het knowledge discoveryonderzoek en zijn - algoritmisch - verwant met ES en AI.

Kenmerken

Vb.

Omdat information-discovery tools nog maar pas een algemene aandacht genieten als DM tools, zijn ze nog vrij technisch en zijn ze het best geschikt voor analisten met een sterke mathematisch achtergrond. Dit deel van data mining tools zal echter een explosieve groei kennen van zodra eenvoudige GUI het gebruik vergemakkelijkt.

6.3.2. Bedrijven leveren software en consultancy

Het data minen van gegevens is duidelijk nog niet zo eenvoudig als men wel zou wensen. De gebruiker moet verschillende parameters en drempelwaarden instellen en de ‘knowledge discovery tools’ zijn meestal niet echt gebruiksvriendelijk. Daarom is data mining voorlopig nog een delicate onderneming.

Dit is de reden waarom de meeste ondernemingen die actief zijn in de data mining sector zowel de software als de expertise leveren, nodig voor een succesvolle data mining toepassing.

Vb.

De voordelen van geÔntegreerde software, hardware en consultancypakketten zijn de volgende:

6.3.3. Verticale integratie (51)

Een belangrijke trend in DM is de verschuiving naar krachtige applicatiespecifieke tools. Er is een trade-off tussen de algemeenheid van gebruik en de eenvoud (volgens Gregory Piatetsky-Shapiro). Algemene tools zijn goed voor mensen die ermee overweg kunnen maar ze vereisen veel kennis.

Vb.

AT&T introduceerde zijn Sales & Marketing Solution Packs om data warehouses te ontginnen. Ze zijn toegespitst op verticale markten:

Dergelijke programma’s voorzien ongeveer 70% van de oplossing. De definitieve aanpassingen moeten gebeuren op basis van de behoeften van de klant.

Vb.

Het application-development tool Recon van Lockheed Martin Recent.

BŤta versies van de eerste verticale pakketten voor financiŽle en marketing toepassingen zijn aangekondigd voor 1996.

Ook neurale netwerken kunnen gepersonaliseerd worden:

Vb.

Customer Insight Co. heeft een interface gebouwd om de Analytix marketing software te combineren met HNC Software’s neurale netwerk-based Database Mining Workstation. HNC Software’s Falcon detecteert fraude met kredietkaarten.

 

Dergelijke applicatiespecifieke pakketten hebben als voordeel dat de instapkost, de kostprijs die gepaard gaat met het beginnen gebruiken van het data miningsysteem, sterk verminderd wordt.


6.4. Conclusie

Terwijl de omgeving o.a. dankzij data warehouses en parallelle computers steeds gunstiger wordt voor data mining, lijkt het erop dat vooral het gebrek aan een goede methodologie dť grote rem zal zijn op de doorbraak van data mining.

De huidige data miningsystemen zijn nog lang niet zo autonoom als we wel zouden wensen en verwachten van de gebruiker dat hij heel wat beslissingen neemt, o.a. het kiezen van een techniek, het bepalen van de juiste drempelwaarden en het selecteren van relevante attributen en trainingsvoorbeelden. Hierbij beschikt de gebruiker echter over zeer weinig houvast zodat data mining nog teveel herleid wordt tot een tijdrovend en frustrerend proces van trial-and-error.

Mogelijke oplossingen hiervoor worden geboden door de ontwikkeling van verticaal geÔntegreerde pakketten die de parametrisering tot een minimum beperken en door de zogenaamde ‘service providers’ die zowel software, hardware als consultancy en opleiding leveren.

Dit neemt echter niet weg dat in de nabije toekomst zeker werk zal moeten gemaakt worden van een volwaardige methodologie die de beschikbare ervaring, richtlijnen en vuistregels bundelt.