2. Data miningtoepassingen


Data mining biedt een enorme waaier toepassingsmogelijkheden. De belangrijkste toepassingen op dit moment zijn: marketing, risicoanalyse, selectie en ondersteuning van beslissingsprocessen. Met name in de financiŽle- en dienstensector wordt steeds meer praktisch gebruik gemaakt van de mogelijkheden die data mining biedt.

Dejesus stelt in (50) dat de voordelen van data mining op korte termijn vooral in eenvoudige bedrijfstoepassingen liggen.

Vb.

De toepassingen op langere termijn noemt hij echter ‘adembenemend’.

‘We may well see the day when the Nobel prize for a great discovery is awarded to a search algorithm’.

Vb.

De voorbeelden in deel 2.2 van dit hoofdstuk zijn grotendeels gebaseerd op de lijst van Piatetsky-Shapiro in (10) en zijn aangevuld met voorbeelden en praktijkstudies uit andere teksten. Deze opsomming is niet volledig maar geeft een idee van de diversiteit van de toepassingsmogelijkheden van data mining.


2.1. Types van toepassingen

Holsheimer en Siebes delen de manieren waarop de inzichten die door data mining in bedrijfsdatabases kunnen worden verworven op in 2 grote categorieŽn. (9)

Strategische toepassingen

Vb.

Controlerend

Voorbeeld:

In (7) spreken Agrawal, Imielinski en Swami over 3 belangrijke toepassingsmogelijkheden van data mining.

Classificatie

Het zoeken van regels die de gegevens opsplitsen in disjuncte groepen.

Voorbeelden:

Associaties

Vb.

Winkelplanning: het planningsdepartement kan geÔnteresseerd zijn in het vinden van associaties tussen verschillende produkten, bijvoorbeeld ‘bij 90% van de transacties waarbij brood en boter wordt gekocht, wordt ook melk gekocht’

Sequenties

Een andere belangrijke bron voor data mining toepassingen zijn geordende gegevens zoals beursgegevens en POS-gegevens.

Vb.

Wanneer de aandelen van AT&T twee dagen na elkaar stijgen en de aandelen van DEC gedurende deze periode niet dalen zullen de aandelen van IBM de volgende dag stijgen in 75% van de gevallen.


2.2. Expertsystemen

Eťn van de belangrijkste toepassingen van data mining is het automatisch opbouwen van knowledge bases voor expertsystemen. Expertsystemen zijn informatiesystemen die vanuit een gegeven probleemstelling in een bepaald vakgebied oplossingen kunnen bieden of advies kunnen verlenen op een niveau dat vergelijkbaar is met deskundigen in het betreffende vakgebied (87). Een expertsysteem bestaat uit 2 delen: een knowledge base (KB) en een inferentiecomponent.

Knowledge acquisition als bottleneck bij de constructie van expert systemen

Bij de constructie van een expertsysteem moet de beschikbare domeinkennis in een knowledge base opgeslagen worden. Dit is echter niet zo eenvoudig. Ten eerste kan het zijn dat men kampt met een gebrek aan inzicht in het probleemgebied of dat er geen expertkennis beschikbaar is. Ten tweede is het vergaren van domeinkennis een delicate zaak. Het interviewen van domeinexperts behelst volgende nadelen:

Bovendien kan de resulterende expertise toevallig (de resultaten zijn afhankelijk van eigenschappen van de situatie), onbewust, irrelevant (vb. bijgelovigheid), onvolledig of onjuist zijn.

De taken van een knowledge engineer bij de traditionele methode zijn de volgende

Het tekort aan ervaren knowledge engineers, de moeilijkheden die gepaard gaan met het opbouwen van de knowledge base en de dalende hardware- en softwareprijzen vormen de aanleiding tot onderzoek naar nieuwe technieken voor het opbouwen van knowledge bases.

Een mogelijke oplossing is het gebruik van knowledge acquisition tools die de expert voorzien van een uitgebreid assortiment hulpmiddelen om een knowledge base op te bouwen. De knowledge engineer staat in dit geval in voor het beheer van de knowledge acquisition tools en het begeleiden van de expert. Het opbouwen van een knowledge base blijft echter tijdrovend.

Expert systemen en data miningtechnieken

Een oplossing voor de bovenvermelde problemen is het gebruiken van een bestaande database om automatisch regels voor het expertsysteem te ontdekken. Daarom schuiven veel AI onderzoekers inductieve leertechnieken naar voor om dit proces te automatiseren. Op basis van een database met voorbeelden van beslissingen van een expert hoopt men dat dergelijke systemen de verborgen kennis zullen kunnen blootleggen. De ontdekte waarschijnlijkheidsregels kunnen dan als input dienen voor de KB.

Figuur 3 Een expertsysteemarchitectuur gebaseerd op een artificieel neuraal netwerk

Voordeel:

Een praktijkvoorbeeld van het ontdekken van kennis en de creatie van een KB op basis van grote, gearchiveerde, tekstuele databases vind je in (64).

De trade-off tussen kennis en gegevens (43)

Gaines komt tot de conclusie dat beide technieken, data mining en overdracht van expertise, kennis kunnen produceren die equivalent is qua kwaliteit en dat er een continuŁm bestaat in dewelke kennis geruild wordt voor gegevens. In het kort komt dit erop neer dat wanneer men over voldoende domeinkennis beschikt, er geen gebruik hoeft gemaakt te worden van data mining. Beschikt men daarentegen over bijzondere weinig inzicht in het probleemgebied maar wel over voldoende kwaliteitsvolle gegevens dan kan data mining tot goede resultaten leiden.

Vb.


2.3. Toepassingsmogelijkheden van data mining

2.3.1. FinanciŽle sector

Verschillende investeringsmaatschappijen kiezen aandelen op basis van data miningtechnieken, sommige financiŽle instituten hebben systemen ontwikkeld voor de preventie en detectie van fraude. De financiŽle gemeenschap is er echter niet happig op om details te verspreiden over hun data miningapplicaties.

Vb. (51)

Security Pacific / Bank of America gebruikt DM om

Verscheidene banken hebben in historische gegevens over leningen en kredieten patronen ontdekt die geleid hebben tot betere methoden voor het beoordelen van kredietwaardigheid.

Vb. (9)

Het Britse bankiershuis TSB heeft regels afgeleid op basis van gegevens over oude leningen, waarmee de kredietwaardigheid van nieuwe klanten wordt beoordeeld. De nauwkeurigheid van deze regels verbeterde de tot dan toe gebruikte regels met 3%.

 

Tabel 1 Toepassingsmogelijkheden in de financiŽle sector

risicoanalyse: beoordelen van kredietwaardigheid voorspellen van faillissementen voorspellen van de fluctuatie in aandelenprijzen voor bepaalde gevallen (74) (76) voorspellen van de fluctuatie in aandelenprijzen voor de gehele markt dynamisch combineren van portfoliostrategieŽn (75) onderzoeken van het investeringsgedrag van bedrijven en personen (vb. om beter gerichte mailings te kunnen versturen) detecteren van fraude (vb. frauduleus gebruik van kredietkaarten) DisKE (Discovery by Knowledge Extraction) van Westinghouse (45) Authorizer’s Assistant van American Express FALCON van HNC banken kunnen hun computersystemen uitbreiden zodat ze eigenaardigheden in transacties op de wisselmarkten rapporteren, dergelijke systemen zoeken naar te enthousiaste traders inbreuken op de bedrijfspolitiek indicaties van fraude

 

Tabel 2 Toepassingsmogelijkheden in de verzekeringssector

detectie van frauduleuze of overdreven claims het opsplitsen van polissen in beter gerichte pakketten voorspellen van de kostprijs van medische dekking classificeren van de belangrijkste elementen die medische dekking beÔnvloeden voorspellen welke klanten nieuwe polissen zullen afsluiten Risico-analyse: Zoeken naar verbanden tussen persoonskenmerken en claimgedrag: welke invloed hebben kenmerken van de verzekerde, het verzekerde object en het soort verzekering op de kans dat deze persoon een schadeclaim zal indienen? Kenmerken van groepen met een afwijkend schadegedrag (de zgn. risicoprofielen) vinden en aan de hand hiervan het premiebeleid aanpassen.

Beoordelen van kredietwaardigheid (6)

Het inductief zoeken naar regels voor het beoordelen van kredietwaardigheid heeft als voordeel dat er gebruik kan worden gemaakt van de eigen klantendatabase. Dit betekent dat er minder beroep moet worden gedaan op adviseurs of externe gegevens. Dit op zich betekent al een significante besparing.

Figuur 4 Een systeem voor het beoordelen van kredietwaardigheid

Het voorspellingsmodel is opgebouwd op basis van gegevens over 16.000 klanten. De eerste resultaten wijzen op een vrij hoge juistheid van de voorspellingen.

Dynamisch combineren van portfoliostrategieŽn (75)

In dit voorbeeld gebruikt men een neuraal netwerk om twee traditionele portfoliostrategieŽn te combineren. De twee traditionele strategieŽn hebben elk hun voor- en nadelen en zijn complementair maar momenteel bestaan er geen beslissingsregels voor het dynamisch selecteren van de juiste strategie om winst te maximaliseren en verliezen te minimaliseren.

Strategie goed voor slecht voor

moving averages (MA) trends keerpunten en schommelingen

mean value (MV) schommelingen trends

Input:

Output:

Het systeem werd getraind op basis van gegevens van 1984 tot 1986. Op jaarbasis behaalde het netwerk een return van 18% op een handelspositie van 1 miljoen dollar vergeleken met 12,3% en 13,1% voor de moving average en de mean-value strategieŽn. Na het vereenvoudigen van het probleem (negeren van de mate waarin de prijzen over de laatste n dagen schommelden) werden de volgende regels afgeleid:

Het kiezen van inningsstrategieŽn (6)

Zoals alle ondernemingen krijgt BT te maken met wanbetalers en telkens opnieuw moet er beslist worden welke actie ondernomen moet worden:

Als resultaat van deze actie kan het zijn dat de wanbetaler de schuld volledig, deels, in aflossingen of helemaal niet afbetaalt. Er werd beslist een data miningtoepassing te bouwen die een strategie zou kunnen ontdekken die de (gerechts)kosten minimaliseert en de opbrengst maximaliseert. Het systeem werd getraind met behulp van gegevens over 8000 klanten en behaalt een hoog percentage correcte voorspellingen.

Samenstellen van obligatieportefeuilles (76)

Per buitenlandse markt worden met behulp van lokale neurale netwerken en op maandbasis de obligatiekoersen voorspeld. Een centraal neuraal netwerk beslist op basis van die voorspellingen over de optimale samenstelling van de obligatieportefeuille. De lokale neurale netwerken gebruiken maandelijkse gegevens van de periode 1974-1988.

2.3.2. Marketing

Veel marketing managers geloven dat het begrijpen van en inspelen op de individuele behoeften van de klanten ťťn van de krachtigste competitieve wapens is van een onderneming. Met dit doel voor ogen maken steeds meer bedrijven gebruik van DM technieken om inzicht te verwerven in voorkeuren en kooppatronen van klanten. Met data mining gaat men op zoek naar marktsegmenten met bepaalde kenmerken en een bepaald gedragspatroon. Dit kunnen risicogroepen zijn maar ook typische afnemers van bepaalde produkten of diensten. Met deze informatie kunnen bedrijven dan met nieuwe produkten en promoties beter inspelen op de wensen van hun klanten.

Veel fabrikanten doorzoeken de gegevens van supermarktscanners naar het effect van promoties en aankooppatronen.

Intelligente samenvattingen van scanner- en kredietkaartgegevens kunnen een grote hulp zijn bij beslissingen over productie, distributie, prijsstelling, adverteren en promoties.

Tabel 3 Toepassingsmogelijkheden voor marketing

identificatie van socio-economische subgroepen die een uitzonderlijk gedrag vertonen onderzoeken van het aankoopgedrag van klanten produktanalyse voorspellen van verkoopcijfers direct marketing identificeren van demografische patronen

Direct marketing

Bij direct marketingtoepassingen wordt gezocht naar verbanden tussen persoonskenmerken van klanten en de kans op respons bij een mailing. Zodoende kunnen prospects selectief gemaild worden, waarbij de respons gemaximaliseerd wordt met een minimum kostprijs.

Werkwijze:

1) verstuur een mailing

2) welke klanten hebben gereageerd?

3) bepaal met data mining karakteristieke patronen.

4) resultaat: groepen met een hoge kans op antwoord

5) selecteer de groepen met de hoogste kans op antwoord voor de volgende mailings.

Figuur 5 Aanpak van data mining voor direct marketing

Vb.

American Airlines doorzoekt de database met de ‘frequent flyers’ om specifieke promoties op hun betere klanten te kunnen afstemmen.

Marketing van een dienstenpakket (6)

Bij BT (British Telecom) werd in de klantendatabase met behulp van data mining gezocht naar een profiel voor klanten die een bepaald produkt gekocht hebben. Met dat profiel werd dan bij de volgende campagnes en bij het uitbreiden van de campagne naar andere geografische gebieden rekening gehouden. Op die manier kon de campagne gericht worden op mensen waarvan het waarschijnlijker was dat ze het produkt zouden kopen. Na elke campagne werd het profiel verfijnd.

De onderstaande beslissingsboom werd opgebouwd op basis van gegevens over 200 klanten die een dienstenpakket aanvaard of geweigerd hadden. Uit de beslissingsboom bleek dat het maximum telefoonkost (maximum call charge) de belangrijkste factor is bij de keuze voor of tegen het dienstenpakket. De tweede factor is de gedetailleerde factuur (itemized bill). Klanten die een maximale telefoonkost lager dan 56 Pond en geen gedetailleerde factuur hebben, blijken in 87% van de gevallen nee te hebben gezegd tegen het dienstenpakket.

Figuur 6 Deel van de beslissingsboom voor geÔnteresseerden in het dienstenpakket

Voordelen voor de marketingcampagne:

2.3.3. Produktie

Met data mining kunnen bedrijven bepalen welke combinaties van produktiefactoren invloed hebben op de kwaliteit van het eindprodukt. Deze kennis speelt een belangrijke rol bij het verklaren van uitval en het verhogen van de proceskwaliteit.

Tabel 4 Toepassingsmogelijkheden van data mining in een produktieomgeving

voorspellen van machinebreuk het vinden van sleutelfactoren voor de optimalisering van produktiecapaciteit voorspellen van overdreven trillingen in een staalfabriek produktkwaliteitscontrole identificatie van falende disk drives

Vermijden van vertragingen en stilstand van drukpersen (78)

Probleemomschrijving:

Wanneer de snelheid van drukpersen een bepaald toerental bereikt kan er streepvorming op de drukplaat optreden. Telkens er zich streepvorming voordoet:

Omdat het investeren in de ontwikkeling van nieuwe machines duur is wil men de factoren identificeren die een rol spelen in het optreden van streepvorming. Hiervoor werd gebruik gemaakt van Apos, een beslissingsboominductieprogramma.

Tabel 5 Aantal gevallen van streepvorming per maand

Jan. Feb. Mar. Apr. May June July Aug. Sept. Oct. Nov. Dec. Totaal

1989 35 40 40 70 53 34 40 31 56 39 62 38 111

1990 50 92 95 14 16 15 8 6 8 16 44 20 160

1991 13 10 11 20 11 17 11 13 6 7 16 3 135

1992 8 11 9 6 6 5 4 5 5 2 3 2 114

1993 5 7 4 4 1 1 0 1 11 3 5 0 87

Figuur 7 Aantal gevallen van streepvorming in de periode 89-93

Uit de grafiek blijkt duidelijk dat de door Apos ontdekte regels een aanzienlijke kostenvermindering hebben opgebracht.

Identificeren van falende disk-drives (9)

Zoals alle disk-drive fabrikanten test IBM haar nieuwe disk-drives uitgebreid voor ze deze naar haar klanten stuurt. De meeste tests zijn eenvoudig en worden tijdens verschillende fasen van de assemblage uitgevoerd. De laatste test is een uitgebreide duurtest. Deze laatste test kost veruit het meeste tijd en geld. Er zou behoorlijk bespaard kunnen worden indien men vooraf zou kunnen voorspellen welke disk-drives waarschijnlijk niet in orde zijn. Om deze mogelijkheid te onderzoeken hebben medewerkers van IBM een database opgezet waarin zij per disk-drive alle testresultaten verzamelden. Vervolgens is er met behulp van data miningtechnieken gezocht naar een verband tussen de resultaten van de eerste goedkope tests en de uiteindelijke dure test. Hierbij is een regel gevonden die ongeveer 10% van de uiteindelijk falende disk-drives al van te voren herkent. Het gebruik van deze regel bespaart dus aanzienlijk bij het uitvoeren van de laatste, dure test.

Foutdiagnose: identificeren van fouten in digitale schakelaars (6)

De database met foutgegevens bestond uit 250 trainingsvoorbeelden die manueel geclassificeerd werden. De volledige testprocedure omvatte 77 tests. Na het beperken van het aantal foutklassen (85% van de fouten konden worden toegewezen aan 4 componenten) werd een classificatiejuistheid behaald van 92%.

ES voor preventief onderhoud van pompmotoren (35)

Het doel van preventief onderhoud is het lokaliseren van fouten in een vroeg stadium en het stellen van een diagnose van de fouten door een analyse van de vibraties.

Voor elke motor worden de volgende gegevens bijgehouden:

Alle metingen zijn onderhevig aan ruis:

MEPS is een manueel ontwikkeld prototype ES. Het bevat 290 diagnostische regels en 70 structurele frames. Het ontwikkelen duurde 18 maanden waarvan 12 maanden voor acquisitie, coderen en onderhouden van de KB. Het inductiealgoritme ENIGMA (een evolutie van ML-SMART) werd getraind met behulp van 80 trainingsvoorbeelden.

Tabel 6 Vergelijking van de performantie van ENIGMA en MEPS

Ambiguity Recognition Rate on Complete Set Recognition Rate on Test Set Development Time

ENIGMA 1.21 0.95 0.94 4 months

MEPS 1.46 0.95 - 18 months

De performantie van beide systemen is vergelijkbaar maar ENIGMA werd veel sneller ontwikkeld dan MEPS.

 

Tabel 7 Vergelijking van de ontwikkelingsduur van ENIGMA en MEPS

ENIGMA MEPS

initial phase of problem mastering Ī 2 months Ī 2 months

preparing and encoding the data Ī 1 month Ī 1 month

knowledge acquisition and updating a few hours Ī 12 months

2.3.4. Medische sector

Tabel 8 Medische toepassingsmogelijkheden van data mining

biogeneeskunde onderzoeken en voorspellen van bijwerkingen van medicijnen beperking van ziekenhuiskosten analyse van genetische structuren (79) medische diagnose (62) (79)

Schildklierdiagnose (62)

Het Garvan schildklierdiagnose-expertsysteem is in gebruik sedert 1984 en produceert jaarlijks zo’n 6000 diagnoses. Elk geval is gekarakteriseerd door 20 binaire attributen, 6 numerieke attributen en ťťn van de 61 diagnostische categorieŽn. Het expertsysteem werd manueel ontwikkeld gedurende zo’n 6 jaar en bevat ongeveer 700 niet disjunctieve produktieregels die steeds moeilijker te onderhouden werden. Daarom werden er studies uitgevoerd naar de automatische inductie van produktieregels op basis van 8000 trainingsvoorbeelden en 1514 testvoorbeelden:

Tabel 9 Vergelijking manuele ripple-down rules, C4.5 en Induct

techniek aantal regels foutmarge

manueel: ripple-down rule techniek 550 2.8%

automatisch: C4.5 produktieregels 515 2.7%

automatisch: Induct 195 2.3%

Diagnose van prostaatkanker (88)

In de Journal of Urology werd een neuraal netwerk voorgesteld dat met dezelfde medische gegevens een betere diagnose kon stellen dan huisartsen. Gemiddeld heeft slechts ťťn op drie patiŽnten die na een screening voor prostaatkanker door een huisarts voor verder onderzoek worden doorverwezen, effectief kanker. De computer daarentegen stelde 87% correcte diagnoses en voorspelde in 90% van de gevallen correct dat de kanker zou terugkomen.

2.3.5.

Informaticasector

Het succes van data warehouses maakt het noodzakelijk steeds selectiever gebruik te maken van de steeds ruimer beschikbare gegevens. Deze noodzaak tot selectie vereist echter de nodige intelligentie en kennis van de gebruiker. Effectief zoeken betekent meer weten over de structuur en de opbouw van een bestand. Die behoefte aan meer kennis bij het formuleren van een vraag aan een database of data warehouse is de belangrijkste factor geweest in het ontstaan van de methodieken rond data mining.

Tabel 10 Toepassingsmogelijkheden van data mining in informatica

voorspellen van disk-drive failure voorspellen hoe lang het zal duren om nieuwe chips te maken voorspellen van potentiŽle inbreuken op de veiligheid query optimalisering

Semantische query optimalisering (71)

Het doel van een semantic query optimizer is het vinden van een semantisch equivalente, maar efficiŽntere query. Hierbij wordt gebruik gemaakt van query-transformatieregels.

De set van query-transformatieregels bestaat uit:

query-driven framework

1. de antwoorden op verschillende queries moeten vergeleken worden

2. wanneer de antwoorden gelijk zijn, kunnen de queries gebruikt worden in een kandidaat query-transformatieregel

data-driven framework

1. er moeten regels aangeleerd worden, die de patronen in de database karakteriseren

2. deze patronen kunnen gebruikt worden als query-transformatieregels

Voordeel:

2.3.6. Engineering

Tabel 11 Toepassingsmogelijkheden voor engineering & design

ontwikkeling van expertsystemen voor diagnoses General Motors gebruikt een database met probleemrapporten om een expertsysteem te ontwikkelen. computer aided design (CAD) probleemoplossing bij engineering onderzoeken van patronen bij vliegtuigcrashes onderzoeken van de redenen van barsten of defecten in betonnen en stalen structuren beoordelen van schade aan structuren beoordelen van de stabiliteit van een helling selecteren van reparatiemethodes voor barsten in beton selecteren van de geschikte manier van lassen

Designtoepassingen (72)

Aan het MLI wordt onderzocht welke eigenschappen een invloed hebben op de uitvoerbaarheid van een ontwerp. Het systeem is gebruikt voor het:

Identificeren van de schadeoorzaken bij het in de grond drijven van betonnen palen (18)

Bij het in de grond drijven worden betonnen palen vaak beschadigd en wanneer die beschadiging te groot is moet de paal vervangen worden. Daar dit onkosten en vertragingen met zich meebrengt wenst men te schikken over een KB die kan helpen bij het vermijden van beschadigingen. In (18) vergelijken Yeh, Kuo en Hsu een KB opgebouwd met behulp van interviews van experts met een KB gebaseerd op een ID3-beslissingsboom. Er werden 12 mogelijke oorzaken en 15 relevante attributen gedefinieerd. Men beschikte over 120 trainings- en 60 testvoorbeelden. De regelsets van beide systemen vindt u in onderstaande tabellen.

 

Tabel 12 De ID3-regelset

1. IF crack_type = (cut or one) and cushion = non_uniform THEN cushion_nonuniform 2. IF crack_type = cut and cushion = compress and times < 2200 THEN cushion_poor 3. IF crack_type = all and times < 1300 and cushion = compress THEN cushion_poor 4. IF crack_type = (cut or all) and cushion = compress and times > 2200 THEN cushion_overuse 5. IF crack_type = slit THEN honeycomb 6. IF crack_type = broken and spiral = broken THEN sprial_poor 7. IF crack_type = broken and spiral = norm THEN concrete_poor 8. IF crack_type = one and hole = water and loca = head THEN splice_poor 9. IF resist < 1.5 and tip = norm and hole = tip THEN tip_poor 10. IF crack_type = (broken or cut or all) and cushion = norm THEN hammer_heavy 11. IF crack_type = (norm or broken) and resist > 1.5 and pene = norm THEN over_driven 12. IF crack_type = norm and resist = 1.5 and pene = decrease THEN driven_rock 13. IF crack_type = (one or all) and hole = water and pene = increase THEN driven_soft

Tabel 13 De manuele regelset

1. IF loca = head and crack_type = (cut or one) and cushion = non_uniform THEN cushion_nonuniform 2. IF local = head and crack_type = (cut or all) and cushion = compress and times < 2000 THEN cushion_poor 3. IF loca = head and crack_type = (cut or all) and cushion = compress and times > 2000 THEN cushion_overuse 4. IF loca = (head or upper) and crack_type = slit THEN honeycomb 5. IF loca = upper and crack_type = broken and spiral = broken THEN spiral_poor 6. IF loca = upper and crack_type = broken and spiral = normal THEN concrete_poor 7. IF loca = middle and crack_type = one and hole = water THEN splice_poor 8. IF resist < 2.0 and hole = tip and tip = normal THEN tip_poor 9. IF loca = head and crack_type = (broken or cut or all) and cushion = normal THEN hammer_heavy 10. IF loca = normal and crack_type = (normal or broken) and resist > 2.0 and pene = normal THEN over_driven 11. IF loca = normal and hole = (water or soil) and resist > 2.0 and pene = normal THEN over_driven 12. IF loca = normal and resist > 2.0 and pene = decrease THEN driven_rock 13. IF loca = normal and hole = water and pene = increase THEN driven_soft

De beide methoden werden daarna op verschillende vlakken vergeleken:

Tabel 14 Vergelijking tussen inductieve regels en regels op basis van interviews

Evaluation term Inductive (original) Inductive (simplified) Interview

Representation efficiency 75.7 38.7 53

Reasoning efficiency 2.9 2.5 3.5

Reasoning predictability 90% 93.3% 85%

Reasoning accuracy 88% 86.3% 88%

Expert resources used (man-day) 3 3 6

Knowledge engineer resources used (man-day) 4 4.5 12

Uit deze resultaten blijkt dat de inductieve methode nagenoeg dezelfde resultaten behaalt. Het grote verschil zit echter in de mandagen nodig voor de ontwikkeling van het systeem. Voor de vereenvoudigde regelset had men slechts 7,5 dagen nodig terwijl de interviewtechniek 18 dagen vereiste.

2.3.7. De overheid

Tabel 15 Toepassingsmogelijkheden voor de overheid

detectie van belastingfraude vergelijken van vingerafdrukken terugvinden van gestolen wagens analyseren van beslissingen van gerechtshoven (50) identificatie van witwastransacties analyse van demografische gegevens onderzoeken van trends in het kiesgedrag analyse van verkiezingsresultaten ontdekken van patronen in de gezondheidszorg (50) voorspellen van de kost van het verplaatsen van militair materieel testen van strategieŽn voor potentiŽle militaire engagementen voorspellen van de consumptie van militaire grondstoffen

Ontdekken van fraude (51)

De US Internal Revenue Service heeft een systeem ontwikkeld om fraude te detecteren en belastingopbrengsten te verbeteren. Het prototype draait op PCs en omvat KnowledgeSeeker (Angoss Software), ModelWare (Teranet) en AIM (AbTech).

Analyse van de beslissingen van gerechtshoven (51)

Beverly Cook, een onderzoekster aan de universiteit van Wisconsin-Milwaukee, gebruikt IDIS om de stemmen en opinies i.v.m. de doodstraf van een rechter van het Hooggerechtshof. Ze ontdekte dat zijn gedrag verband hield met het conservatieve blok van de rechtbank en dat zijn stemgedrag afhankelijk was van het ras van de beschuldigde.

Gezondheidszorg (51)

GTE Laboratories (Gregory Piatetsky-Shapiro) heeft een geavanceerd data miningsysteem ontwikkeld dat de gezondheidszorgkosten van GTE werknemers en hun familie evalueert. Health-KEFIR (KEy FIndings Reporter) ontdekt groepen wiens kosten waarschijnlijk zullen stijgen in het komende jaar en ontdekt op die manier gebieden waar interventiestrategieŽn dus waarschijnlijk besparingen kunnen opleveren. Het systeem kan de gegevens op duizenden manieren splitsen en vergelijken. Health-KEFIR selecteert alleen medische condities die interessant zijn, d.w.z. waarvoor een procedure bestaat die de kosten kan verminderen. De rapporten van KEFIR zijn omvangrijker, sneller klaar en aanzienlijk goedkoper dan vergelijkbare rapporten van consultanten.

Weersvoorspellingen (70)

OBSERVER-II werd gebruikt voor het voorspellen van de gemiddelde temperaturen voor de maand juli in 12 Europese steden. De beschikbare gegevens besloegen een periode van 175 jaar (1751-1975) en bevatten per record 12 attributen (1 per stad). Het opsplitsen van de continue intervallen gebeurde op basis van een entropiescore.

De voorspellingen van OBSERVER-II bleken aanmerkelijk beter dan voorspellingen op basis van traditionele methoden.

Tabel 16 Vergelijking van OBSERVER-II met voorspellingen op basis van eenvoudige meerderheid (%)

City Random Simple majority OBSERVER-II

Milan 25 7,4 88,9

Stockholm 25 29,6 81,5

Rome 25 37 81,5

Berlin 25 25,9 74,1

Oslo 25 37 74,1

Edinburgh 25 22,2 59,3

Copenhagen 25 25,9 29,6

Paris 25 18,5 29,6

Vienna 25 40,7 25,9

London 25 29,6 22,2

Geneva 25 18,5 18,5

Marseilles 25 37 18,5

2.3.8. Varia

Tabel 17 Andere toepassingsmogelijkheden

landbouw herkennen van sojaboon- en tomaatziektes

Natuurkunde onderzoek naar superconductoren ontdekken van sterrenstelsels (50)

Publicatie creatie van gepersonaliseerde edities

Wetenschap (51)

Data miningtechnieken worden meer en meer gebruikt om de mens te assisteren bij wetenschappelijk onderzoek. Ze worden o.a. gebruikt bij het zoeken naar patronen in moleculaire structuren, genetische gegevens, klimaatveranderingen, enz.

NASA-Jet Propulsion Laboratory en Caltech hebben SKICAT ontwikkeld (Sky Image Cataloguing and Analysis Tool), een geavanceerd data miningsysteem voor het automatisch analyseren en catalogiseren van de ‘second Palomar Sky Survey of the northern heavens’. Op het einde zal het onderzoek meer dan 50 miljoen sterrenstelsels, 2 biljoen sterren en 100.000 quasars gecatalogiseerd hebben. Het onderzoek zal 3 terabytes aan gegevens opleveren die gereduceerd zullen worden tot een catalogus van sterrenstelsels. SKICAT heeft momenteel op 6 maand tijd 9 nieuwe quasars ontdekt, hetgeen met de vorige zoektechnieken een 3-tal jaar zou hebben geduurd.

Gepersonaliseerd drukwerk

Farm Journal analyseert zijn database met geabonneerden en gebruikt geavanceerde druktechnologie om gepersonaliseerde edities te versturen op maat van verschillende doelgroepen.