Data mining is het proces van analyseren en samenvatten van data vanuit verschillende perspectieven . Het streeft ernaar om gegevens patronen en relaties in grote pools van informatie met behulp van algoritmen --- sets van regels die een probleem op te lossen over een reeks van concrete maatregelen ( denk het Euclidische algoritme in de algebra , waarin twee getallen ' grootste gemene deler vindt ) definiëren . De 2006 IEEE International Conference on Data Mining gerangschikt in de top 10 algoritmen in het veld . Besluit Bomen Beslissingsboom algoritmen doel om gegevens over concurrerende keuzes organiseren in takken van invloed na een eerste besluit . De stam van de boom vertegenwoordigt het oorspronkelijke besluit , en het begint met een ja - of -nee vraag , zoals het al dan niet om te ontbijten . Ontbijt eten en niet eten van ontbijt zou zijn de eerste twee divergerende takken van de boom , en elke keuze zou daarna zijn eigen uiteenlopende branches in de aanloop naar een eindpunt hebben . De K -Means algoritme < br > k -means algoritme is gebaseerd op clusteranalyse . Het doel is om de verzamelde gegevens te breken in aparte " clusters " gegroepeerd per achtige kenmerken . Support Vector Machines Ondersteuning vector machine algoritmen nemen invoergegevens en voorspellen welke van twee mogelijke categorieën die de invoergegevens omvatten . Een voorbeeld zou zijn het verzamelen van de postcodes van een pool van de kiezers en proberen te voorspellen of een give kiezer is een Democraat of Republikein . De Apriori algoritme De Apriori algoritme volgt meestal transactiegegevens . Bijvoorbeeld , in een kledingwinkel , kon het algoritme te volgen die shirts klanten meestal samen te schaffen . De EM -algoritme Dit algoritme bepaalt de parameters door het analyseren van gegevens en voorspelt de waarschijnlijkheid van een toekomstige oplossing of willekeurige gebeurtenis binnen de parameters van de data . Zo zou het EM -algoritme proberen om de tijd van de volgende uitbarsting van een geiser op basis van de tijd gegevens van het verleden uitbarstingen te voorspellen . PageRank algoritme De PageRank algoritme is een stichting algoritme voor zoekmachines . Het rangschikt en schattingen relevantie van een enkel stuk van gegevens binnen een groter geheel van gegevens , zoals een enkele website binnen het grotere geheel van alle websites op het internet . AdaBoost Algoritme < br > De AdaBoost algoritme werkt binnen andere algoritmen leren dat gedrag op basis van waargenomen data om ze gevoeliger voor statistische uitschieters maken anticiperen . Hoewel het EM -algoritme kan worden scheefgetrokken door een geiser met twee uitbarstingen in minder dan een minuut als het uitbreekt meestal een keer per dag , zou de AdaBoost algoritme uitgang van de EM algoritme tweak door het analyseren van de relevantie van de uitschieter . < br > K - Nearest Neighbor algoritme Dit algoritme herkent patronen in data locatie en medewerkers die gegevens met een grotere identificatie . Bijvoorbeeld , als je wilde een postkantoor toewijzen aan elk huis de geografische locatie en had de datapool van elk huis de geografische locatie , de k - Nearest Neighbor algoritme zou de huizen naar het dichtstbijzijnde postkantoor op basis van hun afstand tot elkaar toewijzen . Naive Baye The Naive Bayes algoritme voorspelt een identiteit uitkomst gebaseerd op gegevens van bekende waarnemingen . Bijvoorbeeld , als een persoon is g meter zes centimeter lang en draagt maat 14 schoenen , zou het Naive Bayes algoritme te voorspellen met een zekere waarschijnlijkheid dat de persoon is een man . CART algoritme < br " KAR " > staat voor " Indeling en Regressieve Tree" analyse . Zoals beslisboom analyse , het organiseert gegevens op basis van concurrerende keuzes , zoals de vraag of een persoon een aardbeving heeft overleefd ? In tegenstelling tot de beslisboom algoritmen , die alleen kan classificeren een uitkomst of geef een regressie - gebaseerde numerieke uitkomst , kan de CART algoritme zowel gebruikt om de waarschijnlijkheid van een gebeurtenis te voorspellen .
|