Fouten kunnen worden gemaakt tijdens het verzamelen en data-integratie , en analisten moeten weten hoe deze fouten te identificeren en te corrigeren . Dit heet data schoonmaken , of gegevens schrobben . Dit is geen exacte wetenschap , en soms ook de beslissing van wat te doen is gebaseerd op het oordeel van de analist , maar ze weet dat niet alleen is het belangrijk om een voldoende hoeveelheid data hebben - het moet van een gerenommeerde kwaliteit , ook . Semantiek en opmaak Een gemeenschappelijke data-cleaning taak omvat het verwijderen van fouten in de opmaak . Dit kan iets eenvoudigs als spelfouten gemaakt tijdens het verzamelen en invoeren van gegevens , tot problemen met de gebruikt om afzonderlijke items symbool . Bijvoorbeeld , stel het volgende stuk van de gegevens is in een dataset waarin een apostrof wordt gebruikt om afzonderlijke vermeldingen : Bird Watchers ' Club'42 Baken Street'Boston Dit zou gelezen worden als : Bird WatchersClub42 Beacon StreetBoston geautomatiseerde queries en programma worden vaak gebruikt om gegevens van deze fout te reinigen . Integratie Sommige datasets zijn prima alleen maar problematisch worden als ze eenmaal zijn geïntegreerd in een groter repository of een data warehouse . Dd Twitter /mm /YYMM /dd /yyyy Of door gamma : : bijvoorbeeld, kan leeftijd als geboortedatum worden opgeslagen 20-30 , 30-40 , 40-5015-25 , 25-35 , 35-45 In sommige gevallen , zoals geboortedatum opmaak , is het vrij eenvoudig om semantische structuren te identificeren en standaardiseren van de inzendingen . In gevallen als de leeftijd varieert echter moeten aannames worden gemaakt . Bijvoorbeeld , is het aantal mensen 25-35 het gemiddelde van de bevolking 20-30 en 30-40 jaar oud Uitschieters Uitschieters zijn ? datapunten die een lange weg van de rest van de gegevens liggen . Bijvoorbeeld een leeftijd van 600 , of een testscore enkele malen hoger dan het gemiddelde . In het eerste geval kunt u ervan uitgaan dat het een typo , maar in dat laatste is niet zo duidelijk . Als u niet weet of een uitschieter is een fout of een legitieme data punt , het is uw oordeel of om het te verwijderen of niet , rekening houdend met het doel van de gegevensverwerking . Ontbrekende gegevens < br > U moet ook beslissen wat te doen als er gegevens ontbreken . Ten eerste moet patronen worden geïdentificeerd met behulp van query's en statistische analyses - de verdeling van de ontbrekende gegevens bepaalt wat je moet doen . Bijvoorbeeld, als een online enquête heeft twee pagina's , maar alleen de vragen op de eerste pagina zijn beantwoord , kan deze informatie worden gebruikt om te helpen bij het verfijnen van de formulieren . Als ontbrekende gegevens wordt willekeurig verdeeld en is op dezelfde variabele , is het soms mogelijk om schattingen te maken op basis van wat al bekend is .
|