Gegevens Reinigen Theorieën

Welkom op de Nederland Computer Kennisnetwerk!

Zoeken computer kennis

* Computer Kennis >> Software >> Database Software >> Content

Gegevens Reinigen Theorieën

Fouten kunnen worden gemaakt tijdens het verzamelen en data-integratie , en analisten moeten weten hoe deze fouten te identificeren en te corrigeren . Dit heet data schoonmaken , of gegevens schrobben . Dit is geen exacte wetenschap , en soms ook de beslissing van wat te doen is gebaseerd op het oordeel van de analist , maar ze weet dat niet alleen is het belangrijk om een voldoende hoeveelheid data hebben - het moet van een gerenommeerde kwaliteit , ook . Semantiek en opmaak

Een gemeenschappelijke data-cleaning taak omvat het verwijderen van fouten in de opmaak . Dit kan iets eenvoudigs als spelfouten gemaakt tijdens het verzamelen en invoeren van gegevens , tot problemen met de gebruikt om afzonderlijke items symbool . Bijvoorbeeld , stel het volgende stuk van de gegevens is in een dataset waarin een apostrof wordt gebruikt om afzonderlijke vermeldingen :

Bird Watchers '
Club'42 Baken Street'Boston

Dit zou gelezen worden als :

Bird WatchersClub42 Beacon StreetBoston

geautomatiseerde queries en programma
worden vaak gebruikt om gegevens van deze fout te reinigen .
Integratie

Sommige datasets zijn prima alleen maar problematisch worden als ze eenmaal zijn geïntegreerd in een groter repository of een data warehouse .

Dd Twitter /mm /YYMM /dd /yyyy

Of door gamma : : bijvoorbeeld, kan leeftijd als geboortedatum worden opgeslagen

20-30 , 30-40 , 40-5015-25 , 25-35 , 35-45

In sommige gevallen , zoals geboortedatum opmaak , is het vrij eenvoudig om semantische structuren te identificeren en standaardiseren van de inzendingen . In gevallen als de leeftijd varieert echter moeten aannames worden gemaakt . Bijvoorbeeld , is het aantal mensen 25-35 het gemiddelde van de bevolking 20-30 en 30-40 jaar oud
Uitschieters

Uitschieters
zijn ? datapunten die een lange weg van de rest van de gegevens liggen . Bijvoorbeeld een leeftijd van 600 , of een testscore enkele malen hoger dan het gemiddelde . In het eerste geval kunt u ervan uitgaan dat het een typo , maar in dat laatste is niet zo duidelijk . Als u niet weet of een uitschieter is een fout of een legitieme data punt , het is uw oordeel of om het te verwijderen of niet , rekening houdend met het doel van de gegevensverwerking .
Ontbrekende gegevens < br >

U moet ook beslissen wat te doen als er gegevens ontbreken . Ten eerste moet patronen worden geïdentificeerd met behulp van query's en statistische analyses - de verdeling van de ontbrekende gegevens bepaalt wat je moet doen . Bijvoorbeeld, als een online enquête heeft twee pagina's , maar alleen de vragen op de eerste pagina zijn beantwoord , kan deze informatie worden gebruikt om te helpen bij het verfijnen van de formulieren . Als ontbrekende gegevens wordt willekeurig verdeeld en is op dezelfde variabele , is het soms mogelijk om schattingen te maken op basis van wat al bekend is .

Previous: Het toevoegen van Evernote naar iCal

Next: Analytische functies van SQLite

Database Software

·	Drie Soorten primaire sleutels…
·	Uitdagingen van Access Databas…
·	Hoe te Tabs Van Oracle Output …
·	Hoe om gegevens van een Oracle…
·	Hoe maak je een Constant Decla…
·	Hoe de Foreign Key voor een Co…
·	Oracle 11gR2 Dedicated Vs . Sh…
·	Wat is Software Process Improv…
·	Hoe maak je een Composite prim…

Related Articles

Hoe het opzetten van een Mail Merge gege…
Hoe je verloren gegevens in Windows XP h…
Hoe om gegevens van een Tekstverwerking …
Hoe vul ik een Word- tabel met Access ge…
Hoe kan ik een Word- document Data Colle…
Hoe maak je een FDF- gegevens File Creë…
Hoe gegevens importeren in tabellen in W…
Hoe Access gegevens koppelen met Word-do…
Hoe Access Gegevens samenvoegen met Word…

Software Articles

·	Hoe kan ik een logo in Photoshop opslaan…
·	Hoe maak je een PowerPoint-presentatie P…
·	Hoe PowerPoint presentaties converteren …
·	Hoe te QuickBooks Get te stoppen me te v…
·	Hoe maak je een Post Merger
·	Hoe maak je een opstartbare cd voor Wind…
·	Hoe maak je een PowerPoint-dia invoegen …
·	Hoe je Skype Automatisch beantwoorden Zo…
·	Hoe je Photoshop jezelf met een Celebrit…