Het proces van het verwijderen van fouten en inconsistenties uit gegevens wordt Data Cleaning genoemd of Gegevens schrobben .
Hier is een uitsplitsing van wat het betreft:
* Gegevensreiniging: Dit is een bredere term die alle activiteiten omvat die verband houden met het verbeteren van de kwaliteit van gegevens, inclusief het identificeren en corrigeren van fouten, het verwijderen van duplicaten, het standaardiseren van formaten en het omgaan met ontbrekende waarden.
* Gegevens schrobben: Dit is een specifiek type gegevensreiniging dat zich richt op het verwijderen van ongeldige of ongewenste gegevenspunten. Dit omvat vaak het identificeren en corrigeren van fouten zoals typefouten, onjuiste datums of inconsistente opmaak.
Beide termen worden door elkaar gebruikt, maar "data -reiniging" is een meer algemene term, terwijl "gegevensschrobben" de nadruk legt op het verwijderen van ongewenste gegevens.
Hier zijn enkele veel voorkomende technieken die worden gebruikt bij het reinigen en schrobben van gegevens:
* Gegevensvalidatie: Gegevens controleren op vooraf gedefinieerde regels en het identificeren van fouten.
* Data -imputatie: Ontbrekende waarden invullen op basis van bestaande gegevens of het gebruik van statistische methoden.
* Data -transformatie: Gegevens omzetten in een gestandaardiseerd formaat of het toepassen van wiskundige bewerkingen.
* Gegevens de-duplicatie: Duplicate records verwijderen.
* Gegevensstandaardisatie: Zorgen voor consistentie in gegevensopmaak, eenheden en andere aspecten.
Het doel van het reinigen en het schrobben van gegevens is het verbeteren van de gegevenskwaliteit, waardoor het betrouwbaarder en bruikbaar is voor analyse, besluitvorming en andere doeleinden. |