data cleansing - ook wel bekend als data schoonmaken of schrobben - is het proces van het opsporen en corrigeren van fouten , inconsistenties en omissies in de gegevens . Grote hoeveelheden gegevens worden verzameld en geanalyseerd door politici , economen en wetenschappers , maar fouten in de data - die de verwerking en de daaruit getrokken conclusies kunnen beïnvloeden - zijn gebruikelijk en te verwachten . Er zijn verschillende methoden voor data cleansing , zowel traditionele als geautomatiseerd . Statistische methoden Statistische methoden kan worden gebruikt om gegevens te controleren en te corrigeren , zelfs complexe data fout . Een statisticus kan analyseren het gemiddelde, de standaarddeviatie en het bereik van gegevenswaarden en , zodoende , te identificeren individuele database records ( tupels ) die ongeldig zijn . Deze records kunnen worden verwijderd , of vervangen door een gemiddelde of andere statistische waarde . Statistische methoden van data cleansing kunnen ook aangeven ontbrekende waarden , die kan worden ingevuld met plausibele waarden op basis van de rest van de dataset . Data Cleansing Gereedschap gegevens reiniging instrumenten bestaan al een aantal jaren . Geautomatiseerde data cleansing instrumenten gewoonlijk op een specifiek domein databank - waarin de mogelijke waarden dan kan in elk veld ingevoerd definieert , of kenmerk - zoals naam en adresgegevens . Zij gebruiken meestal een reeks bijpassende regels uit een bibliotheek , of interactief geleverd door de gebruiker , om straatnamen , plaatsnamen en postcodes valideren en transformeren van de bestaande gegevens in afzonderlijke , standaard elementen . Ze gebruiken plaat aanpassing te bepalen of twee verleden van gegevens over hetzelfde onderwerp en kunnen individuele records hebben bijvoorbeeld hetzelfde adres combineren . Data cleansing instrumenten kunnen variëren in de mate van verfijning met betrekking tot de data auditing , reiniging en migratie . ETL tools ETL staat voor " Extract , Transform , Load " en er zijn vele commerciële software instrumenten om de ETL proces van data cleansing steun . De belangrijke kenmerken van een effectieve ETL tool is de mogelijkheid om direct brongegevens lezen en te reinigen en te transformeren data , samen met de steun voor metagegevens . Metadata is documentatie of informatie over een bepaald stuk van de gegevens en kan een gebruiker helpen om fouten en tegenstrijdigheden in de gegevens die niet noodzakelijkerwijs worden geïdentificeerd door de ETL tool zelf . ETL instrumenten bieden doorgaans een bibliotheek van functies en schema's voor het omzetten van data - data type conversies , rekenkundige functies , string functies , etc - en kan gegevens te extraheren uit vrije - vorm gegevensbronnen , met enkele beperkingen , alsmede via de standaard ODBC ( " Open Database Connectivity " ) en EDA ( " Electronic Design Automation " ) interfaces .
|