Gegevens kunnen beschadigd raken op een aantal manieren , van input van de gebruiker fouten te formatteren inconsistenties . Duplicaten zijn een van de meest voorkomende problemen gegevens in de databanken van de meeste bedrijven ' . De beste manier om de nauwkeurigheid van de gegevens te waarborgen is om corruptie te voorkomen , maar het is verstandig om een plan om te gaan met data problemen bij problemen hebben . Duplicatie duplicaten kan een frustrerende ding om te zien als een data- auditor. Vaak kan een front - end scherm gegevens niet bepaalde vormen van duplicaten te vangen , bijvoorbeeld , in een adres tabel , kan 123 Hoofdstraat en Kerkstraat 123 lijken twee aparte locaties terwijl ze in feite zijn het zelfde adres < . br > Dit kan worden opgelost met behulp van een van de twee methoden: gegevens verwijderen of corrigeren van gegevens . Verwijderen van gegevens zou betekenen het verwijderen van alle , maar een instantie van een set van duplicaten , terwijl de gegevens corrigeren alle exemplaren van dubbel zouden werken naar een enkel overeengekomen waarde . Softwarepakketten beschikbaar die gebruik maken van een algoritme om uitschieters op basis van de standaarddeviatie , clusters of andere criteria te identificeren , dan is de uitschieters worden geëvalueerd door een onderwerp expert die het lot van de onverwachte binnenkomst bepaalt . Extract , Transform , Load Extract , te transformeren , te laden , of ETF , is een veelgebruikte methode om te bewegen en te reinigen gegevens . Hoewel er geen handmatige reiniging optreedt , zijn er geautomatiseerde taken in het vertalen fase . Bijvoorbeeld, als de bron tafel slaat " M " en "F " en de bestemming tafel slaat " mannelijk " en " vrouwelijk ", een script wordt uitgevoerd om de gegevens te vertalen naar de nieuwe waarden . Zodra de gegevens wordt gereinigd en gevalideerd , kan het worden geïmporteerd naar de bestemming tafel . Het kan ook worden ingevoerd via oude data data over te schrijven . Dit werkt goed als een hele kolom met gegevens in een tabel moet worden veranderd . Bijwerken Legacy Systemen bijwerken van een legacy-systeem omvat meestal het verplaatsen van de data om een tussenliggende locatie , of het opvoeren gebied , waar het dan ondergaat een geautomatiseerde evenals handmatige data cleansing ronde . Dit wordt gedaan om te voorkomen dat eventuele onomkeerbare fouten aan de legacy data voordat u deze importeert in het nieuwe systeem . Opgemerkt zij dat de oude gegevens niet worden bijgewerkt overeenkomstig informatie - management.com , om te voorkomen behoud twee datasets . Het moet in plaats daarvan worden teruggetrokken en het nieuwe systeem moet de enige die in gebruik zijn voor de toekomst.
|